中野 淳一のコラム

データサイエンティストに求められるビジュアライゼーション力(発展編)

NEC AI・アナリティクス事業部 (兼 AIプラットフォーム事業部 )
中野 淳一

2018年11月13日

本文

利用データ

前回の基礎編では、データサイエンティストがデータを把握するために必要なビジュアライゼーション技術について説明しました。今回はお客様に報告する際に重要な「関係性」と「分類」のビジュアライゼーション技術について紹介します。

今回は下記のような、パン屋製造小売店(いわゆる街のパン屋さん)の販売データ(有効データ約2万件)を利用して、説明していきます。

図1.パン屋の販売データ(約2万件)
図2.商品ごとの販売レシート数上位10商品

併売分析

販売データ項目の3番目にある「Transaction」とはレシート番号のことで、レシートごとに購入商品を把握することが可能なデータとなっています。こういった販売データを用いたパターン発見の一つの手法として、併売分析(バスケット分析/アソシエーション分析)がよく用いられます。「ある商品と併売されやすい商品はどれか?」という問いに対して、相性の良い商品を発見し、棚割や品揃の知見として活用します。この併売分析では「リフト値」という重要な指標があります。実際に過去のプロジェクトであった事例ですが、「コンビニエンスストアでクリスマスにワインと最も多く併売される商品」をご存知でしょうか。正解は「年賀状」です。しかし、どちらも同じ時期の人気商品なので一緒に買う人は多いのですが、これが本当に知りたい解答でしょうか。数多く一緒に買われている商品ではなく、数が少なくても相性が良い商品(例えばチーズなど)を発見するのがこの分析の目的ではないかと思います。それを表すのが先ほど紹介した「リフト値」です。チーズを例に説明すると、チーズとワインが一緒に売れる割合と、チーズ全体の売れる割合を比較することで商品間の相性が計算できます(1以上だと併売されやすい)。このリフト値を計算すると、年賀状はリフト値0.9(年賀状全体が売れる割合と比べて、年賀状とワインが一緒に売れる割合は0.9倍)となり相性はそれほど良くなく、チーズはリフト値1.6(チーズ全体が売れる割合と比べて、ワインと一緒に売れる割合は1.6倍)となり相性が良い商品と言えます。

前置きが長くなりましたが、このリフト値をどのようにビジュアライゼーションするかについて述べていきます。パン製造小売店の販売データの売上上位10商品それぞれのリフト値を算出した結果、Excelを用いた場合、商品間の関係は下記のように表現されます。Excelでは各商品の相性が可視化されましたが、それぞれ個別の関係性を表しているに過ぎません。

図3. 売れ筋10商品のリフト値のExcelで作成したマトリクス

ヒートマップとクラスタ分析

ただ個別の関係性を見るだけでなく、グループで併売されやすい商品群が分かるようにするためには分類の要素が入ったグラフにする必要があります。ここに2種類を例示します。1つ目は「ヒートマップ」と「クラスタ分析」を足したグラフです。「ヒートマップ」はすでに前述のExcelで例を示したように、関係性の度合いを色で示したものです。「クラスタ分析」とは分析データをいくつかのグループに分類したい場合に用いる手法で、今回の例ではリフト値の結果に基づいて、商品を分類します。

図4. 売れ筋10商品のリフト値のヒートマップ+クラスタ分析

クラスタ分析することで相性が良い商品が隣同士に配置され、相性が良いグループを可視化することが出来ます。この場合だと「Hot_chocolate」「Brownie」「Cake」「Cookies」は相性が良い商品群を形成していることがわかります。このように「分類」の要素を入れることで、これまでバラバラだった関係性にまとまりを与えることが出来ます。

ネットワークグラフとクラスタ分析

2つ目に「ネットワークグラフ」を挙げます。ネットワークグラフとはデータの関係性を頂点(ノード)と辺(エッジ)で表現するグラフで、関係性が視覚的に理解しやすいグラフです。商品数を売上上位20とし、ネットワークグラフで表したのが下図となります。 (辺(エッジ)はリフト値1.2以上のみを引くようにしたため、リフト値1.2以上の併売商品がない商品は図に出てきていません)

zoom拡大する
図5. 売れ筋20商品のリフト値のネットワークグラフ

「分類」となるクラスタ分析にはソフトクラスタリング手法を利用しています。通常の分類はハードクラスタリングという手法を用いることが多く、「1属性1分類」になりますが、ソフトクラスタリングは「1属性多分類」となるクラスタ手法です。このため、このネットワークグラフでは商品によって複数のクラスタに属しています。例えば右図のJuiceは図の中心にあり、多くのクラスタに属しています。こういった商品は「ハブ商品」と呼ばれ、店舗の売上に与える影響が大きい商品です。ハブ商品は単体では売上が少なくても、品切れを起こすと商品の併売率が下がり、結果として店舗全体の売上が下がることが分かっています。こういった商品の知見は数値情報を提示するだけでなく、ビジュアライゼーションを利用することで初めてお客様も納得されるものだと思います。

今回はお客様に見せるビジュアライゼーションとして「関係性」と「分類」について説明させて頂きました。こういったビジュアライゼーションの技術を駆使することで多くの人が納得しやすい資料の作成に役立ててみて下さい。

参考文献

  • Winston Chang (2013)『Rグラフィックスクックブック―ggplot2によるグラフ作成のレシピ集』(石井弓美子ほか訳)O'Reilly Japan, Inc.
  • Hadley Wickham, Garrett Grolemund (2018)『Rではじめるデータサイエンス』(黒川 利明訳)O'Reilly Japan, Inc.

資料ダウンロード・お問い合わせ