サイト内の現在位置

データサイエンティスト協会 6thシンポジウム スポンサーセッション「データ分析プロジェクトのリアル」

開催日:2019年10月17日 場所:JPタワー ホール&カンファレンス 登壇者:NEC AI・アナリティクス事業部 長尾将宏

データサイエンティストの育成やデータ分析の発展を目指し、最新情報の提供、参加者同士の意見交換や交流の場として毎年開催されている「データサイエンティスト協会シンポジウム」。2019年10月17日、東京駅に直結するJPタワー ホール&カンファレンスで第6回目が開催された。

スポンサーセッションでは、NEC AI・アナリティクス事業部の長尾将宏が、データ分析の現場での苦労話や若手技術者ならではの悩み、それを乗り越えてこそ得られる醍醐味について講演。会場には、データサイエンスに興味を持つ多くの参加者が集まった。

データサイエンティストは21世紀、最もセクシーな職業!?

長尾は大学院で機械学習応用研究に携わった後、2015年、NECに入社。製造・流通・通信系の企業のデータ分析業務を経験後、2018年より現在の部署に異動し、機械学習プロジェクトのアドバイザリーや、データ分析のテンプレート化による効率化の検討などを行っている。

講演の始めに長尾は、『ハーバード・ビジネス・レビュー』2012年10月号で“データサイエンティストは21世紀、最もセクシーな職業”と紹介された記事を引用。「ここでいうセクシーとは、“とても刺激的で魅力的”という意味ですが、果たしてデータサイエンティストの仕事は刺激的で楽しいことだけなのでしょうか?」と疑問を投げかけた。

「“一億総データサイエンティスト時代がやってくる”などと言われ、注目が高まっていますが、データサイエンティストの仕事にはもちろん良い面だけでなく、大変な面もあります。今回は、自分が新米時代に、どんなことに悩み、苦労したのかをお話しすることで、データサイエンティストの“リアルな姿”を知っていただき、他山の石としていただければ幸いです」

“意外性のあるデータ分析”とは?

続いて長尾はプロジェクターを用いながら、スーパーの購買データ分析プロジェクトに携わった際の経験について紹介。課題ヒアリング、データ観察、報告の3つのフェーズで苦労した点を語った。

「まず、弊社の営業から某スーパーA社の購買データ分析のアドバイザーを依頼されました。分析者は営業側で手配済みでしたが、分析経験が少ないため『ちょっと手伝ってもらいたい』と言われたのですが、この“ちょっと”というのが要注意ワードで…。今から考えると、具体的にはどの範囲を指すのか、できること・できないことを明確化し、文書で残しておくべきだったと思います」

データ分析の現場での“あるあるエピソード”に、参加者の中には苦笑しながら、大いにうなずく人も。会場は一気に和やかな雰囲気に包まれた。

「A社との初回の打ち合わせには、ある商品の購入者の平均年齢やRFM(Recency:最終購買日、Frequency:購買頻度、Monetary:購入金額による購買行動分析)など基礎的な分析内容を報告しました。しかし、A社の担当者には『基礎分析ではなく、意外性のあるデータ分析をしてほしい』と言われてしまい、『意外性とは?』『御社の業務課題は?』と質問を投げかけましたが、『それを考えてほしい』と返され、話は平行線をたどったまま終わってしまいました」

A社から提供されたのは購買履歴のデータのみ。それを使ってできる“意外性のあるデータ分析”とは何か――。

「ひたすら考えた結果、以前、NECの展示会で使った“価値観データ”を使い、A社のプライベートブランドを好きな消費者の価値観を分析したら面白いんじゃないかと思いました。2万人の市場調査データを基に、A社の消費者をNECの“異種混合学習”という多種多様なデータの中から精度の高い規則性を自動で発見するAI技術を使ってクラスタリングし、ペルソナ(典型的なユーザー像)を分析しました」

ところが、A社の担当者から返ってきたのは「そういう飛び道具ではなく、提供したデータから意外性のある知見を見つけてほしい」という言葉だった。

「初回の打ち合わせから3週目にして、話はまた振り出しに戻ってしまいました…」

そこで長尾は、スーパーのデータ分析経験のある社員にも協力を仰ぎ、①既存顧客の単価向上、②季節性商品への効果的な広告、③離脱顧客の防止の3つの分析案を作成し、A社に提案。その結果、分析課題は離脱顧客の防止に決定し、購買データとポイントアプリのデータを組み合わせて分析をすることになった。

データから考えるのではなく、出すべき成果から考える

「この経験から学んだのは、お客様に課題を直接聞いても出てこないことが多いということ。『こんなことや、こんなことが、課題ではありませんか?』とこちらが推測して、いくつかリストアップすることが必要です。ただ、その推測も、業界についての知識やデータ分析の経験が浅いと難しい。経験者に協力を仰ぐことも重要です」

そして、次に長尾がスライドに写し出したのが、NECで採用している“DIVA”というフレームワークだ。データ(Data)、情報(Information)、価値(Value)、成果(Achievement)の頭文字から命名された価値創造のプロセスである。

「最初に考えるべきなのはAchievement。つまり、『どのような成果を出すべきか』です。そこからさかのぼって、『そのためにはどんな価値を生み出せばよいか』『どのような情報を導き出せばよいか』『どのようなデータが必要になるのか』と考えていくことで、やるべきことが明確化されていきます。今回の例で言えば、離脱顧客を減少させるには、特定ユーザーに対して有効な離脱防止策が必要です。それを導き出すためには、どんな人がどんな場合に離脱するのか・しないのかという分析が必要で、そのためには購買データだけでなく、ポイントアプリのデータも必要になります。」

DIVAという考え方に、参加者の多くが身を前に乗り出し、熱心に聞き入る姿が見られた。

前処理にかかる時間と手間は多めに見積もるべし

次に長尾が苦労したのが、データ観察のフェーズである。一番重要なアプリデータがなかなかもらえず、大型連休を挟んだ後、やっと届いたデータを開くと、100MBのファイルが1,000ファイル、全部で100GBもの膨大な量があり、愕然としたという。

「ファイルサイズが大きすぎるので、期間を限定して分割したり、分析できる形に変換したり、データの不明項目をA社に問い合わせたり…。前処理だけでやることが多すぎて途方に暮れそうになりました。データ内容の確認とお客様のやり取りを一人で同時にやるのは現実的ではないと判断し、社内で役割分担を決めてチームワークで乗り切りました。ちなみに、今回のデータでは、それほど問題なかったのですが、名詞の表記の仕方が全角・半角、正式名称・略称などと混在していると、『名寄(なよせ)』という作業が必要になり、さらに大変です。前処理にかかる時間と手間は多めに見積もっておいた方がいいと思います」

やっとたどり着いた、意外性のある分析結果

入手したデータは、アプリデータ、顧客属性、購買情報、商品情報、キャンペーン情報など。これらを入力し、NECの異種混合学習技術を使い、顧客クラスタごとに離脱しやすい・しにくい因子を抽出。A社のペルソナのカスタマージャーニー(行動・思考・感情を時系列で見える化したもの)を作成し、それを踏まえて有効な離脱防止策を提案した。離脱・継続顧客を判別するために用いた特徴量は約400。性別・年齢だけでなく、商品購入数やキャンペーン・イベント参加状況、アプリへのアクセス頻度など、非常に多岐にわたった。

「A社の担当者からは、『顧客クラスタの分け方が年齢・性別ではなく、今までにない分け方なのが良い』『カスタマージャーニーも意外性があって面白い。こういう離脱顧客がいるのだと初めて知ることができた』というお言葉をいただきました。初回の打ち合わせから9週目、お客様にとって価値のある“意外性のある分析”をようやくすることができました。

データサイエンティストに向いているタイプとは

最後に、長尾はデータサイエンティストの仕事を山登りにたとえて説明した。

「最初は森の中をさまよっている感じですが、途中でパッと視界が開けたり、木漏れ日がさした時にホッとしたり、気分が高揚する。それが分析課題を見つけた瞬間です。その後、データ分析をひたすら続ける時間は、険しい雪山を登り続けるようなもの。でも、ようやく答えを導き出せた時は、登り切った頂上で雄大な景色をみわたすような達成感があります」

山登りが好きな人と苦手な人がいるように、誰もがこのような思いに共感できるとは限らないと長尾は続けます。

「データサイエンティストが最近注目の職業だから、稼げそうだからという動機だけで、この仕事を選んでも辛くなってしまうでしょう。データから誰も知らない隠れた法則を明らかにし、データ分析を基にお客様の業務を改善して利益に結び付けることに喜びを感じられる人にこそ、ぜひデータサイエンティストを目指していただきたいと思います」