Japan
サイト内の現在位置
東京丸の内・新宿の人口動態予測に挑戦 ― 予測精度コンテスト 上位者インタビュー
NECは、KDDIの協力のもと人口動態データを用いた分析コンテスト「NEC Analytics Challenge Cup 2020」を開催。「予測精度コンテスト」では、難易度別に「オフィス街部門」と「繁華街部門」の2部門を設け、それぞれ特定地域および指定条件における滞在人口の予測精度を競った。
今回、オフィス街部門と繁華街部門それぞれの上位者を招き、分析コンテストへの取り組みについて語ってもらった。
オフィス街部門 上位入賞者
泉 英樹 氏 滋賀大学 データサイエンス学部
袴田紘斗 NEC 第二都市インフラソリューション事業部
繁華街部門 上位入賞者
仙田裕三 NEC 第二都市インフラソリューション事業部
山下 修 NEC 通信業ソリューション事業部
石村 司 NECソリューションイノベータ プラットフォームサービス事業部
江部哲生 NECソリューションイノベータ 北海道支社
オフィス街部門
予測精度コンテストのオフィス部門は、学生と新社会人(入社2年目まで)を参加対象に開催された。参加者は、過去の人口動態データを用いて2019年7月のオフィス街(東京駅 丸の内周辺)における40代男性の平均滞在人口を予測する課題に取り組み、その予測精度を競った。
データ分析に取り組む若い世代の挑戦を後押しするこの部門で、上位入賞者はどのように分析に取り組んだのか。泉英樹さん(滋賀大学)と袴田紘斗さん(NEC)に聞いた。
―― 入賞おめでとうございます。分析コンテスト参加の経緯について、普段のデータ分析との関わりとあわせて教えてください。
泉:
私は滋賀大学 データサイエンス学部の2回生で、いまは統計などデータサイエンスの基礎を学んでいます。今回の分析コンテストは、同じくデータサイエンスを学ぶ小川幸進さんとチームを組んで、田中琢真先生に指導いただきながら参加しました。これまでデータ分析のコンテストに参加したことはなかったのですが、学んできたデータ分析の手法を実践するよい機会と考え、今回の挑戦に至りました。
袴田:
私はNEC 第二都市インフラソリューション事業部に所属しており、入社2年目です。現在、私は業務においてデータ分析に携わっていないのですが、部内にはデータ活用を手掛けるチームがあり、ゆくゆくは私もデータ分析やAI活用を手掛けたいと考えています。その勉強の一環として、今回の分析コンテストに参加しました。大学ではAI関連の研究をしていて基本的なデータ分析手法も学んでいたのですが、入社後はその分野から離れてしまっていたので、この場を使って学び直す意図もありました。
―― 分析のアプローチや工夫した点など、分析コンテストへの取り組みについてうかがえますか。
袴田:
まず分析対象のデータを観察した際に感じたのが、特徴量の少なさです。滞在人口という目的変数に対して説明変数が少なくて、予測に利用する特徴量作りが大変そうだと思いました。大学時代に経験したデータ分析では、数ある特徴量から予測に効果的なものを選択するアプローチが多く、特徴量を自分で作ることはあまりなかったものですから。なので、今回は自分で特徴量を設計して予測精度を高めることを1つのテーマとして、分析に取り組みました。最終的に分析手法として採用したのは、国際的なデータ分析コンペでもよく使われているXGBoostですが、ニューラルネットワークを用いた予測も試しています。
特徴量については、曜日や月、月の前半/後半といった項目のほか、対象エリア内に立地する美術館の展示会開催期間なども追加して、精度に与える影響を確認していきました。ただ、作った特徴量の内容が似かよってしまい、どれが本当に有効なのか、その足し引きに悩みましたね。
泉:
提供されたのは、2018年と2019年それぞれの指定期間のデータで、周期性がある時系列データだと見て取れたので、時系列データ分析の代表的なモデルのなかでも季節性を考慮した「SARIMAモデル」の採用を考えました。同時に、指定された予測対象の期間には祝日や連休が含まれていたので、それらの特徴的な変動への対処も必要だと思いました。
まずは、2019年のデータを使ったSARIMAモデルに外因性を追加したSARIMAXモデルで予測を行ったのですが、その結果を予測精度の中間発表に提出したところ、思うような精度が出ていませんでした。それから指導教官である田中先生にアドバイスをいただいて2018年のデータも分析に利用することにし、最終的にSARIMAモデルを中心とした3つのモデルをアンサンブルしたもので予測した結果を提出しています。
分析の過程で気を配ったのは、データや予測結果を丹念に見て違和感を持つ部分があれば調整するようにしたことです。
―― 分析コンテストに参加してみて、どのような気づきや感想を持ちましたか。
泉:
これまで授業や個人的な興味でデータ分析に取り組んできましたが、こうしたデータ分析のコンテスト参加は初めてだったので貴重な経験となりました。それに、分析コンテスト開催のタイミングはちょうど大学の夏休み期間で、時系列データ分析について授業で学ぶ前でした。ですから、思いがけず授業の予習になり、大学での学びを深めるうえでも、よい機会になったと感じています。
袴田:
今回、私は「特徴量をうまく作れれば精度が出せる」という考えのもと特徴量設計に軸足を置いて分析を進めたのですが、最終結果をみると、泉さんが用いたSARIMAモデルの方が今回の分析対象データには適していたと思います。分析対象のデータの特性を把握し、それに合ったモデルを選定することが大切だとあらためて実感しました。
また、少し話が逸れるかもしれませんが、分析コンテストに充てる時間を確保するために、これまで以上に業務の時間管理に気を配るようになりました。コンテスト参加という目標があることで、普段の業務遂行にもメリハリが出るという波及効果がありましたね。
―― 最後に、今後チャレンジしてみたい分析や目標について教えてください。
袴田:
オフィス部門は「少ないデータをどう扱うか」がポイントだったと思いますが、「特徴量の多いデータから重要なものをいかに抜き出すか」という、特徴量設計の力が試されるような、より大規模で複雑なデータの分析にチャレンジしてみたいです。ビジネスに役立つデータ分析の力を身につけることを目標に、今後もこうしたコンテストの場を活用していきたいと思います。
泉:
私も、より大規模で複雑なデータを扱った分析に挑戦していきたいですね。今回のデータは周期性のある典型的な時系列データだったので、SARIMAモデルのような古典的な時系列モデルがうまく適用できたのだと思います。今後は、より大規模で複雑なデータにおいて力を発揮するニューラルネットワーク系の手法などについても学んでいきたいです。コンテスト参加の経験を活かしながら、引き続きデータサイエンスの勉強に励みたいと思います。
繁華街部門
繁華街部門では、過去の人口動態データを用いて、2019年7月の繁華街(新宿駅 西口/東口周辺)における全年代・全性別の平均滞在人口の予測精度を競った。予測対象が多く、対象のエリアや属性によってデータの傾向が異なることから、オフィス街部門にくらべ難易度の高い課題である。
上位入賞チームから仙田裕三さん(NEC)、山下 修さん(NEC)、石村 司さん(NECソリューションイノベータ)、江部哲生さん(NECソリューションイノベータ)の4名を招き、それぞれどのように分析コンテストに取り組んだのか語ってもらった。
―― みなさん、上位入賞おめでとうございます。分析コンテスト参加の経緯について、普段のデータ分析との関わりとあわせて教えてください。
仙田:
私は所属するNEC 第二都市インフラソリューション事業部のメンバーでチームを組んで参加しました。今回のコンテストだけでなく、これまでもNECグループ内で開催された分析コンテストに連続で参加してきていて、いまではちょっとした「お祭り」といいますか、毎年恒例のイベントとして取り組んでいます。
江部:
私も、恒例のイベントとして、コンテストそのものを楽しもうと思って毎回参加しています。もちろん、データ分析のスキルアップと腕試しの目的もあります。
山下:
私もここ数年、NECグループ向けの分析コンテストに連続で参加しています。普段の業務ではデータ分析を行っていないのですが、個人的なスキルアップの場としてコンテストを活用しています。
石村:
私は業務でAI技術の調査などに携わっていて、自分のデータ分析の力をつけるために、分析コンテストに参加しました。みなさんと同じく、過去に開催されたNECグループ向けの分析コンテストにも参加しているのですが、私は上位入賞に至っておらず「今回こそは」という気持ちで取り組みました。
―― 繁華街部門は、新宿駅周辺の全年代・性別の人口動態データを予測するという課題でした。データの第一印象はいかがでしたか。
仙田:
人口動態データ自体は過去に業務で扱った経験があるのですが、新宿というエリアに注目してデータを見たことはなかったので、どんなことが読み取れるのか興味を持ちました。実際にデータ観察をしてみると、新宿駅の東口側と西口側で傾向が正反対で興味深く思いました。これまで新宿を訪れることはあっても、エリアによる印象の違いを意識したことがなかったので、データとして見ることで「言われてみればたしかに」と納得したといいますか。また、今回はエリアもデータの取得期間も限定的だったので、データの量は想像よりも少ないと感じました。
山下:
データが絞られているという印象は私も持ちました。用意されている説明変数が少ない分、オープンデータなどを活用し、自分で特徴量を設計するなど、予測精度を向上させるには工夫が必要だと考えました。
江部:
私も、データの特徴量がシンプルなので、そのまま使うのでは予測精度に大きな差が出ず接戦になるとまず感じました。イベントデータを収集して活用したり、前年である2018年のデータをうまく使わないと、1位を獲るのは難しいだろうなと。
石村:
分析対象が人口動態データと聞き、私は人口動態データを扱ったことがなかったので「どんなデータなのだろう」とまず興味を持ちしました。データ観察では突出した動きがある日について、その要因となっていそうなイベントを調査するなどして傾向をつかんでいきました。
―― 分析アプローチについて概要や工夫した点、苦労した点などをお聞かせください。
仙田:
データの傾向の異なるエリア・性別・年代ごとにデータを分割し、曜日に注目してデータ操作を行うことで滞在人口を予測しました。何か特定のアルゴリズムを使うこともできましたが、データ量を考慮すると過学習を抑制するのが難しいだろう判断し、今回は採用していません。
予測精度の向上にあたっては、予測精度の中間発表でトップとの差が大きいことから、データを再度見直して違和感のある条件を特定しました。具体的にはF1層でデパートのサマーセールが強く滞在人口に影響していると考え、予測の際にその情報を利用しました。
山下:
先ほど話したように分析対象データの特徴量が少なかったので、自分で曜日や平日/休日、統計値などの特徴量を追加して増やすことで予測精度を上げていくアプローチを取りました。分析ではLightGBMを利用し、Optunaでハイパーパラメータを調整しています。私はデータ分析については勉強中なので、初学者でも扱いやすいものをと考えて、今回の手法を選びました。
石村:
山下さんと同じく、私もLightGBMとOptunaによるパラメータチューニングを採用しました。工夫した点としては、東京都で開催されたイベント情報の追加、クロスバリデーションによる過学習抑止などです。ただ、結果的に今回追加したイベントに関するデータが予測精度に与える影響は限定的でしたので、特徴量を増やすことにも力を入れた方がよかったと感じています。
江部:
エリア・性別・年代・曜日をキーにデータセットのグループを用意し、それぞれ線形回帰で算出した傾きを特徴量として利用しています。分析対象が時系列データということで、ARMAやARIMAモデルを利用した分析も行ってみたのですが、単純なモデルと比較して精度が著しく劣っていたため、今回は利用に向いていないと判断して採用を見送っています。その他のアルゴリズムについても検討したのですが、仙田さんが指摘していたように、データ量が少なくて過学習を起こしやすいと考え、傾向の異なるデータセットごとに線形回帰モデルを作成する手法に落ち着きました。
―― 分析コンテストに参加しての気づきや感想についてうかがえますか。
江部:
今回の人口動態データもそうですが、初めて触るデータはやはり興味深く、データ観察が楽しいですね。その後の工程は大変で、つらく感じることもあるのですが(笑)。
また、これまでと違ってNECグループ社員だけでなく連携大学・企業の方が参加されていて刺激になりました。繁華街部門の1位は連携企業の方でしたので、私たちNECグループも気合いを入れないといけないなと、引き締まる思いがしました。
今後の取り組みとしては、いまDXを掲げて業務やプロセスのデジタル化が進むなか、数理最適化問題や統計的因果推論、EBPM(Evidence-based Policy Making:根拠にもとづく政策立案)の領域が注目を浴びていますから、そうした領域で自分のデータ分析の力を活かしていきたいと考えています。
仙田:
分析手法という観点では、特別に新しいことを試したわけではないのですが、代表的なアルゴリズムを使わずとも今回採用したアプローチで予測ができるというのが1つの発見でした。エリアによる人の行動の違いが、人口動態データという形ではっきりと見ることができたのもよい経験でしたね。「同じ新宿だし、東口/西口の違いはあまりないのでは」という先入観を持っていたことに気づき、データを見ることの重要性をあらためて感じました。
また、これまで私が業務で行ってきたデータ分析は、データの欠損箇所や現在の状況を推定するものが多く、今回のように将来を予測するタイプの分析はあまり扱ってきませんでした。ですから、コンテスト参加は、予測分析に取り組むよい機会になったと思います。
山下:
私はデータ分析の勉強を目的として毎回コンテストに参加していて、今回はLightGBMやOptunaなど分析手法を試すことができ、よい経験になりました。まだ業務ではデータ分析や機械学習を扱っていませんが、応用できる課題が出てきたときは、今回の経験も活かして対応していきたいです。
石村:
コンテストに取り組むなかで、特徴量設計の重要性をあらためて認識しました。最初のうちは、少しだけ特徴量を加えてパラメータチューニングで精度向上を図ろうと考えていたのですが、予測精度の中間発表の結果が思わしくなくて。どのような特徴量を作成するかも大事ですが、ある程度の数を用意することも同じように必要だと感じました。業務でもAIに関わることが増えていますので、この経験を今後に活かしたいと思います。
資料ダウンロード・お問い合わせ