熟練者の意図を学習・モデル化し、高度な意思決定を模倣するAI技術: NECの最先端技術| NEC

2019年7月17日

行動履歴データから熟練者のノウハウやカン・コツを学習し、さまざまな判断や意思決定への示唆を与えてくれる意図を学習するAI技術。この技術の詳細について、開発者の二人に話を聞きました。

解釈可能なかたちで、熟練者のノウハウにならった判断の根拠を提示

― 本技術は、どのような技術なのでしょうか？

手本となる熟練者の行動履歴から、その行動基準となっている「意図」を学習して、私たちの意思決定を支援するAI技術です。たとえば、コンビニエンスストアでの発注を考えてみてください。これまでは経験・実績のあるスタッフや店長さんが、天気や時節、流行などさまざまな要因を鑑みながら適切だと思う商品や量を判断し、発注してきました。おにぎりのどの種類を何個、シュークリームを何個発注するだとか、そういったことですね。しかし、こうした判断の背景にあるスタッフの「意図」は極めて属人的かつ感覚的なものです。そのため、各人のなかに蓄積されたノウハウを後継者に継承したり、他の店舗やスタッフに共有したりすることは、非常に難しい問題となっていました。
本技術は、こうした熟練者の「意図」を理解して、ある環境下において最適だと思われる判断を私たちに提示してくれる技術です。同じような条件下では、熟練者は過去にこんな発注をしていましたよということを提示したり、チェーンのなかでも高い売上を出している店舗ではこんな発注をしていますよということを提示したりすることができます。そのため、まだ慣れていないスタッフであってもすぐに高度な作業を進めることが可能です。

これまでのAI技術というと、過去データをもとにして未来の値を「予測」するということが主流でした。しかし、今回の私たちの技術は、予測だけでなく人間の意思決定をサポートするところまで迫れたというのは、大きな前進だと思います。

私自身も、これまで異種混合学習技術というNEC独自の予測技術の研究開発に携わってきましたが、ただ予測値を提供するだけでなく、次のステップとして生じる判断や意思決定までサポートできるようにしたいと常々考え続けてきました。コンビニエンスストアの例でいえば、明日の各商品の売上予測を情報として提示するだけにとどまらず、「じゃあ、どうすればいいか / 何をどれだけ発注するべきか」というところまで支援できるようにしたいということですね。これは、今回の技術開発における大きなモチベーションになりました。
そのため、今回の技術ではAIによって導き出されたアウトプットの「根拠」が解釈可能であるということにもこだわっています。たとえば重要な経営判断や、大型プラントのシステム管理などのシーンにおいては、最終的な意思決定を行うのは常に私たち人間です。AIが出した判断の背景にある根拠が明確で納得できるものでなければ、誰だって怖くてその判断を信じ、従うことができないでしょう。ディープラーニングなどの一般的な機械学習技術では、非常に複雑な単一の目的関数で判断を導き出すため、もはや私たち人間は、その根拠を読み取ることができません。それに対して、本技術ではNECの異種混合学習技術を拡張し、複数の場合分けを設定しながら、それぞれにシンプルな目的関数を生成できるように設計しています。さまざまな場合ごとに、私たちが理解できる程度の目的関数が配されているので、AIはこの状況をどういう場合に該当すると認識し、どういう判断を下したかという根拠を解釈できるようにつくりあげています。これにより判断の根拠が可視化されるので、意思決定の判断材料としてさまざまなシーンで活用しやすいものになっています。

熟練者の行動履歴データから効率的に意図を学習

― 意図を学習するAI技術は、どのような技術によって実現されているのでしょう？

基本となっているのは、逆強化学習です。手本となる行動履歴データから、その意図を学習します。仮決めの意図（＝目的関数）を設定し、それをもとにシミュレーションした結果と熟練者の行動データを比較して、その差を小さくするようにアップデートを繰り返して精度を高めていきます。

ポイントは、すべてデータから自動的に意図を学習できるという点です。これにより、熟練者の頭のなかにあるノウハウを正確かつ効率的に学習できるようになります。
従来のアプローチでは、データサイエンティストが熟練者にヒアリングを実施し、そのノウハウを数式化していくのが一般的でした。ただ、こうしたやり方はとても時間がかかりますし、そもそもヒアリングでは普段意識しているノウハウのみが言語化されるものです。無意識で行っている行動や判断、特に回避している条件は見逃されてしまう傾向があります。
今回の技術では、熟練者の行動データから目的関数を自動的に設定すると同時に、回避している制約条件も学習できるような仕組みをつくりあげました。これにより、熟練者のノウハウを余すことなく学習することができるようになっています。

また、今回の技術はモデルフリー方式の逆強化学習をベースにしています。モデルフリー方式とは、目的関数をアップデートする際に、行動によって最適化対象の状態がどう変化するかを模擬する予測（状態遷移）モデルを不要にする方式です。
現在、ディープラーニングと予測モデルをベースとした逆強化学習が、自動運転やロボット制御を中心に活用され始めていますが、これらの対象は運動方程式などの明示的に記述できるルールに従って動くため、状態遷移が予測しやすい領域といえます。しかし、いま私たちが取り組もうとしているのは、もっと複雑で不確実性の高い環境下での問題です。そこでは、どうしても状態遷移の予測誤差が生じてしまいますから、予測モデル自体を用いない方法を開発する必要がありました。今回の技術では、行動履歴データからのサンプリングをもとにして十分に精度を高められる方法を開発し、これを実現させています。また、精緻な予測モデルをつくることや最適化シミュレーションの実行を不要にしたことで、学習時の時間やコストも大きく削減できるという効果もあります。

CM放映スケジューリング業務で効果を実証

― どのような応用を考えていますか？

いま実証実験を進めているのは、テレビ局におけるCM放映スケジューリング業務への応用です。一つひとつのCM特性に応じて、どの時間帯で、どんな番組の付近で、番組の前で流すか、後ろで流すかなど、さまざまな要素を考えながら最も効果的なスケジューリングを導いていきます。たとえば、サプリメントのCMであれば高齢者の方々に見ていただける早朝の方が効果的であるとか、ビールのCMは夜のグルメ番組の近くが効果的であるとか、そういった条件を組み合わせて一定期間分の放映スケジュールを組んでいくわけです。また、料理番組のあいだに殺虫剤のCMを流せないなどの制約条件も存在します。番組のイメージ、ブランドイメージも鑑みながら判断することも必要不可欠です。
1年間ほど実証実験を続けてきた結果、いまでは本技術が熟練のスタッフと同等レベルのスケジューリングができることを確認することができました。お客様からもご評価をいただいていて、ちょうどこれから本格的な稼働へ向けて取り組もうとしているところです。

ほかにも、さまざまな応用シーンがあると考えています。先ほどから例に挙げている小売業での発注業務はもちろん、RPA（Robotic Process Automation）の高度化や大型プラント運用における意思決定支援においてもご活用いただけるでしょう。少子高齢化に伴う熟練者の不足によって、ベテランの意図を再現し、継承することのできる本技術の意義はますます大きくなると思います。
また、それ以外にも、スマートカ―やスマートホームへの応用も可能です。たとえばドライバーの行動履歴を学習して「高速道路で10分くらい同じスピードで走っていると、この音楽を流しますよね」と判断して自動で音楽を流してくれたり、家での行動履歴からエアコンを自動で調整したりすることもできるでしょう。

― これからの目標は？

AIは、人間の意思決定を補助したり、助けたりすることのできるツールだと思っています。そういう意味ではやはり、今回の技術により予測するだけでなく、より深く、意思決定を支援するところまでできるようになったのは、とても大きいと感じています。これからも、人間の意思決定を機械が助けるというテーマはどんどん深めていきたいですね。さまざまな領域におけるヒューマンエラーを減らし、人を助けられるような技術研究を進めることを、変わらず取り組みつづけたいです。

データ分析というのは本来、行動を変えてこそ価値のあるものなのだと思っています。事業としても、予測値だけをご提供して、あとは考えてくださいというのでは物足りないですよね。今回の技術により、ようやくお客様に対して「こうしたらいいですよ」ということまで言うことができるようになりました。こうしてもっと、お客様のため、私たち人間をサポートするために役立つ技術の研究をつづけていきたいと思っています。