熟練者の意思決定を模倣する意図学習技術: Vol.72 No.1: 新たな社会価値を生み出すAI特集

近年、さまざまな業務で人工知能（AI）による自動化が進められています。一般にAIによる自動化は、対象業務における良さや悪さの指標（最適化指標）を設定し、AIにその指標を最大もしくは最小にする意思決定（数理最適化における最適解）を自動で探索させることで実現されます。しかし、属人的な業務ではAIに対する最適化指標の設定が難しく、自動化が困難となっています。本稿では、熟練者の意思決定履歴データから、背後にある「意図」として最適化指標を学習し、その意思決定を模倣することで属人的な業務においてもAIによる自動化を実現するNECの意図学習技術を紹介します。

1. はじめに

近年、さまざまな業務で人工知能（AI）による自動化が進められています。一般にAIによる自動化は、対象業務における良さや悪さの指標（最適化指標）を設定し、AIにその指標を最大もしくは最小にする意思決定（数理最適化における最適解）を自動で探索させることで実現されます。例えば、マーケティングにおけるキャンペーン業務では、費用対効果を最適化指標として設定し、どのような顧客にどのようなキャンペーンを打てばその指標を最大化できるかをAIに探索させることで自動化できます。しかし、属人的な業務では最適化指標の設定が難しく、熟練者に「最適化指標として何をどれだけ重視するのか」をヒアリングすることが必要となります。このヒアリングに基づく試行錯誤には膨大な時間やコストがかかるため、属人的な業務の自動化は困難となっていました。

そこで、NECは、図1に示すように熟練者の意思決定履歴データから、背後にある「意図」として最適化指標を学習する意図学習技術を開発しました^1）。学習した最適化指標に基づく数理最適化を実行することで、熟練者の意思決定を模倣でき、属人的な業務においてもAIによる自動化が実現できます。意図学習技術は逆強化学習^2）をベースとしており、次の2つの特長を備えています。

1）
複雑な意図を解釈可能な最適化指標としてモデル化
2）
既存の逆強化学習に比べ大幅な計算効率化

熟練者の意思決定は複雑な意図に基づいており、それを最適化指標として学習するため、既存の逆強化学習では複雑なニューラルネットワークを用いたモデル化が行われています。対して、意図学習技術では、複数のシンプルな意図（線形式）の組み合わせとして複雑な意図をモデル化します。これにより、最適化指標として「どのような場合に何をどれだけ重視するのか」が明示的に分かり、実適用時に要求される解釈性を担保できます。また、逆強化学習は本質的に計算コストが高いアルゴリズムなのですが、意図学習技術ではその計算効率を大幅に高める方式を開発しました。本稿では、次節以降、数理最適化問題における「意図」の説明や本技術の特長及び実適用例の紹介を行います。

1.1 数理最適化問題における「意図」

まず、意図学習技術において、数理最適化問題における「意図」とは何を指すのかを説明します。例として、小売店のシフトスケジューリング問題を取り上げることとします。この問題は、組み合わせ最適化問題として扱うことができ、

条件1：必要な人数確保
条件2：スキルなどを考慮した人員構成
条件3：休みの希望の反映
条件4：各人の勤務回数
条件5：禁止される勤務パターンの排除

を満たすスケジュールを探索することで最適解を求めます。条件4、5は必ず満たす必要がありますが、条件1、2、3については多少違反しても良く、このことから、条件4、5を制約条件とし、条件1、2、3それぞれの違反度の重み付き和を目的関数すなわち最適化指標として最小化するスケジュール（組み合わせ）を最適解として求めます。

この最適化指標の各構成要素の重みは「何をどれだけ重視するのか」という「意図」を表しており、シフトスケジューリング問題だと図2のように条件1、2、3のうち、何をどれだけ重視するのかに対応しています。このように、意図学習技術においては、数理最適化問題における「意図」とは最適化指標の各構成要素の重みを指すこととします。

2. 意図学習技術

意図学習技術は、ベース技術である逆強化学習を拡張し

1）
複雑な意図を解釈可能な最適化指標としてモデル化
2）
既存の逆強化学習に比べ大幅な計算効率化

をその特長として実現しています。以下ではまず逆強化学習を説明し、意図学習技術の2つの特長を紹介します。

2.1 ベース技術：逆強化学習

逆強化学習は、強化学習の逆問題を解く手法であり、設定された最適化指標から最適解を探索する強化学習に対し、熟練者の意思決定履歴を最適解だとしてその最適化指標を学習する技術です。なお、逆強化学習は強化学習のみならず組み合わせ最適化や最適制御などさまざまな数理最適化問題の逆問題を扱うことができます。図3に示すように、逆強化学習アルゴリズムでは、（1）熟練者の意思決定履歴データ、（2）自動化対象業務に対応する数理最適化問題（組み合わせ最適化or最適制御or強化学習）の最適化ソルバ、（3）最適化指標の各構成要素とその重みの初期値を入力とします。そして、最適化指標に基づく最適解（意思決定履歴）の探索と、最適解と熟練者の意思決定履歴の差分を小さくするための最適化指標の重みの更新を交互に行い、最適解と熟練者の意思決定履歴が十分近づけば、学習を終了し、熟練者のものと差がなくなった最適化指標を出力します。

逆強化学習の実適用には、複雑な意図を解釈可能な形としてどうモデル化するのか、アルゴリズム内で何度も数理最適化の実行が必要な高い計算コストをどう削減するのかという課題があります。

2.2 特長1：複雑な意図を解釈可能な形としてモデル化

従来の逆強化学習では熟練者の複雑な意図を単一の最適化指標として学習するため、解釈性の高い線形式としてモデル化すると表現力が足りません。また、表現力に富むニューラルネットワークとしてモデル化すると解釈性が足りないなど、複雑な意図のモデル化に必要な解釈性と表現力の両立は困難とされてきました。意図学習技術では、NECの最先端AI技術群「NEC the WISE」の1つである異種混合学習^3）4）を用いて逆強化学習を拡張することで、熟練者の意思決定履歴データからその最適化指標として、複数の線形式とそれらの切り替えルールを学習します。これにより、複雑な意図を複数のシンプルな意図の組み合わせとして表現でき、「どのような場合に何をどれだけ重視するのか」が明示的に分かる、解釈可能な最適化指標としてモデル化できます（図4）。

2.3 特長2：学習アルゴリズムの計算効率化

一般に、逆強化学習では、最適化指標に基づく最適解（意思決定履歴）の探索と、最適解と熟練者の意思決定履歴の差分を小さくするための最適化指標の重みの更新を交互に行います。そのため、アルゴリズム内で何度も数理最適化の実行が必要な高い計算コストをどう削減するのかが課題となります。意図学習技術では、最適解ではない（ランダム方策に基づくなどの）意思決定履歴データを新たに活用することで、この課題に対処します。具体的には、現在の最適化指標だとどのような最適解になるのかを新たに加えたデータに基づき近似的に算出します。これにより、図5に示すように学習アルゴリズム内で数理最適化の実行を不要にでき、既存の逆強化学習に比べ計算コストの大幅な削減が実現できます。

3. 実適用例：TV放送局の広告スケジューリング業務

ここでは、意図学習技術をTV放送局の広告スケジューリング業務に適用した事例^5）を紹介します。この業務は広告宣伝の効果やスポンサーの好みを考慮しながら、複数のTVコマーシャルを限られた番組時間枠へ最適に割り当てるものであり、最適化指標としては、枠を最大限生かすため、配置可能な残り秒数（最大化問題：OR1）や要求された視聴率からの余剰量（最小化問題：OR2）が考えられます。しかし、これらの指標のみでは例えば「健康食品やサプリメントのコマーシャルは高齢者の視聴が多い早朝もしくは正午すぎに流したい」などの要求に応えることができず、かといってコマーシャルごとに放送戦略をヒアリングしながら最適化指標に反映していくのは途方もなく時間がかかる作業であるため、この業務の自動化は困難でした。

意図学習技術を適用するにあたり、熟練者の意思決定履歴データとして過去の放映スケジューリング結果を用い、また最適化指標の構成要素として配置可能な残り秒数や各時刻で取得できる視聴率などを設定し、制約条件として各コマーシャルで求められる視聴率を満足することなどを設定しました。表は実際の放映スケジュールと、意図学習技術（MaxEnt IO）及び学習機能のない数理最適化の結果（OR1、OR2）との差異の大きさ（コサイン距離（×10^-7））を比較したものです。これにより、すべての商品のコマーシャルにおいて、意図学習技術による結果が他手法よりも熟練者の意思決定を模倣できていると分かります。

表　実際の放映スケジュールと各手法の差異

4. おわりに

本稿では、熟練者の意思決定履歴データから、背後にある「意図」として最適化指標を学習し、その意思決定を模倣することで属人的な業務においてもAIによる自動化を実現する意図学習技術について、技術的な特長や実適用例を紹介しました。人口減による人手不足が進むなか、さまざまな業務においてAIによる自動化の重要性が今後ますます高まっていきます。NECは意図学習技術によって、熟練者の技能伝承が難しい業務の自動化を実現し、より良い社会の実現へ貢献していきます。

参考文献

1）
NECプレスリリース：熟練者の意図を学習し、意思決定を模倣するAI技術を開発，2019.7
2）
Saurabh Arora，Prashant Doshi：A Survey of Inverse Reinforcement　Learning: Challenges, Methods and Progress，arXiv:1806.06877，2018
3）
Riki Eto，Ryohei Fujimaki，Satoshi Morinaga，Hiroshi Tamano：Fully-Automatic Bayesian Piecewise Sparse Linear Models，Proceedings of the 17th International Conference on Artificial Intelligence and Statistics (AISTATS)，2014
4）
藤巻遼平、山口勇太郎、江藤力：因子化漸近ベイズ推論による区分疎線形判別，人工知能学会論文誌 31巻 6 号 AI30-I，2016
5）
Yasuhisa Suzuki，Wemer M. Wee，Itaru Nishioka：TV Advertisement Scheduling by Learning Expert Intentions, KDD 2019，2019