Japan
サイト内の現在位置
ロボットが自分で考えて、最適な行動を選択
「世界モデル」を応用したロボット動作の学習技術
NECの最先端技術 2023年3月3日
現在も倉庫や工場ではさまざまな産業ロボットが導入されていますが、その多くは私たち人間がルールを細かく設定したり、膨大な時間をかけてあらゆる状況下での動作を学習させたりする必要があります。そのため、作業内容を固定化できない複雑な作業や、学習したものと異なる物品を扱うような高度な作業はまだ自動化することができていませんでした。今回NECが発表した「世界モデル」を応用したロボットの動作を学習する技術では、AIが状況を判断して、設定したルール外の状況であっても自律的に最適な行動をとると言います。一体どのような技術なのか。詳細について、研究者に話を聞きました。
過去に経験のない状況でも、ロボットが自律的に判断
― 世界モデルを応用したロボット動作の学習技術とは、どのような技術なのでしょうか?
大山:まず「世界モデル」とは何かというと、実世界で何が起こるかを予測、シミュレーションするという技術です。センシングしたデータの背後にある仕組みや要因を推測して、行動の結果どうなるか予測することができます。
世界モデルと同様の概念として、かつてより「内部モデル」というものがありました。これは、主に動物の脳の研究で使われていた言葉です。私たちヒトをはじめとした多くの動物は、過去の経験や周囲の限られた情報から、隠された情報やこれから起こる現象を素早く予測することができます。例えば、壁にテーブルが半分隠れていたとしても、壁の向こうにはテーブルが続いていると推測することができるでしょう。また、テーブルの端にビンが乗っていたら、ビンを押すと落ちてしまうと予測することができます。ロボットも、このような推論や予測が可能になれば、一つひとつ細かに指示を与えなくても、自律的に最適化した動きができるようになるはずです。これが、研究のスタートでした。
世界モデルを活用したロボット制御は世界でもいくつか研究が進められていますが、その多くは「強化学習」を用いています。つまり、ロボットに試行錯誤させて、さまざまな環境に対する最適な行動を習得させようとするアプローチです。しかし、これにはほぼすべての対応パターンを網羅的に学習する必要があるため、およそ数カ月~年単位の膨大な時間がかかってしまうという問題がありました。これに対し、今回私たちが開発した世界モデルを応用したロボット動作の学習技術では、既に学習した条件やパターンをうまく活用することで、学習時に想定していなかった環境であっても、的確に動作できるようになります。学習時間もわずか数日あれば完了できるので、すぐに現場への導入が可能です。
世界モデル:常識的に判断し臨機応変に行動するロボット制御AI
一圓:いま私たちが最初に目指しているのは、倉庫でのハンドリング(物品の移動)業務への導入です。倉庫内の作業の中でも、動きや手順を定型化しやすい比較的技術的なハードルが低い領域には、既に多くのロボットが導入されています。現在では、もっと複雑な動きで、物品によって手順が変わってくるような高度なハンドリング業務の自動化が求められるようになってきました。
しかし、こういった業務は作業手順を一律に固定化することが難しいため、既存の技術では物品の形状や動きを一つひとつ細かく定義しながら、複雑に分岐したルールをロボットに教え込んでいかなければいけません。当然のことながら、この作業にはとてつもない人手と時間、および膨大なコストがかかってしまいます。ここを私たちの技術でいかに自動化して削減できるかということに注力して、いま研究開発を進めているところです。
この技術を実用化できれば、倉庫内作業の需要に合わせてロボットの場所を移動させて、さまざまなタスクにフレキシブルに対応させることも可能になるはずです。大型の固定設備導入には躊躇していたような現場でも、状況にあわせてロボットが活用できるようになります。
また、将来的には倉庫業務だけでなく製造業や食品など、より多様な物品を扱う領域へ展開していきたいと考えています。
学習状況に応じてロボットがデータを選択、多様な動作の学習を効率化
― 世界モデルを応用したロボット動作の学習技術は、どのような仕組みなのか教えてください。
高野:従来の強化学習では、環境とのインタラクションを通じて動作を実現する制御則を学習します。さまざまな状況でロボットに目標の動作を行わせるためにはデータを網羅的に取得し学習させる必要がありますが、あらゆる状況を想定して環境や目標を設定し、全てのデータを取得することは現実的に不可能です。したがって、学習によって獲得できる動作はデータに依存して限定されてしまい、状況によっては成功率の低い動作が生成されてしまう場合があります。そこで本技術では制御則の学習に加え、学習した制御則を利用して目標の動作を生成できるかどうかを予測する動作予測モデルを併せて学習しています。これらの2つのモデルを組み合わせることによって成功率の高い動作を選択できるようになり、最適化された動作を生成できるようになりました。
また、AIが動作生成の精度を上げるために重要なデータを選び、効率的に学習していくような学習方法を取っていることも本技術の特長の一つです。先述の動作予測モデルの学習状況に応じて次にどのようなデータを取るべきかを設定します。
例えばA、B、Cという物品をつかむ動作を学習するとして、最初にAをつかむ動作を学習したと仮定します。次にBとCのどちらを優先的に学習するかを選択する必要がありますが、学習された動作予測モデルの予測結果に基づいて、Bを学習した方が情報を多く得られそうだと判断すれば、Bを集中的に学習していくといったかたちです。これにより学習の効率化に成功し、学習時間を大幅に短縮できるようになりました。この技術はもともとAIの分野で研究されてきた能動学習という技術を応用したものです。広くAIの研究に携わるNECだからこそとれたアプロ―チであったと思います。
ロボット制御AIの技術の特長
ロボット実用化加速のために、幅広い技術と連携
― 今後の展開や目標を教えてください。
高野:私は今回、技術開発を中心に関わりましたが、ロボットのように実世界で働くAIモデルならではの難しさを強く感じました。実際、広く世界を見渡してみても、やはりこの領域はなかなか進展していないのではないでしょうか。しかし、今回の技術をさらに発展させていけば、ロボットが自分で学び、実環境で試行錯誤しながら学習して、また新しいことができるという良いループを実現することができると考えています。研究をさらにつづけていくことで、さまざまな領域で私たちのロボティクスを事業化できるようにしていきたいと思っています。
一圓:そうですね。私は主に事業化を推進する立場ですが、いままさに高野が話してくれたように、ロボティクスは実世界とデジタルの組み合わせになってくるのが難しいポイントです。さらに、これまでNECはロボティクスにはあまり関わってこなかったという難しさもあります。しかし、社会的な背景として既に人手不足は深刻化していますし、自動化をしたいというニーズも急増しています。NECのお客様のなかでもそのような声は多く聞くようになっていますから、ここはNECとしても全力で踏み出さなければいけない領域だと考えています。さまざまなパートナーと連携しながら、まずは何か小規模でも動くサンプルをつくって、お客様と対話を重ねながらアジャイルに事業化を加速させていきたいと思っています。
大山:これからロボットを実用レベルのソリューションとして稼働させていくためには、ロボット制御だけではなく、認識や分析などさまざまな技術も必要になってくると思います。そういった意味では、NECは幅広く多彩な技術を保有しています。特に、AI技術は世界的にも強みがある分野です。こうした多様なコア技術を「世界モデル」というプロジェクトのなかでうまくまとめて、さらに強みのある技術をつくっていきたいというのが、現在の目標です。また、世界モデルが役立つ領域はロボット制御だけではありません。サイバーフィジカルシステムの制御やデジタルツインを構築して制御するためにも、非常に重要なカギになると考えています。世界モデルを推進するプロジェクトをリードする立場として、これからも研究所内のさまざまなチームと連携して、あらゆる可能性を模索し、研究を進めていきたいと考えています。
- ※本ページに掲載されている情報は、掲載時の情報です。
「世界モデル」を応用したロボット動作の学習技術は、限られたデータから背後にある要因を推測し、行動によって世界がどう変わるかを予測する世界モデルをロボティクスに応用する技術です。ロボットに逐一細かなルールを覚え込ませる必要がないので、ロボットは学習したデータやセンシングしたデータから最適な行動を判断して、自律的に動作できるようになります。
技術的な独自性の1つは、目標の動作を実現するための制御則に加え、動作実行後の成否を予測するモデルを学習する点です。これにより動作の成否を予測して、成功率の高い最適動作をその場で生成することができます。
もう1つのポイントは、精度向上に貢献するデータを選別して、効率的に学習するという点です。ベイズ深層学習による能動学習と最適制御を組み合わせたアルゴリズムにより、情報量の多い領域のデータを優先的に学習することで学習時間を大幅に短縮します。
お問い合わせ