サイト内の現在位置

人の動きと心理を予測する世界モデルによって
安全性の確保はもちろん、人に不安を感じさせないロボット制御を実現

NECの最先端技術

高齢化やそれに伴う労働人口の減少によって、活用が期待されているAI制御ロボット。しかし、技術的に実用化されている自律フォークリフトなどの領域であっても、なかなか普及は進んでいません。NECでは、この根本的な原因にAI制御ロボットに対する不安があるのではないかと考え、新たな制御技術を開発しています。物理的な安全だけでなく、人に不安を感じさせないように設計したという本技術の詳細について、研究者に話を聞きました。

AI制御ロボット普及を阻む心理的要因にアプローチ

ビジュアルインテリジェンス研究所
主幹研究員
吉田 裕志

― アフェクティブロボット制御とは、どのような技術なのでしょうか?

吉田:人がAI制御ロボットに対して抱く不安を軽減し、協働を促進するための技術です。NEC独自の世界モデル(注1)を活用して人の動きと不安度をリアルタイムに予測し、人にストレスを感じさせないロボット制御を実現します。効率性に加え、安全はもちろん、人の安心にまでアプローチできるような制御を実現できるようになったことがポイントで、世界でも他に類をみないアプローチです。「アフェクティブ」とは「感情の・情緒の」という意味の英単語で、工学と心理学領域の融合を目指した日本発の学問「感性工学(Kansei Engineering)」でそのまま使われてきた「Kansei」という単語の英訳としても近年使われています。

本研究の発端となった課題意識は、思ったように自律制御型ロボットの普及が進んでいない現状にあります。2015年に行われた野村総研とオックスフォード大学の共同研究では「日本の労働人口の49%が人工知能やロボット等で代替可能に」という研究結果が発表されています(注2)。しかし、皆さんが感じられているように、10年経った現在もそこまでインパクトのある代替は進んでいません。よりわかりやすい例で言えば、自動車の自動運転も何年も前からずっと「あと5年でできる」と言われ続けて現在に至るという状況です。(注3)

これには技術的問題やコストの問題、法的な問題など、さまざまな要因が考えられますが、少なくとも私たちが現在メインターゲットとしている自律フォークリフトの市場においては、すでにこれらの問題は解決されていると考えています。数々の製品が市場に投入されていますし、NECでもJIS規格で安全性が保障された製品をリリースしています。しかし、実際に活用されているケースは市場全体を見渡してもごくわずかであり、普及は一向に進んでいません。

こうした状況に対し、私たちは根本的な要因として、心理的な障壁があるのではないかという仮説を立てました。ロボットに対する漠然とした不安感や、事故が起こらないか、人に怪我させないかといった不安が大きいのではないかと考えたのです。実際、小売店舗のお客様へのヒアリングでは「顧客が不安を感じるロボットは閉店時間帯しか使えない」という声も聞きました。AIと違い、ロボットは物理的に存在するものです。自律フォークリフトであれば、2tもの重量がある車体が動きまわることになりますから、そうした不安を持つことも当然です。

そこで、身体的・工学的な安全性だけでなく、心理的な面からも安全性を実現しようとしたのが本技術です。要素としては、大きく分けて2つあります。1つは、人の不安を定量化する数理モデルの開発です。これによってリアルタイムに人の不安度を推定し、先んじて対処できるようになります。もう1つは、人の動きの予測です。独自に構築した人間系世界モデルによって、ロボットとの相互作用や周辺環境との関係性までをも考慮した人の動きの予測が可能になりました。これら2つを組み合わせることで、人とロボットが接近する際、不安を感じさせないようにロボットが早めに速度を落として進路を変えるなどの自律制御が可能になります。

リアルタイムに人の不安を推定し、距離・スピード・向きを調整

ビジュアルインテリジェンス研究所
リサーチャー
松尾 凌輔

― まずは、人の不安度を導き出す数理モデルの詳細について教えてください。なぜリアルタイムに不安度を推定する必要があるのでしょうか? 例えば、人が安心感を確保できるような十分な距離を確保するというだけでは難しいのでしょうか?

松尾:もちろん距離の確保も重要ですが、人の不安には、ロボットの向きや速度などのさまざまな指標が複雑に絡み合っています。加えて、広い空間であれば大きく距離をとることもできますが、空間が限定されていて十分な距離がとれないようなところでは、早めに方向転換をしたり、近くをすれ違う時には速度を落としたりするなどというような他の制御が必要です。本技術では幅広い環境に対応できるように、シーンに合わせて距離・スピード・向きを柔軟に調整することをめざしました。


吉田:自律フォークリフトの例でいえば、これまでは安全を確保するために、人が作業する空間とロボットが作業する空間を分けて運用する方法が主流でした。しかし、現場のスペースは限られています。特に日本では狭い空間に荷物がたくさん集まることも多く、人とロボットの作業空間を分けるだけのスペースが確保できないことがほとんどです。そのため、人とロボットが同じ空間を共有できるというポイントが非常に重要になってきます。単純に距離だけ広げるということだけでは解決できず、本技術のような不安の推定と、それに応じた効率的な制御が不可欠なのです。

― なるほど、現場の実情に合わせたアプローチなのですね。人の不安という測定が難しいものについては、どのように定量化したのでしょうか?

松尾:アンケートをベースにしています。実験参加者の近くを自律フォークリフトに走行してもらい、その際の速度や経路を変えながら、不安度を1-5の5段階評価で回答してもらいました。もちろん、これだけではまだ、いつ、どのようなときにどのくらい不安を感じたのかはわかりません。そこで今回はPositive and Unlabeled 学習(PU学習)という手法を用いて、不安度の解像度を上げていきました。

簡単に説明してみましょう。例えば不安度が4以下の方をPositive、5の方をNegativeと定義します。すると、不安度4以下の方は最大でもピーク時が4なので、フォークリフトが動いている全タイムラインで4以下のPositiveだと確定しますよね。一方、不安度5と回答した方はピーク時の不安度が5ということがわかるものの、それ以外の時間(フォークリフトがまだ遠くにいるときなど)では4以下のPositiveである可能性が残ります。そこで、両者を分類しながら学習し、同様に不安度n超とn以下を順次分類して学習することで、いつどのくらい不安を感じたのかを明らかにさせていきました。

吉田:この技術はがん検診などでも使われているもので、がんが写ったレントゲン写真とがんの無い写真を大量に学習させていくと、写真の中のどこががんか判別できるようになります。がんの無い写真は、当然どの部分もがんではありません。これに対し、がんが写った写真は、一部分だけがんになっている箇所が存在しているわけですが、このときはがんの部分はわからず、どこかにがんがあるということしかわかりません。しかし、がんの無い写真と対照しながら膨大な写真データを学習させていくことで、AIは「この部分ががんなのかな」とわかるようになるのです。これを応用して、いつ、どのくらい不安になるかというアンケート回答では判別しきれないグラデーションまで推定できるようにしたというのが、今回の成果です。


松尾:加えて、本モデルは自律フォークリフトに搭載したカメラ映像などのセンシングデータをもとに、リアルタイムに不安度を推定できるように構築しています。時系列データの処理に優れた機械学習モデルであるTransformerを活用して、ロボットが動く一連の流れに対して、不安度にどう影響を与えるかということまですぐに予測できるようになっています。

また、人ごとにパラメータを紐づけることによって、不安度の差を反映することも可能です。不安の感じ方は人によって違いますから、不安を感じやすいかどうかによって制御を変えていくことにも対応できるような設計にしています。

人の数秒後の動きを、私たちが無意識に行っているようなレベルで予測

ビジュアルインテリジェンス研究所
主任研究員
池田 浩雄

― 人の動きを予測するモデルは、どのようなものなのでしょうか? どのような点に独自のポイントがありますか?

池田:ロボットカメラの映像、ロボットの制御情報と、周辺のシーン情報から、映像に映る人の数秒先の位置・向き・姿勢を3次元で高精度に予測できる技術です。ロボットと人が接近したときに、人はこう避けるだろうであるとか、人の周りに障害物があるときに、人はこう動くだろうというように、「人とロボットとの相互作用」や「人と周辺環境との関係性」まで予測できるモデルになっています。

従来ですと、人がロボット側に向かって歩いてきても、人の動きのみに着目してしまうので人が真っすぐこちらに向かってきてぶつかるだろうというような予測しかできませんでした。また、近くに壁があったとしても、人はその壁にめり込んで進んでいくだろうというような予測しかできなかったのです。これに対し、今回私たちは制御情報やシーン情報などを入れながら独自の世界モデルを構築していきました。これによって、私たち人間がふだん常識から判断するように、右側にスペースがあるから人が右側へどういう軌道・スピードでよけるだろうであるとか、壁が存在するから、人が壁に対してどう動いていくだろうかと予測して、ロボットは先読みした方向転換やスピード調整ができるようになります。


石井:私たちは当たり前のように人の軌道を予測することができますが、AIはいわば人の赤ちゃんのようなものです。赤ちゃんは親が「いないいないばぁ」で顔を隠すと、どこに行ったかわからなくなって泣いてしまいますが、これは未学習のAIも同様です。常識のような知識がないので、人がロボットを避けることや壁の中を進めないことをまだ知らないんですね。これをいかにうまく学習させてあげるかというところが、1つのチャレンジでした。どこに柱があって、どこに壁があって、人が今ここにいるからこの先こういう風に動くだろうということをうまく学習させてあげるところの仕組みづくりが大きなポイントだったと思っています。


池田:しかも、それが3次元でできるということが重要です。私たち人間も視覚情報から奥行や立体的な構造を推測していると思いますが、今回の技術でも世界モデルを活用することで、2次元のカメラ映像から人の立体的な配置・形状を推測、予測することができています。これにより、制御を行ううえで重要となる距離感を把握できるようになっています。

ビジュアルインテリジェンス研究所
主任
石井 遊哉

石井:もう1つ課題となったのは、未来の行動予測は正解が1つに定まらないという点です。例えば人が歩いていたとして、そのまままっすぐ歩く人もいれば、不意に右に曲がる人もいれば、何か思い出してUターンする人もいるわけですね。無数のパターンがある中で、どれが一番自然なのか、一番起こりそうな動きはどれなのかをうまく学習する必要がありました。

正解が1つに定まる問題の解決は、この10年間でAIが急速に進化してきた領域ですが、1つに定まらない問題であっても上手く学習して確からしい解答を選択するということは、まだまだ技術的に難しい領域です。ここで最も自然で確からしい未来を予測できる機能を実現したところも大きなポイントでした。

また、私たちが開発した世界モデルでは、正解データがなくても学習可能です。ロボットが観測した映像そのものが学習データになるので、例えば新しい工場や倉庫に転用するという時であっても、新たなアノテーションや教師学習の手間は必要ありません。新しい環境にロボットを置いておけば、そこで撮りためた映像から環境に順応し、どんどん精度が上がっていくというような運用も可能になります。

― なぜ、このような技術をNECが実現できたのでしょうか?

池田:私たちのチームでは、2次元の画像・映像から人の骨格の3次元情報を高精度に読み取るという技術の研究開発に取り組んできました(健康に動きつづけられる体づくりのために セルフケア支援AI技術: NECの最先端技術 | NEC)。また、物体間の関係性を予測するような世界モデルの研究開発にも取り組んできた実績があります(「世界モデル」がさらに進化 環境に適応して精密な動きをするロボットAI技術: NECの最先端技術 | NEC)。これらの研究ノウハウの蓄積が本技術の実現に大きく貢献できたのではないかと考えています。

ヒューマノイドへの活用も視野に

― 本技術の研究に関する、今後の目標や展望を教えてください。

松尾:私は、不安度を表す数理モデルの構築をより効率化させていきたいと思っています。いまは自律フォークリフトで実験を行っていますが、今後利用シーンが拡大していくと、さまざまなロボットが対象になってくるはずです。すると、そのロボットによって人が感じる印象も変わってくるはずですが、現状の手法では、各々のロボットに対してアンケート調査を実施しなければなりません。ここを効率化させていきたいですね。さまざまな方法を検討しながら、モデル構築を効率化してより早く導入できる仕組みを考えていきたいです。

石井:私は、今後は利用シーンを考慮して予測の精度を高めていくことが重要なポイントになると考えています。例えば、工場では人が突然踊り出すことは可能性として低いと判断できますが、ダンスフロアでは人が突然踊り出すことは自然に起こり得ることですよね。ロボットが今どういう場所にいるのかという、よりメタ的な情報まで考慮した予測が可能なモデルを作らないといけないかなと思っています。


池田:今回私たちが作った技術は、突き詰めて言うと、人とロボットが違和感なく、同じ空間のなかで行動できるようにするための技術です。両者が互いに同じ環境のなかで作業したり、協力したりすることができるようにするために必要な要素だと思っています。現在は物流現場での運用を考えていますが、活用できる領域はもっと幅広く広がっている基盤技術です。

ですので、将来的には、まだ遠い未来になるかもしれませんが、ヒューマノイドロボットなどへの応用も考えていきたいですね。また、先回りして予測することができるので、案内ロボットや誘導ロボットに導入したり、おもてなしに活用したりとユニークな使い方もできると思っています。しかし、まずは目下の目標として、工場や物流、商業施設などへの導入が目標ですから、しっかり進めていきたいです。


吉田:そうですね。冒頭にも申し上げましたが、AI制御のロボットはなかなか普及が進まない状況があります。しかし、運用する際に生じる不安を払しょくできる可能性を切りひらいた本技術は、これからAI制御のロボットを爆発的に普及させる起点になり得るものだと考えています。こうした未来に向けて、本技術の研究をこれからも続けていきたいと考えています。

AI制御ロボットの運用に伴う人の不安にアプローチした世界初の技術です。身体的な安全性に加え、心理的な安全性まで考慮した自動制御を可能にすることで、人とロボットの協働を促進します。

本技術は①人の不安度をリアルタイムに推定する数理モデル②世界モデルを応用した人間の行動予測という2つの技術を組み合わせることによって実現しています。これにより、接近によって人が不安を感じる前に、人の予測経路を考慮しながら早めに進路変更・スピード調整をするなどの自律制御が可能になります。また、世界モデルによって教師データ無しで学習することができることも特長であり、新しい環境下でも撮りためた映像から学習し、精度を上げて動くことが可能になります。

本技術は、本質的には人とロボットが同じ空間で自然に共存することを促進する基盤技術です。現在のメインターゲットである自律フォークリフトにとどまらず、将来的にはヒューマノイドなどへの活用も視野に入っています。

  • 本ページに掲載されている内容は、公開時の情報です。

お問い合わせ