モノづくり現場の作業品質を高めるAIによるセルフ教育作業教育を支援する技術: NECの最先端技術

2025年1月29日

モノづくりを行う製造現場では、指導者が付きっきりで教育を行うなど、常に作業員のスキル向上を目指されています。しかし、近年では労働者の多様性・流動性が高まることで、教育コストの増加や十分な教育を実施できない状況も生じつつあり、作業品質の低下が懸念されています。こうした課題に対応するため、NECではAIを活用した映像解析によってお手本動作に近づけるための改善アドバイスを自動で提示する技術を開発しました。製造・倉庫・建設・リテールなどの様々な産業現場で新たな作業を覚える際、指導者なしでも作業習熟できるというAIによるセルフ教育を世界で初めて（注1）実現した技術です。その詳細について、研究者に話を聞きました。

注1：
2025年1月現在（NEC調べ）

指導者なしで習熟可能なAIセルフ教育

― 今回NECが開発した作業教育を支援する技術とは、どのような技術なのでしょうか？

井下：製造工場や流通現場での作業教育を映像解析技術によって支援する技術です。AIがお手本映像と作業者の映像を比較し、改善点を文字や映像でフィードバックします。近年、製造業では作業の複雑化に加えて多品種少量生産が広がることで、作業者が覚えるべき製造工程が増え続けています。加えて、熟練作業者の高齢化も大きな課題です。人材確保が困難になるだけでなく、言語化しにくいカンやコツをどう伝承していくかという点も絡んできます。さらに、現場では労働者が多様化し、流動性が非常に高まっている状況があります。新人が入るたびに他の仕事も抱える研修担当者が数日間、付きっきりで教育をしなければならず、教育コストが増加しているという切迫した課題が存在しています。本技術は、これらの課題にフォーカスしたものです。研修担当者が教育にかける時間を削減し、コストをおよそ1/10にできると試算しています。教育を効率化し、習熟した作業者が生産することで品質面での向上も期待できます。

守脇：既存技術でも作業マニュアルを自動作成したり、ARグラスによってトレーニングを支援したりするようなものはありますが、作業者の実際の作業に対してフィードバックを返すというところまで実現できたのは、本技術が初めて踏み込んだ領域だと思います。

井下：NECでは2022年に手指の形状と周囲の画像を用いて細かい人手作業を識別する技術を開発しました。当時の技術は、作業工程の順序や経過時間を識別するといった「見える化」がメインでしたが、今回の技術では「分析」まで踏み込み、お手本との細かい作業動作の違いを識別し、どうすればお手本に近づく動作ができるのか、といった適切なアドバイスまで生成することができるようになっています。

作業動作や姿勢の微細な差分を検出し、その差分に着目した改善アドバイスをVLMが生成

― どのような技術を使って、今回の技術を実現したのでしょうか？

井下：先ほどの手指形状と周囲の画像から作業工程を識別する技術に加えて、2つの技術を活用しています。1つはお手本との細かな差異を捉える技術、そしてもう1つが熟練度を上げるために適切なアドバイスを生成するという技術です。

岩崎：作業の差異を捉える技術については、私からご説明しましょう。今回使用したのは、動画アライメントと呼ばれる分野の技術です。動画中のフレームの差異を自動で見つける技術なのですが、この技術をアップデートすることで、手作業の微細な差異まで検知できるようにしました。具体的には、手指の骨格や画角内の手の位置だけでなく、掴むモノとどう接触しているか、モノを押しているか、つまんでいるかなどの手とモノの相互関係まで細かく見て類似度を計算するように設計しています。これにより、異なる長さの動画でも類似度を比較して、似ているフレームとそうでないフレームを高精度に検出できるようなりました。本技術は、事業部メンバとも協働しながら、国際学会への投稿を見据えて論文の準備を進めているところです。

守脇：もう一つ、アドバイスを生成するという点については生成AIの一種であるVLM（Visual and Language Model）を活用しています。動画アライメント技術によって検出された差分映像をVLMにインプットし、「この二つの映像の違いから、お手本に近づけるようにはどうすればよいですか？」というようなプロンプト（生成AIへの指示）を入力して回答を得るという仕組みです。実際の現場では、プロンプトはフォーマットに基づいて自動生成していますので、お客様や作業者自身でプロンプトを都度入力する必要はありません。

実は、このプロンプトが非常に複雑かつ重要で、度重なる試行錯誤の末に完成させたものです。というのも、ただVLMに差分映像とプロンプトを投げれば良い結果が出るというわけではないからです。例えば、実際の現場では長文のアドバイスを表示したとしても効果的ではないでしょう。幸い、NECには生産工場をもった関連会社があります。開発にあたっては実際に私自身もそこで研修を受けたり、作業者の方々の率直なご意見をうかがったりすることで、スキル習熟のために最適なアドバイスをアウトプットできるプロンプトをつくりあげていきました。

井下：最適なアドバイスが出るように手指骨格情報を活用して、VLMを制御しているというところがポイントになっています。

岩崎：そうですね。動画アライメント側でも、できるだけ差異のあるフレームのみをVLMに渡すことが高い精度につながるので、そこには注力しました。

全身の動きにも対応できるような発展をめざす

― 本技術の今後の展望を教えてください。

井下：現在はまだ技術をつくり上げたばかりなので、これから現場で実装しやすいものにするためにさらなる開発を進めていくつもりです。既に製造業を中心にお客様から引き合いもいただいているので、実証に向けた準備にも取り組んでいきたいですね。

守脇：そうですね。先ほど、井下から教育にかかる工数を10分の1に削減できると試算していると申し上げましたが、本当にそれが達成できるか、さらには、もっと削減できる可能性があるのではないかというような感触を実証現場で確かめていきたいです。それから、適用分野の拡大は目指していきたいところですね。製造業の他にも流通や食品工場の作業など、さまざまな応用範囲があるはずです。

岩崎：個人的には医療分野にも適用できないかなと考えています。例えば外科医の手術の教育などにも応用できれば、かなり有効なものになるはずです。

井下：海外にもニーズがあるのではないかと思っています。海外の工場では1000人、2000人単位の流動性の高い作業者が働いていますが、そうした大規模な現場の方がより大きな効果が出やすいかもしれません。

加えて、現在は手元作業を中心に技術を開発していますが、今後は全身を使うような作業にも適用していきたいと考えています。例えば自動車でも、手元での組み立て作業が終わると、今度は大きな部品の組み立てが必要になりますから。そのときには、固定カメラだけではなくウェアラブルカメラも必要になるでしょう。なので、技術の進歩としては固定カメラからウェアラブルカメラという発展と、手元作業から全身作業という発展の2軸で伸びていくことになるはずです。

NECは生体認証をはじめとして、とりわけ人にフォーカスした分析において世界トップレベルの技術を複数保有している企業です。3D骨格の認識技術や人の動きと周囲のモノや環境との相互関係から行動を分析する技術など、非常に高いレベルの技術を保有していますから、こうしたものとも連携しながら、さらに技術を発展させていきたいと考えています。

近年の製造現場では技術伝承や指導者による教育コストの増加などの課題を抱えています。今回NECでは、作業者の実際の行動に対して映像解析AIが自動でアドバイス生成する技術を開発しました。NECが開発してきた映像解析技術に加えてVLMをうまく制御することで、安易なパターン化したアドバイスではなく、現場で活用できる効果的なアドバイスを生成できるようにしています。これにより、製造や物流、建設など様々な業種の作業現場で、指導者なしでも作業習熟が可能になるセルフ教育を実現します。