サイト内の現在位置

倉庫・工場のデジタルツイン構築実現へ
産業現場の作業行動可視化を適用容易化する技術

NECの最先端技術

2025年11月21日

昨今の人手不足の影響もあり、現在さまざまな産業現場ではAIやロボットを活用したデジタル化が進められています。しかし、実際の現場においては、人手による作業が変わらず欠かせない重要な工程であり続けているのが実情です。DXを進めるにあたっては、このようなデータ化の難しい人手作業の可視化が大きな課題でした。NECが今回開発した技術は、こうした人の作業行動の可視化にアプローチするものであり、現場への導入にかかる負担も大きく軽減するものだといいます。本技術の詳細と価値について、研究者に話を聞きました。

最短で即日導入も可能な人手作業の可視化技術

ビジュアルインテリジェンス研究所
主任研究員
高橋 徹

― 「産業現場の作業行動可視化を適用容易化する技術」とは、どのような技術なのでしょうか?

高橋:産業現場における人手作業を効率的に可視化・データ化する技術です。現在、さまざまな産業現場では人手不足が深刻化しており、AIなどによる効率化が進められています。しかし、その一方で、人手による作業が不可欠な工程もまだ数多く存在しています。NECではかねてより、こうした人手作業の最適化に寄与する可視化・デジタル化技術の研究開発に取り組んできた経緯があります。実際、2022年には映像データとAIを用いた行動認識技術をリリースしました。しかし、当時の技術ではAIに多数のデータを学習させる準備が必要であり、導入における障壁となっていました。今回の技術はこの課題をクリアするもので、従来数週間の準備作業が必要であったものが、最短で即日導入可能になりました。


馬場崎:倉庫などの物流現場では、物の出入りをデジタル化する試みはすでに行われておりますが、人の動きというのはブラックボックスでした。


安藤:そうですね。工場の機械設備のデジタル化も進んでいますが、人手作業のデジタル化はなかなか進んでいない現状があります。人はいろいろなところに歩いていったり、思いがけない場所で止まったり、死角に入ってしまったりと、行動範囲が広いうえに先が読めず、認識が難しいのです。こうした人手作業に注目して取り組んでいるというのはNECならではだと思います。


高橋:こうして人手作業も効率的に可視化できるようになったことで、産業現場全体のデジタルツイン構築が現実的になりました。本技術は、大きく分けて2つのコア技術から構成されています。1つは、即日導入を可能にする事前の学習が不要なゼロショットでの行動認識技術、もう1つは複数台のカメラをまたいで同人物を追跡できるマルチカメラでの追跡技術です。

認識させたい行動を説明文で入力するだけで、すぐに認識可能に

ビジュアルインテリジェンス研究所
主任
馬場崎 康敬

― 1つ目のゼロショットでの行動認識技術について、詳しく教えてください。

馬場崎:「ゼロショット」とは技術用語で、学習データが不要、無学習というような意味合いです。今回の技術では、映像とLLM(大規模言語モデル:Large Language Models)を結び付けたVLM(Vision-Language Model)を活用して、これを実現しました。文章で説明を入力するだけで、指定する行動を認識できるのです。例えば倉庫でのピッキング作業では、「棚から荷物を取り出す」というように説明文を入力するだけで、該当する行動が認識できるようになります。産業現場は実に多様で、お客様によって認識したい行動もさまざまです。だからこそ、言葉で入力するだけで新たな行動をすぐに認識できるようになることは、幅広いお客様のニーズに柔軟に対応できる大きなメリットになると考えています。

ビジュアルインテリジェンス研究所
リサーチャー
長瀬 康斗

― VLMと行動認識技術の組み合わせによって、多様なニーズに即応できるようになったのですね。

馬場崎:はい。とはいえ本技術は、ただ汎用的なVLMを導入するだけで実現できたわけではありません。例えば倉庫現場では、段ボールや台車などさまざまなモノが混在し、それぞれを持ったり運んだりするところまでを踏まえた複雑な行動を認識する必要がありますから、一般的な行動認識技術ではうまく機能しないのです。これに対し、NECでは2022年に発表した人とモノの間の関係性をとらえ、複雑な行動を高精度に認識する技術を開発しています。人の姿勢やモノの認識、それぞれの位置関係などを鑑みて認識する本技術をVLMに適用することで、複雑な作業現場にも応用できる実用的な技術とすることができました。なお、この技術の中核となる「ゼロショットで人とモノの関係性を捉え行動認識を行う仕組み」は、難関国際学会のICPR 2024に採択されています。


長瀬:VLMを上手く機能させるための工夫もしています。例えば、VLMをリアルタイムに機能させるための調整に取り組んでいきました。VLMは、大量の計算資源を必要とするAIモデルです。さらに、応用を想定する産業現場では複数台のカメラから送信されてくる大量の映像データを処理しなければなりません。こうした厳しい条件下でもリアルタイムに行動を認識して処理できるように、モデルの高速化・効率化に取り組んでいきました。研究開発に当たっては、AI研究の世界的名門であるNECの北米研究所と連携しています。私自身も3カ月ほど出張して現地で実装に取り組み、リアルタイムに機能するデモを構築できるレベルまでに落とし込んでいきました。

また、VLMでは文章によってプロンプト(AIへの指示)を入力しますが、精度を出すための記述方法には工夫が必要で、研究者やエンジニアの間でも一種の職人芸となっている部分があります。こうした側面からもお客様がVLMを上手く扱えるように、プロンプトを設計するための手順書も作ってご提供できるようにしていきました。

複数カメラにまたがる人物を同定し、現場の広いエリアをカバー

ビジュアルインテリジェンス研究所
主任研究員
寺尾 真

― 2つ目のコア技術とおっしゃっていたマルチカメラでの追跡技術についても、詳しく教えてください。

寺尾:複数のカメラ間にまたがって映る人物を同定する技術です。1台のカメラの画角外に場所を移動しても、他のカメラで同一人物であると見分けることができます。倉庫や工場などの産業現場は広いため、1台のカメラでは作業範囲をカバーすることができません。そのため、こうした技術の開発が不可欠でした。


安藤:人物の同定と言う点では顔認証技術や服装などの外見から人物を追跡するという手段もありますが、それではコストがかかり過ぎてしまいますし、産業現場では帽子をかぶっていたり同様の服装をしたりしていることも多く、あまり効率的なアプローチにはなり得ません。そこで、今回はカメラ映像上の各人物の位置(2次元の画像座標)から実空間上の位置(3次元の世界座標)を計算して、時間と座標を鑑みながら人物を同定するという方法を実現しました。いわば3次元のデジタルツイン空間を構築して、人物の移動軌跡を推定するような方法です。とはいえ、3次元の座標だけを使用しているわけではなく、3次元の情報だけでは正確性が不足してしまうところは2次元の情報をうまく使うなど、双方の弱点を相互に補完しながら高精度な追跡を実現しています。


寺尾:NECではこれまで映像から人物を追跡するさまざまな技術を開発してきました。実際に運用している技術も多数存在しています。そうした意味でも、2次元の追跡技術における強みや弱みは十分に理解していますし、チューニングのノウハウも蓄積しています。こうした部分が、3次元情報との組みあわせにおいて大きく活かされていると思います。


安藤:そうですね。また、従来の技術では3次元の空間を構築するためにはカメラがどの位置・角度から撮影したかを計算するために大掛かりな作業が必要だったのですが、今回の私たちの技術ではこの手間を大きく削減できます。カメラの画像から3次元空間におけるおおよその位置を計算することができる機械学習の技術を活用することで、導入時の時間的・人的なコストを大きく軽減できるようになりました。

データ分析から対処の提案までを見据えたデジタルツインの実現へ

ビジュアルインテリジェンス研究所
リサーチャー
安藤 隆平

― 本技術の今後の展望を教えてください。

長瀬:今後の実用化に向けて、より使い勝手を上げていきたいです。お客様の現場によっては、そこでしか扱われないユニークなモノもあると思います。VLMはそういったものは認識しきれない部分もまだありますので、導入時に追加でデータを入れ込んで学習できるような仕組みができれば、より使いやすいものになるかなと考えています。


安藤:使い勝手は、私も追求していきたい点です。例えば突発的な仕様変更にも耐えられるくらいの柔軟性の実現などは、これからの目標です。また、多くのお客様が求めている産業現場全体のデジタルツインの達成というところも視野に入ってきたかなと思います。


寺尾:そうですね。デジタルツインという視点から見ると、本技術はシングルカメラからマルチカメラになることでセンサを増やして、現場をより正確にデジタルツイン空間上に構築することができるようにしたものであると言うことができると思います。私はこうした技術基盤をつくる立場なので、今後はこれを人に限らずモノや設備に適応したり、カメラ以外のビーコンなどのセンサを適用したりすることで、さらに詳細な空間を再現できるようにしていきたいですね。また、プラットフォームとして構築することで産業現場だけでなく他のシーンにも適用できる範囲を広げていくということも並行して進めていきたいです。


馬場崎:私は今後さらに「対処」まで示唆できるような技術にしていけたらと思っています。人手作業の可視化まで実現できたのが本技術でしたが、見えてきたデータをもとに、どう現場を改善していくのか。配置変更や作業プロセスの見直しなどの提案にまで踏み込んでいけるようにすることが今後のスコープに入ってくると考えています。


高橋:データ化が難しい人手作業まで含めて、高精度に作業現場をデジタル化できること。しかも今回、すばやく導入できるようになったことが私たちの技術のポイントです。先般出したプレスリリースを契機に、多くのお客様からお問い合わせをいただいておりますので、お客様との対話を重ねながら、より実用的なものに調整し、適用先を広げていきたいと考えています。

人手作業の高精度なデータ化を容易に実現できる技術で、産業現場のデジタルツイン化に貢献する技術です。物流倉庫や工場などのデジタルツイン化を目指す流れにおいて、機器やモノの動きをデータ化するアプローチはあるものの、人の動きを可視化できる技術は世界でも稀有です。NECでは同様の技術として2022年に映像データとAIを用いた行動認識技術をリリースしていましたが、今回の技術では導入に必要な負担を大幅に軽減することに成功しました。コアとなる技術は、即日導入を可能にするゼロショットでの行動認識技術と、複数台のカメラをまたいで同人物を追跡できるマルチカメラでの追跡技術の2点です。

ゼロショットの行動認識技術は、NEC独自の高精度な行動認識技術とVLMを組み合わせることで実現しています。学習データを用意しなくても、プロンプトから自然言語で認識したい行動を指示することができるようになりました。

また、マルチカメラでの追跡技術では、カメラ映像の座標から3Dの実空間上の座標を自動で計算することで、カメラの映像間をまたがる人物を同定できます。

  • 本ページに掲載されている内容は、公開時の情報です。

お問い合わせ