Japan
サイト内の現在位置
ヒューマン・デジタルツイン実現をめざす
高効率に実世界をセンシングする映像解析技術
NECの最先端技術 2023年8月31日

現在、世界では人物検知や物体検知など、さまざまな映像解析技術が活用されています。しかし、複数の映像解析技術を同時に並行して扱うためには多大な計算リソースが必要となり、広く活用が進んでいませんでした。今回NECが発表した「高効率に実世界をセンシングする映像解析技術」は、複数の映像解析技術を一つのエンジンで高精度かつ高効率に活用することができる技術です。ヒューマン・デジタルツインの構築まで視野にいれた本技術について、研究者に詳しく話を聞きました。
北米研究所
Department Head
Manmohan Chandraker

北米研究所
Researcher
Yumin Suh

北米研究所
Senior Associate Researcher
Turgun Yusuf

北米研究所
Senior Associate Researcher
Sparsh Garg

生体認証技術を統合したヒューマン・デジタルツインの基盤へ
― 「高効率に実世界をセンシングする映像解析技術」とは、どのようなものなのでしょうか?
Manmohan:映像に映る大勢の人物をリアルタイムかつ高精度に解析する技術です。人物検知や姿勢、服装、髪色、3D解析などの複数タスクを高効率に統合して同時に解析することができます。本技術をまとめた論文はコンピュータサイエンスのトップ学会であるCVPR 2022において採択され、上位4%に当たる口頭発表の機会を得るなど大きな注目を集めています。
ユースシーンはさまざまです。服装や髪型などの人物の特徴からの行方不明者捜索、店舗やテーマパークなどに訪れた人物の属性(年齢、赤ちゃん連れ)などに応じたパーソナライズされたサポートの提案、空港への到着から搭乗までをシームレスにサポートするサービスなど、さまざまなシーンでの活用を考えています。
NECはもともと生体認証において、世界No.1の技術を多数保有している企業です(注1)。私たちのチームではかねてより、この強みを拡張して「ヒューマン・デジタルツイン」を実現することをめざしましてきました。ヒューマン・デジタルツインとは、人物をセンシングして、デジタル世界上に情報を再構築するものです。見た目の特徴だけにとどまらず、行動や嗜好までをも解析・予測して、公共施設の安全やマーケット施策につなげることを目的としています。
ただ、その実現のためには、姿勢や服装解析などの個別タスクを単純に統合するだけでは不十分です。たとえば人がカメラ間を移動した際に、きちんと同じ人物として同定して追跡できるか。また、人の近くにどんなモノがあり、そのモノと人の間にどんな関係性があるのか。近くに複数の人物がいた場合、互いに何をしようとしているのか。そのような人、モノ、周囲の環境との関係性(=コンテクスト)まで深く理解する必要があります。
また、実際の運用にあたってはプライバシーの保護や機密情報への配慮も必要です。信頼できるシステムとしての保証があってこそ、はじめて実用化することができます。
今回私たちが開発した「高効率に実世界をセンシングする映像解析技術」では、このような課題を解決し、映像から人物の行動を深く洞察することができる技術です。NECが誇る高精度な解析技術を高効率かつ安全に統合し、これまでの個別技術の映像解析を超えた新しいインサイトを提示します。
- 注1:顔認証、虹彩認証、指紋認証において米国国立標準技術研究所(NIST)のベンチマークテストでNo.1を獲得
精度・効率・頑健性を高次元で実現
― 技術的なブレークスルーはどこにあったのでしょうか?
Yumin:計算処理の効率化が、大きなポイントでした。従来の技術では、マルチタスクを効率的に実現しようとすると、各タスクの精度はどうしても下がってしまいます。そのため、精度を保ったまま複数のタスクを行うためには、各タスクに対してそれぞれ専用のエンジンを使用する必要がありました。例えば、骨格、年齢、服装を解析するのであれば、それぞれ3セットの機械学習を行って3つのエンジンを用意し、解析を行うのです。当然のことながら、これでは手間がかかりますし、計算リソースを圧迫してしまいます。
そこで、本技術ではエンジンを一つに統合しつつ、各タスク中の計算処理における共通部分を見つけて効率化するというアプローチをとりました。タスクごとに分けなければならない部分と共通化できる部分を見分け、その組み合わせを最適化するという方法です。この仕組みの開発によって、効率と精度を高次元で両立させることに成功しました。精度に至っては、シングルタスクの集積よりも高いレベルを実現できるようになっています。
エンジンは1つに統一しているので、学習時には各タスクに必要なデータセットをまとめて投げ込めばOKだということも大きな利点です。
Turgun:本技術が行うのは、リアルタイムでのマルチタスクの映像解析という非常に大きな負荷のかかる計算です。そのため、エンジニアリング面でも大きな課題がありました。1つ目の課題は、フレームによって解析できる属性の数が違ってしまうという挙動の不安定さでした。例えば人物について7つの属性を識別するような計算モデルであったとしても、あるフレームでは6つしか識別できない場合があったのです。そこで、映像中の人物を精緻に追跡する最新のトラッキングアルゴリズムを導入することで、この問題を解決していきました。
もう一つの課題は、ユーザーエクスペリエンス上の問題でした。映像の中に数十名にも及ぶ多数の人物が同時に映っているような場合には、属性情報をうまく表示しなくては、どの人物とどの情報が対応しているかわからなくなってしまいます。そこで、各人物の右側にウィンドウを設けて情報を表示し、動きに追随するようにしたことでユーザーにもわかりやすいものに改善させていきました。
Sparsh:複数のタスクを行う複雑な技術であるぶん、システムがダウンしてしまうリスクも高くなります。そこで、私の方では本システムのロバスト性を高めるための研究開発を進めていきました。具体的には、Dockerというオープンソースソフトウェアを活用してエンジンの中に複数のコンテナを作成し、タスクや技術を分けて格納することで互いに邪魔をしないように設計しています。
イメージデータ自体に壊れたフレームがあった場合には処理をスキップする機能を設けているので動きつづけることができますし、たとえ一部のカメラが意図的に外された場合でもシステムは影響を受けることなく動作しつづけることができます。もしカメラが元の場所に戻されたとしても、すぐに復帰して処理を再開させることも可能です。
計算リソース分配の自動化まで視野に
― これからの展望を教えてください。
Manmohan:いくつかビジョンがあるのですが、現在は「順応性(Elasticity)」の実装に注力しています。エンジンが自動的に複数のタスクの優先度を判断し、どういった割合で計算リソースを割いていくのが最適か判断するというものです。解析対象となる現場では時間帯によって人が増減したり、必要な属性のニーズが変わったりすることもあるはずです。そうした状況に順応して対応することをめざしています。実証実験にも、現在取り組み始めているところです。
また、NEC本社のFuture Creation Hubでは本技術のデモも体験できる環境を用意しました。これから、より広く皆さまに本技術を紹介できるような機会を設けていきたいと思っています。

映像解析で使われていた複数タスクを1つのエンジンにまとめあげ、機械学習から解析まで省リソースで効率的に行うことができる技術です。これまで個別に活用されていた映像解析技術を高精度に同時に扱うことができるため、姿勢や行動、周りのモノとの関係、近くにいる人物との関係などのコンテクストまでを踏まえた新たなインサイトを発見することができると期待されています。
- ※本ページに掲載されている情報は、掲載時の情報です。
お問い合わせ