人物のあらゆる類似行動を検索可能行動検出技術: NECの最先端技術| NEC

2021年4月5日

NECは類似検索技術を応用した「行動検出技術」を発表しました。映像中の任意の行動と似た動きを、映像のなかから即時検出できる本技術について、研究者に詳しい話を聞きました。

あえて機械学習を手放すことで、柔軟で実用的な行動検出が可能に

バイオメトリクス研究所主任研究員劉健全 — バイオメトリクス研究所
主任研究員
劉健全

― 今回リリースされた「行動検出技術」とは、どのような技術なのでしょうか？

劉：映像内から、人物の任意の行動を検出することができるNECの独自技術です。肩やひじ、手首、ひざなどの関節部から約18の点を抽出し、それを線で結んだ棒人間のような骨格情報の動きから類似行動を検出します。例えば、感染症対策のために映像内からアルコール消毒する動きを検出することも可能です。運用時にはリアルタイム検出はもちろん、過去映像から任意の行動を検索して統計的に使用するなど、双方に対応することができます。
従来の行動検出技術というと、ディープラーニングを用いた映像認識というアプローチが主流でしたが、今回の私たちの技術のアプローチは、その流れとは一線を画します。私たちがこれまでに開発してきた「時空間データ横断プロファイリング」を土台にして、類似検索という側面から技術を開発しました。映像中の任意のシーン内で、検出したい行動をしている人物と開始フレーム～終了フレームを指定すれば、過去から現在に至る映像のなかから類似行動をすべて検出することができます。検出したい行動は映像内のどんな動きでもオンデマンドに対応することができますし、機械学習が不要となるため低コストで、導入や運用もスピーディです。

吉田：ディープラーニングを使ったアプローチでは教材となる大量の学習データが必要になるため、膨大なコストがかかります。また、そもそも任意の行動をすべて検出する学習素材を網羅することは、現実的に考えてほぼ不可能なのです。私は以前、人物の「ふらつき」を検出するための機械学習を試みたことがあるのですが、人の行動というものは私たちが想像できる範囲を遥かに超えているのだと気づかされました。立ち止まったままゆらゆら揺れている人もいれば、何の前兆もないまま急に倒れてしまう方もいる。千差万別な動きをすべてを網羅してラベリングすることは、極めて困難なのです。また、仮に一定の水準まで動きをラベリングできたとしても、実際に運用していけば未知のパターンが発見されることもあるでしょう。機械学習ベースの技術では、その度に大きなコストと時間をかけてデータを補強し、学習し直さなければなりません。だからこそ、今回私たちは類似検索という方法を採用しました。類似検索ではオンデマンドに検出対象を追加していくことができるため、実運用のなかで検出対象を網羅していくことができます。また、私たちの技術は「ふらつき」などの一つの行動に特化しているわけではなく、映像の動きそのものから検索するものなので、どんな動きの検出にも柔軟に対応することができます。
実は、私はもともとリチウムイオン電池の研究をしていたので機械学習が専門の研究者ではありませんでした。しかし、だからこそずっと「機械学習は有用だが、万能ではない」ということを考えつづけていました。この考え方が、今回の技術のアプローチにも表れていると思います。

劉：そうですね。私たちのチームは、これまでも機械学習に頼らない類似検索技術の研究を続けてきました。異分野出身の吉田さんが来てくれたことで、非常に良い化学反応が生まれたと思っています。

どんな環境にも対応できる高いロバスト性

― 今回の行動検出開発における課題やブレークスルーはどのような点にあったのでしょうか？

吉田：課題となったのは、どんな環境でも安定的に機能できるロバスト性をいかに担保するかという点でした。従来型のディープラーニングによる映像認識では、映像の明るさの変化や人物の服装・持ち物などによって精度が落ちてしまうという問題があったからです。せっかく大量のデータを学習させたとしても、応用現場で映像の明るさが変わったり、人物の服装や持ち物などに学習データとは違う要素が入ってきた途端、思うような精度が出なくなってしまうことは起こり得ます。
だからこそ、骨格情報はこの問題をクリアするために必要な要素でした。人物の骨格と姿勢に注目することで、映像の明るさや人物の服装などの視覚的な不安定要素を取り除いていったのです。
しかし、骨格情報を使うことで問題となったのが、「人物の向き」でした。たとえ人物が同じ行動をしていたとしても、カメラに対して正面を向いている場合と横を向いている場合では、骨格の見え方は大きく変わってしまいます。そこで考え付いた方法が、「高さ」だけに注目するというものでした。棒人間全体を見るのではなく、点の高さだけを見るのです。シンプルな発想ですが、人が向きを変えたとしても各点の高さ自体はそれほど大きく変動することはありません。こうすることで、人物の向きという問題をクリアしていきました。
また、人物だけでなく「カメラと人の位置関係」も大きな問題でした。上から見下ろすように撮られている場合と正面から撮られている場合では、人物の関節間の距離は異なってきてしまいます。また、カメラに近い場所にいる人物と離れた場所にいる人物でも、見えるサイズが異なってきます。この問題に対しては、人物の身長を推定するという方法で解決していきました。人物の骨格情報をもとに、その人物が画面内で直立したときの高さ、すなわち身長を推定し、関節間の情報を正しく補正するのです。こうして、3次元をとらえた映像情報を2次元の骨格データとしてどんな向きからでも抽出できるようになりました。
加えて、映像ならではの問題として「スピード/フレームレート」という問題もありました。たとえば同じ手を挙げるという動作でも、ゆっくりと手を動かす人もいれば、さっと手を挙げる人もいます。ゆっくりと動かす人は多数のフレームに動作が記録されるのに対して、速く動かす人は数枚のフレームだけにしか記録されません。カメラのフレームレートの設定が違う場合でも同様の問題が発生しますが、これでは類似性を検出することが難しくなってしまいます。これに対しては、変化の特徴となるようなキーフレームを抽出するという方法を考えました。一連の動作すべてを見るのではなく、腕が上がり始めたポイント等、大きな変化があったフレームだけに注目するのです。こうすることで、動作のスピードやカメラのフレームレートにも依存しない技術をつくり上げることができました。

劉：また、NECの北米研究所で開発された人物の追跡技術も大きなポイントです。映像の中で同一人物か否かを判定する技術も組み込むことによって、今回の技術の精度が格段にアップしました。吉田さんが開発してくれたNECならではの類似行動照合の新しい仕組みと、時空間データ横断プロファイリング、そして追跡技術の3点が合体してシナジーを起こすことで、今回の技術が生まれています。

プライバシーを守りながら映像分析できる

― 今回の技術はどのような応用ができるのでしょうか？

劉：さまざまな分野での活用ができると考えています。防犯や見守りへの活用はもちろんですが、マーケティングへの応用も可能です。たとえば、店舗の棚の前で手を挙げている人物がいたら、それは棚に手を伸ばして商品を手にとろうとしているのだとわかります。商品に興味があることを示しているわけです。

吉田：棚の前で手を伸ばした行動の回数を検出すれば、どれだけの人がその商品に興味をもったのかという意味のデータを取り出すことができるでしょう。しかも、骨格情報だけをもとに導き出すことができるのでプライバシーにも配慮した運用ができます。棚に手を伸ばした数だけをとりたいのであれば、人物の姿が映った映像は削除しても構わないのですから。

劉：こうした商品への興味のように、私たちがただ映像を見ているだけではわからない有益な情報を提示してくれることに私たちの映像分析技術の意義があると考えています。私は映像の中に隠れている価値を「インサイト」と呼んでいますが、これからは人物だけでなく、人物とモノ、さらには空間と時間という二軸を交差させるというビジョンをもって、映像からより価値のあるインサイトを提示できる技術を開発していきたいと考えています。