サイト内の現在位置

新商品登録の手間を大幅に削減
画像認識向けインスタント物体登録技術

NECの最先端技術

2021年9月30日

NECは、カメラの前でくるくると回すだけで新しい物体を画像認識モデルに登録できる「画像認識向けインスタント物体登録技術」を開発しました。取り扱う商品が日々入れ替わる小売業や物流業では、画像認識を用いた商品管理や無人決済などによる作業の効率化が試行され始めています。本技術は、このようなシーンにおける商品登録の作業を飛躍的に効率化できると期待される技術です。技術の詳細やメリットについて、研究者に話を聞きました。

カメラ前でくるくると回すだけで、新商品を認識モデルに追加可能

バイオメトリクス研究所
主任研究員
寺尾 真

― 画像認識向けインスタント物体登録とは、どのような技術なのでしょうか?

寺尾:画像認識モデルに新たな物体を登録する際の人的・時間的コストを大幅に削減する技術です。カメラの前で、登録したい物体を手で持ってくるくると回すだけで、誰でもスピーディに新たな物体を登録することができます。画像認識を用いた商品管理などで必要となる新商品登録の作業を飛躍的に効率化できると考えています。
従来は、新しい物体を画像認識モデルへ登録する際には大掛かりな作業が必要でした。専門家が一つの物体につき数百枚程度の画像を撮影したあと、アノテーターと呼ばれる専門家がそれらを点検して、ボケているなどの不備があるデータを取り除き、クレンジングしていきます。さらに、専用のツールで画像一枚一枚の中にある登録したい物体に矩形をつける「正解付け」という作業を行う必要がありました。速度を落とさずに学習データとして十分な正確さで矩形をつけるためには勘所が必要になる作業です。私たちが商品認識のために学習データを作成したときには、一つの商品の正解付けに約30分かかりました。例えば、次々に新商品が登場するコンビニエンスストアでは、月に400種類ほどの商品を新しく登録する必要がありますから、1カ月で200時間ほどの手作業が必要な計算になります。しかし、今回の技術を使えば、カメラの前で一商品につき10~20秒くるくると回すだけで作業は完了です。あとは自動で学習して画像認識モデルに組み込んでくれます。特別なスキルやノウハウも必要ないので、誰でもカンタンに登録することができます。

金子:手で回して撮影できるということには、手軽さ以上の意味があります。たとえば、新商品を回転台に乗せて撮影する方法も考えられますが、これでは紙などの平たい物体の撮影には不向きです。しかし、手であれば、さまざまな側面をカンタンに撮影することができます。また、ポテトチップスのような袋状の商品を考えたときも、手で持って撮影したほうが実運用に近い自然なかたちで撮影して画像認識モデルに登録することができます。

寺尾:今回開発した技術は撮影場所の背景にも依存せず登録できるので、店舗の棚商品や備品の管理、次世代型無人決済など幅広いシーンでの応用が可能です。将来的には、工場から倉庫、店舗に至るまで、物流全体をまたいだ商品の管理に適用できるのではないかと考えています。

まだ学習していないはずの物体を高精度に検知

バイオメトリクス研究所
リサーチャー
金子 智一

― なぜ、物体をカメラの前で回すだけで画像認識モデルへ登録することができるのでしょうか?

金子:物体を回している様子を動画で撮影しながらフレームを画像として切り出し、画像のクレンジングから正解付け、学習までを自動で行っています。何か特別なカメラを使っているわけではありません。30fpsで10秒撮影すれば300枚の画像を撮影できるので、ディープラーニングを行うのに十分な学習データを得ることができます。
撮影映像から良質なフレームのみを抽出するデータクレンジングには、AI技術を活用しました。回しながら撮影すると、被写体ブレが起きてしまう可能性もありますから、ブレやボケの大きい学習にふさわしくないデータは自動で取り除けるように設計しています。
また、登録したい物体のみを矩形で囲む正解付け作業の自動化には、手で動かすという仕組みを活用しました。カメラは位置を固定して撮影しますから、必然的に映像の中で動いている部分が目的物である可能性が高くなります。そこで、背景差分法という技術を用いて動く前景のみに注目し、正確に目的物だけを検知できるような仕組みを開発しました。これによって、非常に高い精度で登録したい物体を検知できるのはもちろん、背景に依存せず、どこでも本システムを活用することが可能になりました。また、カメラ前で回して動かすという動作自体は、物体のいろいろな側面を撮影するという本来の目的とも合致しているので、自然な流れで撮影することができるのも特長です。

寺尾:本技術のユニークなポイントは、未知の物体を検知できるという点です。システムにまだ登録されていない物体を認識するために学習データを作成しようとしているのですから、本来は、まだ学習していない物体を検知して矩形付けすることは不可能なはずです。未知の物体を認識するということは、ニワトリが先か卵が先かという問題と同様のジレンマを抱えています。
これを解決したのが、いま金子君が説明してくれたように、動きに注目するという方法でした。一般的な物体検知技術を使えば「物体らしい」ものを広く検出することはできるので、そのなかから目的物をくるくると回す動きを検知して、目的物だけを絞り込むようにしました。

深層学習の低コスト化を少データ学習技術とは異なるアプローチで実現

― どのようなきっかけで、本技術が生まれたのでしょうか?

寺尾:私たちは、少データ学習技術を研究しているチームです。少ないデータで精度の高い学習を実現する学習アルゴリズムの研究に取り組んできました。少データ学習技術が求められる大きな理由の一つは、深層学習用のデータ作成にかかる膨大なコストを削減することです。であれば、学習アルゴリズムを進化させることに加えて、学習データ作成を効率化するというアプローチもあるはずです。しかし、これまで世界中の研究が学習アルゴリズムの研究に偏重し、前段階の学習データ作成に着目するものはほとんどありませんでした。
これには、AIの研究環境が影響しているのかもしれません。アカデミアの世界では、正解付けとデータクレンジングが完了した公開データセットというものが用意されています。このデータを世界中で共有し、各国の研究者たちがデータの認識率を上げようと努力を続けているのです。必然的に、学習段階の効率化に注目する構造になっています。
これに対し、私たちは今回そのアプローチから一線を画し、データ作成そのものを自動化する技術があってもよいのではないかと考えました。この発想の転換こそが、今回の技術における一番の画期的なポイントだったと思います。
なぜこのような発想に至ったかと考えると、私たちNECはお客様の課題に直面して数々の生きたデータと向かい合ってきた経験があるからだと思います。実世界データのなかには多くのノイズが含まれています。また、正解付けの作業にはコツが必要ですし、多大な時間とコストがかかります。この現実に直面し、自分たちもその作業に身を投じてきたからこそ、自動化へのニーズというものを肌で感じてきました。現場の切実なニーズから生まれた技術であったと思います。
今後は、学習データ作成を自動化する技術と、私たちの強みである少ないデータからでも学習できる技術の両面から研究開発に取り組むことで、深層学習の実用化を大きく進展できると考えています。これから本格的に進めていく実証実験において、さまざまな可能性を試していきたいと思っています。

お問い合わせ