Japan
サイト内の現在位置
業務現場における複数人物の多種多様な作業内容を認識
NECの最先端技術2022年12月20日
さまざまな産業において映像から人の行動を認識しようとするニーズは多く、多様な技術が生まれています。しかし、建設現場のように多数の人が行き交う混雑した環境においても、各人が行う作業内容のような高度な行動を同時に認識することのできる技術はこれまで存在していませんでした。今回NECが開発した技術は、そのような従来不可能であった高度な行動認識を可能にした技術です。その技術の用途や詳細について、研究者に話を聞きました。
建設現場作業をデジタル化し、生産性向上に貢献
― 本技術は、どのような技術なのでしょうか?
高橋:映像中の人とモノの間の関係性をとらえることで、作業内容のような複雑な行動でも高精度に認識することができる技術です。AI 研究の世界的名門である NEC 北米研究所と共同で開発しました。建設現場のような複数人が行き交うような場所や、日々環境が変化するようなシーンであっても高い精度で行動を自動で認識することができます。
― なぜそのような技術が必要なのでしょうか?
高橋:例えばいま例に挙げた建設現場では、人口減少や作業員の高齢化から労働力不足が深刻化しています。また、日本では2024年に時間外労働の上限規制が施行される予定になっており、働き方改革や生産性の向上は喫緊の課題です。
こうした状況を受けて建設業界では積極的にDXが進められていますが、建造物の3次元モデル化への取り組みは進められているものの、生産の根幹である現場作業者の方々の作業状況や負担のデータ化は難しく、人的リソース配置の最適化や生産性向上はDXがなかなか踏み込むことのできない領域でした。本技術は、カメラ映像から建設現場における個々の作業員の作業内容を自動で把握することができる技術なので、このような課題の根本的な改善に貢献することができると考えています。
画像から表現形式の異なる多種類の情報を読み取り、関係性を解析
― 技術のブレークスルーポイントは、どこにあるでしょうか?
馬場崎:画像に写った人の見かけ上の特徴だけでなく、人の姿勢やその周囲の物体の種別情報、画像内の人やモノの位置など、性質の異なる複数の情報を結び付けて解析できる点が一番のポイントです。これまでも、画像内の人の見かけ上の特徴や姿勢情報だけを使って行動を認識しようとする技術は存在していました。とにかく大量の映像データをディープラーニングで学習させて、一つの特徴から特定の行動を認識しようとするものです。しかし、この手法が応用できるシーンは極めて限定的でした。例えば人の姿勢情報だけを使っていた場合、同じ姿勢であっても何を持っているかで行動が異なることは直感的にわかっていただけると思います。作業内容のような高度な行動を高い精度で認識しようとすると、人の姿勢情報などの単一種の特徴だけでは不十分なのです。また、これまでの手法では複数人が動き回って、ときに重なり合うようなシーンでもうまく機能させることができませんでした。
これに対し、今回の技術では同じ画像内でも人がどんな姿勢で、何をどのあたりに持ち、どの位置に立っているかという複数の情報を読み取って、それらの関係性を解析していきます。そのため、より複雑な行動を高精度に認識することができるのです。また、例えば身体の一部がモノや人の陰に隠れて一部の特徴が欠損してしまうような場合でも、位置情報や近くのモノの情報などの他の特徴を相補的に利用して精度を担保することができます。これにより、複数人が行き交うような現場でも複数の人物の作業内容を安定的に認識することが可能です。
安藤:画像内から複数の情報を読み取って認識するために、情報の取捨選択を行うという点も今回の技術の重要なポイントです。というのも、行動を高精度に認識するためには、取得した情報を全部使えば良いというわけではないからです。特に建設現場のように様々な重機や道具があちこちに置かれていたり、たくさんの人が密集したりするような状況下では、一部の情報がノイズになってしまうような場合もあり得るのです。
そのため、本技術では状況や認識すべき行動に応じて、人の姿勢やモノの識別、人やモノの位置などの全く異なる特徴を適応的に重みづけして、複雑な作業でも高精度に認識できるようにしています。
建設現場への実用化から、製造・小売・物流への展開をめざす
― 現在、技術はどこまで完成しているのでしょうか?
安藤:2022年の3月から5月にかけて、大和ハウス工業株式会社様と共同技術実証を行いました。戸建て住宅の建設現場にカメラを設置して、本技術による作業の自動認識を検証したものです。
「転圧」「根切・埋戻」「コンクリート打設」「鉄筋組み」という作業工種の認識を行った結果、作業時間の計測誤差が10%以下であることを検証できました。
これにより、どのような現場に何人いれば、どのくらいのスピードで家を建てられるかがデータ化できるので、建設にあたってのスケジューリングや人員の最適なリソース配置に貢献できるのではないかと考えています。
― 本技術の今後の目標はありますか?
馬場崎:今回対象としたのは戸建て住宅の建設現場でした。今後は集合住宅など、もっと多様な建設現場のなかで全行程を通して認識できるように技術の適用領域を拡張し、生産性向上に結び付けられるように実用化をめざしていきたいと思っています。
また、本技術はファーストターゲットとして建設現場にフォーカスしましたが、他の業種へも適用できるものだと考えています。例えば製造、小売、物流などの業種でも作業の見える化、生産性向上に貢献していくことをめざしています。
安藤:もう一つ実現したいと考えているのは、本技術の現場導入を助けるソリューションです。現在、本技術の導入するためには学習データ収集と正解付けを行う必要があります。私たちのような専門家とお客様でタッグを組んで、認識したい行動をピックアップして正解付けを行っていくのです。しかし、これをもっとAIなどの技術でサポートできれば、お客様自身でもっと手軽に本技術を活用していくことができるはずです。こうしたアプローチからも技術を発展させていきたいと考えています。
- ※本ページに掲載されている情報は、掲載時の情報です。
本技術は、画像認識に属する技術です。画像から人の姿勢(骨格)、物体の種別情報、人の位置、物体の位置という表現形式の異なる複数の特徴情報を同時に読み取って、それぞれの関係性から行動を認識します。従来の行動認識では人やモノの視覚情報や人の骨格情報などの単一の特徴量から分析を行うアプロ―チが主流でしたが、本技術は複数の特徴量を同じ空間に入れ込んで計算し、適応的に重みづけすることで、より複雑な行動の認識や大人数が行き交う場所での同時認識を可能にしました。
また、適用現場でのデータを使った機械学習は行動認識に当たる部分の学習だけを行えばよいので、準備する教師データ量は少なくすることができます(姿勢や物体の認識には、取得しやすい別のデータから学習が可能)。
関連情報
お問い合わせ