サイト内の現在位置

短縮動画+説明文で要約
映像認識AI×LLM

NECの最先端技術

2023年12月14日

現代社会ではさまざまな映像があらゆるシーンで撮影されていますが、それらは全て有効に活用されているとはいえません。映像解析にAIも多用されるようになりましたが、まだその多くは物体認識や人物検知など単体機能での可視化にとどまり、総合的にどういった意味があるのかまで分析したり、どのような価値があるか示唆したりするような技術は普及していませんでした。
今回NECが開発した映像認識AI×LLM(この技術を私たちは、記述的映像要約技術と呼んでいます)は、長時間の映像に潜むさまざまな価値を引き出すために有効な技術だといいます。その技術の詳細とユースシーンについて、研究者に話を聞きました。

イメージは、ChatGPTの映像版

ビジュアルインテリジェンス研究所
主幹研究員 & ディレクター(研究グループ長)
劉 健全

― 記述的映像要約技術とは、どのようなものなのでしょうか?

劉:長時間の映像からユーザーの要望に沿ったシーンのみを抽出し、さらにそのシーンを説明する要約文まで自動生成できる技術です。もともとは「ユーザー視点の物語がある映像要約」というコンセプトから研究開発を始めました。長い映像を丸ごと見なくても、短時間で知りたい情報だけを効率的に得られるようにする技術です。このコンセプトをまとめた論文は、昨年10月に開催されたマルチメディア分野の最高峰国際学会ACM Multimedia 2022でBest BNI Paper Awardも受賞しています(注1)。

なぜ「ユーザー視点」が必要かというと、映像内で価値のあるシーンはユーザーごとに異なるからです。例えば結婚式の映像を考えてみてください。新郎新婦の視点からすれば、2人の幸せな瞬間を中心に、友人や親族をバランスよくまとめたダイジェスト映像が欲しいと思うでしょう。一方、新婦の両親からすると、新婦のシーンを中心に、新婦側の親族の映像を多めにまとめてほしいと思うかもしれません。映像にどんな意味を見出すのか、どんな価値を引き出したいのか――。映像解析を突き詰めていけばいくほど、画一的な分析には限界が生じます。だからこそ、ユーザー視点が不可欠なのです。

要約文の生成は、映像の分析まで遂行するためにつけています。現在でも映像解析技術にはたくさんの認知・認識エンジンが活用されていますが、その多くは映像上に枠などをつけて可視化するだけにとどまっていて、具体的な分析まで行われていませんでした。そこで今回の技術では画像内で何が起きているか、ストーリーテリングのようなかたちで、わかりやすく示せるように要約文を生成することをめざしました。

このようなかたちで、昨年10月にコンセプトとして打ち出していたのですが、そのあとすぐに発表された大規模言語モデル(LLM)のChatGPTの登場によって、開発が急速に進み始めました。というのも、それには「ユーザー視点(User-centric)」と「物語がある(Narrative)」という点で、私たちがめざすコンセプトが既に含まれていたからです。ユーザーの任意の指示文に対してアクションしてくれるわけですし、自然言語でわかりやすく返してくれる。いわば、私たちがめざす技術は「ChatGPTの映像版」とも言うことができるわけです。そこで、LLMを活用しながら、どうやって技術を開発していくかというかたちで研究開発を進めていきました。

  • (注1)
    ACM Multimedia 2022は、10月10-14日にポルトガルのリスボンで開催。BNIはBrave New Ideasの略称。受賞論文: Compute to Tell the Tale: Goal-Driven Narrative Generation, new windowhttps://doi.org/10.1145/3503161.3549202

LLMとNEC独自の技術基盤で実現

ビジュアルインテリジェンス研究所
主任
山崎 智史

― 今回の技術は、どのようなブレイクスルーがあって実現しているのでしょうか?

山崎:このコンセプトを実現するためには、大きく分けて三つの課題がありました。一つ目はユーザーの意図を解釈する部分。二つ目は映像のなかで何が起きているかを広く知るという部分。三つ目は、前述の二つの要素をあわせて、ユーザーの意図にあった部分だけを選択するという部分です。しかし、これらの課題も、LLMの登場によって解決へと大きく前進させることができました。特に、一つ目と三つ目の課題は、LLMの効果が大きかった部分です。高度な自然言語処理をうまく活用することができました。

ただし、LLMは、そのまま利用すればよいというものではありません。上手く効率的に扱うためにはコツが必要です。生成AIを上手く扱うためのスキルは、現在プロンプトエンジニアリングとして注目を浴びる分野で、プログラミングに近い専門的かつ高度なノウハウが必要となります。そこで、今回チームにプロンプトエンジニアとして陳さんに入っていただいたことで、開発がスムーズに進みました。


陳:そうですね。プロンプトエンジニアリングというと一般的には馴染みがないかもしれませんが、例えば、LLMには長文を投げるより、分割した文章を投げて依頼した方が高精度になるという傾向があります。そういった特性を活用して、より正確な要約文を出せるように調整を施していきました。


山崎:しかも、かなりスピーディにご対応いただきましたよね。陳さんにアジャイルに動いていただいたおかげで、スピーディに仕上げることができました。

ビジュアルインテリジェンス研究所
主任
陳 エンピン

陳:はい。コンセプトのデモ作成のときから少しずつ試作品を作っていって、2カ月単位くらいでアップデートを繰り返していきましたね。LLMを活用していこうと大枠が決まった時期が3月頃ですから、その後半年程度でリリースまで実現することができました。


山崎:そうですよね。本当に助かりました。

また、残る二つ目の課題ですが、実はここは、NECがかねてより得意としてきた領域です。NECには映像認識、映像解析を行う多種多様なエンジンがありますが、私たちは数年前からこれら個々のエンジンを統合して扱えるプラットフォームづくりを進めていました。というのも、現場の映像解析においては物体認識や人物追跡など、シーンに応じたさまざまな解析が求められます。それらを総合的に、必要に応じて組み合わせて使えるような基盤整備が必要だと考えていたからです。この準備もあって、本技術の開発をスムーズ軌道に乗せることができました。


劉:山崎さんの言う通りで、NECはOSS(オープンソースソフトウェア)も含めて100個以上の認識エンジンを掛け合わせて解析できるプラットフォームを持っています。多様な映像解析をフル活用できるというのは、私たちの強みの一つです。

また、これらのエンジンを使って映像からメタデータを抽出し、コンパクトにグラフ構造で表現するという独自技術も持っています。私たちはこのグラフ構造を効率的に処理できる独自のマルチメディアデータベースを持っているため、高速に検索や分析を行うことが可能になっているのです。

さらに、画像に写るものを事実ベースで文章化する技術も活用しています。NECの北米研究所が開発したファウンデーションモデルなのですが、「事実ベース」という点がポイントです。というのも、生成AIの多くは「嘘つき」であるという問題があります。専門的には「ハルシネーション(注)」と呼ばれるものですが、本技術は事実に基づいて文章を生成するため、嘘が生成されにくい構造になっているのです。

映像確認の効率化を中心に、幅広い用途で活用可能

― 具体的なユースケースを教えてください。

劉:まずは、保険調査での利用を1stターゲットにしています。ドライブレコーダーの映像に本技術を適用し、調査員が事故発生シーンのみを抽出するように指示をすれば、当該シーンとその説明文を出力することができるという仕組みです。事故調査報告書作成に活用することを想定しています。


山崎:当該シーンと要約文をまとめて自動でドラフトを作成するので、調査員はカンタンな微修正をするだけで報告書を完成させることができます。既にデモシステムは制作が完了していて、現在のシミュレーションでは報告書作成にかかる時間を半減できることを見込んでいるところです。これからさらに実証を重ねて、より具体的な検証を行っていく予定です。

劉:このほかにも、さまざまなシーンに活用できると考えています。例えば、工場の製造ラインを撮影しているカメラ映像に適用すれば、完成品検査などの重要なポイントで作業チェックを効率化できるでしょう。1日24時間分の映像を確認しなくても、本技術が仕上げた報告書に目を通すだけで確認が可能になります。他にも、看護師や介護士の方などの日報作成や、店舗でのシフト確認、空港でのグラウンドハンドリング(注)など、映像確認を効率化する技術として幅広く応用できるでしょう。また、BtoC分野でも活用可能です。例えばスポーツの試合映像のなかから特定の選手だけを追いかけたダイジェスト映像の作成も、効率化することができます。

山崎:しかも、それらの報告書制作やダイジェスト作成が、AIとチャットするようなかたちで実現できることがポイントです。特別なプログラムの知識は必要はなく、私たちが普段記述するような文章で指示を出すことができます。LLMについてもNECが開発したものを導入しているので、業種やシーンに応じたファインチューニングも容易ですし、オンプレミスでのセキュアな運用も可能です。私たちが長く研究してきた映像検索の技術がぐっと身近に感じていただける技術ができあがったと思っていますので、ぜひ期待していただきたいですね。

  • (注)
    グラウンドハンドリング:航空機が空港に到着してから出発までのあいだに行う貨物搭載や搭乗客誘導などの地上支援業務

記述的映像要約技術は、長時間の映像からユーザーの意向に沿ったシーンだけを抽出し、当該シーンの内容を説明文とともに出力する技術です。ユーザー側が入力する自然言語での指示によって動くので、いわばChatGPTの映像版のような機能を果たします。NECがこれまでに開発してきた多彩な映像認識エンジンとそれらを掛け合わせて解析できるプラットフォーム、そして、映像からメタデータを抽出してコンパクトにグラフ構造で表現するという独自技術。さらには、画像に写るものを事実ベースで文章化することでハルシネーションを防ぐという技術がLLMと連携することで本技術が実現しています。

  • 本ページに掲載されている内容は、公開時の情報です。

お問い合わせ