2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になるか: Digital Finance Inspiration | NEC

サイト内の現在位置

Digital Finance Inspiration

デジタルファイナンスに新しい視点を提起するコンテンツサイト

2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になるか

2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になるか

人間の知能はさまざまな知覚と言語能力の組み合わせから生まれる。 こうしたマルチモーダルな手法を用いれば、新しい状況や問題により容易に対処できる堅牢なAIを作り出せる可能性がある。

2012年後半、人工知能(AI)科学者たちはニューラルネットワークに「視覚」を与える※1方法を発見した。 人間の脳をおおまかに模した設計のソフトウェアを利用することで、既存のコンピュータービジョンの性能を劇的に向上できることが示されたのだ。 AI分野ではそれ以来、人間の思考力、聴覚、発話、そして文章作成※2の能力をニューラルネットワークで模倣するための方法が開発されてきた。

特定のタスク処理においてAIは驚くほど人間に近づいている。 人間を超えたといってもいいだろう。しかし、依然として、人間の脳がもつ柔軟性を再現できていない。人間はひとつのコンテクスト内で学んだことを別のコンテクスト内でも応用できる。 一方、例えばディープマインド(DeepMind)のゲーム用アルゴリズムである「アルファ碁(AlphaGo)※3」は世界トップの囲碁棋士に勝てるが、その戦略性が発揮されるのは盤上だけに限られる。 つまり、深層学習アルゴリズムはパターンの発見において天才的であってもそれを理解することはできず、絶えず変化する世界に応用することもできない。

研究者たちはこの問題の解決方法について多くの仮説を提案してきたが、その中に大きな注目を浴びているものがある。子どもたちは知覚と会話を通して世界について学んでいく。 どうやらこの組み合わせが重要なようだ。視覚や聴覚を含めたさまざまな感覚情報と言葉を結びつけていくことで、子どもたちは複雑な現象や相互作用の描写、因果関係と相関関係の区別、そして洗練された世界モデルの構築を少しずつ学んでいく。 そうしてできたモデルは未知の環境における行動指針となり、新しい知識や経験をコンテクストと関連付ける助けにもなる。

一方、AIシステムは、一度にそのうちひとつのことをするようにしか作られていない。コンピュータービジョンと音声認識アルゴリズムはそれぞれ映像と音を感知するが、言葉を使ってそれらを記述することはできない。 自然言語処理モデルは言葉を扱えるが、その言葉には知覚できる現実世界とのつながりがない。 もし感覚と言語を組み合わせることで、AIが新たな情報を収集して処理する方法を人間に近づけられれば※4、世界を理解できるようなAIがついに完成するのではないだろうか。

そうした「マルチモーダル」システムは、人間の知性がもつ感覚と言語という2つの「モード」を活用することで、新しい状況や問題により容易に対処できる堅牢なAIを作り出す第一歩になると期待されている。 こうしたアルゴリズムが完成すればより複雑な問題解決の助けになるし、日常生活の中でコミュニケーションや共同作業ができるロボットの開発にもつながるかもしれない。

オープンAI(OpenAI)の「GPT-3」のような言語処理アルゴリズムの新たな進歩もその一助になっている。 言語処理能力の再現についての理解が深まったために、感覚機能と組み合わせることで生まれる可能性が広がっているのだ。 組み合わせるターゲットとして最初に選ばれたのは、AI分野で最初に実現された感覚機能、すなわちコンピュータービジョンだ。 その結果生まれたシンプルなバイモーダル・モデルは視覚言語AI※5と呼ばれる。

昨年にはAI分野で目をみはる研究結果がいくつか見られた。 9月にはアレンAI研究所(AI2:Allen Institute for Artificial Intelligence)がキャプションから画像を生成※6できるモデルを開発し、言葉と視覚情報を関連づけるアルゴリズムの性能を示した。 11月にはノースカロライナ大学チャペルヒル校の研究者が既存の言語モデルに画像を組み込む※7手法を開発し、モデルの読解力を向上させた。

オープンAIはその発想をGPT-3にも応用した。 2021年初頭、オープンAIの研究所は2つの視覚言語モデルを発表した。 ひとつは画像内の物体とそれを言い表すキャプションを結びつけるもので、もうひとつは学習済みの概念の組み合わせをもとに画像を生成するものだ。 例えば「明け方の野原に座っているカピバラの絵」を生成させるとしよう。モデルはそんな画像を見たことはないが、絵画、カピバラ、野原、そして明け方について知っていることをさまざまに組み合わせていくつもの画像を生成できる。

マルチモーダル・システムが今以上に進歩すれば、より高度なロボットアシスタント※8も実現するだろう(アレクサのレベルにとどまらない、ロボット執事のようなものを想像してほしい)。 現世代のAIロボットは、主に視覚データを活用して状況把握と周辺への働きかけをしている。例えば倉庫内での作業のように、限定的な状況でシンプルなタスクをこなすならこれで十分だ。 しかしアレン人工知能研究所などの研究所はさらに、言語処理機能と、聴覚や触覚といったその他の感覚情報の入力機能を追加する研究をしている。そのねらいはAIに人間の指示を理解させ、誰かがノックしたときにドアを開けるといった複雑な動作を実現させることだ。

長期的に見れば、マルチモーダル手法のブレークスルーは、AIが抱える重大な制約の一部を解消する助けになるかもしれない。 例えばAIは失敗しやすかったり簡単にだまされたりするが、それは世界について理解できないのが原因だと専門家は論じている(人間には知覚できないような加工を画像に施すだけで、AIは全く別のものだと認識してしまう)。

柔軟な知能の獲得は新たなAIの応用法を生み出すだけでなく、AI自体の安全性向上にもつながる。 履歴書を選別するアルゴリズムは、ジェンダーや人種といった本人の能力とは無関係な特徴を考慮しなくなるだろう。 自動運転車は未知の状況下でも自分の現在位置を見失うことはがなくなり、暗闇や雪の中での衝突を回避できる。 マルチモーダル・システムは、人々が自分の命を預けるに足る信頼性を備えた初めてのAIになるかもしれない。

カーレン・ハオ [Karen Hao]
米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。 AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。 グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。

この記事は、角川アスキー総合研究所『MIT Technology Review/執筆:Karen Hao』(初出日:2021年3月8日)より、アマナのパブリッシャーネットワークを通じてライセンスされたものですライセンスに関するお問い合わせは、licensed_content@amana.jpにお願いいたします。

シェアする