Japan
サイト内の現在位置
マンモハン・チャンドレイカー(博士(コンピュータサイエンス)/NEC 北米研究所/メディアアナリティクス研究部門長)
2018年9月28日
最前線での研究:3Dシーン理解と視覚認識
コンピュータビジョンに関する現在の私たちの研究テーマには2つの領域があります。1つは3Dシーン理解、もう1つは視覚認識です。3Dシーン理解の応用範囲には自動運転や拡張現実があり、視覚認識は監視、リテール、医療など、広範囲に応用することができます。
3Dシーン理解では、画像をインプットとして受け取り、構成要素間の相互作用とともにシーンの3D構造を見いだします。2D画像から3D情報を復元するために、投影画像の形状や、光とシーンの相互作用知識、世界の構造の法則をコード化する事前知識(semantic priors)から手がかりを引き出します。
視覚認識では、ピクセルがどのようにしてより抽象的な情報につながるかについて、機械学習技術を利用して特定したいと考えています。抽出したいと考えている情報は、たとえば写真に写った人物の認識、対象となる物体の所在地判断、シーンで行われている行動の特定、シーンでこの先行われると思われる行動やシーンのこの後の展開の予測などです。
自動運転は、渋滞、事故、公害を削減し、現代や未来の人々に利益となる社会的影響をもたらす可能性があります。しかし社会的責任という観点からすると、自動運転により通勤時間や距離が長くなる可能性もあり、その場合、たとえば意図せず公害がひどくなることもあり得ます。
コンピュータビジョン最先端の新しいディープラーニング技術
NECの研究所は、あるドメインで訓練したモデルをラベルのない別のドメインに適応させるというドメイン適応の分野で大きくリードしています。ディープラーニングの登場により、監視用途や警察向けなどに用いられる顔認証などで高い性能が得られるようになりました。私たちが作る認証ソフトウェアは、潜在的な偏りがなく、アジア系、アフリカ系、その他人種に対し等しく有効に機能するものでなくてはなりません。プロファイリングでの誤用や意図せぬ監視結果を防ぐ必要があります。私たちのソフトウェアに特定の人種や性別に対する偏りがある場合は、社会的責任としてその偏りを解消しなければいけません。私たちが開発した顔認証は、ラベルデータのない民族に対して、完全な教師あり学習手法に近いレベルの性能を発揮した最初の顔認証方式となります。
自動運転については、NECの研究所では、距離測定、衝突回避、車線保持などのシンプルなタスクに加え、オクルージョン推論や、死角推論、多様な未来予測など次世代の課題解決にも取り組んでいます。オクルージョン推論と3Dシーン理解の技術により、ドライバーに見えない隠れた領域における意味カテゴリを確率的に推測し、事故を防ぐことができます。また未来予測では、交通参加者間の複雑な相互作用を処理でき、過去の同じ場面で生じた複数の危険性を予測する際の曖昧さに対応できます。
ここではコンピュータビジョンからの知見を、開発中のディープラーニング手法にどのように取り入れるかが重要です。また、もう1つの取り組みが説明性です。単なるブラックボックスではない、コンピュータビジョンのディープラーニングを開発したいと考えています。より正確に言えば、ブラックボックスが特定の結果を推測する理由について、情報に基づいて決定できるようにしたいということです。重要視するその他の課題は、ディープラーニングやコンピュータビジョンのプライバシーや、セキュリティ、信頼性です。
研究コミュニティへの影響
私たちは、研究や専門家団体への参加など、積極的な活動を展開しています。コンピュータビジョンや機械学習のトップカンファレンスであるCVPR、ICCV、NIPSなどでは、定期的に論文発表を行っています。カンファレンスでは現在のテーマに関するワークショップやチュートリアルを実施し、私たちのメッセージをより広く世界に向けて発信するとともに知見を得ています。また、充実したインターンシッププログラム、大学とのコラボレーションも多数行っており、各学校の教授や研究グループと協力して、相互に関心のある問題に取り組んでいます。
コンピュータビジョン分野の若い研究者へのアドバイス
現在、コンピュータビジョンは非常に活気ある分野で、ほぼ毎日のように新しい技術が開発されています。若い研究者には、特定の問題を解決するために必要なコア領域の分野で研究を深めることをお勧めします。ブラックボックスのディープラーニングにおける研究成果と、3D情報の復元や物体認識といったドメイン知識を統合する方法を見いだすことができれば、大きな影響を生むことになると思います。
もう1つ必要なことは、アイデアを伝えて広げていく能力です。現在解決しようとしているのは大きな問題で、多くの人々や企業の努力を統合しなければなりません。信頼性が高く再現可能なコードを記述し、他の人々がより大きな目標のために容易に利用できるようにすることが重要となります。
ロボティクスと拡張現実分野における次なるイノベーション
コンピュータビジョンにおける次の段階の問題は、物理世界との新たなつながりを提供する最新型のインターフェースに関するものだと私は考えています。拡張現実は物理世界とデジタル世界とをつなぐ新しい方法であり、広大なテーマです。もう1つの重要分野であるロボティクスは、複数の未解決課題を持つ別のインターフェースです。技術上、現在は大規模なラベル付きデータに依存していますが、ラベルの取得が困難な状況でも問題を解決するために、ドメイン適応、自己教師あり学習、デモンストレーションによる学習といった領域で新たな方法を開発することにも取り組んでいます。
コンピュータビジョンの未来
過去5~10年にわたり、膨大な量のデータが入手可能になり、以前よりはるかに大きな問題を解決できるようになりました。こういった利点は今後も継続し、データの規模が拡大して、コンピュータ計算のスピードと性能は向上し続けるでしょう。つまり、10年後にはコンピュータビジョンから得られる知識の種類が根本的に変わっていたり、より強力なものになっていたりする可能性があります。もしかすると私たちは、認識という領域を超え、予知に関する問題解決へと移行しているかもしれません。今から20年後の世界では、自動運転車などの問題が大幅に解消しているであろうことが想像できます。結果的に道路インフラや住宅市場全体が進化し、大気汚染が減少しているかもしれません。そしてこういった利益は、コンピュータビジョンが進歩できてこそ可能になるのだと思います。
マンモハン・チャンドレイカー
インド工科大学ボンベイ校から電気工学で工学技術の学士号を、またカリフォルニア大学サンディエゴ校からコンピュータサイエンスで博士号を取得。カリフォルニア大学バークレー校で博士研究員(ポスドク)対象奨学金を獲得した後、カリフォルニア州クパチーノにあるNEC北米研究所に入社し、コンピュータビジョンの研究を行う。主な研究対象は、SfM(多視点画像からの3次元形状復元)、3Dシーンの理解、複雑な照明や材料挙動下での密モデル化を含む疎密な3D再構築で、これを自動運転、ロボット工学またはヒューマンマシンインターフェイスに応用している。構造と挙動予測に最適なアルゴリズムの研究ではICCV 2007で最優秀の論文に与えられるMarr Prize Honorable Mention賞を、カリフォルニア大学サンディエゴ校では最優秀の論文に贈られるCSE論文賞(Dissertation Award)を受賞したほか、2010年ACM論文賞(Dissertation Award)にもノミネートされた。複雑な材料や照明でのモーションキューからの形状回復に関する研究は、CVPR 2014で最優秀論文賞を受賞している。
関連研究所
お問い合わせ