Japan
サイト内の現在位置
「エンティティ推定技術」を用いた医療分野における「グラフベース関係学習」の応用と展望
2020年1月30日
はじめに
「グラフ」は私たちの世界そのもの
コンピュータは、私たちの生活のさまざまな分野で有用な働きをしています。しかし、そうした機能を実現するには、コンピュータで扱える形で情報が存在しているか、そのような形式に加工あるいは変換できることが必要です。
たとえば、私たちが生きている世界は、人や都市、機器、さらには物質を構成する分子や原子に至るまで、あらゆるモノやコトから構成されています。コンピュータは、これまでこうしたモノやコトを特徴付ける情報の中から、比較的扱いやすいものに着目し、それぞれを個別に処理することを中心に機能してきました。そうした情報には、色や形、能力、性質などが含まれます。
けれども、実際には、これらのモノやコトは単独で存在しているわけではありません。多様にグループ化された「集合」を形成し、それらが複雑な「関係性」を保つことで成り立っているのです。しかし、この「関係性」については、それぞれの情報の分野・位置付けの違いや、数値、文字、画像のようにデータ形式が多岐に渡ることから、コンピュータ上で効率的に扱う手法が確立していませんでした。そのため、情報自体は膨大に存在していても、お互いを関連づけて分析し、社会的に役立つ用途に応用する研究はあまり進んでいなかったというのが実情といえます。
ところが、近年、さまざまな種類や形式で存在するモノやコトを関連付けて分析できる「グラフベースAI」というAI手法が考案され、これを利用して事象の「関係性」そのものをコンピュータで扱えるようになってきました。この場合の「グラフ」とは、複数の要素の結びつきによる構造を意味し、複雑な情報のつながりを包括的に表現することができるものです。
「グラフベースAI」では、グラフ構造に属する個々の要素は「ノード」(=節、接点、集合点)、それらを結ぶものは「エッジ」(=辺、つながり、経路)と呼ばれ、「ノード」の実体となるモノやコトは「エンティティ」として扱われます。
身近なわかりやすい例としては、インターネットを介して相互接続されたスマートフォンやタブレット、コンピュータ、その他の無数の電子デバイスの総体が、1つの大きな「グラフ」構造体です。そして、「エンティティ」に相当する機器の1台1台が「ノード」を形成し、それらをつなぐネットワーク回線が「エッジ」にあたります。次に述べるように、これ以外にも、「グラフ」の概念は、いろいろな「ノード」の「関係性」を表すのに適しており、私たちの世界そのものが「グラフ」であるといっても過言ではないのです。
隠れた関係性の発見から創出される新たなビジネス価値
NECは、社会の進歩に役立てるという観点から「グラフベースAI」に注目し、先端的な研究開発を行ってきました。その対象となる、モノやコトに付随するさまざまな種類や形式のデータには、以下のようなものがあります。
人に関するデータ
- 仕事関係、家族関係、交友関係
- 年齢や身長などの数値情報
- 仕事内容、医療診断情報や肩書などの文字情報
- 顔写真などの画像情報
化学の分子構造に関するデータ
- タンパク質の相互作用や共通の標的タンパク質など、複数の分子間の関係
人と機器に関するデータ
- 携帯電話、車、家など、人とモノの所有関係
(機器を表す情報には、仕様などの数値情報、機器の説明などの文字情報、製品写真など画像情報、他が含まれる)
都市に関するデータ
- 都市を内包する国との関係
(緯度や経度、犯罪数などの数値情報、都市の説明などの文字情報、市内各所の写真などの画像情報、他が含まれる)
これらのさまざまなモノやコトに関するデータも、かつては断片的で関連付けが難しいと思われていました。しかし、「グラフベースAI」を応用することにより、複数の要素を同時に分析できるようになり、いままで捉えきれなかった隠れた関係性の発見が可能となってきたのです。NECは、「グラフベースAI」に基づく高度な関係学習(以下、グラフベース関係学習)を適切に利用して、新たなビジネス価値の創出を実現します。
NECの技術的アプローチ
「エンティティ推定技術」による有意性向上
さまざまな社会的インパクトをもたらすことが期待される「グラフベース関係学習」の研究を進めるにあたり、NECは次のような技術的アプローチを採っています。
- 構造化および非構造化データに属する情報を、複数の関係性を表現できるグラフに統合する技術を開発
- 関係性をグラフで統合した後、その統合結果について、機械学習が実行できる形にするニューラルネットワークモデルを開発
特に、断片的な情報を関連付けて「グラフベース関係学習」を有効に機能させるには、「グラフ」内の個々の「ノード」に含まれる「エンティティ」がどのようなものかという属性を示す「ラベル」付けが不可欠です。ところが、現実には「ラベル」にあたる情報が存在していなかったり、欠損していることも少なくありません。そこで、不足している「ラベル」を補完して「グラフ」を完結させるための「エンティティ推定技術」技術が重要となります。
NECは、この「エンティティ推定技術」において、「グラフ」構造のための教師なし学習のフレームワークであるエンベディング・プロパゲーション(埋め込み伝播法)を利用した確度の高い推定を実現することによって「ノード分類」を効率的に行えるようにし、「グラフベース関係学習」の有意性向上も果たしてきました。
「グラフベース関係学習」の医療分野への応用
より高度な治療の実現を目指して
それでは、「グラフベース関係学習」の応用分野として、NECの医療における取り組みやメリットについてご紹介しましょう。たとえば、がん治療に対して「グラフベース関係学習」を応用した場合には、以下のようなメリットが得られます。
まず前提として、がん治療に関わる医師の治療の指針は、次のようなものです。
- 生存率と疾患の進行状況を考慮し、最善の治療の計画をおこなうこと。
- 重篤な副作用を予測し、患者の命を脅かしかねない治療を回避すること。
これらの点に関して、NECの「グラフベース関係学習」は、以下に挙げる貢献が可能です。
- 疾患の進行状況の分析に「グラフベース関係学習」の結果を用いることで、病状に応じた適切な治療方法の選択が可能となる。その結果、患者の生存率の向上に寄与できる。
- 同じく、副作用の予測に「グラフベース関係学習」の結果を用いることで、治療の適切な組み合わせを発見することが可能となる。その結果、治療時の合併症の減少に寄与できる。
このように、「グラフベース関係学習」をがん治療に応用するうえで、NECは複数の産学連携プロジェクトに参画しています。その一環として、「がんに対する免疫応答を誘導するワクチン設計」に「グラフベース関係学習」を用いて、「免疫治療の標的を特定する」研究にも取り組んできました。
具体的には、まず、患者のゲノムデータから、標的の候補を選び出します。次に、「グラフベース関係学習」を用いますが、これは、候補となった標的をノードに割り当て、標的の類似性に基づきグラフを構築し、ノードに標的に対する測定データや免疫応答予測データなどをエンティティとして与えます。実際には、この過程で、標的によっては必要な測定データや予測データが不足している場合も多々ありますが、NECの「ノード分類」技術を適用した「グラフベース関係学習」を用いると、AIが不足部分を適切に補完し、有意なエンティティの推定が行えるようになります。
そして、最終的に、この「グラフ」を分析することで、複数の候補の中から、確度の高い標的の特定を実現できるのです。
「バイオマーカー」をより有効に利用するために
医療の現場では、患者の特定の病状や、生理的状態、治療への反応性などを客観的に把握するための指標として「バイオマーカー」というものが使われています。従来からよく用いられているものとしては、血糖値やコレステロール値といった、尿や血液中に含まれる生体由来の物質のほかに、心電図や血圧、骨密度などもこれに含まれます。さらに医療技術の進歩とともに、X線やCT、MRI、PET、病理画像などから得られる画像情報を指標とするイメージングバイオマーカーや、DNAやRNAなどもバイオマーカーとして実用化されています。最近では、血液などの体液サンプルを使って診断や治療効果予測を行う、リキッドバイオプシーが注目を浴びています。
「バイオマーカー」は、治療効果を測定したり、疾患を未然に防ぐ意識を高めるうえで役立ちますが、最近では個人の特性に合わせて副作用を回避し、最も有効な治療法の選択を可能とする個別化治療にも大きな役割を果たすようになりつつあります。
がん治療に「グラフベース関係学習」を応用すると、こうした「バイオマーカー」から得られる情報をさらに有効活用できるようになり、がん患者に対して、より優れた治療を提供することが可能となります。その結果、治療時の合併症を避けて患者の治療効果を上げるなど、医療の進歩に多大な貢献をもたらせるのです。
NECが目指す「グラフベースAI」応用の目標と課題
人も理解可能な理由付けを行えるAIシステムの実現
このように大きな可能性を秘めた「グラフベースAI」分野の研究において、NECが掲げる開発目標は、次のようなものです。
すでに存在する、過去の文献や資料のデータベースから構築された「グラフ」型の知識ベースを、ナレッジグラフと呼びます。私たちは、このナレッジグラフを用いて、モノやコトに属するさまざまな種類や形式のデータに関する複数の関係性を表現し、人の次の動きや行動につながる知見を引き出すことを、究極的な「グラフベースAI」応用の目標として定めました。
たとえば、この目標を医療分野に当てはめると、「ある患者に最適な治療の組み合わせは何か?」といった質問に対して、最適な治療の組み合わせや具体的な治療手段を提示するだけでなく、その判断基準となった根拠も人が理解できるように説明できる優れたインテリジェントシステムが考えられます。
しかし、その実現のためには、以下のような機械学習における技術課題が想定されます。
- 冒頭でも触れたように世の中には様々な種類や形式のデータが存在し、非構造化のものもあれば構造化されているものもあるため、それらのデータ構造の違いから情報を抽出・統合することに困難が伴う。
- データが存在していても、十分に活用できないケースがある。その要因としては、たとえば画像データの場合には何が写っているのかがわからなかったり、焦点が合っておらず肝心なところが写っていないという例が挙げられる。また、データの種類の偏りや、データ利用に関する規制が影響することもある。
- 様式の異なる複数データと、それらの複雑な関係性を適切に表すグラフを、NECの持つ知見を十分に生かしながら、機械学習に適した形に効率よく変換する必要がある。
- 膨大なモノやコト、それらに属する情報、関係性を機械学習のモデルに落とし込み、必要に応じてリアルタイムで質問に答えられるようにする。
お問い合わせ