サイト内の現在位置

データの意味を自動で理解し、データ統合を効率化 データ意味理解技術

NECの最先端技術

2019年8月5日

データの意味を自動で理解し、データ統合を効率化 データ意味推定技術

これまで専門知識をもったデータサイエンティストによる長時間の作業が必要とされていたデータ統合。この作業を自動化できるのが「データ意味理解技術」です。この技術の詳細と将来的なビジョンについて、開発者の二人に話を聞きました。

AI導入に必要不可欠なデータ統合のコストを革新的に削減

データサイエンス研究所
リサーチャー
竹岡 邦紘
データサイエンス研究所
シニアリサーチャー
小山田 昌史

― データ意味理解技術とは、どのような技術なのでしょうか?

小山田:テキストと数値が混在した表データの意味を自動で理解することがきる技術です。 たとえば1つ目の列に書かれている数値は年齢であるだとか、2つ目の列に記載されたデータが氏名であるということを理解できます。こういうと、表データの頭にはそれぞれを説明するヘッダーがついているからそれを見ればいいじゃないかと思うかもしれません。しかし、実際に表データを開いてみると、ヘッダーの名前の付け方はデータによってバラバラであることがほとんどです。作成した個人によって命名ルールが違うことはもちろん、企業や国レベルで考えれば、さらに差は大きくなってきます。そのため、検索では目的の情報が引っかからないことも多く、データの意味を正確に理解するためには人間の介在が必要でした。企業や官公庁がもつデータとなると、行や列の数は膨大なものになります。これを一つひとつ地道に読み解いていくわけです。
竹岡:実際、私たちも研究者として、普段からさまざまな企業様からデータをお預かりして解析を繰り返してきました。データを読み解いて、きちんと整理した状態につくりあげるためには、だいたい1~2週間くらいの作業が必要です。さらに、そこでできたものをお客様のところに提示してフィードバックしてもらう、ということを繰り返すので、だいたい3~4週間は必要な作業です。これが、今回の技術を活用すれば、たった1日で完了できます。
小山田:私たちがこれからの社会のなかで、AI技術を活用して新しい価値を生み出していくためには、多様なビッグデータを集めて一つに統合するという作業が不可欠です。今回の技術を使えば、この作業を高速かつ高精度に自動で実行できるようになります。これにより、企業・グループ内や自治体同士の横断的なデータ統合が格段にスムーズになりますし、AIやビッグデータ解析導入時に必要であった時間や人的コストを大幅に削減することができるでしょう。

データ意味理解技術の概要
データ意味理解技術の概要
データ意味理解技術の概要

テーブル構造とナレッジグラフを活用して、高精度な理解を実現

― データ意味理解技術は、どんな技術によって構成されているのでしょうか?

小山田:基本的には機械学習をベースにしています。数値とテキストの意味理解を交互に繰り返して動かせるような学習器を独自設計することで、お互いがお互いの予測結果をフィードバックし合いながら性能を高めていけるようになっています。これまでにも、テキストデータだけや、数値データだけで意味理解を行うような技術はそれぞれ存在していましたが、今回は数値とテキストが混在していても解析可能であるということがポイントです。これによって精度は飛躍的に高まっていますし、応用可能性も大きく広がっています。また、データ統合という面では、データインテグレーションという技術も既に存在していますが、これはデータ同士の相対的な類似性を判断する技術です。データの意味そのものを理解して統合していくことができる今回の技術とは違います。データ意味理解技術の方が、一段ディープなことをやっていると言えるでしょう。

本技術とデータ統合技術との違い
本技術とデータ統合技術との違い
本技術とデータ統合技術との違い

竹岡:意味の理解には「ナレッジグラフ」を活用しています。さまざまな単語を属性や関連性の強度から結びつけているデータベースですが、これと表データの構造をうまく活用させて対応づけることで高精度な意味理解を実現しています。たとえば「28」「29」「30」という数値が並んでいるとしましょう。この数値は、何を表すと思いますか? ある人は年齢だと考えるかもしれないですし、ある人は気温だとか、年号だと考えるかもしれません。数値だけを見ていては、どうしたって意味を当てることは難しいものです。そこで、今回の技術では、同じ表の中にどんなデータがあるかということに注目しています。これにより、他のセルに地名と判断できるテキストがあったり、温度を示す「℃」が記載されていたりしたら、気温である可能性が高いと判断できるようになるわけです。私たち人間と同じようなことをしていると言えるかもしれません。

小山田:「ナレッジグラフ」はさまざまな企業がつくっているものですが、NECのナレッジグラフは社会ソリューション事業を広く展開してきたこともあり、専門用語に強いという特長があります。これと、広く世の中の一般概念を多く含むようなナレッジグラフを組み合わせることで、さまざまなドメインにおける専門的なデータであっても、高精度に理解できるようになっています。
本技術をまとめた論文は、人工知能分野の最難関国際会議の一つであるAAAI 2019に採択されました。竹岡君は、初めての国際会議採択だったんだよね。実は、彼はインターンで来てくれたときに、このプロジェクトに参加してくれたんです。1カ月という期間でしたが、そのときからガリガリとコードを書いて、実際に動くところまでもっていってくれて。

竹岡:はい。それで「ここまでやったのに、もったいないね」という話になって。教授に話したら「じゃあ、修論のテーマにしよう」と言ってくれて、大学とNECとで共同研究契約を結んだんです。卒業して入社後も研究をつづけて、一つの結果を出すことができました。

世界中のデータ連携・統合を実現する
全く新しいデータプラットフォームへ

― どのような応用を考えていますか?

小山田:目下考えているのは、企業内で活用するデータレイク製品への応用ですね。企業内のデータを一元管理することは、「データの民主化」をはじめ、新しい価値を生み出すものです。従来はデータ同士を、人が介在しながら一つひとつ見分けてくっつけていましたが、これがインテリジェントに実現できるということは、社会にとって大きなベネフィットになると考えています。
しかし、もっと将来の展望、最終的なビジョンを言わせてもらうならば、世の中の全てのデータが一つの意味で統合されるという世界を考えています。企業のデータが統合され、その企業同士のデータが統合され、さらに国同士のデータが統合されていけば、今までは思いつかなかったような新しい価値を発見できるようになるはずです。こうした全く新しいプラットフォームを創りあげたいということを考えていますし、この技術はその切り口になると考えています。もちろん、まだまだ欠けている技術もありますから、その部分をいま一生懸命埋めているところです。

竹岡:そうですね。それに、この技術はさまざまな使い方ができる基礎技術です。私たちが思いついていない応用例みたいなものが、もしかしたらあるかもしれません。いろいろな方々と一緒に議論しながら、新しいソリューションを見つけていきたいですね。

小山田:最終的に、私たちはこの技術を顔認識みたいな技術にしたいと思っているんです。顔認識というのは、精度を上げるのは非常に難しいですが、果たす効果としては顔の画像からその人物を特定するという非常にシンプルな技術なんですね。しかし、現在ではこの技術を世界中の人が活用していて、パソコンへの自動ログインや店頭での自動決済など、本当にたくさんの応用例が生まれています。これと同じように、私たちも「データの意味がわかる」というモジュールを提供することによって、いろんな人と一緒に「これを使ったらこんなことできる」というたくさんの応用を創りあげていきたいと考えています。

お問い合わせ