サイト内の現在位置

NEC、多種多様なデータの意味を推定するAI技術「データ意味理解技術」を開発

~業界横断での高精度なデータ統合・検索を実現~

2019年8月5日
日本電気株式会社

NECは、多種多様なデータの本質的な意味をAIで推定する「データ意味理解技術」を開発しました。本技術は従来、専門家が非常に時間をかけて行っていた分野や業種の異なる複数の表データの統合作業を、高速かつ高品質に自動化するものです。

具体的には、表データの構造と数値特性を含む、様々な単語のナレッジグラフ(注1)を活用した独自の機械学習技術で、NECの最先端AI技術群「NEC the WISE」(注2)の1つです。例えば、表データにおける数値データ列に「29、24、23」がある場合、単独では「年齢」や「気温」など様々な意味が想起できますが、同じ表データに「氏名」の項目が含まれていれば、「気温」データではなく、より関係性の強い「年齢」データであると推定できます。
本技術をオープンデータ(注3)に適用したところ、専門家が30日かけていたデータ統合作業を、わずか1時間で同等品質にて実現することを確認しました。

今後NECは、本技術をサプライチェーンに加え、データレイクといわれる様々な分野の形式の異なるデータが集まるデータベースや、データを一元管理するデータマネジメント基盤(DMP、注4)、情報銀行やデータ流通プラットフォームなど、情報共有基盤への汎用的な活用を目指し、研究開発を進めていきます。

背景

近年、データ流通基盤や情報銀行など、データを部門間、企業間、さらには業界間で共有し統合することで、これまでにない横断的な分析を行う取り組みが活発になっています。

保有者の異なるデータを横断的に分析するには、表名や列名が統一されていない多様なデータを結合することが必要です。実際、作業者、企業、業界毎の違いから表名/列名には大きな表記揺れが存在します。そのため、これまではデータ管理の専門家が膨大な量の表データを精査し、何のための表データか、その表データの各行や列が何を表しているかを見極め、人手で統合を行っていました。その結果、データ統合に膨大な時間がかかり、分析がすぐに開始できない、担当者ごとのスキルにばらつきが出て分析精度が悪化するなどの問題が顕在化していました。

新技術の特長

本技術は、多種多様なデータの統合を専門家と同等の品質、かつ短期間で再現し、データ統合に関する業務効率の向上を可能にする、NEC独自の機械学習アルゴリズムです。

新技術の特長zoom拡大する
新技術の特長
  1. データ分布の傾向をとらえる特徴量に基づき、ナレッジグラフとの紐づけを実現
    今回開発した技術は、元々付与されている表名や列名を手がかりとするのではなく、各データ列の数値分布の統計的な傾向を手がかりとします。
    具体的には、事前にナレッジグラフ内の各単語について、その単語と共起する数値を収集し、単語の数値分布を含む独自のナレッジグラフを構築します。
    同じ意味を持つ数値データは統計的な分布傾向が類似することから、数値データ列から数値の出現頻度の分布傾向を示す特徴量を算出し、ナレッジグラフ上の単語毎の数値分布と比較します。これにより、例えば、列名のないデータについても、「売上高」といった意味の推定が可能となります。
    特長1
  2. ナレッジグラフ上での意味の共起関係を活用し、高精度な意味推定を実現
    表データにおける数値データ列では、例えば「29、24、23」など、それ単独では「年齢」や「気温」など様々な意味が当てはまるため、文字データ列と比べて正しい意味の推定はより困難となります。
    今回開発した技術は、「推定対象のデータ列の意味候補」と「同一表データにある他のデータ列の意味」の共起関係をナレッジグラフ上のネットワーク距離(=データの意味間の共起関係の強度)を活用し推定することで、高い精度での推定を実現します。例えばあるデータ列について、同じ表データに「氏名」の項目が含まれていれば、ナレッジグラフから、「気温」データではなく、より関係性の強い「年齢」データであることを推定します。
    特長2

NECは本技術を、人工知能分野の国際学会・アメリカ人工知能学会(The Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19、開催日時:2019年1月27日-2月1日 場所:米国・ハワイ)にて1月30日に発表しました。URL: new windowhttps://aaai.org/Conferences/AAAI-19/

以上

  • (注1)
    ナレッジグラフ:様々な単語の意味をネットワークで表現したデータベース
  • (注2)

    「NEC the WISE」(エヌイーシーザワイズ)は、NECの最先端AI技術群の名称です。"The WISE"には「賢者たち」という意味があり、複雑化・高度化する社会課題に対し、人とAIが協調しながら高度な叡智で解決していくという想いを込めています。
  • (注3)
    オープンデータ:公開されているセンサ情報や医療情報など多業種のデータを使用
  • (注4)
    Data Management Platform(データ マネジメント プラットフォーム)の略。別々に管理されている情報データをまとめて管理するためのプラットフォーム。

データ意味理解技術について

本研究に関するお問い合わせ先

NEC 研究企画本部 研究プロモーショングループ

NECは、社会ソリューション事業を推進する
ブランドメッセージ「Orchestrating a brighter world」のもと、
今後の世界の大きな変化(メガトレンド)に対応する
様々な課題解決や社会価値創造に貢献していきます。
詳細はこちらをご覧ください。
https://jpn.nec.com/profile/vision/message.html

Orchestrating a brighter world