ページの先頭です。
ここから本文です。
サイト内の現在位置を表示しています。
  1. ホーム
  2. NEC Information Square
  3. Innovators 100 Series
  4. Vol.25 判定精度世界一を獲得したテキスト含意認識技術の開発者 土田 正明
ここから本文です。

Innovators 100 Series Vol.25 土田 正明

判定精度世界一を獲得したテキスト含意認識技術の開発者

2015年9月28日

Vol.25 CHAPTER1 判定精度世界一を獲得したテキスト含意認識技術の開発者 土田 正明NEC ビッグデータ戦略本部 兼 情報・ナレッジ研究所 主任 博士(工学):土田 正明

表現の違いに左右されることなく、文意を捉えて高精度かつ高速に判定・識別。大量文書の内容を意味に踏み込んで処理する基盤技術「テキスト含意認識技術」は、情報ガバナンスの強化やマーケティング活用などで成果を発揮。精度世界一※を獲得したテキスト分析技術を開発した土田 正明が、開発の苦労、No.1挑戦への思い、研究者としてのこだわりなどを語ります。

  • 2011年米国国立標準技術研究所(NIST)主催の評価タスクにおいて

単語に左右されずに、文の意味を正しく把握

―まず、「テキスト含意認識」とはどんな技術なのか、概要を説明してください。

写真:土田正明 氏

土田:テキスト含意認識について説明する前に、コンピュータから見たテキスト分析の難しさについてお話しします。

文章で相手に内容を伝えたい時、私たち人間は同じ意味でもさまざまな表現を使って相手に伝えます。例を挙げて説明しましょうか。3つの文があるとします。1つ目は、「突然エンジンが止まった」。2つ目は「急にエンストした」。3つ目は「エンジンから突然異音がした」。

人間であれば、1つ目と2つ目の文は同じ意味で、3つ目は違う意味であるとわかります。一方、コンピュータが単語や文字面の類似性で判断すると、1つ目と3つ目は「突然」と「エンジン」という2つの単語を共有しているため類似した意味であり、2つ目は一つも単語を共有していないためまったく意味が違う、となってしまいます。このように、単語や文字面の類似性に基づく処理では、人が感じる意味に基づく分析が困難でした。

私たちが開発した「テキスト含意認識」は、文の単位で、表現の違いに左右されず、書かれている意味の包含関係を識別できます。人間と機械の意味解釈のギャップを少なくしつつ、大量文書から特定の意味を含む文を抽出したり、どんな内容が多いか、少ないか、といった傾向を正しく把握できるようになります。

―「テキスト含意認識技術」には、どんな特長があるのでしょうか。

土田:基本的には、文と文の間の意味の包含関係を認識する処理に関して、高精度、高速という2つを両立している点です。NECが開発した「テキスト含意認識技術」は、2011年アメリカで行われた評価テストで世界一の精度として評価されました。

NECでは、高精度を維持しながら、処理の高速化も徹底追求し、従来1.7時間かかっていた文書処理を数秒に短縮するなど、速度も世界トップレベルを自負しています。大量文書から特定の意味の内容を含む文書を取り出したり、どんな内容がどれくらい書かれているかという分析のための文意に基づくグルーピングの処理が、高精度でありながら現実的な時間で実行できるようになっています。

世界一の精度獲得のミッションが、私に

―「テキスト含意認識技術」開発における、土田さんの役割を教えてください。

写真:土田正明 氏

土田:「テキスト含意認識技術」は、NECとして研究開発を進めていまして、2011年度から私が担当することになりました。それ以降のアルゴリズムから応用まで、コアメンバとして研究開発を主導しています。2011年当時、私に与えられたミッションは、テキスト含意認識の評価ワークショップで世界一となることでした。

精度だけでなく、応用を考えると高速性も重要という思いがあったため、NECとしてそれまで蓄積したノウハウや知識をベースに、精度と速度を両立する二段階判定を新たに考え出し、開発した結果、無事1位を獲得できました。

―NECの「テキスト含意認識技術」開発において、他社との違いは何ですか。

土田:「テキスト含意認識」の技術はさまざまな研究機関でも取り組んでいますが、NECは企業であるため、「使える技術」として開発する必要があります。つまり、論文や評価ワークショップで高い評価を得るのが目的なのではなく、実際に使える技術をつくることが重要です。

そのためには、精度以外にも高速性が重要になります。これは先ほどちょっと触れた二段階判定で実現しています。一段階目では、同義語辞書や単語の重要性を考えて、単語レベルで含意関係がありそうかどうかを粗く判定します。これは高速な処理が可能であるため、この時点で含意の可能性がなさそうなものは「非含意」となって終了となるため、多くの場合に高速処理が可能になります。含意の可能性がありそうな場合には、二段階目の判定で、主語・述語、肯定・否定形など文の構造や意味を考慮した判定を行います。このように高速性と精度を両立させています。

さらに、このテキスト含意認識技術を活用した、大量のテキストデータに対する意味のマッチング技術も開発してきました。具体的には、二段階判定の精度をそのままに、テキストデータベースから入力の文を含意する文を高速検索する技術、その高速含意検索技術を活用して、テキストの中から同じ意味を含む文のグループを見つけ出し、そのグループの意味を表すラベルを付与する含意クラスタリングを開発してきました。

図[拡大する]拡大する開発方式の特長

No.1獲得は、社内に大きなインパクト

―「テキスト含意認識技術」の開発では、どんな苦労がありましたか。

土田:今でこそ二段階判定としていますが、一段階目の判定は当時のNECにノウハウがあったものの、それだけで精度を上げるのは難しいことがわかっていました。そこで、当初は現在の二段階目の判定の方向のみで開発を進めたのですが、やはりその方法でも難しい。最終的には二段階判定という結論に至りましたが、さまざまな試行錯誤がありました。

二段階判定の場合、第一段階と第二段階でそれぞれが果たす判定レベルをどう設定するかで精度や処理内容が変わってくるため、それぞれの役割バランスやアルゴリズムの調整も行いました。さらに、言語解析には通常ミスが含まれ、基本的には完璧にはならないので、問題の切り分けも難しく、どのモジュールを改良して精度を上げていくかという試行錯誤の連続でした。

―精度世界一を獲得した時の、反応や評価はいかがでしたか。

写真:土田正明 氏

土田:最初は社内からの反応が大きかったように思います。「世界一の技術ができたらしい」というのはインパクトがあり、お客様に何か新しいネタを提案できると思っていただけたからだと思います。もちろん、お客様からの質問を受けての引き合いというのもあったと思います。

「テキスト含意認識」は、特定の応用を意図した技術というよりは、汎用的な技術であるため、技術の内容を理解していただいた後には『この技術で何ができるようになるのか』『具体的にどんなことに役立つのか』という質問を良く受けました。それなりに考えはあったものの、やはり応用を通して実証することが求められましたので、世界一獲得の翌年からは、ビジネスへの活用を意識した実証に力を注ぎました。

ページ共通メニューここまで。

ページの先頭へ戻る