2013年11月14日
日本電気株式会社
NECは、大量のテキストデータ(ビッグデータ)から特定の意味を含む文書を漏れなく検出する「テキスト含意認識」を、従来に比べて約24,000倍高速化(
注1)することに成功しました。
テキスト含意認識とは、ある文書が特定の意味を含むかどうかを、表現の違いに左右されずに判定する技術です。NECのテキスト含意認識技術は、精度で世界1位の評価(
注2)を得ています。
今回の高速化技術の開発により、NECのテキスト含意認識技術は、精度、速度ともに世界トップクラスの性能を実現しました。
従来、本技術は、テキストデータ中の全文書に対して、特定の意味を含むかどうかを一つずつ判定していたため、テキストデータが大量になると膨大な処理時間が必要でした。
今回開発した新技術は、テキストデータ中の文書が特定の意味を含むかどうかを一括で判定していく過程で、ある条件を含まないと確定した文書は、随時 候補から除いていくアルゴリズムにより、従来技術と同じ判定精度で高速に検出します。
約700万文のテキストデータを用いた計測では、従来方式に比べて平均で約24,000倍の高速化が確認されました。これは、新聞に換算して約4年分のデータ量に相当(
注3)し、従来、約1.3時間かかっていた含意認識が、わずか0.2秒で処理可能になります。
新技術により、インターネット上に溢れる意見・風評や膨大な企業内文書の中から、特定の意味を含むものだけを漏れなく高速に検出できるようになり、マーケティングやリスク管理等の強化が可能となります。
新技術の特長は、次のとおりです。
- 候補棄却方式により、単語の被覆率の計算を大幅に省略
NECのテキスト含意認識は、特定の意味が文書にどれだけ含まれているかどうかを、(1)特定の意味の表現に使われている全単語を文書がカバーする割合(被覆率)に基づいて判定する含意候補判定(注4)と、(2)含意候補判定で候補と判定された文書中の文の意味構造に基づいて判定する、特定の意味を含むか否かを判定する処理、の2段階から構成されます。
最初の処理である含意候補判定において、被覆率の計算過程で各文書の被覆率の上限値を求め、被覆率が閾値を超えないことが明らかになった段階で判定を確定、候補から除くことにより、処理量の削減を実現します。
- 文書の重要度ごとに検索インデックスを分けることで不要な候補を削減
重要度が一定値以下の文書は、被覆率も閾値を超えないという関係が成り立つため、テキストの重要度のみで含意しない候補が判断できます。これを利用し、テキストを重要度の値ごとに複数グループに分け、グループごとに検索インデックスを構築し、重要度が閾値を超えないグループの検索を省略します。これにより、単語の被覆率を計算する以前の段階で、不要な候補の削減を実現します。
昨今、テキストデータが急増しており、これを企業活動に活用したいというニーズが高まっています。今回開発した高速なテキスト含意認識技術は、ビッグデータの高度な活用を実現するものです。さらに、本技術は基本的には特定の言語によらないため、グローバル展開も視野に入れています。
NECは今後も、本技術を活用した製品・サービスを通じ、ビッグデータからのお客様の新たな価値の創出に貢献してまいります。
なお、本技術は、NECグループが開催する「C&Cユーザーフォーラム&iEXPO2013」(会期:11/14(木)~15(金)、会場:東京国際フォーラム(東京都千代田区))にて、展示を実施します。
【別紙】 NEC、大量データから特定の意味を含む文書を従来比で約24,000倍高速に検出するテキスト含意認識技術を開発
以上
(注1) 特定の表現における単語を一つ以上持つテキストを検索して含意認識を実行する方式を従来方式として、処理時間(CPU時間)を比較。国立情報学研究所が主催の評価タスクNTCIR RITE-2のBCタスクから100文を特定文として使用、Wikipediaの日本語約700万文に対するテキスト含意認識の処理時間を計測。処理時間は文ごとに異なるが、平均で従来方式約1.25時間、新技術0.18秒、両者の比較で約24,000倍の高速化を確認。
(注2) 2011年度に米国国立標準技術研究所(NIST)主催のTAC2011にて開催されたテキスト含意認識の評価タスク RTE-7(英語)において、メイン、サブの両タスクで第一位を獲得、2012年度に国立情報学研究所(NII)が主催のNTCIR-10にて開催されたテキスト含意認識の評価タスクNTCIR RITE-2 Exam Search(日本語)で第一位。
http://www.nec.co.jp/press/ja/1204/1301.html
(注3) 新聞1年分を145メガバイトとして、600メガバイトを約4年分と算出。
(注4) 単語の重要度や同義語を考慮し、ある文の単語がもう一方の文でも出現している割合を被覆率として計算、被覆率が指定した閾値以上であれば含意候補と判定。
本件に関するお客様からのお問い合わせ先
私たちNECグループは、
「人と地球にやさしい情報社会をイノベーションで実現する
グローバルリーディングカンパニー」を目指しています。
|