Please note that JavaScript and style sheet are used in this website,
Due to unadaptability of the style sheet with the browser used in your computer, pages may not look as original.
Even in such a case, however, the contents can be used safely.

  1. ホーム
  2. プレスリリース
  3. NEC、大量の文書データを同じ意味で自動グループ化する技術を開発

NEC、大量の文書データを同じ意味で自動的にグループ化できる技術を開発 ~ 素早い概要把握で、マーケティングからリスク管理まで支援 ~

2014年11月18日
日本電気株式会社




NECは、ビッグデータ分析技術の一つとして、大量の文書データにおいて、文の意味ごとに自動でグループ化するとともに、各グループの概要を見出しで表示できる「含意クラスタリング技術」を開発しました。

本技術は、二つの文が同じ意味を含むかどうかを判定するNECの独自技術「テキスト含意認識技術」を応用し、事前に分類の観点を設定することなく、文書データを高速かつ自動でグループ化できるものです。

本技術により、従来は不明確だったグループ化の観点が明確になるため、例えば、コンタクトセンターの苦情分析によるリコール製品の早期発見、ソーシャルメディア分析によるトレンド分析、自治体や警察に寄せられる災害・通報情報の自動整理による対応の迅速化などが可能になります。

NECは、社会ソリューション事業に注力する中、ビッグデータをはじめとする最新のICT技術を用いたソリューションを提供しています。今後も世界トップレベルのテキスト含意認識技術(注1)をはじめ、多様なソリューションの提供により、顧客の新たな価値創造に貢献してまいります。


背景


現在、企業内外の大量のテキストデータから価値やリスクに繋がる情報を把握し、活用するニーズが高まっています。そのためには、内容の概要把握が重要です。現在、類似内容のテキストを自動分類するために、テキストクラスタリング技術(注2)が用いられていますが、この技術では、あらかじめ設定したキーワードや項目でのみグループ化するため、正しくグループ化できない、同じグループに異なる意味のテキストが混在することでグループ全体としての意味の解釈が困難という問題がありました。

今回開発した新技術は、自動でのグループ化により、従来は困難であったグループ化の意味を理解可能となるため、多くのテキストを含むグループを優先的に見て、一目で大量テキストデータの概要把握が可能となります。



新技術の特長


二つの文が同じ意味を含むかどうかを判定するとともに、大量データから特定の意味を含む文書を高速に検出可能な、NECの独自技術「テキスト含意認識技術」(注1,3)を基に、今回、文書の自動的なグループ化および見出し文を表示する技術を開発。


分析対象となる全ての文書において、文の意味を認識し、同じ意味を含む文をグループ化します。また、同じ意味を含むグループ同士を統合することで、意味の重複なく、冗長性のない自動グループ化が可能です。さらに、各グループ内の文に共通で含まれる意味を一言で表す見出し文を表示し、従来困難であったグループの概要を素早く把握できます。
加えて、高速なデータ処理による実用的な時間でのグループ化も可能です。例えば、大規模なコンタクトセンターにおいて、ユーザから一日に寄せられる全意見(注4)を分析対象とした場合、従来数日かかっていた処理を数十分で実現し、分析結果をもとにした迅速な対応が可能となります。


なおNECは今回の成果を、NECグループが開催する「C&Cユーザーフォーラム&iEXPO2014」(会期:11/20(木)~21(金)、会場:東京国際フォーラム(東京都千代田区))にて、展示します。
「C&Cユーザーフォーラム&iEXPO2014」について
http://jpn.nec.com/uf-iexpo/index.html

NECグループは、「2015中期経営計画」のもと、安全・安心・効率・公平という社会価値を提供する「社会ソリューション事業」をグローバルに推進しています。当社は、先進のICT技術や知見を融合し、人々がより明るく豊かに生きる、効率的で洗練された社会を実現していきます。

【別紙】 補足資料


以上



(注1) 「NECのテキスト含意認識技術が米国国立標準技術研究所(NIST)主催の評価タスクにおいて第一位を獲得」
http://www.nec.co.jp/press/ja/1204/1301.html

(注2) ユーザがあらかじめ観点を決めず、機械が観点の決定と仕分けを同時に実施する分析技術。データの見方が定まっていない、目的上定めるべきでない場合に利用。

(注3) 「NEC、大量データから特定の意味を含む文書を従来比で約24,000倍高速に検出するテキスト含意認識技術を開発」
http://jpn.nec.com/press/201311/20131114_03.html

(注4) 一日約30,000件の問い合わせから意見相当の内容として抽出された約10,000件のテキストが対象と仮定した場合。


本件に関するお客様からのお問い合わせ先

NEC 研究企画本部 プロモーショングループ
お問い合わせ



NECは、社会ソリューション事業を推進する企業としてのグローバルブランドを構築するため、
新ブランドメッセージ「Orchestrating a brighter world」を策定しました。
本ブランドメッセージのもと、世界の人々と協奏・共創しながら、社会の様々な課題解決に貢献していきます。 Orchestrating a brighter world 世界の想いを、未来へつなげる。


Share: