NEC、超大規模データから高速に規則性を発見できる「分散版異種混合学習技術」を開発
~人工知能(AI)「異種混合学習技術」を強化、従来比110倍に高速化~
2016年5月26日
日本電気株式会社
NECは、人工知能(AI)によりビッグデータに混在する多数の規則性を発見する技術「異種混合学習技術」(注1、2)をもとに、超大規模データから分散コンピューティングシステムで予測モデルを生成する機能を強化した「分散版異種混合学習技術」を開発しました。
「異種混合学習技術」は、ビッグデータの分析・予測において曜日や天気等の条件による「データの場合分け」や「因子(注3)の組み合わせ」を自動で発見する技術です。
従来、データのサンプル数が数千万件以上でコンピュータ1台の搭載メモリ量より大きい超大規模データを分析する際は、あらかじめデータを分割して分析していました。また、高性能なCPUの搭載(コア数増加など)にも限度があり、大規模データ分析における性能の改善が課題となっていました。
今回開発した「分散版異種混合学習技術」は、分散されたコンピュータ上でそれぞれ異種混合学習での分析を行うと同時に全体の整合も行えるため、コンピュータの台数を増やすことで、データの規模に制限なく予測モデルを生成できます。例えば大手金融機関の残高予測や大規模通信事業者の解約者予測など、数千万件以上のサンプルによる超大規模データの分析が可能です。
本技術を用いて実証(注4)を行った結果、従来と比べて学習速度が約110倍高速化しました(注5)。また、予測精度(注6)も約17%向上しました。
NECは、本技術のさらなる開発を進め、2017年度の実用化を目指します。
NECは、社会ソリューション事業に注力しており、本技術をはじめ先進のAI技術で安全・安心な社会づくりやビジネスインフラの強化に貢献します。
背景
現在、ビックデータを迅速に分析し、将来の予測に役立てる技術への期待が高まっています。NECはこれまで、高精度なビッグデータ分析が可能なAI技術「異種混合学習技術」を独自開発・強化してきました (注1、2)。
「異種混合学習技術」により、資源の効率化のためのエネルギー・水・食料の需給予測、物流管理を効率化するための在庫需要予測、小売店舗管理の高度化のための商品需要予測などの高精度かつ大規模な予測を行ってきました。
一方、これまでの「異種混合学習技術」は、超大規模なデータを学習する際、メモリ容量や、コンピュータのCPUコア数の制限によって性能が限定されるなどの課題がありました。
今回開発した「分散版異種混合学習技術」は、分散コンピューティングシステムで異種混合学習を実行可能にするもので、データのサンプル数が数千万件以上の超大規模データに対して、コンピュータの台数を増加させることでデータの規模に制限なく予測モデルを生成することができるものです。
新技術の特長は以下のとおりです。
新技術の特長
- 分散コンピューティングシステムに適応したアルゴリズム(手法)を開発
複数のコンピュータが協調して予測モデルを学習する分散版異種混合学習アルゴリズムを開発しました。本アルゴリズムは、(1)予測モデル情報(データの場合分けや因子の組み合わせの情報)のみをコンピュータ間で共有すること、(2)共有された個々の予測モデルの情報を統合する独自のアルゴリズムを適用すること、によって各コンピュータが独立して学習しながら全体で整合が取れた高精度な予測モデルを生成します。 - 分散コンピューティング基盤Apache Sparkに適合した実行用ソフトウェアを開発
分散コンピューティングシステム基盤の一つであるApache Spark(注7)上で動作する分散版異種混合学習アルゴリズムの実行用ソフトウェアを開発しました。
本ソフトウェアは全ての分析対象データを一度各コンピュータのメモリ上に分散配置すると、以降一切の再配置や再読み込みを行うことなく、分散版異種混合学習アルゴリズムを実行します。これにより、通常、コンピュータの台数増加によって頻度が増す分析対象データの通信やディスク読み込みが不要となり、Sparkの特長である分散メモリ上での計算性能が最大限に発揮されるため、高速にアルゴリズムを実行できます。
なおNECは本技術を、Spark Summit 2016(6月6日(月)から8日(水)まで、開催地:米サンフランシスコ、注8)で8日に、Hadoop Summit San Jose 2016(6月28日(火)から30日(木)まで、開催地:米サンノゼ、注9)で30日に発表いたします。
NECグループは、安全・安心・効率・公平という社会価値を創造する「社会ソリューション事業」をグローバルに推進しています。当社は、先進ICTや知見を融合し、人々がより明るく豊かに生きる、効率的で洗練された社会を実現していきます。
以上
- (注1) 2012年6月22日
『NEC、ビッグデータに混在する多数の規則性を自動で発見する技術を開発』
http://jpn.nec.com/press/201206/20120622_02.html - (注2) 2014年6月19日
『NEC、ビッグデータに混在する多数の規則性を自動で発見する「異種混合学習技術」を強化』
http://jpn.nec.com/press/201406/20140619_01.html - (注3) 分析対象を説明(予測)するために入力される変数
- (注4) データを分割して従来の異種混合学習技術を適用。約2,000万サンプルの残高データを用いてATMの現金残高を予測する実験。
- (注5) データを1,000万サンプルに削減した場合での比較。総CPUコア数は128倍で計算。
- (注6)予測値と実績値との誤差
- (注7)米UC Berkeleyで開発された汎用的なオープンソースデータ処理フレームワーク
- (注8) Apache Sparkに関する最注目技術会議のひとつ。San Franciscoにて2016年6月6日から8日に開催。
https://spark-summit.org/2016/events/distributed-heterogeneous-mixture-learning-on-spark/ - (注9) Apache Hadoopに関する最注目技術会議のひとつ。San Joseにて2016年6月28日から30日に開催。
http://hadoopsummit.org/san-jose/
本件に関するお客様からのお問い合わせ先
NEC 研究企画本部 研究プロモーショングループ
お問い合わせ
NECは、社会ソリューション事業を推進する
ブランドメッセージ「Orchestrating a brighter world」のもと、
今後の世界の大きな変化(メガトレンド)に対応する
様々な課題解決や社会価値創造に貢献していきます。
詳細はこちらをご覧ください。
http://jpn.nec.com/profile/solutionsforsociety/index.html