ページの先頭です。
サイト内の現在位置を表示しています。
  1. ホーム
  2. 企業情報
  3. 研究開発(R&D)
  4. 研究所紹介
  5. システムプラットフォーム研究所
  6. ハイパフォーマンスアナリティクス研究チーム
ここから本文です。

ハイパフォーマンスアナリティクス研究チーム

ミッション

NEC グリーンプラットフォーム研究所、ハイパフォーマンスアナリティクス研究チームでは、近年のビッグデータ処理に対する要求に応えるため、大量の蓄積データに対する処理を高速に行う研究に取り組んでいます。
具体的には、

  • データベース技術
  • 分散処理技術

の研究を融合する形で研究を進めています。

大量の蓄積データを扱うためには、データベース技術が不可欠です。 データベースは、大量に蓄積されたデータから、必要なデータだけを 高速に抽出する機能を提供します。 ビッグデータ処理のためには、従来からあるデータベースとは異なる機能が 要求されます。例えば、大量の位置情報を扱うことなどがその一例です。 我々は、これらビッグデータ処理に必要となる新たなアルゴリズムを 研究するとともに、分散処理による高速化の研究を行っています。

システムは、これらデータベースから抽出した情報に対し、さらに処理を行います。 この処理には、いわゆる「バッチ処理」のようにビジネス系の情報を扱うものも あれば、機械学習やデータマイニングのような分析処理もあります。 我々はこれらの処理を分散処理を用いて高速化する研究を行っています。 これには、通信やディスクI/Oを最適化することでより効率よく分散処理を行う研究や、 機械学習やデータマイニングのアルゴリズムを意識することで、分散処理を高速化する 研究があります。

最新トピックス

メンバー

主な研究

大規模監視カメラ向けの映像検索システム「Wally」

現在、大規模映像監視に関する研究は、主に映像の分析に着目していますが、システムとしてのスケーラビリティと検索機能に関する考慮は欠けています。我々が開発した映像検索システムWallyは、1000台規模の監視カメラシステムへの適用を見据えたシステムのスケーラビリティや、録画と同時に検索可能とする即時検索、大量に蓄積された映像に対する履歴検索など実用性の高い検索機能を実現しました。

関連する論文

  • Jianquan Liu, Shoji Nishimura, and Takuya Araki. Wally: A Scalable Distributed Automated Video Surveillance System with Rich Search Functionalities. In Proceedings of the 22nd ACM International Conference on Multimedia (ACM MM), pages 729-730, 2014.
  • 劉 健全, 西村 祥治, 荒木 拓也. 類似度の階層関係に基づく木構造索引を用いた効率的な類似検索. 第5回データ工学と情報マネジメントに関するフォーラム (DEIM), 2013.
  • 西村 祥治, 劉 健全, 藤森 偉恭, 荒木 拓也. Wally: 映像検索システムを対象としたスケーラブルな分散データストア. 第5回データ工学と情報マネジメントに関するフォーラム (DEIM), 2013.

行列圧縮計算フレームワーク「MOARLE」

行列データは、データマイニング、パターン認識、レコメンデーションをはじめとする多様な処理で利用されます。近年、ビッグデータの普及によって行列データのサイズが膨大となり、長大な計算時間や莫大なメモリ消費量が問題となっています。我々はこの問題に対し行列の記憶容量削減、計算高速化、計算省メモリ化を同時に実現する行列圧縮計算フレームワークMOARLEを提案しています。MOARLEは、事前に行列を連長圧縮して行列の記憶容量を削減した上で、その後の計算を連長圧縮により得られた情報の利用により高速かつ省メモリにおこないます。競合技術である疎行列表現とは異なり、密行列に対しても効果的であることがわかっています。

関連する論文

分散処理基盤「Feliss」

現在、ビッグデータの分析は、Hadoopを主とした分散処理基盤を用いることが一般的です。しかしHadoopでは、機械学習等の複雑な処理を高速に実行することは困難でした。我々が開発した分散処理基盤Felissは、機械学習で頻繁に用いられる繰り返し演算および行列演算を、信頼性を損なわずに高速化します。本技術を機械学習処理で検証した結果、従来のHadoopと比較し10倍以上の速度を達成しました。

関連する論文

  • Takuya Araki, Kazuyo Narita, and Hiroshi Tamano. Feliss: Flexible distributed computing framework with light-weight checkpointing, In Proceedings of 2013 IEEE International Conference on Big Data (IEEE BigData), 2013.

多次元範囲検索を可能とするキーバリューストア「MD-HBase」

Webサイトのログデータ、センサ情報などの大量データが収集、解析、利用されるようになってきました。これらの大量データの格納先として、従来よく用いられてきたリレーショナルデータベースに代わり、データサイズに対してスケールアウトさせやすいキーバリューストア(KVS)が注目されています。しかし、KVSは単純な検索機能しか提供していません。KVSの1つであるHBaseを拡張し、そのスケーラビリティを損ねることなく、多次元データに対する効率的な範囲検索を実現した「MD-HBase」を紹介します。

関連する論文

大量データの入出力処理を高速化する分散処理スケジューラ「LoadAtomizer」

LoadAtomizerは、ディスクとネットワークの負荷状況に応じて、より効率良くデータの取得が行えるように分割データと処理を処理サーバへ割り当てる、新しい分散処理タスクスケジューラです。LoadAtomizerは分散処理基盤を実行するクラスタのネットワーク構成を模したTopology-aware Load Treeと呼ばれるデータ構造を用いることで、タスク割り当ての計算コストや負荷情報の管理コストを抑えながら、よりデータI/Oの効率の良いデータ割り当てを行うことができます。あるケースにおいてLoadAtomizerが最大18.6%処理時間を短縮することを確認しています。

関連する論文

  • Masato Asahara, Shinji Nakadai, Takuya Araki. LoadAtomizer: A Locality and I/O Load aware Task Scheduler for MapReduce. In Proceedings of the 4th IEEE International Conference on Cloud Computing Technology and Science (CloudCom), pp.317-324, 2012.

文字列類似結合「Landmark-Join」

類似する文字列のペアを検出する文字列類似結合は、名寄せに代表されるデータクリーニングや、類似検索などに応用される技術の一つです。しかし、潜在的にあらゆるペアに対して類似度を計算する必要があるため、非常に高コストな処理になります。Landmark-Joinは、大規模化するデータに対しても高速な文字列類似結合を実現するための並列処理方式です。Landmark-Joinは、類似しないペアに対する無駄な類似度計算を削減し、類似しそうなペアに対する類似度計算は高速化することで、スケーラビリティだけでなく高速性も実現しています。

関連する論文

  • Kazuyo Narita, Shinji Nakadai and Takuya Araki. Landmark-Join: Hash-Join Based String Similarity Joins with Edit Distance Constraints, In Proceedings of 14th International Conference on Data Warehousing and Knowledge Discovery (DaWaK), pages 180-191, 2012.
  • 成田和世,中台慎二. 編集距離制約下におけるトライを用いた高速並列類似結合,第3回データ工学と情報マネジメントに関するフォーラム (DEIM),2011.

ページの先頭へ戻る