ページの先頭です。
サイト内の現在位置を表示しています。
  1. ホーム
  2. 企業情報
  3. 研究開発(R&D)
  4. 各研究チームのページ
  5. ハイパフォーマンスアナリティクス研究チーム
  6. 研究紹介
  7. LoadAtomizerについて
ここから本文です。

スケーラブル処理基盤 研究紹介

LoadAtomizerについて

背景と目的

近年、大量に蓄積されたデータを活用するために、大量データの分散処理基盤への注目が高まっています。こうした分散処理基盤では、テラバイトからペタバイトといった従来とは桁違いのサイズのデータを扱うため、データの入出力の効率が処理時間を大きく左右することになります。そこで大量データの分散処理基盤では、入力データを複数の小さなデータに分割し、分割された個々のデータを複数の処理サーバで同時に処理させることで、データI/Oを処理サーバの台数倍に増加させます。このようにデータの配置を工夫することで、従来の計算基盤に対してデータの入出力の効率を向上させています。こうした分散処理基盤としてGoogle(TM)のMapReduceやMicrosoft(R)のDryadなどが提案されています。

ところが、これらの基盤では提案当時の低速なネットワークを前提とした処理とデータの割り当てを行うため、現在の高速なネットワークを使用した場合、データ入出力の効率が悪くなることがあります。従来の分散処理基盤では、ネットワークを極力利用しないように、処理サーバはディスクの負荷に関係なくローカルディスクの分割データを処理していました。このため、実行する処理の種類や組み合わせによっては、各処理サーバのディスクの負荷がマチマチとなり、データ入出力が期待通りの効率で行えないことがありました。ネットワークが非常に低速であった時代ではこれ以上の効率化は望めませんが、ネットワークが高速化した現在では、もしディスクが高負荷である場合、他のサーバのディスクからネットワーク越しにデータを取得した方が効率が良いことがあります。特に近年はネットワーク帯域がディスク帯域に追いつきつつあるため、従来システムの前提が通用しなくなる状況になってきました。そこで、大量データの分散処理基盤も、高速なネットワークを活用するための再設計が必要となってきています。

研究概要:LoadAtomizer

LoadAtomizerは、ディスクとネットワークの負荷状況に応じて、より効率良くデータの取得が行えるように分割データと処理を処理サーバへ割り当てる、新しい分散処理タスクスケジューラです。LoadAtomizerは分散処理基盤を実行するクラスタのネットワーク構成を模したTopology-aware Load Treeと呼ばれるデータ構造を用いることで、タスク割り当ての計算コストや負荷情報の管理コストを抑えながら、よりデータI/Oの効率の良いデータ割り当てを行うことができます。あるケースにおいてLoadAtomizerが最大18.6%処理時間を短縮することを確認しています。

LoadAtomizer

論文・発表資料

Masato Asahara, Shinji Nakadai, Takuya Araki. LoadAtomizer: A Locality and I/O Load aware Task Scheduler for MapReduce. In Proceedings of the 4th IEEE International Conference on Cloud Computing Technology and Science (CloudCom), to appear.

ページの先頭へ戻る