ページの先頭です。
サイト内の現在位置を表示しています。
ここから本文です。

Hadoop - 特長/機能

特長

Open Source Softwareの大規模分散処理フレームワーク

  • Googleが考案した分散処理アルゴリズム(MapReduce)を実現するソフトウェア
  • Apache Licenseのもと公開

MapReduceによる高速分散処理

  • 複数のコンピュータで処理を分散実行するMapフェーズとMapの処理結果を集計するReduceフェーズにより大容量データを効率良く処理

スケールアウトすることで、リニアに性能を拡張

  • コモディティサーバを複数台並べることでハイエンドサーバで今まで処理ができなかった大容量のデータを扱うことが可能
  • 後からサーバを追加することでHadoop全体の処理性能を向上できるため、将来のデータ容量が予測できないケースにも柔軟に対応可能

非構造データ形式に対応

  • 様々な種類/大きさのデータに対応し、単純なログデータから画像、動画データまで取り扱うことが可能

豊富なサブプロジェクト

  • Sqoop(RDB連携)、Pig(データフロー型記述言語)、Hive(SQLライクインターフェース)、Flume(ログ収集)等のHadoopを補助するサブプロジェクトが多数存在

主な用途

BIGDATA解析

  • Webサイトのアクセスログやインプレッションログから訪問ユーザの傾向および動向を分析
  • POSデータの分析により各商品の販売傾向を把握し、効率的な在庫管理を支援
  • M2Mシステム上の様々なセンサーデータやライフログを統合分析
  • 各サーバでのアクセス/行動ログを定期的に分析し、システムの不正利用を早期に発見

DWHとの連携

  • DWHでは取り扱いの難しい非構造データも、Hadoopへ取り込ませることによりDWHとHadoopによる統合的なデータ解析が可能
  • DWHのスケールアップでは対応しきれない大量のデータをHadoopでフィルタリング

バッチ処理の高速化

  • これまでハイエンドサーバで長時間かかっていたバッチ処理をHadoopで分散実行させることで処理時間を短縮

ページの先頭へ戻る