ページの先頭です。

サイト内の現在位置を表示しています。
  1. ホーム
  2. 製品
  3. NEC Solution Platforms
  4. ラインアップ
  5. Data Platform for Hadoop
  6. データレイク・ソリューションの始め方
  7. 導入ポイント
  8. Point2 データ規模の算出
ここから本文です。

導入ポイント:Point2

データ規模の算出

分析対象としたい保有データ、単位期間あたりデータ増加量とデータの保存期間で必要容量を算出

Hadoop/Sparkを活用したデータレイクの導入に際しては、どれぐらいのデータを格納するか、データ規模を定める必要があります。

分析対象となるデータの現時点の保有高に加え、保有データと今後新たに取り込むデータの単位期間あたりの流入量と保存期間を定め、必要容量を概算します。さらに、Hadoopは処理を安定的を行うためにトリプルミラーが一般的であり、概算値を三倍して算出します。

データ規模の算出方法

取り込む既存のシステムのデータ量に加え、その増加分のデータと日々増加するストリーミングなどのデータの保存期間を決め、将来にわたって必要となるストレージ容量を推定します。
具体的には、以下の内容で算出します。

  1. 格納する既存システムデータ分のサイズ設定
    • データを取り込む既存システムのデータサイズ
  2. 増加データ分のサイズ設定
    • 既存システムの年間データ増加率 × 保存年数
    • 1日あたり取込データ量 × 365日 × 保存年数 
      (ログやストリーミング)
  3. トリプルミラーの反映
    • 1と2で算出した数値を3倍します。
また、システム拡張のマイルストンを設定し、需要にあわせた段階的なシステム増強計画を立てます。

トリプルミラー
Hadoop/Sparkを活用したデータレイク・ソリューションは、数百TB~PBの規模を前提とし、数十台規模以上の構成されるデータの保存場所に処理を割り当てるアーキテクチャとなっています。
データを格納する分散ファイルシステム(HDFS)の標準設定では、処理の際にノード故障に伴うデータ損失を防ぎつつ、大量データに対するI/O処理を高速化するために、オリジナルのデータに加え2つのコピーされたデータが格納されます。これにより、期待するストレージ容量の3倍の物理容量をもつシステムが必要となります。

  • Apache, Hadoop, Falcon, Atlas, Tez, Sqoop, Flume, Kafka, Pig, Hive, HBase, Accumulo, Storm, Solr, Spark, Ranger, Knox, Ambari, ZooKeeper, Oozie, Phoenix, NiFi, Zeppelin, Slider, MapReduce, HDFS, YARN, and Druidの名称およびそのロゴは、Apache Software Foundationの米国およびその他の国における登録商標または商標です。

ページの先頭へ戻る