データ規模の算出

導入ポイント:Point2

分析対象としたい保有データ、単位期間あたりデータ増加量とデータの保存期間で必要容量を算出

Hadoop/Sparkを活用したデータレイクの導入に際しては、どれぐらいのデータを格納するか、データ規模を定める必要があります。

分析対象となるデータの現時点の保有高に加え、保有データと今後新たに取り込むデータの単位期間あたりの流入量と保存期間を定め、必要容量を概算します。さらに、Hadoopは処理を安定的を行うためにトリプルミラーが一般的であり、概算値を三倍して算出します。

データ規模の算出方法

取り込む既存のシステムのデータ量に加え、その増加分のデータと日々増加するストリーミングなどのデータの保存期間を決め、将来にわたって必要となるストレージ容量を推定します。
具体的には、以下の内容で算出します。

1.格納する既存システムデータ分のサイズ設定

  • データを取り込む既存システムのデータサイズ


2.増加データ分のサイズ設定

  • 既存システムの年間データ増加率 × 保存年数
  • 1日あたり取込データ量 × 365日 × 保存年数 
    (ログやストリーミング)


3.トリプルミラーの反映

  • 1と2で算出した数値を3倍します。
また、システム拡張のマイルストンを設定し、需要にあわせた段階的なシステム増強計画を立てます。

トリプルミラー
Hadoop/Sparkを活用したデータレイク・ソリューションは、数百TB~PBの規模を前提とし、数十台規模以上の構成されるデータの保存場所に処理を割り当てるアーキテクチャとなっています。
データを格納する分散ファイルシステム(HDFS)の標準設定では、処理の際にノード故障に伴うデータ損失を防ぎつつ、大量データに対するI/O処理を高速化するために、オリジナルのデータに加え2つのコピーされたデータが格納されます。これにより、期待するストレージ容量の3倍の物理容量をもつシステムが必要となります。

  • Apache, Hadoop, Falcon, Atlas, Tez, Sqoop, Flume, Kafka, Pig, Hive, HBase, Accumulo, Storm, Solr, Spark, Ranger, Knox, Ambari, ZooKeeper, Oozie, Phoenix, NiFi, Zeppelin, Slider, MapReduce, HDFS, YARN, and Druidの名称およびそのロゴは、Apache Software Foundationの米国およびその他の国における登録商標または商標です。