ページの先頭です。

サイト内の現在位置を表示しています。
  1. ホーム
  2. 製品
  3. NEC Solution Platforms
  4. ラインアップ
  5. Data Platform for Hadoop
  6. データレイク・ソリューションの始め方
  7. 導入ステップ
  8. Step2 データレイクによるデータ統合
ここから本文です。

導入ステップ:Step2

データレイクによるデータ統合

必要な時に必要なデータにアクセスできる環境を整備し、デジタル変革への本格展開化

一つの目的でスタートし段階的に増強していく際に重要なのが、データレイクを中心に置き、必要となる分析機能をデータレイク上に実装するアーキテクチャに移行するという考え方です。

従来の業務系のシステムはそのまま利用しながら、課題の解決計画に合わせてデータの統合化を進めることで、ダイナミックかつタイムリーにデータを活用できるデジタル変革への環境が整うことになります。

データ中心というデータレイクの考え方

従来のシステムは目的別に構築されて、結果としてシステムはサイロ化し、データを活用する際の壁となってきました。データレイクにおいても同様で、データを収集、蓄積・処理、分析するためのプラットフォームを目的の達成のために別々に配備した場合、連携のための機能を個別に作り込む必要があります。

これに対し、データレイクを中心とした考え方は、共有資産としてのデータ蓄積場所としてのデータレイクを中心に統合プラットフォーム基盤を形成し、データを活用する複数の分析アプリケーションを同一のプラットフォーム基盤上に組み、必要な時に必要なデータにアクセスできるようにします。

今後クラウドとオンプレのハイブリットが進み、分析アプリケーションが統合プラットフォーム上に置かれないケースも出てくると思われますが、その場合もこの「データを中心に据えた考え方」はデータの活用の基本となります。

データ資産共有時の注意点

従来のデータが個別に管理運用されている時には問題になりませんでしたが、コンピューティングやデータ資産を複数のユーザや部門間で共有する場合、セキュリティや効率的な活用のために、注意すべき点があります。

そこで、Hadoop/Sparkを活用したデータレイクソリューションであるData Platform for Hadoopを構成する「Hortonworks Data Platform(HDP)と「Hortonworks Data Flow(HDF)」の機能を活用し、データの品質と活用の利便性を両立した統合プラットフォームとしてデータ活用できます。

セキュリティの保護

  • 組織内で運用されている認証サーバ(Active Directory、LDAPサーバ)と連携し、データや実装したサービスへのアクセスを制限
  • データやサービスへのアクセス履歴を記録

計算、ストレージ資源の制限

  • ユーザ、グループを単位とし、計算、ストレージ資源の使用量制限が可能

データ資源の一元管理

  • 保存済みのデータをタグ付け管理
  • データがどのように取得され、どのような加工がされたのかを表すデータの系譜(データリネージュ)を管理

  • Hortonworks、Hortonworks Data Platform、Hortonworks DataFlow、Hortonworks Cybersecurity Platform、Hortonworks DataPlane Serviceの名称およびそのロゴは、Hortonworks, Inc.の米国およびその他の国における登録商標または商標です。
    Apache, Hadoop, Falcon, Atlas, Tez, Sqoop, Flume, Kafka, Pig, Hive, HBase, Accumulo, Storm, Solr, Spark, Ranger, Knox, Ambari, ZooKeeper, Oozie, Phoenix, NiFi, Zeppelin, Slider, MapReduce, HDFS, YARN, and Druidの名称およびそのロゴは、Apache Software Foundationの米国およびその他の国における登録商標または商標です。

ページの先頭へ戻る