ページの先頭です。
サイト内の現在位置を表示しています。
  1. ホーム
  2. ソフトウェア
  3. バックアップ/アーカイブ
  4. NetBackup
  5. ソリューション
  6. Hadoopデータバックアップ
ここから本文です。

Hadoopデータのバックアップ

Hadoopはビッグデータ蓄積基盤を提供

Hadoopを使ったビッグデータ活用ケース

< 製造 > 品質向上システム   < 金融 > 金融リスク分析システム
複数の生産拠点に分散していた品質データを、1つのHadoop上に格納し、一貫した品質分析を実施
  • 全データを集約したことで、生産拠点の横串検索が可能になった
  • 分析ツールと組み合わせ、全行程のデータを使った品質分析システムを構築
製造
Hadoopエコシステムを活用し、高度なリスク分析・リアルタイム処理を実現
  • これまで利用できていなかった、複数ソースの大量のデータを活用することで、高度なリスク分析が可能になった
金融
< 通信 > ログ検索システム   < サービス > 購買レコメンドシステム
通信機器のログを、常に検索可能な状態で保管
  • 大量の通信ログを Hadoop に格納。PBクラスの情報の集計・検索が可能になった
  • これまで利用できていなかった、巨大データを分析することで、通信品質向上や顧客満足度向上に活用
通信
分散処理による分析で、大量計算を短時間で処理
  • お客様の購買行動データや嗜好データを保管し、高速に集計・分析
  • お客様の嗜好や年齢に応じた、お勧めコンテンツを提供
サービス

Hadoopが活用される領域・ソリューション例

Hadoopは様々な業種において大量のデータ蓄積基盤を提供。データ分析システムを支援します。

製造   パブリックサービス   通信・メディア
  • 品質分析
    - SCM横断分析
  • 検査/検品
    - センサデータ活用
    - 不良品検知
製造業
  • リスク対策
    - 不正検知
    - サイバーセキュリティ
  • 政策検討
    - COライフサイクルアセスメント
パブリックサービス
  • 営業販売
    - 収益最適化
    - キャンペーンマネジメント
  • 品質管理
    - ネットワークパフォーマンス最適化
    - 通信情報分析
通信メディア
流通・サービス 金融 医療
  • マーケティング
    - クロスチャネル分析
    - イベント分析
  • 営業販売
    - キャンペーンマネジメント
    - 商品化計画
    - SCM
流通サービス
  • リスク対策
    - 不正検知
    - 取引監視
    - セキュリティ分析
  • 顧客サービス
    - CRM
    - 優良顧客優待
金融
  • 営業販売
    - 販売計画最適化
    - ブランドマネジメント
    - SCM
  • 医療
    - 治療品品質分析
    - 新薬開発
医療

Hadoopにおけるビッグデータ管理の問題点

大容量のビッグデータには、「長期保管コスト増加」「災害リスク」「データ損失リスク」「ディスク容量圧迫」などの問題があります。

大容量データの保管コストが高い

データ保管にはコストがかかる

  • 利用されなくなったデータや長期保管データの、保管コストが高い

災害発生時のデータ損失

災害発生時には、データが消失する可能性が高まります。

  • 万が一の災害発生時にデータが消失

誤更新・ウイルス等によるデータ損失

ウイルスと、人的要因によるデータ損失

  • 操作ミス・不具合等による論理的データ損失
  • マルウェア感染などによるデータ破壊

データ肥大化、ディスク容量圧迫

大容量データにより、ディスクの容量が圧迫されます

  • 格納データの肥大化による、ディスク容量圧迫

データを破損、放置すると・・・

  • 営業/顧客分析が遅れ、機会損失
  • 不正検知や取引監視で対策遅れ
  • 品質分析や不良品検知へ活用できず
  • データの効率的な保全ができない
など

NetBackupでHadoopデータをバックアップ

破損したデータだけを短時間で復旧

操作ミス・不具合・誤送信などによって破損した、Hadoopのデータを復旧します。
※ ランサムウェアなどマルウェアによって破壊されたデータも復旧できます。
  • ファイル/フォルダ単位で復旧
  • GUI操作で復旧
  • 任意のバックアップ時点のデータを復旧

大容量データを低コストで保管

分析済みのデータや利用頻度の低いデータは、Hadoop内に保持せず、安価なディスク/テープへバックアップします。
Hadoop内のデータ肥大化も回避できます。
  • 保管が必要なファイル/フォルダを自動バックアップ
  • 長期保管にテープも利用可能
    - テープ媒体を外部保管してコスト低減
  • バックアップ容量は必要最小限
    - NetBackupの重複排除を利用

災害発生時にデータを保全(災害対策)

保管が必要なデータを災害から守るため、遠隔地へ自動的に二次バックアップします。
  • 遠隔地への転送量は必要最小限
    - NetBackup の重複排除機能(AIR)を利用

Hadoopデータのバックアップ構成

Hadoopデータのバックアップは、Hadoop の NFS Gateway 機能を利用します。 NFS経由でファイル/ディレクトリを、バックアップ/リストア

  • NameNode には NFS Gateway をインストール、NetBackup サーバには NFS クライアントをインストールする必要があります。
  • NameNode が NFS サーバ として、NetBackup サーバが NFS クライアントとして動作します。
  • Hadoop 環境にあるファイルやディレクトリを、NetBackupサーバに NFS マウントします。
  • NFSクライアントとなるNetBackupサーバでサポートされるOS/バージョンは、事前に弊社営業までご相談ください。

※ Append-Only(ランダムWrite不可)のため、NFS Gatewayに一時的に書き込むための領域が必要です。

バックアップ運用イメージ

【運用例】

  • (1)日々の更新データをバックアップ保管
    • NetBackup重複排除バックアップ(アクセラレータ)で、Hadoop大容量データを短時間でバックアップ
  • (2)データを自動転送して遠隔地で保管(二次バックアップ)
    • 災害対策として、バックアップデータを遠隔地のNetBackupサーバに自動転送(NetBackup AIR機能)
  • (2')倉庫等でオフサイトでテープを保管し、安価に長期保管

※ 上記運用は一例です。お客様要件に沿った運用の実現可否や制限事項については、弊社営業までお問い合わせください。

システム構成例

【Hadoopのデータ(3TB)をディスクに保護する場合のシステム構成例】

HadoopとNetBackupサーバをLAN接続した構成図です。

型番 製品 数量
UL4286-D22-I NetBackup Server v8.0/8.1 for Linux Tier 2 1
UL4286-D15-I NetBackup Standard Client v8.0/8.1 1
UL4286-D1DA-I NetBackup Data Protection Optimization Option v8.0/8.1 ( 1 FRONT END TBYTE - SPECIAL VERSION ) 3
UL1086-D33 NetBackup v8.1 DVD Media Kit (NEC-Jpn) 1

  • NetBackupサーバのOSは一例です。他OSの利用やサポートOS/バージョンについては、別途、弊社営業まで事前にご相談ください。
  • NetBackupのみの製品構成例です。正式な見積もりは、別途、弊社営業までご連絡ください。
  • NetBackupサーバの実搭載CPU数が2~3個、Hadoopデータの合計バックアップ対象容量が3TB以下の場合の製品構成例です。
  • 各製品の仕様、動作要件については、弊社営業までお問い合わせください。

ビッグデータのバックアップ時間短縮

【問題】大容量データのバックアップ処理時間が長時間かかる

【解決】NetBackupの高速処理で、バックアップ時間を短縮
データが大容量になると、バックアップ時間が長期化します。 NetBackupは、追加・更新されたデータのみを繰り返しバックアップすることで、バックアップ時間を短縮できます。 (NetBackupの重複排除機能アクセラレータを利用)

NetBackupのアクセラレータは、通常バックアップにくらべ、定期的なフルバックアップが不要で、バックアップ時間を短縮できます。

バックアップ保存用ディスク・コストの低減

【問題】バックアップ保存用ディスク・コストが増大
バックアップを繰り返すと、保存用ディスク消費が増加します。

毎週膨大なフルバックアップと毎日増分バックアップを繰り返すと、たくさんの保存用ディスクが必要です。

【解決】保存用ディスクの消費を必要最小限に抑えてコスト低減
NetBackupがバックアップデータを重複排除および圧縮し、保存用ディスク消費を抑えてコストを低減します。

毎週・毎日行うバックアップのデータを、重複排除および圧縮し、保存データの増加を抑え、ディスク消費・コストを抑えます。


ページの先頭へ戻る