サイト内の現在位置

データ収集・蓄積

データが扱いやすくなる!

データ蓄積のステップをご紹介

収集したデータを活用する方法は大きく2種類あります。

1つ目は、収集したデータをリアルタイムで使うこと。クラウド技術の普及でビッグデータの活用が容易になり、データ流通量も増加したため、データの収集・蓄積と同時に分析にかけ、データに基づく判断を下すデータドリブンにも注目が集まっています。

2つ目の活用方法は、収集したデータを蓄積し、継続的な分析や変化の把握に活かすこと。顧客や市場の変化を捉えるためにも、信頼できるファクトになり得る十分な量のデータを確保することが求められます。

この2つの活用方法は、データを活用するタイミングこそ異なるものの、どちらもデータを蓄積する場所の整備が重要です。リアルタイムでデータをスピーディに引き出せる処理スピードや多様なデータを集約する容量など、データ蓄積基盤に必要なスペックはさまざまです。この記事では、データの蓄積フェーズで知っておきたいデータ蓄積に関する基本的な情報をご紹介します。

目次

1. 蓄積したデータが必要なときにすぐ使えない状態になっていませんか?

データ収集が順調に進み、ようやくデータ分析に十分なデータ量が集まったところで連携や分析に取り組もうとしたとき、上手く活用できない状況に陥っているケースがあります。担当者のお話を伺うと、このようなお悩みを抱えていることが多いようです。

  • データのフォーマットがバラバラ…
  • データの所在が明らかになっていない…
  • 古いデータや適切に保護されていないデータが混在している…
  • データベースがアップロードされていない…
  • アナログで非効率な管理体制でデータ品質がよくない…
  • 社内でデータベースが一元化されておらず、管理形態がバラバラ…
  • データベースの管理者が明らかになっていない…
  • データベースの運用コストが肥大化している…
  • どのようなツールやサービスを使えばよいか分からない…

なぜ、せっかく収集・蓄積したデータがすぐに活用できない状態になってしまうのでしょうか?

2. 原因は、データ蓄積基盤と蓄積するデータの整理・管理不足

データを蓄積するフェーズにおいてつまずいてしまう要因として、次のようなことが挙げられます。

  • データを収集して、無秩序にデータベースに投入してしまっている
  • データベースと蓄積されているデータが定期的にメンテナンスされていない

データの蓄積基盤とそこに蓄積されているデータがデータ活用方法に適した形で整理されていないと、データ管理が複雑化してしまいます。蓄積するデータ量が増えれば増えるほど、事業部や業務ごとにサイロ化したり、ブラックボックス化したりするリスクが高まります。また、サイロ化・ブラックボックス化したデータベースを刷新するために、データを整理しようとしても、時間や費用がかかるため、データ活用からさらに遠のいてしまいます。

3. 3つのステップでデータ蓄積体制を適正化しましょう

蓄積したデータを積極的に分析し自社のビジネスに活用できるようにするために、データベースに蓄積されているデータの管理方法を見直し、今後新たに収集するデータも容易に参照できるようなデータベースのあり方を検討していきましょう。自社に適したデータベースの検討を進めるときに押さえておきたい3つのステップをご紹介します。

3-1. ステップ1. 蓄積するデータの分け方を決める

大半の企業が自社の事業や業務に関する複数のデータベースを保有しています。このステップでは、それらのデータベースにどのような分類のデータを投入するかルール化しながら、あたりをつけていきます。「種類」「構造」「ファイル形式」の3つのデータ選別基準を基に、各データベースに整理する際のデータのジャンルを決めていきます。

  • データの種類
    行動データ…顧客の購買情報、行動情報などのデータ
    意識データ…認知度や商品満足度など、ユーザーの考えを数値化したデータ

  • データの構造
    構造化データ…表形式のデータベースなど、事前にデータの並び順を定義しているデータ
    非構造化データ…画像、音声などデータの並び順に決まりのないデータ

  • データのファイル形式
    画像のファイル形式…BMP形式、JPEG形式、PNG形式など
    テキストのファイル形式…CSV形式、PDF形式など

これらの分類を基にしてデータベースを決めておくと、後から分析する際にデータを探しやすく、スムーズなデータ参照につながります。

3-2. ステップ2. データ蓄積基盤の形態を決める

データベースに投入するデータの分類を決めたら、それらのデータをどのような形態でデータベースに入れるか決めます。このときに押さえておきたいデータ蓄積基盤の考え方としてデータをそのままの状態で貯める「データレイク」、加工処理を施したのちに貯める「データウェアハウス(DWH)」、データウェアハウスのデータを目的に応じて分割し蓄積させる「データマート」の3つがあります。それぞれの特徴を考慮したうえで、自社に適したデータの蓄積基盤を検討することがポイントです。

  • データレイク
    収集したあらゆるデータをそのままの状態(ローデータ)で集めて保存するデータレイクは、データを一元管理するだけでなく、活用の目的に応じてさまざまなデータ加工ができる柔軟性があります。一方で、データレイクに蓄積した複数のデータを組み合わせて分析する際、ローデータの状態からデータ結合やデータクレンジングなどの前処理が必要になります。これらの加工処理に時間を要する点や、データの保管期間が長くなればなるほど、所在が不明になりやすい点においてデータレイクでの情報蓄積には注意が必要です。

  • データウェアハウス
    ビッグデータの分析などにおいて効率を重視するのであれば、データウェアハウスでのデータ保存が便利です。データウェアハウスにはデータをそのまま分析に使えるよう、予め必要な前処理を施した状態でデータを蓄積します。バラバラのフォーマットであったローデータが、集約して整理された状態になるためデータが検索しやすく、データレイクと比べて保管・管理が比較的容易に行えます。一方で、あらかじめ設定した目的以外でのデータ分析には向いておらず、定型的な分析作業になりやすい点はデータウェアハウスの構築で気をつけたいポイントです。

  • データマート
    データマートはデータを利用する事業部や業務など、部門ごとの目的に合わせて小分けで作成するデータベースのため、データウェアハウスと比べてデータ量が少なく、比較的容易でスピーディにデータを参照できます。一方で、データマートはデータウェアハウスと同様に、特定の目的に沿ったデータのため、分析においても用途が限定的になってしまう点に注意が必要です。

データ分析による活用基盤を整える上で大事なのは、データレイク・データウェアハウス・データマートの3つのデータベースにつながりをもたせながら構築することです。収集したデータをデータレイクに蓄積し、そこから任意の加工を施したものをデータウェアハウスで保管する、必要に応じてさらにデータを加工・抽出したものをデータマートに保管する、というように段階的なデータの蓄積形態を作ることで、効率的なデータ活用体制が整います。

3-3. ステップ3. データ蓄積基盤の場所を決める

データベースの整備ができたら、それぞれのデータの保管する場所の検討を進めましょう。データを蓄積し保管する場所には、一般的に3種類あるといわれています。

  • オンプレミス型
    自社やデータセンターに自前のサーバーなどを構築するオンプレミス型は、自社環境に適したシステムを構築しやすく、操作性や拡張性に優れているのが特長です。もちろん、扱うデータの機密度や自社で定めたデータマネジメントルールに則したセキュリティ対策も行うことができるため、オンプレミス型でのデータ蓄積は運用時における安定性があります。一方でデータベースの容量に条件がある点や、新規データベースの構築時の導入期間が長くなってしまう点、導入後の運用・保守においても費用や業務負担がかかってしまう点はオンプレミス型の懸念事項です。

  • クラウド型
    ベンダーが提供するクラウド環境をデータの蓄積基盤として活用するクラウド型は、近年主流になっているデータ蓄積方法で、サービスの種類も多種多様です。クラウド型は、自社でサーバーを準備する必要がないため、データベース構築時の導入期間を短縮することができるだけでなく、導入時や運用の費用も抑えることができます。また、クラウド型はデータベースにアクセスせずともクラウド環境で簡単にデータが参照できるようになるため、社内のメンバーとの情報共有が容易になります。一方で、ベンダーが提供しているクラウドサービスの場合、もともとの機能の範囲内での利用になるため、自社で定める基準に対してセキュリティが十分でない場合もあり、使いやすいようなカスタマイズがしにくい点はクラウド型のデメリットとして挙げられます。

  • オンプレミスとクラウドのハイブリット型
    オンプレミスとクラウドを組み合わせることで双方のデメリットを打ち消すことができる方法がハイブリット型のデータ蓄積基盤です。例えば、クラウドで懸念されているセキュリティ対策の強化が必要なデータのみオンプレミスで保管し、今後蓄積量が増えるデータに関してはクラウドで保管する、というようにデータの保管場所を切り分けることも可能です。

オンプレミス型、クラウド型、ハイブリット型のどの形でデータを蓄積するのが適切か、実際に、自社でのデータ活用の姿を描きながら検討を進めていきましょう。

データ活用に向けた蓄積基盤の構築では、すでに蓄積しているデータの見直しはもちろん、これからどのようなデータ蓄積基盤があれば、自社のビジネス改革や新しい価値創造に役立てることができるのか、方向性を明確に決めながら、自社のデータプラットフォームのあり方を考えてみることが重要です。このとき、他社のデータ活用事例を参考にしながら、自社のデータ活用における課題や解決策のイメージを具体化すると、社内での議論がよりスムーズに進むかもしれません。

NECでは、国内の先進企業が進めるデータ活用の先行事例をご紹介しています。データ活用に向けて他社がどのようなデータを蓄積しているのか、データ蓄積基盤の構築において何に注意すればよいか、先行企業のデータ活用事例とポイントの解説を貴社のデータ活用に向けた議論にぜひ、お役立てください。

4つの課題別データ活用事例集 資料をダウンロードする

関連記事もぜひご覧ください