ページの先頭です。
サイト内の現在位置を表示しています。
ここから本文です。

Hadoopチュートリアル はじめに

はじめに

Hadoop/Sparkを活用したデータレイクソリューションで、データをどう分析するのかイメージが湧かない方も多いと思います。


そこで、その便利さを実際に体感いただくために、Hortonworks Data PlatformのSandboxを活用した代表的な活用方法をベースとした体験チュートリアルを準備しました。


「構造化データのクエリ処理」「非構造化データのクエリ処理」さらに「機械学習を用いた分析と見える化」の3つのケースを、サンプルスクリプトとサンプルデータを用い、実際に動かしていただけます。

 

ぜひ、これら複数の処理が同一のプラットフォームでどのように 動作するかをご体験ください。

 

本チュートリアルは次の構成となります。

「シナリオの説明」でビジネスケースとハンズオンの流れを理解し、「事前の環境準備」でハンズオン環境をセットアップしてから、「チュートリアル」へ進んでください。


シナリオの説明


事前の環境準備の概要


チュートリアル

シナリオの説明

架空のリテール業者を想定し、マーケティングのための顧客セグメンテーション分析を以下の手順で行います。

 

1. 従来型のRDBデータ(実店舗の販売記録)の取り込みと分析


2. 新しい形式のデータ(Webアクセスログ)の取り込みと分析、及び従来型データとの関連付け


3. 上記2つのデータ組み合わせて分析し、今後注力することで売上増加が見込める潜在的な優良顧客「予備群」のセグメントを発掘

 

このリテール業者は、実店舗で販売を行い、Webサイトでは商品紹介や会員限定のキャンペーン情報の提供およびクーポン配布などを行っています。

これまで、実店舗の販売記録管理システムRDBから得られる「顧客データ」と「販売記録」を活用したマーケティング施策を行ってきましたが、Webサイトから得られるデータは活用できていません。

そこで、マーケティング施策の効果をあげるために「Webアクセスログ」も分析対象に加え、新たな視点で顧客のセグメンテーションを行うことで潜在的な優良顧客を発掘して集中的にリーチしたいと考えています。

従来型データと新データを扱え、さらに分析もできるHadoop/Sparkの活用を検討したところ、分析チームのメンバーから以下の懸念が挙がりました。

  • 販売記録管理データ(構造化データ)は従来のRDBで馴染んだSQLで分析したいが、可能か?

 

  • Webアクセスログ(非構造化データ)はどうやって扱うのか分からない。

 

  • 構造化/非構造化データを分析できるように組み合わせるにはどうしたらよいか分からない。


本チュートリアルでは次の3Stepで上記の疑問を解決し、簡単にできることを体験していただきます。

  • Step1:既存の販売記録データ(構造化データ: CSV)に対するクエリ処理のハンズオン

 

  • Step2:新しいデータ(非構造化データ、 Webアクセスログ)の取り込みと可視化のハンズオン

 

  • Step3:機械学習を用いた顧客セグメンテーションのハンズオン

システムの全体像:必要となる機能とソフトウェアの構成

データ分析プロセスの大まかな流れは、データ処理基盤にデータソースを「取り込み」、「分析」し、「結果を出力」するという3ステップで構成されます。

従って、それらを実行するデータ処理基盤には「データ収集」、「蓄積」、「分析」の機能が必要であり、さらに、基盤を管理する「運用管理」機能も必要です。


それぞれに求められる機能は以下となります。

データ収集:データを収集し、HDFS上に取り込む機能。

実現方法はいろいろありますが、本チュートリアルではAmbariの機能の一部であるFile Viewを使って実施します。

データ蓄積:取り込んだデータを蓄積し、データテーブルを作りクエリを実行できるようにする機能。

本チュートリアルではHDFSをファイルシステムとしてデータを蓄積し、Hiveでデータをデータベースのように操作します。

データ分析:蓄積したデータを、クエリや分析アルゴリズムによって分析・可視化する機能。

本チュートリアルではクエリの実行や結果の可視化のためにZeppelinを、分析(機械学習アルゴリズム適用)のためにSpark MLlibを使用します。

運用管理: データ処理基盤のリソースを監視・管理する機能。

Ambariを使用します。本チュートリアルでは運用管理機能としてだけではなく、ファイルを格納するためにデータ取り込み機能としても使用します。

事前の環境準備の概要

本チュートリアルを実行するために、「Hortonworks Sandbox」と「Spark MLlibをPythonで扱うためのツール」をインストールします。

Hortonworks SandboxはVirtualBox、VMware、Dockerの3つの仮想化環境でお試しいただけます。

どの環境でもSandboxインストール後のチュートリアルは同じとなりますので、お好きな環境でお試しいただけます。

「Hortonworks Sandbox」と「Spark MLlibをPythonで扱うためのツール」は選択された仮想化環境の説明を参照して事前の環境準備を実施してください。

  • 本資料中に記載される商品名、OSS名、会社名、ロゴ、トレードマークはそれぞれ各社、各団体の商標または登録商標です。

ページの先頭へ戻る