ページの先頭です。
サイト内の現在位置を表示しています。
ここから本文です。

Docker環境における事前の環境準備

動作環境

  • Docker(バージョン17.09またはそれ以降)
  • 最低12GBのRAMを搭載
  • ドライブ空き容量:20 GB

Sandboxインストール

Docker環境用のSandboxのダウンロード

Docker環境用のSandBoxをダウンロードします。
ファイルサイズが大きいため、時間に余裕を持ってダウンロードすることをおすすめします。

Docker環境用Sandbox
(ファイルサイズ:5 KB  あとから15GB程度のファイルをダウンロードします)

Docker環境へのSandboxのインストール

下記の手順に従ってSandboxをインストールしてください。
インストールガイドはpdfでダウンロードいただくことも可能です。

インストールガイド(pdf版)のダウンロードリンク
Docker環境用 Sandboxインストールガイド

1.ダウンロードしたSandboxのzipファイルを解凍します。
解凍されたフォルダの中に、シェルスクリプト docker-deploy-{version}.sh がありますので、コマンドラインからスクリプトを実行します。

cd /path/to/script
sh docker-deploy-{HDPversion}.sh

スクリプトは1回のみ実行します。
スクリプトを実行すると以下のような画面が表示され、Sandbox Dockerコンテナが作成され、起動します。


2.コマンドラインから以下のコマンドを実行し、Sandboxが起動していることを確認します。

docker ps

※ライブラリをインストールするために、Sandbox内からインターネットへのアクセスが必要です

コマンドを実行すると、以下のような画面が表示され、Sandboxが起動していることが確認できます。

ツールのインストール

本チュートリアルでは以下のツールを利用します。
事前に全てインストールするか、Step3で利用する直前にインストールしてください。

Step3で利用するツール

Spark MLlibをPythonで扱うためのツールをインストールします。

  • python-devel:Pythonの開発に必要なヘッダファイルやライブラリファイルなどが含まれている開発用ツール
  • python-pip:Pythonで書かれたパッケージソフトウェアをインストール/管理する
  • pandas:Pythonにてデータ解析を支援する機能を提供するライブラリ
  • matplotlib:PythonおよびNumPyのためのグラフ描画ライブラリ

ツールのインストール

python-devel、python-pip、pandas、matplotlibは以下の手順でインストールしてください。

1.WebブラウザでSandboxインストールサーバのIPアドレス(SSH)にアクセスし、WebConsoleからSandboxにログインします。

 IPアドレス  http://<SandboxインストールサーバのIPアドレス(SSH)>:4200
 Username  root
 Password  設定されたパスワード(*)


(*) 初回ログイン時は「hadoop」となっています。

図

2.下記のコマンドを実行し、ライブラリをインストールします。
※ライブラリをインストールするために、Sandbox内からインターネットへのアクセスが必要です

# yum install python-devel python-pip gcc

# pip install pandas==0.23.3

# pip install matplotlib==2.2.2

データのダウンロード

下記よりチュートリアルで使用するサンプルデータをダウンロードしてください。

Step1で利用するサンプルデータ

購買記録データと顧客データ

ダウンロードリンク:customer.csv

データの内訳:

項番
項目名
項目ID
​1 顧客ID customerid
2 氏名 name
3 フリガナ namekana
4 郵便番号 zipcode
5 住所 address
6 電話番号 phonenumber
7 メールアドレス emailaddress
8 性別 sex
9 年齢 age
10 購買回数 frequency
11 最終購買日 visitedday

データの内容:

1000,植松智恵理,ウエマツチエリ,301-0005,茨城県龍ケ崎市,0299824632,chieri82737@cbtc.mwc,女,47,15,2018-07-15
1001,日下部英雄,クサカベヒデオ,370-1602,群馬県多野郡神流町,0273306738,Hideo_Kusakabe@rhmbznnsew.hrcfx.tf,男,27,21,2018-06-12
1002,露木正則,ツユキマサノリ,323-0157,栃木県小山市,0285258849,itsuyuki@omuzawvld.vv,男,34,5,2018-04-29
1003,木内明日香,キウチアスカ,350-1115,埼玉県川越市,0487681989,bppkw=duasuka526@mmxlxsv.ub,女,42,3,2018-05-14
1004,篠原桃歌,シノハラモモカ,162-0855,東京都新宿区,0304499689,momoka546@cnitzonekz.qp,女,44,12,2018-02-23
1005,宮崎忠雄,ミヤザキタダオ,350-0128,埼玉県比企郡川島町,0481410308,tadao286@kppky.atluv.ho,男,35,17,2018-06-30

Step2で利用するサンプルデータ:

Webアクセスログ

ダウンロードリンク:access.zip

本チュートリアルでは、非構造データとして以下のようなテキスト形式のWebアクセスログが格納されたサンプルファイル(access.log)を利用します。

222.99.22.236 - - [2017-02-13 12:35:20 +0900] "GET https://www.a-shop.com/news/news-0087.html HTTP/1.1" 200 517 "-" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"
222.99.22.236 - - [2017-02-13 12:35:29 +0900] "GET https://www.a-shop.com/news/news-0001.html HTTP/1.1" 200 487 "https://www.a-shop.com/news/news-0087.html" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"
222.99.22.236 - - [2017-02-13 12:35:33 +0900] "GET https://www.a-shop.com/news/news-0114.html HTTP/1.1" 200 507 "https://www.a-shop.com/news/news-0001.html" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"
222.99.22.236 - - [2017-02-13 12:35:37 +0900] "GET https://www.a-shop.com/news/news-0084.html HTTP/1.1" 200 485 "https://www.a-shop.com/news/news-0114.html" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"

以上で事前準備は完了となります。

  • 本資料中に記載される商品名、OSS名、会社名、ロゴ、トレードマークはそれぞれ各社、各団体の商標または登録商標です。

ページの先頭へ戻る