ページの先頭です。
サイト内の現在位置を表示しています。
ここから本文です。

VirtualBox環境における事前の環境準備

動作環境

  • Oracle VM VirtualBox (バージョン5.1またはそれ以降)
  • 最低12GBのRAMを搭載
  • ドライブ空き容量:60 GB

Sandboxインストール

VirtualBox環境用のSandboxのダウンロード

VirtualBox環境用のSandBoxをダウンロードしてください。
ファイルサイズが大きいため、時間に余裕を持ってダウンロードすることをおすすめします。

VirtualBox環境用:Sandbox
(ファイルサイズ:15.0 GB)

VirtualBox環境へのSandboxのインストール

下記の手順に従ってSandboxをインストールしてください。
インストールガイドはpdfでダウンロードいただくことも可能です。

インストールガイド(pdf版)のダウンロードリンク
VirtualBox環境 Sandboxインストールガイド

1.VirtualBoxを起動し、メニューから"File -> Import Appliance" を選択します。
ダウンロードしたSandboxのイメージファイルを選択し、"Open"(開く)をクリックすると以下の画面が表示されます。 ここで RAMの部分をダブルクリックし、仮想マシンへのメモリ割り当て量を "12288MB" に変更してください。

2."Import"(インポート)をクリックし、VirtualboxにSandboxをインポートを開始します。
インポートが完了するまで、しばらくお待ちください。

3.Sandboxのインポートが完了したら、そのSandbox選択し、VirtualBoxメニューの“Start"(開始)をクリックします。

コンソールウィンドウが開き、起動プロセスを表示します。このプロセスには数分かかります。
以下の画面が表示されたら、Sandboxの使用を開始していただけます。
"For VMware: Welcome Screen:" に表示されたURLをWebブラウザで開くことでSandboxの使用を開始することができます。

ツールのインストール

本チュートリアルでは以下のツールを利用します。
事前に全てインストールするか、Step3で利用する直前にインストールしてください。

Step3で利用するツール

Spark MLlibをPythonで扱うためのツールをインストールします。

  • python-devel:Pythonの開発に必要なヘッダファイルやライブラリファイルなどが含まれている開発用ツール
  • python-pip:Pythonで書かれたパッケージソフトウェアをインストール/管理する
  • pandas:Pythonにてデータ解析を支援する機能を提供するライブラリ
  • matplotlib:PythonおよびNumPyのためのグラフ描画ライブラリ

 

ツールのインストール

python-devel、python-pip、pandas、matplotlibは以下の手順でインストールしてください。

1.WebブラウザでSandboxインストールサーバのIPアドレス(SSH)にアクセスし、WebConsoleからSandboxにログインします。

 IPアドレス  http://<SandboxインストールサーバのIPアドレス(SSH)>:4200
 Username  root
 Password  設定されたパスワード(*)


(*) 初回ログイン時は「hadoop」となっています。

2.下記のコマンドを実行し、ライブラリをインストールします。
※ライブラリをインストールするために、Sandbox内からインターネットへのアクセスが必要です

# yum install python-devel python-pip gcc

# pip install pandas==0.23.3

# pip install matplotlib==2.2.2

データのダウンロード

下記よりチュートリアルで使用するサンプルデータをダウンロードしてください。

Step1で利用するサンプルデータ

購買記録データと顧客データ

ダウンロードリンク:customer.csv

データの内訳:

項番
項目名
項目ID
​1 顧客ID customerid
2 氏名 name
3 フリガナ namekana
4 郵便番号 zipcode
5 住所 address
6 電話番号 phonenumber
7 メールアドレス emailaddress
8 性別 sex
9 年齢 age
10 購買回数 frequency
11 最終購買日 visitedday

データの内容:

1000,植松智恵理,ウエマツチエリ,301-0005,茨城県龍ケ崎市,0299824632,chieri82737@cbtc.mwc,女,47,15,2018-07-15
1001,日下部英雄,クサカベヒデオ,370-1602,群馬県多野郡神流町,0273306738,Hideo_Kusakabe@rhmbznnsew.hrcfx.tf,男,27,21,2018-06-12
1002,露木正則,ツユキマサノリ,323-0157,栃木県小山市,0285258849,itsuyuki@omuzawvld.vv,男,34,5,2018-04-29
1003,木内明日香,キウチアスカ,350-1115,埼玉県川越市,0487681989,bppkw=duasuka526@mmxlxsv.ub,女,42,3,2018-05-14
1004,篠原桃歌,シノハラモモカ,162-0855,東京都新宿区,0304499689,momoka546@cnitzonekz.qp,女,44,12,2018-02-23
1005,宮崎忠雄,ミヤザキタダオ,350-0128,埼玉県比企郡川島町,0481410308,tadao286@kppky.atluv.ho,男,35,17,2018-06-30

Step2で利用するサンプルデータ:

Webアクセスログ

ダウンロードリンク:access.zip

本チュートリアルでは、非構造データとして以下のようなテキスト形式のWebアクセスログが格納されたサンプルファイル(access.log)を利用します。

222.99.22.236 - - [2017-02-13 12:35:20 +0900] "GET https://www.a-shop.com/news/news-0087.html HTTP/1.1" 200 517 "-" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"
222.99.22.236 - - [2017-02-13 12:35:29 +0900] "GET https://www.a-shop.com/news/news-0001.html HTTP/1.1" 200 487 "https://www.a-shop.com/news/news-0087.html" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"
222.99.22.236 - - [2017-02-13 12:35:33 +0900] "GET https://www.a-shop.com/news/news-0114.html HTTP/1.1" 200 507 "https://www.a-shop.com/news/news-0001.html" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"
222.99.22.236 - - [2017-02-13 12:35:37 +0900] "GET https://www.a-shop.com/news/news-0084.html HTTP/1.1" 200 485 "https://www.a-shop.com/news/news-0114.html" "Mozilla/5.0 (Linux; Android 4.4.4; 401SO Build/23.0.H.0.302) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/34.0.0.0 Mobile Safari/537.36" "1590"

以上で事前準備は完了となります。

  • 本資料中に記載される商品名、OSS名、会社名、ロゴ、トレードマークはそれぞれ各社、各団体の商標または登録商標です。

ページの先頭へ戻る