Japan
サイト内の現在位置
亀山 篤志のコラム
分析コラム「趣味の分析のススメ!」
NECソリューションイノベータ デジタルソリューション事業部
亀山 篤志
2018年10月17日

概要
好きこそ物の上手なれ、ということわざがあります。好きなものに取り組むと、上達が早くなる、という意味ですね。それとは少し違うかもしれませんが、自分の好きなもの、すなわち趣味のことを対象としてデータ分析の勉強を行うと、早くスキルアップできるのではないか、と考えています。実際、私がデータ分析の業務に取り組み始めた時に、趣味に関するデータを分析してみたところ、作業を通して分析というものを効果的に学習することができたと感じています。
今回のコラムでは、分析の学習において具体的にどのように効果的だったかについて、書いていきたいと思います。
私の趣味と分析内容
私がデータ分析の業務に取り組み始めたのは、5年ほど前のことでした。私の趣味はゲーム、特にゲームセンターでアーケードゲームをすることでして、その頃、あるシューティングゲームに熱中しておりました。そのシューティングゲームは、ゲーム性もさることながら音楽もとても素晴らしく、そのゲームのためにほぼ毎週末ゲームセンターに通っておりました。
そのゲームには大きく2つのモードがあり、通常のモードと、約3,000あるエリアを進めていくモードがあります。その約3,000の各エリアには、それぞれ難易度が設定されており、プレイヤーがプレイするエリアを選択する際の基準となっております。しかし、実際にプレイすると想定していたより難しかったりすることがあり、その設定に違和感を覚えるところがいくつかありました。そこで、自分の分析の勉強を兼ねて、この難易度の設定について分析してみようと考えました。

趣味に関するデータ分析の利点
このような経緯で私は趣味のゲームに関する分析を行ったわけですが、その実体験を通して、趣味に関するデータ分析には、以下の3つのよいことがあると考えました。
-
興味の高いことなので、手際よくデータ収集やデータ加工ができる
-
知識が多いことなので、データを深く読み取ることができる
-
豊富な経験があることなので、分析結果を適切に評価できる
これらについて、データサイエンス領域のタスクリスト(※)においてどのような場面で利点があるのか、以下に述べていきたいと思います。
- ※このタスクリストは、IPA(情報処理推進機構)から公開されており、NECも委員として参加しているデータサイエンティスト協会スキル委員会と協業で作成されたものです。
文末に参考文献としてURLを記載しましたので、ぜひ一度ご参照ください。
手際よくデータ収集やデータ加工ができる
まず1つめですが、自分の趣味のことですので、当然その分野のことには高い興味があると思います。データ分析では、タスクリストの中分類の「データの作成と収集」及び「構造化データ加工」において、分析対象のデータを収集したり、分析エンジンに入力するデータを作成するためのデータ加工を行ったりします。これらの作業が、高い興味により効率的に進めることができると考えます。
まず、分析データの収集について、興味があることですので、ネット上でいろいろなサイトを日々チェックしていると思います。そのため、それらのサイトの中の情報は常に把握しているでしょう。よって、自分が行いたい分析に必要なデータを考え、そのデータがそれらのサイトのどこに存在するか調べ、そのサイトからデータを収集することは比較的容易に実施できると考えます。
次にデータの加工について、データ観察や分析エンジンにかけるには、CSV形式などのフォーマットに変換する必要があります。収集したデータが同じ形式だとよいのですが、実際はサイト上にHTML形式で見やすい形で公開されていたりする場合が多いのではないでしょうか。その場合、手作業やプログラム作成などにより、面倒なデータ変換を行うことになります。しかし、そのような煩わしさより興味の方が勝ると、あまり面倒だと感じなくなり、どんどん作業を進めることができるでしょう。
データを深く読み取ることができる
次に2つめですが、自分の趣味のことですので、当然その分野の知識は多いと思います。データ分析では、タスクリストの中分類の「データ解析」において、データの特性を確認し効果的な説明変数を作成するために、データ観察を行います。この作業が、その分野に詳しいことにより、効率的に進めることができると考えます。
私の場合、エリアの難易度にはそのステージの構成や出現するボスなどが関係すると推測できましたので、それらに関して円グラフや棒グラフなどいろいろなグラフを描いてみながらデータ観察を行いました。描いたグラフを読み取り、高い難易度に多い強いボスの出現傾向に納得したり、低い難易度に出てくる意外なステージの傾向にびっくりしたりしました。そしてさらに良く知りたいと思い、数だけでなく割合でみることや、同カテゴリのボスをまとめてみることなど、様々な角度の観察方法が思いつき、どんどん深く観察を進めていきました。その結果、難易度と相関のありそうなデータを絞り込み、効果的な説明変数を作ることができました。

分析結果を適切に評価できる
最後となりますが、自分の趣味のことですので、その経験は豊富だと思います。その経験について、出てきた分析結果に対し合っている場合は納得し、異なっている場合は意義を唱えたくなると思います。データ分析では、タスクリストの中分類の「評価」において、さらに高い精度を出すために、分析結果や分析モデルの評価を行います。この作業が、自分の経験をもとに結果を適切に評価することができ、効率的に精度の改善につなげることができると考えます。
私の場合、分析結果について、予測が当たっているところ、当たっていないところをみたいと思いました。難易度の設定値と予測値が一致しているエリア、大きく異なるエリアを抽出し、特に後者について共通して当たらない要因となっている説明変数がないか確認を行いました。それと共に、分析モデルについても、説明変数の傾向が自分の経験に沿っているか確認しました。強いボスや難しいステージは難易度の高い傾向を示す、などのように、説明変数の傾向に納得感があればよいのですが、その逆に納得しがたい傾向を示すものもあるので、説明変数を1つ1つみていきます(この作業は、分析結果と自分の感覚と照らし合わせていくことになるので、なかなか楽しかったりします)。その結果、いくつか悪影響を及ぼしているものや経験に沿わない説明変数がありましたので、その説明変数を除外して再度分析を実施し、このような試行錯誤を重ねて精度を向上させていきました。

趣味の分析をやってみよう!
以上、趣味のデータを使った分析はいかに良いことがあるか、私の今回の実作業を通して記載してみました。このように、データに対して興味があり知りたいという気持ちがあると、頭からはアイデアがよく浮かび、手もよく動くようになると思います。
ということで、これからデータ分析を勉強したいという方は、ぜひ趣味に関する分析を行ってみることをお勧めいたします!
参考文献