データマイニング入門編!ゼロから結果を出すための実施のポイント

データマイニングは、上手く活用することでビジネスでの課題解決や業績アップに、大いに役立てられます。しかし基本的な知識もない状態でデータマイニングを導入しようとしても、見当違いな結果しか導き出せません。

そこで今回はデータマイニングとは何かから、具体的な分析手順、データマイニングが効率的にできるツールまで紹介します。折角のビッグデータを意味あるものにするため、データマイニングについて学びましょう。

ヤフーの行動ビッグデータを分析できるデスクリサーチツール「DS.INSIGHT」の詳細資料をダウンロード

※本記事はヤフー株式会社提供によるスポンサード・コンテンツです。


データマイニングとは「膨大なデータの中から有益な情報を発掘する技術」

データマイニングは、ビッグデータと言われる膨大で従来の手法では扱い切れなくデータから、情報(データ)を採掘(マイニング)する手法です。

ビッグデータにデータマイニングを導入することで、

  • 詳細な分析によって業績アップのヒントが見つかる
  • 実績ベースの効果予測・測定・ノウハウ蓄積ができる

といったことが可能になります。それでは1つ1つのメリットを見ていきましょう。

詳細な分析によって業績アップのヒントが見つかる

ビジネスが上手くいかない事実に対して、どんな取り組みをしたらよいのかは誰しもが欲しい情報です。しかし時間や予算・労力には限りがあるので、闇雲に改善策を立案して実行しても、結果は伴いません。

そこでデータマイニングをしたら、一見無関係と思っていたデータの羅列から、ビジネスチャンスのヒントを見つけることができます。例えば、データマイニングによって、以下のような関連性に気づけます。

  • 天候によって特定の商品が売れやすくなっている
  • 同時購入する確率が高い商品の組み合わせが見つかる
  • 休眠顧客がアクティブ顧客になるタイミングの発見

データマイニングによって、扱いに困っていたビッグデータが宝の山に変わってくれます。

実績ベースの効果予測・測定・ノウハウ蓄積ができる

データマイニングを導入したら、これまで経験や勘に頼っていたマーケティングを、実績ベースで定量的な評価ができます。データマイニングによって必要としていた情報は視覚化され、実践する内容は測定や予測ができるので、PDCAサイクルを回して成功のノウハウが蓄積されていきます。

データマイニングのツールは、統計の基本的な知識さえあれば、分析の専門家でない現場のスタッフでも扱えます。専門家を通さず分析が可能だから、PDCAのサイクルは早く成果につながりやすいです。


データマイニングの3つの役割

ビッグデータのデータマイニングによって、以下の3つのことができるようになります。

  • データを整理・分類する
  • 購入や受注の可能性を予測する
  • データの関連性を発見する

それぞれどんな役割をはたしてくれるのかを見ていきましょう。

1.データを整理・分類する

取得したデータはそのままだと、どんな意味があるのかがわからないです。そこで重要になるのがデータの整理と分類です。条件を決めた整理や分類によって、データは視覚化されます。

具体例として、回転寿司店で使われている方法をご紹介します。

回転寿司店で売れているメニューを知る手段として、以下の2つの方法があります。

1つは「1日の売上が〇万円以上or未満」という明確な条件で分けてから、赤身や白身などの似たネタで分類するやり方。もう1つはトロや大トロなどで細かく分類してから、「マグロといった共通する内容でまとめる」方法です。

個別でデータが羅列しているときより、何がどれだけ売れているかが、整理や分析によってはっきりとわかります。実際に取得されるデータ量は100万単位であることも珍しくありません。簡単な整理や分類だけでも、データ量が多いと信憑性の高い法則が見つかります。

2.購入や受注の可能性予測する

取得したデータから物事を予想するのと、予測するのはまったく意味合いが異なります。天気予報を例に挙げると、

  • 予想:明日は昼から雨が降りそう
  • 予測:北にある高気圧が秋雨前線を押し下げてくるので、明日は80%の確率で雨が降ります

この2つを見比べると、予測は根拠となる事実があり、それに基づいて確率まで計算をすることができます。リンクをクリックしてからの購買率や契約の解約率など、マーケティングで必要となる数字を、導き出すことができます。

3.データの関連性を発見する

マーケティングで新しい戦略を立てるために、データの関連性は重要なヒントとなります。「○○が売れていると、××も売れている」という関連性があれば、同時に売り込むことによって売り上げの相乗効果を狙えます。

有名なデータの関連性の例で「ビールとおむつ」というものがあります。

顧客データの分析でビールとおむつを同時に購入する傾向が発見された。理由を調査すると、子育てをしている家庭で、家事で忙しい母親に変わって父親がおむつを買いに来て、一緒にビールを買っていました。この関係性を使い、ビールとおむつを並べて売ると売り上げがアップした。

データマイニングによって、関係性に気づくことができます。実際の分析ではもっと物事は複雑になりますが、関係を糸口として問題解決の案を立てることができます。


データマイニングを完了するまでの流れ

実際にデータマイニングを行う場合、手順は2段階に分けることができます。

  • データの収集&加工・整理(準備)
  • データマイニングの実施

いずれの段階でもちょっとした間違いで、分析結果は意味のないものになってしまいます。どんなことに気をつけたらよいのかを把握しておきましょう。

データの収集&加工・整理(データマイニングの準備)

データマイニングの準備段階でやるべきことは以下の2つです。

  • 元となるデータの収集
  • 収集したデータを分析できるように加工・整理

特にデータの収集はつまずきやすいポイントが多いので注意が必要です。

元データの収集

推奨されている元データの量は10万レコードと言われています。これより少なくてもデータマイニング自体はできますが、多いほど分析結果は信憑性のあるものになるので、10万を1つの目安としてデータを収集してください。

収集したデータは、データの削除や更新がされないDWH(データウェアハウス)に蓄積しておくと後の作業が捗ります。折角収集したデータも、分散していたり分析に時間がかかってたりしていては、変化の早いビジネス環境に対応できません。DWHは必須ではないけれど、用意しておいたほうがおすすめです。

収集したデータの加工

データマイニングは主にシステム上で行うので、決まった形式のデータでないと読み込んでくれません。

数字が入っているべきところに記号が入っていたり、同じ内容のデータだけど項目名が違ったりすると、システム上で違うものとして認識されます。加工の段階で一緒に分析するデータは形式をそろえ、分析に必要のない情報は削除しておいてください。

【要注意】データマイニングでは集める情報の「質」が重要

データマイニングさえ行えば、目的の結果が得られるというものではありません。分析するためのデータの質が悪いと、見当違いだったり何を意味するのか不明な結果が出てきたりしてしまいます。

データの質を保つためには以下の3つに注意しましょう。

  • 欠損が少ないこと
  • 異常値が少ないこと
  • 項目にダブルミーニングがないこと

この3つに該当するデータは分析に使うことができず、使えないデータの多さは分析結果の信憑性低下につながります。

データマイニングの2つの実施方法

データマイニングの方法は複数あり、求められる結果も異なります。ここではデータマイニングの中でも代表的な、「機械学習」と「統計分析」の2つについて紹介します。

仮説なしで結果を導く「機械学習」

機械学習では仮説を立てず、コンピューターが学習をしながら先的な相関関係を導きだします。想定していなかったり、見過ごしていたデータの相関を発見できるので、既存ビジネスの改善点探しなどで活躍してくれます。

機械学習はとても便利なデータマイニング方法ですが、欠点もあります。データから「AがあるとBが起きる」という結論が導きだされても、なぜBが起きるのかという理由は、人間が判断しなければなりません。また、元々関連性がないなら有益な結果は出てこないです。機械学習でのデータマイニングは人の判断が重要になってきます。

仮説に基づいて判断する「統計分析」

統計分析は、データマイニングで統計学や確率論を活用し、仮設が正しいかどうかを判断してくれます。あくまで仮設に基づくので、機械学習のように、想定外の結果が導かれることはありません。

実際の計算はツールなどを使えば、自動で結果が出てくれます。しかし仮説立てや欲しい結果をえるための分析手法の選択は、自身で行う必要があります。最低限の統計知識は必要です。

また最初に立てた仮説が正しいともかぎりません。統計分析によって仮説を検証し、また新しい仮説を立ててデータの収集・分析のサイクルを繰り返します。


データマイニングで使われる3種類の代表的解析方法

データマイニングで統計分析を行う場合、目的に合わせて解析方法を使い分けないと、意味のある結果を得られません。

ここでは「クラスター分析」「ロジスティック回帰分析」「マーケット・バスケット分析」といった、代表的な分析手法を解説していきます。

ほかの分析手法についても知りたいという方は、以下の記事を読んでみてください。

参考:蓄積した情報を売上につなげる「データ分析」の代表的な手法10選

1.クラスター分析:対象データを整理して分類する

クラスター分析を行えば、データの中で似ているものをグループ分けしてくれます。実際に分析をするには以下の4つのことを決めます。

  • 何を対象としてグループ分けをするか
  • どんな手順でグループ分けをするか
  • どの程度を似ているグループだと判断するか
  • 似ているかを数字で判断する方法の選択

特に2つ目のグループ分けの手順は、階層クラスター分析と非階層クラスター分析の2種類に分かれます。

階層クラスター分析はデータの類似性から樹形図が生成され、徐々に細かくグループ分けされていきます。非階層クラスター分析は、クラスター間の違いが際立つようにグループ分けがされ、いくつのグループに分けるかで結果が異なってきます。

顧客の中から、特定のキャンペーンや商品に高い関心を持つターゲットを探すときなどにクラスター分析を使い、効率的な営業を仕掛けることができるでしょう。

2.ロジスティック回帰分析:事象の発生確率を予測する

ロジスティック回帰分析は、複数の変数を元に特定の事象が起きる確率を予測してくれます。例えば特定地域の降水量から土砂災害の発生のしやすさや、顧客の年齢や購入履歴などからDMでの購入のしやすさなどを予測できます。

あくまで予測結果なので、実行すると想定とは反対の結果が出る場合はありますが、ランダムに選んで何かをするより、確率の高いものに注力をすれば、無駄なく結果につなげることができます。

3.マーケット・バスケット分析:相関性や関連性を見つける

マーケット・バスケット分析は、POSデータなどから同時購入の頻度が高い商品を見つけるときなどで活躍する、分析の手法です。上記で紹介した「ビールとおむつ」での売上アップや、ECサイトでのおすすめ機能は、マーケット・バケット分析を活用した例です。

この分析を使った施策は、顧客満足度につながりやすく、業界を問わず活用されています。なぜ相関性や関連例があるのかという理由は、分析結果からだけではわからないので、自身で仮説を立てて検証してください。


データマイニングには専用ツールの導入がおすすめ

データマイニングはExcelでもできますが、分析・解析には専門的な知識が必要です。理想は専門家を採用することですが、そこまでできないという場合はデータマイニングツールの利用をおすすめします。

データマイニング専用のツールを使えば専門家以外の現場スタッフでも分析できますし、分析効率も高まります。

専門家でない現場スタッフでも分析可能になる

専用ツールを使ってのデータマイニングなら、分析の意味やツールの使い方さえ覚えれば、部署単位でも分析結果を使ったPDCAサイクルを回せます。

折角のデータマイニングも、分析する部署と分析結果を実行する部署が別だと、タイムラグが生まれ分析結果をうまく生かすことはできません。だからといって現場のスタッフ全員が、専門的な統計知識を身につけるのは現実的ではありません。

少しでも理想に近づけるためには、専門ツールの導入が欠かせません。

時間や労力を減らし効率的に分析できる

専用のツールを導入しておけば、各部署からのデータ収集や分析の自動化などを行うことができます。データマイニングまでにかかっていた時間や労力を削減できるので、他の生産的な仕事に取りかかれます。
手作業でデータ分析を行い、ルーチンワーク化している業務があれば、専用ツールで効率化を図りましょう。


データマイニングツールの3つの選び方

いざデータマイニングのために専用ツールを導入しようとしても、沢山の製品がありどれを選べばよいのか迷ってしまいます。そこでデータマイニングツールの導入で失敗しない、3つの選び方のポイントを紹介します。

1.データマイニングの目的を明確にする

ツール選びの1つ目のポイントは、利用目的を明確にすることです。

データマイニングのツールは、導入するだけでは抱えている問題を解決してくれません。問題を効率的に解決するために、データマイニングツールを使うようにしないといけないです。

データマイニングのツールによって、顧客管理や営業の分析に特化しているものもあります。利用目的とかけ離れたツールを導入しても、思うような分析ができないから、利用目的を明確にすることが重要になります。

自社で解決したい問題は何かや、データからどんな内容のことが知りたいかを洗い出してみてください。

2.分析対象を明確にする

2つ目のポイントは、分析対象を明確にすることです。分析対象によって使い勝手のよいツールは変わってきます。

  • どんなデータの種類や量を分析するのか
  • 解析はリアルタイムのものも含むのか
  • どんな分析手法を使うのか

例えば文章データを取り扱うなら、テキストマイニングの機能が必要になる場合もあるでしょう。ツールに求める機能を定めるためにも、分析対象は明確にしましょう。

3.操作性を確認する

3つ目のポイントは、正式導入前に操作性を確認することです。どんなに便利なツールでも、担当者が使いこなせないと、導入する意味がありません。
可能なら導入を迷っているツールは、メーカーにテストが可能かどうかを確認しましょう。テストができれば担当者に実際のデータで使い勝手をチェックできます。


データマイニングのおすすめツール3選

データマイニングツールと一言でいっても、目的によって専門は分化しています。ここではさまざまな目的に利用できる汎用タイプ、顧客データ分析に特化したツール、テキストデータ分析に特化したツールという3つの観点から、それぞれ最もおすすめなツールを紹介します。

目的ツール名初期費用利用料金
汎用Visual Minig Studio要問い合わせ要問い合わせ
顧客データ分析Customer Rings要問い合わせ要問い合わせ
テキストデータ分析TEXT VOICE【テキストボイス】
200,000円
【テキストボイス+SNSデータ取得オプション】
200,000円
【分析代行】
個別見積
【テキストボイス】
100,000円/月
【テキストボイス+SNSデータ取得オプション】
130,000円/月
【分析代行】
個別見積

使いやすい汎用型ツール:Visual Mining Studio

Visual Mining Studioは、NTTデータ数理システムが提供する汎用のデータマイニングツールで、製造や流通、通信、バイオ技術など分野を問わず導入されています。

ニューラルネットワークやDecision Treeといった定番のツールから、高度な分析ができるサポートベクターマシンやSOMまで搭載されています。

プログラムはビジュアルプログラミング環境が用意され、やりたいデータ処理の流れに沿ってアイコンをつなげるだけです。

東京や大阪で毎月体験セミナーやワークショップも開催しているので、導入前後の不安も解消しやすいでしょう。

  • 特徴:分野を問わず導入できる汎用性
  • 利用料金:要問い合わせ
  • こんな人におすすめ:データマイニング初心者向け

機能豊富な顧客データ分析ツール:Customer Rings

Customer Ringsは、導入企業が累計で500社以上ある顧客分析に適したデータマイニングツールです。

外部とも連携したデータ統合や、データ分析後のメールやDMなどの顧客へのアクションが用意され、初めから用意されている機能だけでも業務が効率化できます。

Customer Ringsの導入により、2年でメルマガ経由の売上が166%アップしたり、コンバージョン率が3倍になったという事例もあります。データの抽出や分析レポートの作成の自動化もできるので、業務改善と業績アップを同時に行えます。

  • 特徴:顧客データを見える化
  • 利用料金:要問い合わせ
  • こんな人におすすめ:膨大な顧客データを手軽に分析・活用したい

専門知識不要のテキストデータ分析ツール:TEXT VOICE

TEXT VOICEは、アンケートや問い合わせ履歴などのテキスト分析に特化した、データマイニングツールです。難しい操作の必要はなく、CSV形式のデータを定型のフォーマットに整えさえすれば、後は読み込ませ分析の実行ボタンを押すだけです。

分析は1万件あっても15分程度で完了し、オプションを付ければInstagramやTwitterからもデータを取得できます。テキスト分析のために自前で辞書をする必要はなく自動で類義語辞書を生成するので、導入したらすぐに分析を開始できます。

  • 特徴:自前の辞書なしで導入後すぐに分析できる
  • 利用料金:100,000円~/月
  • こんな人におすすめ:専門知識なしですぐに使い始めたい

データマイニングを利用する上での3つの注意点

実際にデータマイニングツールを利用する場合、以下の3つのことに注意をしないと思うような分析結果が出ません。

  • データ定義は正確でないといけない
  • 分析を全て代行してくれるわけではない
  • 使いこなすためには知識・技術が必要

1.データ定義は正確でないといけない

ツールを使えば手軽にデータマイニングはできますが、それは正確にデータの定義ができているという前提の上に成り立っています。データの定義があやふやなままデータマイニングをしても、意味のある結果はでにくいでしょう。

ツールは担当1人だけが使うものではないです。複数人が同じルールで使うことにより業務の効率化も実感できます。もし特定の人しかデータ定義を把握していないとなると、その人が退職や異動でいなくなった時、業務が滞ってしまうでしょう。

2.分析を全て代行してくれるわけではない

生のデータとデータマイニングツールがあれば、望みの結果を導きだせるというのは大間違いです。ツールはあくまでも決められたルールの元、効率的にデータを分析してくれるものです。

実際に分析をするには、事前にツールが読み込めるようにデータを加工したり、分析するための条件設定をしたりします。さらに分析結果を見て条件の変更も必要になるので、最低限の操作は行いましょう。

3.使いこなすためには知識・技術が必要

専門的な統計やプログラミングの知識がなくても、データマイニングツールは使えます。しかし目的のためにどの分析を使えばよいのか、分析結果をどのように解釈したらよいのかは、ツール任せにできません。

自身で計算ができなくても良いから基本的な統計分析の知識や、効率的にデータマイニングをするためのデータ加工技術は必要です。知識も技術もないと、見当違いな分析手法を選んでしまったり、未加工のデータを分析にかけ解析が終わらなかったりします。

ツールによってデータマイニングを始めるハードルは下がりますが、知識や技術がゼロでは使いこなせないということを認識しておいてください。


まとめ

データマイニングを行えば、気づいていなかった業績アップのヒントが見つかったり、実績ベースで効果の予測やノウハウの蓄積ができたりします。しかも必要な機能が詰まったツールがあり、専門知識がなくてもデータマイニングを始めることは可能です。

しかしデータマイニングを行う目的を明確にしておかないと、分析の精度は落ち分析結果の解釈もできないです。効果的なデータマイニングのため、利用目的から検討していきましょう。

ヤフー独自のビッグデータを確認可能!「DS.INSIGHT」の資料ダウンロード(PR)

ヤフーでは検索やメディア・ECなど多岐に渡る事業を通じて蓄積してきたビッグデータをAI技術で分析し、自社のサービス改善に活用してきました。

このヤフー独自のビッグデータを開放し、企業や自治体のあらゆる事業活動をサポートするのがデスクリサーチツール「DS.INSIGHT」です。

生活者の興味関心、エリア特性や人流を可視化して新規事業やマーケティングに活用することができるので、興味のある方はぜひ資料をダウンロードしてみてください。

ヤフーの行動ビッグデータを分析できるデスクリサーチツール「DS.INSIGHT」の詳細資料をダウンロード

※本記事はヤフー株式会社提供によるスポンサード・コンテンツです。