集めるデータのイメージが付いたら、次にデータを集めなければなりません。
データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。
データ品質を決めるのは、データの前提をきちんと認識しておくことです。
データの「収集」について全5回にわたってお話しいたします。
- その1 データソースの種類
- その2 まずはセカンダリーデータ
- その3 より正確にはプライマリーデータ
- その4 最重要なのはデータの前提
- その5 データは対で集める ⇒ 今回
前回は、その4の「最重要なのはデータの前提」についてお話ししました。
今回は、その5の「データは対で集める」というお話しをします。
Contents
データ分析の基本は「比較」
データ分析の基本は「比較」です。
例えば、「今日の気温は25度です」と言っても、気温が高いのか低いのかが分かりません。
何かと比較して初めて高い低いが言えます。
例えば……
- 沖縄の真夏の気温と比べれば低くなります
- 北海道の真冬の気温と比べれば高くなります
つまり、データは比較対象があって初めて分析が出来るのです。
比較対象のデータが必要
比較するためには、当然ながら比較対象となるデータも集めないと大変なことになります。
どんなに質の良いデータを集めても、比較対象がないデータは、無意味なデータになる可能性があるからです。
比較対象となるデータが無ければ、集めたデータが表している意味を読み取ることができないからです。
ここでは、「比較対象となるデータ」を「対となるデータ」と表現します。
対となるデータ
「対となるデータ」とは、どのようなデータでしょうか?
キーになるのは「データの前提」です。
「対となるデータ」は「データの前提」を少しずらすと、「対となるデータ」が見えてくるからです。
例えば……
- 今日の気温と昨日の気温
- あなたの営業成績と部署全体の営業成績(平均)
- 北海道で販売した売上データに対し沖縄で販売した売上データ
……などなどです。
「データの前提」のずらし方で見えてくるものが違う
ここで重要な点があります。
「何と比較するのか?」ということが分かっていないと、「データの前提」のどこをずらせばいいのかが分からない、ということです。
実際に、「データの前提」のずらし方で、データから見えてくるものが違います。
例えば、今ここにある商品の販売データあるとします。
- 北海道の売上と沖縄の売上を比較する
- 北海道の今年の売上と昨年の売上を比較する
どちらも「データの前提」をずらして比較しています。
前者は、エリアをずらし比較することで、エリアの違いが見えます。後者は、年をずらして比較することで、年の違いが見えます。
「データの前提」のずらし方で見ててくるものが異なります。
プライマリーデータ例
プライマリーデータとして、一からアンケートを企画しデータを集めるのであれば、集めたいデータとともに「対となるデータ」も集めるように企画します。
例えば、ユーザだからこそ感じている商品ベネフィットを知りたいなら、ユーザ以外の人から見た商品ベネフィットも分かっている方がいいでしょう。
セカンダリーデータ例
セカンダリーデータの場合、完全に対となるデータを集めるのが困難です。
「対となるデータ」を探すとき、できれば同じデータ収集者(機関など)の集めたデータの中から探すのが良いでしょう。
データの品質とは?
高品質なデータとは、より良いデータ分析を可能にするデータです。
データ分析の基本は比較です。比較するには比較対象が必要です。集めたいデータと「対となるデータ」が必要になります。
より良いデータ分析のためには、「対となるデータ」は必須です。
そのためにも「データの前提」を明確にしておくことが重要です。「データの前提」を少し変更したものが「対となるデータ」だからです。
つまり、データ品質を高めるためには、「データの前提」をきちんと認識していないといけない、ということです。ここが疎かになると目も当てられません。
次回
今回で、STEP2「集める」のお話しは終わります。次回は、STEP3「分析する」です。
もっと知りたい方はこちら
14のフレームワークで考える かんき出版 (2014/9/18) |