第226話|現場感とデータ分析(どちらかというと仮説探索型データ分析)

第226話|現場感とデータ分析(どちらかというと仮説探索型データ分析)

データから新たな知見を得たい! という要望は、昔からあります。

仮説発見をするぞという、データマイニングがその現れでしょう。

従来のメインが「仮説検証型データ分析」で、それを進化さえたような感じを与えるようなモノでした。

最近ですと、未来創造型と言えそうです。

仮説検証から仮説発見へ、仮説発見から未来創造へ、という感じです。

未来創造型データ分析」はさておき、仮説発見は本当に起こり得るのでしょうか?

今回は、「現場感とデータ分析(どちらかというと仮説探索型データ分析)」というお話しをします。

仮説発見

仮説発見型データ分析」とは、「缶ビールと紙おむつが同時購買されている!」みたいな新たなルールをデータから発見することです。

「缶ビールと紙おむつ」の事例
1998年の米国のForbes誌で紹介されたものです。当時のNCR社が米国にある小売店であるオスコのデータを分析して得た併買ルールです。この新たに発見されたルールで収益を拡大したとは、Forbes誌には記載されていません。

発見」とは「今まで知られていない物事を初めて見いだすこと」です。

今まで知られていない物事を初めて見いだすこと」は、本当にデータで可能なのでしょうか?

データは過去の一部分に過ぎない

当然のことですが、データは過去の一部分に過ぎません。

要するに、過去全体を知ることはできません

そのため、データ分析をするとき、分析者の洞察力や前提知識などが必要になってきます。

缶ビールと紙おむつが同時購買されている!」というデータ分析結果を見たとき、洞察力や前提知識などによって、反応が異なります

例えば……

  • 現場から見たら「わかる、わかる」となり
  • 現場から距離があるほど「へぇ、面白い」となる

現場から見たら当然のことが多い

データは過去の一部分に過ぎません。

データの発生源に近いところで働いている現場の人にとって、毎日のように接している事象です。

先ほどの「缶ビールと紙おむつ」で考えると、本当に缶ビールと紙おむつがよく併買されているのなら、レジ係は知っているはずです。毎日のように目の前で見ていますし、そのレジ打ちをするからです。

現場から距離があるほど、この事実を知りません。現場を知らないからです。

現場感に合わないデータ分析結果は怪しいケースが多い

データ分析結果を現場の人に見てもらうことは非常に重要です。

現場感に合わないデータ分析結果は怪しいケースが多いからです。

現場にとって全く身に覚えのないことがデータに記録されることは、稀だからです。

現場から距離のある人にデータ分析結果を見てもらい、「面白い! 使える! これいいね!」と言ってもらえても、現場から見たら「そんなことはない」となることもあります。

どこかでミスっています。

記録は何のためにする?

データは、過去の一部分を記録したものです。

記録は何のためにするのでしょうか?

答えは人それぞれだとは思いますが、例えば「思い出すため」という用途もあるのではないでしょうか。

データを分析し、現場の人に見てもらったときに、「あぁ確かに、こんなことあった」という感じです。

さらに、「何となく分かっていた現実」を再認識させるという用途もありそうです。

どちらかというと、仮説探索型

冒頭に、「缶ビールと紙おむつが同時購買されている!」というお話しをしました。

このような新たなルールをデータから見つけるのは、どちらかというと「仮説探索型データ分析」といった方がしっくりきます。

発見」(知られていないことを初めて見いだす)というよりも「探索」(見落しているものを探している)という感じです。

データを使い、見落しているものを探し出し炙り出す、そんな感じです。

炙り出された現実の多くは、現場感と合うケースが多いです。

ちなみに、データから知られていないことを初めて見いだす「発見」の可能性が皆無ではありません。

今回のまとめ

今回は、「現場感とデータ分析(どちらかというと仮説探索型データ分析)」というお話しをしました。

データから新たな知見を得たい! という要望は、昔からあります。仮説発見をするぞという、データマイニングがその現れでしょう。

仮説発見は本当に起こり得るのでしょうか?

どちらかというと、仮説探索という感じかと思います。

仮説探索型データ分析」とは、「忘れていたこと」を炙り出したり、「何となく分かっていた現実」を炙り出すといった、見落しているものデータを使い炙り出す、そんな感じかと思います。

何はともあれ、データ分析結果を現場の人に見てもらうことは非常に重要です。

現場感に合わないデータ分析結果は怪しいケースが多いからです。

現場にとって全く身に覚えのないことがデータに記録されることは、稀だからです。

現場から距離のある人から「面白い! 使える! これいいね!」となっても、現場から見たら「そんなことはない」となることもあります。