第111話|売上や受注などの結果系データしかないとき、どう分析する?

第111話|売上や受注などの結果系データしかないとき、どう分析する?

ビッグデータの時代と言うものの、データを眺めてみれば、何がビッグなのかわからない……

少なくとも、勝手に溜まるデータがビッグになっている、ということは言えそうです。

勝手にビッグになっているデータの代表が、Webアクセスログやセンサーデータ、そして売上や受注などの売上に関するデータです。

そして、どのような企業にもあるのが売上や受注などの結果系データです。

今回は、「売上や受注などの結果系データしかないとき、どう分析する?」というお話しです。

勝手に溜まるデータは、ほぼ汚い

先ほど、勝手にビッグになっているデータの代表として、Webアクセスログやセンサーデータ、そして売上や受注などの売上に関するデータを上げました。

残念ながら、勝手に溜まるデータの多くは、さぁ分析するぞ! となったとき、そのままでは使えません。

なぜならば、データ分析という観点から考えると、汚くて使えないからです。

汚いから使えない? という疑問もあるかもししれませんが、汚いものはキレイにすればいいので、時間さえかければキレイにはなります。

結局、データは意識して溜めないと溜まらない

その中で、Webアクセスログは比較的綺麗に蓄積されますが、それでも、そのまま分析では利用できません。

分析のための前処理が、かなりあります。そもそも、Webアクセスログそのものは、そのままExcelで扱えるようなデータ形式でないため、そのための処理が必要になります。

Webアクセスログを取得する時、タグをWebサイトに埋め込めばすみますが、多くの場合、欲しいWebアクセスログを取得するためには、それなりの実装しなければなりません。分析中に、実装ミスに気づくこともままあります。

何を言いたいかというと、ビッグデータの時代とは言え、結局のところデータは意識して溜めないと溜まらない、という現実は、今も昔も変わらないということです。

C.L.ハルの「S-O-R理論」

勝手に溜まるデータの多くが、結果系のデータです。

例えば、Webアクセスログやセンサーデータ、そして売上や受注などの売上に関するデータも、何かの結果を反映したデータです。

心理学の世界にC.L.ハルの「S-O-R理論」(Stimulus-Organism-Response Theory)という概念があります。非常にシンプルな概念です。

「S」(Stimulus)は刺激、「O」(Organism)が有機体、「R」(Response)が反応です。データ分析の世界でも、そのままこの概念を活用することができます。

結果系のデータは「R」(Response)になります。「R」(Response)が生まれるためには、「S」(Stimulus)が必要になります。

例えば、マーケティングのキャンペーンは「S」(Stimulus)で、「O」(Organism)が消費者で、「R」(Response)が売上などになります。

データ分析ではよく、「S」(Stimulus)と「R」(Response)のデータから、「S」(Stimulus)と「R」(Response)の関係を統計モデルなどの数理モデルで表現したりします。

多くの場合、「O」(Organism)がどのようになっているのか分からないからです。

「S」(Stimulus)がないけど、「R」(Response)がある。あなたならどうする?

そして、「R」(Response)に関するデータは、キレイ・汚いかどうかを考えなければ、結構溜めっている企業が多いようです。

売上系のデータは事業をする上で必須ですし、Webのアクセスログもタグを埋め込んでおけば何かしらデータが蓄積されます。センサーデータも、センサーを設置すればデータはどんどん発生します。

しかし、「S」(Stimulus)に関するデータは、本当に意識しないと蓄積されません。

例えば、マーケティングのキャンペーンの情報はパワポなどの資料としては残っているけど、データ分析できる形で蓄積されていない。Webもリスティングの運用やSNS施策を、Web系の広告代理店に丸投げで何をやっているので、記録されているようで、実は分析できる形では記録されていない。

センサーデータも、例えば、生産機器の温度が上がったので職人技でボトルを0.001ミリ単位で調整したとか、生産設備のメンテンナンスや工場の掃除など、何をやったのかの記録は具体的に残っていない。

要するに、「S」(Stimulus)と「R」(Response)の関係を分析が、「S」(Stimulus)がないためにできない。

そこで、「R」(Response)にデータしかない場合、データ分析はできないの? という疑問が湧いてくるかもしれません。

通常か? 異常か? なら見れる

売上や受注などの「R」に関するデータしかないとき、どうする? ということで、ベタな分析方法は、異常検知になります。

異常検知であれば、「R」に関するデータだけでも、分析しようと思えばできます。

通常の「R」(Response)の値と比べてどうかを見るだけですから…… とは言っても、季節変動やトレンドなど考えるべき要因は多々あります。

例えば、キャンペーンであれば、通常の売上ではなく、多くの場合、売上拡大(異常な売上)を手にするためにやります。

であれば、売上の異常検知で、キャンペーン期間中に「異常値」が検出されなければ、もしかしたらキャンペーンは上手くいっていないとも解釈できます。

今回のまとめ

今回は、「売上や受注などの結果系データしかないとき、どう分析する?」というお話しをしました。

ビッグデータが日本社会で叫ばれて久しいですが、具体的に何がどうなっているのか見えにくい。少なくとも、勝手に溜まるデータがビッグになっている、ということは言えそうです。

しかし、溜まっているデータを眺めてみれば、それはWebアクセスログやセンサーデータ、そして売上や受注などの売上に関する、どちらかというと結果系のデータが多いようです。

心理学の世界にC.L.ハルの「S-O-R理論」(Stimulus-Organism-Response Theory)という概念があり、その概念をベースに考えると、売上や受注などの売上に関するデータは、「R」(Response)のデータになります。

残念なことに、データ分析する際、「R」(Response)のデータがあるのに「S」(Stimulus)に関するデータが不十分というケースが多々あります。

「S」(Stimulus)に関するデータが十分に揃うまで何もできないのか? というとそうでもありません。

例えば、「R」(Response)のデータである売上や受注などの結果系のデータに対し、異常検知をすることで、データ分析進めることができます。

今月の売上は通常通りだったのか? 今月の受注件数が落ちているけど問題ないのか? キャンペーンを実施した結果、通常より売上は伸びている(異常と言えるほどに)のか?

このような分析が可能となります。