データ分析なり予測モデル構築をするとき、今までの傾向がこれからも続く、という前提で実施している人が多い気がします。
例えば、昨年の同時期に売れた商品と、今年の同時期の売れる商品はほぼ同じであろう、と推測する感じです。
例えば、昨日までの自分の右親指の指紋と、今日明日の自分の右親指の指紋ほぼ同じでだろう、という推測です。
しかし、ここ数か月間の新型コロナ騒動を見ていると、このような過去の傾向を未来にも通用する、というデータ分析・活用には限界もあるのではないかと思います。
今回は、「変化の激しく先の見えない時代に求められる”即時的”データ分析・活用」というお話しです。
データは所詮過去のものに過ぎない
データは、過去の事象を記録したものです。
商品が売れたという事象を、売上という形でデータで記録する、という感じです。
要するに、データは過去のことであって未来のことではない、ということです。
このような前提の中で、データを活用し未来の見通しを良くしようと考えたり、今を過去のデータをもとにどうにかしようとしています。
先行きが見えないときこそ威力を発揮すべき
過去と未来はつながっています。
劇的な天変地異が起こらなければ、過去と未来に大きな変化がないと考え、データ分析・活用を考えられています。
ここに自己矛盾というか、ある種のジレンマが内在しています。
「過去と未来に大きな変化がないならば、データを見るまでもなく、過去と同様のことを繰り返し実施すれば十分ではないか」というものと、「過去と未来に断絶が起こり先行きが見えないからこそ、データの力を使い闇にロウソクの明かりを灯したい」というものです。
データ分析・活用は、先行きが見えないときこそ威力を発揮すべきであり、過去と未来に大きな変化があるためデータ分析・活用は無力です、とはなりません。
要は、過去と未来に大きな変化がない閉じた世界を前提にしてはいけないということです。
“即時的”データ分析の考え方
そこで求められるのが、“即時的”データ分析・活用です。
非常にシンプルなもので、直近のデータほど重視しデータ分析なり予測モデル構築なりをしましょう! ということです。
ここでデータ量に、ある種のアンバランスな状況が生まれます。
「直近」というぐらいなので直近の大きな変化の起こった後のデータ量は少なく、大きな変化の起こる前の過去のデータ量が多い、ということになることでしょう。
しかしながら、過去と未来に大きな変化があったといっても、ある種の傾向は保っているケースが多いです。
新型コロナが流行しても、春先には花粉症真っ盛りですし、夏になれば暑くなります。夏暑くなれば、涼を求め冷たいアイスクリームなどの商品が売れることでしょう。過去に比べて売り上げは落ちるかもしれませんが、今(2020年4月)に比べれば売れると思います。
要は、ある種の傾向を保ちつつ、直近の事象によって影響を受けるデータ分析なり予測モデル構築なりをする、ということです。
古典的にはベイズ方式
統計学には日本の学校や大学の多くでメインに学ぶネイマン・ピアソン流の統計学と、ベイズの定理を活用したベイズ流の統計学があります。
ベイズ統計学は、確率という概念を未来視点で縛るとおかしなことをしていると感じますが、過去や未来という時間の概念的な縛りをなくすと便利な道具であることに気が付きます。
詳しい説明はしませんが、過去に起こった事象にも確率という概念を導入します。過去に起こったかどうかは既に分かっているので、確率的には0 or 1しかありえませんが、ベイズ統計学の世界では主観確率という概念を用いることで、すでに起こったことに対し確率0.3(30%)であると言ったりします。
このようなややこしい議論は先に置いておきます。
ベイズ統計学は、事前にもっているある事象の起こる確率を、あたらしい情報(データ)を得るたびに更新していきます。
分かりやすく言うと、大きな変化の起こる前の過去の傾向を、大きな変化の起こった後のデータで更新する、ということです。
この更新頻度を高めていけば、今起こっていることをデータ化しておけば、即自的に今を反映したデータ分析や予測モデル構築が可能となります。
「ベイズ」というキーワードから難しく感じるかもしれませんが、それほど難しいものではありません。
ベイズ統計学の面白いところは、現場の人の知見を、新しいデータを得るたびに都度更新することができるところです。このような使い方は、データ量が不十分なときに活きます。例えば、まずは現場の知見(思い込みでもOK)の力を借りてモデルを構築し、客観的なデータを入手するたびに更新する、という感じです。
シンプルなのはウエイトバック方式
要するに、ある種の変わらない傾向を保ちつつ、直近の事象によって影響を受けて進化させるデータ分析なり予測モデル構築なりをすればいい、といいうことであれば、もっと簡単なやり方があります。
こちらも古典的なやり方ですが、ウエイトバックを利用するというものです。
簡単に説明すると、直近のデータほど重視するために、直近のデータほど大きなウエイトを付けデータ分析をしたり予測モデルを構築する、ということをします。
データ分析ツールの多くは、例えば回帰モデルを構築するときに、このウエイト付けをする機能が備わっていますので、この機能を利用すると簡単に、ある種の変わらない傾向を保ちつつ、直近の事象によって影響を受けて進化させるデータ分析なり予測モデル構築なりを実現することができます。
直近の激しい変化に追随する“即時的”データ分析・活用が実現できます。
もちろん、リアルタイムに追随するするというのではなく、ワンテンポ遅れた追随になります。
今回のまとめ
今回は、「変化の激しく先の見えない時代に求められる”即時的”データ分析・活用」というお話しをしました。
データ分析なり予測モデル構築をするとき、今までの傾向がこれからも続く、という前提で実施している人が多い気がします。
しかし、ここ数か月間の新型コロナ騒動を見ていると、このような過去の傾向を未来にも通用する、というデータ分析・活用だけでは限界があるのではないかと思います。
そこで、“即時的”データ分析・活用です。
古典的になベイズ統計学の考え方の活用、シンプルなのはウエイトバック方式です。
どちらも簡単に実現できますので、興味のある方は試してみてはいかがでしょうか。