データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理統計学に関するある程度の知識は必須です。
しかし、データ分析・活用を目指すなら、数理統計学的厳密性は放棄したほうが良さそうです。
なぜでしょうか?
今回は、「データ分析・活用と数理統計学的な厳密性との狭間で」というお話しをします。
Contents
数統計学的な判断をデータ分析に組み込む
データ分析・活用を考えたとき、その中で、統計学的な判断をデータ分析に組み込むことを、よく考えます。
統計学的な判断とは、次にようなものです。
- 昨年の売上と比べ、今年の売上はどうだろうか?
- 今日の売上は、通常の売上と比べ悪いと言えるのだろうか?
- 先週のキャンペーンの影響はどうだろうか?
- 売上に効いている要因として、何が考えられるだろうか?
- 先日の土・日の売上が悪かった要因は、何であろうか?
- 何の対策を打たないまま営業すると、来月どうなりそうか?
- A案とB案、どちらがいいだろうか?
データによる意思決定支援です。
厳密性を追求したあのころ
私が20代のころ、数理統計学的な厳密性を最大限に考慮したデータ分析を試行したことがありました。
いたずらに時間だけ過ぎ、骨の折れるものでした。
工夫次第でどうにかなりそうで、どうにもならないものでした。
現場のスピード感に合わせるためには、どこかで厳密性の追求を放棄する必要がでてきました。
回帰分析
データ分析・活用で、よく登場するものに回帰分析というものがあります。
手法の紹介やツールの使い方を説明した、データ分析やデータサイエンス、機械学習などの入門書に、必ず登場する分析手法です。
回帰分析については、これ以上説明はしません。
よく目にする分析手法だということだけ、ここでは知って頂ければと思います。
数理統計学的厳密性を満たすのはほぼ不可能
この回帰分析は、厳密には独立性・等分散性・正規性・線形性などの条件を満たす必要があります。
これらの条件の話しも、ここでは説明しません。
ここで言いたいのは、ビジネスの現場で発生するデータは、これらの条件を満たすことは皆無だということです。
実際は、工夫次第でこれらの条件に近づくことは可能です。
しかし、近づくだけで条件を十分に満たすことはありません。
明らかに条件を逸脱していない限り、実務的にはいいのではないか
言いたいことは、「明らかに条件を逸脱していない限り、実務的にはいいのではないか」ということです。
したがって、実務的には数理統計学的な厳密性は、過剰に追及しないほうがいいでしょう。
数理統計学の世界から見ると、この本の中では可笑しなデータ分析をやっているかのように見えるかもしれません。
数理統計学の知識は必要か?
データ分析を実施する上で、数理統計学の知識は必要です。
大学の1,2年生レベルの教科書など簡単な書籍を参考に学習して頂ければと思います。
数理統計学的厳密性を知っていた上で厳密性を崩したデータ分析をするのと、知らずに厳密性を崩してデータ分析するのとでは、大きく意味合いは異なります。
場合によっては、分析結果の解釈に大きく影響することがあります。
今回のまとめ
今回は、「データ分析・活用と数理統計学的な厳密性との狭間で」というお話しをしました。
データ分析やデータサイエンス、機械学習などの基礎的なバックボーンとして、数理統計学に関するある程度の知識は必須です。
データ分析・活用を考えたとき、その中で、統計学的な判断をデータ分析に組み込むことを、よく考えます。
統計学的な判断とは、次にようなものです。
- 昨年の売上と比べ、今年の売上はどうだろうか?
- 今日の売上は、通常の売上と比べ悪いと言えるのだろうか?
- 先週のキャンペーンの影響はどうだろうか?
- 売上に効いている要因として、何が考えられるだろうか?
- 先日の土・日の売上が悪かった要因は、何であろうか?
- 何の対策を打たないまま営業すると、来月どうなりそうか?
- A案とB案、どちらがいいだろうか?
データによる意思決定支援です。
現場のスピード感に合わせるためには、どこかで厳密性の追求を放棄する必要がでてきます。
要するに、実際のビジネスの現場でデータ分析・活用を目指すなら、数理統計学的な厳密性は二の次にした方が良いということです。
しかし、数理統計学的厳密性を知っていた上で厳密性を崩したデータ分析をするのと、知らずに厳密性を崩してデータ分析するのとでは、大きく意味合いは異なります。
そのため、数理統計学に関するある程度の知識は必須です。
大学の1,2年生レベルの教科書など簡単な書籍を参考に学習して頂ければと思います。