ある小売チェーンです。
例えば、次のような状況はよくあります。
- 昨年の売上と比べ、今年の売上はどうだろうか?
- 今日の売上は、通常の売上と比べ悪いと言えるのだろうか?
- 先週のキャンペーンの影響はどうだろうか?
- 売上に効いている要因として、何が考えられるだろうか?
- 先日の土・日の売上が悪かった要因は、何であろうか?
- 何の対策も打たないままほったらかしにすると、来月どうなりそうか?
- A案とB案、どちらがいいだろうか?
これらの例は、「比較」というキーワードでデータ分析を進めることができます。
このような「比較」は、多くの人が何気なくやっているのではないでしょうか?
比較をするとき、使えるツールとして「統計的仮説検定」というものがあります。
今回は、「超簡略版『統計的仮説検定』のお話し」というお話しをします。
Contents
「差があるのかどうか?」を検定する
数理統計学の世界に、「統計的仮説検定」というものがあります。
その中に、「差の検定」などがあります。「差があるのかどうか?」を調べるものです。
分かりやすい例ですと、「昨年の売上と比べ、今年の売上はどうだろうか?」を検討するのに使えそうです。
この例ですと、昨年の日販(1日あたりの売上)と今年の日販を比較することになります。
グラフを眺めただけで、判断付くこともありますが、判断が付かないこともあります。
グラフの作り方で、差の大きさのイメージを変えることができるため、グラフを眺めただけの判断は注意が必要です。
統計的仮説検定は、当然ながらグラフの作り方に依然しません。
2つの仮説
このような日販の差の有無を統計的仮説検定で実施するは、先ず次のような2つの仮説を作ります。
- 帰無仮説H0:昨年の日販=今年の日販
- 対立仮説H1:昨年の日販≠今年の日販
帰無仮説H0は、「昨年の日販=今年の日販」ということで、「日販は昨年と今年で差があるとは言えない」という意味です。
対立仮説H1は、「昨年の日販≠今年の日販」ということで、「日販は昨年と今年で差があると言える」という意味です。
なぜ「帰無仮説」と言うのか?
なぜ「帰無仮説」と言うのか、なぜ「対立仮説」と言うのかは、ここで詳しい説明は避けます。
簡単に説明すると……
- 帰無仮説は「無に帰することを予定した仮説」
- 対立仮説は「帰無仮説に対立する仮説」
よく「計画が無に帰する」とか「努力が無に帰する」ということを言うかと思います。
ニュアンスは似ています。
主張したい対立仮説
「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。
「対立仮説」に「主張したいこと」を置きます。
その対立仮説を主張するために「引き立て役」とという意味の「噛ませ犬」として「帰無仮説」を置きます。
統計的仮説検定の流れ
統計的仮説検定の流れをザックリ言うと、次のようになります。
- (1) 先ず、帰無仮説を正しいと仮定する
- (2) 帰無仮説を正しいと仮定し論理展開したら、矛盾が見つかる
- (3) 矛盾が見つかったため、帰無仮説は正しくないと判断する
- (4) 帰無仮説が正しくないので、対立仮説を正しいとする
これは数学的には「背理法」と呼ばれる証明法です。
背理法
背理法とは、「最初に仮説を設定し、仮説が正しいとした条件で考え、矛盾が起こった場合に仮説が間違っているとする」と言うものです。
例えば……
あなたは軟体動物のタコである
↓
レントゲンを撮ったら背骨があった
↓
タコには背骨はないので矛盾している
↓
したがって、あなたはタコではない
このように、通常の背理法が前提としている矛盾は、「明確な矛盾」です。
しかし、統計的仮説検定が前提にしている矛盾は、明確なものではなく「矛盾していそう」という感じのものです。
統計的検定ならではの不思議な背理法
明確なものではなく「矛盾していそう」とは、どういうことでしょうか。
もう少し丁寧に説明を加えると、「確率的に稀なことが起こったから矛盾していそう」という感じです。
ここで問題になるのは、「どの程度稀なことが起こったのか?」になります。
慣習的には、「1%基準(高度に有意)」「5%基準(有意)」「10%基準(やや有意)」の3つの基準が用いられます。
5%基準(有意)
この3つの中で最もよく利用されているのが「5%基準(有意)」です。
「5%基準(有意)」を用いた場合、「5%の確率でしか起こらないぐらい稀なことが起こったから矛盾していそう」と考えます。
ちなみに、「1%基準(高度に有意)」「5%基準(有意)」「10%基準(やや有意)」の3つの基準の中で、「1%基準(高度に有意)」が最も基準のハードルが高く、「10%基準(やや有意)」が最も基準のハードルが低いことになります。
「5%基準(有意)」の場合の統計的仮説検定の流れ
「5%基準(有意)」の場合の統計的仮説検定の流れは、次のようになります。
- (1) 先ず、帰無仮説を正しいと仮定する
- (2) 帰無仮説を正しいと仮定し論理展開したら、5%の確率でしか起こらないぐらい稀なことが起こった
- (3) 5%の確率でしか起こらないぐらい稀なことが起こったため、帰無仮説は正しくないと判断する(帰無仮説を棄却すると言う)
- (4) 帰無仮説が正しくないので、対立仮説を正しいとする(対立仮説を採択すると言う)
このような流れで、帰無仮説H0(昨年の日販=今年の日販)を棄却し、対立仮説H1(昨年の日販≠今年の日販)を採択します。
「対立仮説を採択するかどうか?」しか言えない
ここで注意すべきことがあります。統計的仮説検定は、「対立仮説を採択するかどうか?」しか言えないということです。帰無仮説に関しては何も言えません。
簡単に説明します。
「5%の確率でしか起こらないぐらい稀なことが起こった」のであれば、すんなり「帰無仮説を棄却し対立仮説を採択する」となります。
一方、「5%の確率でしか起こらないぐらい稀なことは起こらなかった」場合どうなるでしょうか。
この場合、当然ながら「帰無仮説を棄却し対立仮説を採択する」とはなりません。
「対立仮説を採択することができなかった」ということが言えるだけで、「帰無仮説が採択する」ことにはなりません。
便宜的に「帰無仮説が採択する」ことはあっても、厳密には「帰無仮説が採択する」ことにはなりません。
このような場合、「昨年の売上と今年の売上に差がなかった」ではなく、「昨年の売上と比べ、今年の売上に差があるとは言えなかった」という表現になります。
もう少し丁寧に言うと、「昨年の売上と比べ、今年の売上に差があったかもしれないが、今回のデータから差があるとは言えなかった」となります。
手元にあるデータで検討した結果、差があるかどうか判断が付かなかっただけなのです。
今回のまとめ
今回は、「超簡略版『統計的仮説検定』のお話し」というお話しをしました。
多くの人が何気なくやっているのが「比較」と言う名の、データ分析・活用です。
例えば、次のようなデータ分析は、よくあります。
- 昨年の売上と比べ、今年の売上はどうだろうか?
- 今日の売上は、通常の売上と比べ悪いと言えるのだろうか?
- 先週のキャンペーンの影響はどうだろうか?
- 売上に効いている要因として、何が考えられるだろうか?
- 先日の土・日の売上が悪かった要因は、何であろうか?
- 何の対策も打たないままほったらかしにすると、来月どうなりそうか?
- A案とB案、どちらがいいだろうか?
これらの例は、「比較」というキーワードでデータ分析を進めることができます。
比較をするとき、使えるツールとして「統計的仮説検定」というものがあります。
分かりやすい例ですと、「昨年の売上(日販の平均)と比べ、今年の売上(日販の平均)はどうだろうか?」を検討するのに使えそうです。
このような日販の差の有無を統計的仮説検定で実施するは、先ず次のような2つの仮説を作ります。
- 帰無仮説H0:昨年の日販=今年の日販
- 対立仮説H1:昨年の日販≠今年の日販
「帰無仮説」は棄却したい仮説で、採択したいのは「対立仮説」になります。
ここで注意すべきことがあります。
統計的仮説検定は、「対立仮説を採択するかどうか?」しか言えないということです。
帰無仮説に関しては何も言えません。
背理法というロジック展開を使っているためです。