よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。
その中でよく目にするのが点予測です。
点予測とは、「点」(1つのある数値)を予測することです。例えば、来年のこの事業の売上は100億であるとか、来月の店舗日販は50万円であるとか、そういったものです。
正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。
問題は、点予測を真であるかのように物事を進めることです。
今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをします。
点予測は100発0中が当たり前
点予測とは、「点」(1つのある数値)を予測することです。
例えば、明日の売上が53万2,871円(予測)である、といった感じで予測します。
よくできた予測モデルであれば、近しい値になることでしょう。
例えば、その日の売上が53万2,615円(実績)だった、という感じです。
しかし、予測と実績がどんなに近しい値になろうとも、ぴったり当たらなければ、予測結果が当たったとは言いません。
要するに、このような点予測は100発0中が当たり前なのです。
区間予測とは?
予測には、点予測だけではありません。区間予測というものもあります。
区間予測とは、「点」(1つのある数値)の予測ではなく、幅のある予測をすることです。
例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じで予測します。
区間予測であれば、その日の売上が53万2,615円(実績)だった場合、予測結果が当たったと言えることでしょう。
点予測は扱いやすい
正直、区間予測よりも点予測の方が分かりやすく説明しやすく、そして扱いやすいです。
例えば、明日の売上が53万2,871円(予測)である、といった感じで予測した場合、この売上の数値を前提に物事を計画し進めればいいからです。
例えば、明日の売上が51万8,189円から54万1,178円(予測)である、といった感じの場合、この売上の区間を前提に物事を計画し進める必要があり、下限で物事を進めればいいのか、上限で物事を進めればいいのか、迷います。
何が問題なのか?
点予測は何が問題なのでしょうか?
問題は、点予測を真であるかのように物事を進めることです。
点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。
例えば、広告宣伝に30億円かければ売上が100億円と予測したとしてます。
100億円は点予測です。仮に区間予測したとき、90億円から110億円であれば点予測の結果を使っても問題ないかもしれません。
しかし、区間予測したら20億円から180億円だったらどうでしょうか。下手をすると、30億円の広告宣伝費で20億円の売上ということもあります。
同じ点予測の値でも、区間予測したら幅が大きく異なることがあります。
区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。
そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。
区間予測の仕方
伝統的な統計学的な予測モデルの場合、ダイレクトに「予測区間」(信頼区間と予測区間は別ものです。混同されやすいので注意しましょう)というものを出力することができます。
この「予測区間」を区間予測として利用するのが手っ取り早いです。多くの統計解析用のツールの場合、点予測と一緒に出力されます。
他には、感度解析することで区間予測する場合も多いです。
昔からデータ分析を実施した人の多くは、普通に感度解析をしていましたが、最近は時間の都合なのか知らないだけなのか分かりませんが、感度解析する人の割合が微妙に減っている気がします。
感度解析とは、予測モデルの説明変数(特徴量)やパラメータなどを色々変化させ、その予測結果の下限と上限を使い区間予測とするやり方です。
例えば、店舗のある日の売上をするとき、降雨量という説明変数(特徴量)を「0 mm/h」(晴れ)、「1 mm/h」(小雨)、「1 mm/h」(小雨)、「5 mm/h」(雨)、「10 mm/h」(やや強い雨)などと変化させて、日販予測をします。
この場合、幾つかのシナリオを作っておく必要があります。
ちょっと敷居が高いですが、MCMC(Markov chain Monte Carlo methods、マルコフ連鎖モンテカルロ法)などで代表される乱数を使ったベイズ推定し求める予測モデルの場合、予測分布を出力することができます。
この予測分布をもとに区間予測をすることもできます。
今回のまとめ
今回は、「点予測は100発0中が当たり前、であれば区間予測」というお話しをしました。
よくデータサイエンスや機械学習などの技術を使い予測モデルを構築するケースも増えています。
その中でよく目にするのが点予測です。点予測とは、「点」(1つのある数値)を予測することです。
正直言って、点予測は当たることはありません。構築した予測モデルが悪いというのではなく、そういうものなのです。
問題は、点予測を真であるかのように物事を進めることです。点予測の結果を真として、設備投資や広告宣伝などを考え痛い目に合うことがあります。
区間予測の幅が小さいのであれば、点予測の値を真として物事を進めても問題ないかもしれませんが、区間予測の幅が広いとき気を付けた方がいいです。
そのようなことを見極めるためにも、点予測だけでなく区間予測も見ておくといいでしょう。
区間予測をする方法はいくつかあります。
例えば……
- 伝統的な統計モデルを使い予測区間を出力する
- 感度解析を実施し予測値の上限と下限を出力する
- MCMCなどの乱数を活用したベイズ推定した予測モデルを活用し予測分布を出力する
……などです。
他にもやり方はあるかもしれません。
興味のある方は、試してみてください。