最近のデータ分析やモデル構築では、「予測を当てればいい!」という風潮もありますが、確かに当てるだけであれば、それで問題ないでしょう。
画像処理などの世界では、それでいいかもしれません。
ただ、ビジネス系のデータ分析の場合、単に当てるだけというよりも、「なぜそうなったの?」という要因分析ニーズも高いです。
要因分析で使えるデータ分析手法の多くは、解釈性の高い伝統的な統計モデルが多いです。
最も簡単な手法は、相関係数を使ったものです。それはそれで、シンプルで強力な手法です。
このような中、最近では「統計的因果探索」という手法が注目され始めています。
今回は、「ビジネス要因分析で欠かせない統計的因果探索」というお話しをします。
要因分析とは?
着目している指標である目的変数Y(売上など)の異常が検知された場合……
- なぜこのような異常が起こったのか?
- 異常の要因は何だったのか?
- そのためにどのような対策を打つべきなのか?
……など、色々と協議されることでしょう。
このとき、着目している指標である目的変数Y(売上など)に影響を与えるであろう、X(説明変数)のデータがある場合、X(説明変数)から要因を探る要因分析を実施することがあります。
このとき、X(説明変数)同士がどのような関係性にあるのかを知ることは、対策を考える上で非常に重要です。
「構造の把握」と言います。
最もシンプルなのが、2変量の関係性を探る相関分析です。
相関分析とは?
相関分析とは、2変量間の線形関係を、相関係数という指標で分析するものです。
線形関係とは、「一方の値が増えると、他方の値も比例して増える」みたいな関係です。
もちろん、「増える」という関係性だけでなく、「減る」という関係性もあります。
大きく3つの線形関係を見出していきます。
- 正の相関関係がある(相関係数が1に近い)
- 相関関係がない(相関係数が0前後)
- 負の相関関係がある(相関係数が-1に近い)
ちなみに、相関係数は-1以上1以下の値を取ります。
2つの変量間に線を引く
相関分析は、2つの変量間に線形関係がありそうかどうかを検討します。
そして、2つの変量間に線形関係がありそうな場合、その間に「線」を引くことで表現することが多いです。
その「線」は、単なる線に過ぎません。
なんとなく、「線」に「矢印」があると嬉しいでしょう。
特に、説明変数X同士の場合には、「矢印」を付けられると便利です。
統計的因果探索とは?
一言で言うと、「矢印の向きを分析する」という感じです。
日本でよく使われるのは、LinGAM(Linear Non Gaussian Model、線形非ガウス非巡回モデル)という手法です。
非正規分布を仮定し因果関係を推測する手法です。
因果推論と因果探索
似たようなワードに、統計的因果推論というものがあります。
似たような感じですが、データ分析の置かれている状況がことなります。
超簡単に言うと、統計的因果推論は、検討したい因果をあらかじめ想定した、伝統的な統計学アプローチの1つである実験計画法・分散分析の流れを汲んでいます。
一方、統計的因果探索は、手元にあるデータから因果構造の分析する、探索的なデータ分析の流れを汲んでいます。
数理統計学に詳しい方は、伝統的な統計学アプローチの1つであるパス解析をイメージすると、分かりやすいかもしれしれません。
本当の因果ではない!
統計的因果探索をいくら精緻に実施したところで、それはあくまでもデータから垣間見た因果関係のようなものに過ぎません。
統計的因果探索だけの話しではなく、RubinやPearl系の統計的因果推論もそうですし、時系列データに対する因果推論であるGranger因果などもそうです。
データから統計学的な手法を用いても、あくまでもデータ上の関係であって、因果関係どころか、たまたまそのように見えるだけで、まったくの無関係の可能性すらあります。
要は、最後は人間の経験値と洞察力がものを言います。
今回のまとめ
今回は、「ビジネス要因分析で欠かせない統計的因果探索」というお話しをしました。
最近のデータ分析やモデル構築では、「予測を当てればいい!」という風潮もありますが、確かに当てるだけであれば、それで問題ないでしょう。
画像処理などの世界では、それでいいかもしれません。
ただ、ビジネス系のデータ分析の場合、単に当てるだけというよりも、「なぜそうなったの?」という要因分析ニーズも高いです。
要因分析で使えるデータ分析手法の多くは、解釈性の高い伝統的な統計モデルが多いです。
最も簡単な手法は、相関係数を使ったものです。それはそれで、シンプルで強力な手法です。
このような中、最近では「統計的因果探索」という手法が注目され始めています。
直感的には、2つの変量間に線形関係がありそうかどうかを検討する相関分析を発展させたような感じのものです。
相関分析と異なり、2変量間に「線」は引いて表現するという感じではなく、その「線」に「矢印」がある感じです。
興味のある方は、試してみてください。
要因分析するときに非常に役立ちます。