データ分析に実務に関わり始めたころに、誰もが陥る罠があります。
私もはまりました。人によっては、この罠から、なかなか抜け出せない人もいます。
罠とは、「より高度な分析にこだわる」という罠です。
もしかしたら、この罠にはまることは、データ分析そのものや理論的な何かにこだわるのなら、大歓迎かもしれません。しかし、実務上は致命的です。
実務でのデータ活用が上手くいかない! と感じたときチャックしてみると良いと思います。この罠にはまっていないかを。
予測精度が2%改善しました!
新卒2年目のデータサイエンティストがおりました。
データ分析にもこなれなころで、統計モデルやら機械学習モデルやらも一通り知識だけはあります。最近はやりのディープラーニングもクラウド上に構築し、画像分類もできるようになっていました。
そこで、ある商品の受注件数を予測するモデルを、一人で構築させてみました。非常にオーソドックスなモデル構築です。
最初、「重回帰モデル」と呼ばれる単純なモデルで構築していました。受注件数を、複数の要因(例:営業リソース、見込み顧客数、など)で予測するモデルです。
色々な書籍を読んでみると、どうもこの受注件数を予測するモデルは、「重回帰モデル」ではなく、「ポアソン回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「ポアソン回帰モデル」で構築しなおしました。素晴らしいことです。
さらに、色々な書籍を読んでみると、どうも「ポアソン回帰モデル」よりも「負の二項分布の回帰モデル」で構築した方が統計理論的にはより正しい。そのことに気づき、「負の二項分布の回帰モデル」で構築しなおしました。素晴らしいことです。
勉強しながら、予測モデルを構築する、このような進め方をしていました。
その結果、初期の「重回帰モデル」に比べ予測精度が2%改善し、とても素晴らしい予測モデルが出来上がりました。しかし、実務では使われることはありませんでした。
なぜ使われない……
なぜ、この素晴らしい予測モデルが実務で使われなかったのでしょうか。
大きな原因の一つが、予測モデルが出来上がるまでに時間がかかりすぎ、使ってもらうタイミングを大きく逸したことがあります。
このような問題は、往々にしてありがちです。「スピード」を取るか「クオリティ」を取るかという問題で、「クオリティ」を取ったがために活用されない。
どんないハイクオリティであっても、活用されなければ、無駄なクオリティです。そのクオリティは活用されて初めて意味を持ちます。
要するに、「クオリティ」よりも「スピード」を優先しないと、実務では活用してもらえないケースが多々あります。
それだけが原因ではありません。
えっ! それだけ……
初期の「重回帰モデル」に比べ予測精度が2%改善したことで、具体的にどれぐらいのアクションが変わるのでしょうか?
業種業態や分野などで変わってくると思います。このときの2%の精度改善は、ほとんどアクションに影響ありませんでした。
要するに、単純な「重回帰モデル」な予測結果から導き出されるアクションと、「負の二項分布の回帰モデル」の予測結果から導き出されるアクションに変化がなかった、ということです。
予測モデルを構築する側としては、この数%の改善は重要なのかもしれませんが、活用する側から見たとき、大して重要でなければ、この数%の改善は大きなインパクトはありません。
おそらく、活用する側から見たとき、「えっ! それだけのために、こんなに時間をかけているの???」となるでしょう。
そうして、「スピード」よりも「クオリティ」を優先した結果がこれかよ! と思われるかもしれません。
しかし、次の予測する機会に、このより高度な予測モデルを使ってもらえれば良いわけで、いくらでもこの後、使ってもらえる機会があります。
わけわからん
より高度なモデルで、予測モデルを構築すればするほど、説明が難しくなります。
そして、新卒2年目のデータサイエンティストが、「負の二項分布の回帰モデル」を活用する側の担当者に説明したとき、次のようなよくある声を頂戴しました。
「わけわからん」
このケースでは、「負の二項分布の回帰モデル」がどのようなものかを説明する必要があります。正直、単純な「重回帰モデル」の方が説明は楽だし、直観的にもわかりやすい。
覚えたての、より高度な何かを使うとき、他人に説明できないのであれば、データ分析の実務で使ってはいけません。
他人に説明できないと、他人は理解できません。何よりも、他人に説明できていないということは、説明している本人もきちんと理解していない可能性があります。きちんと理解していない人が、理解していないもので分析を進めると、往々にして間違えます。間違えていることに気が付かないからです。怖いことです。
要するに、「『スピード』よりも『クオリティ』を優先したあげくに、実務上素晴らしいモデルができたわけでもなく、挙句に何がどうなっているのかも理解できない」のであれば、活用する側としては、おそらく実務では活用しないことでしょう。
今回のまとめ
今回は、「高度なデータ分析や、より高度な予測モデル構築にこだわるほど、データ活用から遠のくという悲しい現実」というお話しをしました。
一見すると、より高度なデータ分析をしたり、より高度な予測モデルを構築した方が、一見するとよさそうに思えますが、活用という観点で考えると、あまりよい結果にはなりません。より高度になればなるほど、活用されにくくなるということです。マーケティングや営業などの人が介在するデータ活用では、特にそうです。
では、どの程度高度なデータ分析やモデル構築であれば、よいのでしょうか。その見極めのための一番大きな試金石が、「分析者本人が他人に上手く説明できるかどうか」になります。実務で実施するデータ分析は、自分で説明できないものはやめましょう。間違った分析やモデル構築をするケースが多いからです。
そして、説明できたとしても、やたらめったら時間がかかるようであれば、それも避けた方が良いでしょう。活用タイミングを逃すからです。
理想は、「スピィーディにより高度な分析(もしくは、より高度な予測モデル構築)を実施し、他人にもきちんと説明できる」です。
スピード面に不安があるときは、例えば予測モデル構築であれば、先ずは「単純な予測モデル」を構築し活用する側に渡し、残りの時間が許す限り「より高度は予測モデル」にチャレンジするのがよいでしょう。もちろん、他人に説明できるということが大前提ですが。
もし、実務でのデータ活用が上手くいかない! と感じたら、いたずらに分析が小難しくなっていないかをチャックしてみると良いと思います。データ活用が上手く回るきっかけになるかもしれません。