第258話|データによる仮説検証の3段階アプローチ

第258話|データによる仮説検証の3段階アプローチ

仮説を立てて、データ検証する。

既にある過去データ検証する方法と、これから新たにデータ取得検証する方法があります。

さらに、これから新たにデータ取得し検証する方法も、どうなるのかをモニタリングし確かめる方法と、ABテストで代表されるように積極的に介入しデータを取得し確かめる方法があります。

このように考えると、ざっくり3種類のデータによる仮説検証の方法があることになります。

今回は、「データによる仮説検証の3段階アプローチ」というお話しをします。

データによる仮説検証の3段階アプローチ

先ほどお話しした通り、ざっくり3種類のデータによる仮説検証の方法があります。絶対的なものではありませんが……

この3種類のデータによる仮説検証には、実施する順番があります。

  1. 仮説に対し、既にある過去データで検証し確かめる(例:統計解析や探索的データ分析)
  2. その仮説が、今後とも成立するのかをデータを取得し続け確かめる(例:モニタリング)
  3. その仮説を堅固なものにするために積極的に介入しデータを取得し確かめる(例:ABテスト)

簡単な事例で説明します。

某ニュースサイトの事例

とりあえずの目標

某ニュースサイトの、とりあえずの目標は無料会員数をある数まで増やすことでした。

今まで見ていた指標は、PV(ページビュー)数UU(ユニークユーザー)数訪問数回遊率(PV÷訪問数)などでした。

これらの指標と無料会員登録数の間に関係性はありそうでしたが、それほど強いものではなさそうでした。

例えば、PV数UU数などの数値がある一定以上を超えると、無料会員登録数の増え方は鈍化していましたし、そもそも相関関係そのものもそれほど大きなものではありませんでした。

とりあえずの仮説

無料会員登録に何が聞いているのか、調べることにしました。

日々発信されているニュース記事は、他のニュースサイトとそれほど大きく内容は変わりません。違いを出せるとしたら、記事のタイトルぐらいです。

ニュースサイトには、日々発信されているニュース記事以外にも、それらをまとめ編集し直し内容を深堀りした特集ページや、お悩み相談コラムなどもあります。

そこで仮説として……

  • 記事タイトル
  • 特集ページ
  • お悩み相談
  • コラム

……のいずれかが無料会員登録に効いているのであろうと考えました。

1.仮説に対し、既にある過去データで検証し確かめる(例:統計解析や探索的データ分析)

そこで過去データ(サイトのアクセスログ)を使い、無料会員登録つながった訪問そうでない訪問に分けて、どのようなページを閲覧したのか、どのくらい滞在したのか、などを比較しました。

さらに、目的変数無料会員登録の有無とした、ロジスティック回帰モデルディシジョンツリー(分類木)モデルなどを構築し、何が無料会員登録に効いていそうかを分析しました。

要は、最初は集計値やそれをグラフ化したものを眺め傾向を感覚的につかみ、その掴んだ感覚を活かしながら簡単な数理モデル(分類問題)を構築し検証した、ということです。

そこであることがわかりました。

特集ページが無料会員登録に効いている、ということです。少なくとも過去には……

2.その仮説が、今後とも成立するのかをデータを取得し続け確かめる(例:モニタリング)

そこで、特集ページPV数UU数滞在時間などを指標としてモニタリングすることにしました。

さらに、特集ページ閲覧後の無料会員数CVR(コンバージョンレート、無料会員登録率)も日々集計しモニタリングしました。もちろん、全体の無料会員数やCVR特集ページ非閲覧訪問者の無料会員数やCVRも日々集計しモニタリングしています。

1ヶ月モニタリングし分かったことは、特集ページが無料会員登録にかなり効いている、ということです。

無料会員登録する人は、記者の腕が発揮される特集ページを「いいかも」と思い登録したことが垣間見れます。

3.その仮説を堅固なものにするために積極的に介入しデータを取得し確かめる(例:ABテスト)

モニタリングし確かめることで十分かもしれませんが、さらに突っ込んだことを実施しました。ABテストです。

サイトの新規訪問者A群B群に分け、B群に振り分けられた人は特集ページへ遷移できなくしました。

  • A群:特集ページへ遷移できる
  • B群:特集ページへ遷移できない

要は、B群に振り分けられた訪問者は、特集ページを見ることができません

A群とB群の無料会員数やCVRなどを比較することで、特集ページの存在の有無が無料会員登録にどれだけ効いているのかが分かります。

ちなみに、結果は仮説通りでした。

今回のまとめ

今回は、「データによる仮説検証の3段階アプローチ」というお話しをしました。

仮説を立てて、データ検証する。既にある過去データ検証する方法と、これから新たにデータ取得検証する方法があります。

さらに、これから新たにデータ取得し検証する方法も、どうなるのかをモニタリングし確かめる方法と、ABテストで代表されるように積極的に介入しデータを取得し確かめる方法があります。

このように考えると、ざっくり3種類のデータによる仮説検証の方法があることになります。

この3種類のデータによる仮説検証には、実施する順番があります。

  1. 仮説に対し、既にある過去データで検証し確かめる(例:統計解析や探索的データ分析)
  2. その仮説が、今後とも成立するのかをデータを取得し続け確かめる(例:モニタリング)
  3. その仮説を堅固なものにするために積極的に介入しデータを取得し確かめる(例:ABテスト)

ちなみに、すべてを実施する必要はありませんし、いきなり新たにデータを取得し仮説検証しても構いません。

私の経験上から、この順番に進むケースが多い気がしています。