分析用データ、どのような視点で分析するかで、データセットの呼び名というか、データ分析の名称が変わったりします。
その1つが、クロスセクション、タイムシリーズ(時系列)、そしてコーホートという名称です。
営業や販売のCRM系のデータ分析や、ECサイトのアクセスログ系のデータ分析、つまり、データが特定の誰かに紐づいているデータ分析の場合、大きくこの3種類の視点のデータ分析が可能になります。
あなたなら、どれを選びますか?
今回は、「営業や販売のCRM系のデータ分析って、どうしてもコーホート的になるよね……」というお話しです
Contents
2つのタイプに集約される
データの分類のやり方には、色々あります。
教科書的には、名義尺度だの間隔尺度だのの、尺度で論じるケースも少なくありません。さらに、数値データとテキストデータ、画像データなどの、データの保存状態によって分類するケースもあります。
データ分析の実務的にはどうでしょうか。
ざっくり、2つのタイプに分類されるかと思います。
定量データ(ニューメリカルデータ)と定性データ(カテゴリカルデータ)です。
どちらも数字で表現されます。
画像データはどこいった! という方もいますが、画像データでさえ処理するときには数字で表現します。
定量データ(ニューメリカルデータ)
定量データ(ニューメリカルデータ)とはどういったデータでしょうか。例えば以下のようなデータです。
- 気温、湿度、雨量、
- 身長、体重、BMI、
- 売上金額、受注件数、来店者数、
- GRP、出稿金額、製作費、
- 人件費、研修費、交通費、
- 接触回数、訪問回数、説明回数、
- 受注率、離反率、LTV、契約期間、
など
定量データ(ニューメリカルデータ)は、さらに2つのタイプに分かれます。
非カウントデータとカウントデータです。
カウントデータとは、1つ2つ3つとカウントされるデータで、非負の整数の値をとります。
定性データ(カテゴリカルデータ)
定性データ(カテゴリカルデータ)とはどういったデータでしょうか。例えば以下のようなデータです。
- 性別(1:男性、2:女性)
- エリア(1:北海道、2:青森、・・・)
- 購入意向(1:非常に買いたい、2:買いたい、・・・)
- 受注の有無(1:受注、0:失注)
- 顧客ランク(1:トライアル、2:レギュラー、3:ロイヤル)
など
定性データ(カテゴリカルデータ)は、さらに2つのタイプに分かれます。
非順序データと順序データです。
順序データとは、名称のとおり順序関係があるデータで、定量データ(ニューメリカルデータ)ではありません。
便宜的に、順序データを定量データ(ニューメリカルデータ)として扱い分析する場合もありすが…… (例えば、アンケートの程度を聞く質問の回答に対し因子分析するときなど)
データセット
データ分析用のデータは、多くの場合、定量データ(ニューメリカルデータ)と定性データ(カテゴリカルデータ)が混在しています。
この混在したデータをデータセットなどと言ったりします。パッと見は、Excelなどのスプレッドシートそのものです。
通常は、このように定量データと定性データが混在しているデータセットを分析していきます。
クロスセクションデータとタイムシリーズ(時系列)データ
分析用データであるデータセットに対し、どのような視点で分析するのかで、分析手法の選び方と幅が異なります。
例えば、クロスセクションとタイムシリーズ(時系列)という視点があります。
クロスセクションデータは時系列の概念を取り払ったものとも言えます。
例えば、上記の場合、2017年1月~2017年7月のデータをすべて一緒くたに扱えば(時間という概念を無視)、それもクロスセクションになります。
コーホートデータ
タイムシリーズ(時系列)をさらに一歩進めて、コーホートという視点の分析もあります。
単なる「時間」(例:2017年1月、2017年2月、…)という概念だけでなく、「時間の経過」(例:営業開始0カ月、1カ月、…)という視点も加えたものです。
クロスセクションと比べると、複雑な感じがしてきますが、こちらのほうが、分析の幅が広がっているのが分かるかと思います。
分析の面倒度
では、分析するとき、どの視点の分析が一番面倒でしょうか。
それは、コーホートです。
なので、手始めに分析するときは、クロスセクションデータとして分析するほうが楽でしょう。実際そうしたほうがいいと思います。
しかし、時間的な要素(季節性や営業開始からの履歴など)が抜け落ちるため……
「クロスセクション」→「タイムシリーズ(時系列)」→「コーホート」
……という順番に、分析の視点を変えていくと良いと思います。
受注予測モデルの簡単な例で説明します
受注予測モデルの簡単な例を使って、「クロスセクション」→「タイムシリーズ(時系列)」→「コーホート」の例を示します。
クロスセクションデータの受注予測モデル例
タイムシリーズ(時系列)データの受注予測モデル例
コーホートデータの受注予測モデル例
どのもモデルが一番いいでしょうか。
恐らくコーホートデータを活用した受注予測モデルが一番よさそうだと感じた方が多いと思います。
とは、言え、いきなりコーホート視点で分析を始めると大変なので、最初はクロスセクション的な視点で分析をして、次にタイムシリーズ(時系列)視点を加え、そしてコーホート視点の分析をすると良いと思います。
今回のまとめ
今回は、「営業や販売のCRM系のデータ分析って、どうしてもコーホート的になるよね……」というお話しをしました。
クロスセクション、タイムシリーズ(時系列)、コーホートという分析上の視点があります。分析用データであるデータセットの作りも、若干異なってきます。
クロスセクションデータは時系列の概念を取り払ったもので、タイムシリーズ(時系列)はその名の通り時系列の概念(例:2017年1月、2017年2月、…)を考慮したものです。
さらに一歩進めて、コーホートという視点の分析もあります。
こちらは、単なる「時間」(例:2017年1月、2017年2月、…)という概念だけでなく、「時間の経過」(例:営業開始0カ月、1カ月、…)という視点も加えたものです。
一番分析しやすいのが、クロスセクション。一番面倒なのが、コーホートです。しかし、コーホートは、クロスセクションと比べると、かなり分析の幅が広がります。
分析の順番としては、「クロスセクション的な分析」→「タイムシリーズ(時系列)的な分析」→「コーホート的な分析」の順番がいいでしょう。