世の中の多くのデータには、時間という概念が紐づいた時系列データです。
時間の概念がないデータとして有名なのが、クロスセクションデータです。
例えば、ある時期に実施したアンケート調査などは、クロスセクションデータです。
同じアンケート調査を、毎月繰り返し、その時間的な変化を分析することを考えると、時系列データになります。同じ人に調査を繰り返した時系列データを、パネルデータなどと言ったりします。
クロスセクションデータに比べ、時系列データは情報量が豊富で、分析の幅も広がります。時間の概念を使えるからです。
しかし、時系列データをクロスセクションデータとして分析する人は、結構多いように思います。
今回は、「時系列データをクロスセクションデータとして分析する、もったいなさ」というお話しをします。
なぜ、クロスセクションデータとして分析するのか?
なぜ、時系列データをクロスセクションデータとして分析する、というもったいないことを、多くの人がするのでしょうか?
第一に挙げられるのは、「簡単だから」です。
クロスセクションデータであれば、時間軸という概念を排除できるので、データ分析の問題が簡単になります。
例えば、契約の継続・離反を予測するモデルを構築する時や、故障を予知するためのモデルを構築する時、時系列性を考えなければ、時系列性を考慮するばあに比べ、比較的簡単に構築することができます。
その代わり、多くの何を考慮しないことになります。
なぜ、まずいのか?
まずい理由として、一番最初に思いつくのが、予測対象である継続・離反や故障などのデータの、周期性やトレンドなどが考慮されないことです。
周期性とは、例えば季節性などです。
トレンドとは、上昇傾向や下降傾向といったものです。そういったものが、一切無視されます。
トレンドや周期性が何によってもたらされているのかを感がることは、将来を予測する上でも、過去を評価する上でも、重要でしょう。
ラグ性も考慮されない
次に思い浮かぶのは、ラグ性です。
1カ月前の何かが、次の月に何らかの形で影響を及ぼすことは、結構あります。ラグ性とはタイムラグのことです。
クロスセクションデータとして分析すると、このようなタイムラグを無視することになるでしょう。
時間的軸の要素が抜け落ちているからです。
構造変化も考慮されない
周期性やラグ性だけではありません。クロスセクションデータとして分析すると、構造変化を無視することにもなります。
ここでいう構造とは、データ間の相関構造(相関係数行列)のことです。
データ間の相関も、時間の変化とともに変化することがあります。この変化を分析に取り込むことは、非常に重要です。
例えば、故障予知を説明する要因として、構造変化が考えられたりするからです。
ある機械のセンサー間の相関関係に問題が生じ2時間後に故障する、などといったことが起こったりします。構造変化という要因を、故障予知の変数として使うことで、故障予知の精度が飛躍的に高まるということです。
このように、時系列データをクロスセクションデータとして分析すると、色々な不都合が生じます。
今回のまとめ
今回は、「時系列データをクロスセクションデータとして分析する、もったいなさ」というお話しをしました。
時系列データをクロスセクションデータとして分析する人は、結構多いようです。
恐らく「簡単だから」かと思います。
もちろん、深い意味があって、あえてクロスセクションデータとして分析する人もいるでしょうし、時系列データとして分析する前の事前分析として、クロスセクションデータとして分析する人もいるでしょう。
時系列データをクロスセクションデータとして分析するだけで、分析が止まってしまっては、非常にもったいないです。
トレンド性や周期性、ラグ性、構造変化などを、分析の土俵にあげないからです。
これらを考慮することによって、未来の予測する際の精度は向上しますし、過去に対する評価の精度も向上すうことでしょう。
もし、あなたが、「時系列データをクロスセクションデータとして分析する」というところで止まっていましたら、ぜひ「時系列データを時系列データとして分析する」ということへチャレンジしてみては、いかがでしょうか?
今まで以上の何を得ることができると思います。