時系列(time series)データと混同されやすいデータがあります。
点過程(point process)データです。
点過程時系列データと呼ぶこともあり、通常の時系列データと混同されることも多々あります。
そもそも時系列データとは何で、そして点過程データとは何なのかを知れば、混同することはあまりないでしょう。
ということで、今回は「点過程データと時系列データ」というお話しをします。
時系列データとは
時系列データとは、ある時間間隔で観測した結果のデータです。
例えば、月ごとの受注件数、1日ごとの売上の合計、1時間ごとの平均気温などです。
ざっくり特徴として……
- ある時間間隔が設定されている
- その時間間隔で集計されている
……が挙げられます。
年月 | A18の受注件数 | B24の受注件数 |
2021年1月 | 231 | 37 |
2021年2月 | 145 | 14 |
2021年3月 | 457 | 43 |
2021年4月 | 36 | 34 |
2021年5月 | 267 | 65 |
では、点過程データはどのようなデータでしょうか?
点過程データとは
点過程データとは、簡単に言うと、事象の発生を、発生した時刻とともに記録したデータです。
例えば、受注発生とその時刻、営業訪問とその時刻、解約の申込みとその時刻、バナー広告のクッリクとその時刻、故障の発生とその時刻などです。
受注番号 | 受注日 | 受注商材 |
893489748971 | 2021年3月1日 | A18 |
589179874788 | 2021年3月4日 | A18 |
102648371234 | 2021年3月9日 | B24 |
700263582673 | 2021年3月11日 | A18 |
783273919843 | 2021年3月17日 | B24 |
なんとなく違いが見えてきたのではないでしょう。
点過程データから時系列データを作る
例えば、受注を記録した受注履歴データは点過程データです。
その受注履歴データを、週単位や月単位、四半期単位などで集計した受注件数データは、時系列データです。
このように、時系列データの元データが点過程データであるケースが多々あります。
点過程データを手にし分析するとき、分析対象のデータの状態として2パターンが考えられます。
- 点過程データから時系列データを作り、時系列データに対しデータ分析を実施する
- 点過程データそのものに対しデータ分析を実施する
実務的には、前者の「点過程データから時系列データを作り、時系列データに対しデータ分析を実施する」のが主流です。
多くは点過程データとして記録されている
先程の受注履歴の例のように、多くの時系列なデータは、点過程データとして記録されています。
そのため、点過程データとして記録されているデータを目の前にしたとき、「このデータを使って、どのように時系列データ分析をすればいいのか?」と、面食らう方も少なくありません。
点過程データをそのまま分析するのではなく、点過程データを集計し時系列データにしてからデータ分析をすることが多い、という事実を知っていれば、面食らう可能性が少し低くなることでしょう。
問題は、どうやって点過程データを集計し時系列データにするのか、という点かと思います。
どうやって点過程データを集計し時系列データにするのか
どのような時系列データが必要なのかは、どのようなデータ活用したいのかと密接に関係しています。
例えば、月単位の売上予測をしたいのなら、元の受注履歴データなどを月単位で売上高や売上個数などを合計し、時系列データを作ることになります。
例えば、購買間隔を分析したい場合には、この時系列データ(月単位の売上高や売上個数)は使えません。購買間隔の分析に適した時系列データを作る必要があります。
今回のまとめ
今回は「点過程データと時系列データ」というお話しをしました。
時系列(time series)データと混同されやすいデータがあります。点過程(point process)データです。
時系列データとは、ある時間間隔で観測した結果のデータです。例えば、月ごとの受注件数、1日ごとの売上の合計、1時間ごとの平均気温などです。
点過程データとは、簡単に言うと、事象の発生を、発生した時刻とともに記録したデータです。例えば、受注発生とその時刻、営業訪問とその時刻、解約の申込みとその時刻、バナー広告のクッリクとその時刻、故障の発生とその時刻などです。
多くの時系列なデータは、点過程データとして記録され、多くの点過程データをそのまま分析するのは少ないでしょう。
多くは、点過程データから時系列データを作り、時系列データに対しデータ分析を実施するのが主流です。