蓄積され続けてはいるけど、人手にあまり触れられていないデータの中には、データの粒度がバラバラなケースが多々あります。
そのようなデータを相手に集計や分析をするとき、非常に苦労します。
ちなみに、データの粒度とは、文字通りデータの細かさの程度です。
分かりやすいところでは、時間やカテゴリー、エリアなどです。
例えば、時間ですと……
- ミリ秒単位(0.001秒)のデータ
- 秒単位のデータ
- 分単位のデータ
- 時間単位のデータ
- 日単位のデータ
- 週単位のデータ
- 月単位のデータ
- 四半期単位(3ヵ月)のデータ
- 年単位のデータ
……などです。
時間の粒度がバラバラとは、あるデータは日単位で、あるデータは月単位であるということです。
例えば、カテゴリーですと……
- 大カテゴリー別のデータ
- 中カテゴリ―別のデータ
- 小カテゴリー別のデータ
- 詳細カテゴリー別のデータ
- SKU別のデータ
……などです。
カテゴリーの粒度がバラバラとは、エリアや時期によってデータとして蓄積されているカテゴリーが異なったり(ある時期は大カテゴリーまでのデータしかない、など)、カテゴリーの分け方(考え方)が異なるということです。
例えば、エリアですと……
- 国・地域別(国内・北米・欧州など)のデータ
- 中カテゴリ―のデータ
- 小カテゴリーのデータ
- 詳細カテゴリーのデータ
……などです。
エリアの粒度がバラバラとは、時期やカテゴリーによってデータの蓄積されているエリアが異なったり(大カテゴリーのデータはどのエリアにもあるがSKU単位のデータは国内のみ、など)、エリアの分け方(考え方)が異なるということです。
今回は、「データの粒度はより細かく、なぜならばデータ分析は最終的かつ不可逆的だから」というお話しをします。
加工は、対外は「不可逆的」
不可逆的とは、加工する(手を加える)と元に戻せない性質のことを意味します。
例えば、工場でモノを生産するとき、機械などで加工しますが、一度材料などに手を加えると元の状態に戻すことができなくなります。
例えば、台所で料理をするとき、切ったり煮たり焼いたり蒸したりしますが、一度食材などに手を加えると元の状態に戻すことができなくなります。
データの集計や分析なども同じです。
粗い粒度を細かくできない
1日単位のデータを、1ヵ月単位に集計するなど、細かい粒度のデータを粗くすることは可能です。
しかし、逆は非常に難しくなります。
実際に、1ヵ月単位のデータを、1日単位のデータにすることは、非常に無理があります。
要するに、粗い粒度を細かくできないのです。
モデルを構築したとき使用した学習データは、モデルからは分からない
データ分析・活用をビジネスで実施しようとするとき、異常検知や予測モデルなどの数理モデルを構築することはあります。
異常検知や予測モデルなどの数理モデルを構築するためには、モデルを構築するためのデータが必要になります。
そのようなデータを、学習データと言います。
当然ですが、モデルを構築したとき使用した学習データは、モデルからは分かりません。
覆水盆に返らず
データ分析も最終的かつ不可逆的なため、後から粒度を粗いデータを細かくできないし、構築されたモデルから学習データを作ることはできません。
要するに、「覆水盆に返らず」です。
もし、データの粒度が粗い状態で蓄積されていたら最終的かつ不可逆的と諦め、その範囲でどうにかし、データ分析・活用をしなければなりません。
もし、ブラックボックス化された異常検知や予測モデルなどの数理モデルを使うのならば最終的かつ不可逆的と諦め、ブラックボックス化された状態でデータ分析・活用をしなければなりません。
取り返しがつかない、ということです。
取り返しがつかないことで、「あーだ、こーだ」と悩んでも仕方がないので、その現状でどうにかする必要があります。
さらに、今後「あーだ、こーだ」と悩まないように、データ分析も最終的かつ不可逆的であることを前提に、データ分析・活用を考えていく必要はあります。
データの粒度はより細かく蓄積しておこう
可能ならば、データの粒度はより細かく蓄積しておいたほうがいいでしょう。
今不必要な粒度でも、将来必要な粒度になることはあります。
また、利用している数理モデルを構築したときの学習データなども、残しておきましょう。そのとき、学習データだけでなく、どのように学習させたかという条件設定や、そこに至るまでのフローなども残しておいたほうがいいです。
残念なことに、数理モデルを構築したときの学習データと思われるもので、数理モデルを再構築したのに再現できない、ということがたまにあります。
今回のまとめ
今回は、「データの粒度はより細かく、なぜならばデータ分析は最終的かつ不可逆的だから」というお話しをしました。
それなりのデータ分析をしたことのないデータの場合、データの粒度がバラバラで苦労することがあります。
データの粒度とは、文字通りデータの細かさの程度です。
分かりやすいところでは、時間やカテゴリー、エリアなどです。
例えば、1日単位のデータを、1ヵ月単位に集計するなど、細かい粒度のデータを粗くすることは可能です。
データ分析は最終的かつ不可逆的なため、集計したものや構築したモデルから元データを得ることはできません。
実際に、1ヵ月単位のデータを、1日単位のデータにすることは、非常に無理があります。
もし、データの粒度が粗い状態で蓄積されていたら最終的かつ不可逆的と諦め、その範囲でどうにかし、データ分析・活用をしなければなりません。
もし、ブラックボックス化された異常検知や予測モデルなどの数理モデルを使うのならば最終的かつ不可逆的と諦め、ブラックボックス化された状態でデータ分析・活用をしなければなりません。
取り返しがつかないことで、「あーだ、こーだ」と悩んでも仕方がないので、その現状でどうにかする必要があります。
さらに、今後「あーだ、こーだ」と悩まないように、データ分析も最終的かつ不可逆的であることを前提に、データ分析・活用を考えていく必要があります。
可能ならば、データの粒度はより細かく蓄積しておいたほうがいいでしょう。