PythonのNumPyやPandas、Scikit-Learn(sklearn)で扱えないぐらいビッグなデータならDaskです。 Pythonでデータ分析をするとき、NumPyやPandas、Scikit-Learn(...
予測モデルなどを構築するとき、パイプライン化することがあります。 もちろん、探索的なデータ分析でも、パイプラインを使いながら実施することもあります。 例えば、Rなどでは伝統的に、パイプラインを使いながら探索データ分析をし...
時系列データを手にしたとき、どのようなデータなのか外れ値や変化点を眺めるのもいいですが、やっぱり予測をしたくなります。 時系列解析のモデルと聞くと難しそうなイメージがあるますが、正直イメージ通りです。 そのような中、あま...
ビジネスの世界のデータの多くは、時間軸のあるデータである時系列データです。 この時系列データは、一定ではありません。上昇トレンドがあったかと思えば、下降トレンドになったりします。 要は、構造変化します。 時系列データを手...
ビジネス上のデータを眺めてみれば、時間という概念が紐づいた時系列データであるケースが多いです。 多くの時系列データは、上昇傾向や下降傾向といったトレンドや、夏に上がり冬に下がる、週末に上がり平日に下がるといった一定の周期...
幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。 時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります...
データを手にしたとき、データの理解のために、とりあえずデータを集計してみるということは多いです。 かっこよく言うと「探索的データ分析」(Exploratory data analysis)の1つです。 なんだかんだ言って...
データを手にしたとき、とりあえずデータを集計してみる、という業務はよく発生します。 データ集計ツールは世の中にたくさんあります。その中で手軽に集計するなら、Excelのピボットテーブルなどでしょう。 Excelのピボット...