ビジネスでデータ活用をするとき、何かを予測をするために、数理統計学や機械学習などの数理モデル(分類問題・回帰問題)を構築することは、少なくありません。 例えば…… 売上予測 受注予測 離反予測 アップセル予測 クロスセル...
データセット手にしたら、数理モデルを作ったりする前に、通常はEDA(探索的データ分析)を実施します。 端的に言うと、データと仲良くなるための会話です。 ざっくり次のような流れになります。 データコンディションチェック(欠...
Google Colaboratoryは、ブラウザから Python や R を実行できるサービスです。Jupyter Notebook のように使えます。 何も考えずにGoogle Colaboratory上でノートブ...
「第222話|パレート指数による売上分析」でパレート分布についてお話ししました。 ビジネスはパレートな世界の住人でしょう。 例えば…… チェーン店であれば、極端に売上の大きい店舗はあります 営業パーソンであれば、極端に受...
ビジネス系データサイエンスの多くは、時系列データです。 RのTSstudioパッケージを使うと、サクッと時系列解析できます。「TSstudio」の「TS」はTime Series(時系列)の略です。 RのTSstudio...
発展途上ではありますが、個人的に注目している時系列解析のライブラリーがあります。Sktimeというライブラリーです。 名前から想像できる通り、Pythonの有名な機械学習ライブラリーScikit-learn(sklear...
Jupyter Notebook(IPython notebook)でライブラリー「matplotlib」を使いグラフ表示する人は多いと思います。 matplotlibを使いグラフ表示と言っても、幾つかのやり方があります...
PythonのNumPyやPandas、Scikit-Learn(sklearn)で扱えないぐらいビッグなデータならDaskです。 Pythonでデータ分析をするとき、NumPyやPandas、Scikit-Learn(...
予測モデルなどを構築するとき、パイプライン化することがあります。 もちろん、探索的なデータ分析でも、パイプラインを使いながら実施することもあります。 例えば、Rなどでは伝統的に、パイプラインを使いながら探索データ分析をし...
時系列データを手にしたとき、どのようなデータなのか外れ値や変化点を眺めるのもいいですが、やっぱり予測をしたくなります。 時系列解析のモデルと聞くと難しそうなイメージがあるますが、正直イメージ通りです。 そのような中、あま...