データ分析・活用(データサイエンス実践)するとき、いつまでも手作業ベースで分析結果や予測結果を、データ分析者やデータサイエンティストなどが提供し続けるのは困難です。 そのため、データ活用の現場でも使えるように、何かしらツ...
Rを使いデータ分析やモデル構築などをするとき、RStudioを使うケースは多いでしょう。 最近、RStudio上でPythonを使うことができるようになっています。 RStudio上で、RとPythonでダイレクトにやり...
ビジネスでデータ活用をするとき、何かを予測をするために、数理統計学や機械学習などの数理モデル(分類問題・回帰問題)を構築することは、少なくありません。 例えば…… 売上予測 受注予測 離反予測 アップセル予測 クロスセル...
データセット手にしたら、数理モデルを作ったりする前に、通常はEDA(探索的データ分析)を実施します。 端的に言うと、データと仲良くなるための会話です。 ざっくり次のような流れになります。 データコンディションチェック(欠...
Google Colaboratoryは、ブラウザから Python や R を実行できるサービスです。Jupyter Notebook のように使えます。 何も考えずにGoogle Colaboratory上でノートブ...
「第222話|パレート指数による売上分析」でパレート分布についてお話ししました。 ビジネスはパレートな世界の住人でしょう。 例えば…… チェーン店であれば、極端に売上の大きい店舗はあります 営業パーソンであれば、極端に受...
ビジネス系データサイエンスの多くは、時系列データです。 RのTSstudioパッケージを使うと、サクッと時系列解析できます。「TSstudio」の「TS」はTime Series(時系列)の略です。 RのTSstudio...
発展途上ではありますが、個人的に注目している時系列解析のライブラリーがあります。Sktimeというライブラリーです。 名前から想像できる通り、Pythonの有名な機械学習ライブラリーScikit-learn(sklear...
Jupyter Notebook(IPython notebook)でライブラリー「matplotlib」を使いグラフ表示する人は多いと思います。 matplotlibを使いグラフ表示と言っても、幾つかのやり方があります...
PythonのNumPyやPandas、Scikit-Learn(sklearn)で扱えないぐらいビッグなデータならDaskです。 Pythonでデータ分析をするとき、NumPyやPandas、Scikit-Learn(...