Pythonでデータ分析をするとき、Pandasを使わない人はいないぐらいです。 Pandasの幾つかの機能を高速化するライブラリーがあります。 計算処理を並列化するPandaralellです。 ただ、すべての処理が高速...
データ分析を実施するとき、必ずと言っていいほど実施するのが、EDA(探索的データ分析)です。 Pythonだと、Pandasを使いEDAを実施する人も、多いのではないでしょうか。しかし、PythonでEDAを実施する場合...
ビジネス系のデータ分析には、時間という概念が付いて回ることが多いです。 必ずというわけではありませんが、場合によっては「時間」に関する情報を使用することもあるでしょう。 Pythonですと、datetimeモジュールを利...
データ分析・活用(データサイエンス実践)するとき、いつまでも手作業ベースで分析結果や予測結果を、データ分析者やデータサイエンティストなどが提供し続けるのは困難です。 そのため、データ活用の現場でも使えるように、何かしらツ...
Rを使いデータ分析やモデル構築などをするとき、RStudioを使うケースは多いでしょう。 最近、RStudio上でPythonを使うことができるようになっています。 RStudio上で、RとPythonでダイレクトにやり...
ビジネスでデータ活用をするとき、何かを予測をするために、数理統計学や機械学習などの数理モデル(分類問題・回帰問題)を構築することは、少なくありません。 例えば…… 売上予測 受注予測 離反予測 アップセル予測 クロスセル...
データセット手にしたら、数理モデルを作ったりする前に、通常はEDA(探索的データ分析)を実施します。 端的に言うと、データと仲良くなるための会話です。 ざっくり次のような流れになります。 データコンディションチェック(欠...
Google Colaboratoryは、ブラウザから Python や R を実行できるサービスです。Jupyter Notebook のように使えます。 何も考えずにGoogle Colaboratory上でノートブ...
「第222話|パレート指数による売上分析」でパレート分布についてお話ししました。 ビジネスはパレートな世界の住人でしょう。 例えば…… チェーン店であれば、極端に売上の大きい店舗はあります 営業パーソンであれば、極端に受...
ビジネス系データサイエンスの多くは、時系列データです。 RのTSstudioパッケージを使うと、サクッと時系列解析できます。「TSstudio」の「TS」はTime Series(時系列)の略です。 RのTSstudio...