最適化問題は、マーケティング予算配分の最適化、配送ルートの最適化、スケジュール最適化など、何かを最適化する問題を扱うものです。 最適化問題には、登場する数式や最適解の条件などによって、線形計画問題や非線形計画問題、混合整...
時系列データには複数の季節性を持つ場合があります。 例えば、日単位の時系列データであれば週周期と年周期、時単位の時系列データであれば日周期と週周期などです。 時系列データでよく利用されるモデルは、ARIMA系のモデルです...
データ活用を考えたとき、先ずはデータ活用する「現場のお困りごと」を考えるべきです。 しかし、「データのお困りごと」から入ってしまうケースが多々あります。 「データのお困りごと」とは、データが足りない、データが汚い、データ...
VAR(Vector Autoregressive、ベクトル自己回帰)モデルとは、ARモデル(自己回帰モデル)の多変量版です。 VARモデルで、時系列の変数Xと変数Yの間の関係性を検討することができます。 例えば…… グ...
時系列データを分析するとき、時系列データの性質を知るために自己相関と相互相関を求めたりします。 自己相関と相互相関は、通常の数理統計学で登場する相関係数を、単に時系列データに応用したもので、2つの時系列データの類似性を表...
集計や分析、予測の結果をダッシュボードやレポートなどとして、データ活用する現場に提供することがあります。 どのようなダッシュボードやレポートを作ればいいのか? そう悩む人も多いことでしょう。 今回は、「データサイエンスレ...
ビジネスの世界では、売上やPV数などの時系列データがたくさんあります。このような時系列データは、いつも完璧なコンディションで存在するわけではありません。 例えば、データの一部が欠損、つまり、欠測値の状態になっていることが...
Pythonユーザの中には、Jupyter上でPythonを使う方も多いことでしょう。 Pythonを使いながらRの便利な関数を利用したい、そう思われる方も多いことでしょう。 Jupyter上でPythonを使いながら、...
データサイエンス系プロジェクトを成功裏に納めるためには、人の成長やチーム構成なども重要ですが、連携も重要です(当たり前といえば、当たり前ですが……)。 そこで、どう育成するのか、どうチーム構成するのか、ではなく、チームが...
売上などの時系列データには、周期性があります。周期性の中で、期間の決まっているものを季節性と言ったりします。 例えば、1日単位の売上データであれば週周期(7日間)や年周期(365.25日間)、1時間単位の気温データであれ...
前回と前々回にベイズ推定について簡単に説明しました。 以下、前回の記事です。 以下、前々回の記事です。 通常の線形回帰モデルは、切片や係数、予測の値は1つです。 一方,ベイズ線形回帰モデルで得られるのは分布です。正確には...
統計解析のフリーの分析ツールと言えば、Rです。 Rの中には、たくさんのサンプのデータセットがあります。 Pythonで使いたい! という方もいることでしょう。 Pythonの統計解析パッケージであるstatsmodels...
異常とは、標準的な挙動から著しく逸脱した稀なデータのことである。 時系列の多くの異常値は、ある特定の時点における顕著なスパイクや、ある特定の期間だけ傾向が大きく異なるとかです。 そして、異常データの多くは、どのデータが異...
ビジネスの世界では、売上やPV数などの時系列データがたくさんあります。 このような時系列データは、いつも完璧なコンディションで存在するわけではありません。 例えば、データの一部が欠損、つまり、欠測値の状態になっていること...
Jupyter NotebookでPythonを使うことはあるが、Rは使ったことはない、というPythonユーザも少なくないでしょう。 Jupyterは、Julia+Python+Rから作った造語であるとは有名な話しです...
データサイエンティストの利用する分析ツールと言えば、PythonとRです。 幸運なことに、両方には共通している部分も多いですが、中にはPythonにしか実装それていないパッケージや関数や機能、Rにしか実装されていないパッ...