前回と前々回にベイズ推定について簡単に説明しました。 以下、前回の記事です。 以下、前々回の記事です。 通常の線形回帰モデルは、切片や係数、予測の値は1つです。 一方,ベイズ線形回帰モデルで得られるのは分布です。正確には...
統計解析のフリーの分析ツールと言えば、Rです。 Rの中には、たくさんのサンプのデータセットがあります。 Pythonで使いたい! という方もいることでしょう。 Pythonの統計解析パッケージであるstatsmodels...
ビジネスの世界では、売上やPV数などの時系列データがたくさんあります。 このような時系列データは、いつも完璧なコンディションで存在するわけではありません。 例えば、データの一部が欠損、つまり、欠測値の状態になっていること...
Jupyter NotebookでPythonを使うことはあるが、Rは使ったことはない、というPythonユーザも少なくないでしょう。 Jupyterは、Julia+Python+Rから作った造語であるとは有名な話しです...
データサイエンティストの利用する分析ツールと言えば、PythonとRです。 幸運なことに、両方には共通している部分も多いですが、中にはPythonにしか実装それていないパッケージや関数や機能、Rにしか実装されていないパッ...
何かと便利なベイズ推定、ビジネスの世界でも活用が進んでいます。 MCMCというアルゴリズムが手軽に利用できるなったことが、大きな要因の1つでしょう。MCMCとは、マルコフ連鎖を利用したモンテカルロシミュレーションです。手...
需要予測などで、特定の値(予測値が1つ)だけではなく、予測値の区間や分布が手に入った方が嬉しい場合があります。 区間だけであれば、従来の推定方法(最尤法など)で求めることはできます。95%信頼区間(予測区間)などです。 ...
実践的なデータサイエンスで、ちょくちょく出てくる確率分布が、二項分布とベータ分布です。 二項分布(Binomial Distribution)は、「成功率」の分かっている試行をn回行ったときの「成功回数」を確率変数とする...
多くの人にとって馴染みがあるのは、時系列データ系の数理モデル(アルゴリズム)よりも、テーブルデータ系の数理モデル(アルゴリズム)の方です。 例えば、以下の数理モデル(アルゴリズム)はテーブルデータ系のものです。 線形回帰...
Pythonの数値計算ライブラリーと言えば、NumPyやSciPyなどでしょう。 NumPyなどと異なり、数式そのものを記述するスタイルを取るライブラリーもあります。Theanoです。 https://theano-py...