統計解析のフリーの分析ツールと言えば、Rです。
Rの中には、たくさんのサンプのデータセットがあります。
Pythonで使いたい! という方もいることでしょう。
Pythonの統計解析パッケージであるstatsmodels経由で利用することができます。
今回は、「Rの1,800以上のサンプルデータをPythonで使う方法」というお話しをします。
statsmodelsがPythonにインストールされている前提でお話しを進めます。
どのようなRのサンプルデータが使えるの?
今現在(2022年6月8日現在)、Rの1,884個のデータセットが利用できます。以下のURLから見れます。
Available datasets
https://vincentarelbundock.github.io/Rdatasets/articles/data.html
上記のURLから、CSV形式のデータセットをダウンロードできます。もちろん、statsmodelsで直接Pythonの環境に読み込めます。
statsmodelsでRのサンプルデータを読み込む
statsmodelsを使い、Rのサンプルデータを読み込んでみます。
この2つの情報が必要になります。
- Pakage
- Item
構文は以下になります。
datasets.get_rdataset(Item, Pakage)
先程のAvailable datasetsのページからPakageとItemの情報が分かります。Docからどのようなデータセットなの分かります。
では、必要なstatsmodelsの機能を読み込み、データセットを読み込みます。
- Pakage:AER
- Item:Affairs
以下、コードです。
import statsmodels.api as sm dataset = sm.datasets.get_rdataset("Affairs", "AER") dataset.data
以下、実行結果です。
まとめ
今回は、「Rの1,800以上のサンプルデータをPythonで使う方法」というお話しをしました。
サンプルデータに困った方は、ぜひ試してみてください。