Rの1,800以上のサンプルデータをPythonで使う方法

Rの1,800以上のサンプルデータをPythonで使う方法

統計解析のフリーの分析ツールと言えば、Rです。

Rの中には、たくさんのサンプのデータセットがあります。

Pythonで使いたい! という方もいることでしょう。

Pythonの統計解析パッケージであるstatsmodels経由で利用することができます。

今回は、「Rの1,800以上のサンプルデータをPythonで使う方法」というお話しをします。

statsmodelsPythonにインストールされている前提でお話しを進めます。

どのようなRのサンプルデータが使えるの?

今現在(2022年6月8日現在)、Rの1,884個のデータセットが利用できます。以下のURLから見れます。

Available datasets
https://vincentarelbundock.github.io/Rdatasets/articles/data.html

 

上記のURLから、CSV形式のデータセットをダウンロードできます。もちろん、statsmodelsで直接Pythonの環境に読み込めます。

 

statsmodelsでRのサンプルデータを読み込む

statsmodelsを使い、Rのサンプルデータを読み込んでみます。

この2つの情報が必要になります。

  • Pakage
  • Item

構文は以下になります。

datasets.get_rdataset(Item, Pakage)

先程のAvailable datasetsのページからPakageItemの情報が分かります。Docからどのようなデータセットなの分かります。

 

では、必要なstatsmodelsの機能を読み込み、データセットを読み込みます。

  • Pakage:AER
  • Item:Affairs

以下、コードです。

import statsmodels.api as sm

dataset = sm.datasets.get_rdataset("Affairs", "AER")

dataset.data

 

以下、実行結果です。

 

まとめ

今回は、「Rの1,800以上のサンプルデータをPythonで使う方法」というお話しをしました。

サンプルデータに困った方は、ぜひ試してみてください。