前回は、Rを使いやすくするRStudioのインストール方法とパッケージのインストール方法も併せてご説明いたしました。
では、実際にどのようにRStudioを使いデータ分析を進めていくのでしょうか。
カチッと決められたルールのようなものはありませんが、私の経験上、RStudioでプロジェクトを構築しその中で分析を進めていきます。そして、プロジェクトを構築したら先ずすべきはデータの読み込みです。
今回は、RStudioでデータ分析を進めていくための準備として、RStudioでプロジェクトを構築する方法、データの読み込みなどについてご説明いたします。
Contents
プロジェクト構築
RStudioでは、「プロジェクト」という単位でデータ分析を実施します。
ちなみに、RはRStudioを通して操作するためRを直接操作して分析することはありません。
先ずは、RStudioの「プロジェクト」を構築するところから始めます。
RStudioを起動し、以下の図のように「File」の「New Project」をクリックします。
「New Project」をクリックすると、以下の図のような画面が表示されます。
新しいプロジェクトを構築するときは、基本「New Directory」を選択します。
「New Directory」をクリックすると、プロジェクトのタイプを選択する画面が表示されます。
「Empty Project」を選択します。
「Empty Project」をクリックすると、プロジェクト名を入力する「ダイアログボックス」が表示されます。
「Directory name」の欄に、プロジェクト名を入力し、右下の「Create Project」ボタンをクリックして完了です。
デフォルトでは、プロジェクトを構築する場所は「~/R」となっています。変更したい場合は、「Create project as subdirectory of」の欄を書き換えてください。
今回の例では、「Directory name」の欄に「test」(プロジェクト名)、「Create project as subdirectory of」の欄に「~/R」(つまり書き換えずそのまま)でプロジェクトを構築しています。
プロジェクトの構築が完成すると、「~/R」に「test」フォルダが作成され、以下の図のようになります。
今回の分析は、このプロジェクト上で進めていきます。
ちなみに、RStudioのプロジェクトを開くときは、「File」の「Open Project」をクリックし、プロジェクトを選択し開きます。
RStudioによるデータの読み込み
分析をするにはデータを読み込まなければなりません。簡単にExcelファイルの読み込み方を説明します。
RStudioのプロジェクト「test」のフォルダからExcelファイル「revenue_profit.xlsx」を読み込んでみます。
プロジェクト「test」のフォルダにExcelファイル「revenue_profit.xlsx」がある想定で話しを進めます。
データのダウンロードは、以下からお願いします。
↓↓↓
データダウンロード
RStudioを起動しプロジェクト「test」を開きます。
前回、プロジェクト「test」のまま終了した場合には、RStudioを起動するとプロジェクト「test」の状態で起動します。
Excelファイルのデータを読み込みには、RStudioの右上にある「Environment」の「Import Dataset」をクリックします。
いくつかのファイル形式を選択できるようになっているので、その中から「From Excel」をクリックし選択します。
Excelファイル以外では、csvファイルやSPSSファイル、SASファイル、Stataファイルなどが選択できます。
「From Excel」をクリックし選択すると、読み込むデータを指定する「ダイアログボックス」が表示されます。
「ダイアログボックス」の右上にある「Browse」ボタンをクリックし読み込むExcelファイルを選択します。
次に、「ダイアログボックス」の左下にある「Sheet」で読み込むデータのExcelシート名を指定し、「Name」でその読み込んだデータに名前を付けます。「ダイアログボックス」の真ん中に「読み込むデータ」の一部が表示されます。
例では、読み込むExcelファイルは「revenue_profit.xlsx」、読み込むデータのExcelシート名は「revenue-and-profit-rate」、読み込んだデータの名前は「data01」です。
読み込んだデータは、RStudio内では、「data01」という名前で使用します。
「ダイアログボックス」の右下にある「Import」ボタンをクリックすると、データを読み込みます。
読み込みが終了すると、以下の図のように、読み込んだデータである「data01」が「Enviroment」に表示されます。
この表示された「data01」をクリックすると、左上に「data01」のデータの内容の一部が表示されます。
これでExcelファイルからのデータの読み込みは完了です。
ちなみに、RStudioの左上のパネルにはRで実行する「命令文」を記入し、そのパネルの上にある「Run」ボタンを押すことで命令文が実行(Run)されます。RStudioの左下のパネルに実行結果が表示されます。
例えば、「data01」と記入し「Run」ボタンをクリックすると、「data01」の内容がそのままRStudioの左下のパネルに表示されます。
今回のまとめ
今回は、RStudioでデータ分析を進めていくための準備として、RStudioでプロジェクトを構築する方法、データの読み込みなどについてご説明いたしました。
データを読み込んだら、次にするのはデータ分析です。
しかし、データ分析と言っても、色々なデータ分析のやり方があります。何をすべきか迷うところです。
そして、多くのデータ分析系のプロジェクトでは、いきなり高度な分析に入るわけではありません。簡単な集計レベルの分析から始めることが多いでしょう。
次回は、RStudioで1変量の特徴(平均値・標準偏差など)を捉えるためのデータ分析の方法についてご説明いたします。