前回は、RStudioで1変量の特徴(平均値・標準偏差など)を捉えるためのデータ分析の方法についてご説明いたしました。
1変量の特徴(平均値・標準偏差など)を把握したら、次にするのは変量間の関係の把握です。
変量間の把握で基礎となるのが、2変量の関係(散布図・相関係数など)の把握です。
今回は、RStudioで2変量の関係(散布図・相関係数など)を捉えるためのデータ分析の方法についてご説明いたします。
サンプルデータ(前回、前々回と同じデータです)
サンプルデータとして前々回読み込んだデータセット「data01」を使います。まだデータセット「data01」を読み込んでいない方は、前々回の記事を参考にRStudioにデータを読み込んで頂ければと思います。
データセット「data01」のダウンロードは、以下からお願いします。
↓↓↓
データダウンロード
相関係数
相関係数は、2つのデータ間の直線的な関係性の強さを表す指標です。
例えば、夏に気温が高いほど炭酸飲料の売上が上がるという関係があれば、「『気温』と『炭酸飲料の売上』には相関がある」と言います。雨量が多い日ほど店舗の売上が下がれる関係があれば、「『雨量』と『店舗の売上』には相関がある」と言います。
このような2つのデータ間の関係の強さがどの程度あるのか? ということに対する指標の1つが相関係数です。
相関係数は、-1以上1以下の間の数値をとり、0に近いほど相関が弱く、-1もしくは1に近いほど相関が強いと言います。
- 相関係数0:無相関
- 相関係数1:正の相関(例:「気温」と「炭酸飲料の売上」)
- 相関係数-1:負の相関(例:「雨量」と「店舗の売上」)
散布図を描くことで、相関係数の大きさを目で確かめることができます。
では、「data01」の「revenue」(2列目のデータ)と「profit rate」(3列目のデータ)で散布図を描き、さらに相関係数を計算していきます。
散布図を描く
散布図を描く命令文は「plot()」です。
RStudioの左上のウィンドウ・ペインに次のような命令文を記入し「Run」ボタンをクリックすると、RStudioの右下のウィンドウ・ペインの「Plots」に、散布図が描画されます。
plot(data01[,2],data01[,3])
このままでは分かりにくいので、散布図にタイトルなどを一緒に描画するとよいでしょう。以下のように「plot()」の命令文を書き換えます。
plot( data01[,2], data01[,3], main='売上(横軸)と利益率(縦軸)の散布図', xlab='売上', ylab='利益率' )
「main」は散布図のタイトル、「xlab」は横軸のラベル、「ylab」は縦軸のラベルです。
「Run」ボタンを押し実行(Run)すると、次にような散布図が描かれます。
描写した散布図を保存するときは、描写した図の上にある「Export」をクリックし保存形式を選択し保存します。
散布図を見る限り、売上(取引額)が大きいほど利益率が悪い傾向が見て取れます。
負の相関がありあそうです。実際に相関係数を計算してみましょう。
相関係数を計算してみましょう
相関係数を計算する命令文は「cor()」です。
RStudioの左上のウィンドウ・ペインに次にような命令文を記入し「Run」ボタンをクリックすると、RStudioの左下のパネルに相関係数が出力されます。
cor(data01[,2],data01[,3])
出力結果を見ると、相関係数は「-0.7637456」と負の相関になっています。
つまり、売上(取引額)の大きい顧客ほど利益率の悪い取引をしていることが分かります。
今回のまとめ
今回は、RStudioで2変量の関係(散布図・相関係数など)を捉えるためのデータ分析の方法についてご説明いたしました。
変量間の把握で基礎となるのが、2変量の関係(散布図・相関係数など)の把握です。
今回までは、RStudioの操作に慣れるためのものでした。
次回は、RStudioに限らない「Rの基本操作」についてご説明いたします。もちろん、RStudioは使いますが。