データ分析や予測モデル構築などをやってみたいが……
- RやPythonだとの無料ツールはコーディングスキルがそれなりに必要になりハードルがある
- 有料ツールのSASやSPSSなどは使いやすそうだけど高額すぎる。
無料で使える使いやすさが有料級の分析ツールはないだろうか?
と言うことで、Radiantです。
Radiantは、ノーコードでビジネスデータ分析を可能にする無料で使える有料級Rパッケージです。
- その1:Radiantのインストール・起動・終了
- その2:Radiantのデータ読み込み
- その3:Radiantでデータ抽出(絞り込み)
- その4:RadiantでEDA(探索的データ分析)
- その4-1 グラフ作成 ⇒ 今回
- その4-2 ピボット集計
- その4-3 記述統計量
- その5:Radiantで予測モデル構築
前回は、その3の「Radiantでデータ抽出(絞り込み)」について簡単に説明しました。
今回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-1 グラフ作成」について簡単に説明します。
Contents
今回利用するデータセット
2種類のサンプルデータを使います。
- Radiantのサンプルデータである「diamonds」 ※テーブルデータ
- Rに最初から備わっているサンプルデータである「longley」 ※時系列データ
サンプルデータ「diamonds」
サンプルデータ「diamonds」は、最初からRadiantに備わっているため、特に準備は必要ありません。
以下は、データ項目です。
- price: price in US dollars
- carat: weight of the diamond
- clarity: measurement of how clear the diamond
- cut: quality of the cut
- color: diamond color
- depth: total depth percentage
- table: width of top of diamond relative to widest point
- x: length in mm
- y: width in mm
- z: depth in mm
サンプルデータ「longley」
サンプルデータ「longley」は、米国経済の時系列データです。
最初からRに備わっていますが、事前にRのワークスペースにロードしておく必要があります。
以下、コードです。
data(longley)
以下は、データ項目です。
- GNP.deflator:GNP implicit price deflator (1954=100)
- GNP: Gross National Product
- Unemployed: number of unemployed
- Armed.Forces: number of people in the armed forces
- Population:‘noninstitutionalized’ population ≥ 14 years of age
- Year: the year (time)
- Employed: number of people employed
取り急ぎRadiantを起動
以下、コードです。
# 必要パッケージのロード library(radiant) # radiantの起動 radiant()
サンプルデータの読み込み
サンプルデータ「longley」は、Rのワークスペースにロードしただけです。Radiant上では使えません。Radiant上で使うには、Rのワークスペースからデータを読み込む必要があります。非常に簡単です。
メニューバーにある「Data」をクリックし、「Manage」をクリックすると、データ読み込みや保存ができます。
「Load data of type」で、「from global workspace」を選択します。そうすると、Rのワークスペース上にあるオブジェクトの中で読み込めるデータセットが「Data.frames in Global Env」に表示されます。今回は、「longley」を選択します。最後に「Load」ボタンをクリックし読み込みます。Radiant上で扱うデータセットを切り替えるときには、左上の「Datasets」で切り替えます。
グラフ作成(Visualize)
データセットを読み込み眺めただけでは、どのようなデータなのか理解するのは難しいです。グラフで表現すると、データ理解が進みます。
Radiantのメニューにある「Visualize」ボタンをクリックすると、グラフ作成用の画面が現れ、様々なグラフを描くことができます。
例えば、以下のようなグラフを描くことができます。
- Distribution:ヒストグラム
- Density:密度推定
- Scatter:散布図
- Surface:ヒートマップ
- Line:折れ線グラフ
- Bar:棒グラフ
- Box-plot:ボックスプロット
その中のいくつかを作り方を、以下の順番で簡単に説明します
- サンプルデータ「diamonds」 ※テーブルデータ
- Bar:棒グラフ
- Distribution:ヒストグラム
- Density:密度推定
- Box-plot:ボックスプロット
- Scatter:散布図
- サンプルデータ「longley」 ※時系列データ
- Line:折れ線グラフ
棒グラフ
clarity別にpriceの平均値(mean)を棒グラフで表現してみます。左側の「Plot-type」で「Box」を選択し作ります。
ヒストグラム
clarity別にpriceの分布を、ヒストグラムで表現してみます。左側の「Plot-type」で「Distribution」を選択し作ります。
密度推定
clarity別にpriceの分布を、ヒストグラムで表現してみます。左側の「Plot-type」で「Density」を選択し作ります。
箱ひげ図
clarity別にpriceの分布を、ボックスプロットで表現してみます。左側の「Plot-type」で「Box-plot」を選択し作ります。
散布図
clarity別にpriceとcaratの関係性を散布図および回帰線で表現してみます。左側の「Plot-type」で「Scatter」を選択し作ります。
折れ線グラフ
今まではサンプルデータ「diamonds」使ってきました。折れ線グラフは時系列データである「longley」を使います。
左上の「Datasets」で、「longley」に切り替えます。
GDP、Population、Employedの時系列推移を表現するために、折れ線グラフで表現してみます。左側の「Plot-type」で「Line」を選択し棒グラフを作ります。「Y-variable」で折れ線グラフで表現する対象の時系列データ(例:GDP、Population、Employed)を指定し、「X-variable」で時間軸(例:Year)を指定します。
次回
今回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-1 グラフ作成」について簡単に説明しました。
- その1:Radiantのインストール・起動・終了
- その2:Radiantのデータ読み込み
- その3:Radiantでデータ抽出(絞り込み)
- その4:RadiantでEDA(探索的データ分析)
- その4-1 グラフ作成
- その4-2 ピボット集計 ⇒ 次回
- その4-3 記述統計量
- その5:Radiantで予測モデル構築
次回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-2 ピボット集計」について説明します。
ノンコードでビジネスデータ分析を可能にするRパッケージRadiantその4-2(RadiantでEDA – ピボット集計)