データ分析・活用に慣れていない方にお勧めなのが、QC7つ道具です。
- チェックシート
- ヒストグラム
- 管理図
- 散布図
- パレート図
- 特性要因図
- 層別
前回は、7つの内「ヒストグラム」と「管理図」について、概要を説明しました。
ヒストグラムとは横軸に階級、縦軸に度数をとった縦棒グラフで、データの分布を視覚的に捉えることができます。管理図とは、ひと言で言うと時系列の折れ線グラフです。売上や受注件数などの重要な指標の推移などをモニタリングするために利用します。どちらも、簡単な異常検知で利用できます。
この2つに共通して言うのが、1変量(1つの定量データ)に対し実施する道具だということです。
7つ道具の中に、2変量(2つの定量データ)同志の関係を見る道具があります。
今回は、2変量(2つの定量データ)同志の関係を見る道具である「散布図」について、お話しします。
Contents
1つの定量データの特徴を把握した次にすべきこと
ヒストグラムと管理図は、1つの売上や受注金額などの定量データの特徴を把握するものでした。
1つの定量データの特徴を把握したら、定量データ間の関係性が気になります。
例えば……
- 客単価の高い店舗は、来店客数も多いのだろうか?
- 来店客数と関係があるのは、何であろうか?
……という感じです。
客単価の店舗は来店客数も多いのかもしれませんし、そうでないかもしれません。
来店客数に影響するのは、降水量かもしれませんし、新聞の折り込みチラシの量かもしれません。
1つの定量データの特徴を把握した次にすべきは、定量データ間の関係性の分析です。
2つの定量データの関係は、ベタに散布図で把握する
定量データ間の関係性の分析で利用するのが、散布図です。
誰もが一度は、使ったことや見たことはあることでしょう。
よくある使い方が……
- 先ず、ヒストグラムや管理図などで1つの定量データの特徴を把握
- その後、散布図で2つの定量データの関係を把握
……という使い方です。
相関係数
散布図を描くとき、併せて相関係数などの統計学的な指標を計算します。
相関係数は-1から+1の間の数値をとります。
- +1に近いほど「正の相関関係がある」(一方が増加すると他方も増加する傾向にある場合)
- -1に近いほど「負の相関関係がある」(一方が増加しているにもかかわらず他方が減少する傾向にある場合)
- 0は無相関(正の相関関係も負の相関関係もない)
相関関係は、あくまでもデータ上の関係にすぎない
相関関係は、あくまでもデータ上の関係(厳密には線形的な関係)です。
このような関係性が本当にあるのかは分かりません。
そもそも因果関係ではありません。
データからこのような関係が読み取れるということに過ぎません。
現場に詳しい人などと一緒に眺め解釈しよう!
相関関係は、あくまでもデータ上の関係にすぎないため、どうなっているのかを解釈するには、現場の知見が必要です。
そのため、現場に詳しい人などと一緒に、散布図や相関係数などを眺めながら、どのようなことが言えそうなのかを議論する必要がでてきます。
議論の結果、現実に起こっている現象がデータに現れたものなのか、因果関係と言っても差し支えないものなのかが、見えてきます。
もし、現実世界を反映したものなのであれば、その現実世界の一部をデータで表現できたことになります。
要因分析
散布図や相関係数などの2つ(もしくは、2つ以上)のデータの関係性を分析する手法を使い、要因分析を実施することができます。
例えば……
- 〇〇というアクションをしたら〇〇という結果になった
- 〇〇が起きると〇〇という結果になる
……とか、因果関係のようなものを、散布図や相関係数などから考えていきます。
先ほど相関係数のところでお話ししたように、データだけで行う分析からは因果関係かどうかは分かりません。
因果関係どころか、そのような現象が本当に起こっているのかどう怪しいものです。
へんてこな例
例えば、年収と50m走のタイムは正の相関があると言われています。
50m走のタイムが遅い(数値が大きい)ほど年収が高い(数値が大きい)のです。
明らかに違和感があります。
実は、年収と年齢が正の相関(年齢が高いほど年収が多い)をしていて、さらに50m走と年齢が正の相関(年齢が高いほど50m走のタイムが遅い)をしているがために、年収と50m走のタイムに正の相関があるのです。
このようなことはよくあります。
データだけからは見えてきません。
現場の人なら一発で見破れるケースが多いです。
データを目で見て確かめることは、データ分析の基本
要するに、前回お話ししたヒストグラムや管理図を含め、散布図などを何気なく作成し使っている方も多いと思います。
データそのものの特徴理解のために使ったりします。
やっていることは、データをグラフで視覚化し眺めているだけです。
このようにデータを目で見て確かめることは、データ分析の基本となります。
これだけで、十分にデータ活用できることも多い
実際、単なるグラフでも意図をもって見ることが重要で、想像以上に得られる情報は多いです。
例えば……
- 先ずは、手元にあるデータに異常値がないかなとヒストグラムや管理図でデータを眺める
- 次に、ある2つのデータの間に関連性はないだろうかと散布図で眺める
……します。
異常値があれば、データの入力ミスなのか、それとも異常値が起こるような特別な何かが起こったのかなどを考え、データを整備したり異常の起こった原因を追究したりするきっかけになります。
また、2つのデータの間に関連性があるのなら、その関係性は本当にあるのか現場に協力を仰ぎ調べたり、その関係性を使い有効な施策を打てるのであれば活用したりすることなどができます。
要するに、高度な分析技術や数理モデル(予測モデルや異常検知モデルなど)ではなく、このような単純なグラフだけで、十分なデータ分析・活用が実現することもあります。
あなどれません。
実際、簡単なモニタリングや異常検知、要因分析などを実施することが可能です。
今回のまとめ
今回は、2変量(2つの定量データ)同志の関係を見る道具である「散布図」について、お話ししました。
誰もが一度は、使ったことや見たことはあることでしょう。
よくある使い方が……
- 先ず、ヒストグラムや管理図などで1つの定量データの特徴を把握
- その後、散布図で2つの定量データの関係を把握
……という使い方です。
散布図を描くとき、併せて相関係数などの統計学的な指標を計算します。
- +1に近いほど「正の相関関係がある」(一方が増加すると他方も増加する傾向にある場合)
- -1に近いほど「負の相関関係がある」(一方が増加しているにもかかわらず他方が減少する傾向にある場合)
- 0は無相関(正の相関関係も負の相関関係もない)
散布図や相関係数などの2つ(もしくは、2つ以上)のデータの関係性を分析する手法を使い、要因分析を実施することができます。
しかし、この散布図や相関関係は、あくまでもデータ上の関係にすぎません。
どうなっているのかを解釈するには、現場の知見が必要です。
そのため、現場を交えて眺め解釈していきましょう。
前回お話ししたヒストグラムや管理図を含め、散布図などだけで十分にデータ活用できることも多いです。
このような分析を進めていくと、「どうなっているの?」「もっと知りたい!」など、どんどん深みに突き進むことはよくあります。
そのとき、迷子にならずに深掘りすべきポイントを適切に定め、集計・分析を進めていくことは重要です。
7つ道具の中に、深堀すべきポイントや、データ間の関係性を整理する道具があります。
次回お話しします。