ビジネスの現場では日々様々な意思決定が求められます。
例えば……
- 新商品の開発は売上アップにつながるのか?
- 新しい広告施策は効果があるのか?
- 社員の研修プログラムは生産性を高めるのか?
こうした問いに答えるためには、単なるデータの相関関係ではなく、因果関係を見抜く必要があります。
近年注目を集めている因果推論は、ビジネスデータ分析においても大きな武器となります。因果推論を使いこなせば、施策と結果の因果関係を科学的に検証でき、意思決定の質を高められるでしょう。
例えば……
- ECサイトでは、ウェブデザインの変更が購買転換率の向上につながるかどうかを因果推論で分析できます。
- 小売店舗では、プロモーション施策が売上増加に寄与したのかを因果関係から見極められます。
因果推論はマーケティングだけでなく、人事評価制度や組織改革の効果検証など、ビジネスの様々な場面で活用できる手法なのです。
今回は、ビジネスパーソン向けに因果推論の基礎となる、因果関係と関連性の違いを理解するためのツールであるDAG(有向非巡回グラフ)についてお話しいたします。
Contents
- 因果関係と関連性の違い
- 因果関係と関連性
- 相関関係は、線形な関連性
- 関連性と因果関係を混同
- DAGの定義と基本ルール
- DAGの主要4ルール
- ルール1:有向性
- ルール2:時間軸
- ルール3:非巡回性
- ルール4:条件付け
- DAGとバックドアパス
- バックドアパスとは何か?
- バックドアが開くとは?
- バックドアが閉じるとは?
- 【参考】DAG用語
- 【DAG用語:補足解説】交絡(Confounding)と共通原因(Common Cause)
- 【DAG用語:補足解説】共通効果(Common Effect)と衝突(Collision)
- DAGの読み方
- (1) 矢印でつながっているものは関連がある
- (2) 共通原因によってバックドアパスが開く
- (3) 共通原因を囲うとバックドアパスは閉じる
- (4) 共通効果はバックドアパスを閉じる
- (5) 共通効果を囲うとバックドアパスは開く
- (6) 中間変数の条件付けで因果効果はブロックされる
- 共通原因とバックドアパスの開閉
- 共通効果とバックドアパスの開閉
- ビジネスシーンでのDAG活用例
- 事例1:因果推論の力で広告効果の謎を解明
- 事例2:因果分析で顧客満足度の秘密を解き明かせ
- 事例3:因果分析でモチベーションの謎を解け!
- まとめ
因果関係と関連性の違い
因果関係と関連性
因果推論を学ぶ上で最初に理解すべきことは、因果関係と関連性の違いです。
因果関係とは「原因Xを操作することで結果Yが変化する」ことを意味します。
例えば、「商品の価格(price)を下げる(X)と売上(sales)が上がる(Y)」という因果関係があるとします。これは価格という原因を変えることで売上という結果が変わるという関係です。
一方、関連性とは「XとYに何らかの相関や関連がある」だけで、因果関係ほど強い結びつきではありません。
例えば、「昼食にラーメンを食べた日(X)は仕事の効率が悪い(Y)」というデータ上の関連性が見られたとします。
しかし、ラーメンを食べること自体が仕事の効率低下の直接的な原因とは限りません。体調不良でラーメンを食べたから仕事の効率が落ちたのかもしれないですし、単なる偶然の関係かもしれません。
相関関係は、線形な関連性
関係性の特殊なものに相関関係というものがあります。こちらの方が、馴染みがあるかもしれません。
この相関関係は、あくまでXとYの間に直線的な関係があることを示すものです。
相関関係を一般化した概念が関係性です。つまり、関係性は線形である必要はありません。非線形の関係も含みます。量的変数同士の関係性だけでなく、質的変数が混じっても構いません。
関連性と因果関係を混同
ビジネスデータ分析では、この関連性と因果関係を混同して解釈してしまうことがよくあります。
Webサイトのデザイン変更後にコンバージョン率が上がったから、デザイン変更が原因だと早合点するのはよくある間違いの一例です。
他の要因の影響を考慮しなければ、因果関係とは言えないのです。
因果関係と関連性の違いを常に意識しながらデータを観察し、ビジネス課題に取り組むことが肝要です。
そのために役立つツールがDAG(Directed Acyclic Graph、有向非巡回グラフ)です。
DAGの定義と基本ルール
因果関係と関連性の違いを見極めるための強力なツールとして、DAG(Directed Acyclic Graph、有向非巡回グラフ)があります。
DAGは変数間の因果関係を視覚的に表現したグラフで、因果推論のための理論的基盤となります。
DAGは「変数」を表す節点(ノード)と、変数間の「因果関係」を表す矢印(エッジ)で構成されます。例えば「価格→売上」というDAGは、価格が売上に影響を与える因果関係を表しています。
DAGの主要4ルール
DAGには以下の4つの基本ルールがあります。
- ルール1:有向性
- ルール2:時間軸
- ルール3:非巡回性
- ルール4:条件付け
これらのルールに基づいてDAGを正しく描くことで、変数間の因果関係を明確に表現できます。
ルール1:有向性
DAGの矢印は、原因から結果に向かって伸びます。「A→B」はAがBの原因であることを意味します。逆方向の因果関係は別の矢印で表現します。
例えば、「喫煙」と「肺がん」の関係を考えてみましょう。「喫煙→肺がん」というDAGは、喫煙が肺がんの原因であることを表しています。つまり、喫煙という行為が肺がんの発症に影響を与えるという因果関係を示しているのです。
一方、「肺がん→喫煙」というDAGは、肺がんが喫煙の原因であることを意味します。これは現実的ではありません。肺がんになったから喫煙を始めるというのは考えにくいですよね。
このように、DAGの矢印は因果関係の方向を明確に表現します。原因から結果に向かって矢印が伸びるのがルールです。
ルール2:時間軸
原因は結果よりも時間的に先行するため、DAGでは時間の流れを左から右へと表現します。つまり、矢印は原則として左から右に向かって描かれます。
例えば、「教育水準」「職業」「所得」の関係を考えてみましょう。
一般的に、教育水準が高いと良い職業に就きやすく、その結果として所得も高くなる傾向があります。この関係をDAGで表現すると、「教育水準→職業→所得」のようになります。
ここで、矢印は左から右に向かって描かれています。これは、教育水準、職業、所得の因果関係が時間的な順序に従っていることを表しています。
まず、教育水準が職業に影響を与えます。高い教育を受けた人は、より専門的な職業に就く可能性が高いですよね。次に、職業が所得に影響を与えます。高度な専門職ほど、所得が高くなる傾向があります。
この一連の因果関係は、時間的な流れに沿っています。教育を受けてから職業に就き、その後に所得が決まるというのが自然な順序です。
このように、DAGでは因果関係の時間的な順序を左から右への矢印で表現します。原因となる変数が左側に、結果となる変数が右側に配置されるのです。
ルール3:非巡回性
DAGでは、変数が自分自身の原因になることはありません。したがって、「A→B→C→A」のように矢印が循環するパターン(有向サイクル)は存在しません。
例えば、「学習時間」「テストの成績」「自信」の関係を考えてみましょう。
- 学習時間が長いほど、テストの成績が良くなる傾向がある。
- テストの成績が良いと、自信が高まる傾向がある。
- 自信が高いと、次の学習時間が長くなる傾向がある。
この関係を矢印で表現すると、「学習時間→テストの成績→自信→学習時間」のようになります。
しかし、これはDAGの非巡回性の規則に反しています。矢印が循環しているため、有向サイクルが形成されているのです。
DAGでは、このような有向サイクルは許されません。
なぜなら、因果関係は時間的な順序に従うべきであり、変数が自分自身の原因になることは論理的に矛盾するからです。
上記の例で言えば、「自信→学習時間」の矢印が問題となります。
自信が高まるのは、前の時点でのテストの成績が良かったからです。その自信が次の学習時間に影響を与えるのです。つまり、異なる時点での因果関係が混在しているのです。
このような場合は、時間的な要素を明示的に含めたDAGを描く必要があります。例えば、以下のようなDAGが考えられます。
ここで、(t)は現在の時点、(t+1)は次の時点を表しています。
このように時間的な要素を明示することで、有向サイクルを回避し、因果関係の時間的な順序を正しく表現することができます。
ルール4:条件付け
DAG上で変数を四角で囲うと、その変数を一定の値に固定した(条件付けした)状態を表します。
条件付けを理解するために、「年齢」「性別」「所得」の関係を例に考えてみましょう。
一般的に、年齢が高いほど所得も高くなる傾向があります。また、男性の方が女性よりも所得が高い傾向があるとします。この関係をDAGで表現すると、以下のようになります。
ここで、性別の違いを考慮して所得を分析したいとします。つまり、男性と女性それぞれの年齢と所得の関係を見たいのです。この場合、DAG上で性別の変数を四角で囲います。
四角で囲むことで、性別を一定の値に固定した状態を表現しています。具体的には、男性のみのデータを使って年齢と所得の関係を分析したり、女性のみのデータを使って分析したりすることを意味します。
このように条件付けすることで、性別による影響を取り除いた上で、年齢と所得の関係を見ることができます。性別で年齢と所得の関係が異なる場合、性別を条件付けすることでその違いを明らかにできるのです。
別の例として、「喫煙」「肺がん」「年齢」の関係を考えてみましょう。喫煙は肺がんのリスクを高めますが、年齢も肺がんのリスクに影響します。この関係をDAGで表現すると、以下のようになります。
ここで、年齢の影響を取り除いて、喫煙と肺がんの関係を見たいとします。この場合、DAG上で年齢の変数を四角で囲います。
これは、特定の年齢層(例えば50代)のみのデータを使って、喫煙と肺がんの関係を分析することを意味します。年齢による影響を取り除くことで、喫煙が肺がんのリスクを高めるという因果関係をより明確に示すことができるのです。
DAG上で変数を四角で囲うことで、特定の条件下での因果関係を分析することができます。これは、交絡因子の影響を取り除き、真の因果関係を明らかにするための重要なテクニックの1つです。
DAGとバックドアパス
バックドアパスとは何か?
バックドアパスとは、DAGにおいて、ある2つの変数間に、矢印の向きに逆らって進むパスのことを指します。このパスが存在すると、2つの変数の間に見かけ上の関連性が生じ、真の因果関係の推定を妨げる可能性があります。
例えば、「知覚品質」(消費者が感じる商品の品質)と「売上」の関係を分析するとき、「ブランドイメージ」が共通原因となる可能性があるとします。
この場合、「知覚品質」から「売上」への直接的な矢印はありませんが、「知覚品質」から「ブランドイメージ」を経由して「売上」に到達するパス(知覚品質←ブランドイメージ→売上)が存在します。このパスが「バックドアパス」です。
バックドアが開くとは?
バックドアが開いているとは、バックドアパスが存在し、そのパスが条件付けによってブロックされていない状態を指します。バックドアが開いていると、2つの変数の間に見かけ上の関連性が生じ、真の因果関係の推定が困難になります。
先の例では、「ブランドイメージ」が条件付けされていないので、バックドアが開いている状態です。この状態では、知覚品質と売上の関連性が観察されても、それが知覚品質の直接的な影響なのか、ブランドイメージを介した間接的な影響なのか区別がつきません。
例えば、単に「ブランドイメージがいいので、知覚品質がいい」「ブランドイメージがいいので、売上が上がった」だけなのに、「知覚品質をあげれば売上があがる」と間違った解釈を引き起こす可能性があります。
この解釈をもとに意思決定し、売上を上げるために知覚品質を上げる努力をしても、恐らく売上は思うように上がりません。
別の例として、「従業員満足度」と「顧客満足度」の関係を考えてみましょう。「企業文化」が共通原因となる可能性があるとします。
この場合、「従業員満足度」から「顧客満足度」への直接的な矢印はありませんが、「従業員満足度」から「企業文化」を経由して「顧客満足度」に到達するバックドアパスが存在します。企業文化が条件付けされていない状態では、このバックドアが開いています。
そのため、従業員満足度と顧客満足度の関連性が観察されても、それが従業員満足度の直接的な効果なのか、企業文化を介した間接的な影響なのか区別がつかないのです。
例えば、単に「企業文化がいいので、従業員満足度が高い」「企業文化がいいので、顧客満足度が高い」だけなのに、「従業員満足度をあげれば顧客満足度があがる」と間違った解釈を引き起こす可能性があります。
この解釈をもとに意思決定し、顧客満足度を上げるために従業員満足度を上げるための施策を実施しても、恐らく顧客満足度は思うように上がりません。
従業員満足度を上げるためにインセンティブを上げたのに、顧客満足度が上がるどころか下がった、という事例もあります。
バックドアが閉じるとは?
バックドアが閉じているとは、バックドアパスが条件付けによってブロックされている状態を指します。バックドアを閉じるには、バックドアパスに存在する共通原因を条件付けします。
先の「知覚品質」と「売上」の例では、「ブランドイメージ」を条件付けすることで、バックドアを閉じることができます。
これは、ブランドイメージの影響を取り除いた上で、知覚品質と売上の関係を見ることを意味します。具体的には、ブランドイメージが似ているグループに分け、それぞれのグループ内で知覚品質と売上の関係を分析するのです。この条件付けによって、バックドアがブロックされ、知覚品質の売上への直接的な影響を推定できるようになります。
消費者から見て似たようなイメージの商品が、知覚品質によって売上が左右されているのかどうか、ということを推定するということです。品質は最低限満たされていると思われている市場では、恐らく知覚品質で売上は左右されません。ラグジュアリーブランドなどがその典型例です。おそらく、プレステージ(社会的評価・尊敬・名声など)や所属感、顧客体験の方が重要でしょう。場合によっては、繊細だから壊れやすくて当たり前、というものもあるかもしれません。
同様に、「従業員満足度」と「顧客満足度」の例では、「企業文化」を条件付けすることで、バックドアを閉じることができます。
これは、企業文化の影響を取り除いた上で、従業員満足度と顧客満足度の関係を見ることを意味します。具体的には、似たような企業文化のグループに分けて、それぞれのグループ内で従業員満足度と顧客満足度の関係を分析するのです。この条件付けによって、バックドアがブロックされ、従業員満足度の顧客満足度への直接的な影響を推定できるようになります。
このように、バックドアの概念はビジネス上の因果関係の推定にも重要な役割を果たします。
変数間の真の因果関係を見抜くためには、バックドアパスを識別し、適切に条件付けすることが不可欠なのです。
【参考】DAG用語
参考までにDAG用語を掲載します。読み飛ばしても、文脈上構いません。
用語 | 説明 | 別の読み方・特殊ケース |
---|---|---|
変数(Variable) | DAGの節点(ノード)で表現される要素。因果関係を分析する対象となる。 | – |
節点(Node) | DAG上の変数を表す点。 | ノード |
矢印(Arrow) | 節点間の因果関係を表す有向のエッジ。 | 有向エッジ(Directed Edge) |
有向(Directed) | 矢印が一方向であること。因果関係の方向性を表す。 | – |
非巡回(Acyclic) | DAG上に矢印の循環(サイクル)がないこと。 | 非循環 |
条件付け(Conditioning) | ある変数の値を固定すること。DAG上では四角で囲んで表現。 | 調整(Adjustment)、統制(Controlling) |
親(Parent) | ある変数に矢印を伸ばしている変数。 | 原因(Cause)、先行変数(Preceding Variable) |
子(Child) | ある変数から矢印を受けている変数。 | 結果(Effect)、後続変数(Succeeding Variable) |
先祖(Ancestor) | ある変数の親、親の親、…と再帰的に辿れる変数の集合。 | – |
子孫(Descendant) | ある変数の子、子の子、…と再帰的に辿れる変数の集合。 | – |
道(Path) | 節点と矢印を交互に辿ってある変数から別の変数へ到達する経路。 | パス |
因果パス(Causal Path) | 矢印の向きに沿って進む道。因果関係を表す。 | 有向パス(Directed Path) |
バックドアパス(Backdoor Path) | 矢印の向きに逆らって進む道。交絡を表す。 | 裏口経路 |
閉じた道(Closed Path) | 条件付けによってブロックされた道。 | ブロックされた道(Blocked Path) |
開いた道(Open Path) | 条件付けによってブロックされていない道。 | – |
交絡(Confounding) | バックドアパスが開いている状態。因果関係の推定を妨げる。 | 交絡バイアス(Confounding Bias) |
衝突(Collision) | 2つ以上の矢印が同じ変数を指している状態。 | コライダー(Collider) |
共通原因(Common Cause) | 2つ以上の変数に矢印を伸ばしている変数。交絡の原因となる。 | – |
共通効果(Common Effect) | 2つ以上の変数から矢印を受けている変数。衝突を引き起こす。 | – |
d分離(d-separation) | 2つの変数間の統計的独立性をDAGから判定するルール。 | 有向分離(Directed Separation) |
人によって若干呼び方が異なりものや、一見すると似たようなもの、違いの分かり難いものなどあるかもしれませんが、ご了承ください。
例えば、交絡(Confounding)と共通原因(Common Cause)は密接に関連していますが、厳密には異なる概念です。
他には、共通効果(Common Effect)と衝突(Collision)は、DAGにおいて同じ構造を指しています。ただし、微妙に意味合いが異なります。
気になる方もいると、思いますので簡単に以下で【補足解説】します。以下の解説は読み飛ばして頂いても問題ございません。
【DAG用語:補足解説】交絡(Confounding)と共通原因(Common Cause)
こちらは、読み飛ばしても文脈上問題ございません。気になる方のみ一読ください。
共通原因とは、2つ以上の変数に矢印を伸ばしている変数のことを指します。つまり、共通原因はある2つの変数の両方に影響を与える変数です。
例えば、「教育水準」が「所得」と「健康状態」の両方に影響を与える場合、「教育水準」は「所得」と「健康状態」の共通原因となります。
一方、交絡は因果関係の推定を妨げる要因を意味します。交絡が発生するメカニズムの一つが、共通原因の存在です。共通原因が存在することで、2つの変数の間にバックドアパスが生じ、それが開いた状態になると交絡が発生します。
つまり、共通原因は交絡を引き起こす構造的な要因の一つであり、交絡は共通原因などによって生じる因果関係の推定を妨げる現象と言えます。
したがって、共通原因と交絡は以下のように整理できます。
- 共通原因は、2つ以上の変数に影響を与える変数。
- 共通原因が存在すると、バックドアパスが生じる可能性がある。
- バックドアパスが開いた状態になると、交絡が発生する。
- 交絡は、共通原因以外の要因でも発生し得る。
- 共通原因が存在しても、適切に条件付けされていれば交絡は発生しない。
このように、交絡(Confounding)と共通原因(Common Cause)は密接に関連していますが、厳密には異なる概念です。
因果推論においては、共通原因の存在を考慮しつつ、交絡を適切に調整することが重要です。
【DAG用語:補足解説】共通効果(Common Effect)と衝突(Collision)
こちらは、読み飛ばしても文脈上問題ございません。気になる方のみ一読ください。
共通効果とは、2つ以上の変数から矢印を受けている変数のことを指します。つまり、ある変数が複数の変数の影響を受けている状態を表します。
例えば、「所得」と「教育水準」が「生活満足度」に影響を与えている場合、「生活満足度」は「所得」と「教育水準」の共通効果となります。
衝突(コライダー)とは、共通効果が生み出す特定のパターンを強調する用語です。具体的には、2つ以上の矢印が同じ変数を指している状態を指します。衝突という用語は、矢印が変数の位置で “衝突” している様子を表現しています。
衝突が重要視されるのは、それが特定の条件下でバックドアパスを “開く” 働きをするからです。通常、共通効果はバックドアパスを “閉じる” 役割を果たします。
しかし、共通効果の変数が条件付けされると、バックドアパスが “開いてしまう” のです。この現象を「衝突時の条件付けによるバックドアパスの開放」と呼びます。
したがって、共通効果と衝突の違いは以下のようにまとめられます。
- 共通効果は、複数の変数から影響を受ける変数を指す。
- 衝突は、共通効果の特定のパターン(矢印が変数の位置で交わる状態)を指す。
- 共通効果は通常、バックドアパスを閉じる働きをする。
- 衝突の変数が条件付けされると、バックドアパスが開いてしまう。
因果推論においては、共通効果と衝突のパターンを見抜くことが重要です。
不適切な条件付けは、かえって交絡を引き起こし、因果関係の推定を妨げてしまうことがあるのです。
DAGの読み方
DAGは因果関係の構造を視覚的に表現するツールですが、それを正しく読み取ることが因果推論の第一歩となります。
DAGから因果関係を読み取るための主要な6つのポイントを紹介します。
- (1) 矢印でつながっているものは関連がある
- (2) 共通原因によってバックドアパスが開く
- (3) 共通原因を囲うとバックドアパスは閉じる
- (4) 共通効果はバックドアパスを閉じる
- (5) 共通効果を囲うとバックドアパスは開く
- (6) 中間変数の条件付けで因果効果はブロックされる
今までの説明と重複する部分もあるかと思いますが、ご了承ください。繰り返し出てくるものは、重要だということです。
(1) 矢印でつながっているものは関連がある
DAGにおいて、変数間を矢印でつなぐことは、それらの変数の間に因果関係があることを表します。つまり、矢印でつながっている変数の間には、必ず関連性(association)が存在します。
例えば、「喫煙→肺がん」というDAGは、喫煙が肺がんの原因であることを示しています。したがって、喫煙者と非喫煙者を比べると、喫煙者の方が肺がんの発生率が高いという関連性が観察されるはずです。
「広告費→売上」というDAGは、広告費が売上の原因であることを示しています。したがって、広告費を増やした時期と増やさなかった時期を比べると、広告費を増やした時期の方が売上が高いという関連性が観察されるはずです。
ただし、関連性があるからといって、必ずしも直接的な因果関係があるとは限りません。矢印でつながっていない変数の間にも、別の変数を介した間接的な関連性が存在する可能性があるのです。
(2) 共通原因によってバックドアパスが開く
DAGにおいて、ある2つの変数の両方に矢印を伸ばしている変数を「共通原因」と呼びます。共通原因が存在すると、2つの変数の間に「バックドアパス」が生じます。
バックドアパスとは、矢印の向きに逆らって進むパスのことです。バックドアパスが存在すると、2つの変数の間に見かけ上の関連性が生じます。これは「交絡」と呼ばれる現象で、因果関係の推定を妨げる要因となります。
例えば、「喫煙」と「肺がん」の関係を考えるとき、「遺伝的素因」が共通原因となる可能性があります。
この場合、「喫煙」と「肺がん」の間にバックドアパス(喫煙←遺伝的素因→肺がん)が生じます。このバックドアパスが開いている状態では、喫煙と肺がんの真の因果関係を正しく推定できません。
先ほどでてきた例ですが、再掲します。「知覚品質」と「売上」の関係を考えるとき、「ブランドイメージ」が共通原因となる可能性があります。
この場合、「知覚品質」と「売上」の間にバックドアパス(知覚品質←ブランドイメージ→売上)が生じます。このバックドアパスが開いている状態では、商品の知覚品質と売上の真の因果関係を正しく推定できません。
(3) 共通原因を囲うとバックドアパスは閉じる
先ほど、共通原因によってバックドアパスが開き、交絡が生じると説明しました。この交絡を取り除くためには、共通原因を条件付けする(四角で囲む)必要があります。
先の「喫煙」と「肺がん」の例で言えば、「遺伝的素因」を条件付けすることで、バックドアパスを閉じることができます。
これは、遺伝的素因の影響を取り除いた上で、喫煙と肺がんの関係を見ることを意味します。具体的には、遺伝的素因をもつグループともたないグループに分けて、それぞれのグループ内で喫煙と肺がんの関係を分析するのです。
先の「品質品質」と「売上」の例で言えば、「ブランドイメージ」を条件付けすることで、バックドアパスを閉じることができます。
このように共通原因を条件付けすることで、交絡を取り除き、真の因果関係に近づくことができます。
(4) 共通効果はバックドアパスを閉じる
DAGにおいて、ある2つの変数から矢印を受けている変数を「共通効果」と呼びます。共通効果は、バックドアパスを閉じる働きをします。
例えば、「喫煙」と「アスベスト暴露」が「肺がん」の原因となっているとします。
この場合、「肺がん」は「喫煙」と「アスベスト暴露」の共通効果です。この構造では、「喫煙」と「アスベスト暴露」の間にバックドアパスは生じません。つまり、共通効果がバックドアパスをブロックしているのです。
「広告費」と「販促費」が「売上」の原因となっているとします。
この場合、「売上」は「広告費」と「販促費」の共通効果です。この構造では、「広告費」と「販促費」の間にバックドアパスは生じません。
ただし、共通効果を条件付けすると状況が変わります。これについては次の項目で説明します。
(5) 共通効果を囲うとバックドアパスは開く
先ほど、共通効果はバックドアパスを閉じる働きをすると説明しました。しかし、共通効果を条件付けすると、逆にバックドアパスが開いてしまうのです。
先の「喫煙」と「アスベスト暴露」の例で言えば、「肺がん」を条件付けすると、「喫煙」と「アスベスト暴露」の間にバックドアパスが生じます。
これは、肺がんになった人だけを対象に、喫煙とアスベスト暴露の関係を見ることを意味します。肺がんという共通効果を条件付けたことで、喫煙とアスベスト暴露の間に見かけ上の関連性が生じてしまうのです。
先の「広告費」と「販促費」の例で言えば、「売上」を条件付けすると、「広告費」と「販促費」の間にバックドアパスが生じます。
これは例えば、売上の高い商品だけを対象に、広告費と販促費の関係を見ることを意味します。売上という共通効果を条件付けたことで、広告費と販促費の間に見かけ上の関連性が生じてしまうのです。
このように、共通効果を不適切に条件付けてしまうと、かえって交絡を引き起こしてしまう可能性があります。
(6) 中間変数の条件付けで因果効果はブロックされる
ある原因から結果に向かう矢印の途中にある変数を「中間変数」と呼びます。中間変数を条件付けすると、原因から結果への因果効果がブロックされてしまいます。
例えば、「教育水準」が「所得」に影響を与え、「所得」が「健康状態」に影響を与えるとします。
ここで、「所得」は「教育水準」と「健康状態」の中間変数です。もし「所得」を条件付けてしまうと、「教育水準」から「健康状態」への因果効果がブロックされてしまいます。
これは、所得が同じ人々の中では、教育水準は健康状態に影響を与えないことを意味します。しかし、実際には教育水準は所得を介して健康状態に影響を与えているのです。
「従業員満足度」が「顧客サービスの質」に影響を与え、「顧客サービスの質」が「顧客満足度」に影響を与えるとします。
ここで、「顧客サービスの質」は「従業員満足度」と「顧客満足度」の中間変数です。もし「顧客サービスの質」を条件付けてしまうと、「従業員満足度」から「顧客満足度」への因果効果がブロックされてしまいます。
これは、顧客サービスの質が同じ状況では、従業員満足度は顧客満足度に影響を与えないことを意味します。しかし、実際には従業員満足度は顧客サービスの質を介して顧客満足度に影響を与えているのです。
したがって、因果効果を正しく推定するためには、中間変数を不適切に条件付けないよう注意が必要です。
共通原因とバックドアパスの開閉
共通原因とバックドアパスの開閉の概念について、もう少し丁寧に説明します。
先ほど使った例である、「喫煙」と「肺がん」の関係を考えてみましょう。ここで、「遺伝的素因」が「喫煙」と「肺がん」の共通原因だとします。
この場合、「喫煙」と「肺がん」の間には直接の矢印はありませんが、「遺伝的素因」を経由するバックドアパス(喫煙 ← 遺伝的素因 → 肺がん)が存在します。
このバックドアパスが開いている状態では、喫煙と肺がんの間に見かけ上の関連性が生じます。
なぜならば……
- 遺伝的素因を持つ人は喫煙する傾向が高い
- 遺伝的素因を持つ人は肺がんになるリスクも高い
つまり、喫煙者に肺がんが多いように見えるのは、喫煙の直接的な影響ではなく、遺伝的素因という共通原因の影響である可能性があるのです。
ここで、「遺伝的素因」を条件付けすることを考えます。
遺伝的素因を条件付けるということは、遺伝的素因の影響を取り除いて、喫煙と肺がんの関係を見ることを意味します。具体的には、遺伝的素因を持つグループと持たないグループに分けて、それぞれのグループ内で喫煙と肺がんの関係を分析するのです。
この条件付けによって、バックドアパスがブロックされます。
なぜなら、遺伝的素因の影響を取り除いた状態では、喫煙と肺がんの関連性は、喫煙の直接的な影響のみを反映するようになるからです。
つまり、共通原因を条件付けることで、バックドアパスを閉じ、真の因果関係を推定できるようになるのです。
別の例として、「教育年数」と「年収」の関係を考えてみましょう。ここで、「家庭環境」が「教育年数」と「年収」の共通原因だとします。
裕福な家庭環境の子供は教育を長く受けられる傾向があり、また将来的に高い年収を得られる可能性が高いです。この場合、教育年数と年収の間には、家庭環境を経由するバックドアパスが存在し、見かけ上の関連性が生じます。
ここで、「家庭環境」を条件付けします。
つまり、家庭環境が似たグループ内で、教育年数と年収の関係を分析するのです。これにより、家庭環境の影響を取り除いた状態で、教育年数が年収に与える直接的な影響を推定できます。
このように、共通原因を条件付けることでバックドアパスを閉じ、真の因果関係に迫ることができるのです。逆に、共通原因を条件付けない状態では、バックドアパスが開いたままであり、見かけ上の関連性が生じてしまうのです。
バックドアパスの概念を理解し、適切に条件付けを行うことが、因果関係の推定には不可欠なのです。
共通効果とバックドアパスの開閉
共通効果とバックドアパスの開閉の概念について、もう少し丁寧に説明します。
先ほど使った例である、「喫煙」と「アスベスト暴露」が「肺がん」の原因となっているとします。
この場合、「肺がん」は「喫煙」と「アスベスト暴露」の共通効果です。この構造では、「喫煙」と「アスベスト暴露」の間にバックドアパスは存在しません。つまり、共通効果がバックドアパスをブロックしているのです。
なぜ共通効果がバックドアパスをブロックするのでしょうか?
それは、「喫煙」と「アスベスト暴露」が互いに独立だからです。つまり、喫煙するかどうかはアスベスト暴露とは無関係であり、アスベストに暴露するかどうかは喫煙とは無関係なのです。
しかし、ここで「肺がん」を条件付けすると状況が変わります。
肺がんを条件付けるということは、肺がんになった人だけを対象に、喫煙とアスベスト暴露の関係を見ることを意味します。この条件付けによって、「喫煙」と「アスベスト暴露」の間にバックドアパスが生じるのです。
なぜでしょうか?
肺がんになった人の中では、喫煙者とアスベスト暴露者が多くなる傾向があります。つまり、肺がんという条件下では、喫煙とアスベスト暴露に関連性が生じるのです。これが、共通効果を条件付けることによって生じるバックドアパスです。
もちろんこのバックドアパスが開くかどうかは可能性でしかありません。結果的に、バックドアが開かない可能性もございます。
何はともあれ因果推論においては、適切な条件付けを行うことが重要です。不適切な条件付けは、かえって因果関係の推定を妨げてしまう可能性があるのです。
共通効果の働きを理解し、適切に条件付けを行うことが、因果関係の推定には不可欠なのです。
ビジネスシーンでのDAG活用例
ここまで、DAGの基本ルールと因果関係の読み取り方について説明してきました。
これらの知識を実際のビジネスシーンに応用し、DAGを活用した因果分析の事例を紹介します。
事例1:因果推論の力で広告効果の謎を解明
ジュエリーブランドB社は、設立から10年が経過し、安定した売上を維持していました。
しかし、創業者である木村(仮名)は、更なる成長を目指して、新しい広告キャンペーンを立ち上げることを決意しました。
意欲的に始まった広告キャンペーンでしたが、売上は思うように伸びません。木村は困惑しました。
「一体何が問題なのか? 広告の内容が悪いのだろうか?」
広告キャンペーンと売上の関係だけを見ていました。そこから次の打ち手が見えてこないのです。
そんな時、学生時代に同じサークルに所属していた、山本(仮名)がB社に加わりました。彼は、米国のメガベンチャーでデータサイエンティストとして活躍していました。相談相手のいない木村が、拝み倒しB社の執行役副社長として向かい入れたのです。
山本は、因果推論の手法を用いて、売上に影響を与える要因を分析することを提案します。
「この 要因 を無視していては、真の因果関係は見えてこない」
と、彼は主張しました。木村にとって、山本のやっていることも言っていることもチンプンカンプンでした。
そこで山本は、DAGを描いて因果関係を可視化し説明しました。
そこには、広告キャンペーンだけでなく、季節性と経済状況が売上に影響を与えている構造が見える化されたのです。
ここで、「季節性」と「経済状況」は売上に影響を与える可能性のある交絡因子です。これらの因子を条件付けすることで、広告キャンペーンの売上への直接的な影響を推定することができます。
木村にも思い当たる節がありました。
「季節によって実施している広告キャンペーンの内容も投下量も恐らく異なるし、経済状況によって変えていたかもしれない。気にはなっていたが、データで確認してこなかったし、どうデータで確認すればいいか分からなかった」
山本のチームは、過去のデータから季節性と経済状況が似た期間を抽出し、その期間と広告キャンペーンを実施した期間の売上を比較しました。すると、広告キャンペーンの真の効果が浮かび上がってきました。
この分析結果を元に、木村と山本は、広告の内容と時期を戦略的に調整することにしました。
夏のシーズンに合わせたプロモーションや、景気動向を踏まえた価格設定など、データに基づいた意思決定を行ったのです。
そして迎えた次の四半期、B社の売上は大きく伸びました。因果推論という新しいアプローチが、成功の鍵だったのです。
木村は感慨深げに語ります。
「私は、データの表面的な変化に惑わされていた。でも、因果関係を見抜くことで、本当に大切なことが見えてきた」
山本も同意します。
「因果推論は、マーケティングの世界に革命をもたらす。データに基づいた意思決定こそが、これからの時代に求められているのだから」
こうして、B社は因果推論の力を武器に、新たな成長の時代を迎えることになったのです。
事例2:因果分析で顧客満足度の秘密を解き明かせ
電機メーカーのC社は、優れた製品を提供することで、業界内で確固たる地位を築いていました。
しかし、営業部長の佐藤(仮名)は、顧客満足度が伸び悩んでいることに気づきます。
「知覚品質は高いはずなのに、なぜ顧客満足度が上がらないのだろう?」
要は、顧客にアンケートやインタビューなどを実施すると「品質は高い」という意見が多いものの、顧客満足度がいまいちなのです。
佐藤は、入社同期の現在はカスタマーサポート部門のリーダーをしている、谷口(仮名)と共に、この問題の解決に乗り出します。
二人は、顧客満足度に影響を与える要因を特定するために、数年前に新設されたDX推進室のデータサイエンスグループに分析を依頼しました。
しかし、グラフと数表だらけのデータ分析レポートからは、次の打ち手が見えてきませんでした。
そんな時、カスタマーサポート部門に配属された新入社員である、T大学大学院でオーバードクターをしていた東海林(仮名)が「ブランドイメージも考慮する必要があるのでは?」と提案します。
佐藤と谷口は、他の新人と馴染めず余り喋らない東海林が自ら提案しに来たことに驚きましたが、彼には何かあるかもしれないと、彼の意見を取り入れます。
そうして、新人の東海林は1人で分析を進め、数日後にあるDAGを描き持ってきました。
このDAGから、ブランドイメージが知覚品質と顧客満足度の両方に影響を与えていることが明らかになったのです。要は、「ブランドイメージ」は「知覚品質」と「顧客満足度」の共通原因であり、バックドアを形成していたのです。
つまり、ブランドイメージが低ければ、知覚品質が高くても、顧客満足度は上がらないということです。
この報告を受け、佐藤と谷口は驚きました。この結果に驚いただけでなく、東海林の能力にも驚いたのです。
製造業として、お客さんに「高品質な商品」と思われることに全力を注いできましたが、ブランディングがあまり上手くいっていませんでした。実際に、「質は高いけどダサい」「物はいいけど、持っていることろを人に知られたくない」という顧客の声が少なからずあったのです。そこで、「かっこいい商品」と思われることも非常に重要だと再認識しました。
さらに東海林は、ブランドイメージを条件付けした分析を行うことにしました。具体的には、ブランドイメージが高いグループと低いグループに分けて、それぞれのグループ内で製品の品質、サポートの質と顧客満足度の関係を調べたのです。
結果は明白でした。ブランドイメージが高いグループでは、知覚品質とサポートの質が顧客満足度に大きな影響を与えていました。
一方、ブランドイメージが低いグループでは、知覚品質とサポートの質を高めても、顧客満足度はあまり改善されないことがわかったのです。
この分析結果を受けて、佐藤と谷口は、ブランドイメージの向上に注力することにしました。CM戦略の見直しや、CSR活動の強化など、ブランドイメージを高めるための施策を次々と打ち出していったのです。
そして半年後、C社の顧客満足度は大きく改善されていました。
営業部長の佐藤は語ります。
「因果分析のおかげで、私たちは本当の問題の所在を見つけることができました。データに基づいた意思決定の重要性を、身をもって実感しました」
カスタマーサポート部門のリーダーをしている谷口も同意します。
「これからは、因果関係を常に意識しながら、顧客満足度の向上に取り組んでいきたいですね」
カスタマーサポート部門の新人の東海林は誇らしげに言います。
「因果分析は、ビジネスの世界に新しい風を吹き込みます。私は、この手法に磨きをかけ、会社に貢献していきたいです」
こうして、C社は因果分析を武器に、顧客満足度の向上という難題を見事に解決したのです。
東海林は、新人ながら専門職(管理職相当)に推薦されました。
事例3:因果分析でモチベーションの謎を解け!
総合商社A社の人事部長、竹中(仮名)は頭を抱えていました。
会社の業績は好調なのに、なぜか従業員のモチベーションが上がらない。離職率も高止まりしています。「このままでは、会社の将来が危うい」と、竹中は危機感を募らせていました。
そんな時、竹中の元部下でDX推進本部の若きリーダーであり大学の後輩でもある三ノ輪(仮名)に相談します。DX推進本部は竹中が立ち上げた部門で、最近までそこの責任者をしていました。
三ノ輪は「因果分析」という手法を提案してきました。「モチベーションに影響を与える要因を特定し、適切な施策を打つことが重要です」と、三ノ輪は力説します。
三ノ輪は、人事データを分析し、DAGを描いてみることにしました。
すると、個人の性格がモチベーションと職場環境の評価の両方に影響を与えていることが明らかになったのです。要は、「個人の性格」は「モチベーション」と「職場環境の評価」の共通原因であり、バックドアを形成していたのです。
つまり、個人の性格によって、同じ職場環境でも、モチベーションへの影響が異なるということです。
この発見を受けて、竹中と三ノ輪は、個人の性格を条件付けした分析を行うことにしました。
具体的には、性格診断テストの結果を元に、従業員を幾つかのグループに分け、それぞれのグループ内で報酬、職場環境、上司の支援とモチベーションの関係を調べたのです。
結果は衝撃的でした。
外向的な性格の従業員グループでは、職場環境と上司の支援がモチベーションに大きな影響を与えていました。一方、内向的な性格の従業員グループでは、報酬がモチベーションに大きな影響を与えていたのです。
このように変数同士の関係性を歪める(修飾する)ことを、効果修飾(Effect Modification)と呼びます。効果修飾とは、ある要因(この場合は個人の性格)の水準によって、他の要因(報酬や上司の支援)の効果が異なる状況を指します。そのような因子(変数)を「個人の性格」は修飾因子(Effect Modifier)と呼びます。
この事例では、「個人の性格」は修飾因子(Effect Modifier)でもあったということです。DAGでは、修飾因子(Effect Modifier)までは表現できません。ただ、DAGを通じて条件付けしたデータ分析(層別分析)を進めることで、このような修飾因子(Effect Modifier)を発見することはよくあります。
修飾因子(Effect Modifier)と聞くと難しく聞こえますが、単回帰モデル y=a+b x+e を例に簡単に説明します。修飾因子(Effect Modifier)とは、回帰係数の b を変化させる要因(変数)のことです。階層線形モデルではお馴染みの説明変数で、係数への回帰に使われる説明変数です。
話しを戻します。
この分析結果を受けて、竹中と三ノ輪は、従業員の性格に合わせた人事施策を打ち出すことにしました。外向的な従業員には、チームビルディングや上司との コミュニケーション 機会を増やし、内向的な従業員には、能力に応じた報酬制度を導入したのです。
半年後、A社の従業員モチベーションは大きく改善し、離職率も低下していました。因果分析を活用したターゲットの絞った施策が功を奏したのです。
竹中は感慨深く語ります。
「因果分析のおかげで、私たちは従業員一人ひとりに合った施策を打つことができました。画一的な人事管理では、モチベーションの向上は難しいのだと実感しました」
三ノ輪も同意します。
「因果分析は、人事管理に新しい地平を開きます。データに基づいた意思決定こそが、これからの人事部門に求められるのです」
こうして、A社の人事部門は因果分析を武器に、モチベーション管理という難題に立ち向かっていくことになりました。
まとめ
今回は、ビジネスパーソン向けに、因果推論の基礎とDAGの活用方法について、できるだけ簡単に解説しました。
因果推論は、ビジネスにおける意思決定の質を大きく左右する重要な概念です。マーケティング施策の効果検証、顧客満足度の向上、従業員のモチベーション管理など、様々な場面で因果関係を正しく理解することが求められます。
しかし、因果関係と単なる相関関係を混同してしまうと、誤った意思決定を招く恐れがあります。そこで重要となるのが、因果関係の構造を可視化するためのツールであるDAGです。
DAGを用いることで、変数間の因果関係を明確に表現し、交絡因子の影響を適切に調整することができます。これにより、真の因果関係を推定し、効果的な施策立案につなげることが可能となります。
ただし、DAGを活用するためには、因果推論の基本的な考え方を理解し、ビジネス課題に関する専門知識を持つことが不可欠です。DAGはあくまでも因果関係を視覚化するためのツールであり、その構築と解釈には人間の知見が必要不可欠なのです。
因果推論の世界は深淵で複雑ですが、そこに飛び込むことで、ビジネスの可能性は大きく広がります。今後も因果推論とDAGに関する理解を深め、ビジネスに活かしていただければと思います。
以上で、前編を終わります。
後編では、さらに発展的な内容として、バックドア基準とd分離について解説する予定です。因果推論の理解をさらに深めたい方は、ぜひ後編もお読みください。