Tae Hyun Kim (Lowell)

DAG (Directed Acyclic Graph)

3분 읽기 #causal-inference#scm#dag

Definition

DAG (Directed Acyclic Graph)는 변수 간의 causal relationship을 시각적으로 표현하는 그래프. Causal inference에서 confounding 구조를 파악하고 identification strategy를 결정하는 핵심 도구.

구성 요소:

  • Node (노드): 변수를 나타냄
  • Directed Edge (화살표): Direct causal effect를 나타냄 (ABA \rightarrow B는 “A가 B에 영향”)
  • Acyclic: 어떤 변수도 자신을 cause할 수 없음 (cycle 없음)

핵심 특징:

  • Non-parametric: 화살표는 어떤 functional form도 나타낼 수 있음 (linear, nonlinear 등)
  • Qualitative: 효과의 크기가 아닌 존재 여부만 표현
  • Domain knowledge 필요: Data만으로 DAG를 구성할 수 없음

Three Elementary Structures

DAG에서 association이 전달되는 방식을 결정하는 세 가지 기본 구조:

1. Chain (연쇄)

A → B → C
  • 의미: A가 B를 통해 C에 간접적으로 영향
  • Association: A와 C 사이에 causal association 전달
  • Conditioning: B를 condition하면 A-C association 차단

2. Fork (분기)

A ← B → C
  • 의미: B가 A와 C 모두의 common cause (confounder)
  • Association: A와 C 사이에 non-causal (spurious) association 전달
  • Conditioning: B를 condition하면 A-C spurious association 차단

3. Inverted Fork / Collider (역분기)

A → B ← C
  • 의미: B가 A와 C 모두의 결과 (Collider)
  • Association: A와 C 사이에 association 없음 (기본 상태에서 차단)
  • Conditioning: B를 condition하면 A-C 사이에 spurious association 생성 (collider bias)

Path and Association

Path의 종류

  1. Causal Path: 화살표 방향을 따라가는 경로 (A → B → C)
  2. Non-causal Path: 화살표 방향을 역행하는 부분이 있는 경로

Association 전달 규칙

  • Path는 차단되지 않는 한 association을 전달
  • 차단 조건:
    • Path 상에 collider가 있고, 그 collider를 condition하지 않음
    • Path 상에 non-collider가 있고, 그 변수를 condition함

Back-door Criterion

Back-door Criterion (Pearl, 1993): Causal effect 식별을 위한 조건

정의: XYX \rightarrow Y의 causal effect를 식별하려면:

  1. XX로 들어오는 화살표로 시작하는 모든 path (back-door path)를 차단
  2. XX의 descendant를 condition하지 않음

예시:

    Z
   ↙ ↘
  X   Y
  • ZZ가 confounder: XZYX \leftarrow Z \rightarrow Y (back-door path)
  • ZZ를 condition하면 causal effect 식별 가능

DAG 그리기 가이드

포함해야 할 변수

  1. Treatment (독립변수)
  2. Outcome (종속변수)
  3. Confounders (common causes)
  4. Mediators (treatment → mediator → outcome)
  5. Colliders (treatment → collider ← outcome)

주의사항

  • 모든 relevant variable 포함
  • 화살표 방향은 causal direction (시간 순서 고려)
  • Unmeasured variable도 표시 (점선 또는 U로)

Example: Education and Income

Intelligence

Education → Income

Intelligence

더 정확히:

      Intelligence
       ↙        ↘
  Education  →  Income
  • Back-door path: Education ← Intelligence → Income
  • Solution: Intelligence를 condition하여 back-door path 차단
  • Causal effect: Education → Income 식별 가능

DAG vs SEM

AspectDAGSEM
ParametricNo (qualitative)Yes (functional form 지정)
FocusIdentificationEstimation
Arrows meaningAny causal effectSpecific functional relationship
UseConceptual reasoningStatistical modeling

Limitations

  1. Untestable assumptions: DAG가 correct한지 data로 검증 불가
  2. Complexity: Real-world DAG는 빠르게 복잡해짐
  3. Temporal dynamics: Static DAG는 feedback loop 표현 어려움
  4. Unmeasured variables: 모든 relevant variable 측정 어려움
  • Confounder - Common cause, back-door path 생성
  • Collider - Common effect, conditioning 시 bias 생성
  • Mediator - Causal pathway 상의 변수
  • Back-door Criterion - Causal effect identification 조건
  • d-separation - DAG에서 independence 판단 규칙
  • SCM - Structural Causal Model
  • Propensity Score - Confounding 조정 방법

References

  • Pearl, J. (2009). Causality: Models, Reasoning, and Inference
  • rohrerThinkingClearlyCorrelations - DAG의 심리학 응용

연결 그래프