Tae Hyun Kim (Lowell)

Back-door Criterion

3분 읽기 #causal-inference#scm#dag

Definition

Back-door Criterion (Pearl, 1993)은 observational data에서 causal effect를 식별하기 위한 graphical criterion. 변수 집합 ZZXYX \rightarrow Y의 causal effect 식별에 충분한지 판단.

Formal Definition:

변수 집합 ZZ(X,Y)(X, Y)에 대해 back-door criterion을 만족하는 조건:

  1. ZZ의 어떤 변수도 XXdescendant가 아님
  2. ZZXXYY를 연결하는 모든 back-door path를 차단

Back-door Path

Back-door path: XX에서 YY로 가는 path 중, XX로 들어오는 화살표로 시작하는 path

X ← ... → Y   (back-door path)
X → ... → Y   (front-door path, causal path)

예시:

    Z
   ↙ ↘
  X   Y
  • Back-door path: XZYX \leftarrow Z \rightarrow Y
  • 이 path를 통해 non-causal association 전달

Intuitive Understanding

핵심 아이디어:

Causal effect = Total association - Spurious association (via back-door)

Total association between X and Y:
  1. Causal path: X → ... → Y
  2. Back-door paths: X ← ... → Y (spurious)

Back-door criterion: 2를 차단하여 1만 남김

비유:

  • 앞문(front-door): X가 Y에 영향을 주는 경로 (인과)
  • 뒷문(back-door): X와 Y가 공통 원인을 통해 연결되는 경로 (비인과)
  • 뒷문을 모두 닫으면 → 인과 효과 식별 가능

Back-door Adjustment Formula

ZZ가 back-door criterion을 만족하면:

P(Ydo(X=x))=zP(YX=x,Z=z)P(Z=z)P(Y|do(X=x)) = \sum_z P(Y|X=x, Z=z) \cdot P(Z=z)

또는 연속형:

E[Ydo(X=x)]=E[YX=x,Z=z]p(z)dzE[Y|do(X=x)] = \int E[Y|X=x, Z=z] \cdot p(z) \, dz

의미:

  • ZZ를 condition하고 평균을 내면 causal effect 얻음
  • Observational data로 interventional distribution 계산 가능

Algorithm: Finding Adjustment Sets

Step 1: 모든 Back-door Path 나열

XX에서 시작하여 XX로 들어오는 화살표를 따라가며 YY에 도달하는 모든 path

Step 2: 각 Path 차단 방법 결정

  • Fork (X ← Z → Y): Z를 condition하면 차단
  • Chain (… → Z → …): Z를 condition하면 차단
  • Collider (…→ Z ←…): Z를 condition하지 않으면 차단 (이미 차단됨)

Step 3: Adjustment Set 선택

  • 모든 back-door path를 차단하는 변수 집합
  • XX의 descendant 포함하지 않음

Examples

Example 1: Simple Confounding

    Z
   ↙ ↘
  X → Y

Back-door path: XZYX \leftarrow Z \rightarrow Y Adjustment set: {Z}\{Z\} Formula: E[Ydo(X)]=zE[YX,Z=z]P(Z=z)E[Y|do(X)] = \sum_z E[Y|X,Z=z] \cdot P(Z=z)

Example 2: Multiple Confounders

  Z1    Z2
   ↘  ↙  ↘
    X  →  Y

Back-door paths:

  1. XZ1YX \leftarrow Z1 \rightarrow Y (없음, Z1→Y 직접 없다면)

Adjustment set: 상황에 따라 {Z1}\{Z1\}, {Z2}\{Z2\}, 또는 {Z1,Z2}\{Z1, Z2\}

Example 3: Collider on Back-door Path

  Z1 → C ← Z2
   ↓       ↓
   X   →   Y

Back-door path: XZ1CZ2YX \leftarrow Z1 \rightarrow C \leftarrow Z2 \rightarrow Y

  • C가 collider → path 이미 차단됨!
  • Adjustment set: \emptyset (아무것도 control 안 해도 됨)

주의: C를 control하면 path가 열림 → bias 발생

Example 4: Mediator

  Z

  X → M → Y

Causal path: XMYX \rightarrow M \rightarrow Y Back-door path: 없음 (Z가 X만 영향)

{Z}\{Z\}로 adjust해도 되고 안 해도 됨 (back-door 없으므로)

주의: M을 adjust하면 안 됨 (front-door path 차단)

Sufficient vs Minimal Adjustment Sets

Sufficient Adjustment Set

  • Back-door criterion을 만족하는 모든 집합

Minimal Adjustment Set

  • Sufficient 중 가장 작은 집합
  • 불필요한 변수 포함하지 않음

Trade-off:

  • 더 많은 변수: 더 robust (누락된 confounding 방지)
  • 더 적은 변수: 더 efficient (variance 감소)

Limitations

  1. DAG 정확성 의존: DAG가 틀리면 결론도 틀림
  2. Unmeasured confounders: 측정되지 않은 변수가 있으면 차단 불가
  3. Sufficient but not necessary: Back-door criterion은 충분조건이지 필요조건 아님

Front-door Criterion

X → M → Y

    U (unobserved confounder)
  • Back-door 차단 불가할 때 대안
  • Mediator를 활용한 identification

Instrumental Variables

  • Back-door 차단 불가할 때 대안
  • Instrument → X → Y 구조 활용
  • DAG - Causal structure 시각화
  • Confounder - Back-door path 생성
  • Collider - Back-door path 차단
  • d-separation - DAG에서 conditional independence
  • Propensity Score - Back-door adjustment 구현
  • Unconfoundedness - No unmeasured confounders

References

  • Pearl, J. (1993). Comment: Graphical models, causality and intervention
  • Pearl, J. (2009). Causality: Models, Reasoning, and Inference
  • rohrerThinkingClearlyCorrelations - Back-door criterion 소개

연결 그래프