Tae Hyun Kim (Lowell)

Collider

3분 읽기 #causal-inference#scm#dag

Definition

Collider는 treatment (X)와 outcome (Y) 모두로부터 영향을 받는 변수 (common effect). X → C ← Y 구조에서 C가 collider.

DAG 표현:

  Treatment (X) → Collider (C) ← Outcome (Y)

핵심 특성:

  • 기본 상태: X와 Y 사이 association 차단
  • C를 condition하면: X와 Y 사이 spurious association 생성 (collider bias)

왜 “Collider”인가?

  • 두 개의 화살표가 같은 변수로 “충돌(collide)“

Intuitive Understanding

핵심 아이디어:

Collider를 control하면, 원래 없던 X-Y 관계가 나타나는 것처럼 보임

예: 데이팅 앱에서 Attractiveness와 Niceness

   Attractive → Date ← Nice
  • Attractive하거나 Nice하면 데이트 상대로 선택됨
  • 전체 인구: Attractiveness와 Niceness는 무관
  • 데이트 상대만 분석 (Date를 condition):
    • “덜 attractive한 사람은 더 nice해야 선택됨”
    • Spurious negative correlation 발생!

Collider Bias Examples

1. Publication Bias (Meta-analysis)

  Methodological Rigor → Publication ← Innovativeness
  • Published 논문만 분석 (Publication에 condition):
    • Rigor가 낮아도 innovative하면 publish
    • Innovative하지 않아도 rigorous하면 publish
  • 결과: Rigor와 Innovativeness가 negatively correlated로 보임
  • Reality: 실제로는 무관하거나 positive correlation

2. Berkson’s Paradox (Hospital Sample)

  Disease A → Hospitalization ← Disease B
  • Hospital sample만 분석:
    • Disease A가 없어도 Disease B로 입원
    • Disease B가 없어도 Disease A로 입원
  • 결과: Disease A와 B가 negatively correlated
  • Population: 실제로는 무관

3. Nonresponse Bias (Survey)

  Variable X → Response ← Variable Y
  • 응답자만 분석 (Response에 condition):
    • X와 Y가 응답 여부에 영향
  • 결과: X-Y 관계가 왜곡

4. Attrition Bias (Longitudinal Study)

  Baseline X → Dropout ← Outcome Y
  • 남은 참가자만 분석 (non-dropout):
    • X와 Y가 dropout 여부에 영향
  • 결과: Selection bias

5. Sample Selection Effect

  Variable X → Sample Selection ← Variable Y
  • 특정 sample만 분석:
    • 예: 성공한 사람들만, 대학 진학자만
  • 결과: X-Y 관계가 population과 다름

Why Does Collider Bias Occur?

Mathematical Intuition

C=f(X,Y)+ϵC = f(X, Y) + \epsilon

C를 condition하면: P(YX,C=c)P(YX)P(Y|X, C=c) \neq P(Y|X)

  • C의 값을 고정하면, X의 정보가 Y에 대한 정보를 제공
  • “X가 크면, C=c를 만족하려면 Y는 작아야 함”

Information Flow

Without conditioning on C:
    X         Y     (no path, independent)

With conditioning on C:
    X → [C] ← Y     (path opened, dependent)
  • Conditioning이 “정보의 통로”를 열어줌

Identifying Colliders

DAG에서 판별

변수 C가 collider인 조건:

  1. XCX \rightarrow C (X가 C에 영향)
  2. YCY \rightarrow C (Y가 C에 영향)

Temporal Clue

Rule of thumb: Post-treatment variable은 collider일 수 있음

  • Treatment와 outcome 이후에 발생하는 변수
  • 예: 최종 결과, 선택 변수

주의: 모든 Post-treatment이 Collider는 아님

X → M → Y    (M은 Mediator, collider 아님)
X → C ← Y    (C는 Collider)

Do NOT Control for Colliders

잘못된 관행

“가능한 한 많은 변수를 control하자” → 위험!

올바른 접근

  1. DAG를 그려서 causal structure 파악
  2. Collider 식별
  3. Collider는 control에서 제외

예외: Collider의 Descendant

X → C ← Y

    D
  • D (C의 descendant)를 control해도 collider bias 발생
  • C에 대한 부분적 정보가 전달되기 때문

Collider vs Confounder

AspectConfounderCollider
DAG 구조X ← Z → YX → C ← Y
역할Common causeCommon effect
기본 상태Spurious association 생성Association 차단
Control 효과Spurious association 제거Spurious association 생성
Control 여부해야 함하면 안 됨
  • DAG - Causal structure 시각화
  • Confounder - Common cause (control 해야 함)
  • Mediator - Causal pathway 상의 변수
  • Back-door Criterion - Causal identification 조건
  • Selection Bias - Collider bias의 한 형태
  • v-structure - Unshielded collider, MEC 구분 핵심

References

  • rohrerThinkingClearlyCorrelations - Collider bias 설명
  • Berkson, J. (1946). Limitations of the application of fourfold table analysis
  • Pearl, J. (2009). Causality

연결 그래프