Positivity (Overlap)

정의

모든 공변량 값에 대해 처치를 받을 확률이 0과 1 사이에 존재

0 < P(W=w \mid X=x) < 1, \quad \forall w \in \{0, 1\}, \, \forall x \in \mathcal{X}

Binary treatment의 경우:

0 < e(x) < 1, \quad \text{where } e(x) = P(W=1 \mid X=x)

직관적 이해

핵심 아이디어

“모든 특성 조합에서 처치군과 대조군 모두 관측 가능”

어떤 $X$ 값에서도 처치/대조 결과 모두 추정 가능
외삽(extrapolation) 없이 인과 효과 추정

Common Support

처치군과 대조군의 공변량 분포가 겹치는(overlap) 영역:

       대조군 분포        처치군 분포
           ___               ___
          /   \             /   \
         /     \           /     \
        /       \         /       \
    ___/    overlap region   \___
        <=================>
              Common Support

Positivity 위반

1. Deterministic Treatment (결정론적 처치)

특정 $X$ 값에서 처치가 결정적:

예시:

나이 > 65세는 항상 프로그램 A만 제공
특정 지역에서는 신제품 미출시
금기 사항이 있는 환자는 해당 약물 처방 불가

2. Practical Positivity Violation

이론적으로는 가능하지만 데이터에서 관측 안 됨:

샘플 크기 작음
희귀한 공변량 조합

Propensity Score 관점

e(x) \approx 0 \quad \text{or} \quad e(x) \approx 1

극단적인 propensity score → Positivity 위반 신호

위반의 영향

1. IPW 불안정

Inverse Propensity Weighting에서:

\text{Weight} = \frac{1}{e(x)} \quad \text{or} \quad \frac{1}{1-e(x)}

$e(x) \to 0$ 또는 $e(x) \to 1$ 이면 가중치 폭발.

2. 추정 불가능

$e(x) = 0$ 인 영역:

$E[Y(1) \mid X=x]$ 추정 불가능 (처치군 없음)

$e(x) = 1$ 인 영역:

$E[Y(0) \mid X=x]$ 추정 불가능 (대조군 없음)

3. 높은 분산

Overlap이 약할수록 추정량의 분산 증가.

진단 방법

1. Propensity Score 히스토그램

# 처치/대조군의 PS 분포 비교
import matplotlib.pyplot as plt

plt.hist(ps[W==1], alpha=0.5, label='Treated')
plt.hist(ps[W==0], alpha=0.5, label='Control')
plt.legend()

좋은 overlap: 두 분포가 크게 겹침 나쁜 overlap: 분리된 분포

2. 극단적 PS 비율

extreme_ps = (ps < 0.01) | (ps > 0.99)
print(f"Extreme PS: {extreme_ps.mean()*100:.1f}%")

3. Common Support 확인

처치군 PS 범위와 대조군 PS 범위의 교집합 확인.

해결 방법

1. Trimming (절삭)

극단적 propensity score를 가진 샘플 제거:

\{i : \alpha < e(x_i) < 1-\alpha\}

일반적으로 $\alpha = 0.01$ 또는 $0.05$ .

자세한 내용: Trimming

장점: 안정적 추정 단점: 추정 대상 변경 (전체 ATE → 조건부 ATE)

2. Overlap Weighting

극단적 PS 영역에 적은 가중치:

h(x) = e(x)(1-e(x))

자세한 내용: Overlap Weighting

3. Bounds Estimation

Positivity 위반 영역에서 bounds 제공:

\tau_{lb} \leq \text{ATE} \leq \tau_{ub}

Partial identification approach.

4. Extrapolation (주의 필요)

모델 기반 외삽:

모델 가정에 강하게 의존
Sensitivity analysis 필수

참고 논문

Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score
yaoSurveyCausalInference2021 - Section 2.3
Crump, R. K., et al. (2009). Dealing with limited overlap in estimation of average treatment effects

정의