Positivity (Overlap)
정의
모든 공변량 값에 대해 처치를 받을 확률이 0과 1 사이에 존재
Binary treatment의 경우:
직관적 이해
핵심 아이디어
“모든 특성 조합에서 처치군과 대조군 모두 관측 가능”
- 어떤 값에서도 처치/대조 결과 모두 추정 가능
- 외삽(extrapolation) 없이 인과 효과 추정
Common Support
처치군과 대조군의 공변량 분포가 겹치는(overlap) 영역:
대조군 분포 처치군 분포
___ ___
/ \ / \
/ \ / \
/ \ / \
___/ overlap region \___
<=================>
Common Support
Positivity 위반
1. Deterministic Treatment (결정론적 처치)
특정 값에서 처치가 결정적:
예시:
- 나이 > 65세는 항상 프로그램 A만 제공
- 특정 지역에서는 신제품 미출시
- 금기 사항이 있는 환자는 해당 약물 처방 불가
2. Practical Positivity Violation
이론적으로는 가능하지만 데이터에서 관측 안 됨:
- 샘플 크기 작음
- 희귀한 공변량 조합
Propensity Score 관점
극단적인 propensity score → Positivity 위반 신호
위반의 영향
1. IPW 불안정
Inverse Propensity Weighting에서:
또는 이면 가중치 폭발.
2. 추정 불가능
인 영역:
- 추정 불가능 (처치군 없음)
인 영역:
- 추정 불가능 (대조군 없음)
3. 높은 분산
Overlap이 약할수록 추정량의 분산 증가.
진단 방법
1. Propensity Score 히스토그램
# 처치/대조군의 PS 분포 비교
import matplotlib.pyplot as plt
plt.hist(ps[W==1], alpha=0.5, label='Treated')
plt.hist(ps[W==0], alpha=0.5, label='Control')
plt.legend()
좋은 overlap: 두 분포가 크게 겹침 나쁜 overlap: 분리된 분포
2. 극단적 PS 비율
extreme_ps = (ps < 0.01) | (ps > 0.99)
print(f"Extreme PS: {extreme_ps.mean()*100:.1f}%")
3. Common Support 확인
처치군 PS 범위와 대조군 PS 범위의 교집합 확인.
해결 방법
1. Trimming (절삭)
극단적 propensity score를 가진 샘플 제거:
일반적으로 또는 .
자세한 내용: Trimming
장점: 안정적 추정 단점: 추정 대상 변경 (전체 ATE → 조건부 ATE)
2. Overlap Weighting
극단적 PS 영역에 적은 가중치:
자세한 내용: Overlap Weighting
3. Bounds Estimation
Positivity 위반 영역에서 bounds 제공:
Partial identification approach.
4. Extrapolation (주의 필요)
모델 기반 외삽:
- 모델 가정에 강하게 의존
- Sensitivity analysis 필수
관련 개념
- Causal Assumptions Overview - 3대 가정 통합 정리
- Strong Ignorability - Ignorability + Positivity
- Propensity Score -
- IPW - Positivity에 민감한 방법
- Trimming - Positivity 위반 대응
- Overlap Weighting - 강건한 가중 방법
참고 논문
- Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score
- yaoSurveyCausalInference2021 - Section 2.3
- Crump, R. K., et al. (2009). Dealing with limited overlap in estimation of average treatment effects