Causal Inference Under Partial Identification — Sensitivity and Evidence Hierarchies

교과서의 인과추론은 깔끔한 가정 위에 서 있다. strong ignorability — 측정한 공변량에 조건부로 처치가 잠재 결과와 독립이고( $\{Y(0),Y(1)\}\perp A\mid X$ ), 모든 단위가 양쪽 처치를 받을 양의 확률을 가진다(Positivity). 이 둘이 성립하면 ATE는 점식별(point identification) 되고, 우리는 단 하나의 숫자와 그 신뢰구간을 보고하면 된다. 문제는 현실 데이터 — EHR, 청구 데이터, 관측 코호트, 로그 — 가 이 가정을 거의 만족하지 않는다는 데 있다. 측정되지 않은 교란( $U$ )은 거의 항상 존재하고, 어떤 환자군은 특정 치료를 사실상 받지 못한다(positivity 위반).

그렇다면 선택지는 두 가지처럼 보인다. 검증 불가한 가정을 믿고 단일 숫자를 보고하거나(과신), 아니면 “관측 데이터로는 아무것도 말할 수 없다”고 포기하거나(과소). 이 글의 주장은 그 사이에 풍부한 중간 지대가 있다는 것이다. proximal 방법, partial identification, sensitivity analysis는 가정이 깨질 때 우리가 무엇을 여전히 정직하게 말할 수 있는지를 정량화한다. 이것들은 서로 경쟁하는 기법이 아니라, 하나의 증거 위계(evidence hierarchy) 를 이루는 단계들이다.

통합 아이디어: 식별은 이진(binary)이 아니다

핵심 전환은 식별을 “되거나 안 되거나”의 이진 사건이 아니라 연속적인 스펙트럼으로 보는 것이다. 한쪽 끝에는 가정 없는 worst-case bound가 있고(정보는 가장 적지만 가장 정직하다), 다른 쪽 끝에는 strong ignorability 하의 점식별이 있다(가장 정밀하지만 가장 취약하다). 그 사이의 모든 지점은 가정 ↔ 정밀도 trade-off 위의 한 선택이다. 가정을 더 넣으면 추정 집합이 좁아지고, 빼면 넓어진다.

이 렌즈에서 보면 세 계열의 방법은 같은 질문에 대한 서로 다른 답이다 — “strong ignorability를 포기하면, 데이터는 여전히 무엇을 떠받칠 수 있는가?”

방법 아크(arc): 가정을 완화하는 세 단계

1. Proximal 방법 — 측정 못 한 교란을 그림자로 삼각측량

unconfoundedness가 깨지는 가장 흔한 이유는 비관측 교란 $U$ 다. Proximal Causal Inference의 통찰은, $U$ 를 직접 측정하지 못하더라도 그것의 두 그림자(proxy) 를 관측할 수 있다면 효과를 복원할 수 있다는 것이다. 두 종류의 proxy가 필요하다:

negative control exposure (NCE) $Z$ — 결과에 인과효과가 없는 노출이지만 $U$ 와는 연관됨.
negative control outcome (NCO) $W$ — 처치의 영향을 받지 않지만 같은 $U$ 의 그림자를 받는 결과변수.

NCO는 “탄광의 카나리아”다. 움직이면 안 되는데 겉보기 효과가 0이 아니면, 그것은 비관측 교란의 신호다 — 탐지(detection)의 도구. 더 나아가 outcome confounding bridge 함수 $h$ 가 Fredholm 적분방정식

$E[Y\mid Z,A,X]=E\big[h(W,A,X)\mid Z,A,X\big]$

을 풀면, 인과효과는 $h$ 의 범함수로 식별된다 — 보정(correction)의 도구. 핵심 가능 조건은 completeness: proxy가 $U$ 의 변동을 충분히 비추어야 한다. 강한 ignorability를 가정하는 대신, proximal은 그것을 proxy 구조에 대한 가정으로 교환한다. 이는 임상 multimodal 데이터에서 특히 매력적이다 — 영상, 검사 수치, 텍스트가 같은 잠재 상태의 서로 다른 그림자일 수 있기 때문이다.

2. Partial Identification — 점 대신 집합을 보고한다

proxy조차 부족할 때, Partial Identification은 한 발 물러선다. 점식별이 불가능하면, 모수는 데이터 + 명시한 가정과 양립하는 identified set $\Theta_I$ (흔히 구간 $[\theta_L,\theta_U]$ )에 속한다는 것만 안다. Manski의 무가정 bound가 출발점이다 — 잠재 결과의 지지(support)만 쓰고 식별 가정은 전혀 더하지 않는, 가장 넓지만 가장 방어 가능한 범위.

여기서 sharp bound가 중요하다 — 가용 정보를 모두 쓴 가장 좁은 집합. 그리고 추론은 미묘해진다: 우리는 집합이 아니라 모수에 대한 신뢰구간을 원한다. Imbens–Manski(2004)의 구성이 이를 위한 표준이다. partial identification의 정신은 “정직한 불가지론(honest agnosticism)” 이다 — 검증 불가한 가정 하의 단일 숫자 대신, 데이터가 떠받칠 수 있는 범위를 보고한다. 가정을 하나씩 더할 때마다 집합이 어떻게 좁아지는지를 보여주는 것 자체가 분석의 결과물이 된다.

3. Sensitivity Analysis — 결론을 뒤집으려면 교란이 얼마나 강해야 하는가

세 번째 단계는 질문을 뒤집는다. partial ID가 “데이터가 무엇을 떠받치는가”를 묻는다면, sensitivity analysis는 “내 결론을 무너뜨리려면 비관측 교란이 얼마나 강해야 하는가?” 를 묻는다. unconfoundedness를 명시적으로 위반하는 모형 — 예컨대 처치 배정과 결과 양쪽에 작용하는 잠재 $U$ 의 강도를 한두 개의 sensitivity 모수로 매개변수화하는 — 을 세우고, 추정치의 부호나 유의성이 뒤집히는 임계 강도를 계산한다.

이 접근의 힘은 해석 가능성에 있다. “검출된 효과를 설명해 없애려면, 비관측 교란이 우리가 측정한 가장 강한 공변량보다 더 강하게 처치와 결과 양쪽에 연관되어야 한다”는 식의 진술은, 임상의나 정책 결정자가 도메인 지식으로 평가할 수 있는 형태다. 효과가 작은 교란에도 깨지면 결론은 fragile하고, 비현실적으로 강한 교란을 요구하면 robust하다. anytime-valid 추론과 만나면 E-value 같은 형태로 증거의 강도를 한 숫자로 요약하기도 한다.

효율성과의 연결: 정직함이 정밀함을 포기한다는 뜻은 아니다

여기서 흔한 오해를 짚어야 한다 — 가정을 완화하면 추정이 비효율적이 되어야 한다는 것. 사실은 그 반대에 가깝다. 위 세 방법이 식별된 모수(좁아진 집합의 끝점이든, bridge 함수의 범함수든)를 일단 정의하고 나면, 그 모수를 추정하는 단계에서 semiparametric 효율 이론이 그대로 작동한다.

각 모수에는 efficient influence function (EIF) 이 있고, 그 분산이 도달 가능한 semiparametric efficiency bound(모든 parametric submodel의 Cramér–Rao bound의 상한)를 정한다. ATE의 EIF는 잘 알려진 AIPW 형태

$\phi(O)=\mu_1(X)-\mu_0(X)-\psi+\frac{A\,(Y-\mu_1(X))}{e(X)}-\frac{(1-A)(Y-\mu_0(X))}{1-e(X)}$

이며, proximal bridge나 sensitivity 모형의 모수도 각자의 EIF를 가진다. EIF를 추정방정식으로 쓰면 — Double-Debiased ML의 Neyman 직교성 + cross-fitting과 결합해 — nuisance 함수(outcome 모형, propensity, bridge)를 유연한 ML로 추정하면서도 표적 모수에 대해 $\sqrt{n}$ -일관적이고 doubly robust한 추론을 얻는다. 즉 식별 단계의 정직함(어떤 가정 하에서 무엇이 식별되는가)과 추정 단계의 효율성(그 모수를 얼마나 정밀하게 추정하는가)은 분리된 두 축이고, 후자는 전자가 어떤 위계에 있든 동일한 기계로 처리된다. positivity가 약한 영역에서는 propensity가 0이나 1에 붙어 weight가 폭발하므로, overlap weighting이나 trimming으로 추정 대상 모집단을 조정하는 것 또한 같은 정직함의 일부다.

왜 도메인을 가로질러 중요한가

이 위계는 특정 분야의 기교가 아니다. 임상 의사결정에서는 RCT가 윤리적·비용상 불가능한 경우가 많고, 관측 EHR에는 측정 못 한 질병 중증도나 의사 선호가 교란으로 숨어 있다. proximal·partial-ID·sensitivity는 “이 치료가 효과 있다”를 얼마나 강하게 주장할 수 있는지를 정직하게 등급화한다 — 규제·임상 채택의 언어와 정확히 맞물린다. 산업 타깃팅·가격·추천에서는 로그가 과거 정책으로 오염되어 있고(Off-Policy Evaluation의 고질병), 어떤 사용자 세그먼트는 특정 처치를 받은 적이 없다(positivity 위반). 같은 도구들이 “이 캠페인의 uplift 추정이 숨은 selection에 얼마나 견디는가”를 답한다.

through-line은 동일하다: 개인화된 의사결정은 결국 처치별 잠재 결과의 차이를 신뢰성 있게 추정하는 문제이고, 현실 데이터는 그 신뢰성을 거저 주지 않는다. partial identification·proximal·sensitivity는 우리가 모르는 것을 모른다고 말하되, 아는 것의 경계는 가능한 한 날카롭게 그리는 방법론적 정직함이다. 그리고 그 경계 안에서, semiparametric 효율 이론이 가능한 가장 좁은 신뢰구간을 보장한다. 이것이 검증 불가한 가정에 의존하지 않고도 credible한 인과 주장을 만드는 길이다.

Partial Identification — Manski bounds, identified set, sharp bounds, Imbens–Manski CI
Proximal Causal Inference — proxy 변수와 outcome confounding bridge로 비관측 교란 보정
Negative Control Outcome — 비관측 교란의 카나리아, 탐지 + 보정
Positivity — overlap 가정과 그 위반이 추정에 미치는 영향
Efficient Influence Function — 식별된 모수의 효율 하한
AIPW — ATE의 EIF에 대응하는 doubly robust 추정량
Double-Debiased ML — Neyman 직교성 + cross-fitting으로 유연한 nuisance 추정

연결 그래프