Tae Hyun Kim (Lowell)

From Estimation to Action — How HTE Drives Personalized Policy Across Domains

평균은 거짓말을 한다. 어떤 약이 환자 집단 전체에서 평균적으로 효과 있다는 사실은, 눈앞의 한 환자에게 그 약을 줄지 말지에 대해 놀라울 만큼 적은 정보를 준다. 어떤 쿠폰이 고객 전체에서 평균적으로 매출을 올린다는 사실 역시, 눈앞의 한 고객에게 그 쿠폰을 보낼지에 대해 거의 말해주지 않는다. 두 질문은 표면적으로 전혀 다른 세계 — 병원과 마케팅 — 에 속하지만, 수학적으로는 같은 질문이다. 이 글은 그 동형성(isomorphism)을 따라간다.

통합 아이디어 — 추정에서 행동으로

개인화(personalization)의 핵심 주장은 한 문장으로 압축된다: 효과는 사람마다 다르고, 좋은 결정은 그 차이를 활용한다. 이 주장을 실행 가능한 방법론으로 바꾸면 두 단계가 된다.

  1. 추정(estimation) — 처치 효과가 개인의 특성 xx에 따라 어떻게 달라지는지 추정한다. 이것이 CATE(Conditional Average Treatment Effect), 즉 HTE(Heterogeneous Treatment Effect)다: τ(x)=E[Y(1)Y(0)X=x]\tau(x) = \mathbb{E}[Y(1) - Y(0) \mid X = x] 여기서 Y(1),Y(0)Y(1), Y(0)는 처치 여부에 따른 potential outcome이다. τ(x)\tau(x)xx에 대해 평평하면 개인화는 의미가 없다. τ(x)\tau(x)가 출렁일 때 — 누군가는 크게 이득을 보고 누군가는 손해를 볼 때 — 비로소 개인화가 가치를 만든다.

  2. 행동(action) — 추정된 τ(x)\tau(x)를 개인 수준 정책 π(x)\pi(x)로 번역한다. 가장 단순한 형태는 임계값 규칙이다: π(x)=1{τ(x)>c}\pi(x) = \mathbb{1}\{\tau(x) > c\} cc는 비용 대비 효익의 손익분기점(breakeven)이다. 임상에서는 부작용·비용 대비 기대 이득, 산업에서는 쿠폰 단가·한계 비용이 cc를 정한다. 같은 부등식, 다른 단위.

추정 → 행동의 호(arc)가 개인화의 척추다. 그리고 이 척추는 도메인을 가리지 않는다.

방법의 호(arc)

1단계 — CATE를 어떻게 추정하나

순진하게 처치군과 대조군의 결과를 빼면 confounding이 개입한다. 관측 데이터에서는 처치를 받은 사람과 받지 않은 사람이 애초에 다르기 때문이다. 그래서 개인화는 인과추론을 빌려온다.

  • Meta-learners — S-/T-/X-learner처럼 임의의 ML 회귀기를 조립해 τ(x)\tau(x)를 추정하는 메타 알고리즘. 유연하지만 plug-in bias에 취약하다.
  • Doubly Robust Estimator — outcome 모델과 propensity 모델 중 하나만 맞아도 일치성(consistency)을 잃지 않는 추정량. DR-learner·AIPW 계열이 여기 속하며, 이 이중 보호 덕분에 관측 데이터에서 신뢰할 수 있는 τ^(x)\hat\tau(x)를 얻는 표준 도구가 된다.

핵심은 추정 자체가 목적이 아니라는 점이다. τ^(x)\hat\tau(x)는 다음 단계, 즉 정책의 입력일 뿐이다. 그래서 추정 단계에서 작은 편향이라도 정책의 결정 경계를 흔든다 — 추정의 품질이 곧 행동의 품질이다.

2단계 — 정책을 어떻게 검증하나

τ^(x)\hat\tau(x)로 정책 π\pi를 만들었다고 해서 그 정책이 실제로 더 나은지는 아직 모른다. 새 정책을 현실에 풀어 A/B 테스트하는 것은 임상에서는 윤리적으로, 산업에서는 비용 면에서 종종 불가능하다. 그래서 우리는 이미 쌓인 로그(logged data) 만으로 정책의 가치를 추정한다 — Off-Policy Evaluation(OPE)이다.

V(π)=E ⁣[1{A=π(X)}μ(AX)Y]V(\pi) = \mathbb{E}\!\left[\frac{\mathbb{1}\{A = \pi(X)\}}{\mu(A \mid X)}\, Y\right]

여기서 μ\mu는 로그를 만든 행동 정책(behavior policy)의 처치 확률이다. importance weighting으로 “만약 새 정책을 따랐다면 결과가 어땠을까”를 반사실적으로(counterfactually) 재구성한다. doubly robust OPE는 1단계의 이중 보호를 정책 평가에까지 확장한다. 추정과 평가가 같은 인과 기계를 공유한다.

3단계 — 한 번이 아니라 순차적으로

지금까지는 단일 시점 결정을 다뤘다. 현실의 개인화는 보통 순차적이다. 환자는 1차 치료에 반응하고, 그 반응을 보고 2차 치료를 정한다. 고객은 이번 캠페인에 반응하고, 그 반응을 보고 다음 접점을 정한다. 이 순차 구조를 정식화한 것이 Dynamic Treatment Regimes(DTR/OTR)다.

DTR은 각 단계에서 “지금까지의 이력(history)을 보고 다음 행동을 정하는 규칙”의 수열 π=(π1,π2,,πK)\pi = (\pi_1, \pi_2, \dots, \pi_K)을 학습한다. backward induction(Q-learning·A-learning 등)으로 마지막 단계부터 거꾸로 최적 규칙을 풀어 올라간다. 임상의 다단계 항암 regimen이든, 산업의 lifecycle 타겟팅이든 — 수학적 골격은 동일한 sequential decision problem이다.

왜 도메인을 가로지르는가 — 듀얼리티 표

이제 핵심 주장을 표로 못 박는다. 각 행은 하나의 공통 method core가 임상과 산업에서 각각 어떤 얼굴로 나타나는지를 보여준다. 왼쪽과 오른쪽은 같은 수식의 두 해석일 뿐이다.

Method core임상 얼굴 (clinical)산업 얼굴 (industrial)
CATE / HTE환자별 치료효과 이질성고객별 캠페인 반응 이질성 (Uplift Modeling)
표현(representation)환자 phenotype·아형고객 세그먼트·프로파일
정책 규칙 π(x)\pi(x)최적 치료 배정 (treat / no-treat)최적 타겟팅·가격 정책
임계값 cc부작용·비용 대비 기대 이득쿠폰 단가·한계 비용·breakeven
Off-Policy Evaluation로그 진료 하 regimen value로그 노출 하 캠페인·입찰 value
Dynamic Treatment Regimes순차 항암·만성질환 regime순차 입찰·lifecycle 타겟팅

표의 형태가 본질이다. 컬럼을 가려도 행은 같은 method를 가리킨다. 임상 연구에서 환자별 CATE를 추정하고 그것을 개인 치료 배정으로 번역하는 파이프라인과, 산업 데이터에서 고객별 uplift를 추정하고 그것을 타겟팅 정책으로 번역하는 파이프라인은 — 변수 이름과 손익분기점 cc의 단위만 다를 뿐 — 같은 코드 골격, 같은 통계적 보증 위에 선다.

왜 이게 중요한가

이 듀얼리티는 단순한 비유가 아니라 이전 가능성(transferability) 의 주장이다.

  • 방법은 한 번 배우고 두 번 쓴다. 산업의 공개 데이터(예: 소매 거래 로그)로 검증한 HTE-타겟팅 파이프라인은, 같은 수식이 임상 순차 결정으로 곧장 옮겨간다. 공개 데이터에서 1급 증거로 검증하고, 그 신뢰를 데이터 접근이 제한된 임상 도메인으로 방법론째 이전하는 전략이 성립한다.
  • 실패도 같은 곳에서 난다. positivity(overlap) 위반, confounding, OPE의 분산 폭발, 정책 임계값 부근의 불안정성 — 이 위험들은 도메인을 가리지 않고 같은 진단·같은 처방을 요구한다.
  • 신뢰층도 공유된다. 결정마다 따라붙어야 하는 validity·coverage·risk 보증 — conformal·calibration·anytime-valid — 역시 임상이든 산업이든 같은 결정 객체에 씌운다.

요컨대 개인화는 임상과 산업을 잇는 별개의 두 응용이 아니라, 하나의 방법론 코어가 가진 두 개의 얼굴이다. 추정에서 행동으로 가는 그 호(arc)를 한 도메인에서 단단히 세우면, 다른 도메인은 번역 문제로 환원된다.

연결 그래프