From Estimation to Action — How HTE Drives Personalized Policy Across Domains
평균은 거짓말을 한다. 어떤 약이 환자 집단 전체에서 평균적으로 효과 있다는 사실은, 눈앞의 한 환자에게 그 약을 줄지 말지에 대해 놀라울 만큼 적은 정보를 준다. 어떤 쿠폰이 고객 전체에서 평균적으로 매출을 올린다는 사실 역시, 눈앞의 한 고객에게 그 쿠폰을 보낼지에 대해 거의 말해주지 않는다. 두 질문은 표면적으로 전혀 다른 세계 — 병원과 마케팅 — 에 속하지만, 수학적으로는 같은 질문이다. 이 글은 그 동형성(isomorphism)을 따라간다.
통합 아이디어 — 추정에서 행동으로
개인화(personalization)의 핵심 주장은 한 문장으로 압축된다: 효과는 사람마다 다르고, 좋은 결정은 그 차이를 활용한다. 이 주장을 실행 가능한 방법론으로 바꾸면 두 단계가 된다.
-
추정(estimation) — 처치 효과가 개인의 특성 에 따라 어떻게 달라지는지 추정한다. 이것이 CATE(Conditional Average Treatment Effect), 즉 HTE(Heterogeneous Treatment Effect)다: 여기서 는 처치 여부에 따른 potential outcome이다. 가 에 대해 평평하면 개인화는 의미가 없다. 가 출렁일 때 — 누군가는 크게 이득을 보고 누군가는 손해를 볼 때 — 비로소 개인화가 가치를 만든다.
-
행동(action) — 추정된 를 개인 수준 정책 로 번역한다. 가장 단순한 형태는 임계값 규칙이다: 는 비용 대비 효익의 손익분기점(breakeven)이다. 임상에서는 부작용·비용 대비 기대 이득, 산업에서는 쿠폰 단가·한계 비용이 를 정한다. 같은 부등식, 다른 단위.
이 추정 → 행동의 호(arc)가 개인화의 척추다. 그리고 이 척추는 도메인을 가리지 않는다.
방법의 호(arc)
1단계 — CATE를 어떻게 추정하나
순진하게 처치군과 대조군의 결과를 빼면 confounding이 개입한다. 관측 데이터에서는 처치를 받은 사람과 받지 않은 사람이 애초에 다르기 때문이다. 그래서 개인화는 인과추론을 빌려온다.
- Meta-learners — S-/T-/X-learner처럼 임의의 ML 회귀기를 조립해 를 추정하는 메타 알고리즘. 유연하지만 plug-in bias에 취약하다.
- Doubly Robust Estimator — outcome 모델과 propensity 모델 중 하나만 맞아도 일치성(consistency)을 잃지 않는 추정량. DR-learner·AIPW 계열이 여기 속하며, 이 이중 보호 덕분에 관측 데이터에서 신뢰할 수 있는 를 얻는 표준 도구가 된다.
핵심은 추정 자체가 목적이 아니라는 점이다. 는 다음 단계, 즉 정책의 입력일 뿐이다. 그래서 추정 단계에서 작은 편향이라도 정책의 결정 경계를 흔든다 — 추정의 품질이 곧 행동의 품질이다.
2단계 — 정책을 어떻게 검증하나
로 정책 를 만들었다고 해서 그 정책이 실제로 더 나은지는 아직 모른다. 새 정책을 현실에 풀어 A/B 테스트하는 것은 임상에서는 윤리적으로, 산업에서는 비용 면에서 종종 불가능하다. 그래서 우리는 이미 쌓인 로그(logged data) 만으로 정책의 가치를 추정한다 — Off-Policy Evaluation(OPE)이다.
여기서 는 로그를 만든 행동 정책(behavior policy)의 처치 확률이다. importance weighting으로 “만약 새 정책을 따랐다면 결과가 어땠을까”를 반사실적으로(counterfactually) 재구성한다. doubly robust OPE는 1단계의 이중 보호를 정책 평가에까지 확장한다. 추정과 평가가 같은 인과 기계를 공유한다.
3단계 — 한 번이 아니라 순차적으로
지금까지는 단일 시점 결정을 다뤘다. 현실의 개인화는 보통 순차적이다. 환자는 1차 치료에 반응하고, 그 반응을 보고 2차 치료를 정한다. 고객은 이번 캠페인에 반응하고, 그 반응을 보고 다음 접점을 정한다. 이 순차 구조를 정식화한 것이 Dynamic Treatment Regimes(DTR/OTR)다.
DTR은 각 단계에서 “지금까지의 이력(history)을 보고 다음 행동을 정하는 규칙”의 수열 을 학습한다. backward induction(Q-learning·A-learning 등)으로 마지막 단계부터 거꾸로 최적 규칙을 풀어 올라간다. 임상의 다단계 항암 regimen이든, 산업의 lifecycle 타겟팅이든 — 수학적 골격은 동일한 sequential decision problem이다.
왜 도메인을 가로지르는가 — 듀얼리티 표
이제 핵심 주장을 표로 못 박는다. 각 행은 하나의 공통 method core가 임상과 산업에서 각각 어떤 얼굴로 나타나는지를 보여준다. 왼쪽과 오른쪽은 같은 수식의 두 해석일 뿐이다.
| Method core | 임상 얼굴 (clinical) | 산업 얼굴 (industrial) |
|---|---|---|
| CATE / HTE | 환자별 치료효과 이질성 | 고객별 캠페인 반응 이질성 (Uplift Modeling) |
| 표현(representation) | 환자 phenotype·아형 | 고객 세그먼트·프로파일 |
| 정책 규칙 | 최적 치료 배정 (treat / no-treat) | 최적 타겟팅·가격 정책 |
| 임계값 | 부작용·비용 대비 기대 이득 | 쿠폰 단가·한계 비용·breakeven |
| Off-Policy Evaluation | 로그 진료 하 regimen value | 로그 노출 하 캠페인·입찰 value |
| Dynamic Treatment Regimes | 순차 항암·만성질환 regime | 순차 입찰·lifecycle 타겟팅 |
표의 형태가 본질이다. 컬럼을 가려도 행은 같은 method를 가리킨다. 임상 연구에서 환자별 CATE를 추정하고 그것을 개인 치료 배정으로 번역하는 파이프라인과, 산업 데이터에서 고객별 uplift를 추정하고 그것을 타겟팅 정책으로 번역하는 파이프라인은 — 변수 이름과 손익분기점 의 단위만 다를 뿐 — 같은 코드 골격, 같은 통계적 보증 위에 선다.
왜 이게 중요한가
이 듀얼리티는 단순한 비유가 아니라 이전 가능성(transferability) 의 주장이다.
- 방법은 한 번 배우고 두 번 쓴다. 산업의 공개 데이터(예: 소매 거래 로그)로 검증한 HTE-타겟팅 파이프라인은, 같은 수식이 임상 순차 결정으로 곧장 옮겨간다. 공개 데이터에서 1급 증거로 검증하고, 그 신뢰를 데이터 접근이 제한된 임상 도메인으로 방법론째 이전하는 전략이 성립한다.
- 실패도 같은 곳에서 난다. positivity(overlap) 위반, confounding, OPE의 분산 폭발, 정책 임계값 부근의 불안정성 — 이 위험들은 도메인을 가리지 않고 같은 진단·같은 처방을 요구한다.
- 신뢰층도 공유된다. 결정마다 따라붙어야 하는 validity·coverage·risk 보증 — conformal·calibration·anytime-valid — 역시 임상이든 산업이든 같은 결정 객체에 씌운다.
요컨대 개인화는 임상과 산업을 잇는 별개의 두 응용이 아니라, 하나의 방법론 코어가 가진 두 개의 얼굴이다. 추정에서 행동으로 가는 그 호(arc)를 한 도메인에서 단단히 세우면, 다른 도메인은 번역 문제로 환원된다.
Related Concepts
- CATE · HTE — 개인화의 추정 표적
- Meta-learners · Doubly Robust Estimator — CATE 추정 도구
- Off-Policy Evaluation — 정책 가치의 로그 기반 검증
- Dynamic Treatment Regimes — 순차 개인화 정책
- Targeting Overview · Uplift Modeling · Optimal Targeting Policy — 산업 얼굴의 표현 → 효과 → 결정
- 상위 지도: MOC-Personalization (through-line) · MOC-CausalInference (P1) · MOC-DecisionUnderUncertainty (P2)