Design Effect · Tae Hyun Kim (Lowell)

import numpy as np

def sample_size_clustered(baseline_rate, mde_relative, icc, cluster_size,
                          alpha=0.05, power=0.80):
    """
    클러스터 랜덤화를 위한 샘플 사이즈 계산
    """
    from scipy import stats

    # 개인 수준 필요 샘플
    p1 = baseline_rate
    p2 = baseline_rate * (1 + mde_relative)

    z_alpha = stats.norm.ppf(1 - alpha/2)
    z_beta = stats.norm.ppf(power)

    n_individual = 2 * ((z_alpha + z_beta)**2 * p1 * (1-p1)) / (p2 - p1)**2

    # 설계 효과
    deff = 1 + (cluster_size - 1) * icc

    # 클러스터 수준 필요 샘플
    n_clustered = n_individual * deff

    # 필요 클러스터 수
    n_clusters = np.ceil(n_clustered / cluster_size)

    return {
        'n_individual': int(n_individual),
        'deff': deff,
        'n_clustered': int(n_clustered),
        'n_clusters_per_arm': int(n_clusters / 2),
        'total_sample': int(n_clusters * cluster_size)
    }

# 예: 도시 수준 클러스터, ICC=0.05, 도시당 1000명
result = sample_size_clustered(
    baseline_rate=0.05,
    mde_relative=0.10,
    icc=0.05,
    cluster_size=1000
)

print(f"개인 랜덤화 필요 샘플: {result['n_individual']:,}")
print(f"설계 효과: {result['deff']:.2f}")
print(f"클러스터 랜덤화 필요 샘플: {result['n_clustered']:,}")
print(f"필요 클러스터 수 (그룹당): {result['n_clusters_per_arm']}")

클러스터 랜덤화 구현

import hashlib

def cluster_randomize(cluster_id, experiment_name, treatment_prob=0.5):
    """클러스터 수준 무작위 할당"""
    hash_input = f"{cluster_id}_{experiment_name}"
    hash_value = int(hashlib.md5(hash_input.encode()).hexdigest(), 16)
    return 'treatment' if (hash_value % 100) / 100 < treatment_prob else 'control'

# 도시 수준 클러스터
cities = ['Seoul', 'Busan', 'Incheon', 'Daegu', 'Daejeon']
for city in cities:
    group = cluster_randomize(city, 'price_exp_2024')
    print(f"{city}: {group}")

ICC 추정

import statsmodels.formula.api as smf

def estimate_icc(data, outcome_col, cluster_col):
    """
    혼합 효과 모델로 ICC 추정
    """
    # 널 모델 (무작위 절편만)
    model = smf.mixedlm(
        f"{outcome_col} ~ 1",
        data,
        groups=data[cluster_col]
    )
    result = model.fit()

    # 분산 성분 추출
    var_between = result.cov_re.iloc[0, 0]  # 클러스터 간 분산
    var_within = result.scale              # 클러스터 내 분산

    icc = var_between / (var_between + var_within)

    return icc

# ICC 추정
icc = estimate_icc(data, 'purchase_amount', 'city')
print(f"추정 ICC: {icc:.4f}")

A-B Testing - DEFF가 적용되는 맥락
Statistical Power - DEFF가 영향을 미치는 대상
CUPED - 분산 감소의 다른 접근법

References

Kish, L. (1965). Survey Sampling.
Donner, A., & Klar, N. (2000). Design and Analysis of Cluster Randomization Trials.
Comprehensive Personalized Pricing Guide, Part V, §15.3

연결 그래프