Tae Hyun Kim (Lowell)

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

21분 읽기 #targeting#segmentation

← README로 돌아가기


한눈에 보기 (TL;DR)

3줄 요약

  1. Dunnhumby 2,500가구·~260만 거래·102주 데이터에 NMF (k=5, 설명분산 92.44%) + K-Means (k=7) 를 적용해 7개 고객 세그먼트를 도출했다.
  2. 세그먼트는 Bootstrap ARI 0.77 ± 0.11 (n=100) 로 높은 안정성을 보이며, 고가치 상위 계층(High: 0·1·6, 전체 45.0%)이 매출의 약 73.9% 를 차지하는 명확한 Pareto 구조를 드러낸다.
  3. 이 기술적(Descriptive) 세그먼트는 그 자체로 마케팅 전략의 토대이자, Track 2 인과 타겟팅의 Moderator 로 연결된다 (인과적 반응성은 Track 2에서 검증).

핵심 숫자 (Key Numbers)

항목비고
세그먼트 수7개K-Means, DBI 최소 + 해석가능성 기준 선택
NMF Latent Factork=5설명분산 92.44%
세그먼트 안정성ARI 0.77 ± 0.11Bootstrap n=100, 80% 샘플
최대 세그먼트Light Grocery 21.0% (524가구)고객 수 기준
최고가치 세그먼트VIP Heavy $9,716/가구 (12.0%)평균 매출 기준
Pareto 구조High 계층 45.0% 고객 → 매출 73.9%가치 집중 확인

Hero Figures

Dunnhumby — Track 1: Latent-Factor Customer Segmentation 세그먼트별 표준화 Feature 프로필 (Z-scores) — 7개 세그먼트의 행동 차별화를 한눈에 보여준다.

Dunnhumby — Track 1: Latent-Factor Customer Segmentation NMF 5개 Latent Factor의 Feature Loading — Value 차원(F2·F3)과 Need 차원(F1·F4·F5)의 분리.

목차 (Table of Contents)


요약

본 분석은 Dunnhumby “The Complete Journey” 데이터셋의 리테일 거래 데이터를 활용하여 행동 기반 고객 세그멘테이션 프레임워크를 제시한다. Non-negative Matrix Factorization (NMF)과 K-Means Clustering을 결합하여 102주 관측 기간 동안 2,500 가구로부터 7개의 고객 세그먼트를 도출하였다.

주요 결과:

  • 5개의 해석 가능한 Latent Factor가 고객 행동 분산의 92.44%를 설명
  • 7개 고객 세그먼트의 높은 안정성 (Bootstrap ARI = 0.77 ± 0.11, n=100)
  • VIP 세그먼트 (전체의 12%)가 고객당 평균 $9,716 매출 창출
  • 고가치 고객군 (45.0%)이 전체 매출의 약 73.9% 기여
  • 각 세그먼트별 명확한 마케팅 전략 도출

본 세그멘테이션은 개인화 마케팅 전략의 기반을 제공하며, 후속 Causal Targeting 분석 (Track 2)의 입력으로 활용된다.


1. 서론

1.1 배경

고객 세분화는 현대 리테일 마케팅 전략의 핵심이다. 고객의 행동 패턴을 기반으로 그룹화함으로써, 리테일러는 마케팅 투자 수익률을 극대화하는 타겟 개입을 개발할 수 있다. 전통적인 인구통계 기반 세분화는 구매 결정을 좌우하는 미묘한 행동적 차이를 포착하지 못하는 경우가 많다. 본 연구는 거래 데이터에서 추출한 Feature를 활용하여 자연스러운 고객 그룹을 발견하는 행동 우선 접근법을 채택한다.

1.2 데이터셋

본 연구는 Dunnhumby “The Complete Journey” 데이터셋을 분석한다:

항목
가구 수2,500
거래 건수약 260만 건 (2,595,732)
분석 기간102주 (2년)
캠페인 수30개 마케팅 캠페인
상품 수92,000+ SKUs
매장 수400+ 개

데이터셋에는 거래 기록, 가구 Demographics (32% 커버리지), 캠페인 타겟팅, 쿠폰 배포 및 Redemption 데이터가 포함된다.

1.3 연구 목적

  1. 고객 쇼핑 패턴을 특징짓는 Latent Behavioral Factor 추출
  2. 실행 가능한 마케팅 시사점을 제공하는 고유한 고객 세그먼트 식별
  3. Bootstrap Resampling을 통한 세그먼트 안정성 검증
  4. 세그먼트별 마케팅 전략 / 권고안 개발

1.4 분석 프레임워크

본 분석은 2-Track 연구 프레임워크의 일부이다:

  • Track 1 (본 리포트): 세그멘테이션을 통한 Customer Understanding
  • Track 2 (별도): Heterogeneous Treatment Effect 추정을 통한 Causal Targeting

Track 1 세그먼트는 Track 2 Causal 분석의 Moderator로 활용되어 세그먼트별 캠페인 최적화를 가능하게 한다.


2. 방법론

2.1 Feature Engineering

거래 데이터로부터 33개의 고객 수준 Feature를 구성하여 6개의 개념적 그룹으로 구성하였다:

그룹개수설명예시
Recency6마지막 구매 이후 시간days_since_last, active_last_4w
Frequency6쇼핑 빈도 패턴visits_per_week, purchase_regularity
Monetary7지출 특성total_sales, avg_basket_size, coupon_savings
Behavioral7쇼핑 행동discount_rate, private_label_ratio, n_departments
Category6카테고리 선호share_grocery, share_fresh, share_h&b
Time1Tenure 커버리지week_coverage

다중공선성 문제를 해결하기 위해, 높은 상관관계를 가진 쌍 (r ≥ 0.7)을 제거하여 Feature 셋을 33개에서 19개로 축소하였다.

다중공선성 처리 세부사항:

제거 기준제거된 Feature 예시유지된 Feature
완전 상관 (r = 1.0)frequency_per_monthfrequency_per_week
높은 상관 (r ≥ 0.9)monetary_actualmonetary_sales
중복 정보 (r ≥ 0.7)active_last_12wactive_last_4w

제거된 14개 Feature:

  • Frequency: frequency_per_month, transaction_count
  • Monetary: monetary_actual, monetary_avg_basket_actual, monetary_per_week
  • Recency: active_last_12w, recency_weeks
  • Behavioral: avg_products_per_basket
  • 기타 중복 파생 변수들

참고: VIF 분석보다 상관 기반 제거를 선택한 이유는 (1) NMF의 비음수 제약과 호환성 유지, (2) 해석 용이성 우선. 대안으로 Elastic Net 정규화를 통한 자동 변수 선택도 가능하나, 본 연구에서는 명시적 제거를 통해 재현성을 확보하였다.

전처리: NMF 호환성을 위해 MinMaxScaler 정규화를 [0, 1] 범위로 적용 (비음수 입력 필요).

2.2 Latent Factor Modeling (NMF)

Non-negative Matrix Factorization (NMF)은 고객-Feature 행렬을 두 개의 저차원 행렬로 분해하여 Latent Behavioral Factor를 도출한다.

NMF vs PCA 선택 근거:

기준NMFPCA
해석력Parts-based 분해 → 직관적 Factor 해석직교 축 → 해석 어려움
비음수 제약자연스러운 비음수 Loading음수 Loading 허용
비즈니스 적합성”고객 A = 0.3×충성 + 0.5×신선” 해석 가능”고객 A = PC1 - 0.2×PC2” 해석 불명확
마케팅 협업부분 합산 해석으로 비기술팀과 소통 용이기술적 설명 필요
선행 연구리테일 세분화에서 광범위 사용 (Lee & Seung, 1999)일반적 차원 축소

실험적 검증: 동일 k에서 NMF Factor가 PCA Component보다 카테고리/행동 측면에서 더 명확한 클러스터링을 생성함을 확인하였다.

모델 선택:

  • n_components: 2-8 범위 평가
  • 선택 기준: Reconstruction Error (Elbow Method) 및 Factor 해석가능성
  • 선택: 5 Components (분산의 92.44% 설명)

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 1: NMF Component 선택 - Reconstruction Error와 누적 설명 분산.

NMF 파라미터:

  • Solver: Coordinate Descent
  • Initialization: Random
  • Max iterations: 1,000
  • Random state: 재현성을 위해 고정

2.3 Clustering

NMF Factor Score에 K-Means Clustering을 적용하여 고객 세그먼트를 식별하였다.

Clustering 평가:

  • k = 2-11 범위 테스트
  • K-Means vs. Gaussian Mixture Model (GMM) 비교
  • K-Means가 GMM을 크게 상회 (Silhouette: 0.219 vs. 0.047)

최적 k 선택 (정직한 트레이드오프):

후보 k에 대한 내부 검증 메트릭은 아래와 같다 (전체 표는 부록 A.5):

kSilhouetteCalinski-HarabaszDavies-Bouldin
30.271984.91.256
50.225794.21.321
60.207756.31.342
70.219732.01.241 ← 선택
80.209700.21.244
  • Davies-Bouldin Index (DBI): k = 7에서 최소 (1.241) — 후보 중 가장 양호한 클러스터 분리.
  • Silhouette Score는 사실 낮은 k에서 가장 높다 (k=3에서 0.271로 최대). k=7의 Silhouette(0.219)은 최댓값이 아니며, 이를 “최적”이라 주장하지 않는다.
  • 선택: k = 7 — (1) DBI 최소화, (2) 비즈니스 해석가능성/실행가능성(7개 세그먼트가 마케팅 액션으로 자연스럽게 매핑), (3) 높은 Bootstrap 안정성(ARI 0.77)을 종합한 결정이다. 즉 단일 메트릭 최적이 아니라, 정량 지표(DBI)와 정성 기준(실행가능성)·강건성(ARI)의 균형 위에서 선택했다.

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 2: k 값에 따른 Clustering 평가 메트릭. Silhouette은 낮은 k에서 높고, DBI는 k=7에서 최소.

2.4 안정성 검증

Bootstrap Resampling을 수행하여 세그먼트 안정성을 평가하였다:

  • 100회 Bootstrap 반복
  • 반복당 80% 샘플 비율
  • 메트릭: 원본과 Bootstrap 할당 간 Adjusted Rand Index (ARI)

3. 결과

3.1 Latent Factor 해석

NMF를 통해 고객 행동의 서로 다른 측면을 나타내는 5개의 해석 가능한 Latent Factor를 식별하였다:

Factor명칭상위 Feature (Loading)해석
F1Grocery Deal Seekershare_grocery (6.72), discount_usage_pct (5.13), private_label_ratio (3.41)할인을 추구하는 예산 중시 식료품 구매자
F2Loyal Regularpurchase_regularity (4.63), n_departments (2.61), n_products (1.53), frequency (1.04)One-stop 쇼핑 고관여 고객
F3Big Basketmonetary_std (2.45), monetary_avg_basket (2.35), share_grocery (2.08)비정기적 대량 구매자
F4Fresh Focusedshare_fresh (2.26), n_departments (1.21)신선식품 카테고리 전문가
F5Health & Beautyshare_health_beauty (2.03), recency (0.41)드럭스토어 유형 구매자

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 3: NMF Factor Loadings Heatmap - 각 Latent Factor별 Feature 가중치.

Factor들은 자연스럽게 Value 차원 (빈도, 금액을 포착하는 F2, F3)과 Need 차원 (카테고리 선호를 포착하는 F1, F4, F5)으로 분리된다.

3.2 Clustering 평가 메트릭

메트릭해석
Explained Variance92.44%높은 Factor 커버리지
Silhouette Score (k=7)0.219행동 데이터로서 적절 (벤치마크 0.15-0.30); 단, 최댓값은 k=3(0.271)
Calinski-Harabasz Index732.0높은 클러스터 간 분산
Davies-Bouldin Index1.241후보 k 중 최소 (최적 분리)
Bootstrap ARI0.77 ± 0.11높은 안정성 (95% CI: 0.55-0.99)

Silhouette Score 해석:

Silhouette Score 0.219는 보통 수준이며, 본 데이터에서는 더 낮은 k(k=3)에서 더 높게 나타난다. 그러나 이는 고객 특성이 이산적 그룹보다 연속적으로 존재하는 행동 Clustering에서 일반적인 패턴이다. k=7은 Silhouette 최적이 아니라 DBI 최소화 + 해석가능성 + 안정성 기준의 선택임을 명확히 한다 (§2.3).

비교 대상Silhouette출처
본 연구 (k=7)0.219-
리테일 세분화 일반0.15-0.30Wedel & Kamakura (2000)
E-commerce 클러스터링0.15-0.30산업 벤치마크
인구통계 기반 세분화0.35-0.50이산적 속성으로 높은 분리

낮은 Silhouette의 원인:

  • 고객 행동은 본질적으로 연속적 분포 (이산적 경계 부재)
  • RFM 및 카테고리 선호가 그라데이션 형태
  • 세그먼트 간 전이 고객 존재 (예: Light Grocery → Active Loyalists 전환 중)

수용 가능성 판단: 0.219는 행동 데이터 맥락에서 벤치마크 범위 내이며, DBI가 k=7에서 최소라는 점과 높은 Bootstrap ARI (0.77) 가 세그먼트의 실질적 안정성을 보완한다.

3.3 안정성 검증

Bootstrap Resampling (100회 반복, 80% 샘플)은 0.77 ± 0.11의 Adjusted Rand Index를 산출하여 높은 세그먼트 안정성을 나타냈다. ARI 0.70 이상은 일반적으로 강한 일치로 간주되며, 7개 세그먼트 솔루션이 샘플링 변동에 강건함을 확인한다.

3.4 7개 고객 세그먼트

Clustering은 7개의 고유한 고객 세그먼트를 식별하였다 (전체 2,500가구 기준):

Seg명칭규모평균 매출FrequencyRecencyRegularity주요 Factor
0Active Loyalists509 (20.4%)$3,878171회6일0.78F2 (Loyal)
1VIP Heavy299 (12.0%)$9,716256회4일0.88F2 (Loyal)
2Lapsed H&B193 (7.7%)$87237회75일0.25F5 (H&B)
3Fresh Lovers339 (13.6%)$1,23348회36일0.34F4 (Fresh)
4Light Grocery524 (21.0%)$94243회42일0.30F1 (Grocery-Deal)
5Bulk Shoppers318 (12.7%)$3,20656회24일0.41F3 (Basket)
6Regular + H&B318 (12.7%)$3,393152회12일0.70F2 (Loyal)

참고: Seg4 (Light Grocery)의 주요 Factor를 F1 (Grocery-Deal)로 표기한다 — 이 세그먼트는 grocery share 0.56 + discount 0.51이 F1에 강하게 적재되어 식료품·할인 추구 성향이 지배적이다.

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 4: 고객 세그먼트 규모 분포.

3.5 세그먼트 프로필

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 5: 세그먼트별 표준화 Feature 프로필 (Z-scores).

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 6: 각 고객 세그먼트의 평균 Factor Score.

세그먼트 특성:

Segment 0: Active Loyalists (20.4%)

  • 높은 구매 규칙성 (0.78)과 다양한 카테고리 쇼핑
  • 강한 Private Label 선호 (PL ratio 0.34로 최고)
  • 예산 중시이면서 충성도 높은 구매자

Segment 1: VIP Heavy (12.0%)

  • 모든 RFM 메트릭에서 최고 성과
  • 최고 빈도 (256회), 금액 ($9,716), 최저 Recency (4일)
  • 평균 1,316개 고유 상품 구매하는 진정한 One-stop 쇼퍼

Segment 2: Lapsed H&B (7.7%)

  • 최고 Recency (75일) - 실질적으로 이탈
  • 전반적 관여도 낮은 H&B 카테고리 전문가
  • ROI 불확실한 Win-back 대상

Segment 3: Fresh Lovers (13.6%)

  • 중간 관여도의 신선식품 카테고리 전문가
  • 비교적 활성 고객 (36일 Recency)으로 집중된 장바구니

Segment 4: Light Grocery (21.0%)

  • 고객 수 기준 최대 세그먼트, 고객당 최저 가치 ($942)
  • 식료품·할인 중심의 가벼운 관여 (F1 Grocery-Deal 지배)
  • 습관 형성 잠재력이 있는 활성화 기회

Segment 5: Bulk Shoppers (12.7%)

  • 최고 평균 장바구니 크기 (방문당 약 $57)
  • 낮은 빈도 (56회)이나 방문당 높은 지출
  • 창고형/코스트코 스타일 쇼핑 패턴

Segment 6: Regular + H&B (12.7%)

  • VIP 전환 잠재력이 있는 2등급 가치 세그먼트
  • H&B 집중과 함께 정기적 구매자 (152회)

3.6 가치 계층 분포

세그먼트는 자연스럽게 가치 계층으로 분리된다 (전체 2,500가구 기준):

계층세그먼트N고객 비율평균 매출총 매출매출 비중
High0, 1, 61,12645.0%$5,291$5,958K73.9%
Medium3, 565726.3%$2,188$1,437K17.8%
Low/At-Risk2, 471728.7%$923$662K8.2%
합계-2,500100%$3,223$8,057K100%

계산 근거:

  • 총 매출 = Σ(세그먼트 N × 평균 매출)
  • 매출 비중 = 계층 총 매출 / 전체 총 매출
  • High Value 세그먼트: Active Loyalists ($3,878), VIP Heavy ($9,716), Regular+H&B ($3,393)
  • (위 합계는 교정된 세그먼트 평균 매출에 따라 재산출되었으며, Seg4 $942 등 LEDGER 정본값을 반영한다.)

Pareto 법칙 검증: 상위 45% 고객 (High Value)이 73.9% 매출을 기여하여, 전통적 80/20 법칙에 근접한 명확한 가치 집중 현상을 확인한다.

3.7 다차원 세그먼트 포지셔닝

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 7: Loyalty (F2) vs Deal-Seeking (F1) 차원에서의 세그먼트 포지셔닝.

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 8: VIP 우위와 세그먼트 차별화를 보여주는 RFM 가치 포지셔닝.

Dunnhumby — Track 1: Latent-Factor Customer Segmentation Figure 9: Active High-value와 Lapsed 세그먼트를 식별하는 고객 라이프사이클 포지셔닝.


4. 논의

4.1 주요 인사이트

1. 명확한 가치 계층 세분화는 명확한 Pareto 분포를 보여준다: 고가치 세그먼트의 45.0%가 추정 매출의 약 73.9%를 기여한다. VIP Heavy (12%)만으로도 가장 중요한 유지 대상이다.

2. 행동적 차별화 Factor들은 Value (빈도, 금액)와 Need (카테고리 선호) 차원 모두에서 고객을 성공적으로 분리한다. 이 이중 구조는 가치 기반 우선순위 설정과 Need 기반 개인화를 모두 가능하게 한다.

3. 라이프사이클 단계 세그먼트는 고유한 라이프사이클 단계에 매핑된다:

  • Active/Growing: Segment 0, 1, 6 (낮은 Recency, 높은 관여)
  • Stable: Segment 3, 4, 5 (중간 Recency)
  • Declining/Churned: Segment 2 (높은 Recency, 낮은 관여)

4. 카테고리 전문가 Fresh Lovers (13.6%)와 H&B 집중 세그먼트는 카테고리 전문화를 보여주며, 카테고리별 마케팅 접근 기회를 시사한다.

4.2 마케팅 전략 / 권고안

세그먼트우선순위전략주요 액션
VIP HeavyHighRetention프리미엄 혜택, Churn 예측 알림, 독점 접근
Active LoyalistsHighStrengthenPrivate Label 프로모션, 로열티 포인트, 장바구니 확대
Regular + H&BMediumUpgradeVIP 전환 프로그램, Cross-category 인센티브
Bulk ShoppersMediumRegularize구독 제안, 정기 배송, 번들 딜
Fresh LoversMediumEngage신선식품 콘텐츠 마케팅, 일일 특가, 레시피 영감
Light GroceryLowActivate습관 형성 캠페인, 점진적 보상, 온보딩
Lapsed H&BLowWin-back재관여 캠페인, H&B 집중 오퍼

권장 예산 배분:

  • High Priority (60%): VIP Heavy (25%), Active Loyalists (20%), Regular + H&B (15%)
  • Medium Priority (30%): Bulk Shoppers (10%), Fresh Lovers (10%), Light Grocery (10%)
  • Low Priority (10%): Lapsed H&B (10%)

주의 (기술적 vs 인과적): 위 배분은 기술적 가치(매출 기여)에 근거한 우선순위이다. “어느 세그먼트가 프로모션에 실제로 더 잘 반응하는가”는 별개의 인과적 질문이며, Track 2에서 세그먼트별 CATE로 검증한다 — 그 결과는 매출 가치 순위와 다를 수 있다(예: 고가치 세그먼트가 반드시 높은 처치효과를 갖지 않을 수 있음).

4.3 한계점

1. 보통 수준의 Silhouette Score (0.219) 행동 데이터는 본질적으로 이산적 경계보다 연속성을 보인다. 본 데이터에서 Silhouette은 더 낮은 k(k=3)에서 더 높으므로, k=7은 Silhouette 최적이 아니라 DBI 최소화·해석가능성·안정성 기준의 선택이다. 이 점수는 고객 세분화에서 수용 가능하나 세그먼트 간 일부 중첩을 나타낸다.

2. 제한된 Demographics 커버리지 (32%) 2,500 가구 중 801 가구만 인구통계 정보를 보유하여, Demographics 기반 층화와 페르소나 개발이 제한된다.

3. 기술적 vs. 인과적 본 세분화는 기술적(Descriptive)이다. “어떤 세그먼트가 프로모션에 가장 잘 반응하는가?”와 같은 질문은 Causal 분석 (Track 2)이 필요하다.

4. 단일 리테일러 맥락 결과는 이 리테일러의 고객 베이스에 특화되어 있으며 다른 리테일 맥락으로 일반화되지 않을 수 있다.

4.4 향후 방향

1. Track 2 통합 세그먼트는 Track 2 Causal 분석에서 Heterogeneous Treatment Effect Moderator로 활용될 것이다. 이는 세그먼트별 캠페인 효과 추정을 가능하게 한다.

2. A/B Testing 검증 권장 전략은 전면 배포 전 통제 실험을 통해 검증되어야 한다.

3. Dynamic 세분화 세그먼트 이동과 진화하는 고객 행동을 포착하기 위한 정기적 재-Clustering.

4. Value × Need 프레임워크 Cross-sell 최적화 시나리오를 위해 별도의 Value (RFM)와 Need (Category) Factor 모델을 사용하는 선택적 확장.


5. 결론

본 연구는 Latent Factor Modeling과 Clustering을 활용한 행동 기반 고객 세분화의 효과적인 접근법을 보여준다. NMF + K-Means 프레임워크는 높은 안정성 (ARI = 0.77 ± 0.11)과 명확한 비즈니스 해석가능성을 가진 7개의 고유한 고객 세그먼트를 성공적으로 식별하였다.

주요 성과:

  • Value (Loyalty, Monetary)와 Need (Category Preference) 차원을 포착하는 5개 Latent Factor (설명분산 92.44%)
  • VIP Heavy ($9,716 평균)부터 Lapsed H&B ($872 평균)까지 다양한 7개 실행 가능한 세그먼트
  • 집중적인 유지 노력이 필요한 45.0% 고가치 고객(매출 73.9% 기여)을 포함한 명확한 우선순위 계층
  • Retention (VIP)에서 Activation (Light Grocery), Win-back (Lapsed)까지의 세그먼트별 전략

세분화는 개인화 마케팅의 견고한 기반을 제공하며, 후속 Causal Targeting 분석의 입력으로 활용되어 증거 기반 마케팅 최적화를 가능하게 한다.


부록: 기술적 세부사항

A.1 소프트웨어 환경

  • Python 3.9+
  • scikit-learn (NMF, K-Means)
  • pandas, numpy (데이터 처리)
  • matplotlib, seaborn (시각화)

A.2 재현성

  • 모든 확률적 프로세스에 Random Seed 고정
  • 프로젝트 노트북에서 전체 코드 확인 가능:
    • 01_feature_engineering.ipynb
    • 02_customer_profiling.ipynb

A.3 데이터 산출물

  • 세그먼트 할당: data/dunnhumby/processed/segment_models.joblib
  • Feature 메타데이터: data/dunnhumby/processed/feature_metadata.json

A.4 세그먼트 포지셔닝 분석: Bubble Chart별 마케팅 액션

본 섹션은 각 2차원 세그먼트 포지셔닝 차트에 대한 상세 마케팅 해석을 제공한다.


A.4.1 Loyalty (F2) vs Deal-Seeking (F1)

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
High Loyalty + High DealActive Loyalists충성도 높지만 가격 민감PB 프로모션, 할인 트리거 연동 로열티 포인트
High Loyalty + Low DealVIP Heavy프리미엄 충성 고객독점 접근, 프리미엄 서비스, 할인 지양
Low Loyalty + High DealLight Grocery, Fresh LoversCherry-picker점진적 보상으로 충성도 전환
Low Loyalty + Low DealLapsed H&B, Bulk Shoppers이탈 또는 거래적 관계Win-back 또는 낮은 관여 수용

A.4.2 Loyalty (F2) vs Big Basket (F3)

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
High Loyalty + High BasketVIP HeavyOne-stop 파워 쇼퍼Retention 집중, 개인화 추천
High Loyalty + Low BasketActive Loyalists, Regular+H&B빈번한 소규모 장바구니Cross-sell, 번들 오퍼로 장바구니 확대
Low Loyalty + High BasketBulk Shoppers비정기적 대량 구매구독 모델, 정기 배송 인센티브
Low Loyalty + Low BasketLapsed, Light Grocery최소 관여활성화 캠페인, 습관 형성

A.4.3 Fresh (F4) vs Health & Beauty (F5)

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
High Fresh + Low H&BFresh Lovers요리/건강 중시레시피 콘텐츠, Farm-to-store 스토리, 일일 신선 특가
Low Fresh + High H&BLapsed H&B, Regular+H&B드럭스토어 니즈H&B 샘플링, 뷰티 멤버십, 건강 구독
균형VIP Heavy, Active Loyalists전체 장바구니 쇼퍼Cross-category 프로모션, One-stop 편의
Low BothLight Grocery, Bulk필수품 중심카테고리 확장 인센티브

A.4.4 Frequency vs Monetary (RFM 핵심)

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
High Freq + High MonetaryVIP Heavy최고 고객어떤 비용을 치르더라도 보호, 프리미엄 대우
High Freq + Low MonetaryActive Loyalists빈번한 소액 지출자장바구니 크기 확대, Upselling
Low Freq + High MonetaryBulk Shoppers창고형 스타일방문 빈도 증가, 구독
Low Freq + Low MonetaryLapsed, Light GroceryAt-risk/휴면Win-back ROI 평가용 세분화

A.4.5 Regularity vs Average Basket Size

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
High Regularity + High BasketVIP Heavy예측 가능한 고가치리듬 유지, 니즈 예측
High Regularity + Low BasketActive Loyalists일관된 소규모 방문Top-up에서 Stock-up으로 전환
Low Regularity + High BasketBulk Shoppers산발적 대량 쇼핑리마인더, 자동 보충으로 정기화
Low Regularity + Low BasketLapsed, Light예측 불가 저가치수용 또는 타겟 재활성화

A.4.6 Recency vs Monetary (라이프사이클)

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
Low Recency + High MonetaryVIP Heavy, Active Loyalists활성 고가치Retention, Churn 신호 방지
Low Recency + Low MonetaryFresh Lovers, Light Grocery활성 저가치Cross-sell로 가치 성장
High Recency + High Monetary(드묾)최근 이탈한 VIP프리미엄 오퍼로 긴급 Win-back
High Recency + Low MonetaryLapsed H&B이탈한 저가치저우선 Win-back, Churn 수용

A.4.7 Discount Rate vs Private Label Ratio

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
High Discount + High PLActive Loyalists예산 극대화자PB 중심 프로모션, 가치 메시징
High Discount + Low PLFresh Lovers브랜드 충성 할인 추구자NB 프로모션, PB 체험 인센티브
Low Discount + High PLRegular+H&B품질 추구 PB 팬프리미엄 PB 라인, 신규 PB 출시
Low Discount + Low PLVIP Heavy, Bulk가격 무관심할인 지양, 편의/품질에 집중

A.4.8 Shopping Variety vs Regularity

Dunnhumby — Track 1: Latent-Factor Customer Segmentation

사분면세그먼트프로필마케팅 액션
High Variety + High RegularityVIP Heavy궁극의 One-stop 쇼퍼전체 개인화, Category Captain
High Variety + Low RegularityBulk Shoppers가끔의 종합 쇼핑정기적 케이던스로 전환
Low Variety + High RegularityFresh Lovers카테고리 전문가카테고리 심화, 인접 확장
Low Variety + Low RegularityLapsed, Light협소, 비정기장바구니 확대 먼저, 그 다음 빈도

A.5 Clustering 평가 메트릭 전표 (clustering_metrics.csv)

후보 k에 대한 내부 검증 메트릭 전체. DBI는 k=7에서 최소(1.241), Silhouette은 낮은 k(k=3=0.271)에서 최대임에 유의.

kSilhouetteCalinski-HarabaszDavies-Bouldin비고
30.271984.91.256Silhouette 최대
50.225794.21.321
60.207756.31.342DBI 최악
70.219732.01.241선택 (DBI 최소 + 해석가능성 + 안정성)
80.209700.21.244

해석 노트: 단일 메트릭만 보면 Silhouette은 낮은 k를, Calinski-Harabasz는 가장 낮은 k를 선호한다. 그러나 (1) DBI 최소가 k=7에서 달성되고, (2) 7개 세그먼트가 마케팅 액션과 1:1로 매핑되는 실행가능성을 가지며, (3) Bootstrap ARI 0.77 ± 0.11로 강건하므로 k=7을 채택했다. 메트릭 간 불일치를 숨기지 않고 정직하게 기록한다.


참고문헌

Segmentation Methods

  • Lee, D. D., & Seung, H. S. (1999). Learning the parts of objects by non-negative matrix factorization. Nature, 401(6755), 788-791.
  • Wedel, M., & Kamakura, W. A. (2000). Market Segmentation: Conceptual and Methodological Foundations. Springer.
  • Punj, G., & Stewart, D. W. (1983). Cluster analysis in marketing research: Review and suggestions for application. Journal of Marketing Research, 20(2), 134-148.

Retail Marketing

  • Rossi, P. E., McCulloch, R. E., & Allenby, G. M. (1996). The value of purchase history data in target marketing. Marketing Science, 15(4), 321-340.
  • Hughes, A. M. (1994). Strategic Database Marketing. Probus Publishing.

Clustering Validation

  • Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.
  • Hubert, L., & Arabie, P. (1985). Comparing partitions. Journal of Classification, 2(1), 193-218.