LLM Multi-Layer Attribute Extraction for Cross-Domain Recommendation

추천 시스템은 대체로 한 도메인 안에서 폐쇄적으로 학습된다. user behavior log와 item ID embedding만으로는 “이 유저가 왜 이 아이템을 좋아하는가”를 설명하기 어렵다. 이 case study는 LLM/VLM이 가진 open-world knowledge를 구조화된 속성으로 끌어내, 이를 기존 추천 backbone에 결합하는 파이프라인을 다룬다. 핵심 가설은 단순하다 — 속성을 한 층위가 아니라 세 층위로 분해하면, 카탈로그 표현력과 개인화 품질이 함께 올라간다.

이 노트의 수치는 모두 공개 벤치마크에서 나온 것이고, 비용은 추정 API 단가다. 내부 실험 수치는 포함하지 않는다.

문제 설정

LLM을 추천에 끌어들이는 선행 프레임워크(KAR 계열)는 보통 지식을 reasoning knowledge와 factual knowledge 두 갈래로만 나눈다. 그런데 실제 도메인에서 “사실 지식”은 결이 매우 다른 것들이 한 바구니에 섞여 있다. 색상·BPM 같은 객관적 measurable 속성과, 무드·착용 상황 같은 주관적 perceptual 속성, 그리고 조성·코드 진행·실루엣 이론 같은 전문적·구조적 속성은 추출 방법도, 신뢰도도, 캐싱 정책도 전부 다르다.

연구 질문(요약). (1) 다층 속성이 단일 층위 대비 표현력과 추천 성능을 올리는가? (2) 패션·음악처럼 이질적인 도메인에 동일한 프레임워크가 전이되는가? (3) 다층 User Profiling이 latent preference를 더 세밀하게 잡는가? (4) LLM/VLM 추론 비용을 실용 수준으로 관리할 수 있는가?

데이터 (공개 벤치마크)

두 도메인 모두 Kaggle 공개 데이터를 파일럿으로 사용한다. 구조가 1:1로 대응되도록 골라, 같은 프레임워크가 양쪽에 꽂히는지를 검증한다.

도메인	데이터셋 (public)	규모 (근사)	모달리티
Fashion	H&M Personalized Fashion (Kaggle)	~105K items, ~1.37M customers, ~31M transactions	image + text + 거래 로그
Music	KKBOX Music Recommendation (WSDM Cup 2018)	~360K songs, ~30K users, ~7.4M+ interactions	audio metadata + 청취 로그

두 데이터셋의 컬럼은 의도적으로 대응시킨다 (예: H&M postal_code ↔ KKBOX city, H&M age ↔ KKBOX bd). 이 대칭 덕분에 “음악에서 통한 설계가 패션에서도 통하는가”를 ablation으로 직접 비교할 수 있다.

방법 / 파이프라인

전체는 4-stage end-to-end 파이프라인이다.

Stage 1 — 다층 속성 추출 (3-Layer Taxonomy)

모든 아이템을 세 층위로 분해한다.

Layer	성격	추출 방법	예 (음악)
L1 Product	객관적·결정론적·measurable	metadata + 경량 VLM/library	장르, BPM, 악기
L2 Perceptual	주관적·감성적·맥락 의존	LLM world knowledge + 리뷰/UGC	무드, 에너지, 청취 맥락
L3 Theory-grounded	전문적·구조적·암묵적	도메인 도구 + LLM 이론 해석	조성(Key/Mode), 코드 진행, 리듬 복잡도

멀티모달 입력은 model tiering으로 처리한다. L1은 경량 VLM(또는 metadata 직접), L2는 중급 모델, L3는 고성능 모델 — 경량 모델의 confidence가 낮은 속성만 상위 tier로 escalate한다. 패션은 multi-resolution 추론(저해상도 전체 → ROI crop 고해상도)을, 음악은 spectrogram/piano-roll 렌더링을 L3 입력으로 쓴다.

Stage 2 — 유저 속성 추론 (User Profiling)

아이템 속성의 mirror로 유저 프로파일을 구성한다. 유저가 상호작용한 아이템들의 L1/L2/L3를 집계해 층위별 선호 벡터를 만든다 — L1은 “무엇을 소비하는가”, L2는 “왜 소비하는가”, L3는 “본인도 모르는 숨은 취향”. 전체 이력을 매번 재처리하는 대신 증분 갱신(기존 프로파일 요약 + 신규 행동만 입력)으로 토큰을 아낀다. 자세한 동작 원리는 User Profiling 참고.

Stage 3 — 속성 적응 (Hybrid-Expert Adaptor)

텍스트 속성을 추천 모델이 소비할 벡터로 변환하는 단계. 구조는 mixture-of-experts(MoE) 형태다 — 층위별 text encoder(Sentence-BERT/BGE/E5) → 층위별 expert network → gating network가 $g_1, g_2, g_3$ 가중치로 동적 결합:

\mathbf{v}_{\text{aug}} = \sum_{\ell \in \{1,2,3\}} g_\ell(\mathbf{x}) \cdot E_\ell(\mathbf{t}_\ell)

여기서 $E_\ell$ 은 layer $\ell$ 의 expert, $\mathbf{t}_\ell$ 은 그 층위의 속성 텍스트다. 이 MoE 설계는 Multi-Task Learning의 shared/specialized expert 구조를 그대로 차용한다. gating 가중치 $(g_1, g_2, g_3)$ 자체가 “이 유저에게 어느 층위가 중요한가”를 말해주는 해석 가능한 신호라, 세그멘테이션·타겟팅에 재활용된다.

실용적 시작점. 처음에는 세 층위를 concat한 단일 encoder/adaptor로 baseline을 잡고, 층위별 expert + gating은 선택적 ablation으로 붙여 해석 가능성과 성능을 비교한다. 빠른 prototyping과 학습 안정성을 위해서다.

Stage 4 — 추천 결합

augmented vector $\mathbf{v}_{\text{aug}}$ 를 표준 backbone에 concat 또는 cross-attention으로 결합한다. 검증 backbone은 MF, DeepFM, SASRec, LightGCN — 즉 factorization 계열, sequential, graph 계열을 두루 커버한다. 모든 속성 추출·벡터 변환은 pre-store(오프라인 사전 계산)해, 추론 시점엔 LLM 호출 없이 벡터만 조회한다. DeepFM 결합 원리는 DeepFM·Factorization Machine 노트 참고.

핵심 발견 (예시·설계 수준)

내부 metric은 공개하지 않으므로, 아래는 설계상 기대와 정성적 관찰이다.

층위 분해가 추출 정책을 자연스럽게 분기시킨다. L1은 결정론적이라 캐싱·재사용이 쉽고, L2/L3은 LLM 추론 의존도가 높다. 한 바구니로 묶었으면 비용·신뢰도가 가장 비싼 L3 기준으로 끌려갔을 작업이, 층위 분리 덕에 각자 최적 tier로 떨어진다.
gating 가중치가 부가 산출물로 쓸모 있다. $(g_1,g_2,g_3)$ 는 추천 성능을 위한 내부 파라미터인 동시에, “L1-dominant(브랜드 충실) / L2-dominant(감성 민감) / L3-dominant(구조적 패턴 반응)” 유저 세그먼트를 그려주는 프로파일링 신호가 된다.
프레임워크가 도메인을 가로지른다. 패션의 색채 이론·실루엣과 음악의 조성·화성은 내용은 전혀 다르지만 동일한 L3 슬롯에 들어간다. 데이터 컬럼을 대응시켜 둔 덕에, 한 도메인의 설계가 다른 도메인으로 거의 그대로 이식된다 — 이게 cross-domain 전이의 핵심 증거다.
비용이 관리 가능한 범위에 든다. prompt caching(공통 prefix ~90% 절감), semantic attribute cache(유사 아이템 중복 호출 방지), 증분 갱신을 합치면, 두 파일럿 카탈로그 전체 속성 추출의 LLM 추론 비용은 추정 $200–300 수준이다 (공개 API 단가 기준의 projection이며, 실측이 아니다).

교훈

“factual knowledge”는 하나가 아니다. 객관 속성·체감 속성·이론 속성을 한 덩어리로 다루면 추출 정책이 가장 비싼 층위에 인질로 잡힌다. 층위를 명시적으로 쪼개는 것만으로 캐싱·model tiering·신뢰도 관리가 전부 단순해진다.
해석 가능성을 공짜로 떨어뜨려라. gating 가중치를 버리지 말고 세그멘테이션·타겟팅 신호로 재사용하면, 같은 모델이 추천과 분석 두 가지 일을 한다.
단순한 baseline부터. concat 단일 adaptor로 먼저 돌리고 MoE는 ablation으로 올리는 순서가, prototyping 속도와 “어느 층위가 실제로 기여하는가”의 측정 가능성을 모두 지킨다.
공개 데이터로 충분히 검증 가능하다. 구조가 대응되는 두 public 벤치마크를 고르면, 비용·재현성 부담 없이 cross-domain 전이 가설을 직접 시험할 수 있다.

DeepFM — augmented vector를 결합하는 backbone (FM + deep)
Factorization Machine — feature 상호작용 모델링의 토대
Multi-Task Learning — hybrid-expert adaptor의 shared/specialized 구조
User Profiling — Stage 2 다층 유저 선호 추론
ESMM — entire-space multi-task 추정 (selection bias 관점의 인접 기법)

연결 그래프