벡터로 “지금 이 고객은 어디쯤인가”를 말하는 법
들어가며
LLM 임베딩과 의미 축을 만들었다면, 다음 질문은 아주 현실적이다.
“그래서 이 고객을
숫자 하나로 스코어링할 수 있나요?”
답은 그렇다다.
그리고 그 가장 안정적이고 설명 가능한 방법이
임베딩 투영값(projection score) 이다.
한 문장 요약
임베딩 투영값이란,
고객 벡터를 ‘의미 축’ 위에 떨어뜨린 값이며
가장 정직한 고객 스코어다.
1.왜 ‘투영값’이 고객 스코어로 좋은가?
기존 고객 스코어의 문제는 이것이다.
- 규칙이 많다
- 해석이 어렵다
- 새 데이터에 취약하다
임베딩 투영값은 다르다.
- 의미 축 하나 = 하나의 질문
- 투영값 = 그 질문에 대한 연속적 답
- 모델 복잡도 ↓, 설명력 ↑
→ 스코어가 ‘어디서 나왔는지’ 명확하다
2.기본 개념 정리 (아주 간단히)
지난 글에서 정리했던 것을 다시 상기하자.
우리가 가진 것
- 고객 임베딩: v_customer
- 의미 축(방향 벡터): axis
고객 스코어 계산
score = dot(v_customer, axis)- 값이 클수록 → 해당 성향이 강함
- 0 근처 → 중립
- 음수 → 반대 성향
! 절대값보다 상대적 위치가 중요
3.어떤 의미 축을 스코어로 쓸 수 있을까?
실무에서 바로 쓰이는 축 예시:
- 구매의사 축
- 가격 민감도 축
- 프리미엄 성향 축
- 가족/1인가구 축
- 이탈 위험 축
- 서비스 민감도 축
→ “이걸로 무엇을 결정할 건가?” 에 답이 되는 축만 스코어로 만든다.
4.스코어링 파이프라인 전체 그림
고객의 행동 텍스트
↓
임베딩 모델
↓
고객 임베딩 v
↓
의미 축(axis)에 투영
↓
스코어(score)
↓
랭킹 / 임계값 / 액션5.Step-by-Step: 실무 구현 흐름
Step 1. 의미 축 준비
예: 구매의사 축
axis_purchase = mean(구매 직전 고객)
- mean(탐색만 한 고객)- 반드시 normalize 권장
- 축은 고정 자산처럼 관리
Step 2. 고객 스코어 계산
purchase_score = dot(v_customer, axis_purchase)이 값 하나로도 다음이 가능하다.
- 고객 랭킹
- 구매 직전 후보 추출
- 시간에 따른 변화 추적
Step 3. 분포 기반 정규화 (권장)
원점 기준 값은 직관이 떨어질 수 있다.
실무에서는 자주 이렇게 바꾼다.
- Z-score
- Percentile (상위 5%, 10%)
- Min–Max scaling
→ “상위 몇 %인가?”가 가장 이해하기 쉽다
6.단일 스코어 vs 다중 스코어
단일 스코어
- 구매의사 스코어
- 이탈 위험 스코어
→ 운영·트리거에 최적
다중 스코어 (페르소나 스코어링)
Customer Persona Score =
[
구매의사: 0.83,
가격민감도: -0.62,
프리미엄성향: 0.91,
가족성향: 0.74
]→ 고객을 숫자 묶음이 아닌 성향 좌표로 이해. 이것이 곧 페르소나 벡터다.
7.이 스코어가 ‘좋은지’ 검증하는 법
검증 1. 극단값 샘플 점검
- 상위 5%
- 하위 5%
→ 실제 행동이 설명과 맞는가?
검증 2. 간단한 downstream 테스트
- 입력: 스코어 하나
- 모델: Logistic Regression
→ 성능이 잘 나온다면 의미축 + 투영이 잘 작동함을 의미
검증 3. 시간 연속성
- 고객 행동 변화
- 스코어가 부드럽게 이동하는가?
→ 튀는 스코어는 위험 신호
8.운영에서 가장 많이 쓰는 패턴
패턴 1. 임계값 트리거
- 구매의사 스코어 > T
- → 푸시 / 혜택 / 상담 연결
패턴 2.Top-K 타겟팅
- 상위 3%
- 상위 10%
→ 캠페인 규모 조절에 유리
패턴 3. 스코어 변화량 감지
- Δscore ↑ 급증
- → “관심이 막 올라온 고객”
9.흔한 실패 패턴
(X) 스코어를 블랙박스로 취급
(X) 의미 축 검증 없이 바로 KPI 연결
(X) 절대값 해석에 집착
(X) 너무 많은 축을 동시에 운영
→ 스코어는 단순할수록 강하다
한 문장으로 정리하면
임베딩 투영값 스코어링이란
“이 고객은 지금 이 질문에 대해
어느 방향에 얼마나 와 있는가?”를
숫자 하나로 답하는 방법이다.
마치며
임베딩은 점이고, 의미 축은 방향이며, 투영값은 현재 위치다.
이 세 가지가 연결되는 순간,
- 고객 스코어는
- 규칙이 아니라 좌표가 되고
- 예측은 점수가 아니라 흐름이 된다.
임베딩 투영값은
가장 단순하면서도 가장 설명 가능한 고객 스코어다.