벡터로 “지금 이 고객은 어디쯤인가”를 말하는 법


들어가며

LLM 임베딩과 의미 축을 만들었다면, 다음 질문은 아주 현실적이다.

“그래서 이 고객을
숫자 하나로 스코어링할 수 있나요?

답은 그렇다다.

그리고 그 가장 안정적이고 설명 가능한 방법이

임베딩 투영값(projection score) 이다.


한 문장 요약

임베딩 투영값이란,
고객 벡터를 ‘의미 축’ 위에 떨어뜨린 값이며
가장 정직한 고객 스코어다.


1.왜 ‘투영값’이 고객 스코어로 좋은가?

기존 고객 스코어의 문제는 이것이다.

  • 규칙이 많다
  • 해석이 어렵다
  • 새 데이터에 취약하다

임베딩 투영값은 다르다.

  • 의미 축 하나 = 하나의 질문
  • 투영값 = 그 질문에 대한 연속적 답
  • 모델 복잡도 ↓, 설명력 ↑

스코어가 ‘어디서 나왔는지’ 명확하다


2.기본 개념 정리 (아주 간단히)

지난 글에서 정리했던 것을 다시 상기하자.

우리가 가진 것

  • 고객 임베딩: v_customer
  • 의미 축(방향 벡터): axis

고객 스코어 계산

score = dot(v_customer, axis)
  • 값이 클수록 → 해당 성향이 강함
  • 0 근처 → 중립
  • 음수 → 반대 성향

! 절대값보다 상대적 위치가 중요


3.어떤 의미 축을 스코어로 쓸 수 있을까?

실무에서 바로 쓰이는 축 예시:

  • 구매의사 축
  • 가격 민감도 축
  • 프리미엄 성향 축
  • 가족/1인가구 축
  • 이탈 위험 축
  • 서비스 민감도 축

“이걸로 무엇을 결정할 건가?” 에 답이 되는 축만 스코어로 만든다.


4.스코어링 파이프라인 전체 그림

고객의 행동 텍스트
   ↓
임베딩 모델
   ↓
고객 임베딩 v
   ↓
의미 축(axis)에 투영
   ↓
스코어(score)
   ↓
랭킹 / 임계값 / 액션


5.Step-by-Step: 실무 구현 흐름


Step 1. 의미 축 준비

예: 구매의사 축

axis_purchase = mean(구매 직전 고객)
              - mean(탐색만 한 고객)
  • 반드시 normalize 권장
  • 축은 고정 자산처럼 관리

Step 2. 고객 스코어 계산

purchase_score = dot(v_customer, axis_purchase)

이 값 하나로도 다음이 가능하다.

  • 고객 랭킹
  • 구매 직전 후보 추출
  • 시간에 따른 변화 추적

Step 3. 분포 기반 정규화 (권장)

원점 기준 값은 직관이 떨어질 수 있다.

실무에서는 자주 이렇게 바꾼다.

  • Z-score
  • Percentile (상위 5%, 10%)
  • Min–Max scaling

“상위 몇 %인가?”가 가장 이해하기 쉽다


6.단일 스코어 vs 다중 스코어

단일 스코어

  • 구매의사 스코어
  • 이탈 위험 스코어

→ 운영·트리거에 최적


다중 스코어 (페르소나 스코어링)

Customer Persona Score =
[
  구매의사: 0.83,
  가격민감도: -0.62,
  프리미엄성향: 0.91,
  가족성향: 0.74
]

→ 고객을 숫자 묶음이 아닌 성향 좌표로 이해. 이것이 곧 페르소나 벡터다.


7.이 스코어가 ‘좋은지’ 검증하는 법

검증 1. 극단값 샘플 점검

  • 상위 5%
  • 하위 5%

→ 실제 행동이 설명과 맞는가?


검증 2. 간단한 downstream 테스트

  • 입력: 스코어 하나
  • 모델: Logistic Regression

→ 성능이 잘 나온다면 의미축 + 투영이 잘 작동함을 의미


검증 3. 시간 연속성

  • 고객 행동 변화
  • 스코어가 부드럽게 이동하는가?

→ 튀는 스코어는 위험 신호


8.운영에서 가장 많이 쓰는 패턴

패턴 1. 임계값 트리거

  • 구매의사 스코어 > T
  • → 푸시 / 혜택 / 상담 연결

패턴 2.Top-K 타겟팅

  • 상위 3%
  • 상위 10%

→ 캠페인 규모 조절에 유리


패턴 3. 스코어 변화량 감지

  • Δscore ↑ 급증
  • → “관심이 막 올라온 고객”

9.흔한 실패 패턴

(X) 스코어를 블랙박스로 취급

(X) 의미 축 검증 없이 바로 KPI 연결

(X) 절대값 해석에 집착

(X) 너무 많은 축을 동시에 운영

스코어는 단순할수록 강하다


한 문장으로 정리하면

임베딩 투영값 스코어링이란
“이 고객은 지금 이 질문에 대해
어느 방향에 얼마나 와 있는가?”를
숫자 하나로 답하는 방법이다.


마치며

임베딩은 점이고, 의미 축은 방향이며, 투영값은 현재 위치다.

이 세 가지가 연결되는 순간,

  • 고객 스코어는
  • 규칙이 아니라 좌표가 되고
  • 예측은 점수가 아니라 흐름이 된다.

임베딩 투영값은

가장 단순하면서도 가장 설명 가능한 고객 스코어다.

[Embedding] 7. LLM 임베딩 투영값으로 고객 스코어링하기