“고객의 행동을 임베딩으로 어떻게 표현할 수 있을까?”


들어가며

LLM 임베딩이 워낙 강력하다 보니 이 원리를 기업들이 관심있어하는 고객의 행동에 적용할 수 있을까? 즉, 다음과 같은 질문이 따라온다.

“일반 자연어 텍스트 말고,
고객 행동도 LLM 임베딩으로 표현할 수 있을까?

기업입장에서는 중요한 질문이다.

정답은 간단하다.

가능하다.
하지만 ‘행동을 무엇으로 보느냐’에 따라 완전히 다른 결과가 나온다.

이번 글에서는 고객의 행동을 임베딩화하는 방법에 대해 소개한다.


한 문장 요약

LLM은 행동을 ‘의미 있는 서사(narrative)’로 바꿀 수는 있지만,
행동의 전이 확률을 가장 잘 학습하는 모델은 아니다.

즉, LLM 임베딩만으로 현재 고객의 상황을 훌륭하게 설명할 수 있지만 다음 행동을 예측하기에는 조금 부족하다.


1.핵심 전제: LLM은 ‘텍스트 모델’이다

LLM은 본질적으로 이런 모델이다.

P(token_t | token_1 ... token_{t-1})

즉,

  • 언어 구조
  • 문맥
  • 의미 관계

를 학습한다.

그렇다면 행동은 어떻게 들어가야 할까?

텍스트로 변환되어야 한다.


2.행동을 LLM 임베딩으로 표현하는 기본 전략

Step 1. 행동을 의미 단위로 변환

예:

세탁기 검색 →
드럼세탁기 상세 비교 →
가격 확인 →
리뷰 반복 확인 →
구매

또는 문장형:

최근 세탁기 구매를 고려하며
여러 모델을 비교하고
가격과 리뷰를 반복 확인한 뒤 구매함

행동 → 서술


Step 2. LLM 임베딩 추출

LLM의 트랜스포머 레이어에서 여러 방식으로 임베딩을 추출할 수 있다.

가장 대표적인 방법은,

  • CLS 토큰
  • Mean pooling
  • Sentence embedding 모델

결과:

v_customer ∈ R^d

이 벡터는 이제:

  • 고객의 현재 관심사
  • 구매 맥락
  • 의도 수준

을 반영한다.


3.LLM 임베딩이 잘 표현하는 것

행동의 “의미”

  • 단순 탐색 vs 구매 직전 탐색
  • 정보 수집 vs 문제 해결
  • 충동 구매 vs 비교형 구매

행동의 “맥락”

  • 반복 탐색
  • 기간 내 집중도
  • 상품군 일관성

페르소나 추론

  • 프리미엄 성향
  • 가격 민감도
  • 가족 중심 사용

행동을 ‘사람처럼 이해’하는 데 강하다


4.하지만 LLM임베딩은 이런 건 약하다

(X) 정밀 전이 예측

  • 다음 클릭 정확도
  • 초 단위 시점 예측
  • 이벤트 ID 단위 확률 계산

그렇다면 이건 어떤 모델을 사용해야 할까?

정답은 바로 행동 순서를 학습하는 Behavior 모델을 새로 만드는 것이다.

우리는 이런 모델을 Behavior Foundation Model(BFM)이라고 부른다.

LLM은 의미 구조를 학습한 것이라면
BFM은 행동 확률 구조를 학습하도록 만든다


5.LLM vs. BFM. 개념적으로 보면 이렇게 다르다

관점

LLM 임베딩

BFM

행동을 무엇으로 보나

서사

전이

임베딩의 의미

상태 설명

상태 확률

설명 가능성

높음

낮음

next-action 정확도

중간

높음


6.LLM 임베딩으로만 고객 행동을 표현하면?

가능 영역

  • 고객 유사도 계산
  • 클러스터링
  • 구매의사 방향 벡터 생성
  • 설명 가능한 추천
  • 페르소나 벡터 구성

위험 영역

  • 실시간 next-click 예측
  • 마이크로 타이밍 최적화
  • 광고 입찰 확률 모델링

LLM 임베딩은 “의미 중심”이다


7. 가장 좋은 전략은 무엇인가?

구조 분리

행동 시퀀스
   ↓
BFM → 전이 예측
LLM → 의미 임베딩

또는

LLM 임베딩 → 페르소나/설명
BFM → 타이밍/정밀 예측

→ 즉, 목적기반으로 이해와 예측을 분리한다


8.중요한 질문 하나

행동을 LLM 임베딩으로 표현하려는 이유는 무엇인가?

  • 고객 이해?
  • 설명 가능성?
  • 범용 임베딩 재사용?
  • 빠른 프로토타이핑?

→ 이 질문에 “예”라면 LLM 임베딩은 매우 강력하다.


9.한 단계 더 깊이: 행동을 ‘텍스트화’하는 게 핵심이다

LLM이든 BFM이든 Garbage in, Garbage out이다.

즉, 입력이 제일 중요하다.

LLM 임베딩의 성패는 모델이 아니라 행동 텍스트 설계에 달려 있다.

  • 단순 나열 (X)
  • 의미 단위 추상화 (O)
  • 의도 표현 (O)
  • 시간 흐름 자연어화 (O)

→ 임베딩 품질의 70%는 여기서 결정된다.


한 문장으로 정리하면

고객 행동은 LLM 임베딩으로 표현할 수 있다.
다만 그것은 ‘다음 행동’이 아니라
‘지금 어떤 이야기 속에 있는가’를 표현한다.

다음 행동을 알고 싶다면 BFM을 설계하라


마치며

행동은 두 얼굴을 가진다.

  • 확률의 연쇄 (전이)
  • 의미의 흐름 (서사)

LLM은 후자를 잘 이해한다.

BFM은 전자를 잘 맞춘다.

그리고 성숙한 시스템은 둘 중 하나를 고르는 대신,

둘을 역할에 맞게 배치한다.

[Embedding] 8. 고객의 행동을 임베딩으로 표현하기. 그리고 BFM.