“그럴 가능성이 높다 — 하지만 이유는 모델마다 다르다”

들어가며

행동 기반 임베딩을 만들다 보면 이런 의문이 생긴다.

“고객 행동이 1~2개밖에 없으면

행동 종류가 달라도

임베딩이 서로 비슷해지지 않나요?”

직관적으로는

“아니, 다른 행동이면 다르지 않나?”라고 생각하기 쉽다.

하지만 실제 임베딩 공간에서는

행동 수가 적을수록 벡터들이 서로 가까워질 가능성이 높다.

한 문장 요약

행동 수가 적으면 임베딩은 ‘기본 상태(prior state)’에 가까워지고,

그 결과 서로 비슷해질 가능성이 높다.

1. 왜 이런 현상이 생길까?

핵심은 이것이다.

임베딩은 “상태(state)”의 추정값이다.

정보가 적으면 상태 추정이 모호해진다.

2. LLM 임베딩에서의 이유

행동을 텍스트로 변환해 LLM 임베딩을 만든다고 가정해보자.

예시 A

TV 검색

예시 B

세탁기 검색

겉으로는 다른 행동이다.

하지만 LLM은 이렇게 본다.

둘 다 “가전 탐색”
둘 다 “구매 초기 단계”
둘 다 “정보 수집 맥락”

-> 의미적으로는 꽤 가깝다.

왜 더 비슷해질까?

행동이 하나뿐이면:

비교 맥락 없음
전환 신호 없음
강도 표현 없음

즉, 모델은 이렇게 추론한다.

“이 사람은 그냥 탐색 단계에 있는 고객일 가능성이 높다.”

결과:

서로 다른 상품이라도
같은 “탐색 상태”로 매핑됨

3. BFM 임베딩에서의 이유

BFM은 전이 확률을 학습한다.

P(다음 행동 | 현재 상태)

행동이 1~2개뿐이라면:

전이 구조를 충분히 추정할 수 없음
상태가 불안정
prior 확률에 수렴

즉, 임베딩은 이런 상태가 된다.

“아직 충분한 전이 정보가 없는 일반 상태”

-> 그래서 서로 가까워질 가능성이 높다.

4. 시각적으로 보면

행동이 많을 때:

벡터가 넓게 퍼짐
방향성 생김

행동이 적을 때:

중심부에 모임
분산 작음

5. 중요한 개념: Prior Collapse

행동 수가 적으면 임베딩은

모델의 사전 분포(prior) 쪽으로 끌려간다.

즉:

평균 고객
기본 상태
초기 탐색 단계

이 쪽으로 수렴한다.

이걸 information collapse 또는

prior collapse라고 볼 수 있다.

6. 하지만 항상 비슷해지는 건 아니다

조건이 하나 있다.

행동 자체가 극단적으로 특이할 경우

예:

고가 명품 한정판 예약 구매

이런 경우는

행동 수가 적어도 임베딩이 멀어질 수 있다.

즉:

정보량은 적어도
신호 강도(signal strength)가 높으면 다름

7. 행동 수 vs 정보량

행동 수가 많다고 정보가 많은 건 아니다.

예:

고객 A

동일 상품 20번 조회

고객 B

탐색 → 비교 → 리뷰 → 장바구니 → 구매

고객 B는 행동 수가 적어도

전이 구조가 명확하다.

-> 임베딩은 더 구별된다.

8. 그래서 실제로 어떻게 대응해야 하나?

전략 1. 최소 시퀀스 길이 조건

N개 미만 행동은
별도 그룹 처리

전략 2. 시간 가중 반영

최근 행동에 weight ↑

→ sparse 고객도 차별화

전략 3. LLM 기반 의미 보강

행동이 적을 경우:

상품 메타데이터
카테고리 정보
고객 속성

을 함께 텍스트화

전략 4. 불확실성 추정

행동 수가 적으면:

임베딩 confidence 낮음
variance 추정 병행

9. 중요한 통찰

임베딩의 분산은 정보량과 비례한다.

정보량 ↓
→ 상태 추정 불확실성 ↑
→ 벡터가 평균 근처로 수렴

즉, 행동 수가 적으면

서로 “비슷해질 가능성”이 구조적으로 존재한다.

10. 그럼 최소로 필요한 행동수는?

“3개? 5개? 10개?”가 아니라, 신호가 살아나는 지점을 찾아야 한다.

최소 행동수는 고정값이 아니라,

‘임베딩 안정성과 예측 성능이 급격히 개선되는 지점’에서 결정한다.

안정성 측정 (추천 방법)

같은 고객에 대해:

행동 3개로 만든 임베딩
행동 4개로 만든 임베딩
행동 5개로 만든 임베딩

이들 간의 cosine similarity를 본다.

임베딩이 거의 변하지 않는 지점이 “충분한 행동수”의 후보

한 문장으로 정리하면

행동 수가 적으면

임베딩은 기본 상태(prior)에 가까워지고,

그 결과 서로 비슷해질 가능성이 높다.

그러나 신호 강도가 강하면 예외가 발생한다.

마치며

임베딩은 평균이 아니다.

추정이다.

그리고 추정은

정보가 적을수록

평균으로 수렴한다.

행동이 적은 고객이 비슷해 보이는 건

모델의 실수가 아니라

통계적 필연에 가깝다.

[Embedding] 16. 행동의 수가 적으면 임베딩이 비슷해지나?