“많을수록 좋다”는 말은 절반만 맞다

들어가며

행동 기반 임베딩을 만들다 보면 이런 질문이 생긴다.

“고객 행동이 많을수록

임베딩이 더 정확해지나요?”

직관적으로는 그렇다.

데이터가 많으면 정보도 많으니까.

하지만 실제로는 조금 더 복잡하다.

한 문장 요약

행동 횟수는 임베딩 품질에 영향을 준다.

그러나 ‘많음’이 아니라 ‘의미 있는 다양성과 구조’가 핵심이다.

1.행동 횟수가 적으면 생기는 문제

문제 1. 상태 표현의 불안정성

행동이 1~2개뿐이라면:

[상품 조회]

이 고객이:

구매 직전인지
단순 호기심인지
비교 시작 단계인지

구분하기 어렵다.

→ 임베딩은 노이즈에 민감해진다.

문제 2. BFM에서 전이 학습이 어려움

BFM은 본질적으로:

P(a_t | a_1 ... a_{t-1})

을 학습한다.

행동 길이가 짧으면:

전이 패턴 학습 불가
상태 추정 불안정

→ 전이 중심 임베딩은 특히 데이터 길이에 민감하다.

2. 그럼 행동수가 많으면 무조건 좋을까?

아니다.

행동이 너무 많아도 문제가 생긴다.

문제 1. 오래된 행동의 과도한 영향

2년 전 구매
1년 전 탐색
최근 행동 없음

이 경우:

과거 데이터가 현재 상태를 왜곡할 수 있다.

→ 최근성(recentness)을 반영하지 않으면 임베딩이 “과거 평균”이 된다.

문제 2. 의미 희석 (LLM 임베딩에서 특히)

행동을 텍스트화하여 LLM 임베딩으로 만들 경우:

검색 → 비교 → 리뷰 → 검색 → 비교 → ...

반복이 많아지면:

핵심 전환 신호가 묻힘
mean pooling 시 의미 평균화

→ 정보가 늘어나는 게 아니라

신호 대 잡음비(SNR) 가 낮아질 수 있다.

3.행동 횟수가 임베딩 품질에 미치는 영향 구조

임베딩 품질은 보통 이런 곡선을 따른다.

행동 수 ↑
→ 정보량 ↑
→ (어느 지점 이후)
→ 노이즈 ↑
→ 품질 정체 또는 하락

즉, 적정 길이(optimal window) 가 존재한다.

4.LLM 임베딩 vs BFM에서의 차이

항목	LLM 임베딩	BFM
짧은 시퀀스 영향	의미 추정 불안정	전이 예측 불안정
긴 시퀀스 영향	의미 평균화	상태 희석 가능
최근 행동 중요도	높음	매우 높음
최적 전략	요약/추상화	window 관리

5. 실무에서 가장 좋은 전략

전략 1. 윈도우 기반 구성

최근 30일 상세
이전 6개월 요약
그 이전은 제거

→ 시간 가중치 필수

전략 2. 단계 요약 후 임베딩

원시 행동을 모두 쓰지 말고:

탐색 단계
비교 단계
구매 직전 단계

처럼 구조화.

→ 행동 “횟수”보다 행동 “흐름”이 중요

전략 3. 가중 pooling

BFM 또는 LLM 임베딩에서:

embedding = Σ w_t * h_t

최근 행동 weight ↑
오래된 행동 weight ↓

6. 행동 수가 적을 때의 대안

도메인 priors 활용

평균 고객 패턴 보정

유사 고객 기반 보강

collaborative embedding

LLM 기반 의미 보완

행동을 문장화하여 의미 추론

7.핵심 통찰

임베딩 품질을 결정하는 건:

행동 수 (X)
행동의 “정보 밀도” (O)

예시 비교

A 고객

100번 반복 조회
동일 행동 반복

B 고객

7단계 구매 여정 완결

→ B 고객이 더 적은 행동 수지만

임베딩 품질은 더 높다.

8. 그래서 최종 결론은?

행동 횟수는 중요하다.

하지만 “많음”이 아니라

“구조와 전환을 담고 있는가”가 핵심이다.

임베딩은 평균이 아니라

상태 표현이다.

한 문장으로 정리하면

행동 횟수는 임베딩 품질에 영향을 준다.

그러나 최적 길이는 존재하며,

구조 없는 반복은 품질을 오히려 떨어뜨릴 수 있다.

마치며

좋은 행동 임베딩은 많은 로그에서 나오지 않는다.

전환이 보이고
최근성이 반영되고
맥락이 살아있는

그 시퀀스에서 나온다.

행동이 많다고 좋은 게 아니라,

의미 있는 변화가 있을 때 좋은 임베딩이 만들어진다.

[Embedding] 15. 고객의 행동수가 BFM 임베딩 품질에 미치는 영향