BFM에서의 임베딩은

‘다음에 올 예측 행동 자체’로 볼 수 있을까?

“아니다 — 하지만 매우 가깝다”

들어가며

BFM(Behavior Foundation Model)을 쓰다 보면 이런 질문이 자연스럽게 나온다.

“BFM에서 나오는 임베딩은

사실상 다음에 올 행동을 압축해 놓은 것 아닌가요?

그럼 이 임베딩의 의미는

‘예측된 다음 행동 자체’라고 봐도 되지 않나요?”

이 질문은 절반은 맞고, 절반은 틀리다.

그리고 이 미묘한 차이를 이해하는 순간,

BFM 임베딩을 훨씬 정확하게 쓸 수 있다.

한 문장 요약

BFM 임베딩은 ‘다음 행동 그 자체’가 아니라,

‘다음 행동을 결정하는 상태(state)의 표현’이다.

1.결론부터 정리하자

관점	정답
다음 행동과 직접 대응되는가?	X
다음 행동을 강하게 규정하는가?	O
예측 행동의 확률 정보를 담는가?	O
의미/설명 관점에서 해석 가능한가?	X (제한적)

임베딩 ≠ 예측 결과

임베딩 ≈ 예측을 위한 충분통계(sufficient state)

2.BFM 임베딩의 정확한 역할

BFM은 기본적으로 이런 문제를 푼다.

P(다음 행동 | 지금까지의 행동 시퀀스)

이때 임베딩은 무엇인가?

지금까지의 행동 시퀀스를

‘다음 행동 분포를 계산하기에 충분한 상태 표현’으로 압축한 것

즉,

임베딩 = 상태(state)
헤드(head) = 그 상태에서의 행동 선택기

3.왜 임베딩을 ‘다음 행동’이라고 부르면 안 될까?

이유 1. 하나의 임베딩 → 여러 가능한 다음 행동

BFM 임베딩 하나는 보통 이런 분포를 만든다.

다음 행동:
- 구매: 0.41
- 비교: 0.32
- 이탈: 0.12
- 검색 반복: 0.15

→ 임베딩은 확률 분포를 암시할 뿐, 어느 하나의 행동으로 고정되지 않는다.

이유 2. 헤드가 바뀌면 ‘예측 행동’도 바뀐다

같은 임베딩이라도:

Next-action head
Time-to-event head
Ranking head

에 따라 결과는 달라진다.

→ 임베딩이 곧 예측이라면 헤드 변경으로 결과가 바뀔 수 없다

4. 그럼 왜 “거의 다음 행동 같다”는 느낌이 들까?

이유 1.BFM 임베딩은 전이 중심으로 찌그러져 있다

BFM은 학습 과정에서:

다음 행동을 맞추는 방향으로
임베딩 공간을 적극적으로 변형한다

그래서 임베딩 공간에서는:

다음 행동이 비슷한 시퀀스끼리 가깝고
전이 확률이 비슷한 상태들이 뭉친다

→ 결과적으로

임베딩 ≈ 다음 행동의 그림자

이유 2. 선형 헤드 하나로도 예측이 잘 된다

BFM 위에 얕은 헤드를 붙여도:

구매 여부
이탈 여부
다음 행동 카테고리

가 잘 맞는다.

이 때문에:

“임베딩 자체가

이미 예측을 담고 있는 것 같다”

는 인상을 준다.

5.상태(state)로 이해하면 모든 게 정리된다

BFM 임베딩을 이렇게 이해하면 가장 정확하다.

“이 고객은 지금

다음 행동을 결정하기에

어떤 상태에 있는가?”

구매 직전 상태
탐색 지속 상태
이탈 전조 상태

이 상태가 임베딩이고, 그 상태에서 행동을 뽑는 장치가 헤드다.

6.LLM 임베딩과의 결정적 대비

항목	BFM 임베딩	LLM 임베딩
임베딩의 의미	다음 행동을 위한 상태	의미/맥락 표현
다음 행동과의 거리	매우 가까움	간접적
헤드 의존성	높음	매우 높음
설명 가능성	낮음	높음

→ 그래서:

BFM 임베딩은 예측에 가깝고
LLM 임베딩은 해석에 가깝다

7.실무에서의 올바른 사용법

이렇게 생각하면 좋다

“이 임베딩은 다음 행동을 강하게 제약한다”
“이 상태에서는 구매가 유력하다”

(X) 이렇게 쓰면 위험하다

“이 임베딩 = 구매”
“임베딩만 보고 행동을 단정”

→ 항상 헤드를 통해 행동을 읽어야 한다

8. 이 질문이 중요한 이유

이걸 혼동하면 다음 문제가 생긴다.

BFM 임베딩을 설명하려고 든다 (X)
임베딩을 재사용하려다 실패한다 (X)
헤드를 바꾸면 성능이 흔들린다 (X)

→ 임베딩의 ‘역할’을 오해한 결과

한 문장으로 정리하면

BFM 임베딩은

‘다음 행동 그 자체’가 아니라,

‘다음 행동을 거의 결정해 놓은 상태 표현’이다.

마치며

BFM 임베딩은 너무 예측에 가까워서 자주 오해를 받는다.

하지만 이 한 줄만 기억하면 된다.

임베딩은 상태이고,

행동은 그 상태에서의 선택이다.

이 관점이 잡히면,

BFM은 훨씬 정확하고 덜 과장되게 사용할 수 있다.

[Embedding] 11. BFM에서의 임베딩이 갖는 의미