“비슷해 보이지만, 같지는 않다”

들어가며

지난 글에서 LLM과 BFM을 간략히 비교했으나 좀 더 알아보자.

행동 데이터를 다루다 보면 이런 질문이 자연스럽게 나온다.

“LLM을 텍스트 대신

고객 행동 시퀀스로 학습하면

그게 바로 BFM(Behavior Foundation Model) 아닌가요?”

짧게 답하면:

아니다.

그렇게 될 수도 있지만, 자동으로 BFM이 되지는 않는다.

이 글은 이 미묘하지만 중요한 차이를 정리한다.

한 문장 요약

BFM은 ‘행동을 입력으로 쓰는 모델’이 아니라,

‘행동 자체를 학습 목표로 삼는 모델’이다.

1. 질문을 정확히 다시 써보자

원래 질문은 사실 두 가지로 나뉜다.

LLM 구조를 사용했다
학습 데이터가 행동 시퀀스다

이 두 조건이 모두 참이면 BFM인가?

→ 아니다.

결정적인 것은 ‘학습 목적(objective)’이다.

2. LLM을 행동 시퀀스로 학습하는 경우들

행동을 “텍스트처럼” 학습한 LLM

예:

[세탁기_검색] [가격_비교] [리뷰_확인] [구매]

Transformer 구조
Next-token prediction
토큰 = 행동 ID 또는 행동 문장

이 경우 모델은 이렇게 배운다.

“이 시퀀스 다음엔

어떤 행동 토큰이 올 확률이 높은가?”

-> 행동 시퀀스 사용

-> LLM 구조 사용

(X) 아직 행동의 의미 체계를 명시적으로 학습하지는 않음

→ 여기까지는 LLM-like behavior model

→ 아직 BFM이라고 부르기엔 애매

3. 그럼 BFM은 뭐가 다른가?

BFM의 핵심 정의

BFM은

행동 시퀀스 자체의 통계적 구조를

‘도메인 목적’에 맞게 학습한 Foundation Model이다.

여기서 포인트는:

입력이 행동인가? X (필수 아님)
구조가 Transformer인가? X (필수 아님)
학습 목표가 행동 중심인가? O (필수)

4. LLM + 행동 시퀀스 ≠ 자동으로 BFM인 이유

이유 1. LLM의 기본 목표는 ‘언어적 일반화’

LLM의 기본 objective는:

P(token_t | token_1 … token_{t-1})

이건 본질적으로:

문법
의미
서술 구조

를 잘 맞추는 방향으로 학습된다.

→ 행동 시퀀스를 넣어도 언어 모델의 관성은 남는다.

이유 2.BFM은 ‘행동 물리학’을 배운다

BFM이 학습하는 것은 예를 들면:

전이 확률
반복 패턴
시간 간격
상태 변화

즉,

“이 행동 다음에

무엇이, 언제, 얼마나 자주 일어나는가”

→ 의미보다 행동 역학(dynamics) 이 핵심

5.언제 “LLM을 행동 시퀀스로 학습한 모델”이 BFM이 되는가?

다음 조건을 상당 부분 만족하면

BFM이라고 불러도 무리가 없다.

조건 1. 학습 목표가 행동 중심이다

Next-action
Time-to-event
Sequence completion
State transition

조건 2. 언어적 일반화보다 도메인 최적화가 우선이다

일반 문장 생성 (X)
고객 행동 예측 (O)

조건 3.임베딩이 ‘의미’보다 ‘전이’에 최적화되어 있다

비슷한 행동 → 가까움
다음 행동이 비슷한 시퀀스 → 가까움

조건 4. 설명 가능성보다 예측 정확도가 핵심 KPI다

“왜?”보다
“맞췄는가?”가 중요

6.개념적으로 정리하면 이렇다

LLM
 └─ 목적: 의미 이해 / 생성
 └─ 행동 시퀀스 사용 가능
 └─ 여전히 ‘언어 모델’

BFM
 └─ 목적: 행동 예측 / 전이 학습
 └─ LLM 구조를 사용할 수도 있음
 └─ 하지만 ‘행동 모델’

→ 구조는 공유 가능, 철학은 다르다

7.실무에서 가장 흔한 혼합 형태

현실에서는 이런 모델이 많다.

“LLM 구조 + 행동 시퀀스 + 행동 예측 목적”

이건 정확히 말하면:

BFM 성격을 가진 행동 모델
혹은 Behavior-LM

→ 이름보다 중요한 건:

무엇을 잘하느냐
무엇으로 평가하느냐

8.이름보다 중요한 질문

모델을 뭐라고 부를지보다

아래 질문에 답하는 게 더 중요하다.

이 모델은 다음 행동을 잘 맞추는가?
아니면 고객의 의도/성향을 잘 설명하는가?
헤드는 하나인가, 여러 개인가?
임베딩은 재사용 가능한가?

→ 이 답이 LLM 중심인지, BFM 중심인지 알려준다.

한 문장으로 정리하면

LLM을 행동 시퀀스로 학습했다고 해서

자동으로 BFM이 되는 건 아니다.

BFM은 ‘입력’이 아니라 ‘목적’으로 정의된다.

마치며

행동을 이해하고 싶다면 → LLM 임베딩
행동을 예측하고 싶다면 → BFM
둘 다 필요하다면 → 역할 분리

그리고 그 경계는

데이터가 아니라 목적에서 그어진다.

[Embedding] 13. LLM을 행동시퀀스로 학습한게 BFM인가?