“비슷해 보이지만, 같지는 않다”
들어가며
지난 글에서 LLM과 BFM을 간략히 비교했으나 좀 더 알아보자.
행동 데이터를 다루다 보면 이런 질문이 자연스럽게 나온다.
“LLM을 텍스트 대신
고객 행동 시퀀스로 학습하면
그게 바로 BFM(Behavior Foundation Model) 아닌가요?”
짧게 답하면:
아니다.
그렇게 될 수도 있지만, 자동으로 BFM이 되지는 않는다.
이 글은 이 미묘하지만 중요한 차이를 정리한다.
한 문장 요약
BFM은 ‘행동을 입력으로 쓰는 모델’이 아니라,
‘행동 자체를 학습 목표로 삼는 모델’이다.
1. 질문을 정확히 다시 써보자
원래 질문은 사실 두 가지로 나뉜다.
- LLM 구조를 사용했다
- 학습 데이터가 행동 시퀀스다
이 두 조건이 모두 참이면 BFM인가?
→ 아니다.
결정적인 것은 ‘학습 목적(objective)’이다.
2. LLM을 행동 시퀀스로 학습하는 경우들
행동을 “텍스트처럼” 학습한 LLM
예:
[세탁기_검색] [가격_비교] [리뷰_확인] [구매]- Transformer 구조
- Next-token prediction
- 토큰 = 행동 ID 또는 행동 문장
이 경우 모델은 이렇게 배운다.
“이 시퀀스 다음엔
어떤 행동 토큰이 올 확률이 높은가?”
-> 행동 시퀀스 사용
-> LLM 구조 사용
(X) 아직 행동의 의미 체계를 명시적으로 학습하지는 않음
→ 여기까지는 LLM-like behavior model
→ 아직 BFM이라고 부르기엔 애매
3. 그럼 BFM은 뭐가 다른가?
BFM의 핵심 정의
BFM은
행동 시퀀스 자체의 통계적 구조를
‘도메인 목적’에 맞게 학습한 Foundation Model이다.
여기서 포인트는:
- 입력이 행동인가? X (필수 아님)
- 구조가 Transformer인가? X (필수 아님)
- 학습 목표가 행동 중심인가? O (필수)
4. LLM + 행동 시퀀스 ≠ 자동으로 BFM인 이유
이유 1. LLM의 기본 목표는 ‘언어적 일반화’
LLM의 기본 objective는:
P(token_t | token_1 … token_{t-1})이건 본질적으로:
- 문법
- 의미
- 서술 구조
를 잘 맞추는 방향으로 학습된다.
→ 행동 시퀀스를 넣어도 언어 모델의 관성은 남는다.
이유 2.BFM은 ‘행동 물리학’을 배운다
BFM이 학습하는 것은 예를 들면:
- 전이 확률
- 반복 패턴
- 시간 간격
- 상태 변화
즉,
“이 행동 다음에
무엇이, 언제, 얼마나 자주 일어나는가”
→ 의미보다 행동 역학(dynamics) 이 핵심
5.언제 “LLM을 행동 시퀀스로 학습한 모델”이 BFM이 되는가?
다음 조건을 상당 부분 만족하면
BFM이라고 불러도 무리가 없다.
조건 1. 학습 목표가 행동 중심이다
- Next-action
- Time-to-event
- Sequence completion
- State transition
조건 2. 언어적 일반화보다 도메인 최적화가 우선이다
- 일반 문장 생성 (X)
- 고객 행동 예측 (O)
조건 3.임베딩이 ‘의미’보다 ‘전이’에 최적화되어 있다
- 비슷한 행동 → 가까움
- 다음 행동이 비슷한 시퀀스 → 가까움
조건 4. 설명 가능성보다 예측 정확도가 핵심 KPI다
- “왜?”보다
- “맞췄는가?”가 중요
6.개념적으로 정리하면 이렇다
LLM
└─ 목적: 의미 이해 / 생성
└─ 행동 시퀀스 사용 가능
└─ 여전히 ‘언어 모델’
BFM
└─ 목적: 행동 예측 / 전이 학습
└─ LLM 구조를 사용할 수도 있음
└─ 하지만 ‘행동 모델’→ 구조는 공유 가능, 철학은 다르다
7.실무에서 가장 흔한 혼합 형태
현실에서는 이런 모델이 많다.
“LLM 구조 + 행동 시퀀스 + 행동 예측 목적”
이건 정확히 말하면:
- BFM 성격을 가진 행동 모델
- 혹은 Behavior-LM
→ 이름보다 중요한 건:
- 무엇을 잘하느냐
- 무엇으로 평가하느냐
8.이름보다 중요한 질문
모델을 뭐라고 부를지보다
아래 질문에 답하는 게 더 중요하다.
- 이 모델은 다음 행동을 잘 맞추는가?
- 아니면 고객의 의도/성향을 잘 설명하는가?
- 헤드는 하나인가, 여러 개인가?
- 임베딩은 재사용 가능한가?
→ 이 답이 LLM 중심인지, BFM 중심인지 알려준다.
한 문장으로 정리하면
LLM을 행동 시퀀스로 학습했다고 해서
자동으로 BFM이 되는 건 아니다.
BFM은 ‘입력’이 아니라 ‘목적’으로 정의된다.
마치며
- 행동을 이해하고 싶다면 → LLM 임베딩
- 행동을 예측하고 싶다면 → BFM
- 둘 다 필요하다면 → 역할 분리
그리고 그 경계는
데이터가 아니라 목적에서 그어진다.