“그럴 수 있다 — 하지만 설계에 달려 있다”
들어가며
이 질문은 매우 현실적이다.
“이미 잘 학습된 LLM이 있는데,
여기에 행동 시퀀스 데이터로 추가 학습해서
BFM처럼 쓰면 안 되나요?
그럼 기존 언어 능력은 어떻게 되죠?”
짧은 답은 이렇다.
그대로 파인튜닝하면
기존 LLM 능력이 상당 부분 사라질 가능성이 높다.
하지만 반드시 그런 것은 아니다.
한 문장 요약
LLM을 행동 데이터로 강하게 파인튜닝하면
언어 능력은 ‘덮어쓰기(overwrite)’될 수 있다.
이를 막으려면 구조적 분리나 제약 학습이 필요하다.
1.왜 능력이 사라질 수 있을까?
이 현상은 ML에서 잘 알려진 문제다.
Catastrophic Forgetting (파국적 망각)
모델이 새로운 태스크에 강하게 적응하면서
기존 태스크의 표현을 잃는 현상이다.
LLM을 행동 데이터로만 학습하면 벌어지는 일
기존 LLM은 이렇게 학습되어 있다.
자연어 문맥 → 다음 단어 예측그런데 행동 데이터로만 재학습하면:
행동 시퀀스 → 다음 행동 예측모델은 이렇게 판단한다.
“이제 내 목표는
자연어가 아니라 행동 전이다.”
→ 내부 표현이 행동 전이 구조에 맞게 재배열된다.
결과:
- 일반 언어 생성 능력 ↓
- 추론 능력 ↓
- 일반 지식 표현 ↓
- 도메인 편향 ↑
2.얼마나 학습하면 망각이 발생할까?
망각 강도는 다음 요소에 따라 달라진다.
|
요소 |
영향 |
|---|---|
|
학습 데이터 규모 |
클수록 망각 ↑ |
|
학습 스텝 수 |
많을수록 망각 ↑ |
|
learning rate |
높을수록 망각 ↑ |
|
목적 함수 차이 |
클수록 망각 ↑ |
→ 행동 데이터가 언어 데이터와 매우 다르면 망각은 더 빠르게 온다.
3. 그럼 LLM + 행동 학습은 하면 안 되는가?
아니다.
방법의 문제다.
4.기존 능력을 유지하는 전략들
전략 1. Multi-Task Learning
가장 정석적인 방법.
Loss = λ1 * Language Loss
+ λ2 * Behavior Loss- 자연어 태스크 유지
- 행동 전이 태스크 병행
→ 모델이 두 공간을 동시에 보존
전략 2. LoRA / Adapter 방식
기존 LLM은 고정하고
행동 전이용 adapter만 학습.
Base LLM (frozen)
+
Behavior Adapter (trainable)장점:
- 원래 LLM 능력 보존
- 행동 특화 모듈 추가
→ 실무에서 가장 안전
전략 3. Dual-Head 구조
Shared Encoder
↓
Language Head
Behavior Head- 언어 헤드 유지
- 행동 헤드 추가
→ 표현 공유, 목적 분리
전략 4. 완전 분리 (권장되는 경우 많음)
LLM → 의미/설명
BFM → 전이/예측두 모델을 합치지 않고 역할을 나누는 방식.
→ 가장 안정적이며 대규모 시스템에서 많이 쓰임
5.그럼 “LLM을 행동으로만 학습해 BFM화” 하면?
가능은 하다.
하지만 그 순간 모델은 더 이상 “범용 LLM”이 아니다.
그건 사실상:
Behavior-specialized Transformer
이고, 원래의 LLM 능력은 대부분 희석된다.
6. 개념적으로 정리하면
LLM 공간 (언어 의미)
↓
행동 데이터 강한 파인튜닝
↓
행동 전이 공간으로 이동이건 “능력 추가”가 아니라
표현 공간 이동(representation shift) 이다.
7.그래서 무엇이 최적 전략인가?
질문을 먼저 던져야 한다.
- 우리는 범용 LLM이 필요한가?
- 행동 예측만 잘하면 되는가?
- 설명 능력이 중요한가?
- 모델 수를 줄여야 하는가?
현실적인 권장 조합
|
목표 |
권장 구조 |
|---|---|
|
설명 + 예측 |
LLM + BFM 분리 |
|
행동 전이 최적화 |
행동 전용 BFM |
|
경량 통합 |
LLM + Adapter |
8.중요한 통찰 하나
LLM 능력은 ‘쌓는 것’이 아니라
‘공간을 유지하는 것’이다.
강한 도메인 파인튜닝은 공간을 덮어쓴다.
그래서:
- 언어 능력을 유지하려면→ 공간을 보호해야 한다.
- 행동 특화를 원한다면→ 새로운 공간을 만드는 게 낫다.
한 문장으로 정리하면
LLM을 행동 데이터로 강하게 학습하면
기존 언어 능력은 사라질 수 있다.
유지하려면 ‘공존 구조’를 설계해야 한다.
마치며
이 질문은 기술적인 문제이기도 하지만 전략적인 문제이기도 하다.
- 하나의 거대한 모델로 통합할 것인가?
- 역할을 나눌 것인가?
많은 성숙한 시스템은 결국 이렇게 선택한다.
“이해는 LLM,
예측은 BFM.”
그리고 둘을 무리하게 합치지 않는다.