대규모 언어 모델이 만드는 의미의 좌표계


들어가며

최근 검색, 추천, RAG, 고객 분석, 행동 예측 등 거의 모든 AI 시스템의 핵심에는 임베딩(Embedding) 이 있다.

특히 LLM(Large Language Model) 기반 임베딩은 단순한 단어 벡터를 넘어 문맥(Context), 의도(Intent), 행동의 흐름(Sequence) 까지 하나의 벡터로 압축한다.

이 글에서는 다음 질문에 답한다.

  • LLM 임베딩은 정확히 무엇인가?
  • Word2Vec / BERT 임베딩과는 무엇이 다른가?
  • 왜 LLM 임베딩이 실무에서 강력한가?
  • 언제, 어떻게 사용해야 하는가?


임베딩(Embedding)이란?

임베딩이란 텍스트·행동·이미지 같은 비정형 데이터를 고정 차원의 숫자 벡터로 변환하는 것이다.

“의미적으로 비슷한 것은 벡터 공간에서도 가깝게”

이라는 성질을 갖는다.

예를 들면,

  • 세탁기 구매 ↔ 건조기 구매 → 가깝다
  • 세탁기 구매 ↔ 주식 매도 → 멀다

이 “가깝다 / 멀다”는 보통 코사인 유사도(cosine similarity) 로 측정한다.


LLM 임베딩의 핵심 아이디어

기존 임베딩과 달리, LLM 임베딩은 대규모 언어 모델의 내부 표현(hidden state) 을 활용한다.

LLM은 이미 다음을 학습했다.

  • 단어의 의미
  • 문장 구조
  • 문맥적 뉘앙스
  • 원인–결과 관계
  • 시간적 흐름

이 내부 표현을 벡터로 뽑아낸 것이 LLM 임베딩이다.


LLM 임베딩은 어떻게 만들어질까?

일반적인 과정은 다음과 같다.

  1. 입력 텍스트(또는 행동 시퀀스)를 토큰화
  2. Transformer를 통과하며 다층의 hidden state 생성
  3. 특정 방식으로 벡터 추출
    • [CLS]나 [EOS] 토큰
    • Mean Pooling
    • Last Hidden State 평균
  4. 고정 차원 벡터 출력 (예: 384 / 768 / 1024 차원)

Word2Vec · BERT · LLM 임베딩 비교

구분

Word2Vec

BERT 임베딩

LLM 임베딩

문맥 반영

X

O (양방향)

OO (고차원 문맥)

입력 단위

단어

문장

문장 · 문서 · 시퀀스

의미 압축력

낮음

중간

매우 높음

비정형 행동

X

제한적

O

실무 확장성

낮음

중간

높음

핵심 차이:

  • Word2Vec: “단어 자체”
  • BERT: “문장 속 단어”
  • LLM 임베딩: “의미 + 의도 + 맥락 + 흐름”


왜 LLM 임베딩이 강력한가?

1.문맥을 이해한다

같은 단어라도 문맥에 따라 다른 벡터가 나온다.

  • 사과를 샀다
  • 애플 주식을 샀다

→ 완전히 다른 임베딩


2.행동 시퀀스를 하나의 의미로 압축한다

예시:

세탁기 구매 →
건조기 A/S →
건조기 표준건조 사용 →
필터 교체

이 전체 흐름을 하나의 벡터로 표현할 수 있다.

→ “1인 가구 + 실사용자 + 유지관리 단계” 같은 잠재적 의미가 자연스럽게 담긴다.


3.라벨이 없어도 쓸 수 있다

LLM 임베딩은 비지도 / 약지도 환경에서도 강력하다.

  • 유사 고객 찾기
  • 행동 클러스터링
  • 이상치 탐지
  • 잠재 속성 추론


LLM 임베딩의 대표적 활용 사례

Semantic Search

  • 키워드가 아니라 의미 기반 검색
  • “조용한 세탁기” → 저소음 모델 검색

RAG (Retrieval-Augmented Generation)

  • 문서를 임베딩 → 벡터 DB 저장
  • 질문 임베딩과 가장 가까운 문서 검색

추천 시스템

  • 사용자 행동 임베딩 ↔ 상품 임베딩
  • cold-start 문제 완화

고객 분석

  • 고객 행동 시퀀스 → 임베딩
  • 라이프스타일 / 라이프스테이지 추론


임베딩간의 코사인 유사도는 무엇을 의미할까?

LLM 임베딩에서 자주 쓰는 지표는 코사인 유사도다.

  • 1에 가까울수록 → 의미적으로 매우 유사
  • 0에 가까울수록 → 관련 없음
  • 음수 → 상반된 방향

! 주의 !

“유사도 = 동일한 속성”은 아니다.
같은 맥락에 자주 등장하면 반대 개념도 가까울 수 있다.


LLM 임베딩을 쓸 때 주의할 점

만능이 아니다

  • 도메인 특화 행동 → 추가 학습 필요
  • 숫자/정형 데이터 → 별도 처리 필요

차원이 높다고 무조건 좋은 건 아니다

  • 저장 비용
  • 검색 속도
  • 과도한 노이즈

→ 목적에 맞는 차원 선택이 중요


언제 LLM 임베딩을 쓰는 게 좋은가?

다음 중 하나라도 해당되면 강력한 선택이다.

  • 라벨이 부족하다
  • 행동/텍스트가 길고 복잡하다
  • 규칙 기반이 한계에 부딪혔다
  • “의미적으로 비슷한 것”을 찾고 싶다

마치며

LLM 임베딩은 단순한 벡터가 아니다.

그것은 의미의 좌표계, 행동의 압축 표현, 맥락의 흔적이다.

검색, 추천, 고객 이해, 에이전트까지—

LLM 임베딩은 앞으로의 AI 시스템에서 기본 언어가 될 가능성이 높다.

[Embedding] 1. LLM 임베딩이란 무엇인가?