“이 벡터는 정말 의미를 담고 있는가?”


들어가며

LLM 임베딩은 검색, 추천, RAG, 고객 분석 등 수많은 시스템의 핵심이 된다.

하지만 실무에서 가장 자주 듣는 질문은 이것이다.

“이 임베딩, 잘 만들어진 건가요?

정확도(Accuracy)처럼 명확한 정답이 없는 임베딩 평가.

이 글에서는 LLM 임베딩을 어떻게, 어떤 관점에서 평가해야 하는지를 정리한다.


왜 임베딩 평가는 어려운가?

임베딩은 중간 표현(latent representation)에 불과하기 때문.

  • 예측 모델 (X)
  • 정답 라벨 (X)
  • 단일 점수 (X)

즉,

“잘 만든 임베딩 = downstream task에서 도움이 되는 임베딩”

평가는 목적 중심(task-oriented) 으로 이뤄져야 한다.


LLM 임베딩 평가의 4가지 핵심 관점

  1. 의미 보존 (Semantic Quality)
  2. 공간 구조 (Geometric Structure)
  3. 다운스트림 성능 (Task Utility)
  4. 안정성 & 일관성 (Stability)

아래에서 하나씩 살펴보자.


1.의미 기반 평가 (Semantic Evaluation)

핵심 질문

의미적으로 비슷한 것들이 정말 가까운가?

1-1. 코사인 유사도 분포 확인

  • 유사 문장 쌍
  • 무관 문장 쌍
  • 반대 의미 문장 쌍

각 그룹의 코사인 유사도 분포를 비교한다.

이상적인 패턴

  • 유사 쌍 → 0.7 ~ 0.9
  • 무관 쌍 → 0.2 ~ 0.4
  • 반대 쌍 → 0.0 근처 (항상 음수일 필요는 없음)

! 주의 !

LLM 임베딩에서는 반대 개념도 같은 문맥에서 자주 등장하면 가까울 수 있다.


1-2. 의미 순위 평가 (Ranking Test)

질문 임베딩을 기준으로:

Q: “혼자 사는 사람에게 적합한 가전”
  • Top-k 결과가 의미적으로 타당한지
  • 순서가 자연스러운지

정량 점수 + 사람의 판단 병행이 현실적


2.공간 구조 평가 (Geometric Evaluation)

임베딩은 벡터 공간이다.

공간 구조가 망가지면 downstream 성능도 무너진다.


2-1. 클러스터링 품질

  • KMeans / HDBSCAN
  • Silhouette Score
  • Davies–Bouldin Index

좋은 임베딩의 특징

  • 군집 간 거리 명확
  • 군집 내부 밀집
  • 라벨 없이도 의미 단위로 뭉침

2-2. 차원 축소 후 시각화

  • UMAP / t-SNE
  • 라벨이 있다면 색상으로 구분

확인 포인트

  • 라벨이 자연스럽게 분리되는가?
  • 경계가 과도하게 꼬이지 않는가?

!! t-SNE는 “예쁘게” 보일 수 있으니 과신 금물


3.다운스트림 태스크 기반 평가 (Most Important)

가장 중요한 평가 방법

3-1. 분류 / 회귀 성능

임베딩을 입력으로 간단한 모델을 붙인다.

  • Logistic Regression
  • Linear / LightGBM

비교 대상:

  • 기존 임베딩
  • Rule 기반 피처
  • Random embedding

단순 모델에서 성능이 잘 나오면 임베딩 품질이 높다


3-2. 검색 / 추천 성능

  • Precision@K
  • Recall@K
  • NDCG

예:

  • 고객 임베딩 ↔ 상품 임베딩
  • 행동 임베딩 ↔ 행동 임베딩

3-3. Cold-start 성능

  • 히스토리가 거의 없는 유저
  • 신규 상품

LLM 임베딩은 이 구간에서 진가가 드러난다


4. 안정성 & 일관성 평가 (Stability)

4-1. 입력 변형 테스트

원문:
세탁기 구매 → 건조기 구매

변형:
드럼세탁기 구매 → 건조기 구매
  • 임베딩 방향이 크게 변하지 않는가?
  • 노이즈에 강한가?

4-2. 시간 안정성

  • 같은 고객
  • 다른 시점
  • 행동 1~2개 추가

임베딩이 부드럽게 이동(smooth transition) 하는가?


정량 vs 정성 평가, 무엇이 더 중요할까?

구분

정량 평가

정성 평가

장점

비교 가능

직관적

단점

의미 왜곡 가능

주관적

권장

O

OO

둘 다 필요

특히 LLM 임베딩은 사람의 인사이트가 매우 중요하다.


실무용 평가 체크리스트

  • 유사/비유사 쌍 분리되는가?
  • 클러스터가 의미 단위로 뭉치는가?
  • 단순 모델에서도 성능이 나오는가?
  • 노이즈에 안정적인가?
  • 실제 서비스 지표가 개선되는가?

흔한 오해들

(X) “차원이 높을수록 좋다”

(X) “코사인 유사도 평균이 높다 = 좋다”

(X) “시각화가 예쁘다 = 품질이 좋다”

목적 없는 임베딩 평가는 의미가 없다


마치며

LLM 임베딩 평가는

수학 문제도, 단일 점수 게임도 아니다.

그 임베딩이:

  • 의미를 담고 있는지
  • 공간이 건강한지
  • 실제 문제를 더 잘 풀게 하는지

이 세 가지에 답할 수 있다면,

그 임베딩은 좋은 임베딩이다.

[Embedding] 2. LLM 임베딩의 품질은 어떻게 평가할까?