“이 벡터는 정말 의미를 담고 있는가?”

들어가며

LLM 임베딩은 검색, 추천, RAG, 고객 분석 등 수많은 시스템의 핵심이 된다.

하지만 실무에서 가장 자주 듣는 질문은 이것이다.

“이 임베딩, 잘 만들어진 건가요?”

정확도(Accuracy)처럼 명확한 정답이 없는 임베딩 평가.

이 글에서는 LLM 임베딩을 어떻게, 어떤 관점에서 평가해야 하는지를 정리한다.

왜 임베딩 평가는 어려운가?

임베딩은 중간 표현(latent representation)에 불과하기 때문.

예측 모델 (X)
정답 라벨 (X)
단일 점수 (X)

즉,

“잘 만든 임베딩 = downstream task에서 도움이 되는 임베딩”

평가는 목적 중심(task-oriented) 으로 이뤄져야 한다.

LLM 임베딩 평가의 4가지 핵심 관점

의미 보존 (Semantic Quality)
공간 구조 (Geometric Structure)
다운스트림 성능 (Task Utility)
안정성 & 일관성 (Stability)

아래에서 하나씩 살펴보자.

1.의미 기반 평가 (Semantic Evaluation)

핵심 질문

의미적으로 비슷한 것들이 정말 가까운가?

1-1. 코사인 유사도 분포 확인

유사 문장 쌍
무관 문장 쌍
반대 의미 문장 쌍

각 그룹의 코사인 유사도 분포를 비교한다.

이상적인 패턴

유사 쌍 → 0.7 ~ 0.9
무관 쌍 → 0.2 ~ 0.4
반대 쌍 → 0.0 근처 (항상 음수일 필요는 없음)

! 주의 !

LLM 임베딩에서는 반대 개념도 같은 문맥에서 자주 등장하면 가까울 수 있다.

1-2. 의미 순위 평가 (Ranking Test)

질문 임베딩을 기준으로:

Q: “혼자 사는 사람에게 적합한 가전”

Top-k 결과가 의미적으로 타당한지
순서가 자연스러운지

정량 점수 + 사람의 판단 병행이 현실적

2.공간 구조 평가 (Geometric Evaluation)

임베딩은 벡터 공간이다.

공간 구조가 망가지면 downstream 성능도 무너진다.

2-1. 클러스터링 품질

KMeans / HDBSCAN
Silhouette Score
Davies–Bouldin Index

좋은 임베딩의 특징

군집 간 거리 명확
군집 내부 밀집
라벨 없이도 의미 단위로 뭉침

2-2. 차원 축소 후 시각화

UMAP / t-SNE
라벨이 있다면 색상으로 구분

확인 포인트

라벨이 자연스럽게 분리되는가?
경계가 과도하게 꼬이지 않는가?

!! t-SNE는 “예쁘게” 보일 수 있으니 과신 금물

3.다운스트림 태스크 기반 평가 (Most Important)

가장 중요한 평가 방법

3-1. 분류 / 회귀 성능

임베딩을 입력으로 간단한 모델을 붙인다.

Logistic Regression
Linear / LightGBM

비교 대상:

기존 임베딩
Rule 기반 피처
Random embedding

단순 모델에서 성능이 잘 나오면 임베딩 품질이 높다

3-2. 검색 / 추천 성능

Precision@K
Recall@K
NDCG

예:

고객 임베딩 ↔ 상품 임베딩
행동 임베딩 ↔ 행동 임베딩

3-3. Cold-start 성능

히스토리가 거의 없는 유저
신규 상품

LLM 임베딩은 이 구간에서 진가가 드러난다

4. 안정성 & 일관성 평가 (Stability)

4-1. 입력 변형 테스트

원문:
세탁기 구매 → 건조기 구매

변형:
드럼세탁기 구매 → 건조기 구매

임베딩 방향이 크게 변하지 않는가?
노이즈에 강한가?

4-2. 시간 안정성

같은 고객
다른 시점
행동 1~2개 추가

임베딩이 부드럽게 이동(smooth transition) 하는가?

정량 vs 정성 평가, 무엇이 더 중요할까?

구분	정량 평가	정성 평가
장점	비교 가능	직관적
단점	의미 왜곡 가능	주관적
권장	O	OO

둘 다 필요

특히 LLM 임베딩은 사람의 인사이트가 매우 중요하다.

실무용 평가 체크리스트

유사/비유사 쌍 분리되는가?
클러스터가 의미 단위로 뭉치는가?
단순 모델에서도 성능이 나오는가?
노이즈에 안정적인가?
실제 서비스 지표가 개선되는가?

흔한 오해들

(X) “차원이 높을수록 좋다”

(X) “코사인 유사도 평균이 높다 = 좋다”

(X) “시각화가 예쁘다 = 품질이 좋다”

목적 없는 임베딩 평가는 의미가 없다

마치며

LLM 임베딩 평가는

수학 문제도, 단일 점수 게임도 아니다.

그 임베딩이:

의미를 담고 있는지
공간이 건강한지
실제 문제를 더 잘 풀게 하는지

이 세 가지에 답할 수 있다면,

그 임베딩은 좋은 임베딩이다.

[Embedding] 2. LLM 임베딩의 품질은 어떻게 평가할까?