“이 벡터는 정말 의미를 담고 있는가?”
들어가며
LLM 임베딩은 검색, 추천, RAG, 고객 분석 등 수많은 시스템의 핵심이 된다.
하지만 실무에서 가장 자주 듣는 질문은 이것이다.
“이 임베딩, 잘 만들어진 건가요?”
정확도(Accuracy)처럼 명확한 정답이 없는 임베딩 평가.
이 글에서는 LLM 임베딩을 어떻게, 어떤 관점에서 평가해야 하는지를 정리한다.
왜 임베딩 평가는 어려운가?
임베딩은 중간 표현(latent representation)에 불과하기 때문.
- 예측 모델 (X)
- 정답 라벨 (X)
- 단일 점수 (X)
즉,
“잘 만든 임베딩 = downstream task에서 도움이 되는 임베딩”
평가는 목적 중심(task-oriented) 으로 이뤄져야 한다.
LLM 임베딩 평가의 4가지 핵심 관점
- 의미 보존 (Semantic Quality)
- 공간 구조 (Geometric Structure)
- 다운스트림 성능 (Task Utility)
- 안정성 & 일관성 (Stability)
아래에서 하나씩 살펴보자.
1.의미 기반 평가 (Semantic Evaluation)
핵심 질문
의미적으로 비슷한 것들이 정말 가까운가?
1-1. 코사인 유사도 분포 확인
- 유사 문장 쌍
- 무관 문장 쌍
- 반대 의미 문장 쌍
각 그룹의 코사인 유사도 분포를 비교한다.
이상적인 패턴
- 유사 쌍 → 0.7 ~ 0.9
- 무관 쌍 → 0.2 ~ 0.4
- 반대 쌍 → 0.0 근처 (항상 음수일 필요는 없음)
! 주의 !
LLM 임베딩에서는 반대 개념도 같은 문맥에서 자주 등장하면 가까울 수 있다.
1-2. 의미 순위 평가 (Ranking Test)
질문 임베딩을 기준으로:
Q: “혼자 사는 사람에게 적합한 가전”- Top-k 결과가 의미적으로 타당한지
- 순서가 자연스러운지
정량 점수 + 사람의 판단 병행이 현실적
2.공간 구조 평가 (Geometric Evaluation)
임베딩은 벡터 공간이다.
공간 구조가 망가지면 downstream 성능도 무너진다.
2-1. 클러스터링 품질
- KMeans / HDBSCAN
- Silhouette Score
- Davies–Bouldin Index
좋은 임베딩의 특징
- 군집 간 거리 명확
- 군집 내부 밀집
- 라벨 없이도 의미 단위로 뭉침
2-2. 차원 축소 후 시각화
- UMAP / t-SNE
- 라벨이 있다면 색상으로 구분
확인 포인트
- 라벨이 자연스럽게 분리되는가?
- 경계가 과도하게 꼬이지 않는가?
!! t-SNE는 “예쁘게” 보일 수 있으니 과신 금물
3.다운스트림 태스크 기반 평가 (Most Important)
가장 중요한 평가 방법
3-1. 분류 / 회귀 성능
임베딩을 입력으로 간단한 모델을 붙인다.
- Logistic Regression
- Linear / LightGBM
비교 대상:
- 기존 임베딩
- Rule 기반 피처
- Random embedding
단순 모델에서 성능이 잘 나오면 임베딩 품질이 높다
3-2. 검색 / 추천 성능
- Precision@K
- Recall@K
- NDCG
예:
- 고객 임베딩 ↔ 상품 임베딩
- 행동 임베딩 ↔ 행동 임베딩
3-3. Cold-start 성능
- 히스토리가 거의 없는 유저
- 신규 상품
LLM 임베딩은 이 구간에서 진가가 드러난다
4. 안정성 & 일관성 평가 (Stability)
4-1. 입력 변형 테스트
원문:
세탁기 구매 → 건조기 구매
변형:
드럼세탁기 구매 → 건조기 구매- 임베딩 방향이 크게 변하지 않는가?
- 노이즈에 강한가?
4-2. 시간 안정성
- 같은 고객
- 다른 시점
- 행동 1~2개 추가
임베딩이 부드럽게 이동(smooth transition) 하는가?
정량 vs 정성 평가, 무엇이 더 중요할까?
|
구분 |
정량 평가 |
정성 평가 |
|---|---|---|
|
장점 |
비교 가능 |
직관적 |
|
단점 |
의미 왜곡 가능 |
주관적 |
|
권장 |
O |
OO |
둘 다 필요
특히 LLM 임베딩은 사람의 인사이트가 매우 중요하다.
실무용 평가 체크리스트
- 유사/비유사 쌍 분리되는가?
- 클러스터가 의미 단위로 뭉치는가?
- 단순 모델에서도 성능이 나오는가?
- 노이즈에 안정적인가?
- 실제 서비스 지표가 개선되는가?
흔한 오해들
(X) “차원이 높을수록 좋다”
(X) “코사인 유사도 평균이 높다 = 좋다”
(X) “시각화가 예쁘다 = 품질이 좋다”
목적 없는 임베딩 평가는 의미가 없다
마치며
LLM 임베딩 평가는
수학 문제도, 단일 점수 게임도 아니다.
그 임베딩이:
- 의미를 담고 있는지
- 공간이 건강한지
- 실제 문제를 더 잘 풀게 하는지
이 세 가지에 답할 수 있다면,
그 임베딩은 좋은 임베딩이다.