모든 포스트

Research RAG LLM

RAG 평가지표 정복하기

RAG 시스템의 Data(Chunking), Retrieval(Rank Aware/Unaware), Generation(Task/Domain specific) 3가지 카테고리에 걸친 평가지표를 총정리한 글

2025년 3월 29일 · 3분 읽기

RAG 평가지표 정복하기

0. Overview

사실 예정되어있던 포스트는 아니었고 RAG 성능평가에 대한 고민이 많던 요즘 총정리를 한번 해보자는 생각으로 작성하게 되었다. 널리 알려진 평가 metric부터 개인적으로 생각하는 부분까지 이 한번의 포스트로 끝내보자. 평가 metric은 크게 아래의 3가지 카테고리로 정리했다.

Data : Chunking에 대한 평가지표
Retrieval : Ranking을 고려했을 때와 그렇지 않았을 때의 Retrieval 평가지표
Generation : 공통된 기준이나 Domain / Scenario에 따른 Generation 평가지표

1. Data

(1). Chunking (post)

IoU
Retrieval Metric

2. Retrieval

(1). Rank Unaware Metric

Precision
Recall
F1 Score

(2). Rank Aware Metric

MRR
MAP
nDCG

3. Generation

(1). Task specific metric

QA task
- G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
Summerization task
- Sem Score, ROUGE
Translation task
- BLEU, BERT Score
Conversation task
- G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
- Knowledge Retention
Safety(=SafeGuard) task
- G-Eval (e.g. Toxicity, Bias, Harmfulness, etc )

(2). Domain specific / Scenario based metric

Design a custom metric that reflects domain-specific characteristics. The evaluation method is generally as follows:
- MCQA (=Multiple Choices Question Answering)
- G-Eval

Comments

이전 포스트 일할맛 판교 3월 세미나

다음 포스트 LLM Quantization 방법론 알아보기

모든 포스트 보기