RAG 평가지표 정복하기

RAG 시스템의 Data(Chunking), Retrieval(Rank Aware/Unaware), Generation(Task/Domain specific) 3가지 카테고리에 걸친 평가지표를 총정리한 글

RAG 평가지표 정복하기

0. Overview

사실 예정되어있던 포스트는 아니었고 RAG 성능평가에 대한 고민이 많던 요즘 총정리를 한번 해보자는 생각으로 작성하게 되었다. 널리 알려진 평가 metric부터 개인적으로 생각하는 부분까지 이 한번의 포스트로 끝내보자. 평가 metric은 크게 아래의 3가지 카테고리로 정리했다.

  • Data : Chunking에 대한 평가지표
  • Retrieval : Ranking을 고려했을 때와 그렇지 않았을 때의 Retrieval 평가지표
  • Generation : 공통된 기준이나 Domain / Scenario에 따른 Generation 평가지표

1. Data

(1). Chunking (post)

  • IoU
  • Retrieval Metric

2. Retrieval

(1). Rank Unaware Metric

  • Precision
  • Recall
  • F1 Score

(2). Rank Aware Metric

  • MRR
  • MAP
  • nDCG

3. Generation

(1). Task specific metric

  • QA task
    • G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
  • Summerization task
    • Sem Score, ROUGE
  • Translation task
    • BLEU, BERT Score
  • Conversation task
    • G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
    • Knowledge Retention
  • Safety(=SafeGuard) task
    • G-Eval (e.g. Toxicity, Bias, Harmfulness, etc )

(2). Domain specific / Scenario based metric

  • Design a custom metric that reflects domain-specific characteristics. The evaluation method is generally as follows:
    • MCQA (=Multiple Choices Question Answering)
    • G-Eval