RAG 평가지표 정복하기
RAG 시스템의 Data(Chunking), Retrieval(Rank Aware/Unaware), Generation(Task/Domain specific) 3가지 카테고리에 걸친 평가지표를 총정리한 글
RAG 시스템의 Data(Chunking), Retrieval(Rank Aware/Unaware), Generation(Task/Domain specific) 3가지 카테고리에 걸친 평가지표를 총정리한 글
LLM과 RAG를 활용해 문장에서 5W1H와 인과관계 등의 메타 정보를 추출하는 High-Quality Synthetic Dataset 생성 실험을 소개한 글
Chroma Technical Report를 번역 및 정리한 글로, 토큰 단위 IoU 평가 지표와 다양한 Chunking Strategy 비교 실험 결과를 다룬다
RAG 평가 데이터셋의 품질 문제를 제기하고, Context·Question·Answer 분류 체계를 통해 목적에 align된 평가셋 제작 방법론을 제안한 글
6가지 Chunking Strategy(Naive, Fixed Size, Overlap, Recursive, Sentence Window, Semantic)를 직접 실험하고 RC-Score로 종합 비교한 결과를 공유하는 글
Word2Vec, GloVe, Subword Embedding 등 다양한 임베딩 방식의 특성과 자체 성능 평가 방법론(Similarity Evaluation, Analogy Test, Downstream Task)을 탐구하는 글
최혜진의 '에디토리얼 씽킹'을 RAG와 생성형 AI 관점에서 재해석하며, 인문학적 사고방식이 AI 기술 발전에 미치는 시사점을 다룬 글
RAG에서 Hallucination이 발생하는 근본 원인과 Grounding, Ground Check API, Agentic RAG 등 다양한 최소화 전략을 탐구한 글
RAG가 여전히 주목받는 이유와 그 본질을 'LLM 답변에 신뢰성 한 스푼을 첨가하는 방법론'으로 정의하며 Advanced RAG와의 연결고리를 탐구한 글
LLM의 Hallucination을 줄이기 위한 핵심 방법론인 RAG와 Grounding의 차이점과 각각의 활용 시나리오를 비교 분석한 글
단일 LLM 모델에서 복합 AI 시스템(Compound AI System)으로의 전환 트렌드를 Berkeley AI Research Blog 원문을 바탕으로 번역 및 분석한 글