Production RAG Engineering 3: Evaluation, Operations, Checklist
Production RAG의 품질은 검색 단계에서 끝나지 않는다. 검색된 컨텍스트를 어떻게 생성 단계에 전달하고, 응답을 어떻게 평가하며, 운영 중 어떤 지표를 볼지가 함께 설계되어야 한다.
Generation & Prompting
검색된 컨텍스트를 LLM에 효과적으로 전달하고, 충실한 응답을 생성하는 전략이다.
Citation Prompting
응답의 각 주장에 [1], [2] 형식 출처 표기를 강제. 할루시네이션 감소 + 검증 가능성 확보.
사내 QA, 고객 응대 등 신뢰성이 중요한 모든 곳.
Lost-in-the-Middle 대응
LLM은 컨텍스트 처음과 끝을 잘 기억하고 중간은 잘 못 봄. 가장 관련 높은 문서를 맨 앞에 배치.
컨텍스트가 길 때 (5개+ 문서). 순서 최적화 필수.
Context Compression
검색된 문서를 그대로 넣지 말고 관련 문장만 추출. 토큰 절약 + 노이즈 감소.
컨텍스트 윈도우 제한, 비용 최적화 시. LongLLMLingua 등.
Chain-of-Note (CoN)
검색된 각 문서에 대해 “이 문서가 질문에 관련 있는가?”를 메모한 뒤 종합. 노이즈 문서 필터링.
검색 품질이 불안정할 때. Noisy Retrieval 상황.
Agentic RAG Patterns
단순 파이프라인을 넘어 자율적으로 검색-판단-반복하는 에이전트 패턴.
Self-RAG Asai et al., ICLR 2024 Oral
LLM 자체가 검색 필요 여부를 판단
4가지 Reflection Token으로 자기 판단:
[Retrieve]
검색이 필요한가? Yes/No/Continue
[IsRel]
검색된 문서가 관련 있는가? Relevant/Irrelevant
[IsSup]
응답이 문서에 근거하는가? Fully/Partially/No
[IsUse]
최종 응답이 유용한가? 1~5 등급
Corrective RAG (CRAG) Yan et al., 2024
정확도 19~37% 향상
검색 결과를 경량 평가기로 Correct / Incorrect / Ambiguous 분류 후 보정 경로 선택:
Correct →
Knowledge Refinement (관련 부분만 추출) → 생성
Incorrect →
Web Search로 대체 → 생성
Ambiguous →
내부 문서 + Web Search 결합 → 생성
Adaptive RAG Jeong et al., 2024
질문 복잡도 기반 동적 라우팅
경량 분류기가 질문 복잡도를 판단해서 최적 전략을 선택합니다:
A — Simple
“Python 버전 확인 방법?” →
No Retrieval
(LLM 직접 답변)
B — Moderate
“우리 회사 휴가 정책?” →
Single-step RAG
C — Complex
“3Q 매출을 경쟁사 대비 분석해줘” →
Multi-step Agentic RAG
2025~2026 신규 패턴
RAFT (Retrieval Augmented Fine-Tuning) UC Berkeley, 2024
RAG + Fine-tuning 결합
RAG와 파인튜닝을 결합하는 학습 레시피. 훈련 시 관련 문서 + 방해 문서(Distractor)를 함께 주고, 모델이 방해 문서를 무시하도록 학습합니다. 의료·법률 등 전문 도메인에서 단순 RAG보다 높은 정확도. 도메인 데이터가 충분할 때 고려.
SimRAG (Self-Improving RAG) NAACL 2025
도메인 적응 1.2~8.6% 향상
비라벨 코퍼스에서 LLM이 자체적으로 QA 쌍을 생성하고, 품질 필터링 후 self-training. 라벨링 비용 없이 도메인 특화 RAG 성능을 올리는 방법. 11개 데이터셋, 3개 도메인에서 검증.
Context Engineering 2025~2026 패러다임 전환
RAG → 더 넓은 프레임워크로 진화
“RAG”라는 좁은 패턴을 넘어, LLM에 전달하는 전체 컨텍스트를 체계적으로 설계하는 엔지니어링 분야. RAG(정적 지식 검색) + Memory(동적 대화 이력) + MCP(도구/서비스 연결)를 통합하는 “Knowledge Runtime” 개념으로 확장.
RAG
— 정적 도메인 지식 검색 (문서, DB)
Memory
— 동적 상호작용 데이터 (대화 이력, 세션 상태)
MCP
— 외부 도구/서비스 연결 (API, DB, 파일 시스템)
MCP + Agentic RAG Anthropic, 2025~2026
표준화된 도구 연결 프로토콜
Model Context Protocol (MCP)은 AI 모델과 외부 데이터/도구를 연결하는 오픈 표준. 기존에는 도구마다 커스텀 코드가 필요했지만, MCP로 벡터 DB · SQL DB · 웹 검색 · API를 통합 인터페이스로 연결합니다. Agentic RAG의 도구 선택이 동적이고 확장 가능해집니다.
08
Evaluation Framework
측정 없이 개선 없음. 검색과 생성을 분리 평가하고, 프로덕션에서 지속 모니터링.
핵심 메트릭 매트릭스
검색 품질 (Retrieval)
Context Precision
검색된 문서 중 관련 있는 비율. 관련 문서 / 전체 검색 문서
Context Recall
필요한 정보가 검색에 포함된 비율. 검색된 관련 문서 / 전체 관련 문서
MRR (Mean Reciprocal Rank)
첫 번째 관련 문서의 평균 순위. 검색 순서 품질 측정.
생성 품질 (Generation)
Faithfulness
응답이 검색 문서에 충실한가. 지어낸 내용 비율 측정. 가장 중요한 메트릭.
Answer Relevancy
응답이 질문에 적절한가. 관련 없는 내용이 포함되지 않았는지.
Answer Correctness
정답과 비교한 사실적 정확도. Ground truth 필요.
평가 도구 스택
RAGAS
개발 단계
오픈소스 자동 평가. 별도 ground truth 없이 LLM 기반 평가 가능. CI/CD 통합 가능.
DeepEval
CI/CD
pytest 스타일 RAG 유닛 테스트. assert_test로 회귀 방지. 빌드 파이프라인 통합.
LLM-as-Judge
유연한 평가
강력한 LLM으로 약한 LLM의 출력을 평가. Pairwise 비교, Pointwise 채점, Reference-based.
TruLens / Langfuse
프로덕션 모니터링
실시간 트레이싱, 피드백 함수 기반 품질 추적. 사용자 피드백 루프 구축.
09
Production Operations
RAG를 프로덕션에서 안정적으로 운영하기 위한 실전 체크리스트.
레이턴시 예산 (Latency Budget)
단계
P50 목표
P99 목표
최적화 방법
Query Processing
50ms
150ms
경량 모델, 캐싱
Embedding
20ms
50ms
배치 처리, GPU
Vector Search
10ms
30ms
HNSW, 인메모리 인덱스
Reranker
60ms
120ms
FlashRank 또는 캐싱
LLM Generation
500ms
2000ms
스트리밍, 프롬프트 최적화
Total (E2E)
~700ms
~2.5s
비용 최적화 전략
Semantic Cache
유사 질문 임베딩 비교 → 캐시 히트 시 검색/LLM 스킵. 20~40% 비용 절감. Redis + 코사인 유사도 > 0.95.
Matryoshka Embedding
3072d → 256d로 차원 축소. 스토리지 12x 절약, 검색 속도 3x 향상. 정확도 5%만 감소.
Router로 분기
단순 질문은 검색 없이 LLM 직접 답변. 30~50% 검색 비용 절감. 경량 분류기로 구현.
Prompt Compression
컨텍스트를 LLMLingua로 압축. 토큰 50~70% 절약. LLM API 비용 직접 절감.
프로덕션 체크리스트
검색 품질
☐ 자체 데이터셋 벤치마크 (최소 100+ QA 쌍)
☐ Hybrid search (Dense + BM25) 적용
☐ Reranker 도입 및 A/B 테스트
☐ 청킹 전략 비교 실험 완료
안전성
☐ 할루시네이션 감지 파이프라인
☐ PII 필터링 (개인정보 마스킹)
☐ 출처 표기 강제 (Citation)
☐ Fallback 응답 (“모르겠습니다” 허용)
모니터링
☐ 레이턴시 대시보드 (P50/P95/P99)
☐ Faithfulness 자동 평가 (RAGAS)
☐ 사용자 피드백 수집
☐ 비용 추적 (per-query 단가)
운영
☐ 문서 업데이트 자동화 파이프라인
☐ 인덱스 갱신 전략 (incremental)
☐ 임베딩 모델 교체 마이그레이션 계획
☐ 장애 시 graceful degradation
추가 정리
핵심 요약
Production RAG의 마지막 품질은 evaluation과 operations에서 결정된다. 검색이 맞았는지, 답변이 근거를 따랐는지, 비용과 latency가 허용 범위 안인지 계속 측정해야 한다.
보충 해설
평가는 한 번의 벤치마크가 아니라 운영 루프다. 사용자 질문, 검색 결과, reranker 결과, 최종 답변, citation, latency, cost를 함께 남겨야 나중에 실패 원인을 추적할 수 있다. RAG는 모델 성능 문제가 아니라 관측 가능한 시스템 설계 문제에 가깝다.