Agent Evaluation

Posted Feb 3, 2026 Updated Jun 18, 2026

By figure.2

1 min read

Agent Evaluation

한줄 정의 LLM 에이전트의 성능과 품질을 측정하는 방법론. 정량적 메트릭과 정성적 평가를 결합하여 에이전트의 개선 방향을 도출한다.

핵심 이해

LLM-as-Judge는 강력한 LLM을 평가자로 활용하는 기법이다. 사람의 판단 기준을 프롬프트로 정의하고, 에이전트 출력을 LLM이 채점한다. 비용 효율적이고 확장 가능하지만, 평가 LLM 자체의 편향이 문제가 될 수 있다.

벤치마크는 표준화된 태스크 세트로 에이전트를 평가한다. RAG 시스템에서는 Faithfulness(충실도), Relevance(관련성), Groundedness(근거성)를 측정한다. A/B 테스트는 두 가지 에이전트 버전을 실제 사용자에게 노출하여 성능을 비교한다. 메트릭 정의 시 비즈니스 목표와 연결되는 지표를 선택해야 한다.

참고 자료

1.TIL, 1-2.UPSTAGE_AI_AGENT, 1-2-6.AGENTIC_WORKFLOW, TECH_NOTE

This post is licensed under CC BY 4.0 by the author.

Agent Evaluation

Agent Evaluation

핵심 이해

관련 강의

관련 개념

참고 자료

Trending Tags