09. Agent 품질을 어떻게 평가하려 했는가

Posted Feb 7, 2026 Updated Jun 16, 2026

By figure.2

5 min read

Agent 평가는 정답률 하나로 끝나지 않는다. Lumi_agent처럼 페르소나, 기억, 도구 호출, 승인 경계가 섞인 시스템은 무엇을 평가할지부터 나눠야 한다.

그래서 이 글은 성능 결과표가 아니라 평가 설계 자체를 다룬다. 어떤 기준으로 Agent를 봐야 하는지, 그리고 어떤 범위까지 말할 수 있는지를 분리한다.

평가해야 할 것

Lumi_agent의 품질은 최소 네 가지로 나눠 봐야 한다.

이 축을 섞으면 평가가 흐려진다. 예를 들어 응답 말투가 자연스러워도 메시지 전송 도구를 잘못 호출하면 Agent 품질은 낮다.

평가 방향은 다음 세 가지로 정리된다.

이 숫자는 평가 결과가 아니라 평가 설계의 범위다. 점수, 향상률, 통과율은 확인 가능한 결과표가 없으므로 작성하지 않는다.

평가 시나리오는 다음처럼 나눌 수 있다.

중요한 것은 “도구를 호출했다”가 아니라 “맞는 도구를 맞는 인자로 호출했는가”다.

프롬프트 품질은 단순한 문장 자연스러움만 보면 부족하다.

이런 평가 설계는 Agent 프로젝트에서 중요하다. 모델 답변이 자연스러운 것과 실행 가능한 Agent로서 안전한 것은 다른 문제이기 때문이다.

현재 확인 가능한 범위에서는 평가 코드와 결과표가 함께 남아 있지 않다. 그래서 이 글은 결과 주장이 아니라 평가 설계의 범위를 남기는 데 초점을 둔다.

정확한 표현은 다음과 같다.

표현	판단
Agent 평가 축을 prompt, tool call, safety로 나누려 했다	사용 가능
8개 메트릭, 33개 시나리오, 10 rounds 설계가 언급된다	사용 가능
평가 결과 수치	기재하지 않음
재현 로그 없는 통과 주장	기재하지 않음

다음 글에서는 자체 평가와 Tool Call 불안정성, 그리고 후속 개선 방향을 정리한다.

This post is licensed under CC BY 4.0 by the author.