Error Analysis 실습

Posted Mar 6, 2026 Updated Jun 18, 2026

By figure.2

3 min read

Error Analysis 실습

실습 정보
주차: Week 09, Day 04
유형: 분석 리포트 작성
상태: 보강 정리

실습 목표

Lumi 챗봇을 여러 케이스로 사용해 trace 데이터를 만들고, Langfuse 또는 export 데이터를 기준으로 오류 유형을 분류한다. 최종 목표는 “좋아 보인다” 수준의 감상이 아니라, 다음 수정 작업으로 이어질 수 있는 오류 분석 리포트를 작성하는 것이다.

대화 데이터 생성
  -> trace 확인
  -> 오류 메모
  -> 카테고리 분류
  -> 빈도 집계
  -> 개선 우선순위 결정
  -> 액션 플랜 작성

실습에서는 RAG 질문, tool 호출 질문, 일반 대화, 일부러 실패를 유도하는 질문을 섞어야 한다. 그래야 router, RAG, tool, response node의 문제를 고르게 볼 수 있다.

기준	확인할 내용
Router	의도 분류가 맞았는가
RAG	검색된 문서가 질문과 관련 있었는가
Tool	필요한 tool을 호출했는가, 잘못된 tool을 호출하지 않았는가
Response	루미 페르소나와 답변 형식이 유지되었는가
Safety	모르는 내용을 만들어내거나 민감 정보를 노출하지 않았는가

오류는 가능한 한 구체적으로 적는다. 예를 들어 “응답이 별로임”은 개선할 수 없지만, “스케줄 질문인데 tool을 호출하지 않고 일반 답변으로 처리함”은 router prompt나 tool schema 개선으로 이어질 수 있다.

가능하면 스프레드시트로 정리하고, 사람이 판단한 분류와 LLM-as-a-Judge 분류를 비교한다. 두 판단이 많이 다르면 자동 평가 기준을 바로 믿지 말고, 평가 프롬프트와 카테고리 정의를 다시 다듬는다.

This post is licensed under CC BY 4.0 by the author.