Post

Week 09: LLMOps

Week 09: LLMOps

Week 09: LLMOps

개요 LLM 기반 서비스를 “만드는 단계”에서 “운영하는 단계”로 확장한 주차다. API 장애 대응, 모델 fallback, 상태 관리, 비용 추적, Observability를 다루고, idol-agent v0.6~v0.7 프로젝트로 연결한다.

주간 목표

Week 09의 핵심은 LLM API 호출을 운영 가능한 시스템 요소로 보는 것이다. 이전 주차까지는 LangGraph, RAG, Tool Calling, FastAPI, Docker, CI/CD를 통해 에이전트 서비스를 구현하고 배포하는 데 초점을 맞췄다. 이 주차부터는 서비스가 운영 중 실패하거나 비용이 증가하거나 답변 품질이 흔들릴 때 원인을 추적하고 대응하는 방법을 다룬다.

LLMOps에서 다룬 문제는 다음처럼 연결된다.

1
2
3
4
5
6
7
8
API 장애 대응
  -> retry / timeout / fallback
상태 관리
  -> session / checkpoint / context trimming
비용 추적
  -> token usage / daily limit / alert
Observability
  -> log / metric / trace / error analysis

즉, Week 09는 기능 추가 주차라기보다 운영 안정성을 붙이는 주차에 가깝다.

일별 강의

Day주제강의 노트미션
Day01API 이슈 & LiteLLMW09D01-API-이슈-LiteLLMidol-agent v0.6
Day02상태 관리W09D02-상태관리idol-agent v0.7
Day03ObservabilityW09D03-Observability모니터링 구현
Day04Error AnalysisW09D04-Error Analysis오류 분석 실습
Day05LLMOps 패턴 정리W09D05-LLMOps 패턴추가 패턴 학습

핵심 개념

  • LiteLLM - 멀티 provider 호출, retry, fallback
  • 상태관리 - 세션, checkpoint, 대화 이력 영속화
  • Observability - 로그, 메트릭, 트레이스 기반 운영 추적
  • Error Analysis - trace 기반 오류 분류와 평가 기준 정의
  • CI/CD - 배포 이후 운영 자동화의 기반

관련 프로젝트

Wrap Up

이번 주차를 정리할 때는 “무엇을 만들었는가”보다 “어떤 운영 리스크를 줄였는가”를 기준으로 보는 편이 좋다.

  • LiteLLM을 통해 provider 장애와 rate limit에 대응할 수 있는 호출 계층을 만들었다.
  • 상태 관리를 통해 에이전트가 세션과 대화 흐름을 잃지 않도록 했다.
  • 비용 추적과 메시지 트리밍을 통해 운영 비용과 context window 초과를 관리했다.
  • Observability를 통해 에이전트가 왜 느렸는지, 어디서 실패했는지, 어떤 모델이 쓰였는지 추적할 수 있게 했다.
  • Error Analysis를 통해 쌓인 trace를 평가 기준과 개선 작업으로 연결했다.
This post is licensed under CC BY 4.0 by the author.