Post

AI Agent 개인 학습 로드맵

AI Agent 개인 학습 로드맵

AI Agent를 학습할 때는 프레임워크 이름보다 어떤 실행 구조를 만들 수 있는지부터 봐야 한다. 이 글은 프레임워크 비교, 도입 로드맵, 운영 체크리스트를 기준으로 Agent 학습 순서를 정리한다.

실무 가이드

에이전트를 성공적으로 구축하고 운영하기 위한 실전 지침이다.

주요 프레임워크 비교

LangGraph

Graph-based

그래프 기반 워크플로우. 노드가 액션, 엣지가 흐름을 정의. 중앙집중식 상태 관리.

Durable Execution

Human-in-the-Loop

조건부 분기

적합: 복잡한 워크플로우가 필요한 프로덕션 시스템

CrewAI

Role-based

역할 기반 멀티 에이전트. 각 에이전트에게 Role, Goal, Backstory를 부여.

Hierarchical

역할 전문화

작업 위임

적합: 팀 시뮬레이션, 다양한 관점이 필요한 작업

AutoGen

Event-driven

비동기 이벤트 기반 아키텍처. Actor 모델 기반 메시지 교환.

Cross-language

분산 네트워크

OpenTelemetry

적합: 엔터프라이즈급, 분산 에이전트 시스템

Google ADK

Code-first

코드 우선 개발. Runner 중심 설계, 이벤트 스트리밍.

Model-agnostic

Built-in Eval

Vertex AI 배포

적합: Google Cloud 환경, 스트리밍이 중요한 앱

OpenAI Agents SDK

Minimal

의도적으로 미니멀한 Python 네이티브 접근. 세 가지 원시 타입.

Handoffs

Guardrails

Built-in Tracing

적합: 빠른 프로토타이핑, 단순한 에이전트 시스템

Claude Code

Terminal Agent

단일 스레드 마스터 루프 + sub-agent 병렬 실행. ~40개 도구, 권한 게이트.

1M Context

Permission Gate

Sub-agents

적합: 코드베이스 작업, 복잡한 멀티파일 변경

에이전트 구축 시 흔한 실수 Top 10

88%의 AI 에이전트 프로젝트가 프로덕션 전에 실패합니다. 주요 원인:

01

과도한 엔지니어링

단순 LLM + 프롬프팅으로 충분한데 복잡한 멀티 에이전트 프레임워크를 도입

02

데이터 품질 무시

불완전한 데이터 파이프라인 위에 에이전트를 구축

03

평가 프레임워크 부재

AI 팀의 15%만이 포괄적 평가를 수행

04

관찰 도구 누락

프로덕션 에이전트의 5%만 성숙한 모니터링 보유

05

RPA처럼 취급

“구축-배포-방치” 접근은 실패. 지속적 개선 필요

06

도구 과다 등록

모든 도구 정의가 토큰을 소비. 사용하지 않는 도구 제거 필요

07

Human-in-the-Loop 부재

중요한 결정을 완전 자동화하면 사고 위험 증가

08

비용 관리 실패

에이전트 루프는 단일 호출의 10-100배 토큰 소비 가능

09

부실한 도구 문서화

도구 설명은 UX 디자인만큼 중요 (Anthropic 권고)

10

종료 조건 미설정

exit criteria 없는 자율 에이전트는 무한 루프 가능

주요 통계

88%

에이전트 프로젝트가 프로덕션 전 실패

1,445%

멀티 에이전트 문의 증가율 (Gartner, Q1’24→Q2’25)

85%

개발자가 AI 코딩 도구 사용 (2025)

$2.1M

AI 보안 통제 적용 시 평균 비용 절감

80.9%

SWE-bench Verified 최고 점수 (Claude Opus)

33%

2028년까지 에이전트 AI 포함 예측 (Gartner)

실무 권장 사항

1

Simple First

Anthropic, OpenAI 모두 동일하게 권장: 단순하게 시작하세요. Level 2-3으로 대부분의 문제를 해결할 수 있습니다. Level 4 이상은 정말 복잡한 open-ended 작업에만 필요합니다.

2

Evaluate Early

평가 프레임워크를 먼저 구축하세요. LLM-as-Judge, 자동화된 벤치마크, A/B 테스팅을 조합합니다. 측정할 수 없으면 개선할 수 없습니다.

3

Human-in-the-Loop

중요한 결정에는 항상 인간 승인을 포함하세요. 신뢰가 쌓이면 점진적으로 자율성을 확대합니다. 처음부터 완전 자동화를 목표로 하지 마세요.

4

Observe Everything

LangSmith, Braintrust, 또는 OpenTelemetry로 모든 에이전트 액션을 추적하세요. 프로덕션 에이전트의 62%가 관찰 도구 개선을 최우선 과제로 꼽았습니다.

References

핵심 논문 & 자료

에이전트 분야의 필수 논문과 자료 모음

Foundational

ReAct: Synergizing Reasoning and Acting

Yao et al. (Princeton, Google)ICLR 2023

에이전트 루프의 근간. Thought-Action-Observation 패턴을 제안. HotpotQA에서 할루시네이션을 극복하고, ALFWorld에서 34% 절대 성공률 향상.

Level 4

Agent Loop

Foundational

Chain-of-Thought Prompting

Wei et al. (Google)NeurIPS 2022

단계별 추론 능력의 시작. 540B 모델에서 8개 CoT 예시로 GSM8K SOTA 달성. 100B+ 파라미터에서 발현하는 창발적 능력.

Level 0

Reasoning

Foundational

Toolformer

Schick et al. (Meta AI)Feb 2023

LLM이 자기 감독 방식으로 도구 사용을 학습. 어떤 API를, 언제, 어떤 인자로 호출할지 스스로 결정.

Level 1

Tool Use

Advanced

Generative Agents: Interactive Simulacra

Park et al. (Stanford)UIST 2023

25명의 에이전트가 Sims 같은 마을에서 생활. Observation-Reflection-Retrieval 아키텍처로 인간과 유사한 사회적 행동을 시연.

Level 5-6

Memory

Social

Advanced

Reflexion

Shinn et al.NeurIPS 2023

언어적 자기 반성을 통한 학습. 가중치 업데이트 없이 시행착오에서 배움. HumanEval 67%→88% pass@1 달성.

Level 4

Self-Improvement

Advanced

Tree of Thoughts

Yao et al. (Princeton)NeurIPS 2023

CoT를 일반화한 탐색 기반 추론. BFS/DFS로 사고 트리를 탐색. Game of 24: CoT 4% → ToT 74%.

Level 2-3

Planning

System Design

MRKL Systems

Karpas et al. (AI21 Labs)May 2022

뉴로-심볼릭 아키텍처의 이론적 기반. 라우터가 입력을 적절한 모듈(LLM, 계산기, DB, API)로 전달.

Level 1-2

Router

System Design

HuggingGPT

Shen et al.NeurIPS 2023

ChatGPT를 컨트롤러로 사용해 Hugging Face의 전문 모델들을 오케스트레이션. 멀티모달 작업 처리의 선구자.

Level 5

Orchestration

Industry

Building Effective Agents

Schluntz & Zhang (Anthropic)Dec 2024

실무에서 가장 영향력 있는 가이드. 6가지 조합 가능한 패턴과 “단순하게 시작하라”는 철학.

All Levels

Best Practice

Industry

LLM Powered Autonomous Agents

Lilian Weng (OpenAI)Jun 2023

Agent = LLM + Memory + Planning + Tools. 에이전트 아키텍처의 사실상 표준 레퍼런스.

All Levels

Architecture

주요 벤치마크

SWE-bench Verified

실제 GitHub 이슈 해결 능력 평가. 실무 코딩 에이전트의 핵심 지표.

Top: ~80.9%

GAIA

인간에게는 쉽지만 AI에겐 멀티모달 도구 사용이 필요한 작업 평가.

Tool Use + Reasoning

AgentBench

시뮬레이션된 OS 환경에서의 에이전트 작업 수행 능력 평가.

Multi-Environment


추가 정리

핵심 요약

AI Agent 학습은 개념, 도구 사용, 메모리, RAG, 평가, 운영 순서로 진행하는 것이 안정적이다. Multi-Agent는 마지막 단계에 두는 편이 좋다.

보충 해설

처음부터 프레임워크 중심으로 접근하면 에이전트의 본질보다 라이브러리 사용법에 묶이기 쉽다. 먼저 단일 Agent의 입출력, tool call, 실패 로그, 평가 기준을 잡고 그다음 orchestration을 붙이는 흐름이 더 재현 가능하다.

This post is licensed under CC BY 4.0 by the author.