10. 프로젝트 회고: 멀티모달 AI 서비스에서 배운 것

Posted Feb 10, 2026 Updated Jun 16, 2026

By figure.2

6 min read

SeSAC:Note를 만들면서 가장 크게 배운 점은 AI 서비스가 모델 호출만으로 완성되지 않는다는 것이다. STT, VLM, Summarizer, Judge, QA가 각각 좋아도 중간 연결이 약하면 사용자는 안정적인 학습 노트를 얻기 어렵다.

flowchart TB
    A[강의 영상] --> B[STT]
    A --> C[Capture + VLM]
    B --> D[Timestamp Fusion]
    C --> D
    D --> E[AI Note]
    D --> F[Video-scoped QA]
    E --> G[학습 경험]
    F --> G

연결 구조가 품질을 만든다

멀티모달 AI 서비스에서 품질은 마지막 LLM prompt에서만 결정되지 않는다. 앞단에서 어떤 화면을 캡처했는지, STT와 VLM 결과를 어떻게 같은 시간 구간으로 묶었는지, 그 segment가 요약과 QA에 어떻게 전달되는지가 전체 품질을 좌우한다.

연결 지점	배운 점
Capture -> VLM	중복 슬라이드가 많으면 비용과 지연이 커짐
STT + VLM -> Fusion	화면과 음성을 같은 segment로 묶어야 근거가 생김
Fusion -> Summary	구조화된 입력이 있어야 노트 품질이 안정됨
Summary -> Judge	생성 결과를 근거와 비교하는 보조 점검이 필요함
Summary/Segment -> QA	질문이 영상 밖으로 벗어나지 않게 범위를 제한해야 함

이 프로젝트에서 가장 중요한 설계 판단은 “모든 것을 한 번에 잘하는 LLM”을 기대하지 않는 것이었다. 각 단계의 역할을 나누고, 중간 산출물을 저장하고, 다음 단계가 사용할 수 있는 형태로 넘기는 구조가 더 중요했다.

확인한 것

프로젝트 기록에는 sample pipeline, Judge benchmark, 보안 테스트, frontend build처럼 서로 다른 종류의 확인 결과가 남아 있다.

확인 항목	해석
sample pipeline	STT, capture, batch, segment, Judge 결과가 단계별로 남는 흐름 확인
Judge benchmark	prompt 버전별 평가 시간과 토큰 사용량 비교
보안 테스트	media ticket, upload validation 등 일부 부정 경로 확인
frontend build	프론트엔드 빌드 가능성 확인

sample4 기준 파이프라인 기록은 다음처럼 남아 있다. 이 표는 하나의 sample 실행 기록이며, 모든 영상에서 같은 결과를 보장하는 지표가 아니다.

항목	sample4 기준 기록
Video status	DONE
Captures	5개 레코드, `time_ranges` 스키마 포함
STT units	42개
Batch progress	2/2 완료
Analytic segments	8개
Judge scores	Batch 1: 8.26 / Batch 2: 8.96

Judge benchmark에서는 v3 기준 평균 평가 시간 14.7초, 평균 토큰 14,734, 제한된 benchmark 조건 5/5 통과가 기록되어 있다. 이 수치들은 설계 판단의 근거로 볼 수 있지만, 모든 영상에서 같은 결과를 보장하는 지표는 아니다.

다음 개선 방향

마지막으로 남은 개선 방향은 세 가지로 압축된다.

개선 방향	해석
응답 속도 최적화	VLM 호출과 요약 생성 구간의 병목을 계속 줄여야 함
서빙 역량 강화	외부 API 의존도를 낮추는 자체 서빙 구조가 장기 과제
판서 인식 확장	슬라이드 중심 구조를 판서형 강의까지 넓히려는 방향

이 항목들은 완료된 성과가 아니라 후속 과제다. 따라서 “구현 완료”가 아니라 “남은 개선 방향”으로만 적는 것이 맞다.

전체 시리즈

flowchart LR
    A[Sample 기록] --> D[문서상 검증]
    B[Judge benchmark] --> E[평가 단계 기준]
    C[보안 테스트] --> F[보안 보강 기준]
    D --> G[해석 기준]
    E --> G
    F --> G

이번 시리즈는 SeSAC:Note를 하나의 긴 개발 흐름으로 정리했다.

이전 글: 09. Judge 설계: 요약 품질을 보조 평가하는 방법

2.PROJECT, 2-5. SeSAC-Note

This post is licensed under CC BY 4.0 by the author.

연결 구조가 품질을 만든다

확인한 것

다음 개선 방향

전체 시리즈

Trending Tags