관리 메뉴

피터의 개발이야기

[AI] LLM 학습 노트 공개 - Transformer부터 RAG까지, 그리고 운영 가능한 AI 시스템을 향해 본문

AI/AI이론 | 공부

[AI] LLM 학습 노트 공개 - Transformer부터 RAG까지, 그리고 운영 가능한 AI 시스템을 향해

기록하는 백앤드개발자 2026. 2. 10. 06:09
반응형

[AI] Peterica의 AI공부와 비젼 정리

 

ㅁ 들어가며

나는 백엔드 개발자로 시작했고, DevOps와 SRE 성격의 업무를 거치며 서비스 운영을 경험해 왔다.

그러다 최근 LLM 기반 시스템을 직접 설계하면서 관점이 바뀌었다.

AI는 더 이상 “모델 호출”이 아니라
운영 대상 시스템이라는 생각이 들기 시작했다.

그래서 개인적으로 LLM 학습 노트를 만들었다.
단순 이론 정리가 아니라, 실제 서비스를 만들고 운영한다는 관점에서 정리한 기록이다.

 

ㅁ 왜 LLM 학습 노트를 만들었나

처음에는 RAG 구현이 목적이었다.

하지만 파고들수록 느꼈다.

  • Retriever 품질은 Embedding과 Chunking에서 결정되고
  • RAG 성능은 VectorDB 튜닝과 Reranking에서 갈리며
  • 최종 응답 품질은 결국 Transformer 구조와 Prompt 설계로 돌아온다

각각이 따로 존재하는 게 아니라, 하나의 파이프라인이었다.

그래서 다음 흐름으로 학습을 재구성했다.

Transformer → Embedding → VectorDB → RAG → Quantization

“모델”이 아니라 시스템 전체 흐름으로 이해하는 것이 목표였다.

 

 

ㅁ Month 1 학습 구성 요약

ㅇ Week 1: Transformer 완전 이해

주제 핵심 내용
[AI] Attention 메커니즘 — LLM은 어떻게 ‘중요한 정보’를 골라내는가 Self-Attention, Q/K/V, Multi-Head
[AI] Transformer Encoder-Decoder 구조 
  - Attention 다음 단계, 메커니즘에서 시스템으로
Encoder/Decoder 구조, Cross-Attention
[AI] KV Cache — LLM은 어떻게 ‘생각의 흐름’을 기억하는가 KV Cache 원리, 메모리 계산, 최적화

 

ㅇ Week 1 마무리 — Transformer 완전 이해
Week 1의 목표는 단순히 Transformer 구조를 외우는 게 아니었다.

Attention, Encoder–Decoder, KV Cache를 따라가다 보니
  결국 하나의 질문으로 수렴했다.

“LLM은 어떻게 문맥을 이해하고, 생각을 이어가는가?”

답은 의외로 단순했다.

사람은 감각적으로 의미를 연결하고,
Transformer는 그 과정을 벡터와 확률로 계산한다.

Encoder는 문장을 의미 공간으로 압축하고,
Decoder는 그 공간 위에서 다음 토큰을 만들어내며,
KV Cache는 이미 지나온 사고 흐름을 기억한다.

표현 방식만 다를 뿐,
  과거 맥락을 참고하고
  현재 상태를 재해석하며
  다음 생각을 만들어간다는 점에서
  사람과 모델은 놀라울 만큼 닮아 있다.

그래서 내가 느낀 “Transformer 완전 이해”란,
  모델 구조를 아는 것이 아니라
  사람의 이해 방식이 어떻게 벡터로 구현되는지를 체감하는 과정이었다.

이제부터는 모델이 아니라,
  이 의미 흐름이 Embedding, VectorDB, RAG로 어떻게 확장되는지를 살펴보려 한다.

 

ㅇ Week2: Embedding & Vector Database

주제 핵심 내용
[AI] Embedding 기초 - Transformer가 만든 의미를 저장하는 방법 임베딩 모델 비교, 선택 가이드
[AI] Chunking Strategy - 청크 전략과 크기 최적화, RAG 품질의 출발점 청크 전략, 크기 최적화
[AI] Vector Similarity — RAG에서 “가장 중요한 수학” Cosine/Dot/L2 메트릭
[AI] HNSW - ANN부터 파라미터 튜닝까지, RAG 검색 성능의 진짜 핵심 HNSW 알고리즘, 파라미터 튜닝
[AI] Weaviate Usage - VectorDB를 “검색 엔진”이 아니라 “의미 저장소”로 쓰는 법 Weaviate 사용법, 하이브리드 검색
[AI] RAG용 VectorDB 튜닝 프로덕션 튜닝, 모니터링

 

[AI] Embedding부터 VectorDB까지, Week2 학습 내용 정리

 

ㅇ Week 3: RAG 구현 및 튜닝

문서 핵심 내용
[AI] RAG 파이프라인 전체 구조 RAG 파이프라인 전체 구조
[AI W3] RAG 기초 - Retriever(벡터, 키워드, Hybrid) Dense/Sparse/Hybrid 검색
[AI W3] RAG 기초 - Ranker의 필요성 Cross-Encoder, Reranking
[AI W3] Reader(LLM) 프롬프트 설계와 Hallucination을 다루는 방법 LLM 프롬프트 설계, Hallucination 방지
05_End_To_End_RAG_Practice.md 실습 결과, 평가 지표

 

ㅇ Week 4: 양자화 & 모델 최적화

문서 핵심 내용
01_Quantization_Concepts GPTQ/AWQ/GGUF, 양자화 원리
02_4bit_8bit_Performance 비트별 성능 비교, 품질 평가

 

 

중요한 건 “각 기술”이 아니라
이 기술들이 어떻게 연결되는지였다.

 

ㅁ RAG를 검색 기능이 아니라 지식 수명주기로 보기

실습을 하면서 가장 크게 바뀐 관점은 이것이다.

RAG는 검색 시스템이 아니다.
지식 수명주기 시스템이다.

그래서 다음 구조를 기본 전제로 잡았다.

  • 사람이 검증한 SSOT(Source of Truth)
  • 벡터는 파생 데이터
  • 지식 변경 시 재임베딩 가능
  • Agent가 컨텍스트를 구성
  • 실행 결과는 다시 지식으로 환류

즉,

지식 생성 → 정제 → 저장 → 검색 → 재생산

이 흐름이 끊기지 않아야 한다.

 

ㅁ 다음 단계: Multi-Agent + AI DevOps

Month 1은 “AI 기본기 + RAG”였다.

Month 2부터는 다음으로 확장한다.

  • Multi-Agent 구조
  • Tool Calling
  • Policy Chain / Guardrail
  • LLM Gateway

그리고 Month 3에서는

  • GPU Inference
  • KServe / Triton
  • OTEL 기반 LLM Tracing
  • Token Cost 모델링
  • SLO 설계

즉,

AI DevOps + Observability

단순히 모델을 잘 쓰는 게 아니라,
AI 서비스를 운영 가능한 플랫폼으로 만드는 것이 목표다.

 

ㅁ 마무리

이 학습 노트는 결과물이 아니라 과정 기록이다.

설계하고, 실패하고, 다시 구조를 바꾸는 반복 속에서
   “내가 만들고 싶은 시스템의 형태”가 조금씩 명확해지고 있다.

 

나는 더 잘 코딩하는 개발자가 되고 싶은 게 아니라,

   시스템을 설계하고
   운영하고
   진화시키는 엔지니어가 되고 싶다.

앞으로 Month 2, Month 3도 차근히 정리해 공유할 예정이다.

같은 고민을 하는 분들에게 참고가 되길 바란다.

반응형
Comments