Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 티스토리챌린지
- CKA
- LLM
- 오블완
- Linux
- CKA 기출문제
- kotlin coroutine
- CloudWatch
- APM
- Java
- SRE
- 공부
- kotlin
- 기록으로 실력을 쌓자
- PETERICA
- golang
- 정보처리기사 실기 기출문제
- tucker의 go 언어 프로그래밍
- Pinpoint
- go
- AI
- 바이브코딩
- Kubernetes
- aws
- minikube
- AWS EKS
- 코틀린 코루틴의 정석
- Rag
- MySQL
- Spring
Archives
- Today
- Total
목록KV cache (1)
피터의 개발이야기
[AI] KV Cache — LLM은 어떻게 ‘생각의 흐름’을 기억하는가
[AI] LLM 학습 노트 공개 - Transformer부터 RAG까지, 그리고 운영 가능한 AI 시스템을 향해 ㅁ 들어가며Attention과 Encoder–Decoder 구조를 정리하다 보면, 실제 LLM을 운영하는 단계에서 반드시 마주치는 문제가 있다. 컨텍스트가 길어질수록 응답이 느려지고, p95 latency가 튀며, GPU 메모리가 급격히 소모된다. 여기서 자연스럽게 이런 질문을 하게 된다. “이미 계산한 내용을 왜 계속 다시 계산하고 있을까?” KV Cache는 바로 이 질문에 대한 답이다.단순한 성능 최적화가 아니라, LLM이 과거 맥락을 유지하면서 사고를 이어가기 위한 구조다. ㅁ Decoder는 실제로 어떻게 다음 토큰을 만드는가Decoder는 Autoregressive 방식으로..
AI/AI이론 | 공부
2026. 2. 5. 01:01
