'KV cache' 태그의 글 목록

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록KV cache (1)

피터의 개발이야기

[AI] KV Cache — LLM은 어떻게 ‘생각의 흐름’을 기억하는가

[AI] LLM 학습 노트 공개 - Transformer부터 RAG까지, 그리고 운영 가능한 AI 시스템을 향해 ㅁ 들어가며Attention과 Encoder–Decoder 구조를 정리하다 보면, 실제 LLM을 운영하는 단계에서 반드시 마주치는 문제가 있다. 컨텍스트가 길어질수록 응답이 느려지고, p95 latency가 튀며, GPU 메모리가 급격히 소모된다. 여기서 자연스럽게 이런 질문을 하게 된다. “이미 계산한 내용을 왜 계속 다시 계산하고 있을까?” KV Cache는 바로 이 질문에 대한 답이다.단순한 성능 최적화가 아니라, LLM이 과거 맥락을 유지하면서 사고를 이어가기 위한 구조다. ㅁ Decoder는 실제로 어떻게 다음 토큰을 만드는가Decoder는 Autoregressive 방식으로..

AI/AI이론 | 공부 2026. 2. 5. 01:01

Prev 1 Next

목록KV cache (1)

피터의 개발이야기

티스토리툴바