관리 메뉴

피터의 개발이야기

[AI] LLM의 미래는 어디로 가는가? 본문

AI/AI개발전략 | 기획

[AI] LLM의 미래는 어디로 가는가?

기록하는 백앤드개발자 2025. 12. 11. 23:26
반응형

[AI] Peterica의 AI공부와 비젼 정리

ㅁ 들어가며

폰 노이만 한계를 넘어서는 NPU·PIM·PNM 기반 차세대 AI 컴퓨팅의 방향성에 대해서 고민하게 되었다.
최근 2~3년 동안 LLM 성능은 폭발적으로 성장했다. 하지만 그 이면에서는 하나의 질문이 커지고 있다.

“지금의 GPU 중심 컴퓨팅 구조로는 더 이상 LLM을 확장할 수 없지 않은가?”


LLM 추론의 병목은 더 이상 FLOPs(Floating Point Operations per second, 초당 수행 가능한 부동소수점 연산 수)가 아니라 메모리 이동 비용이다. 이 글에서는 미국 최신 연구를 기반으로 AI 특화 컴퓨팅(PIM·PNM·CIM)이 LLM의 미래를 어떻게 바꿀지를 살펴본다.

 


ㅁ 폰 노이만 구조의 한계

ㅇ LLM은 “계산”보다 “데이터 이동”에서 병목이 생긴다

Transformer 기반 LLM은 대규모 행렬 연산을 수행하지만, 실제 병목은 다음에서 발생한다.

  • 수십억~수백억 파라미터
  • 길어지는 KV 캐시
  • HBM–GPU 간 데이터 이동 비용

이는 메모리 벽(memory wall) 문제이며, 결국 LLM 확장의 한계를 만든다.

 


ㅁ NPU의 한계: GEMM(General Matrix Multiply, 일반 행렬 곱셈 연산)은 빠르지만 KV 캐시는 느리다

ㅇ TPU·NPU는 행렬곱에는 최적화되어 있으나 전체 LLM 병목을 해결하지 못한다

 

NPU가 잘하는 것:

  • 시스토릭 어레이 기반 GEMM
  • 병렬 연산
  • 저정밀도 텐서 연산

하지만 여전히 느린 영역:

  • 긴 컨텍스트 Attention
  • KV 캐시 업데이트
  • GEMV(행렬–벡터)
  • 불규칙한 메모리 접근

NPU만으로는 LLM 전체를 해결할 수 없다.

 


ㅁ PIM/CIM/PNM은 어떻게 LLM을 바꾸는가?

ㅇ CIM(Compute-in-Memory): 메모리 안에서 바로 Attention 실행

 

"Memory Is All You Need"에서 제시된 핵심 아이디어:

참고: ‘Memory Is All You Need’는 실제로 존재하는 학술 논문입니다.
LLM에서 발생하는 메모리 병목을 해결하기 위해 Compute-in-Memory(CIM) 기반의 새로운 연산 구조를 제안한 연구로,
기존 "Attention Is All You Need"처럼 제목은 비슷하지만 하드웨어 아키텍처 관점의 최신 연구 논문이다.

 

 

“꺼내오지 말고 메모리 안에서 계산하자.”

 

  • SRAM·RRAM 기반 MAC 연산
  • DRAM–HBM 왕복 제거
  • 긴 컨텍스트 처리 효율 ↑

 

ㅇ DRAM 기반 PIM: PIM-GPT

PIM-GPT는 DRAM 내부에서 LLM 연산을 수행한 대표 사례.

  • GEMV, KV 캐시 업데이트, LayerNorm을 DRAM에서 직접 처리
  • row-buffer hit율 98% 이상
  • GPU 대비 높은 에너지 효율

 

ㅇ NeuPIMs·HPIM: GPU/NPU + PIM의 역할 분담

NeuPIMs의 구조:

  • NPU → GEMM 담당
  • DRAM-PIM → GEMV·Attention·KV 캐시 담당
  • 두 연산을 동시 실행(concurrent execution)

HPIM의 확장:

  • SRAM-PIM → 지연 민감한 Attention
  • HBM-PIM → 대규모 가중치 연산

→ NVIDIA A100 대비 최대 20배 성능 향상 보고

 


ㅁ LLM의 미래는 어디로 향할까?

ㅇ Memory-Centric AI로 이동

LLM 구조는 ‘연산 중심’에서 ‘데이터가 있는 곳에서 연산’으로 전환된다.

기대 효과

  • 수십만 토큰 컨텍스트
  • 장시간 reasoning (O1·R1 스타일)
  • 더 낮은 전력
  • 온디바이스 LLM 확산

 

ㅇ 모델 구조도 PIM 친화적으로 재설계될 것

  • CIM에서 손실 적은 activation 채택
  • Attention의 구조 단순화
  • 규칙적 sparsity 적용
  • PIM 최적화된 KV 캐시 구조 도입

 

ㅇ Edge LLM의 시대

PIM/CIM + QAT 조합은 다음을 가능하게 한다.

  • 스마트폰에서도 10B 모델 실행
  • 4bit·2bit 모델에서도 reasoning 성능 유지

 

ㅇ Training까지 PIM으로 갈까?

아직은 어려움이 존재:

  • 학습은 고정밀 연산 필요
  • 아날로그 소자 노이즈
  • 가중치 업데이트 비용 큼

중기 전망:

Training = GPU/TPU 중심
Inference = PIM/PNM/CIM 중심

 


ㅁ 마무리: LLM의 미래는 “하드웨어 혁신”이 결정한다

LLM 시대의 다음 단계는 더 큰 모델이 아니라,

“더 적은 데이터 이동으로 더 많은 계산을 수행하는 아키텍처”이다.

 

 

 

향후 핵심 기술:

  • Compute-in-Memory (CIM)
  • DRAM-PIM·HBM-PIM
  • GPU/NPU + PIM 이종 구조
  • PIM 친화형 LLM 설계
  • 양자화(QAT) + 메모리 중심 컴퓨팅
  • Edge LLM 확산
반응형
Comments