관리 메뉴

피터의 개발이야기

[AI] HBM은 왜 LLM 시대의 핵심이 되었는가? 본문

AI/AI산업 | 동향

[AI] HBM은 왜 LLM 시대의 핵심이 되었는가?

기록하는 백앤드개발자 2026. 2. 23. 23:09
반응형

ㅁ 들어가며

연산이 아니라 데이터 이동이 병목이었다

 

LLM 인프라를 처음 이해할 때 가장 많이 하는 오해가 있다.
  성능이 부족한 이유를 GPU의 FLOPS에서 찾는 것이다.

  하지만 실제 운영 환경에서 마주치는 병목은 전혀 다른 곳에 있다.

 

GPU는 계산을 못 해서 느린 것이 아니라,
  계산에 필요한 weight가 메모리에서 도착하기를 기다리느라 멈춰 있는 시간이 대부분이다.

 

이번 정리를 통해 HBM 세대의 진화는 단순한 속도 향상이 아니라
  데이터 이동 구조 자체를 바꾸는 과정이었다는 것을 이해하게 되었다.

 

FLOPS(Floating Point Operations Per Second)
→ 초당 부동소수점 연산 횟수

 

 

ㅁ 왜 LLM은 메모리 중심 워크로드인가

LLM의 연산 흐름은 놀라울 정도로 단순하다.

weight를 메모리에서 가져온다 → activation과 곱한다 → 결과를 다음 레이어로 넘긴다 → 다음 weight를 다시 가져온다.

이 과정이 레이어 수만큼 반복된다.

 

즉 연산 자체보다 메모리 접근 횟수가 절대적으로 많다.

 

그래서 LLM에서는 FLOPS보다
   👉 메모리 대역폭이 곧 성능이 된다.

 

 

ㅁ 개념 정리 – weight와 activation

weight는 모델이 학습을 통해 얻은 장기 기억이다.
  평소에는 HBM에 저장되어 있다가 연산 순간에 GPU로 불려와 사용된다.
  즉 모델이 알고 있는 지식 자체다.

activation은 현재 문맥에서 실제 계산에 사용되고 있는 작업 기억이다.
  토큰이 레이어를 통과할 때마다 계속 형태가 바뀌며 다음 연산으로 전달된다.
  사람이 어떤 문제를 풀 때 머릿속에 떠올려 놓고 정리해 나가는 생각의 흐름과 같다.

 

LLM의 대부분의 연산은 다음 한 줄로 정리된다.

  activation × weight새로운 activation

 

 

ㅁ 기존 DRAM 구조의 한계 – 창고는 큰데 길이 좁다

기존 메모리는 저장 용량은 충분했지만 데이터가 이동하는 통로가 좁았다.

그래서 GPU는 대부분의 시간을 데이터를 기다리는 데 사용하게 된다.

이 상태가 바로 memory-bound다.

 

 

ㅁ HBM의 본질 – 컨베이어를 1024차선으로 만든 것

HBM을 단순히 DRAM을 쌓은 기술로 이해하면 핵심을 놓치게 된다.

HBM의 본질용량 증가가 아니라
  👉 초광폭 I/O 구조다.

 

기존 메모리가 32차선 도로라면 HBM은 1024차선 고속도로다.

데이터가 병렬로 동시에 이동하면서 GPU가 멈추지 않게 된다.

 

 

ㅁ 적층(쌓기)의 진짜 의미 – 용량이 아니라 거리

DRAM을 수직으로 쌓는 이유는 저장 공간을 늘리기 위해서가 아니다.

GPU 바로 옆에 메모리를 붙여

  신호 이동 거리를 줄이고
  전력 소모를 낮추고
  대역폭을 극대화하기 위함이다.

 

즉 적층의 본질은
  물리적 거리 단축을 통한 전송 효율 개선이다.

 

 

ㅁ 세대별 변화가 만드는 구조적 체감

HBM2 → HBM3

 

👉 “GPU가 처음으로 AI에서 굶지 않기 시작”

AI 학습이 가능한 대역폭에 도달한 첫 세대.
GPU가 굶지 않기 시작했다.

대역폭이 딥러닝 학습 요구치에 도달

대형 모델 학습 가능

but, 하나의 GPU에 모델을 담을 수 없어 multi-GPU 사용, 통신 오버헤드 발생

 

HBM3 → HBM3E

 

👉 “LLM용 메모리”

1TB/s급 대역폭과 12-Hi 적층(용량증가).
70B급 모델을 단일 GPU에 올리는 것이 현실이 되었다.
더 큰 모델을 한 GPU에 탑재하여, multi-GPU 통신 감소

 

HBM3E → HBM4

 

👉 구조 변화 세대
인터페이스가 2배로 증가(1024 → 2048bit)하고

메모리 컨트롤러가 base die로 이동한다.

의미:
  - GPU 설계 단순화
  - 커스텀 HBM 가능
  - 전력 효율 개선

 

AI 인프라 체감:
  - NVLink 트래픽 감소
  - shard 전략 변화
  - latency 안정

 

이 시점부터는
  GPU 수를 늘려 성능을 확보하는 구조에서
  GPU 하나가 처리할 수 있는 모델 체급을 키우는 구조로 바뀐다.

 

표로 만들면...

세대인프라 체감
HBM2 모델을 여러 GPU에 강제로 분산
HBM3 대형 모델 학습 가능
HBM3E 70B급 단일 GPU 처리 현실화
HBM4 multi-GPU 의존도 감소
HBM5 메모리가 연산 일부 담당 가능

 

 

 

ㅁ 인프라 관점에서의 변화 – 분산에서 단일 노드로

HBM 용량이 커질수록 KV cache를 로컬에 유지할 수 있고
HBM 대역폭이 커질수록 GPU idle이 줄어든다.

 

그 결과

  multi-GPU shard 구조 → single GPU 중심 구조

  로 서빙 방식이 단순해진다.

latency는 안정되고 NVLink 트래픽은 감소한다.

 

ㅁ 세대 진화의 본질 – 통신을 줄이는 역사

HBM의 발전은 세 가지로 정리된다.

  대역폭 증가 → GPU idle 제거
  용량 증가 → 모델 local 탑재
  통신 감소 → 클러스터 구조 단순화

 

즉 속도의 문제가 아니라
  데이터 이동을 줄여 온 과정이다.

 

 

ㅁ 다음 단계 – PIM이 의미하는 것

HBM까지는 데이터를 빠르게 이동시키는 기술이다.
PIM은 데이터를 이동시키지 않는 기술이다.

 

이 단계가 되면 메모리는 저장 장치가 아니라 연산 장치가 된다.

컴퓨팅의 중심이 GPU에서 메모리로 이동하게 된다.

 

ㅁ HBM 세대별 비교

구분 HBM2 / 2E HBM3 HBM3E HBM4 (차세대) HBM5 (로드맵)
세대 시기 ~2020 2022 2023~현재 2025~ 2027~예상
핵심 역할 GPU 메모리 대역폭 확보 AI 학습 대응 LLM 대응 본격화 GPU 구조 변화 시작 메모리 중심 컴퓨팅 준비
핀 속도 (per pin) ~3.6Gbps ~6.4Gbps ~9.6Gbps ~13Gbps 16Gbps+ 예상
인터페이스 폭 1024-bit 1024-bit 1024-bit 2048-bit 2048-bit 이상 가능
스택당 대역폭 ~410GB/s ~819GB/s ~1.2TB/s ~2TB/s 3TB/s+ 예상
최대 용량 (stack) 8~16GB 16GB 24~36GB 48~64GB+ 100GB+ 가능성
적층 높이 4~8-Hi 8-Hi 12-Hi 16-Hi 이상 더 높은 적층
전력 효율 개선 시작 개선 LLM 대응 수준 대역폭 대비 효율 증가 구조적 변화 목표
메모리 컨트롤러 위치 GPU 내부 GPU 내부 GPU 내부 Base die 이동 메모리 쪽 연산 가능성
패키징 2.5D 인터포저 동일 동일 고급 패키징 필수 광인터커넥트 가능성
주요 사용처 HPC / 초기 AI AI 학습 LLM 학습·추론 차세대 AI GPU 메모리 중심 AI

 

 

ㅁ 마무리 – LLM 인프라는 메모리 구조의 진화다

LLM 시대의 병목은 연산이 아니라 데이터 이동이다.

HBMDRAM을 쌓은 기술이 아니라
   GPU가 멈추지 않게 만드는 초광폭 데이터 통로다.

 

세대 진화클럭 상승이 아니라 
   시스템 구조를 바꾸는 방향으로 진행되고 있다.

 

반응형
Comments