관리 메뉴

피터의 개발이야기

백엔드 개발자가 정리한 PIM vs PNM: 메모리 근처에서 연산한다는 것의 진짜 의미 본문

AI/AI산업 | 동향

백엔드 개발자가 정리한 PIM vs PNM: 메모리 근처에서 연산한다는 것의 진짜 의미

기록하는 백앤드개발자 2025. 12. 3. 06:22
반응형

 

ㅁ 들어가며

  삼성전자의 Processing-near-Memory(PNM)는 “메모리 바로 옆에서 연산을 처리해 대규모 AI/데이터 워크로드의 병목을 줄이려는 메모리 중심 컴퓨팅 기술”이다. 기존 CPU·GPU 중심 구조에서 발생하는 메모리 병목을 완화하고, 시스템 성능과 전력 효율을 동시에 끌어올리는 것이 핵심 목표다.


ㅁ PIM vs PNM  기본 개념

  • Processing-in-Memory(PIM)는 DRAM 다이 내부(뱅크/서브어레이 영역)에 연산 유닛을 심어 메모리 안에서 곧장 계산을 수행한다.
  • Processing-near-Memory(PNM)는 메모리 칩 바로 옆(버퍼 칩, 컨트롤러, CXL 모듈 등)에 전용 프로세싱 유닛을 두고, 고대역폭·저지연 인터페이스로 데이터를 주고받으며 연산을 수행한다.

이 두 기술은 공통적으로 “데이터를 멀리(패키지 밖) 이동시키지 말고, 메모리 근처에서 바로 계산하자”는 철학을 공유하며, AI 추론·추천·음성 인식처럼 메모리 대역폭 의존도가 높은 워크로드에서 큰 이득을 준다.

주요 용어
CXL: Compute Express Link(컴퓨트 익스프레스 링크)
JEDEC: Joint Electron Device Engineering Council(조인트 일렉트론 디바이스 엔지니어링 카운슬, 반도체 표준화 기구)

 

PIM vs PNM 구체적으로 어떤 차이가 나는 걸까?

  PIM“메모리 셀/뱅크 안쪽에서 연산까지 해버리는 것”, PNM은 “메모리 바로 옆(로직 다이·CXL 모듈 등)에서 연산하는 것”이다. 

  결론적으로, “메모리와 프로세스가 거의 붙어 있다”는 관점에서 보면 비슷해 보이지만, PIM은 DRAM 내부 구조를 건드리는 대신 효율 극대화, PNM은 DRAM은 건드리지 않고 패키지·모듈·CXL쪽에 로직을 붙여 유연성과 현실적인 비용/리스크를 택한 구조라고 이해하면 된다.

 

ㅇ 구조적 차이: “안” vs “옆”

  PIM은 메모리 셀/뱅크 안쪽에서 연산을, PNM은 메모리 바로 옆(로직 다이·CXL 모듈)에서 연산을 하여 구조·공정 난이도·비용·유연성에서 차이가 난다. PIM DRAM 내부 구조를 건드려 효율을 극대화하고, PNM DRAM을 건드리지 않고 패키지·모듈 수준에서 유연한 가속기를 붙인다.

항목 PIM PNM
연산 위치 DRAM 뱅크/서브어레이 내부, HBM 로직 층 (삼성 HBM-PIM: 뱅크별 SIMD/PCU) HBM 로직 다이, DIMM 버퍼, CXL 컨트롤러 (TSV·CXL 링크 활용)
공정 난이도 DRAM에 로직 트랜지스터 섞음 → 수율 리스크↑, 기능 제한적 로직 공정 활용, DRAM 건드리지 않음 → 패키징 비용↑
비용 포인트 공정 복잡도·수율 리스크 높음, 하지만 에너지/성능 이득 극대 2.5D/3D 패키징·인터커넥트 비용, 유연성 높음

 

 

ㅇ 공정/비용 관점: 메모리 셀을 건드리느냐가 핵심

  • PIM의 비용·난이도
    • DRAM 안에 로직을 넣으려면, DRAM 공정에 로직 트랜지스터를 섞거나, 3D 스택의 로직 다이와 DRAM 다이 간 TSV·전원·열 설계를 재조정해야 한다.
    • DRAM은 셀 면적·누설 전류·수율에 극도로 민감해서, 로직 추가가 곧 공정 복잡도와 수율 리스크 증가로 이어진다.
    • 반대로, 한번 성공하면 “메모리 대역폭을 거의 그대로” 쓸 수 있어 에너지/성능 이득이 크지만, 기능이 제한적(특화 연산기, 고정 소수점, 특정 패턴)인 경우가 많아 유연성이 떨어질 수 있다.
  • PNM의 비용·난이도
    • 메모리 셀 공정은 거의 손대지 않고, 로직 친화적인 공정으로 만든 칩/모듈을 메모리 옆에 붙이는 쪽이라 DRAM 수율 리스크는 상대적으로 작다.
    • 대신 2.5D/3D 패키징, CXL 컨트롤러, 고속 인터커넥트 설계 등 패키징·보드 레벨에서의 비용과 난이도가 올라간다.
    • 범용 CPU/GPU와 비슷한 로직 공정을 쓸 수 있어 더 복잡한 연산·프로그래머블 아키텍처를 넣기 쉬워, 기능 유연성과 확장성은 PIM보다 좋은 편이다.

요약하면, PIMDRAM 쪽 공정을 비틀면서 “수율·적용 범위 리스크 대신 극단적인 효율”을, PNM은 패키징·인터커넥트 비용을 더 내고 “DRAM은 건드리지 않은 채 유연한 가속기”를 택하는 구조다.

 

ㅇ 기술적 난이도: 회로 vs 패키징·시스템

  • PIM 쪽 난이도 포인트
    • DRAM 특유의 리프레시/센스앰프/타이밍 제약 안에서 연산을 수행해야 해서, 회로·아키텍처 제약이 매우 크다.
    • 전압/노이즈 마진이 좁고, 공정 스케일이 진행될수록 셀 안정성이 떨어지기 때문에, 연산 정확도·속도와 메모리 신뢰성 사이 트레이드오프를 세밀하게 맞춰야 한다.
  • PNM 쪽 난이도 포인트
    • 고대역폭, 저지연으로 메모리와 통신하면서도, CPU·GPU·PNM 사이 일관된 메모리 모델과 동기화 프로토콜을 맞추는 시스템·소프트웨어 설계가 어렵다.
    • CXL-PNM처럼 여러 호스트와 여러 메모리 모듈이 얽힌 구조에서는 QoS, 주소 매핑, 캐시 코히어런시 정책까지 포함한 “분산 메모리+가속기” 시스템 설계 난이도가 크게 올라간다.

결국 PIM은 “DRAM 공정과 회로 쪽이 난이도의 중심”, PNM은 “패키징·인터커넥트·시스템 소프트웨어 쪽이 난이도의 중심”이라고 보는 편이 이해에 가깝다.


ㅁ 삼성전자의 HBM-PIM과 의미

  삼성전자는 HBM2 기반 Aquabolt-XL에 PIM 유닛을 집적한 HBM-PIM을 선보이며, 메모리 내부 연산을 상용 수준으로 끌어올렸다. 각 메모리 뱅크에 SIMD 기반 컴퓨팅 유닛(Programmable Computing Unit, PCU)을 통합해, 메모리 내부 대역폭(수 TB/s급)을 직접 활용하면서 최대 2배 이상의 시스템 성능 개선과 60~70% 수준의 에너지 절감을 보고했다.

  HBM-PIM은 JEDEC호환 HBM2와 동일한 패키지·타이밍을 유지해 기존 HBM2 시스템에 “드롭인 교체”가 가능하도록 설계되었고, AMD Instinct 가속기 등 상용 GPU와 결합해 대규모 AI·HPC 워크로드에 적용되고 있다.


ㅁ PNM: 메모리 근처의 프로세서

  PNM은 이런 PIM 기술을 더 넓은 메모리·시스템 생태계로 확장하기 위한 방향성으로, 삼성전자는 CXL 기반 PNM 솔루션과 HBM-PIM을 소프트웨어 레벨에서 통합해 “메모리 클러스터”를 구성하는 비전을 제시하고 있다.

  • 메모리 모듈/확장 카드(CXL-PNM)에 연산 유닛을 넣어, 대규모 AI 데이터센터에서 메모리 용량·대역폭 한계를 완화
  • HBM-PIM과 PNM(CXL-PNM)을 소프트웨어(SYCL 기반 표준 인터페이스 등)로 함께 제어해, GPU·CPU·메모리가 하나의 거대한 가속기처럼 동작하도록 구성

  이 구조에서 PNM“CPU·GPU와 메모리 사이의 새로운 계층”으로, 필터링·전처리·압축·간단한 통계 연산처럼 데이터 이동량이 많은 작업을 미리 처리해 상위 프로세서의 부담을 줄인다.


ㅁ 개발자 관점: 워크로드와 소프트웨어 스택

  삼성의 PIM/PNM은 주로 메모리 바운드 특성이 강한 AI 워크로드에서 효과적이며, 음성 인식, 자연어 처리, 추천 시스템, 행렬-벡터 곱 등 대역폭 의존 연산에서 수 배 성능 향상과 수십% 에너지 절감을 보였다.

  이를 사용하기 위해 삼성은 SYCL 기반 라이브러리와 표준화된 API를 제공해, 개발자가 HBM-PIM과 CXL-PNM 리소스를 별도 하드웨어 수정 없이 사용할 수 있도록 준비 중이다. 장기적으로는 GPU 커널 일부를 메모리 쪽으로 “오프로딩”하고, 메모리 클러스터를 하나의 가속 레이어처럼 추상화하는 소프트웨어 스택이 중요해질 전망이다.


ㅁ 정리: 메모리 중심 AI 인프라의 방향

  정리하면, 삼성전자의 PIM(HBM-PIM)과 PNM(CXL-PNM 등)은 CPU·GPU 중심에서 “메모리 중심”으로 무게중심이 이동하는 AI 인프라의 전형적인 사례다. 메모리 안/근처에서 연산을 처리함으로써 대역폭 병목과 전력 소모를 줄이고, 하이퍼스케일 데이터센터와 대규모 AI 학습·추론에서 성능 대비 전력 효율을 크게 개선하는 것을 목표로 한다.

반응형
Comments