HBM 너머의 병목 — Grace CPU·NVLink·CXL·전력 (HBM 시리즈 6편)

Q: HBM이 좋아지면 병목 문제는 끝나는 것 아닌가요?

아닙니다. 병목은 사라지는 게 아니라 이동합니다. HBM이 GPU 옆에 붙어 칩-메모리 사이 병목을 일부 풀면, 다음 병목은 더 바깥으로 옮겨갑니다. GPU와 GPU 사이(NVLink), CPU와 GPU 사이(Grace·NVLink-C2C), 그리고 HBM으로도 못 채우는 메모리 용량(CXL), 마지막으로 전력입니다. 시스템의 가장 좁은 통로가 어디냐가 계속 바뀔 뿐입니다.

Q: NVLink가 PCIe와 뭐가 다른가요?

둘 다 칩 사이를 잇는 통로지만 대역폭 차이가 큽니다. NVLink 5는 GPU당 약 1.8 TB/s로, 같은 세대 PCIe Gen5의 약 14배입니다. 수만 개 GPU를 하나처럼 묶으려면 PCIe로는 통로가 좁아 GPU가 서로를 기다리며 놀게 됩니다. NVIDIA가 자체 인터커넥트(NVLink)를 만든 이유가 여기 있습니다. NVL72 랙은 72개 GPU를 130 TB/s 단일 NVLink 도메인으로 묶어 사실상 하나의 거대한 GPU처럼 동작합니다.

Q: NVIDIA는 왜 Grace라는 CPU까지 직접 만드나요?

CPU와 GPU 사이 통로가 병목이 되기 때문입니다. 기존 PCIe로 CPU와 GPU를 연결하면 데이터가 오갈 때마다 왕복 지연이 생깁니다. NVIDIA는 Grace CPU와 GPU를 NVLink-C2C로 직접 연결해 약 900 GB/s 양방향, 그리고 같은 메모리 주소 공간(coherent)을 공유하게 만들었습니다. PCIe 왕복을 제거하고 CPU 메모리까지 GPU가 빠르게 접근하게 하는 설계입니다.

Q: CXL이 죽었다는 말도 있던데 사실인가요?

시장 의견이 갈립니다. SemiAnalysis 등은 'AI 시대에 CXL은 죽었다'고 주장하고, CXL 진영은 '2026년이 상용화 원년'이라 봅니다. 흔히 놓치는 건 개방 진영이 일을 둘로 쪼갰다는 점입니다 — GPU 직결 패브릭은 UALink(AMD·구글·MS·메타·브로드컴·AWS 연합)가, 대용량 메모리 확장은 CXL이 맡습니다. CXL은 GPU 패브릭에서 진 게 아니라 그 전선을 UALink에 넘기고 메모리 용량으로 특화한 것이라 '죽었다'는 절반만 맞습니다. 또한 한국 메모리(SK·삼성)에게 CXL은 NVIDIA HBM 종속을 푸는 헤지이기도 합니다.

Q: 이 병목 이동이 한국 메모리 회사에 무슨 의미인가요?

HBM 한 부품만 잘 만들어서는 부족해진다는 뜻입니다. 병목이 시스템 전체로 흩어지면, 가치는 단일 칩이 아니라 'GPU·CPU·메모리·네트워크를 어떻게 통합하느냐'로 이동합니다. 그래서 다음 무대는 base die의 로직화, 커스텀 HBM(고객 맞춤 베이스 다이), 그리고 CXL·패키징 같은 인접 영역으로 사업을 넓히는 것입니다. 7편에서 한국 HBM의 다음 10년을 이 관점에서 다룹니다.

  이 글의 흐름: 5편이 "HBM 사이클의 돈의 흐름"이었다면, 6편은 "병목의 흐름"입니다. HBM이 GPU 옆에 붙어 메모리 벽을 일부 풀자, 병목은 사라진 게 아니라 칩 밖으로 한 칸씩 이동했습니다. 이 글은 대역폭의 위계(HBM 8TB/s → NVLink 1.8TB/s → CPU-GPU 900GB/s)를 먼저 보여주고, 그 경계마다 생기는 병목을 순서대로 짚습니다 — GPU 사이(NVLink·NVL72) → CPU와 GPU 사이(Grace) → 메모리 용량(CXL) → 전력. 한국어 콘텐츠에서 거의 한자리에 모이지 않은 그림입니다.

1. 시작 — 병목은 사라지지 않고 이동한다
2. 대역폭의 위계 — 칩에서 멀어질수록 통로가 좁아진다
3. 병목 1 — GPU와 GPU 사이 (NVLink·NVL72)
4. 병목 2 — CPU와 GPU 사이 (Grace·NVLink-C2C)
5. 병목 3 — 메모리 용량 (CXL과 KV 캐시)
6. 병목 4 — 전력 (물리적 상한)
7. 병목의 지도 — 가치는 어디로 이동하나
8. 정리 + 다음 편 예고
9. 자주 묻는 질문 (FAQ)
10. 시리즈 안내

1. 시작 — 병목은 사라지지 않고 이동한다

시리즈 1~4편에서 HBM의 진입 장벽·기술 전환·통합 공정·본딩을 다뤘고, 5편에서 그 사이클을 떠받치는 돈의 흐름을 추적했습니다. 그런데 한 가지 질문이 남습니다. "HBM이 점점 빨라지면, 결국 성능 문제는 풀리는 것 아닌가?"

답은 아니오입니다. 시스템 성능은 가장 빠른 부품이 아니라 가장 좁은 통로가 결정합니다. HBM이 GPU 바로 옆에 붙어 칩-메모리 사이 병목을 일부 풀면, 데이터는 그 다음으로 좁은 곳에서 막힙니다. 병목은 사라지는 게 아니라 한 칸 바깥으로 이동합니다.

  "메모리 벽(Memory Wall)"의 진짜 의미 — 연산 속도는 빠르게 늘었는데 데이터를 칩에 가져다주는 속도가 못 따라가는 현상입니다. HBM은 이 벽을 칩 바로 옆에서 낮춰줍니다. 하지만 AI 시스템은 칩 하나로 끝나지 않습니다. 수만 개 칩이 서로, CPU와, 더 큰 메모리와, 그리고 전력망과 연결됩니다. 벽은 그 연결마다 다시 세워집니다.

이 글은 그 벽이 다시 세워지는 자리를 칩에서 가까운 순서대로 따라갑니다. GPU 사이, CPU와 GPU 사이, HBM으로도 못 채우는 메모리 용량, 그리고 마지막으로 전력입니다. 핵심 도구는 하나 — 대역폭의 위계입니다. 먼저 이것부터 봅니다.

2. 대역폭의 위계 — 칩에서 멀어질수록 통로가 좁아진다

병목이 어디로 이동하는지 이해하려면 한 장의 그림이면 충분합니다. AI 시스템 안에서 데이터가 지나는 통로의 대역폭은 칩에서 멀어질수록 한 자릿수 배씩 좁아집니다. (수치는 NVIDIA Blackwell 세대 기준)

통로	대역폭	의미
HBM ↔ GPU (온패키지, 가장 안쪽)	~8 TB/s (GPU당)	칩에 가장 가까운, 가장 빠른 통로. 시리즈 1~4편의 영역
GPU ↔ GPU (NVLink 5)	~1.8 TB/s (GPU당)	HBM의 약 1/4. PCIe Gen5의 약 14배. → 병목 1
CPU ↔ GPU (NVLink-C2C)	~900 GB/s (양방향)	다시 절반 수준. Grace CPU가 푸는 영역. → 병목 2
메모리 용량 확장 (CXL)	수십~수백 GB/s급	대역폭은 더 낮지만 용량이 무기. → 병목 3
랙 ↔ 랙 (scale-out, 광학)	포트당 수백 Gb/s급	가장 바깥. 전력·광학 문제와 직결. → 병목 4

  한 줄 원리: HBM이 8 TB/s로 칩을 먹여 살려도, GPU끼리는 1.8 TB/s로만 대화하고, CPU와는 900 GB/s로만 이어집니다. 가장 좁은 통로가 전체 속도를 정합니다. 그래서 HBM 다음 싸움은 "통로를 어떻게 넓히느냐"로 옮겨갑니다. 아래 3~6장이 그 통로들입니다.

3. 병목 1 — GPU와 GPU 사이 (NVLink·NVL72)

초거대 모델은 GPU 한 장에 담기지 않습니다. 수십~수백 장의 GPU가 모델을 나눠 들고, 매 연산마다 서로 중간 결과를 주고받습니다. 이때 GPU들을 잇는 통로가 좁으면, 아무리 GPU가 빨라도 서로를 기다리며 놀게 됩니다. 이게 첫 번째 칩 밖 병목입니다.

왜 PCIe로는 안 되나

전통적으로 칩 사이는 PCIe로 이었습니다. 하지만 PCIe Gen5는 GPU 간 통신에는 통로가 너무 좁습니다. NVIDIA는 자체 인터커넥트 NVLink를 만들어 이 통로를 키웠습니다. NVLink 5세대는 GPU당 약 1.8 TB/s — 같은 세대 PCIe Gen5의 약 14배입니다.

NVL72 — 72개 GPU를 하나의 GPU처럼

NVIDIA의 GB200 NVL72 랙은 이 NVLink를 극한으로 밀어붙입니다.

72개 Blackwell GPU + 36개 Grace CPU를 하나의 NVLink 도메인으로 묶음
랙 전체 합산 대역폭 ~130 TB/s
72개 GPU가 사실상 하나의 거대한 GPU처럼 동작 — 13.5TB 통합 메모리를 공유

한 덩어리로 묶이니, 1조(trillion) 파라미터급 모델의 실시간 추론에서 이전 세대 대비 수십 배 빠른 성능이 가능해집니다. 핵심은 "GPU를 더 빠르게"가 아니라 "GPU 사이 통로를 넓혀 여러 장을 한 장처럼" 만든 것입니다.

  다음 세대는 더 넓힌다: 2026 하반기 양산 예정인 Vera Rubin 세대는 NVLink 6세대로 GPU당 대역폭을 다시 약 2배(~3.6 TB/s)로 키우고, Vera Rubin NVL72(VR200) 랙은 랙 단위 ~260 TB/s를 목표로 합니다. 통로를 넓히는 경쟁은 멈추지 않습니다.

4. 병목 2 — CPU와 GPU 사이 (Grace·NVLink-C2C)

GPU끼리 넓은 통로로 묶었어도, 또 다른 좁은 길이 남습니다. CPU와 GPU 사이입니다. GPU가 연산을 돌리는 동안 CPU는 데이터 준비·검색·작업 조율(orchestration)을 맡습니다. 둘 사이 통로가 좁으면 GPU가 다시 기다립니다.

NVIDIA가 CPU(Grace)까지 직접 만든 이유

NVIDIA는 GPU 회사인데 Grace라는 CPU를 직접 설계했습니다. 이유는 통로 때문입니다. 외부 CPU를 PCIe로 붙이면 데이터가 오갈 때마다 왕복 지연(round-trip)이 생깁니다. 대신 NVIDIA는 Grace CPU와 GPU를 NVLink-C2C(Chip-to-Chip)로 직접 연결했습니다.

양방향 약 900 GB/s — PCIe Gen5(x16) ~128 GB/s 대비 약 7배
같은 메모리 주소 공간(coherent) 공유 — CPU와 GPU가 한 메모리를 함께 봄
PCIe 왕복 제거 → CPU 메모리까지 GPU가 빠르게 끌어옴

  설계 철학의 전환: 예전엔 "GPU는 가속기, CPU는 호스트"로 분리돼 있었습니다. 이제는 CPU·GPU·메모리를 하나의 일관된 시스템으로 설계합니다. Grace는 그 통합의 상징입니다. 병목을 푸는 단위가 "칩"에서 "시스템"으로 올라간 것 — 이게 7장에서 다룰 가치 이동의 핵심입니다.

5. 병목 3 — 메모리 용량 (CXL과 KV 캐시)

통로를 다 넓혀도 남는 문제가 있습니다. 메모리 용량 자체입니다. HBM은 빠르지만 비싸고, GPU 패키지에 물리적으로 붙일 수 있는 용량에 한계가 있습니다. 그런데 최근 AI 워크로드가 요구하는 메모리 용량이 폭증했습니다.

KV 캐시 — 용량을 폭발시키는 주범

LLM이 긴 문맥을 처리할 때 KV 캐시(이미 읽은 토큰의 중간 계산 결과)를 메모리에 쌓아둡니다. 문맥이 길고 동시 사용자가 많을수록 이 캐시가 기하급수로 커집니다.

최근 LLM 추론은 GPU당 KV 캐시가 흔히 80~120GB를 넘김
70B 모델 · 128K 문맥 · 배치 32면 KV 캐시만 150GB+ 필요
HBM 용량(GPU당 192GB 안팎)으로는 모델 가중치 + 캐시를 동시에 감당하기 빠듯

CXL — HBM과 스토리지 사이의 빈 계층

여기서 CXL(Compute Express Link)이 들어옵니다. CPU·GPU·메모리를 한 통로로 잇는 개방형 표준으로, 두 가지를 가능하게 합니다.

메모리 풀링 — 여러 서버가 메모리를 공유 → 활용률 최대 50% 개선, 총소유비용(TCO) 15~20% 절감 추정
메모리 계층화(tiering) — HBM(가장 빠름) → DRAM → CXL 메모리 → 스토리지. CXL은 스토리지보다 빠르고 HBM보다 용량이 큰 중간 계층

실측 사례도 나옵니다. Astera Labs의 CXL 메모리 컨트롤러는 벤더 벤치마크 기준 기준 구성 대비 메모리 3.6배 확장 · GPU 활용률 75% 향상 · 추론 처리량 2배를 제시했고(자사 측정값이라 환경에 따라 달라질 수 있음), 삼성은 128GB CXL 2.0 D램을 양산하고 있습니다. 2026년 기준 신규 서버의 90% 이상이 CXL을 지원합니다.

엣지 — "CXL은 죽었다"는 절반만 맞다

시장 의견이 정면으로 갈립니다. SemiAnalysis는 "AI 시대에 CXL은 죽었다"고 봅니다 — NVIDIA가 NVLink로 GPU 직결 패브릭을 닫아버려 CXL이 끼어들 자리가 없다는 논리. 반대로 CXL 진영은 KV 캐시 수요를 들어 "2026이 상용화 원년"이라 합니다.

흔히 놓치는 그림이 하나 있습니다. 개방 진영은 NVLink에 단일 표준으로 맞서지 않고, 일을 둘로 쪼갰습니다. GPU끼리 잇는 초고속 패브릭 싸움은 UALink(2025년 출범, AMD·Intel·구글·MS·메타·브로드컴·AWS 연합 — 최대 1,024개 가속기 지원)에 맡기고, CXL은 CPU 측 대용량 메모리 확장이라는 자기 홈으로 물러났습니다.

그래서 "CXL은 죽었다"는 절반만 맞습니다. CXL은 GPU 패브릭에서 진 게 아니라, 그 전선을 같은 개방 진영의 UALink에 넘기고 이길 수 있는 자리(메모리 용량)로 특화한 것입니다. SemiAnalysis는 "CXL이 GPU 패브릭을 못 먹었다"는 절반만 봤습니다. 개방 진영의 2-트랙 분업(UALink = 패브릭 / CXL = 메모리)으로 보면, CXL은 죽은 게 아니라 역할이 좁혀진 것입니다.

한국 메모리의 자리에서 — CXL은 NVIDIA 종속을 푸는 헤지

SK하이닉스·삼성에게 이 구도는 학술이 아니라 전략입니다. NVLink 세계에만 머물면 NVIDIA 로드맵에 묶인 HBM 공급자로 고착됩니다 — 고마진이지만 단일 고객에 종속(captive). 반면 CXL·UALink 같은 개방 표준은 NVIDIA 밖 수요(ASIC·소버린 AI·머천트 서버)로 가는 통로입니다. 한국이 CXL 개발에서 앞서 있다는 점을 감안하면, CXL은 한국 메모리에게 죽은 기술이 아니라 단일 고객 종속을 푸는 헤지입니다. 7편에서 본격적으로 다룹니다.

6. 병목 4 — 전력 (물리적 상한)

통로도 넓히고 메모리도 계층화했다고 합시다. 마지막에 가장 단단한 벽이 남습니다. 전력입니다. 5편 7장에서 다룬 위험 3(전력망)과 정확히 연결되는 지점입니다.

랙 전력의 가파른 상승

GPU를 한 랙에 빽빽이 묶을수록 랙당 전력이 폭증합니다.

세대	랙당 전력	시점
CPU 서버 시대	10~20 kW	~2021
GB200 NVL72 (Blackwell)	100~130 kW	2025
Vera Rubin NVL72 (VR200)	~190~230 kW	2026 하반기
Rubin Ultra (Kyber)	~600 kW	2027 (거론)

랙당 GPU 밀도는 2021년 8~16개에서 2026년 72개+로 약 6배 늘었습니다. 전력은 그보다 더 가파르게 오릅니다.

전력이 만드는 두 가지 병목

(1) 칩을 잇는 광 통신의 전력 부담 — 랙이 수백 kW로 가면 칩·랙 사이를 잇는 광 통신의 전력 비중이 커집니다. 광 트랜시버는 같은 대역폭에서 구리보다 포트당 2~3배 전력을 더 먹습니다. 그래서 광 엔진을 스위치·패키지 안으로 넣어 변환 거리를 줄이는 CPO(Co-Packaged Optics)가 2026년 변곡점으로 거론되고, TSMC는 COUPE 광학 기술을 CoWoS 패키징에 통합 중입니다.

(2) 전력망 자체의 물리적 상한 — 돈이 있고 칩을 살 수 있어도 전기가 없으면 데이터센터를 못 짓습니다. 미국 버지니아 북부·아일랜드 더블린·싱가포르 등 주요 거점은 이미 신규 데이터센터 전력 연결이 수년 단위로 지연 중입니다. SMR(소형 모듈 원전)·송전망 확장은 2030년 이후에야 본격화되므로, 2027~2028년은 기존 전력망 용량이 증설 속도의 cap이 될 가능성이 거론됩니다.

병목 4 핵심

전력은 돈·칩·통로와 무관하게 작동하는 물리적 상한입니다. NVLink·Grace·CXL로 시스템 안의 통로를 다 넓혀도, 그 시스템을 돌릴 전기와 식힐 냉각이 없으면 증설이 멈춥니다. 병목 이동의 가장 바깥, 그리고 가장 단단한 벽.

7. 병목의 지도 — 가치는 어디로 이동하나

지금까지 따라온 병목의 이동을 한 줄로 그리면 이렇게 됩니다.

HBM ↔ GPU시리즈 1~4편

→

GPU ↔ GPUNVLink

→

CPU ↔ GPUGrace

→

메모리 용량CXL

→

전력물리적 cap

이 그림이 말하는 핵심은 하나입니다. 가치가 "단일 칩"에서 "시스템 통합"으로 이동한다는 것. HBM 한 부품을 가장 잘 만드는 것만으로는 부족해집니다. GPU·CPU·메모리·네트워크·전력을 어떻게 하나로 엮느냐가 새로운 경쟁축이 됩니다. NVIDIA가 GPU에서 시작해 NVLink·Grace·네트워킹·냉각까지 묶어 'AI 팩토리'를 통째로 파는 이유가 여기 있습니다.

  한국 메모리 회사에 주는 의미: 병목이 시스템 전체로 흩어지면, HBM 공급사도 "빠른 메모리 한 개"를 넘어 시스템에 더 깊이 들어가야 합니다. 그 방향이 base die의 로직화(HBM 맨 아래 칩에 연산·기능을 넣음)와 커스텀 HBM(고객별 맞춤 베이스 다이), 그리고 CXL·패키징 같은 인접 영역입니다. HBM은 죽지 않습니다 — 다만 단독 스펙 경쟁에서 시스템 차원의 경쟁으로 무대가 바뀝니다. 7편에서 이 방향을 한국 HBM의 다음 10년으로 풀겠습니다.

그래서 HBM 병목은 끝났나? — 아니요. 두 가지 의미에서.

(1) 공급 측 — HBM 자체가 여전히 부족합니다. 16-Hi 수율·CoWoS 패키징 capa 제약(시리즈 1~4편)으로 HBM은 지금도 sold-out 병목입니다. "이동했다"는 건 HBM 병목이 풀렸다는 뜻이 아닙니다.

(2) 성능 측 — HBM이 푼 건 칩-메모리 구간 하나뿐입니다. 그 너머에서 NVLink·Grace·CXL·전력이 새로 막힙니다. 병목은 줄어든 게 아니라 겹겹이 쌓입니다.

즉 HBM은 "졸업"한 게 아니라 "기본기"가 됐습니다. 경쟁은 사라진 게 아니라 그 위로 한 칸 올라갔을 뿐입니다.

8. 정리 — 병목은 흐른다

이 글의 thesis를 8줄로 정리합니다.

병목은 사라지지 않고 이동한다. 시스템 성능은 가장 빠른 부품이 아니라 가장 좁은 통로가 정함.
대역폭의 위계: HBM ~8TB/s → NVLink ~1.8TB/s → CPU-GPU ~900GB/s. 칩에서 멀어질수록 한 자릿수 배씩 좁아짐.
병목 1 — GPU 사이: NVLink가 PCIe의 약 14배. NVL72는 72개 GPU를 130TB/s 단일 도메인으로 묶어 하나의 GPU처럼 동작.
병목 2 — CPU와 GPU 사이: NVIDIA가 Grace CPU를 직접 만든 이유. NVLink-C2C 900GB/s + 일관 메모리로 PCIe 왕복 제거.
병목 3 — 메모리 용량: KV 캐시 폭증(150GB+)으로 HBM만으론 부족. CXL이 HBM과 스토리지 사이 중간 계층. 신규 서버 90%+ CXL 지원.
"CXL 죽음 vs 상용화" 논쟁은 영역 차이: GPU 직결 패브릭은 NVLink, 대용량 메모리 확장은 CXL. 대체가 아니라 보완.
병목 4 — 전력: 랙 전력 10kW → 130kW → 600kW(2027). 광학 전력 부담(CPO) + 전력망 물리적 상한. 가장 단단한 벽.
가치는 단일 칩 → 시스템 통합으로 이동. HBM 공급사의 다음 무대는 base die 로직화·커스텀 HBM·인접 영역 확장.

다음 편 예고 — 한국 HBM의 다음 10년

HBM 시리즈 7편(시리즈 클로징)에서는 6편의 결론(가치가 시스템 통합으로 이동)을 한국 관점으로 가져옵니다. 커스텀 HBM과 base die 로직화에서 SK하이닉스·삼성이 어디에 서 있는지, NVIDIA·TSMC·브로드컴과의 관계에서 한국 메모리가 쥔 카드와 놓칠 수 있는 카드, 그리고 정책·생태계 변수까지 정리합니다. 시리즈의 마지막 편입니다.

9. 자주 묻는 질문 (FAQ)

Q1. HBM이 좋아지면 병목 문제는 끝나는 것 아닌가요?

아닙니다. 병목은 사라지는 게 아니라 이동합니다. HBM이 칩-메모리 사이 병목을 일부 풀면, 다음 병목은 더 바깥으로 옮겨갑니다. GPU와 GPU 사이(NVLink), CPU와 GPU 사이(Grace·NVLink-C2C), HBM으로도 못 채우는 메모리 용량(CXL), 마지막으로 전력입니다. 시스템의 가장 좁은 통로가 어디냐가 계속 바뀔 뿐입니다.

Q2. NVLink가 PCIe와 뭐가 다른가요?

둘 다 칩 사이를 잇는 통로지만 대역폭 차이가 큽니다. NVLink 5는 GPU당 약 1.8 TB/s로, 같은 세대 PCIe Gen5의 약 14배입니다. 수만 개 GPU를 하나처럼 묶으려면 PCIe로는 통로가 좁아 GPU가 서로를 기다리며 놀게 됩니다. NVL72 랙은 72개 GPU를 130 TB/s 단일 NVLink 도메인으로 묶어 사실상 하나의 거대한 GPU처럼 동작합니다.

Q3. NVIDIA는 왜 Grace라는 CPU까지 직접 만드나요?

CPU와 GPU 사이 통로가 병목이 되기 때문입니다. 기존 PCIe로 연결하면 데이터가 오갈 때마다 왕복 지연이 생깁니다. NVIDIA는 Grace CPU와 GPU를 NVLink-C2C로 직접 연결해 약 900 GB/s 양방향(PCIe Gen5 x16 ~128 GB/s의 약 7배), 그리고 같은 메모리 주소 공간(coherent)을 공유하게 만들었습니다. PCIe 왕복을 제거하고 CPU 메모리까지 GPU가 빠르게 접근하게 하는 설계입니다.

Q4. CXL이 정확히 뭐고 왜 갑자기 많이 언급되나요?

CXL(Compute Express Link)은 CPU·GPU·메모리를 한 통로로 잇는 개방형 인터커넥트 표준입니다. 핵심 용도는 메모리 풀링(여러 장비가 메모리 공유)과 메모리 계층화(HBM-DRAM-CXL-스토리지)입니다. LLM 추론의 KV 캐시가 GPU당 80~120GB를 넘기면서 HBM 용량만으로는 부족해졌고, HBM보다 싸고 스토리지보다 빠른 중간 계층으로 CXL이 부상했습니다. 2026년 기준 신규 서버의 90% 이상이 CXL을 지원합니다.

Q5. CXL이 죽었다는 말도 있던데 사실인가요?

시장 의견이 갈립니다. SemiAnalysis 등은 "AI 시대에 CXL은 죽었다"고 주장합니다 — NVIDIA가 NVLink로 자체 메모리 패브릭을 닫아버려 CXL이 들어갈 자리가 좁다는 논리입니다. 반대로 다수 매체·CXL 진영은 "2026년이 CXL 상용화 원년"이라 봅니다. 흔히 놓치는 건 개방 진영이 일을 둘로 쪼갰다는 점입니다 — GPU 직결 패브릭은 UALink(AMD·구글·MS·메타·브로드컴·AWS 연합)가, 대용량 메모리 확장은 CXL이 맡습니다. CXL은 GPU 패브릭에서 진 게 아니라 그 전선을 UALink에 넘기고 메모리 용량으로 특화했습니다. 그래서 "죽었다"는 절반만 맞습니다. 또한 한국 메모리(SK·삼성)에게 CXL은 NVIDIA HBM 종속을 푸는 헤지이기도 합니다.

Q6. 데이터센터 전력이 왜 마지막 병목인가요?

돈도 있고 칩도 살 수 있어도 전기가 없으면 데이터센터를 못 짓습니다. 랙당 전력은 CPU 시대 10~20kW에서 GB200 100~130kW로, 2026년 Vera Rubin NVL72는 약 190~230kW로 올랐고, 2027년 Rubin Ultra는 랙당 600kW까지 거론됩니다. 광 트랜시버는 같은 대역폭에서 구리보다 포트당 2~3배 전력을 더 먹습니다. 미국 버지니아·아일랜드 더블린·싱가포르 등 주요 거점은 이미 전력 연결이 수년 단위로 지연 중이라, 전력이 증설 속도의 물리적 상한이 됩니다.

Q7. 이 병목 이동이 한국 메모리 회사에 무슨 의미인가요?

HBM 한 부품만 잘 만들어서는 부족해진다는 뜻입니다. 병목이 시스템 전체로 흩어지면 가치는 단일 칩이 아니라 "GPU·CPU·메모리·네트워크를 어떻게 통합하느냐"로 이동합니다. 그래서 다음 무대는 base die의 로직화, 커스텀 HBM(고객 맞춤 베이스 다이), 그리고 CXL·패키징 같은 인접 영역으로의 확장입니다. 7편에서 한국 HBM의 다음 10년을 이 관점에서 다룹니다.

Q8. 그래서 HBM 수요는 줄어드나요?

줄지 않습니다. 병목이 바깥으로 이동해도 HBM은 여전히 가장 빠른 메모리 계층으로 칩에 가장 가까이 붙습니다. CXL은 HBM을 대체하는 게 아니라 HBM이 담지 못하는 용량을 아래에서 받치는 보완재입니다. 다만 시스템 통합·전력 효율이 새로운 경쟁축으로 떠오르면서, HBM 단독 스펙 경쟁에서 시스템 차원의 경쟁으로 무게중심이 옮겨갑니다.

Q9. Co-Packaged Optics(CPO)는 왜 같이 거론되나요?

전력 병목의 한 해법이기 때문입니다. 랙 전력이 수백 kW로 오르면 칩 사이를 잇는 광 통신의 전력 비중이 무시 못 할 수준이 됩니다. CPO는 광 엔진을 스위치·패키지 안으로 넣어 전기-광 변환 거리를 줄이고 전력을 아낍니다. 2026년이 고성능 시스템에서 광 엔진의 변곡점으로 거론되며, TSMC는 COUPE 광학 기술을 CoWoS 패키징에 통합하고 있습니다.

10. HBM 시리즈 안내

HBM 시리즈 — AI 시대 메모리의 모든 것 (7편 완결)

1편: HBM은 왜 SK·삼성·마이크론만 만드는가 — 진입 장벽 5가지 공정
2편: HBM3E → HBM4 — 13년 만의 기술·공급망 동시 전환
3편: HBM은 어떻게 GPU와 한 칩이 되는가 — 통합의 8단계
4편: HBM4 본딩 기술 현황 — MR-MUF·TC-NCF·HCB 3트랙
5편: HBM 사이클은 어디까지일까? — 돈의 흐름과 위험요소 정리
6편: HBM 너머의 병목 — Grace CPU·NVLink·CXL·전력 (지금 읽는 글)
7편: HBM의 다음 10년 — 표준 메모리의 분화와 커스텀 HBM

목차