목차
- 1. 시작 — 병목은 사라지지 않고 이동한다
- 2. 대역폭의 위계 — 칩에서 멀어질수록 통로가 좁아진다
- 3. 병목 1 — GPU와 GPU 사이 (NVLink·NVL72)
- 4. 병목 2 — CPU와 GPU 사이 (Grace·NVLink-C2C)
- 5. 병목 3 — 메모리 용량 (CXL과 KV 캐시)
- 6. 병목 4 — 전력 (물리적 상한)
- 7. 병목의 지도 — 가치는 어디로 이동하나
- 8. 정리 + 다음 편 예고
- 9. 자주 묻는 질문 (FAQ)
- 10. 시리즈 안내
1. 시작 — 병목은 사라지지 않고 이동한다
시리즈 1~4편에서 HBM의 진입 장벽·기술 전환·통합 공정·본딩을 다뤘고, 5편에서 그 사이클을 떠받치는 돈의 흐름을 추적했습니다. 그런데 한 가지 질문이 남습니다. "HBM이 점점 빨라지면, 결국 성능 문제는 풀리는 것 아닌가?"
답은 아니오입니다. 시스템 성능은 가장 빠른 부품이 아니라 가장 좁은 통로가 결정합니다. HBM이 GPU 바로 옆에 붙어 칩-메모리 사이 병목을 일부 풀면, 데이터는 그 다음으로 좁은 곳에서 막힙니다. 병목은 사라지는 게 아니라 한 칸 바깥으로 이동합니다.
이 글은 그 벽이 다시 세워지는 자리를 칩에서 가까운 순서대로 따라갑니다. GPU 사이, CPU와 GPU 사이, HBM으로도 못 채우는 메모리 용량, 그리고 마지막으로 전력입니다. 핵심 도구는 하나 — 대역폭의 위계입니다. 먼저 이것부터 봅니다.
2. 대역폭의 위계 — 칩에서 멀어질수록 통로가 좁아진다
병목이 어디로 이동하는지 이해하려면 한 장의 그림이면 충분합니다. AI 시스템 안에서 데이터가 지나는 통로의 대역폭은 칩에서 멀어질수록 한 자릿수 배씩 좁아집니다. (수치는 NVIDIA Blackwell 세대 기준)
| 통로 | 대역폭 | 의미 |
|---|---|---|
| HBM ↔ GPU (온패키지, 가장 안쪽) |
~8 TB/s (GPU당) | 칩에 가장 가까운, 가장 빠른 통로. 시리즈 1~4편의 영역 |
| GPU ↔ GPU (NVLink 5) |
~1.8 TB/s (GPU당) | HBM의 약 1/4. PCIe Gen5의 약 14배. → 병목 1 |
| CPU ↔ GPU (NVLink-C2C) |
~900 GB/s (양방향) | 다시 절반 수준. Grace CPU가 푸는 영역. → 병목 2 |
| 메모리 용량 확장 (CXL) |
수십~수백 GB/s급 | 대역폭은 더 낮지만 용량이 무기. → 병목 3 |
| 랙 ↔ 랙 (scale-out, 광학) |
포트당 수백 Gb/s급 | 가장 바깥. 전력·광학 문제와 직결. → 병목 4 |
3. 병목 1 — GPU와 GPU 사이 (NVLink·NVL72)
초거대 모델은 GPU 한 장에 담기지 않습니다. 수십~수백 장의 GPU가 모델을 나눠 들고, 매 연산마다 서로 중간 결과를 주고받습니다. 이때 GPU들을 잇는 통로가 좁으면, 아무리 GPU가 빨라도 서로를 기다리며 놀게 됩니다. 이게 첫 번째 칩 밖 병목입니다.
왜 PCIe로는 안 되나
전통적으로 칩 사이는 PCIe로 이었습니다. 하지만 PCIe Gen5는 GPU 간 통신에는 통로가 너무 좁습니다. NVIDIA는 자체 인터커넥트 NVLink를 만들어 이 통로를 키웠습니다. NVLink 5세대는 GPU당 약 1.8 TB/s — 같은 세대 PCIe Gen5의 약 14배입니다.
NVL72 — 72개 GPU를 하나의 GPU처럼
NVIDIA의 GB200 NVL72 랙은 이 NVLink를 극한으로 밀어붙입니다.
- 72개 Blackwell GPU + 36개 Grace CPU를 하나의 NVLink 도메인으로 묶음
- 랙 전체 합산 대역폭 ~130 TB/s
- 72개 GPU가 사실상 하나의 거대한 GPU처럼 동작 — 13.5TB 통합 메모리를 공유
한 덩어리로 묶이니, 1조(trillion) 파라미터급 모델의 실시간 추론에서 이전 세대 대비 수십 배 빠른 성능이 가능해집니다. 핵심은 "GPU를 더 빠르게"가 아니라 "GPU 사이 통로를 넓혀 여러 장을 한 장처럼" 만든 것입니다.
4. 병목 2 — CPU와 GPU 사이 (Grace·NVLink-C2C)
GPU끼리 넓은 통로로 묶었어도, 또 다른 좁은 길이 남습니다. CPU와 GPU 사이입니다. GPU가 연산을 돌리는 동안 CPU는 데이터 준비·검색·작업 조율(orchestration)을 맡습니다. 둘 사이 통로가 좁으면 GPU가 다시 기다립니다.
NVIDIA가 CPU(Grace)까지 직접 만든 이유
NVIDIA는 GPU 회사인데 Grace라는 CPU를 직접 설계했습니다. 이유는 통로 때문입니다. 외부 CPU를 PCIe로 붙이면 데이터가 오갈 때마다 왕복 지연(round-trip)이 생깁니다. 대신 NVIDIA는 Grace CPU와 GPU를 NVLink-C2C(Chip-to-Chip)로 직접 연결했습니다.
- 양방향 약 900 GB/s — PCIe Gen5(x16) ~128 GB/s 대비 약 7배
- 같은 메모리 주소 공간(coherent) 공유 — CPU와 GPU가 한 메모리를 함께 봄
- PCIe 왕복 제거 → CPU 메모리까지 GPU가 빠르게 끌어옴
5. 병목 3 — 메모리 용량 (CXL과 KV 캐시)
통로를 다 넓혀도 남는 문제가 있습니다. 메모리 용량 자체입니다. HBM은 빠르지만 비싸고, GPU 패키지에 물리적으로 붙일 수 있는 용량에 한계가 있습니다. 그런데 최근 AI 워크로드가 요구하는 메모리 용량이 폭증했습니다.
KV 캐시 — 용량을 폭발시키는 주범
LLM이 긴 문맥을 처리할 때 KV 캐시(이미 읽은 토큰의 중간 계산 결과)를 메모리에 쌓아둡니다. 문맥이 길고 동시 사용자가 많을수록 이 캐시가 기하급수로 커집니다.
- 최근 LLM 추론은 GPU당 KV 캐시가 흔히 80~120GB를 넘김
- 70B 모델 · 128K 문맥 · 배치 32면 KV 캐시만 150GB+ 필요
- HBM 용량(GPU당 192GB 안팎)으로는 모델 가중치 + 캐시를 동시에 감당하기 빠듯
CXL — HBM과 스토리지 사이의 빈 계층
여기서 CXL(Compute Express Link)이 들어옵니다. CPU·GPU·메모리를 한 통로로 잇는 개방형 표준으로, 두 가지를 가능하게 합니다.
- 메모리 풀링 — 여러 서버가 메모리를 공유 → 활용률 최대 50% 개선, 총소유비용(TCO) 15~20% 절감 추정
- 메모리 계층화(tiering) — HBM(가장 빠름) → DRAM → CXL 메모리 → 스토리지. CXL은 스토리지보다 빠르고 HBM보다 용량이 큰 중간 계층
실측 사례도 나옵니다. Astera Labs의 CXL 메모리 컨트롤러는 벤더 벤치마크 기준 기준 구성 대비 메모리 3.6배 확장 · GPU 활용률 75% 향상 · 추론 처리량 2배를 제시했고(자사 측정값이라 환경에 따라 달라질 수 있음), 삼성은 128GB CXL 2.0 D램을 양산하고 있습니다. 2026년 기준 신규 서버의 90% 이상이 CXL을 지원합니다.
엣지 — "CXL은 죽었다"는 절반만 맞다
시장 의견이 정면으로 갈립니다. SemiAnalysis는 "AI 시대에 CXL은 죽었다"고 봅니다 — NVIDIA가 NVLink로 GPU 직결 패브릭을 닫아버려 CXL이 끼어들 자리가 없다는 논리. 반대로 CXL 진영은 KV 캐시 수요를 들어 "2026이 상용화 원년"이라 합니다.
흔히 놓치는 그림이 하나 있습니다. 개방 진영은 NVLink에 단일 표준으로 맞서지 않고, 일을 둘로 쪼갰습니다. GPU끼리 잇는 초고속 패브릭 싸움은 UALink(2025년 출범, AMD·Intel·구글·MS·메타·브로드컴·AWS 연합 — 최대 1,024개 가속기 지원)에 맡기고, CXL은 CPU 측 대용량 메모리 확장이라는 자기 홈으로 물러났습니다.
SK하이닉스·삼성에게 이 구도는 학술이 아니라 전략입니다. NVLink 세계에만 머물면 NVIDIA 로드맵에 묶인 HBM 공급자로 고착됩니다 — 고마진이지만 단일 고객에 종속(captive). 반면 CXL·UALink 같은 개방 표준은 NVIDIA 밖 수요(ASIC·소버린 AI·머천트 서버)로 가는 통로입니다. 한국이 CXL 개발에서 앞서 있다는 점을 감안하면, CXL은 한국 메모리에게 죽은 기술이 아니라 단일 고객 종속을 푸는 헤지입니다. 7편에서 본격적으로 다룹니다.
6. 병목 4 — 전력 (물리적 상한)
통로도 넓히고 메모리도 계층화했다고 합시다. 마지막에 가장 단단한 벽이 남습니다. 전력입니다. 5편 7장에서 다룬 위험 3(전력망)과 정확히 연결되는 지점입니다.
랙 전력의 가파른 상승
GPU를 한 랙에 빽빽이 묶을수록 랙당 전력이 폭증합니다.
| 세대 | 랙당 전력 | 시점 |
|---|---|---|
| CPU 서버 시대 | 10~20 kW | ~2021 |
| GB200 NVL72 (Blackwell) | 100~130 kW | 2025 |
| Vera Rubin NVL72 (VR200) | ~190~230 kW | 2026 하반기 |
| Rubin Ultra (Kyber) | ~600 kW | 2027 (거론) |
랙당 GPU 밀도는 2021년 8~16개에서 2026년 72개+로 약 6배 늘었습니다. 전력은 그보다 더 가파르게 오릅니다.
전력이 만드는 두 가지 병목
(1) 칩을 잇는 광 통신의 전력 부담 — 랙이 수백 kW로 가면 칩·랙 사이를 잇는 광 통신의 전력 비중이 커집니다. 광 트랜시버는 같은 대역폭에서 구리보다 포트당 2~3배 전력을 더 먹습니다. 그래서 광 엔진을 스위치·패키지 안으로 넣어 변환 거리를 줄이는 CPO(Co-Packaged Optics)가 2026년 변곡점으로 거론되고, TSMC는 COUPE 광학 기술을 CoWoS 패키징에 통합 중입니다.
(2) 전력망 자체의 물리적 상한 — 돈이 있고 칩을 살 수 있어도 전기가 없으면 데이터센터를 못 짓습니다. 미국 버지니아 북부·아일랜드 더블린·싱가포르 등 주요 거점은 이미 신규 데이터센터 전력 연결이 수년 단위로 지연 중입니다. SMR(소형 모듈 원전)·송전망 확장은 2030년 이후에야 본격화되므로, 2027~2028년은 기존 전력망 용량이 증설 속도의 cap이 될 가능성이 거론됩니다.
병목 4 핵심
전력은 돈·칩·통로와 무관하게 작동하는 물리적 상한입니다. NVLink·Grace·CXL로 시스템 안의 통로를 다 넓혀도, 그 시스템을 돌릴 전기와 식힐 냉각이 없으면 증설이 멈춥니다. 병목 이동의 가장 바깥, 그리고 가장 단단한 벽.
7. 병목의 지도 — 가치는 어디로 이동하나
지금까지 따라온 병목의 이동을 한 줄로 그리면 이렇게 됩니다.
이 그림이 말하는 핵심은 하나입니다. 가치가 "단일 칩"에서 "시스템 통합"으로 이동한다는 것. HBM 한 부품을 가장 잘 만드는 것만으로는 부족해집니다. GPU·CPU·메모리·네트워크·전력을 어떻게 하나로 엮느냐가 새로운 경쟁축이 됩니다. NVIDIA가 GPU에서 시작해 NVLink·Grace·네트워킹·냉각까지 묶어 'AI 팩토리'를 통째로 파는 이유가 여기 있습니다.
(1) 공급 측 — HBM 자체가 여전히 부족합니다. 16-Hi 수율·CoWoS 패키징 capa 제약(시리즈 1~4편)으로 HBM은 지금도 sold-out 병목입니다. "이동했다"는 건 HBM 병목이 풀렸다는 뜻이 아닙니다.
(2) 성능 측 — HBM이 푼 건 칩-메모리 구간 하나뿐입니다. 그 너머에서 NVLink·Grace·CXL·전력이 새로 막힙니다. 병목은 줄어든 게 아니라 겹겹이 쌓입니다.
즉 HBM은 "졸업"한 게 아니라 "기본기"가 됐습니다. 경쟁은 사라진 게 아니라 그 위로 한 칸 올라갔을 뿐입니다.
8. 정리 — 병목은 흐른다
이 글의 thesis를 8줄로 정리합니다.
- 병목은 사라지지 않고 이동한다. 시스템 성능은 가장 빠른 부품이 아니라 가장 좁은 통로가 정함.
- 대역폭의 위계: HBM ~8TB/s → NVLink ~1.8TB/s → CPU-GPU ~900GB/s. 칩에서 멀어질수록 한 자릿수 배씩 좁아짐.
- 병목 1 — GPU 사이: NVLink가 PCIe의 약 14배. NVL72는 72개 GPU를 130TB/s 단일 도메인으로 묶어 하나의 GPU처럼 동작.
- 병목 2 — CPU와 GPU 사이: NVIDIA가 Grace CPU를 직접 만든 이유. NVLink-C2C 900GB/s + 일관 메모리로 PCIe 왕복 제거.
- 병목 3 — 메모리 용량: KV 캐시 폭증(150GB+)으로 HBM만으론 부족. CXL이 HBM과 스토리지 사이 중간 계층. 신규 서버 90%+ CXL 지원.
- "CXL 죽음 vs 상용화" 논쟁은 영역 차이: GPU 직결 패브릭은 NVLink, 대용량 메모리 확장은 CXL. 대체가 아니라 보완.
- 병목 4 — 전력: 랙 전력 10kW → 130kW → 600kW(2027). 광학 전력 부담(CPO) + 전력망 물리적 상한. 가장 단단한 벽.
- 가치는 단일 칩 → 시스템 통합으로 이동. HBM 공급사의 다음 무대는 base die 로직화·커스텀 HBM·인접 영역 확장.
다음 편 예고 — 한국 HBM의 다음 10년
HBM 시리즈 7편(시리즈 클로징)에서는 6편의 결론(가치가 시스템 통합으로 이동)을 한국 관점으로 가져옵니다. 커스텀 HBM과 base die 로직화에서 SK하이닉스·삼성이 어디에 서 있는지, NVIDIA·TSMC·브로드컴과의 관계에서 한국 메모리가 쥔 카드와 놓칠 수 있는 카드, 그리고 정책·생태계 변수까지 정리합니다. 시리즈의 마지막 편입니다.
9. 자주 묻는 질문 (FAQ)
10. HBM 시리즈 안내
HBM 시리즈 — AI 시대 메모리의 모든 것 (7편)
- 1편: HBM은 왜 SK·삼성·마이크론만 만드는가 — 진입 장벽 5가지 공정
- 2편: HBM3E → HBM4 — 13년 만의 기술·공급망 동시 전환
- 3편: HBM은 어떻게 GPU와 한 칩이 되는가 — 통합의 8단계
- 4편: HBM4 본딩 기술 현황 — MR-MUF·TC-NCF·HCB 3트랙
- 5편: HBM 사이클은 어디까지일까? — 돈의 흐름과 위험요소 정리
- 6편: HBM 너머의 병목 — Grace CPU·NVLink·CXL·전력 (지금 읽는 글)
- 7편: 한국 HBM의 다음 10년 — 커스텀 HBM과 정책