목차
- 1. 훅 — HBM4는 더 이상 메모리가 아니다
- 2. JEDEC HBM4 2,048-bit가 강제하는 변화
- 3. HBM이 GPU와 한 칩이 되는 8단계
- 4. 3사 차별화 — 같은 HBM4를 만들고 있지 않다
- 5. 16-Hi 전환 — Hybrid Bonding이 통합 모델을 다시 바꾼다
- 6. 반대 관점 — HBM 통합 모델의 한계
- 7. 정리 — '한 칩'의 정의가 진화 중이다
- 8. 다음 편 예고
- 9. 자주 묻는 질문 (FAQ)
- 10. 시리즈 안내
1. 훅 — HBM4는 더 이상 메모리가 아니다
NVIDIA Rubin R100 한 chip 안에 HBM4 스택 8개, 총 288 GB / 22 TB/s. 이걸 만들 수 있는 회사는 여전히 SK·삼성·마이크론 단 3곳뿐이지만, 1편(진입 장벽)·2편(세대 전환)에서 본 것과는 다른 사실이 하나 더 있습니다.
메모리 회사가 단독으로 만들지 못합니다.
HBM3E까지 메모리 회사는 DRAM 다이를 자체 fab에서 만들고, 자체 패키징 라인에서 적층한 후, 메모리 부품으로 출하했습니다. HBM4부터 다릅니다. base die가 TSMC 로직 공정으로 옮겨갔고, 메모리 회사는 그 base die를 받아 자체 DRAM core와 결합한 후 KGSD(Known-Good-Stacked-Die)까지 검증해서 TSMC 패키징 라인으로 보냅니다. 거기서 GPU와 인터포저 위에 결합되어 비로소 '한 칩'이 됩니다.
즉 HBM4부터 메모리 회사는 더 이상 'DRAM 적층' 부품 공급사가 아닙니다. DRAM core + 로직 base die + 12/16단 적층 + KGSD 검증까지 책임지는 서브시스템 벤더입니다. 그리고 그 KGSD가 CoWoS-L 위에서 GPU와 만나는 순간, HBM은 비로소 GPU와 '한 칩'이 됩니다.
2. JEDEC HBM4 2,048-bit가 강제하는 변화
JEDEC이 2025년 4월 발표한 JESD270-4 HBM4 표준의 핵심은 인터페이스 폭 2,048-bit — HBM3의 1,024-bit 대비 2배입니다. 단순 대역폭 증가가 아닙니다. base die의 운명을 바꿉니다.
HBM3E까지 base die는 단순 I/O 회로 — DRAM 공정의 1x-class 노드로 충분했습니다. HBM4부터 2,048개 I/O를 base die 안에서 라우팅하려면 DRAM 공정으로는 면적·전력이 맞지 않습니다. 그래서 base die가 DRAM fab에서 로직 파운드리(TSMC N12FFC+ 또는 N5)로 분리됩니다. 이게 시리즈 2편의 핵심이었고, 3편 통합 라인의 출발점입니다.
HBM4 표준이 정의한 다른 변화도 같은 방향입니다 — VDDQ 1.1V → 0.7~0.9V (전력 −36%), 64 GB max 용량, 775μm 패키지 두께 고정. 모두 DRAM 공정만으로는 못 잡습니다. 결국 HBM4부터 메모리 회사는 'DRAM 잘 만든다'로는 부족하고, TSMC와 base die IP 레벨로 협업할 수 있는 회사여야 합니다.
흥미로운 점: JEDEC 표준 핀 속도는 8 Gb/s지만 실제 양산은 SK 10 Gb/s, Micron 11 Gb/s, 삼성 11.7~13 Gb/s — 3사 모두 over-spec. 표준은 이제 실제 양산을 정의하지 못합니다.
3. HBM이 GPU와 한 칩이 되는 8단계
NVIDIA Rubin R100 한 chip에 HBM4 스택 8개. 각 스택이 어떻게 GPU 옆에 도착하는가를 단계별로 풀면 8단계가 나옵니다. 메모리 회사 책임(① ~ ④) → TSMC 책임(⑤ ~ ⑦) → NVIDIA 책임(⑧) 흐름입니다.
3.1 단계 ① ~ ④ — 메모리 회사 책임 영역
① DRAM core die 제조 (1b~1c nm 공정) — SK는 1b-nm (5세대), Micron은 1β, 삼성은 1c-nm (6세대) — 가장 공격적. 12-Hi 적층용으로 wafer를 30μm까지 박막화(16-Hi용)하는 게 핵심입니다. 박막화 자체가 1편 장벽 ①입니다. 12-Hi에서는 50μm이지만 16-Hi가 775μm 패키지 두께 안에 들어가려면 30μm까지 깎아야 합니다.
② Base die 수령 — 분기점. 여기서 3사가 갈립니다.
- SK hynix: TSMC N3 또는 N12FFC+ 위탁 (플래그십은 N3)
- 삼성: Samsung Foundry SF4 (4nm) — TSMC 거치지 않고 in-house
- Micron: HBM4 1세대는 자체 DRAM 공정 base die 유지, HBM4E부터 TSMC N3P 전환 검토
삼성만 IDM 강점을 살려 TSMC 의존을 우회합니다. SK·Micron은 TSMC base die 캐파 확보가 통합 라인의 전제 조건입니다.
③ Stack 적층 (TSV + 본딩). 각 사 패키징 방식이 다릅니다.
- SK hynix: Advanced MR-MUF (Mass Reflow Molded Underfill) — 모든 layer를 한 번에 reflow + mold underfill. 누적 휨이 적음 → yield 우위.
- 삼성: TC-NCF (Thermal Compression with Non-Conductive Film) — layer 하나씩 본딩.
- Micron: TC-NCF + BESI 장비 단독 채택. 한국 Hanmi 회피.
12-Hi 적층까지는 3사 모두 동작 양산. 16-Hi부터 본딩 방식 분기가 더 벌어집니다 — 5절에서 봅니다.
④ KGSD (Known-Good-Stacked-Die) test 출하 — 가장 비싸고 중요한 단계. 12층·16층 적층한 stack 전체를 wafer-level + package-level에서 at-speed test. 단 1 layer 결함이라도 발견되면 stack 전체 폐기 → compound yield 손실.
16-Hi의 경우 단일 die yield 99%여도 stack yield = 0.99^16 ≈ 85%. 실제로는 stack-level test에서만 발견되는 결함이 있어 15~20% yield drop 추가 보고. 메모리 회사 마진의 가장 큰 변수입니다.
KGSD가 통과되면 메모리 회사는 stack을 TSMC로 출하. 여기까지가 메모리 회사 책임의 끝입니다.
3.2 단계 ⑤ ~ ⑦ — TSMC 책임 영역
⑤ HBM stack TSMC 수령. KGSD를 TSMC fab으로 물류 이송. 핸들링·ESD가 변수. 16-Hi의 경우 stack 자체 power가 ~30 W까지 올라가서 운반 중 thermal 관리도 이슈입니다.
⑥ CoWoS-L 인터포저 결합 — '한 칩'이 되는 순간. CoWoS-L 인터포저(8+ RDL layer, reticle 8x size) 위에서 HBM 8 스택 + GPU 2 die가 stitching됩니다. 이 순간이 HBM이 GPU와 '한 칩'이 되는 시점입니다.
물리적 결합 조건:
- HBM ↔ GPU 거리 = 수 mm (인터포저 위)
- 인터페이스 폭 2,048-bit × 8 스택 = 16,384-bit 동시 전송
- 핀 속도 10~13 Gb/s × 폭 = 스택당 2~3.3 TB/s, 시스템 총합 22 TB/s
여기서 fail mode가 폭발합니다:
- Warpage: 30μm 박막화 die의 누적 휨이 인터포저 결합 시 임계 초과
- 2,048 I/O 라우팅: microbump pitch < 40μm에서 신호 무결성
- Thermal hot-spot: HBM stack 30 W × 8 + GPU 다이 → 인터포저 위 열원 stack
- CoWoS-L 캐파 병목: 인터포저 1개 비용 추정 $5K~10K, TSMC AP5~AP8 캐파 부족
CoWoS 시리즈 3편이 "왜 HBM과 CoWoS가 같이 다닐 수밖에 없는가"를 packaging 관점에서 다뤘다면, 이 단계 ⑥은 메모리 관점에서 본 그 결합의 실제 fail mode입니다.
⑦ Molding + 최종 패키지. Lid · TIM (Thermal Interface Material) · substrate 결합. Thermal coupling 부족하면 동작 중 throttling — Rubin R100이 11.7 Gb/s 대신 ~10 Gb/s로 spec-down된 이유 중 하나가 thermal margin 확보로 추정됩니다.
3.3 단계 ⑧ — NVIDIA 시스템 통합
GPU 한 chip이 보드로, 보드가 NVL72 rack으로. NVL72 = GPU 72 + Vera CPU 36, 총 HBM4 20.7 TB, 3.6 EFLOPS FP4 inference, rack 전력 120.8 kW.
여기서부터는 메모리 관점 분석에서 벗어납니다. 다만 HBM 1 스택이 시작해서 NVL72 안에 들어가기까지 cycle time이 약 6~9개월, 그 사이 메모리 회사·TSMC·NVIDIA 3사의 보이지 않는 협업이 매 stack마다 일어난다는 사실은 짚을 만합니다.
4. 3사 차별화 — 같은 HBM4를 만들고 있지 않다
8단계 통합 흐름은 같지만, 3사가 각 단계에서 다른 베팅을 합니다.
| 항목 | SK hynix | Samsung | Micron |
|---|---|---|---|
| HBM4 양산 발표 | 2025.09 준비 완료 | 2026.02.12 commercial 1st | 2026.03 volume |
| DRAM core 공정 | 1b (5세대) | 1c (6세대, 공격적) | 1β |
| Base die 공정 | TSMC N3/N12 | Samsung Foundry SF4 | 자체 DRAM (HBM4E~TSMC) |
| 핀 속도 양산 | ~10 Gb/s+ | 11.7 / 13 Gb/s 가능 | 11 Gb/s+ |
| 적층 방식 | MR-MUF (고정) | TC-NCF → HCB | TC-NCF (BESI 단독) |
| Hybrid Bonding 시점 | HBM4E 20-Hi (~2027) | HBM4E 16-Hi (early) | HBM5+ (lag) |
| NVIDIA Rubin 점유율 | ~70% | ~30% | ~18% (자사 영업) |
| 강점 | yield, 양산 신뢰성 | 공정 leadership, IDM turn-key | 전력효율, 미국 정치 |
| 약점 | hybrid bonding 늦음 | 1c yield 안정성 | scale 부족 |
※ 회사별 핀 속도·양산 시점·점유율은 업계 보도 기준이며 양산 사양 확정 시 변동 가능.
본질을 압축하면:
- SK = yield의 회사 — MR-MUF로 warpage 잡고, TSMC base die 위탁으로 logic 한계 회피. 보수적이지만 NVIDIA 가장 신뢰. NVIDIA Rubin HBM4 단일 공급 비중 ~70%.
- Samsung = 공정의 회사 — 1c + SF4 + HCB, IDM turn-key. ISSCC 2026 paper로 학계 leadership 어필. HBM3E에서 놓친 자리를 HBM4로 만회 시도. 단 1c yield 안정성이 변수.
- Micron = 효율 + 미국의 회사 — 1β로 보수적, BESI 단독 협력으로 지정학 회피. NVIDIA 영업 비중 18% 추정. scale 부족이 한계.
다음 편(4편 — 3사 전쟁)에서 이 차별화가 어떻게 양산 시점·점유율·고객 수주로 연결되는지 봅니다.
5. 16-Hi 전환 — Hybrid Bonding이 통합 모델을 다시 바꾼다
HBM4의 첫 양산은 12-Hi 36 GB. 다음 단계는 16-Hi 48 GB (24 Gb die) 또는 64 GB (32 Gb die) — NVIDIA Rubin Ultra (2027~)가 이 spec을 요구합니다.
5.1 Hybrid Bonding이 왜 필요한가
마이크로범프 25μm가 16-Hi의 한계. layer 간 거리 좁아지고, 누적 정렬 오차 임계 초과, microbump 자체가 차지하는 z-축 공간으로 stack 두께 한계. 그리고 thermal cycling 중 Cu pumping (구리가 1~2μm 솟구쳐 다음 layer bonding 깨짐).
Hybrid Bonding 핵심 조건:
- 표면 평탄도 < 1nm (CMP가 결정적)
- Cu recess (dishing) nm-class 제어
- Plasma activation (Ar/N2 2-step)
- Cu-to-Cu direct bond (저온 < 200°C anneal)
효과 (MDPI Review 2025): joint thermal resistance −22~−47%, vertical thermal conductivity 최대 3x, stack height −15%.
5.2 장비 공급사 구도
| 회사 | 핵심 | 메모리 3사 채택 |
|---|---|---|
| BESI + AMAT | Sub-50 nm hybrid bonder + CMP 100% 점유 | TSMC HBM4E, Micron 단독 |
| ASMPT | Gen2 hybrid bonder + fluxless TCB | SK HBM3E/HBM4 TCB |
| Hanmi | TC bonder 1위, HB 개발 중 | SK 비중 축소 보고 |
| Hanwha Semitech | SK 공동개발 SHB2 Nano | SK R&D 라인 |
| SEMES | Samsung in-house | Samsung 전용 |
업계 핵심 시그널: AMAT가 hybrid bonding CMP 사실상 100% 독점 (SemiconSam 보도). hybrid bonder 자체보다 CMP가 진짜 병목이라는 분석입니다.
6. 반대 관점 — HBM 통합 모델의 한계
여기까지 본 통합 모델에도 회의론이 있습니다.
(a) CXL 메모리 풀링 — Marvell이 2026년 3월 발표한 Structera S 30260 (260-lane CXL switch)은 rack-level memory pooling으로 "HBM stacking에만 의존하지 말고 메모리 풀링으로 AI memory wall 돌파"를 공개 메시지로 던졌습니다. CXL 4.0 (2025 말 표준화) 128 GT/s. Microsoft Azure가 2025년 11월 CXL preview 인스턴스 출시. HBM 슈퍼사이클의 가장 큰 회의론자입니다.
(b) HBM4 yield crisis — NVIDIA가 11.7 Gb/s spec을 ~10 Gb/s로 down하지 않았다면 yield ~20%로 사실상 양산 불가했다는 분석 보도. Samsung HCB 양산 yield 10% 보도. JEDEC 두께 완화 검토. 통합 모델 자체가 흔들릴 수 있는 시나리오입니다.
(c) AI capex bubble — 일부 분석에서 hoarded 메모리 overhang 우려. 단 NAND Research·Goldman은 구조적 부족(cyclical 아닌) 평가. DRAM Q1 2026 +90~95% QoQ, Q2 2026 +58~63% QoQ — 본격 cycle 이론은 5편에서 다룹니다.
이 회의론들은 본 시리즈 5편(슈퍼사이클 종료 신호)·6편(HBM 너머의 병목)에서 본격적으로 다룹니다.
7. 정리 — '한 칩'의 정의가 진화 중이다
HBM이 GPU와 한 칩이 되는 과정을 8단계로 풀면서 보이는 사실은 두 가지입니다.
첫째, '한 칩'의 정의가 4세대에 걸쳐 바뀌고 있습니다.
| 세대 | 결합 방식 | 대표 시기 |
|---|---|---|
| 1세대 | 같은 PCB (HBM과 GPU 별도 칩) | (HBM 이전 — 일반 DDR 시대) |
| 2세대 | 같은 substrate | (초기 HBM 통합) |
| 3세대 | 같은 interposer (2.5D CoWoS) | HBM4 / Rubin R100 — 현재 |
| 4세대 | 같은 die-stack (3D hybrid bonding) | HBM4E~HBM5 / Rubin Ultra 이후 |
Rubin R100이 3세대의 정점, Rubin Ultra가 4세대의 첫걸음입니다. 4세대에서 HBM은 GPU die의 vertical 연장이 됩니다 — 메모리와 로직의 물리적 경계 자체가 사라집니다.
둘째, 메모리 회사의 책임 범위가 확장됐습니다.
| 세대 | 메모리 회사 책임 |
|---|---|
| HBM3 | DRAM core + base die(자체) + stack 적층 |
| HBM3E | + KGSD 검증 강화 |
| HBM4 | + base die (파운드리 위탁) + custom logic 통합 |
| HBM4E | + 고객별 custom base die + Optional: SRAM, near-memory compute |
HBM4부터 메모리 회사는 단순 '메모리 vendor'가 아닙니다. 서브시스템 vendor입니다. 그리고 그 책임이 HBM4E에서 메모리 회사의 ASIC vendor화로 한 단계 더 갑니다.
8. 다음 편 예고 — 3사 전쟁: 속도의 삼성 vs 물량의 SK vs 효율의 마이크론
통합 8단계는 같지만, 각 단계에서 3사가 어떤 다른 베팅을 했고, 그게 양산 시점·점유율·NVIDIA Rubin 수주 비율로 어떻게 이어지는가. 2026.02 삼성 세계 최초 HBM4 commercial 양산 의미 + SK 수성 + Micron 미국 카드. 한국 검색량 최대 구간을 다룹니다.
9. 자주 묻는 질문 (FAQ)
HBM 시리즈 — AI 시대 메모리의 모든 것
- 1편: HBM은 왜 SK·삼성·마이크론만 만드는가 — 진입 장벽 5가지 공정
- 2편: HBM3E → HBM4 — 13년 만의 기술·공급망 동시 전환
- 3편: HBM은 어떻게 GPU와 한 칩이 되는가 — 통합의 8단계 (지금 읽는 글)
- 4편: 3사 전쟁 — 속도의 삼성 vs 물량의 SK vs 효율의 마이크론
- 5편: HBM 슈퍼사이클은 어디가 끝인가 — 종료 4대 신호
- 6편: HBM 너머의 병목 — Grace CPU·CXL·NVLink·전력
- 7편: 한국 HBM의 다음 10년 — 커스텀 HBM과 정책