SemiHub
기술 딥다이브 — HBM 시리즈 #3

HBM은 어떻게 GPU와 한 칩이 되는가 — 통합의 8단계

메모리 3사 → TSMC → NVIDIA, 한 칩이 되는 과정을 메모리 관점에서 풀다

2026.05.18 · 읽기 약 14분 · SemiHub
한 줄 요약: HBM4부터 메모리 회사는 더 이상 'DRAM 적층' 부품 공급사가 아니다. DRAM core + 로직 base die + 12/16단 적층 + KGSD 검증까지 책임지는 서브시스템 벤더. 그 KGSD가 TSMC CoWoS-L 인터포저 위에서 GPU와 만나는 순간, HBM은 비로소 GPU와 '한 칩'이 된다. '한 칩'의 정의가 PCB → substrate → interposer (Rubin R100) → die-stack (Rubin Ultra 이후)으로 진화 중인 첫 세대가 HBM4다.

목차

1. 훅 — HBM4는 더 이상 메모리가 아니다

NVIDIA Rubin R100 한 chip 안에 HBM4 스택 8개, 총 288 GB / 22 TB/s. 이걸 만들 수 있는 회사는 여전히 SK·삼성·마이크론 단 3곳뿐이지만, 1편(진입 장벽)·2편(세대 전환)에서 본 것과는 다른 사실이 하나 더 있습니다.

메모리 회사가 단독으로 만들지 못합니다.

HBM3E까지 메모리 회사는 DRAM 다이를 자체 fab에서 만들고, 자체 패키징 라인에서 적층한 후, 메모리 부품으로 출하했습니다. HBM4부터 다릅니다. base die가 TSMC 로직 공정으로 옮겨갔고, 메모리 회사는 그 base die를 받아 자체 DRAM core와 결합한 후 KGSD(Known-Good-Stacked-Die)까지 검증해서 TSMC 패키징 라인으로 보냅니다. 거기서 GPU와 인터포저 위에 결합되어 비로소 '한 칩'이 됩니다.

즉 HBM4부터 메모리 회사는 더 이상 'DRAM 적층' 부품 공급사가 아닙니다. DRAM core + 로직 base die + 12/16단 적층 + KGSD 검증까지 책임지는 서브시스템 벤더입니다. 그리고 그 KGSD가 CoWoS-L 위에서 GPU와 만나는 순간, HBM은 비로소 GPU와 '한 칩'이 됩니다.

1편이 "왜 3사만 만드는가", 2편이 "HBM3E → HBM4로 무엇이 바뀌는가"였다면, 3편은 그 만들어진 HBM이 어떻게 GPU와 한 칩이 되는가 — 메모리 관점에서 본 통합 8단계의 물리와 산업 구조입니다.

2. JEDEC HBM4 2,048-bit가 강제하는 변화

JEDEC이 2025년 4월 발표한 JESD270-4 HBM4 표준의 핵심은 인터페이스 폭 2,048-bit — HBM3의 1,024-bit 대비 2배입니다. 단순 대역폭 증가가 아닙니다. base die의 운명을 바꿉니다.

HBM3E까지 base die는 단순 I/O 회로 — DRAM 공정의 1x-class 노드로 충분했습니다. HBM4부터 2,048개 I/O를 base die 안에서 라우팅하려면 DRAM 공정으로는 면적·전력이 맞지 않습니다. 그래서 base die가 DRAM fab에서 로직 파운드리(TSMC N12FFC+ 또는 N5)로 분리됩니다. 이게 시리즈 2편의 핵심이었고, 3편 통합 라인의 출발점입니다.

HBM3E vs HBM4 — Base die 운명의 분기점 HBM3E base die (DRAM 공정) 메모리 회사 단독 완결 HBM4 base die (TSMC N12/N5) 메모리·로직·패키징 3자 협업

HBM4 표준이 정의한 다른 변화도 같은 방향입니다 — VDDQ 1.1V → 0.7~0.9V (전력 −36%), 64 GB max 용량, 775μm 패키지 두께 고정. 모두 DRAM 공정만으로는 못 잡습니다. 결국 HBM4부터 메모리 회사는 'DRAM 잘 만든다'로는 부족하고, TSMC와 base die IP 레벨로 협업할 수 있는 회사여야 합니다.

흥미로운 점: JEDEC 표준 핀 속도는 8 Gb/s지만 실제 양산은 SK 10 Gb/s, Micron 11 Gb/s, 삼성 11.7~13 Gb/s — 3사 모두 over-spec. 표준은 이제 실제 양산을 정의하지 못합니다.

3. HBM이 GPU와 한 칩이 되는 8단계

NVIDIA Rubin R100 한 chip에 HBM4 스택 8개. 각 스택이 어떻게 GPU 옆에 도착하는가를 단계별로 풀면 8단계가 나옵니다. 메모리 회사 책임(① ~ ④) → TSMC 책임(⑤ ~ ⑦) → NVIDIA 책임(⑧) 흐름입니다.

HBM이 GPU와 한 칩이 되는 8단계 메모리 3사 책임 ① DRAM core die 제조 ② Base die 수령 (TSMC/자체) ③ Stack 적층 (TSV + 본딩) ④ KGSD test 출하 TSMC 책임 ⑤ HBM stack 수령 ⑥ CoWoS-L 인터포저 결합 ⑦ Molding + 최종 패키지 NVIDIA 시스템 통합 총 cycle time: DRAM wafer-start ~ NVL72 출하 = 약 6~9개월 단계별 fail mode: warpage · Cu pumping · TSV alignment · thermal hot-spot · interposer routing 단계 ④ KGSD 검증이 메모리 책임의 핵심 — compound yield가 곱셈으로 누적 메모리·로직·패키징·GPU 4 영역이 한 칩 안에서 만나는 첫 세대 = HBM4

3.1 단계 ① ~ ④ — 메모리 회사 책임 영역

① DRAM core die 제조 (1b~1c nm 공정) — SK는 1b-nm (5세대), Micron은 1β, 삼성은 1c-nm (6세대) — 가장 공격적. 12-Hi 적층용으로 wafer를 30μm까지 박막화(16-Hi용)하는 게 핵심입니다. 박막화 자체가 1편 장벽 ①입니다. 12-Hi에서는 50μm이지만 16-Hi가 775μm 패키지 두께 안에 들어가려면 30μm까지 깎아야 합니다.

② Base die 수령 — 분기점. 여기서 3사가 갈립니다.

삼성만 IDM 강점을 살려 TSMC 의존을 우회합니다. SK·Micron은 TSMC base die 캐파 확보가 통합 라인의 전제 조건입니다.

③ Stack 적층 (TSV + 본딩). 각 사 패키징 방식이 다릅니다.

12-Hi 적층까지는 3사 모두 동작 양산. 16-Hi부터 본딩 방식 분기가 더 벌어집니다 — 5절에서 봅니다.

④ KGSD (Known-Good-Stacked-Die) test 출하 — 가장 비싸고 중요한 단계. 12층·16층 적층한 stack 전체를 wafer-level + package-level에서 at-speed test. 단 1 layer 결함이라도 발견되면 stack 전체 폐기 → compound yield 손실.

16-Hi의 경우 단일 die yield 99%여도 stack yield = 0.99^16 ≈ 85%. 실제로는 stack-level test에서만 발견되는 결함이 있어 15~20% yield drop 추가 보고. 메모리 회사 마진의 가장 큰 변수입니다.

KGSD가 통과되면 메모리 회사는 stack을 TSMC로 출하. 여기까지가 메모리 회사 책임의 끝입니다.

3.2 단계 ⑤ ~ ⑦ — TSMC 책임 영역

⑤ HBM stack TSMC 수령. KGSD를 TSMC fab으로 물류 이송. 핸들링·ESD가 변수. 16-Hi의 경우 stack 자체 power가 ~30 W까지 올라가서 운반 중 thermal 관리도 이슈입니다.

⑥ CoWoS-L 인터포저 결합 — '한 칩'이 되는 순간. CoWoS-L 인터포저(8+ RDL layer, reticle 8x size) 위에서 HBM 8 스택 + GPU 2 die가 stitching됩니다. 이 순간이 HBM이 GPU와 '한 칩'이 되는 시점입니다.

물리적 결합 조건:

여기서 fail mode가 폭발합니다:

CoWoS 시리즈 3편이 "왜 HBM과 CoWoS가 같이 다닐 수밖에 없는가"를 packaging 관점에서 다뤘다면, 이 단계 ⑥은 메모리 관점에서 본 그 결합의 실제 fail mode입니다.

⑦ Molding + 최종 패키지. Lid · TIM (Thermal Interface Material) · substrate 결합. Thermal coupling 부족하면 동작 중 throttling — Rubin R100이 11.7 Gb/s 대신 ~10 Gb/s로 spec-down된 이유 중 하나가 thermal margin 확보로 추정됩니다.

3.3 단계 ⑧ — NVIDIA 시스템 통합

GPU 한 chip이 보드로, 보드가 NVL72 rack으로. NVL72 = GPU 72 + Vera CPU 36, 총 HBM4 20.7 TB, 3.6 EFLOPS FP4 inference, rack 전력 120.8 kW.

여기서부터는 메모리 관점 분석에서 벗어납니다. 다만 HBM 1 스택이 시작해서 NVL72 안에 들어가기까지 cycle time이 약 6~9개월, 그 사이 메모리 회사·TSMC·NVIDIA 3사의 보이지 않는 협업이 매 stack마다 일어난다는 사실은 짚을 만합니다.

4. 3사 차별화 — 같은 HBM4를 만들고 있지 않다

8단계 통합 흐름은 같지만, 3사가 각 단계에서 다른 베팅을 합니다.

항목SK hynixSamsungMicron
HBM4 양산 발표2025.09 준비 완료2026.02.12 commercial 1st2026.03 volume
DRAM core 공정1b (5세대)1c (6세대, 공격적)
Base die 공정TSMC N3/N12Samsung Foundry SF4자체 DRAM (HBM4E~TSMC)
핀 속도 양산~10 Gb/s+11.7 / 13 Gb/s 가능11 Gb/s+
적층 방식MR-MUF (고정)TC-NCF → HCBTC-NCF (BESI 단독)
Hybrid Bonding 시점HBM4E 20-Hi (~2027)HBM4E 16-Hi (early)HBM5+ (lag)
NVIDIA Rubin 점유율~70%~30%~18% (자사 영업)
강점yield, 양산 신뢰성공정 leadership, IDM turn-key전력효율, 미국 정치
약점hybrid bonding 늦음1c yield 안정성scale 부족

※ 회사별 핀 속도·양산 시점·점유율은 업계 보도 기준이며 양산 사양 확정 시 변동 가능.

본질을 압축하면:

다음 편(4편 — 3사 전쟁)에서 이 차별화가 어떻게 양산 시점·점유율·고객 수주로 연결되는지 봅니다.

5. 16-Hi 전환 — Hybrid Bonding이 통합 모델을 다시 바꾼다

HBM4의 첫 양산은 12-Hi 36 GB. 다음 단계는 16-Hi 48 GB (24 Gb die) 또는 64 GB (32 Gb die) — NVIDIA Rubin Ultra (2027~)가 이 spec을 요구합니다.

16-Hi 전환에서 3사 분기 SK hynix 16-Hi: MR-MUF 유지 HB: HBM4E 20-Hi (2027) 12-Hi HB validation 2026.04 완료 Samsung 16-Hi: TC-NCF → HCB 전환 HB: HBM4E 16-Hi early GTC 2026 HCB 공개 초기 yield ~10% 보도 Micron 16-Hi: TC-NCF 유지 HB: HBM5 세대로 BESI 단독 협력 2026.03 16-Hi 샘플 HBM5 (2028~2030) 세대에서 3사 모두 Hybrid Bonding 수렴 예상

5.1 Hybrid Bonding이 왜 필요한가

마이크로범프 25μm가 16-Hi의 한계. layer 간 거리 좁아지고, 누적 정렬 오차 임계 초과, microbump 자체가 차지하는 z-축 공간으로 stack 두께 한계. 그리고 thermal cycling 중 Cu pumping (구리가 1~2μm 솟구쳐 다음 layer bonding 깨짐).

Hybrid Bonding 핵심 조건:

효과 (MDPI Review 2025): joint thermal resistance −22~−47%, vertical thermal conductivity 최대 3x, stack height −15%.

5.2 장비 공급사 구도

회사핵심메모리 3사 채택
BESI + AMATSub-50 nm hybrid bonder + CMP 100% 점유TSMC HBM4E, Micron 단독
ASMPTGen2 hybrid bonder + fluxless TCBSK HBM3E/HBM4 TCB
HanmiTC bonder 1위, HB 개발 중SK 비중 축소 보고
Hanwha SemitechSK 공동개발 SHB2 NanoSK R&D 라인
SEMESSamsung in-houseSamsung 전용

업계 핵심 시그널: AMAT가 hybrid bonding CMP 사실상 100% 독점 (SemiconSam 보도). hybrid bonder 자체보다 CMP가 진짜 병목이라는 분석입니다.

표준이 다시 흔든다: JEDEC이 2026년 4월 HBM 두께 775 → 825~900μm 완화 검토 (TrendForce 보도, 미확정). 통과되면 TC bonder로 20-Hi 가능 → Hybrid Bonding 도입 시점 자체가 지연됩니다. 표준 1mm 단위 조정이 3사 차별화 전략을 뒤집을 수 있습니다.

6. 반대 관점 — HBM 통합 모델의 한계

여기까지 본 통합 모델에도 회의론이 있습니다.

(a) CXL 메모리 풀링 — Marvell이 2026년 3월 발표한 Structera S 30260 (260-lane CXL switch)은 rack-level memory pooling으로 "HBM stacking에만 의존하지 말고 메모리 풀링으로 AI memory wall 돌파"를 공개 메시지로 던졌습니다. CXL 4.0 (2025 말 표준화) 128 GT/s. Microsoft Azure가 2025년 11월 CXL preview 인스턴스 출시. HBM 슈퍼사이클의 가장 큰 회의론자입니다.

(b) HBM4 yield crisis — NVIDIA가 11.7 Gb/s spec을 ~10 Gb/s로 down하지 않았다면 yield ~20%로 사실상 양산 불가했다는 분석 보도. Samsung HCB 양산 yield 10% 보도. JEDEC 두께 완화 검토. 통합 모델 자체가 흔들릴 수 있는 시나리오입니다.

(c) AI capex bubble — 일부 분석에서 hoarded 메모리 overhang 우려. 단 NAND Research·Goldman은 구조적 부족(cyclical 아닌) 평가. DRAM Q1 2026 +90~95% QoQ, Q2 2026 +58~63% QoQ — 본격 cycle 이론은 5편에서 다룹니다.

이 회의론들은 본 시리즈 5편(슈퍼사이클 종료 신호)·6편(HBM 너머의 병목)에서 본격적으로 다룹니다.

7. 정리 — '한 칩'의 정의가 진화 중이다

HBM이 GPU와 한 칩이 되는 과정을 8단계로 풀면서 보이는 사실은 두 가지입니다.

첫째, '한 칩'의 정의가 4세대에 걸쳐 바뀌고 있습니다.

세대결합 방식대표 시기
1세대같은 PCB (HBM과 GPU 별도 칩)(HBM 이전 — 일반 DDR 시대)
2세대같은 substrate(초기 HBM 통합)
3세대같은 interposer (2.5D CoWoS)HBM4 / Rubin R100 — 현재
4세대같은 die-stack (3D hybrid bonding)HBM4E~HBM5 / Rubin Ultra 이후

Rubin R100이 3세대의 정점, Rubin Ultra가 4세대의 첫걸음입니다. 4세대에서 HBM은 GPU die의 vertical 연장이 됩니다 — 메모리와 로직의 물리적 경계 자체가 사라집니다.

둘째, 메모리 회사의 책임 범위가 확장됐습니다.

세대메모리 회사 책임
HBM3DRAM core + base die(자체) + stack 적층
HBM3E+ KGSD 검증 강화
HBM4+ base die (파운드리 위탁) + custom logic 통합
HBM4E+ 고객별 custom base die + Optional: SRAM, near-memory compute

HBM4부터 메모리 회사는 단순 '메모리 vendor'가 아닙니다. 서브시스템 vendor입니다. 그리고 그 책임이 HBM4E에서 메모리 회사의 ASIC vendor화로 한 단계 더 갑니다.

1·2편이 메모리 회사 안에서 일어나는 이야기였다면, 3편은 메모리 회사가 TSMC와 NVIDIA를 만나서 한 칩이 되는 이야기입니다. '한 칩'의 정의가 PCB → substrate → interposer → die-stack으로 진화 중이고, HBM은 점점 GPU die의 vertical 연장이 되어갑니다. 메모리와 로직의 물리적 경계가 사라지는 첫 세대가 HBM4입니다.

8. 다음 편 예고 — 3사 전쟁: 속도의 삼성 vs 물량의 SK vs 효율의 마이크론

통합 8단계는 같지만, 각 단계에서 3사가 어떤 다른 베팅을 했고, 그게 양산 시점·점유율·NVIDIA Rubin 수주 비율로 어떻게 이어지는가. 2026.02 삼성 세계 최초 HBM4 commercial 양산 의미 + SK 수성 + Micron 미국 카드. 한국 검색량 최대 구간을 다룹니다.

9. 자주 묻는 질문 (FAQ)

HBM4부터 base die가 TSMC에서 만들어진다는데, 메모리 회사 입장에서 정확히 뭐가 바뀐 건가요?
HBM3E까지 base die는 단순 I/O 회로 — DRAM 공정으로 충분했습니다. HBM4 2,048-bit I/O를 라우팅하려면 DRAM 공정으로 면적·전력이 안 맞아 로직 파운드리(TSMC N12FFC+ 또는 N5)로 분리됐습니다. 메모리 회사는 그 base die를 TSMC에서 받아 자체 DRAM core와 결합한 후 KGSD 검증까지 책임집니다. 즉 'DRAM 잘 만든다'로는 부족하고 TSMC와 base die IP 레벨로 협업 가능한 회사여야 합니다.
NVIDIA Rubin R100에 HBM이 정확히 얼마나 들어가나요?
Rubin R100 1 chip에 HBM4 8 스택, 총 288 GB / 22 TB/s 메모리 대역폭. NVL72 시스템 1개 = GPU 72개 + Vera CPU 36개, 총 HBM4 20.7 TB. NVIDIA 공식 사양 기준 시스템 대역폭 ~20.5 TB/s.
삼성이 2026.02 세계 최초 HBM4 양산이라는데 SK를 앞선 건가요?
양산 발표는 삼성이 먼저(2026.02.12)지만, NVIDIA Rubin HBM4 단일 공급 비중은 SK가 ~70%로 여전히 1위 추정. 삼성은 HBM3E에서 놓친 자리를 HBM4로 만회 시도. 단 1c DRAM yield 안정성이 변수 — 자세한 3사 비교는 4편에서.
KGSD 검증이 왜 그렇게 중요한가요?
12층·16층 적층한 stack 전체를 wafer-level + package-level에서 at-speed test. 1 layer 결함이라도 발견되면 stack 전체 폐기 → compound yield 손실. 16-Hi의 경우 단일 die yield 99%여도 stack yield ≈ 85%, 실제로는 15~20% 추가 drop 보고. 메모리 회사 마진의 가장 큰 변수이자, 통과되면 TSMC로 출하되는 메모리 책임의 마지막 관문.
CoWoS-L 인터포저 위에서 HBM과 GPU가 어떻게 연결되나요?
8+ RDL layer, reticle 8x size 실리콘 인터포저 위에 HBM 8 스택 + GPU 2 die를 stitching. HBM ↔ GPU 거리 = 수 mm. 인터페이스 폭 2,048-bit × 8 스택 = 16,384-bit 동시 전송. 핀 속도 10~13 Gb/s × 폭 = 시스템 총합 22 TB/s (DDR5 PC 메모리 0.05 TB/s 대비 440배).
Hybrid Bonding은 언제 양산되나요?
Samsung HBM4E 16-Hi (2027 추정)부터 HCB(Hybrid Copper Bonding) 본격. SK는 HBM4E 20-Hi(2027~2028)부터. Micron은 HBM5 세대(2028~2030)로 연기. JEDEC이 두께 775 → 900μm 완화 검토 중인데 (미확정) 통과되면 hybrid bonding 도입 시점 자체가 지연될 수 있습니다.
16-Hi가 12-Hi보다 정확히 뭐가 어려운가요?
DRAM core die가 50μm → 30μm까지 박막화 필요(775μm 패키지 두께 유지). 누적 휨(warpage), TSV 정렬 누적 오차, microbump pitch 한계(40μm → 그 이하 불가), thermal hot-spot (stack power ~30 W). 결국 마이크로범프 한계로 hybrid bonding 전환 없이는 16-Hi 안정 양산이 어렵습니다.
SK의 MR-MUF가 정확히 뭔가요? 삼성·Micron이 안 쓰는 이유는?
Mass Reflow Molded Underfill — 12층을 한 번에 reflow + mold underfill로 본딩. 누적 휨이 적어 yield 우위. 단 공정 know-how 자체가 SK 독점 자산. 삼성은 TC-NCF (layer 하나씩), Micron도 TC-NCF + BESI 장비. SK가 12-Hi/16-Hi 모두 MR-MUF 유지 결정한 이유 = 'fluxless bonding 시도는 premature, MR-MUF 안전선' 판단.
Samsung HCB가 진짜 성공하면 SK는 따라잡히나요?
GTC 2026 공개 기준 Samsung은 HBM4E 16-Hi부터 HCB 본격. 단 초기 yield ~10% 보도 (미확정). SK는 HBM4E 20-Hi부터 HB 도입 — 한 세대 늦지만 layer 수에서 앞섬. HCB 양산 성공 yield가 핵심 변수. AMAT(CMP) + BESI(bonder) alliance가 hybrid bonding 시장 dominate 가능성도 있어 장비사 구도까지 같이 봐야 합니다.
NVIDIA가 HBM4 spec을 11.7 → 10 Gb/s로 낮췄다는 게 무슨 의미인가요?
공식 발표는 아니지만 TrendForce·Tom's Hardware 보도 기준 NVIDIA가 11.7 Gb/s 요구 시 yield ~20%로 양산 불가, 10 Gb/s spec-down으로 SK 등 벤더 동시 공급 확보. HBM4 통합의 yield 자체가 가장 큰 산업 변수라는 시그널 — JEDEC 표준이 더 이상 실제 양산을 정의하지 못하는 한 증거.
CXL이 HBM을 대체할 수 있나요?
Marvell Structera S CXL switch가 "rack-level memory pooling으로 HBM에만 의존하지 말자" 공개. CXL 4.0 128 GT/s, Microsoft Azure 2025.11 preview. 단 SemiAnalysis 등 분석 = CXL은 margin에서 압박 완화, 2030년 이전 구조적 제약 해소 못함. HBM 통합 모델은 당분간 유효. 자세한 시나리오는 6편(HBM 너머의 병목)에서.
HBM이 GPU와 한 칩이 되기까지 총 얼마나 걸리나요?
DRAM wafer-start ~ NVL72 출하 = 약 6~9개월. HBM stack 자체 양산 ~3~4개월, TSMC CoWoS-L 라인 + NVIDIA 시스템 조립이 나머지. HBM 평균 양산 lead time이 ~5개월이라는 보도(증권 리포트). 즉 NVIDIA가 오늘 주문한 GPU가 데이터센터 rack에 들어가는 시점이 반년 전 DRAM wafer-start와 묶여있습니다.

HBM 시리즈 — AI 시대 메모리의 모든 것

함께 보면 좋은 — CoWoS 시리즈 (5편 완결)

반도체 기술 트렌드, 놓치지 마세요

학회 일정, 기술 분석, 업계 동향을 정리해 보내드립니다.

SemiHub 블로그 전체 보기