SemiHub
기술 딥다이브 — HBM 시리즈 #2

HBM3E → HBM4 — 13년 만의 기술·공급망 동시 전환

I/O 폭 1024→2048bit, Base die가 첨단 노드로 — 기술과 공급망이 동시에 바뀐 세대

2026.05.13 · 읽기 약 12분 · SemiHub
한 줄 요약: HBM4는 13년 만에 처음으로 I/O 폭을 1024 → 2048 bit로 두 배 늘린 세대다. 더 큰 변화는 Base die가 표준 logic 노드에서 첨단 logic 노드(N5/N3급)로 올라간 점. SK하이닉스는 자체 파운드리가 없어 base die를 TSMC에 위탁하기로 했고, 삼성은 자체 파운드리(4nm급)를 활용한다. SK가 처음으로 외부 파운드리에 base die를 맡기는 첫 사례이며, 메모리·로직 경계 붕괴의 첫 신호이자 SK 공급망에 TSMC가 끼어드는 구조 변화다.

목차

1. 13년 만의 I/O 폭 변화 — 왜 지금인가

2013년 SK하이닉스가 첫 HBM을 양산한 이후 13년 동안 변하지 않은 숫자가 있습니다. I/O 폭 1024-bit입니다. HBM2도, HBM3도, HBM3E도 모두 1024입니다. 핀 속도는 2.4 → 6.4 → 9.6 Gbps로 올랐지만 폭은 그대로였습니다.

2026년, 처음으로 폭이 두 배가 됩니다. HBM4는 2048-bit입니다. 13년 만의 변화입니다.

왜 13년이나 1024를 유지했고, 왜 지금 2048인가? 답은 인터포저입니다. HBM 다이와 GPU 다이는 인터포저라는 실리콘 다리 위에서 만나는데, 그 다리에 깔린 배선 밀도가 HBM 폭을 결정합니다. 1024-bit가 한동안 인터포저·μbump 피치가 안정적으로 받쳐주는 최대치였습니다.

HBM4부터는 μbump 피치가 40μm에서 25μm 이하로 좁혀지고, 인터포저 위에 더 많은 배선이 깔립니다. 그래서 2048이 가능해진 것입니다. 단순히 "두 배"가 아니라, 13년 동안 쌓인 패키징 공정의 임계점이 한 번 풀린 분기점입니다.

그런데 더 큰 변화는 폭이 아니라 Base die에서 일어났습니다.

이 글은 HBM 7편 시리즈의 2편입니다. 1편(진입 장벽 5가지 공정)이 "왜 3사뿐인가"였다면, 2편은 "HBM4가 그 장벽을 어떻게 한 단계 더 높이는가"를 봅니다.

2. 세대별 스펙표 — HBM2 → HBM3 → HBM3E → HBM4

먼저 숫자로 봅니다. 표 한 장이 흐름을 가장 잘 보여줍니다.

항목HBM2HBM3HBM3EHBM4
I/O 폭 (bit)1024102410242048
핀 속도 (Gbps)2.46.49.610~11.7
대역폭/스택 (GB/s)3078191,2292,000+
적층 수 (DRAM)88/121212/16
용량/스택 (GB)8243648~64
Base die 노드표준 (자체)표준 (자체)표준 (자체)첨단 (SK: TSMC / 삼성: 자체)
양산 시점2016202220242026~

세대별로 핀 속도는 꾸준히 올랐습니다. 하지만 진짜 변곡점은 두 곳입니다.

이 두 변화가 무엇을, 왜, 어떻게 바꾸는지를 봅니다.

3. HBM4 4대 변화 — 왜 진입 장벽이 한 단계 더 높아지는가

HBM3E vs HBM4 — 4대 변화 한 눈에 HBM3E HBM4 ① I/O 폭 1024-bit ① I/O 폭 2048-bit (2배) ② Base die — 표준 노드 (자체) ② Base die — 첨단 노드 (SK: TSMC, 삼성: 자체) ③ 핀 속도 9.6 Gbps ③ 핀 속도 10~11.7 Gbps ④ 적층 12층 (TC bonding) ④ 적층 12/16층 (Hybrid Bonding 예고) 대역폭 1.6~2배 + 산업 구조까지 바꾸는 세대

3.1 I/O 폭 2배 — 13년 만의 변화

1024 → 2048 bit. 단순히 숫자가 두 배인 게 아닙니다. 인터포저 위에 깔린 배선이 두 배, μbump 밀도가 두 배, TSV 정렬 난이도가 한 단계 더입니다. 1편의 장벽 ①·②·③이 모두 한 단계씩 올라간다는 의미입니다.

이 변화를 시각적으로 보려면 HBM 시스템 단면도가 가장 빠릅니다. GPU와 HBM이 어떻게 만나는지, μbump·TSV·인터포저가 어디에 위치하는지를 한 장에 정리합니다.

HBM4 시스템 단면 — GPU와 HBM이 인터포저 위에 나란히 (2.5D 패키징) [HBM 스택 #1] DRAM 12층 Base die (N5/N3) [GPU 다이] GPU 다이 (NVIDIA Rubin 등) N3/N4 (TSMC) 연산 회로 [HBM 스택 #2] DRAM 12층 Base die (N5/N3) 인터포저 (실리콘 다리) — GPU↔HBM 수평 연결 2048-bit 배선 (HBM 1개당) 패키지 기판 (Substrate) μbump (마이크로 범프) — 본딩 역할 피치 25μm, 직경 ~10μm 다이 바닥과 인터포저를 솔더볼로 본딩 (GPU·HBM 모두 동일) TSV (Through-Silicon Via) — DRAM 수직 관통 ←DRAM 다이→ 다이 1개당 ~1,000개 × 12층 = 12,000개 2.5D 패키징(CoWoS) — GPU와 HBM이 인터포저 위에 옆으로 나란히. 인터포저 배선이 둘을 연결.

중요한 포인트: GPU와 HBM은 같은 인터포저 위에 옆으로 나란히 놓입니다. GPU가 HBM 위에 적층되는 게 아닙니다. 이게 2.5D 패키징 (CoWoS) 구조이며, HBM4까지 표준입니다. GPU가 HBM 위로 올라가는 본격 3D 적층은 아직 미래 기술입니다.

그림에서 핵심 구성 요소를 정리하면:

잠깐 — 이 구조의 이름이 "CoWoS"입니다
CoWoS = Chip-on-Wafer-on-Substrate (TSMC의 2.5D 패키징 브랜드명).
CoW (Chip-on-Wafer) — GPU·HBM 다이들이 인터포저(실리콘 웨이퍼) 위에 올라감.
oS (on-Substrate) — 그 인터포저가 다시 패키지 기판(Substrate) 위에 올라감.

전체 적층 순서:
다이(GPU·HBM) → μbump → 인터포저 → C4 bump → 패키지 기판 → BGA 솔더볼 → PCB(메인보드)

본드 종류는 위로 갈수록 작고 촘촘, 아래로 갈수록 크고 성김:
μbump (다이 ↔ 인터포저) — 직경 ~10μm, 피치 25μm. 신호 밀도 극대화
C4 bump (인터포저 ↔ 기판) — 직경 ~80~100μm. 인터포저 고정·전력 공급
BGA 솔더볼 (기판 ↔ PCB) — 직경 수백 μm~1mm. 메인보드 납땜

CoWoS 자체에 대한 깊은 분석은 CoWoS 시리즈 1편 참고.

특히 μbump 피치가 I/O 폭 변화의 핵심입니다. 40μm 피치였던 HBM3E에서 25μm 이하로 좁혀지면서 같은 면적에 더 많은 솔더볼이 들어가고, 인터포저 위에 더 많은 배선이 깔립니다. 다이 사이를 잇는 솔더볼이 더 작고, 더 촘촘해지므로 본딩 정밀도·정렬 정밀도·청정도 모두 한 단계 위가 요구됩니다.

이 변화를 1024 vs 2048 격자로 보면 차이가 더 직관적입니다.

HBM3E vs HBM4 — μbump 격자 비교 (같은 면적 가정) HBM3E — 1024-bit 피치 40μm μbump 49개 (예시 그림) 실제 본드 수는 신호+전원 포함 더 많음 HBM4 — 2048-bit 피치 ~25μm μbump 110개 (예시 그림) 같은 면적에 약 2배 밀도 피치 40 → 25μm = 같은 면적에 약 2배 많은 본드. 본딩 정밀도 한 단계 위 요구

3.2 Base die 로직화 — 표준 노드에서 첨단 노드로

잠깐 — Base die와 "노드"가 뭔가요?
이 절을 이해하려면 두 개념을 먼저 잡아야 합니다.

① Base die = HBM 스택의 가장 아래에 깔리는 칩. DRAM 다이가 위에 12층 쌓이고, 그 아래에 base die가 받칩니다. DRAM 다이는 메모리지만, base die는 메모리가 아니라 로직 칩입니다. DRAM과 GPU 사이의 신호 라우팅·전원 분배·테스트 회로를 담당하는 일종의 "HBM 스택의 메인보드".

② 노드(Node) = 반도체 공정의 트랜지스터 크기 수준. "OO nm"로 표기. 표준 노드(28~14nm)와 첨단 노드(N5/N3 = TSMC 5nm·3nm 공정)로 나뉘는데, 첨단 노드일수록 더 작고, 빠르고, 전력이 적습니다. 대신 첨단 노드는 TSMC·삼성 파운드리·Intel 정도만 만들 수 있고 단가가 매우 비쌉니다.
HBM 스택 단면 — DRAM 12층 + Base die DRAM 다이 12층 (메모리) SK·삼성·마이크론 자체 fab TSV (수직 연결) Base die ← 로직 칩 Base die HBM3E까지: 표준 노드 HBM4부터: 첨단 노드 인터포저 (실리콘 다리) 아래

이제 본론입니다. HBM3E까지의 base die는 신호 라우팅·테스트·전원 분배 정도의 단순한 역할이었습니다. 표준 로직 노드(28~14nm급)에서 충분히 만들 수 있었고, SK하이닉스는 자체 fab에서, 삼성은 자체 파운드리에서 처리했습니다. 외부 파운드리에 맡길 필요가 없었습니다.

HBM4 base die는 다릅니다. 메모리 컨트롤러, CXL 인터페이스, 일부 연산 기능까지 흡수합니다. 작은 시스템 칩이 됐습니다. 그러려면 트랜지스터가 더 작아야 하고, 첨단 노드(N5/N3급)가 필요합니다.

왜 로직이 base die로 들어가야 했나? — "메모리 벽" 문제

여기서 자연스러운 질문 — 왜 base die가 단순 인터페이스에서 시스템 칩으로 진화해야 했는가? 답은 AI 시대의 메모리 병목입니다.

왜 base die에 로직이 흡수됐나 — 데이터 이동 축소 HBM3E까지 GPU 다이 연산 + 메모리 컨트롤러 대량 이동 전력 상당 부분 소모 HBM DRAM 12층 + 단순 base die HBM4부터 GPU 다이 (연산 전용) 이동 축소 HBM DRAM 12층 + Base die (로직 흡수) 메모리 컨트롤러·CXL·일부 연산을 base die로 옮겨서: 데이터 이동 거리 ↓ → 전력 소비 ↓ GPU 다이 면적 회수 → 연산 회로 더 박을 수 있음 CXL/UCIe 표준 인터페이스 처리 → 칩렛 시대 대응 PIM (Processing-in-Memory) 인프라 + 커스텀 HBM 기반 데이터를 옮기지 말고, 처리할 곳을 데이터 옆으로 가져온다

핵심 원인: NVIDIA B200·GB200급 AI 가속기에서 가장 큰 병목은 연산 속도가 아니라 데이터 이동입니다. HBM3E의 대역폭 1.2 TB/s도 모자라 GPU가 메모리 기다리느라 놀고 있고, 전체 시스템 전력의 상당 부분(다수 추정에서 절반 이상)이 데이터 이동에 쓰입니다. 이걸 "메모리 벽(Memory Wall)"이라 부릅니다.

해결 방향은 두 가지입니다.

HBM4는 (A)와 (B)를 동시에 추구합니다. 그래서 base die에 메모리 컨트롤러·CXL·일부 연산 기능이 흡수됩니다. 효과는 위 그림의 4가지 — 전력 ↓, GPU 다이 면적 ↑, 칩렛 표준 대응, PIM/커스텀 HBM 기반 마련. 이 모든 것을 위해 base die가 "작은 시스템 칩"이 된 것입니다. 그게 첨단 노드(N5/N3) 제조 능력을 요구하게 된 본질적 이유입니다.

여기서 회사별 선택이 갈립니다. SK하이닉스는 자체 파운드리가 없습니다. 메모리 전문 회사이기 때문에 첨단 로직 노드를 자체적으로 운영하지 않습니다. 그래서 TSMC에 base die를 위탁하기로 했습니다(2024년 협업 발표). SK가 처음으로 base die를 외부 파운드리에 맡기는 첫 사례입니다.

삼성은 다릅니다. 메모리 + 파운드리를 모두 보유하기 때문에 자체 파운드리(4nm급)에서 base die를 생산합니다. 외부 의존 없음. 단, 자체 파운드리의 첨단 노드 수율이 TSMC 대비 어느 수준인지가 진짜 경쟁력입니다.

이게 본문 4장에서 다룰 "메모리·로직 경계 붕괴"의 시작점입니다. HBM 스택 안에 로직 칩(base die)이 더 본격적으로 들어오고, 그걸 로직 회사(TSMC)가 만들기 시작한 것입니다.

3.3 핀 속도 — 처음으로 SK가 뒤지는 그림

HBM3E까지는 SK가 양산·물량·속도 모두 1위였습니다. HBM4에서는 처음으로 삼성 11.7 Gbps vs SK 10 Gbps로 속도 경쟁이 갈렸습니다. SK는 수율·물량으로, 삼성은 속도·수직통합으로 차별화하는 양상입니다.

속도가 더 높다고 무조건 좋은 건 아닙니다. 발열·전력이 함께 오릅니다. 실제 NVIDIA·AMD 인증에서 어느 쪽이 통과하느냐가 진짜 승부입니다.

3.4 적층 12 → 16층 — Hybrid Bonding의 그림자

HBM4는 12층 + 일부 16층입니다. HBM4E부터는 16층이 본격화됩니다. 문제는 TC bonding(Thermo-Compression)의 물리적 한계입니다. 마이크로범프 본딩으로는 16층 적층 시 열·압력 누적이 한계에 가깝습니다.

해법은 Hybrid Bonding입니다. 솔더볼 없이 두 다이를 직접 결합. 표면 평탄도 < 1nm를 요구하는 차원이 다른 공정입니다. HBM4E부터 본격화될 가능성이 높습니다. 1편의 장벽 ③이 본격 현실화되는 시점입니다.

4. Base die 로직화 — 산업 구조에 미치는 의미

4대 변화 중 핵심은 Base die 로직화입니다. 이게 단순한 공정 변화가 아니라 산업 구조 변화이기 때문입니다.

"메모리·로직 경계 붕괴"란?
반도체 산업은 30년 동안 두 진영으로 나뉘어 있었습니다.
메모리 진영 (DRAM·NAND): SK하이닉스·삼성전자·마이크론.
로직 진영 (CPU·GPU·AP): NVIDIA·AMD(설계) + TSMC·삼성 파운드리·Intel(제조).

HBM3E까지 HBM 스택 자체는 메모리 회사가 자체 fab에서 만들었습니다 (DRAM 다이·base die·본딩까지). 단, 시스템 패키지 단계(인터포저·CoWoS)는 이미 TSMC가 처리해왔습니다. 즉 외부 파운드리는 HBM 스택 바깥에서만 협업.

HBM4부터 두 가지가 동시에 일어납니다.
① HBM 안에 로직 기능(메모리 컨트롤러·CXL·일부 연산)이 들어옴 → base die가 단순 인터페이스에서 "작은 시스템 칩"으로 진화.
② 그 로직 칩을 로직 회사(TSMC)가 제조하기 시작 (SK·마이크론의 경우) → 외부 파운드리가 처음으로 HBM 스택 내부까지 들어옴.

메모리 패키지 안에 로직 칩과 로직 회사가 들어왔습니다. 이게 "메모리·로직 경계 붕괴"의 의미입니다. CoWoS·UCIe 등 첨단 패키징이 가속화하는 시대의 첫 메모리 사례입니다.
SK하이닉스 — HBM3E vs HBM4 Base die 공급 변화 HBM3E까지 HBM4부터 SK 자체 fab — Base die 자체 생산 SK 자체 fab — DRAM 다이만 (메모리) TSMC — Base die 위탁 (첨단 logic 노드 N5/N3) HBM 스택 단위 자체 fab 완결 → 외부 파운드리, 스택 내부로 시스템 패키지(CoWoS) → 이제 HBM 스택 내부(base die)까지 외부 진입

4.1 SK의 HBM 자체 제조 구조 — 외부 파운드리가 스택 내부로 진입

HBM3E까지 SK하이닉스의 HBM 스택은 거의 모두 자체 fab에서 만들어졌습니다. DRAM 다이·base die·TSV·박막화·마이크로범프 본딩까지 SK 자체 공정으로 완결. base die가 표준 노드(28~14nm급)였기 때문에 가능했습니다.

단, HBM 스택 밖에서는 이미 외부 의존이 있었습니다. 인터포저(실리콘 다리)와 CoWoS 패키징(GPU + HBM 결합)은 TSMC가 처리해 왔습니다. 즉 SK의 자체 제조는 정확히는 "HBM 스택 단위"까지였고, 시스템 패키지 단계는 처음부터 TSMC 의존이었습니다.

HBM4부터 그 경계가 한 단계 더 안쪽으로 밀려옵니다. base die가 첨단 노드(N5/N3)로 올라가면서 SK는 자체 fab에서 만들 능력이 없어 TSMC에 위탁합니다. 외부 파운드리가 시스템 패키지 단계에 머물지 않고 HBM 스택 내부까지 진입한 전환점입니다.

삼성은 이 변화에서 자유롭습니다. 메모리 + 파운드리 동시 보유 구조 덕분에 base die도 자체 파운드리에서 처리합니다. 즉 HBM4 시대 base die 의존 구조는 "3사 공통"이 아니라 "SK·마이크론 vs 삼성"의 갈림길입니다.

4.2 SK가 TSMC에 묶이는 구조 — 통제권 비대칭

HBM4는 GPU + HBM의 결혼인데, GPU는 이미 TSMC가 만듭니다. HBM의 base die까지 TSMC가 만든다면, 한 시스템에서 TSMC의 비중이 메모리 영역까지 확장되는 것입니다.

여기서 정확하게 봅니다. 진짜 의미는 단순히 "일정이 늦어진다"가 아닙니다. 자체 fab에서 만들어도 base die가 늦으면 일정은 늦어집니다. 차이는 통제권의 비대칭에 있습니다.

항목자체 fab (HBM3E까지)TSMC 위탁 (HBM4부터)
일정 통제본인 우선순위 재배치 가능TSMC capacity 큐 + 다른 고객(NVIDIA·Apple·AMD) 우선순위에 종속
수율 정보즉시 보이고 즉시 개선TSMC가 정보 공유 제한 — 결과만 받음
로드맵 동기화SK 본인 일정대로 진행TSMC N5 → N3 → N2 일정에 HBM4 → HBM4E → HBM5가 묶임
가격 / 마진본인 비용 구조TSMC 첨단 노드는 매우 비쌈, 가격 협상력은 TSMC 쪽 → SK 마진 압박
고객 정보 흐름NVIDIA ↔ SK 직접 채널NVIDIA ↔ TSMC 채널이 더 가까울 가능성 → SK 정보 비대칭 위험

자체 fab의 지연은 "내가 늦어서 내가 늦는 것"입니다. 인과가 명확하고 통제 가능합니다. TSMC 위탁의 지연은 SK 통제 밖에서 일어나는 다축 변수입니다. capacity, 수율, 가격, 로드맵, 고객 채널까지 모두 본인 손에 없습니다.

특히 마지막 — 고객 정보 흐름이 잠재적으로 가장 큰 리스크입니다. NVIDIA가 TSMC와 직접 base die 사양을 조율하는 경로가 열리면, SK 입장에서는 HBM 통합 자체에 대한 leverage가 줄어듭니다. 이게 HBM4가 SK에 만든 진짜 구조 변화입니다.

4.3 3사 base die 공급 구조 정리

HBM4 시대의 base die 공급 구조를 한 줄로 정리합니다.

즉 HBM4 시대 base die 공급은 "TSMC(SK·마이크론) vs 삼성 자체 파운드리"의 두 갈래입니다. TSMC가 메모리 산업의 일부를 흡수한 셈이고, 삼성은 자체 파운드리 능력이 처음으로 메모리 경쟁력의 직접 변수가 됐습니다. 1편의 장벽 ④가 여기서 만들어진 것입니다.

5. 3사 양산 시점 비교 — 누가 먼저, 누가 진짜

2026년은 HBM4 양산 원년입니다. 3사의 일정과 전략을 봅니다.

회사HBM4 양산 시점핀 속도주요 고객전략
삼성2026.02 (세계 최초 출하 선언)11.7 Gbps(인증 진행)속도 + 수직통합 (자체 파운드리 base die)
SK하이닉스2026 하반기10 GbpsNVIDIA Rubin R100물량 + NVIDIA 관계 + TSMC 협업
마이크론2026 후반~20279.6 Gbps(인증 진행)CHIPS Act 보조금 + 비한국 공급원 가치

※ 회사별 핀 속도·양산 시점은 업계 보도 기준이며 양산 사양 확정 시 변동 가능. JEDEC HBM4 표준은 핀 속도 상한선만 규정.

표면적으로는 삼성이 가장 먼저 양산을 시작했습니다. 하지만 "양산 선언"과 "수주 확정"은 다릅니다. NVIDIA·AMD가 진짜로 채택하느냐가 매출의 90%를 결정합니다.

SK는 양산 시점은 늦지만 NVIDIA Rubin R100 메인 공급사로 알려져 있습니다. NVIDIA가 SK를 메인으로 묶은 이유는 HBM3E까지 13년 동안 쌓인 신뢰입니다. 이 관계 자체가 1편 장벽 ⑤(30년 노하우)의 산물입니다.

삼성은 자체 파운드리 base die + 1c 공정 D램이라는 수직통합 카드를 들고 있습니다. TSMC를 안 거치는 유일한 회사이므로, 만약 자체 파운드리가 양산 수율을 잡으면 시간·원가에서 우위가 생깁니다. 단 그게 입증된 건 아닙니다.

마이크론은 미·중 갈등 + CHIPS Act가 자산입니다. 점유율 9% 자체는 작지만, 비한국 HBM 공급원의 정치적 가치가 점점 커지고 있습니다.

3사 경쟁 비교는 시리즈 4편에서 깊게 다룹니다. 여기서는 "누가 먼저"보다 "누가 NVIDIA·AMD 인증을 통과하느냐"가 진짜 시점이라는 점만 기억하면 됩니다.

6. HBM4E 미리보기 — 16층 + Hybrid Bonding

HBM4의 다음은 HBM4E입니다. 2027~2028년 양산 진입 전망입니다. 변화는 크게 두 가지입니다.

1편의 장벽 ③(마이크로범프 → Hybrid Bonding 전환)이 본격적으로 현실화되는 세대입니다. TC bonding으로 16층을 잡는 건 사실상 한계이고, Hybrid Bonding이 차세대 표준이 됩니다. 이미 BeSi(Besi), Applied Materials, EVG 등이 Hybrid Bonding 장비를 양산 단계로 끌어올리는 중입니다.

HBM4E는 단순한 다음 세대가 아니라 1편 5층 장벽의 가장 깊은 곳(③ 마이크로범프 → Hybrid)이 본격 가동되는 시점입니다. 신규 진입자에게는 또 한 단계의 벽이 추가됩니다.

7. 정리 — HBM4가 만든 새로운 의존 구조

HBM3E → HBM4 전환을 한 장으로 정리합니다.

변화본질산업 구조에 미치는 의미
I/O 폭 1024 → 204813년 만의 변화인터포저·μbump 임계점이 풀린 변화
Base die 첨단 노드화SK는 TSMC 위탁, 삼성은 자체 파운드리SK 공급망에 TSMC 진입, 삼성 자체 파운드리가 경쟁 변수
핀 속도 9.6 → 11.7속도 경쟁의 분기삼성 속도 vs SK 물량 양상
16층 + Hybrid Bonding 예고차세대 본딩 진입점HBM4E부터 진입 장벽 한 단계 더

4대 변화 중 산업 구조에 가장 큰 영향을 주는 건 Base die 첨단 노드화입니다. 외부 파운드리(TSMC) 의존이 시스템 패키지 단계에 머물지 않고 HBM 스택 내부(base die)까지 진입한 것이 핵심입니다. SK·마이크론이 이 경로를 택했고, 삼성은 자체 파운드리 덕분에 외부 진입은 피했지만 자체 파운드리의 첨단 노드 수율이 처음으로 메모리 경쟁력의 직접 변수가 됐습니다.

HBM4는 단순한 다음 세대가 아닙니다. 메모리·로직 경계가 흐려지는 첫 신호이고, SK하이닉스가 TSMC 공급망에 묶이는 구조 변화이며, 1편의 5층 장벽 위에 한 단계를 더 쌓는 전환점입니다. 신규 진입자에게는 또 한 단계의 벽이, 기존 3사에게는 새로운 외부 의존이 추가됐습니다.

8. 다음 편 예고 — HBM × CoWoS, 메모리와 패키징의 결혼

2편이 "HBM4 자체가 어떻게 변했는가"였다면, 3편은 "HBM4가 GPU와 어떻게 묶이는가"를 봅니다. 핵심 키워드는 CoWoS입니다.

HBM4 base die가 TSMC로 갔다는 건 2편에서 본 변화입니다. 그 위에 GPU가 또 TSMC CoWoS로 묶입니다. 즉 HBM4 + GPU + CoWoS = 한 시스템 안에서 TSMC의 비중이 메모리 영역까지 확장된 그림입니다.

CoWoS 시리즈 5편과 정식 매듭. CoWoS 3편(HBM × CoWoS)과 짝을 이루는 본론입니다.

발행: 5/15 (금).

9. 자주 묻는 질문 (FAQ)

HBM4가 HBM3E보다 정말 2배 빠른가요?
대역폭 기준으로 약 1.6~2배입니다. HBM3E는 약 1,229 GB/s, HBM4는 2,000 GB/s 이상. 핀 속도 자체는 9.6 → 10~11.7 Gbps로 1.05~1.2배 정도 늘었지만, I/O 폭이 1024 → 2048 bit로 2배 늘어난 영향이 훨씬 큽니다. '폭으로 두 배'가 HBM4의 본질입니다.
Base die 로직화가 왜 그렇게 중요한가요?
HBM3E까지는 base die가 표준 노드(28~14nm급)였기 때문에 SK는 자체 fab, 삼성은 자체 파운드리에서 처리할 수 있었습니다. HBM4부터는 base die가 첨단 노드(N5/N3급)로 올라가면서 SK는 자체적으로 만들 능력이 없어 TSMC에 위탁, 삼성은 자체 파운드리(4nm급)를 활용합니다. SK가 처음으로 외부 파운드리에 base die를 맡기는 전환점이고, 메모리·로직 경계가 흐려지는 첫 신호이며, SK 공급망에 TSMC가 들어온 구조 변화입니다.
HBM4 양산은 누가 먼저 시작했나요?
2026년 2월 삼성이 세계 최초로 HBM4 양산 출하를 선언했습니다. 핀 속도 11.7 Gbps로 알려져 있습니다. SK하이닉스는 2026년 하반기 NVIDIA Rubin R100 향 양산, 마이크론은 그 이후로 진입할 것으로 알려져 있습니다. 단 '양산 선언 = 수주 확정'은 아니며, 1편의 5층 장벽 위에서 누가 진짜 수율과 인증을 잡느냐는 별개 문제입니다.
HBM4의 핀 속도가 회사마다 다른 이유는?
JEDEC 표준 자체는 핀 속도에 상한선만 규정하고, 회사별로 실제 양산 속도는 다릅니다. 삼성 11.7 Gbps, SK 10 Gbps, 마이크론 9.6 Gbps 정도로 알려져 있습니다. 속도가 높을수록 발열·전력 부담이 커지므로 단순 비교는 어렵습니다.
I/O 폭이 13년 동안 1024-bit였던 이유는?
HBM의 폭은 인터포저(실리콘 다리)의 배선 밀도에 의해 결정됩니다. 1024-bit는 인터포저·TSV·μbump 밀도가 안정적으로 받쳐주는 최대치였습니다. HBM4부터 인터포저 공정과 μbump 피치(40μm → 25μm 이하)가 개선되면서 2048-bit가 가능해졌습니다. 13년 만의 변화입니다.
HBM4 base die는 어떤 일을 하나요?
HBM3E까지의 base die는 신호 라우팅·테스트·전원 분배 정도의 패시브한 역할이었습니다. HBM4 base die는 메모리 컨트롤러, CXL 인터페이스, 일부 연산 기능까지 흡수합니다. 즉 base die가 작은 시스템 칩이 됩니다. 이게 메모리·로직 경계가 흐려진다는 의미입니다.
SK가 TSMC에 base die를 맡기면 단가가 오르지 않나요?
단가는 오릅니다. 단, SK의 선택은 비용 최적화가 아니라 시간·기술 우선입니다. TSMC의 첨단 로직 공정(N5/N3)을 자체적으로 운영할 수 없기 때문에, base die 로직화 자체를 포기하느냐 / TSMC에 맡기느냐의 선택이었고 후자를 택한 것입니다.
삼성은 base die를 자체적으로 만드나요?
삼성은 메모리 + 파운드리를 모두 보유하기 때문에 자체 파운드리에서 base die를 생산할 수 있다는 점이 구조적 차이입니다. 단, 자체 파운드리의 첨단 노드 수율이 TSMC 대비 어느 수준인지가 실제 경쟁력을 결정합니다.
HBM4 양산 시점이 회사마다 다른데 어디가 유리한가요?
양산 시점 자체보다 NVIDIA·AMD 인증을 누가 먼저 받느냐가 핵심입니다. NVIDIA Rubin R100은 SK가 메인 공급, 삼성도 일부 채택될 가능성이 있습니다. 양산 선언이 2026 상반기여도 실제 매출 기여는 인증 통과 후입니다.
HBM4 다음 세대(HBM4E)는 무엇이 달라지나요?
HBM4E는 적층 수를 16층까지 끌어올리고, 마이크로범프 대신 Hybrid Bonding을 본격화할 것으로 예상됩니다. 2027~2028년 양산 진입 전망입니다. 1편의 장벽 ③(마이크로범프 → Hybrid Bonding 전환)이 본격적으로 현실화되는 세대입니다.
HBM4 관련주는 어떻게 봐야 하나요?
직접 메모리는 SK하이닉스·삼성전자·마이크론입니다. Base die 로직화의 수혜는 TSMC와 CoWoS 패키징 생태계로 확산됩니다. 한국 후공정·소부장(한미반도체, HPSP, 이오테크닉스 등)은 TC 본더·세정·다이싱 단계에서 동반 수혜입니다. 자세한 종목 분석은 시리즈 4편에서 다룹니다.
HBM4 양산은 슈퍼사이클의 시작인가요 끝인가요?
현재 시점에서는 시작에 가깝습니다. NVIDIA Rubin·AMD MI400 세대가 HBM4를 본격 채택하고, 2027~2028 HBM4E까지 채택 곡선이 이어집니다. 사이클 종료 신호는 시리즈 5편에서 다룹니다.

HBM 시리즈 — AI 시대 메모리의 모든 것 (7편)

  • 1편: HBM은 왜 SK·삼성·마이크론만 만드는가 — 진입 장벽 5가지 공정
  • 2편: HBM3E → HBM4 — 13년 만의 기술·공급망 동시 전환 (지금 읽는 글)
  • 3편 (5/15): HBM × CoWoS — 메모리와 패키징의 물리적 결혼
  • 4편 (5/20): 3사 전쟁 — 속도의 삼성 vs 물량의 SK vs 효율의 마이크론
  • 5편 (5/22): HBM 슈퍼사이클은 어디가 끝인가 — 종료 4대 신호
  • 6편 (5/27): HBM 너머의 병목 — Grace CPU·CXL·NVLink·전력
  • 7편 (5/29): 한국 HBM의 다음 10년 — 커스텀 HBM과 정책

함께 보면 좋은 — CoWoS 시리즈 (5편 완결)

반도체 기술 트렌드, 놓치지 마세요

학회 일정, 기술 분석, 업계 동향을 정리해 보내드립니다.

SemiHub 블로그 전체 보기