LLM 최속 추론 풀스택 — 제1원칙 사고로 본 2026 SOTA

      0. TL;DR
      병목은 더 이상 칩 하나가 아니다. 2026 LLM 속도는 실리콘 × 메모리 × 인터커넥트 × 컴파일러 × 알고리즘 5개 축의 동시 co-design 으로 결정된다.
물리적 천장: Llama 70B FP8 (70GB) / 8 TB/s HBM3e ≈ 113 tok/s 이론치. HBM4 16 TB/s 면 226 tok/s. 이 천장을 넘으려면 SRAM 상주(Groq/Cerebras) 또는 speculative decoding(EAGLE-3) 뿐.
현 SOTA 단일 user TPS: Cerebras CS-3 oss-gpt-120B ~3,000 tok/s · Llama 3.3 70B ~2,200 · Groq LPU 70B ~1,250 · NVIDIA B200+TRT-LLM+NVFP4+EAGLE-3 70B ~250~400.
2026 SOTA 통합: ASML EXE:5200 → TSMC N3P/Samsung SF2 → Rubin GPU + Hynix HBM4 16 TB/s + NVLink 6 + CPO → DeepSeek V4 (NSA) + NVFP4 + EAGLE-3 + Dynamo. NVL144 sub-rack BOM 약 $8.2M, NVL576 $33M.
제1원칙 정수: "왜 autoregressive·HBM·transformer 가 필요한가?" 를 의심하는 것이 가장 큰 속도 향상의 원천. Groq(HBM 삭제), Mamba(KV 삭제), Diffusion LLM(autoregressive 삭제)이 각각 한 축을 깬다.

    

1. 제1원칙 사고법 — Musk 5-Step 매핑

1.1 5단계 알고리즘

Make requirements less dumb — "왜 그래야 하는가?"의 근원적 의심
Delete the part / process — 가능한 모든 것을 제거
Simplify / Optimize — 남은 것을 단순화
Accelerate cycle time — 속도를 가속
Automate — 자동화

머스크 본인이 강조한 순서. "Automate" 부터 시작하면 잘못 정의된 요구사항에 자동화를 더하게 된다.

1.2 LLM 추론 풀스택에 매핑

단계	의심 / 행동	현실 검증 / 사례
1. Less dumb	왜 autoregressive? 왜 transformer? 왜 HBM? 왜 GPU?	Diffusion LLM, Mamba/SSM, Groq SRAM-only, ASIC inference 가 각각 한 가정을 부숨
2. Delete	HBM 삭제 / Off-die DRAM 삭제 / KV cache 삭제 / Autoregressive 삭제 / Dense activation 삭제	Groq (HBM 0) · Cerebras (DRAM 0) · RWKV-7 (KV 0) · Mercury Coder (AR 0) · MoE (top-8/256)
3. Simplify	FP4 양자화 / Native Sparse Attention / FlashAttention-3 / AOT compile / Paged KV	NVFP4 matmul 2× · DeepSeek NSA 5~10× long-ctx · TRT-LLM AOT · vLLM/SGLang
4. Accelerate	Speculative decoding / Parallel decoding / MoE sparse / Speculative prefill	EAGLE-3 acceptance 5.6 tok · Medusa · Lookahead · Mooncake
5. Automate	Continuous batching / Disaggregated serving / Expert routing / KV tiering	vLLM v1 · NVIDIA Dynamo · CXL 3.0 + Samsung CMM-D

핵심 통찰: "가장 빠른 LLM" 의 80% 게인은 step 1·2에서 나온다. step 5의 자동화는 step 1·2로 정의된 시스템을 운영 가능하게 만들 뿐.

1.3 4-사 1:1 기여 매트릭스

Step	ASML	Samsung Foundry	SK Hynix / Samsung Memory	NVIDIA
1. Requirements	High-NA 8nm pitch → ASIC 다양화 허용	SF2/SF4X → Tesla AI5·Groq·IBM ASIC	HBM 의 절대 필요성 재검토 (Groq 반례)	자사 GPU 외 ASIC 경쟁 인정 (DGX Cloud)
2. Delete	—	SF4X 가 Groq HBM 제거 가능케 함	HBM 자체 부담 ↓, CXL 로 HBM 부하 분산	KV paged · MoE 활성치만 path · NVFP4 dense
3. Simplify	EUV 트랜지스터 단순화 (FinFET→GAA)	GAA 누설 ↓ → FP4 회로 면적 절감	HBM4 logic base die 에 컨트롤러 집적	TensorRT-LLM · NVFP4 microscaling
4. Cycle time	wph 220 → 칩 생산 cycle	SF2 yield ramp → Rubin 양산 시점 결정	HBM4 16-Hi → MoE expert 전체 적재	NVLink 6 / CPO → collective op 지연 1/2
5. Automate	EUV fleet management SW	스마트 팹 (digital twin)	HBM4 base die self-test·repair	Dynamo · K8s · KServe

2. ASML — 노광장비

2.1 Low-NA EUV (NXE:3800E)

0.33

Throughput

220 wph @ 30 mJ/cm²

Source power

600 W (CO₂ → Sn droplet, 13.5 nm)

Overlay

< 1.1 nm (matched)

Resolution

13 nm half-pitch (single)

가격

$235~250M / 대

주요 고객

TSMC N3/N2 · Samsung SF3 · Intel 18A · SK Hynix 1c DRAM

2.2 High-NA EUV (EXE:5000 / EXE:5200)

항목	EXE:5000 (도입)	EXE:5200 (2026 양산)
NA	0.55	0.55
Anamorphic demag	4× / 8× (수직 8×)	동일
Exposure field	26 × 16.5 mm (half field)	동일 — stitching 필수
Resolution	8 nm half-pitch	8 nm (LCDU 개선)
Throughput	165~185 wph	220 wph 목표
Source power	600 → 800 W 옵션	800 W
Mask blank	Ru capping, 6025 quartz	+ 흡수체 신소재 (TaBN→Ru/Co)
Pellicle	CNT, 90% transmission	동일, 800 W 견딤
부품 수 / 무게	~100만개 / 150t	동일
가격	$370~380M	$380~400M
누적 출하 (2025말)	Intel(1) · 삼성(1) · TSMC(1) · SK Hynix(1) · imec(1) = 5대

2.3 High-NA 첫 양산 적용 로드맵

노드	회사	HVM	High-NA
Intel 18A	Intel	2025 Q4 ramp	미사용 (Low-NA)
Intel 14A	Intel	2026 H2 risk → 2027 HVM	첫 HVM High-NA
TSMC N2	TSMC	2026 H2 HVM	미사용 (N2P/A16도 Low-NA)
TSMC A14	TSMC	2028 HVM	High-NA 도입
Samsung SF2	Samsung	2026 H2 HVM	일부 critical layer 평가
Samsung SF1.4	Samsung	2027 risk	High-NA 본격

핵심: Rubin GPU(2026 H2)는 Low-NA EUV로 만든 TSMC N3P 기반. High-NA가 NVIDIA Rubin Ultra(2027)·Tesla AI5(Samsung SF2)에 도달하는 것은 2027~2028.

2.4 EUV 공급망 의존 — 한국·일본

부품	공급사	국가	비중
Mask blank	Hoya · AGC	일본	>95%
Photoresist	JSR · TOK · Shin-Etsu · Sumitomo	일본	>90%
Pellicle (CNT)	미쯔이 · 삼성(개발)	일본·한국	일본 우위
Photomask 생산	DNP · Toppan · Photronics	일본·미국	일본 ~70%
Reticle stage parts	에스앤에스텍 · 에프에스티	한국	일부

3. Samsung Foundry — 4 / 3 / 2 nm

3.1 노드 PPA 로드맵

노드	풀네임	양산	Transistor	vs 직전	주 고객
SF4	4LPP	2022	FinFET	base	Qualcomm, Google Tensor
SF4X	4HPC	2024 H2	FinFET HPC tuned	+10% perf @ iso-power	Groq LPU 3 (보도), AMD MI 일부
SF3	3GAP	2024 Q4	MBCFET 2세대	+22% perf / -34% power / -21% area	Exynos 2500
SF2	2GAP	2026 H2 HVM	MBCFET 3세대, BSPDN 옵션	+12% perf / -25% power / -8% area	Tesla AI5, IBM Telum III, PFN
SF2P	2GAP+	2027	+BSPDN 표준	+8% perf, -10% power	—
SF1.4	1.4GAP	2027 risk → 2028 HVM	MBCFET 4세대 + High-NA	+15% perf / -20% power	—

3.2 SF2 vs TSMC N2 비교

항목	Samsung SF2	TSMC N2
Transistor	MBCFET (GAA 3세대)	Nanosheet GAA (1세대)
BSPDN	옵션 (SF2P 표준)	N2P 부터 표준
Logic density	~230 MTr/mm²	~250 MTr/mm² (추정)
SRAM scaling	+5% vs SF3	+5% vs N3 (정체)
HVM	2026 H2	2026 H2
Yield (2026 Q1 모바일)	~40% (보도)	~60% (추정)
주요 AI 고객	Tesla AI5, PFN	NVIDIA Rubin, AMD MI400, Google TPU v7, Broadcom

3.3 Taylor TX (S5) Fab

총 투자

$450억 (1+2 라인 확장 후)

Phase 1

SF4 / SF2 mixed, 2026 H2 가동 (보도, 지연)

Phase 2

SF2 / SF1.4, 2028 가동

Capacity

60k WSPM (Phase 1)

확정 고객

Tesla AI5 (SF2) · IBM Telum III · AMD 일부 · Groq LPU 3 (SF4X — 화성 가능성)

CHIPS Act 보조금

$64억

4. HBM — SK Hynix · Samsung Memory

4.1 세대별 사양

세대	출시	I/O	Pin speed	BW/stack	Stack	Capacity	공정
HBM3	2022	1024-bit	6.4 Gbps	819 GB/s	8/12-Hi	16/24 GB	1α/1β
HBM3E 8-Hi	2024 H1	1024	9.2 Gbps	1.18 TB/s	8-Hi	24 GB	1β
HBM3E 12-Hi	2024 H2 (Hynix), 2025 (Samsung·Micron)	1024	9.6~10 Gbps	1.22~1.28 TB/s	12-Hi	36 GB	1β/1γ
HBM3E 16-Hi (Hynix 시제품)	2025	1024	10 Gbps	1.28 TB/s	16-Hi	48 GB	1γ
HBM4 12-Hi	2026 H1 양산	2048-bit	8.0 Gbps	2.0 TB/s	12-Hi	36 GB	1γ + logic base die
HBM4 16-Hi	2026 H2	2048	8.0 Gbps	2.0 TB/s	16-Hi	48~64 GB	1γ + base die
HBM4E	2027+	2048	10~12 Gbps	2.5~3.0 TB/s	16-Hi	64+ GB	1δ + N3/N5 base die

JEDEC HBM4 표준 (JESD238) 2025.04 확정. 인터페이스 1024 → 2048-bit 두 배 확장, 채널 32 → 64. Pin speed는 오히려 낮아짐(8 Gbps) — 폭으로 대역폭 확보, 전력·열 부담 완화.

4.2 HBM4 Logic Base Die — 패러다임 전환

HBM3까지 base die는 단순 buffer (memory fab 공정). HBM4부터는 controller·테스트 로직·전력 관리·일부 NIC/compute 기능을 logic 공정에 집적.

메모리 메이커	Base die 공정 파트너	전략
SK Hynix	TSMC N5/N3 (2024 발표, 2025.04 N3 진척)	SK Hynix–TSMC–NVIDIA 수직 결합
Samsung	자체 (Samsung Foundry SF4)	메모리+파운드리 통합, 저비용·통합 테스트 우위
Micron	TSMC (추정)	SK Hynix 경로 추종

4.3 시장 점유 (2025 → 2026E)

회사	2025	2026E	주요 채택
SK Hynix	~53%	~50%	NVIDIA B200/B300/Rubin · AMD MI355/MI400
Samsung	~32%	~30~33%	AMD MI300/MI355 · Google TPU v7 · NVIDIA 일부 (HBM3E 12-Hi 2025.Q4 인증 통과)
Micron	~15%	~17~20%	NVIDIA B200/B300 · AMD MI355

4.4 CXL 3.0 Memory Tiering

티어	매체	대역	지연	용량/노드
Tier 0 (HBM)	HBM4 12-Hi × 8	16 TB/s	100 ns	288 GB
Tier 1 (DRAM)	DDR5-8800 12ch	845 GB/s	80 ns	6 TB
Tier 2 (CXL)	CXL 3.0 DRAM (Samsung CMM-D, Hynix, Micron)	64~128 GB/s	200~400 ns	16~64 TB
Tier 3 (CXL-SSD)	CMM-H, Solidigm	32 GB/s	5~20 µs	100 TB+

CXL 3.0의 fabric 기능(multi-host coherency, switch chaining)으로 KV cache off-GPU offload(Mooncake, DeepSpeed-Inference)가 production 진입.

5. NVIDIA — GPU · Interconnect · Software

5.1 Blackwell 패밀리

모델	출하	공정	HBM	BW	TDP	FP4 dense (TFLOPS)	FP8	NVLink
B100	2024 Q4 한정	TSMC N4P	HBM3E 192 GB	8.0 TB/s	700 W	14,000	7,000	v5 (1.8 TB/s)
B200	2025 ramp	N4P (dual-die)	HBM3E 192 GB	8.0 TB/s	1,000 W	20,000	10,000	v5
B300 (Blackwell Ultra)	2025 Q4 / 2026 ramp	N4P	HBM3E 12-Hi 288 GB	13.0 TB/s	1,400 W	30,000 / 60,000 sparse	15,000	v5

5.2 시스템 — NVL72 / NVL144 / NVL576

시스템	GPU	CPU	NVLink 도메인	총 HBM	총 BW	FP4 dense	전력
GB200 NVL72	72 × B200	36 × Grace	72-way, NVLink 5 (1.8 TB/s/GPU)	13.8 TB	576 TB/s	1.44 EFLOPS	~120 kW
GB300 NVL72	72 × B300	36 × Grace	동일	20.7 TB	936 TB/s	2.16 EFLOPS	~140 kW
VR200 NVL144 (Vera Rubin, 2026 H2)	144 × Rubin	36 × Vera (Olympus ~88 core Arm v9)	144-way, NVLink 6 (3.6 TB/s/GPU)	~75 TB	~1.7 PB/s	~3.6 EFLOPS	~150 kW
Rubin Ultra NVL576 (2027)	576 × Rubin Ultra (4-die)	144 × Vera	576-way, NVLink 6 + CPO	~365 TB	~4.6 PB/s	15 EFLOPS	~600 kW (8 sub-rack)

5.3 Rubin GPU — 2026 H2 SOTA

항목	Rubin	Rubin Ultra
공정	TSMC N3P (보도)	TSMC N3P, 4-die package
HBM	HBM4 12-Hi × 8, 288 GB	HBM4 12-Hi × 16, 1 TB
Memory BW	13~16 TB/s	~32 TB/s
FP4 dense	50,000 TFLOPS (50 PFLOPS)	100 PFLOPS
NVLink	v6, 3.6 TB/s/GPU	v6 + CPO
NIC	ConnectX-9 (1.6 Tb/s)	CPO + ConnectX-9

5.4 NVLink 6 + CPO + 광 스위치

컴포넌트	사양	출하
NVLink 6	3.6 TB/s/GPU (v5 의 2×), bidirectional	Rubin 세대
Quantum-X Photonics (InfiniBand)	144-port × 800 Gb/s, CPO 통합, 115 Tb/s switching	2026 H2
Spectrum-X Photonics (Ethernet)	128-port × 800 Gb/s, 102 Tb/s	2026
CPO 협력사	TSMC (SoIC), Coherent, Lumentum, Foxconn	—

5.5 추론 소프트웨어 스택

컴포넌트	기능	2026 상태
TensorRT-LLM	컴파일러·런타임	continuous batching, in-flight batching 안정
NVFP4	Blackwell 네이티브 FP4 (E2M1 + per-16 block scale)	B200/B300/Rubin 하드웨어 가속, dense 2× throughput
NVIDIA Dynamo (2025 GTC)	disaggregated prefill/decode, KV cache 라우팅	오픈소스, Mooncake·DistServe 패턴 흡수
Triton Inference Server	멀티모델 서빙	Dynamo 통합
TensorRT Model Optimizer	양자화 (FP4/INT4/W4A4) toolkit	NVFP4 GPTQ-Q, AWQ-Q 지원
EAGLE-3 (외부, 호환)	speculative decoding (multi-token)	TensorRT-LLM 통합

6. 컴파일러 / 런타임 비교

6.1 주요 스택

스택	핵심	강점	약점
vLLM v1	PagedAttention + continuous batching + prefix cache + EAGLE-2/3	오픈소스 표준, 멀티모델, 멀티 LoRA	AOT 대비 jitter
SGLang	RadixAttention + constrained decoding 가속	multi-turn / agent / branched 우위. DeepSeek 공식 stack	일부 모델 커널 미성숙
TensorRT-LLM	NVIDIA 1st-party, in-flight batching, FP4/FP8 커널	NVIDIA 칩에서 최단 latency	모델별 engine build, 운영 부담
CUTLASS 4.x + ThunderKittens	Blackwell tcgen05 + tile primitive	커스텀 커널 100~200 LoC	고급 개발자 필요
MLIR / IREE / TVM Unity	멀티 백엔드	엣지·웹 (WebLLM)	데이터센터 절대 속도 열위
Modular MAX / Mojo 1.0	Python + GPU/CPU 단일 DSL	vLLM 동급 throughput 주장	3rd-party 검증 mixed
JAX / XLA / Pallas (TPU)	AOT SPMD partitioning	TPU v7 Ironwood 최적	NVIDIA 호환성 한계
Groq Compiler	AOT cycle-accurate scheduling	결정적 latency, p99 = p50	모델 변경 시 full recompile

6.2 AOT vs JIT 트레이드오프

축	AOT (Groq, Sohu, TRT-LLM engine)	JIT (vLLM, SGLang)
절대 latency	최소 (jitter 0)	변동, p99 ↑
동적 batch/shape	약함 — bucketing 필수	강함 — continuous batching
모델 swap	비싼 recompile	거의 free
운영 복잡도	높음	낮음
적합 시나리오	latency SLA 엄격, 모델 고정	멀티 모델, 멀티 테넌트

7. 알고리즘 / 아키텍처

7.1 Speculative decoding 진화

Medusa (2024): 다중 head 동시 예측. acceptance ~60%, 1.5~2× speedup
EAGLE-2 (2024): feature-level draft, 동적 tree. Llama 70B 기준 acceptance length ~4.5 tok/step, 3~4× speedup
EAGLE-3 (2025): training-time 데이터 확장 + multi-layer feature fusion. acceptance length 5.6+ tok/step, EAGLE-2 대비 +30% wall-clock. 2026 Q1 vLLM/TRT-LLM 1st-class
Lookahead decoding (2024): draft model 없이 n-gram Jacobi. 1.5~2×, draft 학습 비용 0
REST (2024): retrieval-based draft. 도메인 특화 코퍼스에 강함

7.2 KV cache 압축·공유

기법	효과	대표 모델
PagedAttention (SOSP'23)	fragment 제거, 2~4× throughput	vLLM 표준
MLA (Multi-head Latent Attn)	KV를 저랭크 latent로 압축, MHA 대비 6~13%	DeepSeek V2/V3/R1
GQA	KV ~1/8	Llama 3/4, Mistral
SnapKV	80% 압축에서 품질 손실 ~0	—
H2O	attention score 누적 evict	—
StreamingLLM	attention sink + sliding window → 무한 stream	—
YOCO	레이어 간 KV 공유, ~50% 절감	—

7.3 FlashAttention 계열

FlashAttention-3 (Shah et al., 2024): Hopper WGMMA + TMA + FP8. forward 740 TFLOPS, FP8 ~1.2 PFLOPS
FlashDecoding++: decode 단계(Q=1, KV=N)에서 async softmax + split-K. long-context decode 2~4×
Blackwell FA-3 변형: tcgen05 + TMEM 활용, FP4/FP8 path. 정식 FA-4는 2026 Q2 기준 미공개

7.4 Native Sparse Attention (DeepSeek, 2025) — 2026 분기점

학습 단계부터 hardware-aligned sparse pattern (compress + select + slide). 64K context 기준 dense FA-3 대비 decode 11.6×, forward 9×, backward 6×. DeepSeek V4/R2 기반 추정.

핵심 변곡점: NSA가 dense transformer + FA-3의 long-context 경제성을 깬 첫 사례. 사전학습부터 적용해야 효과가 살아남는다는 점이 lock-in. 1~2년 산업 표준으로 굳어질 가능성.

7.5 MoE 라우팅

모델	총 / 활성	특징
DeepSeek-V3	671B / 37B (5.5%)	fine-grained expert (256, top-8) + shared + aux-loss-free balancing
Llama 4 Behemoth	~2T / 288B	MoE
Llama 4 Maverick / Scout	~400B / 17B (Scout)	MoE
Mixtral 8x22B	141B / 39B	top-2 routing

의미: 활성 파라미터만 메모리 BW 소모 → decode TPS = (활성가중치 + 활성 expert) / BW. 단, expert routing 불균형이 latency tail 키움 → expert parallel + all-to-all 통신 → CPO/NVL576의 가치.

7.6 Disaggregated serving

DistServe (OSDI'24): prefill ↔ decode 노드 분리, 다른 parallelism, KV cache 전송. SLO throughput 4.5×
Splitwise (Microsoft, ISCA'24): prefill H100 / decode A100. 비용 1.4× throughput
Mooncake (Moonshot Kimi, 2024): KVCache-centric. CPU DRAM/SSD에 거대한 KV pool. prefix cache hit rate 극대 → prefill cost 70%↓
Sarathi-Serve (OSDI'24): chunked prefill로 prefill ↔ decode interleave. TBT p99 안정
NVIDIA Dynamo (2025 GTC): 위 3 패턴을 통합 흡수한 NVIDIA 공식 오픈소스

2026 합의: 긴 prompt + 멀티턴 → Mooncake/DistServe, 짧은 prompt 균형 출력 → Sarathi-Serve chunked.

7.7 Quantization

방식	특징	품질 손실
NVFP4 (Blackwell native)	4-bit float, microscaling. dense matmul FP8 2× / FP16 4×	~0.5%p
MXFP4/6/8 (OCP MX 표준)	block scaling 32-element. Blackwell, AMD MI355X 지원	유사
INT4 GPTQ / AWQ	weight-only 4-bit, 메모리 4×	1~2%p
HQQ / QuIP#	2-bit. lattice codebook (QuIP#)	5~10% perplexity
FP8 (E4M3/E5M2)	Hopper 표준	~0

2026 추론 권고: W4A8 (weight NVFP4 / activation FP8) 또는 W4A4 (NVFP4 dense). 70B 모델 단일 B200 (192 GB)에 KV 포함 fit.

7.8 Linear / SSM / Diffusion 대안

Mamba-2 (ICML 2024): SSD(State Space Duality). matmul 친화, hardware 효율 2~8×. long-context 선형 복잡도
Jamba 1.5 (AI21, 2024): Mamba + Transformer + MoE hybrid. 256K context, throughput 동급 transformer 2.5×
RWKV-7 "Goose" (2025): linear attention 변형. 추론 시 KV cache 0, 메모리 상수
Griffin / Hawk (DeepMind, 2024): gated linear recurrence + local attention
Mercury Coder (Inception Labs, 2025): diffusion LLM, 코드 생성 1,000+ tok/s 주장. 토큰 병렬 denoise
LLaDA (Nie et al., 2025): 8B diffusion LLM, AR 동급 품질

8. 2026 SOTA 통합 가설

8.1 BOM — VR200 NVL144 sub-rack (추정)

구성	사양	단가 (추정)
GPU	Rubin × 144	$40,000 × 144 = $5.76M
HBM4 12-Hi × 8 × 144 = 1,152 stack	Hynix 1.6~2.0 TB/s, 36 GB	$400 × 1,152 = $0.46M
CPU	Vera × 36	$5,000 × 36 = $0.18M
NVLink 6 switch + CPO	Quantum-X / Spectrum-X	$0.6M
DRAM (DDR5-8800)	6 TB × 36 = 216 TB	$0.5M
CXL 3.0 (Samsung CMM-D)	64 TB	$0.3M
Chassis / cooling (DLC)	—	$0.4M
합계 (sub-rack)		~$8.2M
NVL576 (4 sub-rack)		~$33M / 시스템

8.2 모델·소프트웨어 가설

모델

DeepSeek V4 (가설, MoE 671B / 활성 37B, NSA) 또는 Llama 5 (MoE)

양자화

NVFP4 (W4A4) — Rubin 네이티브

Speculative

EAGLE-3 (3-token draft, acceptance 5.6+ tok/step)

Attention

Native Sparse Attention — long-context 1M tok

Serving

NVIDIA Dynamo (disaggregated prefill/decode)

KV tier

HBM4 → DDR5 → CXL 3.0 (Samsung CMM-D)

Batching

Continuous + chunked prefill

8.3 단일 사용자 TPS / TTFT 추정

시나리오	모델	시스템	TPS	TTFT (4K)	동시 user p99<100ms
현 SOTA (2025)	Llama 3.3 70B FP8	GB200 NVL72	~250 tok/s	~120 ms	~80
2026 가설 (Rubin+NVFP4+EAGLE-3)	Llama 3.3 70B NVFP4	VR200 NVL144	~600~900 tok/s	~50 ms	~250
2026 MoE 가설	DeepSeek V4 671B/37B NVFP4 + NSA + EAGLE-3	NVL144	~400~600 tok/s	~80 ms (NSA long-ctx 우위)	~150
Groq (2025)	Llama 3.3 70B FP8	Groq LPU mesh	~1,250 tok/s	~30 ms	~50 (mesh SRAM 한계)
Cerebras (2025)	Llama 3.3 70B FP16	WSE-3 × 1	~2,200 tok/s	~20 ms	~30

8.4 전력 효율

시스템	전력	tok/s/W (Llama 70B 단일 user)
GB200 NVL72 (FP8)	120 kW	~0.15
VR200 NVL144 (NVFP4+EAGLE-3)	150 kW	~0.58 — 약 4× 효율
Groq LPU mesh (70B)	~50 kW	~0.005/user (전체 throughput 우위)
Cerebras WSE-3	23 kW	~0.02

8.5 병목 다이어그램 (2026 풀스택)

[ASML EXE:5200] → [TSMC N3P / Samsung SF2]
        ↓
  [Rubin GPU die]
        ↕ HBM4 16 TB/s (SK Hynix 12-Hi × 8)
  [Vera CPU] ←→ [DDR5-8800 6 TB]
        ↕ CXL 3.0 (64 TB Samsung CMM-D)
        ↕
  NVLink 6 (3.6 TB/s/GPU) → 144 GPU coherent
        ↕
  Quantum-X CPO (115 Tb/s) → 멀티-rack
        ↑
  [Dynamo serving] — disaggregated prefill/decode
        ↑
  [DeepSeek V4 / NSA / NVFP4 / EAGLE-3]

병목 우선순위 (2026 추정)

KV cache 대역 — HBM4 가 일부 완화, NSA·MoE 가 알고리즘 측 해결
Inter-node collective — NVLink 6 + CPO 가 한 세대 완화
Autoregressive 직렬성 — EAGLE-3 / diffusion LLM 시도 중, 여전히 미해결
전력 — DLC + CPO 로 랙당 150~600 kW 수용, 데이터센터 전력 자체가 신규 제약

9. 실전 의사결정 체크리스트

모델 고정인가? Yes → ASIC / Cerebras / Groq 검토. No → NVIDIA Blackwell + vLLM/SGLang
SLA가 p99 TBT < 50ms 인가? Yes → AOT + 결정적 dataflow (Groq) 또는 chunked prefill (Sarathi-Serve) 필수
Context 길이 평균 32K 이상? Yes → MLA / NSA / Mamba hybrid 모델 + KV pool (Mooncake)
멀티 테넌트 LoRA swap? Yes → vLLM/SGLang + RadixAttention. AOT 회피
단일 user latency vs throughput-per-dollar? Latency → wafer-scale/LPU. Throughput → Blackwell + NVFP4 + EAGLE-3 + Mooncake
MoE 모델 운영? → all-to-all 통신 BW 가 병목 → NVLink/CPO 필수, expert parallel + DP 혼합
2026 하반기 capex 결정 중? → Rubin / HBM4 / CPO 로 한 세대 기다리는 것이 합리적. H100 대량 구매는 회피

이 7개 질문의 답이 풀스택 구성을 결정한다. 단일 항목 최적화(GPU만 최신, 컴파일러는 기본)는 2026 시점에서 최적해의 절반도 못 낸다는 것이 핵심 변화.

최종 통찰 — 머스크 식 한 문장

"가장 빠른 LLM" 의 진짜 답은 칩이 아니라 가정의 삭제다. HBM을 의심하면 Groq, KV를 의심하면 Mamba, autoregressive 를 의심하면 Diffusion이 답이 된다. ASML EXE:5200·Samsung SF2·Hynix HBM4·NVIDIA Rubin 은 그 의심을 경제적으로 가능하게 만드는 도구일 뿐 — 2026 SOTA는 4사 기술의 합이 아니라, "왜?"를 7번 묻고 남은 것에 4사 기술을 정확히 한 번 더하는 것.