First-Principles AI Infrastructure · 2026-05-24

LLM을 가장 빠르게 — 칩 × 컴파일러 × 아키텍처 풀스택

ASML EXE:5200 High-NA EUV · Samsung SF2 GAA · SK Hynix HBM4 12-Hi · NVIDIA Rubin (Vera Rubin / NVL576) · Native Sparse Attention · EAGLE-3 speculative decoding · NVFP4 양자화 · Dynamo disaggregated serving — 4개 회사의 기술을 일론 머스크의 제1원칙 5단계로 재배열한 2026 SOTA.

0. TL;DR

  1. 병목은 더 이상 칩 하나가 아니다. 2026 LLM 속도는 실리콘 × 메모리 × 인터커넥트 × 컴파일러 × 알고리즘 5개 축의 동시 co-design 으로 결정된다.
  2. 물리적 천장: Llama 70B FP8 (70GB) / 8 TB/s HBM3e ≈ 113 tok/s 이론치. HBM4 16 TB/s 면 226 tok/s. 이 천장을 넘으려면 SRAM 상주(Groq/Cerebras) 또는 speculative decoding(EAGLE-3) 뿐.
  3. 현 SOTA 단일 user TPS: Cerebras CS-3 oss-gpt-120B ~3,000 tok/s · Llama 3.3 70B ~2,200 · Groq LPU 70B ~1,250 · NVIDIA B200+TRT-LLM+NVFP4+EAGLE-3 70B ~250~400.
  4. 2026 SOTA 통합: ASML EXE:5200 → TSMC N3P/Samsung SF2 → Rubin GPU + Hynix HBM4 16 TB/s + NVLink 6 + CPO → DeepSeek V4 (NSA) + NVFP4 + EAGLE-3 + Dynamo. NVL144 sub-rack BOM 약 $8.2M, NVL576 $33M.
  5. 제1원칙 정수: "왜 autoregressive·HBM·transformer 가 필요한가?" 를 의심하는 것이 가장 큰 속도 향상의 원천. Groq(HBM 삭제), Mamba(KV 삭제), Diffusion LLM(autoregressive 삭제)이 각각 한 축을 깬다.

1. 제1원칙 사고법 — Musk 5-Step 매핑

1.1 5단계 알고리즘

  1. Make requirements less dumb — "왜 그래야 하는가?"의 근원적 의심
  2. Delete the part / process — 가능한 모든 것을 제거
  3. Simplify / Optimize — 남은 것을 단순화
  4. Accelerate cycle time — 속도를 가속
  5. Automate — 자동화

머스크 본인이 강조한 순서. "Automate" 부터 시작하면 잘못 정의된 요구사항에 자동화를 더하게 된다.

1.2 LLM 추론 풀스택에 매핑

단계의심 / 행동현실 검증 / 사례
1. Less dumb 왜 autoregressive? 왜 transformer? 왜 HBM? 왜 GPU? Diffusion LLM, Mamba/SSM, Groq SRAM-only, ASIC inference 가 각각 한 가정을 부숨
2. Delete HBM 삭제 / Off-die DRAM 삭제 / KV cache 삭제 / Autoregressive 삭제 / Dense activation 삭제 Groq (HBM 0) · Cerebras (DRAM 0) · RWKV-7 (KV 0) · Mercury Coder (AR 0) · MoE (top-8/256)
3. Simplify FP4 양자화 / Native Sparse Attention / FlashAttention-3 / AOT compile / Paged KV NVFP4 matmul 2× · DeepSeek NSA 5~10× long-ctx · TRT-LLM AOT · vLLM/SGLang
4. Accelerate Speculative decoding / Parallel decoding / MoE sparse / Speculative prefill EAGLE-3 acceptance 5.6 tok · Medusa · Lookahead · Mooncake
5. Automate Continuous batching / Disaggregated serving / Expert routing / KV tiering vLLM v1 · NVIDIA Dynamo · CXL 3.0 + Samsung CMM-D

핵심 통찰: "가장 빠른 LLM" 의 80% 게인은 step 1·2에서 나온다. step 5의 자동화는 step 1·2로 정의된 시스템을 운영 가능하게 만들 뿐.

1.3 4-사 1:1 기여 매트릭스

StepASMLSamsung FoundrySK Hynix / Samsung MemoryNVIDIA
1. Requirements High-NA 8nm pitch → ASIC 다양화 허용 SF2/SF4X → Tesla AI5·Groq·IBM ASIC HBM 의 절대 필요성 재검토 (Groq 반례) 자사 GPU 외 ASIC 경쟁 인정 (DGX Cloud)
2. Delete SF4X 가 Groq HBM 제거 가능케 함 HBM 자체 부담 ↓, CXL 로 HBM 부하 분산 KV paged · MoE 활성치만 path · NVFP4 dense
3. Simplify EUV 트랜지스터 단순화 (FinFET→GAA) GAA 누설 ↓ → FP4 회로 면적 절감 HBM4 logic base die 에 컨트롤러 집적 TensorRT-LLM · NVFP4 microscaling
4. Cycle time wph 220 → 칩 생산 cycle SF2 yield ramp → Rubin 양산 시점 결정 HBM4 16-Hi → MoE expert 전체 적재 NVLink 6 / CPO → collective op 지연 1/2
5. Automate EUV fleet management SW 스마트 팹 (digital twin) HBM4 base die self-test·repair Dynamo · K8s · KServe

2. ASML — 노광장비

2.1 Low-NA EUV (NXE:3800E)

NA
0.33
Throughput
220 wph @ 30 mJ/cm²
Source power
600 W (CO₂ → Sn droplet, 13.5 nm)
Overlay
< 1.1 nm (matched)
Resolution
13 nm half-pitch (single)
가격
$235~250M / 대
주요 고객
TSMC N3/N2 · Samsung SF3 · Intel 18A · SK Hynix 1c DRAM

2.2 High-NA EUV (EXE:5000 / EXE:5200)

항목EXE:5000 (도입)EXE:5200 (2026 양산)
NA0.550.55
Anamorphic demag4× / 8× (수직 8×)동일
Exposure field26 × 16.5 mm (half field)동일 — stitching 필수
Resolution8 nm half-pitch8 nm (LCDU 개선)
Throughput165~185 wph220 wph 목표
Source power600 → 800 W 옵션800 W
Mask blankRu capping, 6025 quartz+ 흡수체 신소재 (TaBN→Ru/Co)
PellicleCNT, 90% transmission동일, 800 W 견딤
부품 수 / 무게~100만개 / 150t동일
가격$370~380M$380~400M
누적 출하 (2025말)Intel(1) · 삼성(1) · TSMC(1) · SK Hynix(1) · imec(1) = 5대

2.3 High-NA 첫 양산 적용 로드맵

노드회사HVMHigh-NA
Intel 18AIntel2025 Q4 ramp미사용 (Low-NA)
Intel 14AIntel2026 H2 risk → 2027 HVM첫 HVM High-NA
TSMC N2TSMC2026 H2 HVM미사용 (N2P/A16도 Low-NA)
TSMC A14TSMC2028 HVMHigh-NA 도입
Samsung SF2Samsung2026 H2 HVM일부 critical layer 평가
Samsung SF1.4Samsung2027 riskHigh-NA 본격

핵심: Rubin GPU(2026 H2)는 Low-NA EUV로 만든 TSMC N3P 기반. High-NA가 NVIDIA Rubin Ultra(2027)·Tesla AI5(Samsung SF2)에 도달하는 것은 2027~2028.

2.4 EUV 공급망 의존 — 한국·일본

부품공급사국가비중
Mask blankHoya · AGC일본>95%
PhotoresistJSR · TOK · Shin-Etsu · Sumitomo일본>90%
Pellicle (CNT)미쯔이 · 삼성(개발)일본·한국일본 우위
Photomask 생산DNP · Toppan · Photronics일본·미국일본 ~70%
Reticle stage parts에스앤에스텍 · 에프에스티한국일부

3. Samsung Foundry — 4 / 3 / 2 nm

3.1 노드 PPA 로드맵

노드풀네임양산Transistorvs 직전주 고객
SF44LPP2022FinFETbaseQualcomm, Google Tensor
SF4X4HPC2024 H2FinFET HPC tuned+10% perf @ iso-powerGroq LPU 3 (보도), AMD MI 일부
SF33GAP2024 Q4MBCFET 2세대+22% perf / -34% power / -21% areaExynos 2500
SF22GAP2026 H2 HVMMBCFET 3세대, BSPDN 옵션+12% perf / -25% power / -8% areaTesla AI5, IBM Telum III, PFN
SF2P2GAP+2027+BSPDN 표준+8% perf, -10% power
SF1.41.4GAP2027 risk → 2028 HVMMBCFET 4세대 + High-NA+15% perf / -20% power

3.2 SF2 vs TSMC N2 비교

항목Samsung SF2TSMC N2
TransistorMBCFET (GAA 3세대)Nanosheet GAA (1세대)
BSPDN옵션 (SF2P 표준)N2P 부터 표준
Logic density~230 MTr/mm²~250 MTr/mm² (추정)
SRAM scaling+5% vs SF3+5% vs N3 (정체)
HVM2026 H22026 H2
Yield (2026 Q1 모바일)~40% (보도)~60% (추정)
주요 AI 고객Tesla AI5, PFNNVIDIA Rubin, AMD MI400, Google TPU v7, Broadcom

3.3 Taylor TX (S5) Fab

총 투자
$450억 (1+2 라인 확장 후)
Phase 1
SF4 / SF2 mixed, 2026 H2 가동 (보도, 지연)
Phase 2
SF2 / SF1.4, 2028 가동
Capacity
60k WSPM (Phase 1)
확정 고객
Tesla AI5 (SF2) · IBM Telum III · AMD 일부 · Groq LPU 3 (SF4X — 화성 가능성)
CHIPS Act 보조금
$64억

4. HBM — SK Hynix · Samsung Memory

4.1 세대별 사양

세대출시I/OPin speedBW/stackStackCapacity공정
HBM320221024-bit6.4 Gbps819 GB/s8/12-Hi16/24 GB1α/1β
HBM3E 8-Hi2024 H110249.2 Gbps1.18 TB/s8-Hi24 GB
HBM3E 12-Hi2024 H2 (Hynix), 2025 (Samsung·Micron)10249.6~10 Gbps1.22~1.28 TB/s12-Hi36 GB1β/1γ
HBM3E 16-Hi (Hynix 시제품)2025102410 Gbps1.28 TB/s16-Hi48 GB
HBM4 12-Hi2026 H1 양산2048-bit8.0 Gbps2.0 TB/s12-Hi36 GB1γ + logic base die
HBM4 16-Hi2026 H220488.0 Gbps2.0 TB/s16-Hi48~64 GB1γ + base die
HBM4E2027+204810~12 Gbps2.5~3.0 TB/s16-Hi64+ GB1δ + N3/N5 base die

JEDEC HBM4 표준 (JESD238) 2025.04 확정. 인터페이스 1024 → 2048-bit 두 배 확장, 채널 32 → 64. Pin speed는 오히려 낮아짐(8 Gbps) — 폭으로 대역폭 확보, 전력·열 부담 완화.

4.2 HBM4 Logic Base Die — 패러다임 전환

HBM3까지 base die는 단순 buffer (memory fab 공정). HBM4부터는 controller·테스트 로직·전력 관리·일부 NIC/compute 기능을 logic 공정에 집적.

메모리 메이커Base die 공정 파트너전략
SK HynixTSMC N5/N3 (2024 발표, 2025.04 N3 진척)SK Hynix–TSMC–NVIDIA 수직 결합
Samsung자체 (Samsung Foundry SF4)메모리+파운드리 통합, 저비용·통합 테스트 우위
MicronTSMC (추정)SK Hynix 경로 추종

4.3 시장 점유 (2025 → 2026E)

회사20252026E주요 채택
SK Hynix~53%~50%NVIDIA B200/B300/Rubin · AMD MI355/MI400
Samsung~32%~30~33%AMD MI300/MI355 · Google TPU v7 · NVIDIA 일부 (HBM3E 12-Hi 2025.Q4 인증 통과)
Micron~15%~17~20%NVIDIA B200/B300 · AMD MI355

4.4 CXL 3.0 Memory Tiering

티어매체대역지연용량/노드
Tier 0 (HBM)HBM4 12-Hi × 816 TB/s100 ns288 GB
Tier 1 (DRAM)DDR5-8800 12ch845 GB/s80 ns6 TB
Tier 2 (CXL)CXL 3.0 DRAM (Samsung CMM-D, Hynix, Micron)64~128 GB/s200~400 ns16~64 TB
Tier 3 (CXL-SSD)CMM-H, Solidigm32 GB/s5~20 µs100 TB+

CXL 3.0의 fabric 기능(multi-host coherency, switch chaining)으로 KV cache off-GPU offload(Mooncake, DeepSpeed-Inference)가 production 진입.

5. NVIDIA — GPU · Interconnect · Software

5.1 Blackwell 패밀리

모델출하공정HBMBWTDPFP4 dense (TFLOPS)FP8NVLink
B1002024 Q4 한정TSMC N4PHBM3E 192 GB8.0 TB/s700 W14,0007,000v5 (1.8 TB/s)
B2002025 rampN4P (dual-die)HBM3E 192 GB8.0 TB/s1,000 W20,00010,000v5
B300 (Blackwell Ultra)2025 Q4 / 2026 rampN4PHBM3E 12-Hi 288 GB13.0 TB/s1,400 W30,000 / 60,000 sparse15,000v5

5.2 시스템 — NVL72 / NVL144 / NVL576

시스템GPUCPUNVLink 도메인총 HBM총 BWFP4 dense전력
GB200 NVL7272 × B20036 × Grace72-way, NVLink 5 (1.8 TB/s/GPU)13.8 TB576 TB/s1.44 EFLOPS~120 kW
GB300 NVL7272 × B30036 × Grace동일20.7 TB936 TB/s2.16 EFLOPS~140 kW
VR200 NVL144 (Vera Rubin, 2026 H2)144 × Rubin36 × Vera (Olympus ~88 core Arm v9)144-way, NVLink 6 (3.6 TB/s/GPU)~75 TB~1.7 PB/s~3.6 EFLOPS~150 kW
Rubin Ultra NVL576 (2027)576 × Rubin Ultra (4-die)144 × Vera576-way, NVLink 6 + CPO~365 TB~4.6 PB/s15 EFLOPS~600 kW (8 sub-rack)

5.3 Rubin GPU — 2026 H2 SOTA

항목RubinRubin Ultra
공정TSMC N3P (보도)TSMC N3P, 4-die package
HBMHBM4 12-Hi × 8, 288 GBHBM4 12-Hi × 16, 1 TB
Memory BW13~16 TB/s~32 TB/s
FP4 dense50,000 TFLOPS (50 PFLOPS)100 PFLOPS
NVLinkv6, 3.6 TB/s/GPUv6 + CPO
NICConnectX-9 (1.6 Tb/s)CPO + ConnectX-9

5.4 NVLink 6 + CPO + 광 스위치

컴포넌트사양출하
NVLink 63.6 TB/s/GPU (v5 의 2×), bidirectionalRubin 세대
Quantum-X Photonics (InfiniBand)144-port × 800 Gb/s, CPO 통합, 115 Tb/s switching2026 H2
Spectrum-X Photonics (Ethernet)128-port × 800 Gb/s, 102 Tb/s2026
CPO 협력사TSMC (SoIC), Coherent, Lumentum, Foxconn

5.5 추론 소프트웨어 스택

컴포넌트기능2026 상태
TensorRT-LLM컴파일러·런타임continuous batching, in-flight batching 안정
NVFP4Blackwell 네이티브 FP4 (E2M1 + per-16 block scale)B200/B300/Rubin 하드웨어 가속, dense 2× throughput
NVIDIA Dynamo (2025 GTC)disaggregated prefill/decode, KV cache 라우팅오픈소스, Mooncake·DistServe 패턴 흡수
Triton Inference Server멀티모델 서빙Dynamo 통합
TensorRT Model Optimizer양자화 (FP4/INT4/W4A4) toolkitNVFP4 GPTQ-Q, AWQ-Q 지원
EAGLE-3 (외부, 호환)speculative decoding (multi-token)TensorRT-LLM 통합

6. 컴파일러 / 런타임 비교

6.1 주요 스택

스택핵심강점약점
vLLM v1PagedAttention + continuous batching + prefix cache + EAGLE-2/3오픈소스 표준, 멀티모델, 멀티 LoRAAOT 대비 jitter
SGLangRadixAttention + constrained decoding 가속multi-turn / agent / branched 우위. DeepSeek 공식 stack일부 모델 커널 미성숙
TensorRT-LLMNVIDIA 1st-party, in-flight batching, FP4/FP8 커널NVIDIA 칩에서 최단 latency모델별 engine build, 운영 부담
CUTLASS 4.x + ThunderKittensBlackwell tcgen05 + tile primitive커스텀 커널 100~200 LoC고급 개발자 필요
MLIR / IREE / TVM Unity멀티 백엔드엣지·웹 (WebLLM)데이터센터 절대 속도 열위
Modular MAX / Mojo 1.0Python + GPU/CPU 단일 DSLvLLM 동급 throughput 주장3rd-party 검증 mixed
JAX / XLA / Pallas (TPU)AOT SPMD partitioningTPU v7 Ironwood 최적NVIDIA 호환성 한계
Groq CompilerAOT cycle-accurate scheduling결정적 latency, p99 = p50모델 변경 시 full recompile

6.2 AOT vs JIT 트레이드오프

AOT (Groq, Sohu, TRT-LLM engine)JIT (vLLM, SGLang)
절대 latency최소 (jitter 0)변동, p99 ↑
동적 batch/shape약함 — bucketing 필수강함 — continuous batching
모델 swap비싼 recompile거의 free
운영 복잡도높음낮음
적합 시나리오latency SLA 엄격, 모델 고정멀티 모델, 멀티 테넌트

7. 알고리즘 / 아키텍처

7.1 Speculative decoding 진화

  • Medusa (2024): 다중 head 동시 예측. acceptance ~60%, 1.5~2× speedup
  • EAGLE-2 (2024): feature-level draft, 동적 tree. Llama 70B 기준 acceptance length ~4.5 tok/step, 3~4× speedup
  • EAGLE-3 (2025): training-time 데이터 확장 + multi-layer feature fusion. acceptance length 5.6+ tok/step, EAGLE-2 대비 +30% wall-clock. 2026 Q1 vLLM/TRT-LLM 1st-class
  • Lookahead decoding (2024): draft model 없이 n-gram Jacobi. 1.5~2×, draft 학습 비용 0
  • REST (2024): retrieval-based draft. 도메인 특화 코퍼스에 강함

7.2 KV cache 압축·공유

기법효과대표 모델
PagedAttention (SOSP'23)fragment 제거, 2~4× throughputvLLM 표준
MLA (Multi-head Latent Attn)KV를 저랭크 latent로 압축, MHA 대비 6~13%DeepSeek V2/V3/R1
GQAKV ~1/8Llama 3/4, Mistral
SnapKV80% 압축에서 품질 손실 ~0
H2Oattention score 누적 evict
StreamingLLMattention sink + sliding window → 무한 stream
YOCO레이어 간 KV 공유, ~50% 절감

7.3 FlashAttention 계열

  • FlashAttention-3 (Shah et al., 2024): Hopper WGMMA + TMA + FP8. forward 740 TFLOPS, FP8 ~1.2 PFLOPS
  • FlashDecoding++: decode 단계(Q=1, KV=N)에서 async softmax + split-K. long-context decode 2~4×
  • Blackwell FA-3 변형: tcgen05 + TMEM 활용, FP4/FP8 path. 정식 FA-4는 2026 Q2 기준 미공개

7.4 Native Sparse Attention (DeepSeek, 2025) — 2026 분기점

학습 단계부터 hardware-aligned sparse pattern (compress + select + slide). 64K context 기준 dense FA-3 대비 decode 11.6×, forward 9×, backward 6×. DeepSeek V4/R2 기반 추정.

핵심 변곡점: NSA가 dense transformer + FA-3의 long-context 경제성을 깬 첫 사례. 사전학습부터 적용해야 효과가 살아남는다는 점이 lock-in. 1~2년 산업 표준으로 굳어질 가능성.

7.5 MoE 라우팅

모델총 / 활성특징
DeepSeek-V3671B / 37B (5.5%)fine-grained expert (256, top-8) + shared + aux-loss-free balancing
Llama 4 Behemoth~2T / 288BMoE
Llama 4 Maverick / Scout~400B / 17B (Scout)MoE
Mixtral 8x22B141B / 39Btop-2 routing

의미: 활성 파라미터만 메모리 BW 소모 → decode TPS = (활성가중치 + 활성 expert) / BW. 단, expert routing 불균형이 latency tail 키움 → expert parallel + all-to-all 통신 → CPO/NVL576의 가치.

7.6 Disaggregated serving

  • DistServe (OSDI'24): prefill ↔ decode 노드 분리, 다른 parallelism, KV cache 전송. SLO throughput 4.5×
  • Splitwise (Microsoft, ISCA'24): prefill H100 / decode A100. 비용 1.4× throughput
  • Mooncake (Moonshot Kimi, 2024): KVCache-centric. CPU DRAM/SSD에 거대한 KV pool. prefix cache hit rate 극대 → prefill cost 70%↓
  • Sarathi-Serve (OSDI'24): chunked prefill로 prefill ↔ decode interleave. TBT p99 안정
  • NVIDIA Dynamo (2025 GTC): 위 3 패턴을 통합 흡수한 NVIDIA 공식 오픈소스

2026 합의: 긴 prompt + 멀티턴 → Mooncake/DistServe, 짧은 prompt 균형 출력 → Sarathi-Serve chunked.

7.7 Quantization

방식특징품질 손실
NVFP4 (Blackwell native)4-bit float, microscaling. dense matmul FP8 2× / FP16 4×~0.5%p
MXFP4/6/8 (OCP MX 표준)block scaling 32-element. Blackwell, AMD MI355X 지원유사
INT4 GPTQ / AWQweight-only 4-bit, 메모리 4×1~2%p
HQQ / QuIP#2-bit. lattice codebook (QuIP#)5~10% perplexity
FP8 (E4M3/E5M2)Hopper 표준~0

2026 추론 권고: W4A8 (weight NVFP4 / activation FP8) 또는 W4A4 (NVFP4 dense). 70B 모델 단일 B200 (192 GB)에 KV 포함 fit.

7.8 Linear / SSM / Diffusion 대안

  • Mamba-2 (ICML 2024): SSD(State Space Duality). matmul 친화, hardware 효율 2~8×. long-context 선형 복잡도
  • Jamba 1.5 (AI21, 2024): Mamba + Transformer + MoE hybrid. 256K context, throughput 동급 transformer 2.5×
  • RWKV-7 "Goose" (2025): linear attention 변형. 추론 시 KV cache 0, 메모리 상수
  • Griffin / Hawk (DeepMind, 2024): gated linear recurrence + local attention
  • Mercury Coder (Inception Labs, 2025): diffusion LLM, 코드 생성 1,000+ tok/s 주장. 토큰 병렬 denoise
  • LLaDA (Nie et al., 2025): 8B diffusion LLM, AR 동급 품질

8. 2026 SOTA 통합 가설

8.1 BOM — VR200 NVL144 sub-rack (추정)

구성사양단가 (추정)
GPURubin × 144$40,000 × 144 = $5.76M
HBM4 12-Hi × 8 × 144 = 1,152 stackHynix 1.6~2.0 TB/s, 36 GB$400 × 1,152 = $0.46M
CPUVera × 36$5,000 × 36 = $0.18M
NVLink 6 switch + CPOQuantum-X / Spectrum-X$0.6M
DRAM (DDR5-8800)6 TB × 36 = 216 TB$0.5M
CXL 3.0 (Samsung CMM-D)64 TB$0.3M
Chassis / cooling (DLC)$0.4M
합계 (sub-rack)~$8.2M
NVL576 (4 sub-rack)~$33M / 시스템

8.2 모델·소프트웨어 가설

모델
DeepSeek V4 (가설, MoE 671B / 활성 37B, NSA) 또는 Llama 5 (MoE)
양자화
NVFP4 (W4A4) — Rubin 네이티브
Speculative
EAGLE-3 (3-token draft, acceptance 5.6+ tok/step)
Attention
Native Sparse Attention — long-context 1M tok
Serving
NVIDIA Dynamo (disaggregated prefill/decode)
KV tier
HBM4 → DDR5 → CXL 3.0 (Samsung CMM-D)
Batching
Continuous + chunked prefill

8.3 단일 사용자 TPS / TTFT 추정

시나리오모델시스템TPSTTFT (4K)동시 user p99<100ms
현 SOTA (2025)Llama 3.3 70B FP8GB200 NVL72~250 tok/s~120 ms~80
2026 가설 (Rubin+NVFP4+EAGLE-3)Llama 3.3 70B NVFP4VR200 NVL144~600~900 tok/s~50 ms~250
2026 MoE 가설DeepSeek V4 671B/37B NVFP4 + NSA + EAGLE-3NVL144~400~600 tok/s~80 ms (NSA long-ctx 우위)~150
Groq (2025)Llama 3.3 70B FP8Groq LPU mesh~1,250 tok/s~30 ms~50 (mesh SRAM 한계)
Cerebras (2025)Llama 3.3 70B FP16WSE-3 × 1~2,200 tok/s~20 ms~30

8.4 전력 효율

시스템전력tok/s/W (Llama 70B 단일 user)
GB200 NVL72 (FP8)120 kW~0.15
VR200 NVL144 (NVFP4+EAGLE-3)150 kW~0.58 — 약 4× 효율
Groq LPU mesh (70B)~50 kW~0.005/user (전체 throughput 우위)
Cerebras WSE-323 kW~0.02

8.5 병목 다이어그램 (2026 풀스택)

[ASML EXE:5200] → [TSMC N3P / Samsung SF2]
        ↓
  [Rubin GPU die]
        ↕ HBM4 16 TB/s (SK Hynix 12-Hi × 8)
  [Vera CPU] ←→ [DDR5-8800 6 TB]
        ↕ CXL 3.0 (64 TB Samsung CMM-D)
        ↕
  NVLink 6 (3.6 TB/s/GPU) → 144 GPU coherent
        ↕
  Quantum-X CPO (115 Tb/s) → 멀티-rack
        ↑
  [Dynamo serving] — disaggregated prefill/decode
        ↑
  [DeepSeek V4 / NSA / NVFP4 / EAGLE-3]
        

병목 우선순위 (2026 추정)

  1. KV cache 대역 — HBM4 가 일부 완화, NSA·MoE 가 알고리즘 측 해결
  2. Inter-node collective — NVLink 6 + CPO 가 한 세대 완화
  3. Autoregressive 직렬성 — EAGLE-3 / diffusion LLM 시도 중, 여전히 미해결
  4. 전력 — DLC + CPO 로 랙당 150~600 kW 수용, 데이터센터 전력 자체가 신규 제약

9. 실전 의사결정 체크리스트

  1. 모델 고정인가? Yes → ASIC / Cerebras / Groq 검토. No → NVIDIA Blackwell + vLLM/SGLang
  2. SLA가 p99 TBT < 50ms 인가? Yes → AOT + 결정적 dataflow (Groq) 또는 chunked prefill (Sarathi-Serve) 필수
  3. Context 길이 평균 32K 이상? Yes → MLA / NSA / Mamba hybrid 모델 + KV pool (Mooncake)
  4. 멀티 테넌트 LoRA swap? Yes → vLLM/SGLang + RadixAttention. AOT 회피
  5. 단일 user latency vs throughput-per-dollar? Latency → wafer-scale/LPU. Throughput → Blackwell + NVFP4 + EAGLE-3 + Mooncake
  6. MoE 모델 운영? → all-to-all 통신 BW 가 병목 → NVLink/CPO 필수, expert parallel + DP 혼합
  7. 2026 하반기 capex 결정 중? → Rubin / HBM4 / CPO 로 한 세대 기다리는 것이 합리적. H100 대량 구매는 회피

이 7개 질문의 답이 풀스택 구성을 결정한다. 단일 항목 최적화(GPU만 최신, 컴파일러는 기본)는 2026 시점에서 최적해의 절반도 못 낸다는 것이 핵심 변화.

최종 통찰 — 머스크 식 한 문장

"가장 빠른 LLM" 의 진짜 답은 칩이 아니라 가정의 삭제다. HBM을 의심하면 Groq, KV를 의심하면 Mamba, autoregressive 를 의심하면 Diffusion이 답이 된다. ASML EXE:5200·Samsung SF2·Hynix HBM4·NVIDIA Rubin 은 그 의심을 경제적으로 가능하게 만드는 도구일 뿐 — 2026 SOTA는 4사 기술의 합이 아니라, "왜?"를 7번 묻고 남은 것에 4사 기술을 정확히 한 번 더하는 것.