1.1 5단계 알고리즘
- Make requirements less dumb — "왜 그래야 하는가?"의 근원적 의심
- Delete the part / process — 가능한 모든 것을 제거
- Simplify / Optimize — 남은 것을 단순화
- Accelerate cycle time — 속도를 가속
- Automate — 자동화
머스크 본인이 강조한 순서. "Automate" 부터 시작하면 잘못 정의된 요구사항에 자동화를 더하게 된다.
First-Principles AI Infrastructure · 2026-05-24
ASML EXE:5200 High-NA EUV · Samsung SF2 GAA · SK Hynix HBM4 12-Hi · NVIDIA Rubin (Vera Rubin / NVL576) · Native Sparse Attention · EAGLE-3 speculative decoding · NVFP4 양자화 · Dynamo disaggregated serving — 4개 회사의 기술을 일론 머스크의 제1원칙 5단계로 재배열한 2026 SOTA.
머스크 본인이 강조한 순서. "Automate" 부터 시작하면 잘못 정의된 요구사항에 자동화를 더하게 된다.
| 단계 | 의심 / 행동 | 현실 검증 / 사례 |
|---|---|---|
| 1. Less dumb | 왜 autoregressive? 왜 transformer? 왜 HBM? 왜 GPU? | Diffusion LLM, Mamba/SSM, Groq SRAM-only, ASIC inference 가 각각 한 가정을 부숨 |
| 2. Delete | HBM 삭제 / Off-die DRAM 삭제 / KV cache 삭제 / Autoregressive 삭제 / Dense activation 삭제 | Groq (HBM 0) · Cerebras (DRAM 0) · RWKV-7 (KV 0) · Mercury Coder (AR 0) · MoE (top-8/256) |
| 3. Simplify | FP4 양자화 / Native Sparse Attention / FlashAttention-3 / AOT compile / Paged KV | NVFP4 matmul 2× · DeepSeek NSA 5~10× long-ctx · TRT-LLM AOT · vLLM/SGLang |
| 4. Accelerate | Speculative decoding / Parallel decoding / MoE sparse / Speculative prefill | EAGLE-3 acceptance 5.6 tok · Medusa · Lookahead · Mooncake |
| 5. Automate | Continuous batching / Disaggregated serving / Expert routing / KV tiering | vLLM v1 · NVIDIA Dynamo · CXL 3.0 + Samsung CMM-D |
핵심 통찰: "가장 빠른 LLM" 의 80% 게인은 step 1·2에서 나온다. step 5의 자동화는 step 1·2로 정의된 시스템을 운영 가능하게 만들 뿐.
| Step | ASML | Samsung Foundry | SK Hynix / Samsung Memory | NVIDIA |
|---|---|---|---|---|
| 1. Requirements | High-NA 8nm pitch → ASIC 다양화 허용 | SF2/SF4X → Tesla AI5·Groq·IBM ASIC | HBM 의 절대 필요성 재검토 (Groq 반례) | 자사 GPU 외 ASIC 경쟁 인정 (DGX Cloud) |
| 2. Delete | — | SF4X 가 Groq HBM 제거 가능케 함 | HBM 자체 부담 ↓, CXL 로 HBM 부하 분산 | KV paged · MoE 활성치만 path · NVFP4 dense |
| 3. Simplify | EUV 트랜지스터 단순화 (FinFET→GAA) | GAA 누설 ↓ → FP4 회로 면적 절감 | HBM4 logic base die 에 컨트롤러 집적 | TensorRT-LLM · NVFP4 microscaling |
| 4. Cycle time | wph 220 → 칩 생산 cycle | SF2 yield ramp → Rubin 양산 시점 결정 | HBM4 16-Hi → MoE expert 전체 적재 | NVLink 6 / CPO → collective op 지연 1/2 |
| 5. Automate | EUV fleet management SW | 스마트 팹 (digital twin) | HBM4 base die self-test·repair | Dynamo · K8s · KServe |
| 항목 | EXE:5000 (도입) | EXE:5200 (2026 양산) |
|---|---|---|
| NA | 0.55 | 0.55 |
| Anamorphic demag | 4× / 8× (수직 8×) | 동일 |
| Exposure field | 26 × 16.5 mm (half field) | 동일 — stitching 필수 |
| Resolution | 8 nm half-pitch | 8 nm (LCDU 개선) |
| Throughput | 165~185 wph | 220 wph 목표 |
| Source power | 600 → 800 W 옵션 | 800 W |
| Mask blank | Ru capping, 6025 quartz | + 흡수체 신소재 (TaBN→Ru/Co) |
| Pellicle | CNT, 90% transmission | 동일, 800 W 견딤 |
| 부품 수 / 무게 | ~100만개 / 150t | 동일 |
| 가격 | $370~380M | $380~400M |
| 누적 출하 (2025말) | Intel(1) · 삼성(1) · TSMC(1) · SK Hynix(1) · imec(1) = 5대 | |
| 노드 | 회사 | HVM | High-NA |
|---|---|---|---|
| Intel 18A | Intel | 2025 Q4 ramp | 미사용 (Low-NA) |
| Intel 14A | Intel | 2026 H2 risk → 2027 HVM | 첫 HVM High-NA |
| TSMC N2 | TSMC | 2026 H2 HVM | 미사용 (N2P/A16도 Low-NA) |
| TSMC A14 | TSMC | 2028 HVM | High-NA 도입 |
| Samsung SF2 | Samsung | 2026 H2 HVM | 일부 critical layer 평가 |
| Samsung SF1.4 | Samsung | 2027 risk | High-NA 본격 |
핵심: Rubin GPU(2026 H2)는 Low-NA EUV로 만든 TSMC N3P 기반. High-NA가 NVIDIA Rubin Ultra(2027)·Tesla AI5(Samsung SF2)에 도달하는 것은 2027~2028.
| 부품 | 공급사 | 국가 | 비중 |
|---|---|---|---|
| Mask blank | Hoya · AGC | 일본 | >95% |
| Photoresist | JSR · TOK · Shin-Etsu · Sumitomo | 일본 | >90% |
| Pellicle (CNT) | 미쯔이 · 삼성(개발) | 일본·한국 | 일본 우위 |
| Photomask 생산 | DNP · Toppan · Photronics | 일본·미국 | 일본 ~70% |
| Reticle stage parts | 에스앤에스텍 · 에프에스티 | 한국 | 일부 |
| 노드 | 풀네임 | 양산 | Transistor | vs 직전 | 주 고객 |
|---|---|---|---|---|---|
| SF4 | 4LPP | 2022 | FinFET | base | Qualcomm, Google Tensor |
| SF4X | 4HPC | 2024 H2 | FinFET HPC tuned | +10% perf @ iso-power | Groq LPU 3 (보도), AMD MI 일부 |
| SF3 | 3GAP | 2024 Q4 | MBCFET 2세대 | +22% perf / -34% power / -21% area | Exynos 2500 |
| SF2 | 2GAP | 2026 H2 HVM | MBCFET 3세대, BSPDN 옵션 | +12% perf / -25% power / -8% area | Tesla AI5, IBM Telum III, PFN |
| SF2P | 2GAP+ | 2027 | +BSPDN 표준 | +8% perf, -10% power | — |
| SF1.4 | 1.4GAP | 2027 risk → 2028 HVM | MBCFET 4세대 + High-NA | +15% perf / -20% power | — |
| 항목 | Samsung SF2 | TSMC N2 |
|---|---|---|
| Transistor | MBCFET (GAA 3세대) | Nanosheet GAA (1세대) |
| BSPDN | 옵션 (SF2P 표준) | N2P 부터 표준 |
| Logic density | ~230 MTr/mm² | ~250 MTr/mm² (추정) |
| SRAM scaling | +5% vs SF3 | +5% vs N3 (정체) |
| HVM | 2026 H2 | 2026 H2 |
| Yield (2026 Q1 모바일) | ~40% (보도) | ~60% (추정) |
| 주요 AI 고객 | Tesla AI5, PFN | NVIDIA Rubin, AMD MI400, Google TPU v7, Broadcom |
| 세대 | 출시 | I/O | Pin speed | BW/stack | Stack | Capacity | 공정 |
|---|---|---|---|---|---|---|---|
| HBM3 | 2022 | 1024-bit | 6.4 Gbps | 819 GB/s | 8/12-Hi | 16/24 GB | 1α/1β |
| HBM3E 8-Hi | 2024 H1 | 1024 | 9.2 Gbps | 1.18 TB/s | 8-Hi | 24 GB | 1β |
| HBM3E 12-Hi | 2024 H2 (Hynix), 2025 (Samsung·Micron) | 1024 | 9.6~10 Gbps | 1.22~1.28 TB/s | 12-Hi | 36 GB | 1β/1γ |
| HBM3E 16-Hi (Hynix 시제품) | 2025 | 1024 | 10 Gbps | 1.28 TB/s | 16-Hi | 48 GB | 1γ |
| HBM4 12-Hi | 2026 H1 양산 | 2048-bit | 8.0 Gbps | 2.0 TB/s | 12-Hi | 36 GB | 1γ + logic base die |
| HBM4 16-Hi | 2026 H2 | 2048 | 8.0 Gbps | 2.0 TB/s | 16-Hi | 48~64 GB | 1γ + base die |
| HBM4E | 2027+ | 2048 | 10~12 Gbps | 2.5~3.0 TB/s | 16-Hi | 64+ GB | 1δ + N3/N5 base die |
JEDEC HBM4 표준 (JESD238) 2025.04 확정. 인터페이스 1024 → 2048-bit 두 배 확장, 채널 32 → 64. Pin speed는 오히려 낮아짐(8 Gbps) — 폭으로 대역폭 확보, 전력·열 부담 완화.
HBM3까지 base die는 단순 buffer (memory fab 공정). HBM4부터는 controller·테스트 로직·전력 관리·일부 NIC/compute 기능을 logic 공정에 집적.
| 메모리 메이커 | Base die 공정 파트너 | 전략 |
|---|---|---|
| SK Hynix | TSMC N5/N3 (2024 발표, 2025.04 N3 진척) | SK Hynix–TSMC–NVIDIA 수직 결합 |
| Samsung | 자체 (Samsung Foundry SF4) | 메모리+파운드리 통합, 저비용·통합 테스트 우위 |
| Micron | TSMC (추정) | SK Hynix 경로 추종 |
| 회사 | 2025 | 2026E | 주요 채택 |
|---|---|---|---|
| SK Hynix | ~53% | ~50% | NVIDIA B200/B300/Rubin · AMD MI355/MI400 |
| Samsung | ~32% | ~30~33% | AMD MI300/MI355 · Google TPU v7 · NVIDIA 일부 (HBM3E 12-Hi 2025.Q4 인증 통과) |
| Micron | ~15% | ~17~20% | NVIDIA B200/B300 · AMD MI355 |
| 티어 | 매체 | 대역 | 지연 | 용량/노드 |
|---|---|---|---|---|
| Tier 0 (HBM) | HBM4 12-Hi × 8 | 16 TB/s | 100 ns | 288 GB |
| Tier 1 (DRAM) | DDR5-8800 12ch | 845 GB/s | 80 ns | 6 TB |
| Tier 2 (CXL) | CXL 3.0 DRAM (Samsung CMM-D, Hynix, Micron) | 64~128 GB/s | 200~400 ns | 16~64 TB |
| Tier 3 (CXL-SSD) | CMM-H, Solidigm | 32 GB/s | 5~20 µs | 100 TB+ |
CXL 3.0의 fabric 기능(multi-host coherency, switch chaining)으로 KV cache off-GPU offload(Mooncake, DeepSpeed-Inference)가 production 진입.
| 모델 | 출하 | 공정 | HBM | BW | TDP | FP4 dense (TFLOPS) | FP8 | NVLink |
|---|---|---|---|---|---|---|---|---|
| B100 | 2024 Q4 한정 | TSMC N4P | HBM3E 192 GB | 8.0 TB/s | 700 W | 14,000 | 7,000 | v5 (1.8 TB/s) |
| B200 | 2025 ramp | N4P (dual-die) | HBM3E 192 GB | 8.0 TB/s | 1,000 W | 20,000 | 10,000 | v5 |
| B300 (Blackwell Ultra) | 2025 Q4 / 2026 ramp | N4P | HBM3E 12-Hi 288 GB | 13.0 TB/s | 1,400 W | 30,000 / 60,000 sparse | 15,000 | v5 |
| 시스템 | GPU | CPU | NVLink 도메인 | 총 HBM | 총 BW | FP4 dense | 전력 |
|---|---|---|---|---|---|---|---|
| GB200 NVL72 | 72 × B200 | 36 × Grace | 72-way, NVLink 5 (1.8 TB/s/GPU) | 13.8 TB | 576 TB/s | 1.44 EFLOPS | ~120 kW |
| GB300 NVL72 | 72 × B300 | 36 × Grace | 동일 | 20.7 TB | 936 TB/s | 2.16 EFLOPS | ~140 kW |
| VR200 NVL144 (Vera Rubin, 2026 H2) | 144 × Rubin | 36 × Vera (Olympus ~88 core Arm v9) | 144-way, NVLink 6 (3.6 TB/s/GPU) | ~75 TB | ~1.7 PB/s | ~3.6 EFLOPS | ~150 kW |
| Rubin Ultra NVL576 (2027) | 576 × Rubin Ultra (4-die) | 144 × Vera | 576-way, NVLink 6 + CPO | ~365 TB | ~4.6 PB/s | 15 EFLOPS | ~600 kW (8 sub-rack) |
| 항목 | Rubin | Rubin Ultra |
|---|---|---|
| 공정 | TSMC N3P (보도) | TSMC N3P, 4-die package |
| HBM | HBM4 12-Hi × 8, 288 GB | HBM4 12-Hi × 16, 1 TB |
| Memory BW | 13~16 TB/s | ~32 TB/s |
| FP4 dense | 50,000 TFLOPS (50 PFLOPS) | 100 PFLOPS |
| NVLink | v6, 3.6 TB/s/GPU | v6 + CPO |
| NIC | ConnectX-9 (1.6 Tb/s) | CPO + ConnectX-9 |
| 컴포넌트 | 사양 | 출하 |
|---|---|---|
| NVLink 6 | 3.6 TB/s/GPU (v5 의 2×), bidirectional | Rubin 세대 |
| Quantum-X Photonics (InfiniBand) | 144-port × 800 Gb/s, CPO 통합, 115 Tb/s switching | 2026 H2 |
| Spectrum-X Photonics (Ethernet) | 128-port × 800 Gb/s, 102 Tb/s | 2026 |
| CPO 협력사 | TSMC (SoIC), Coherent, Lumentum, Foxconn | — |
| 컴포넌트 | 기능 | 2026 상태 |
|---|---|---|
| TensorRT-LLM | 컴파일러·런타임 | continuous batching, in-flight batching 안정 |
| NVFP4 | Blackwell 네이티브 FP4 (E2M1 + per-16 block scale) | B200/B300/Rubin 하드웨어 가속, dense 2× throughput |
| NVIDIA Dynamo (2025 GTC) | disaggregated prefill/decode, KV cache 라우팅 | 오픈소스, Mooncake·DistServe 패턴 흡수 |
| Triton Inference Server | 멀티모델 서빙 | Dynamo 통합 |
| TensorRT Model Optimizer | 양자화 (FP4/INT4/W4A4) toolkit | NVFP4 GPTQ-Q, AWQ-Q 지원 |
| EAGLE-3 (외부, 호환) | speculative decoding (multi-token) | TensorRT-LLM 통합 |
| 스택 | 핵심 | 강점 | 약점 |
|---|---|---|---|
| vLLM v1 | PagedAttention + continuous batching + prefix cache + EAGLE-2/3 | 오픈소스 표준, 멀티모델, 멀티 LoRA | AOT 대비 jitter |
| SGLang | RadixAttention + constrained decoding 가속 | multi-turn / agent / branched 우위. DeepSeek 공식 stack | 일부 모델 커널 미성숙 |
| TensorRT-LLM | NVIDIA 1st-party, in-flight batching, FP4/FP8 커널 | NVIDIA 칩에서 최단 latency | 모델별 engine build, 운영 부담 |
| CUTLASS 4.x + ThunderKittens | Blackwell tcgen05 + tile primitive | 커스텀 커널 100~200 LoC | 고급 개발자 필요 |
| MLIR / IREE / TVM Unity | 멀티 백엔드 | 엣지·웹 (WebLLM) | 데이터센터 절대 속도 열위 |
| Modular MAX / Mojo 1.0 | Python + GPU/CPU 단일 DSL | vLLM 동급 throughput 주장 | 3rd-party 검증 mixed |
| JAX / XLA / Pallas (TPU) | AOT SPMD partitioning | TPU v7 Ironwood 최적 | NVIDIA 호환성 한계 |
| Groq Compiler | AOT cycle-accurate scheduling | 결정적 latency, p99 = p50 | 모델 변경 시 full recompile |
| 축 | AOT (Groq, Sohu, TRT-LLM engine) | JIT (vLLM, SGLang) |
|---|---|---|
| 절대 latency | 최소 (jitter 0) | 변동, p99 ↑ |
| 동적 batch/shape | 약함 — bucketing 필수 | 강함 — continuous batching |
| 모델 swap | 비싼 recompile | 거의 free |
| 운영 복잡도 | 높음 | 낮음 |
| 적합 시나리오 | latency SLA 엄격, 모델 고정 | 멀티 모델, 멀티 테넌트 |
| 기법 | 효과 | 대표 모델 |
|---|---|---|
| PagedAttention (SOSP'23) | fragment 제거, 2~4× throughput | vLLM 표준 |
| MLA (Multi-head Latent Attn) | KV를 저랭크 latent로 압축, MHA 대비 6~13% | DeepSeek V2/V3/R1 |
| GQA | KV ~1/8 | Llama 3/4, Mistral |
| SnapKV | 80% 압축에서 품질 손실 ~0 | — |
| H2O | attention score 누적 evict | — |
| StreamingLLM | attention sink + sliding window → 무한 stream | — |
| YOCO | 레이어 간 KV 공유, ~50% 절감 | — |
학습 단계부터 hardware-aligned sparse pattern (compress + select + slide). 64K context 기준 dense FA-3 대비 decode 11.6×, forward 9×, backward 6×. DeepSeek V4/R2 기반 추정.
핵심 변곡점: NSA가 dense transformer + FA-3의 long-context 경제성을 깬 첫 사례. 사전학습부터 적용해야 효과가 살아남는다는 점이 lock-in. 1~2년 산업 표준으로 굳어질 가능성.
| 모델 | 총 / 활성 | 특징 |
|---|---|---|
| DeepSeek-V3 | 671B / 37B (5.5%) | fine-grained expert (256, top-8) + shared + aux-loss-free balancing |
| Llama 4 Behemoth | ~2T / 288B | MoE |
| Llama 4 Maverick / Scout | ~400B / 17B (Scout) | MoE |
| Mixtral 8x22B | 141B / 39B | top-2 routing |
의미: 활성 파라미터만 메모리 BW 소모 → decode TPS = (활성가중치 + 활성 expert) / BW. 단, expert routing 불균형이 latency tail 키움 → expert parallel + all-to-all 통신 → CPO/NVL576의 가치.
2026 합의: 긴 prompt + 멀티턴 → Mooncake/DistServe, 짧은 prompt 균형 출력 → Sarathi-Serve chunked.
| 방식 | 특징 | 품질 손실 |
|---|---|---|
| NVFP4 (Blackwell native) | 4-bit float, microscaling. dense matmul FP8 2× / FP16 4× | ~0.5%p |
| MXFP4/6/8 (OCP MX 표준) | block scaling 32-element. Blackwell, AMD MI355X 지원 | 유사 |
| INT4 GPTQ / AWQ | weight-only 4-bit, 메모리 4× | 1~2%p |
| HQQ / QuIP# | 2-bit. lattice codebook (QuIP#) | 5~10% perplexity |
| FP8 (E4M3/E5M2) | Hopper 표준 | ~0 |
2026 추론 권고: W4A8 (weight NVFP4 / activation FP8) 또는 W4A4 (NVFP4 dense). 70B 모델 단일 B200 (192 GB)에 KV 포함 fit.
| 구성 | 사양 | 단가 (추정) |
|---|---|---|
| GPU | Rubin × 144 | $40,000 × 144 = $5.76M |
| HBM4 12-Hi × 8 × 144 = 1,152 stack | Hynix 1.6~2.0 TB/s, 36 GB | $400 × 1,152 = $0.46M |
| CPU | Vera × 36 | $5,000 × 36 = $0.18M |
| NVLink 6 switch + CPO | Quantum-X / Spectrum-X | $0.6M |
| DRAM (DDR5-8800) | 6 TB × 36 = 216 TB | $0.5M |
| CXL 3.0 (Samsung CMM-D) | 64 TB | $0.3M |
| Chassis / cooling (DLC) | — | $0.4M |
| 합계 (sub-rack) | ~$8.2M | |
| NVL576 (4 sub-rack) | ~$33M / 시스템 | |
| 시나리오 | 모델 | 시스템 | TPS | TTFT (4K) | 동시 user p99<100ms |
|---|---|---|---|---|---|
| 현 SOTA (2025) | Llama 3.3 70B FP8 | GB200 NVL72 | ~250 tok/s | ~120 ms | ~80 |
| 2026 가설 (Rubin+NVFP4+EAGLE-3) | Llama 3.3 70B NVFP4 | VR200 NVL144 | ~600~900 tok/s | ~50 ms | ~250 |
| 2026 MoE 가설 | DeepSeek V4 671B/37B NVFP4 + NSA + EAGLE-3 | NVL144 | ~400~600 tok/s | ~80 ms (NSA long-ctx 우위) | ~150 |
| Groq (2025) | Llama 3.3 70B FP8 | Groq LPU mesh | ~1,250 tok/s | ~30 ms | ~50 (mesh SRAM 한계) |
| Cerebras (2025) | Llama 3.3 70B FP16 | WSE-3 × 1 | ~2,200 tok/s | ~20 ms | ~30 |
| 시스템 | 전력 | tok/s/W (Llama 70B 단일 user) |
|---|---|---|
| GB200 NVL72 (FP8) | 120 kW | ~0.15 |
| VR200 NVL144 (NVFP4+EAGLE-3) | 150 kW | ~0.58 — 약 4× 효율 |
| Groq LPU mesh (70B) | ~50 kW | ~0.005/user (전체 throughput 우위) |
| Cerebras WSE-3 | 23 kW | ~0.02 |
[ASML EXE:5200] → [TSMC N3P / Samsung SF2]
↓
[Rubin GPU die]
↕ HBM4 16 TB/s (SK Hynix 12-Hi × 8)
[Vera CPU] ←→ [DDR5-8800 6 TB]
↕ CXL 3.0 (64 TB Samsung CMM-D)
↕
NVLink 6 (3.6 TB/s/GPU) → 144 GPU coherent
↕
Quantum-X CPO (115 Tb/s) → 멀티-rack
↑
[Dynamo serving] — disaggregated prefill/decode
↑
[DeepSeek V4 / NSA / NVFP4 / EAGLE-3]
이 7개 질문의 답이 풀스택 구성을 결정한다. 단일 항목 최적화(GPU만 최신, 컴파일러는 기본)는 2026 시점에서 최적해의 절반도 못 낸다는 것이 핵심 변화.
"가장 빠른 LLM" 의 진짜 답은 칩이 아니라 가정의 삭제다. HBM을 의심하면 Groq, KV를 의심하면 Mamba, autoregressive 를 의심하면 Diffusion이 답이 된다. ASML EXE:5200·Samsung SF2·Hynix HBM4·NVIDIA Rubin 은 그 의심을 경제적으로 가능하게 만드는 도구일 뿐 — 2026 SOTA는 4사 기술의 합이 아니라, "왜?"를 7번 묻고 남은 것에 4사 기술을 정확히 한 번 더하는 것.