1 min read
Prefill vs Decode: LLM Inference 的两个阶段
理解 LLM 推理中 prefill 和 decode 的区别,以及为什么 prefill 更适合 batching。
LLM INFERENCE SYSTEMS / AI INFRASTRUCTURE
I'm a Python engineer with 6+ years of backend experience, building a learning trail around LLM inference systems — KV cache, serving optimization, cache-aware routing, and benchmark-driven engineering.
理解 LLM 推理中 prefill 和 decode 的区别,以及为什么 prefill 更适合 batching。
梳理 KV Cache 的数据结构、显存估算方式,以及长上下文为什么会放大问题。
分析 Prefix Cache 命中与未命中对首 token 延迟的影响,并记录后续 benchmark 计划。
A long-term learning and experiment lab for LLM inference systems.
一个用 Astro 和 Markdown 构建的个人技术主页,用于记录学习过程、技术笔记、实验报告和作品集。