大模型推理的成本核心在于Prefill——就像每次做饭都得从头切菜备料。而KV Cache就是那些可以复用的“半成品”。传统负载均衡像随机分配顾客去不同窗口每位顾客都得重新“自我介绍”造成了巨大的算力浪费。粘性调度的本质不是死板地固定机器而是让请求优先去“最可能有缓存”的地方这直接带来四大改善TTFT更低、Cache Hit更高、GPU更省力、吞吐更稳。不同场景的选型多轮聊天机器人首选会话粘性实现简单上下文连续。RAG/模板化问答优先前缀哈希最大化复用系统提示和模板缓存。大规模在线服务则需缓存感知调度动态平衡命中率与实时负载。