在 RAG(检索增强生成)应用与大模型集成的演进之路上,我们先后探讨了向量检索、对话记忆、语义缓存和过滤器机制。但当我们将目光投向真正大规模的生成式 AI 应用,一切都会变得昂贵且缓慢。以一个标准的企业级 RAG 为例:系统提示词占了 8,000 个令牌,工具定义占了 6,000 个令牌,再加上每次会话积累的 4,000 个令牌历史。每发一次请求,大模型都要把这 18,000 个几乎一模一样的令牌重新处理一遍,大幅推高延迟并浪费可观成本。这正是提示缓存(Prompt Caching)要解决的核心痛点。本文将深入剖析 Spring AI 与 Anthropic Claude 的提示缓存集成,并探讨如何在大型知识库场景下,用多级缓存协同战法实现真正毫秒级响应。一、提示缓存的本质:让大模型学会“记笔记”1.1 一个数字引发的思考假设一个文档分析场景:每次请求都包含一份 3,000 令牌的文档。对这份文档连续提 5 个问题,意味着要将同一份 3,000 令牌的文档完整处理 5 遍,以全价消耗 15,000 令牌。提示缓存的核心思路是把那些不常变化的内容一次性缓存起来,后续请求只发送真正变动的半杯热咖啡给大模型处理。一个 100K 令牌的书籍示例表明:启用缓存后,响应时间从 11.5 秒降至 2.4 秒,减少高达85%的延迟。