RAG 场景下模型回答分层与缓存优化方案

张

张建站

2026/4/23 0:50:02

10分钟阅读

一、背景与问题在基于 RAGRetrieval-Augmented Generation的知识库问答系统中当前主流技术栈通常包括应用层Spring Boot Spring AI向量存储MilvusEmbedding / LLMDeepSeek高质量推理豆包DoubaoMimo低成本模型典型流程如下文档切块Chunking向量化Embedding向量检索TopK拼接上下文ContextLLM 生成回答核心问题在实际落地过程中会遇到以下问题成本问题上下文较长文档块用户问题每次都调用 LLM尤其是 DeepSeekToken 消耗高输入成本远高于输出性能问题LLM 响应延迟高高频重复问题无法复用效果问题每次都是“从头推理”无法利用历史高质量回答二、优化目标本方案主要围绕以下目标展开目标描述降低成本减少 LLM 调用次数使用低成本模型提升响应速度命中缓存直接返回提升回答稳定性复用高质量历史回答保证数据一致性文档更新后不污染结果三、总体架构设计整体优化思路为模型分层对话缓存复用智能存储策略架构分层用户请求 ↓ 【1】历史对话向量库缓存层 ↓命中直接返回 / 半命中 → 低成本模型优化 ↓未命中【2】知识库向量检索Milvus ↓ 【3】模型分层调用 - 低成本模型Doubao / Mimo - 高质量模型DeepSeek ↓ 【4】回答评估与存储四、核心优化策略4.1 对话缓存机制核心设计思想RAG 本质是“知识检索”用户问题具有明显的重复性FAQ 类问题操作类问题业务规则类问题没有必要每次都调用 LLM存储结构设计向量库存储内容字段内容embedding向量content问题文本metadatachunkIds/ai_answer/question_textidid关键点只对“问题”做 embedding降低成本回答和上下文作为 metadata 存储4.2 查询阶段优化对话复用Step 1查询历史对话库对用户问题进行向量检索情况一相似度 ≥ 0.9强命中直接返回历史回答不调用 LLM 响应速度最快成本为 0情况二0.5 ≤ 相似度 0.9弱命中处理策略取历史库 Top1获取历史回答历史文档块同时执行知识库 Top5 检索合并上下文历史文档块知识库文档块 → LLM模型选择策略此阶段使用低成本模型原因模型输入成本DeepSeek~2元 / 百万 tokenDoubao~0.4元 / 百万 tokenmiMO~0.7元 / 百万 token成本降低约 80%情况三相似度 0.5未命中标准 RAG 流程4.3 模型分层策略分层原则不是所有请求都需要高质量模型。模型分层设计层级模型使用场景L1缓存层无直接返回L2低成本层Doubao / Mimo弱命中、简单问题L3高质量层DeepSeek复杂问题4.4 智能存储策略关键为什么不能全部存如果所有回答都存储会带来噪音数据错误传播存储膨胀存储策略仅对 DeepSeek 生成的回答进行存储判断原因DeepSeek 质量更高更适合作为“知识沉淀”存储判断流程LLMDeepSeek生成回答后再调用一次 LLM或规则引擎进行判断判断内容是否通用问题是否具备复用价值是否包含敏感/权限信息存储规则设计按实际业务场景设计存储规则通常是通用类问题进行存储五、数据一致性设计问题文档更新后历史缓存可能失效回答可能错误解决方案文档版本控制每个 chunk 绑定 doc_version变更清理机制当文档更新时删除相关历史缓存按 doc_id六、收益分析1. 成本优化优化点效果缓存命中0 成本低成本模型替代降低 80%embedding 优化减少向量计算2. 性能提升缓存命中毫秒级避免重复推理降低 LLM 压力3. 效果提升复用高质量回答降低 hallucination提升稳定性

如何快速掌握雀魂AI助手：Akagi零基础实战指南

如何快速掌握雀魂AI助手：Akagi零基础实战指南【免费下载链接】Akagi 支持雀魂、天鳳、麻雀一番街、天月麻將，能夠使用自定義的AI模型實時分析對局並給出建議，內建Mortal AI作為示例。 Supports Majsoul, Tenhou, Riichi City, Amatsuki, wit…...

2026/4/13 2:36:06 阅读更多 →

开源工具Wand-Enhancer：功能增强与安全实践指南

开源工具Wand-Enhancer：功能增强与安全实践指南【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 一、揭示项目价值：为何选择Wand-…...

2026/4/13 3:19:21 阅读更多 →

如何高效配置无人机电子调速器：专业级ESC配置工具实战指南

如何高效配置无人机电子调速器：专业级ESC配置工具实战指南【免费下载链接】esc-configurator A Web-App to flash your BLHeli_S and AM32 based ESCs from the browser using the Web-Serial API. 项目地址: https://gitcode.com/gh_mirrors/es/esc-configurato…...

2026/4/13 4:20:54 阅读更多 →

从T3到T5：全志工控处理器性能跃迁与工业应用场景深度解析

1. 全志T3与T5处理器核心架构解析全志T3（A40I）和T5（T507）作为两代工控处理器，在核心架构上有着显著差异。T3采用四核Cortex-A7架构，主频1.2GHz，搭配Mali400MP2 GPU，属于经典的"…...

2026/4/22 17:12:14 阅读更多 →

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全图解实战）一、前言二、列出 ES 所有索引：整体流程流程图三、Elasticsearch 列出所有索引：核心命令3.1 方法1：_cat/indices（最常用、运维…...

2026/4/22 18:00:32 阅读更多 →

SAP PI/PO HTTPS接口调用实战：从SSL证书导入到彻底告别iaik.security.ssl.SSLCertificateException

1. 当SAP PI/PO遇到HTTPS接口报错时发生了什么？ 最近在帮客户调试SAP PI系统调用外部HTTPS接口时，遇到了一个让人头疼的问题。系统在调用Swagger Petstore的API时，控制台突然抛出"iaik.security.ssl.SSLCertificateException: Peer cert…...

2026/4/22 11:40:58 阅读更多 →