今天分享电子科大、哈佛和 Nota AI 合作团队的 InSemRAG 论文。先说结论用 1B 参数的小模型驱动 RAG 全流程——查询改写、分块修复、覆盖审计——比用大模型做多跳 RAG 快 4.32 倍效果还相当。关键不在模型大小在流程设计。RAG 的两个隐形瓶颈意图无关检索大多数 RAG 系统只用一种检索通道——要么 BM25 稀疏检索要么稠密语义检索。但不同查询的特性完全不同“海绵宝宝住在哪里”——简单事实稀疏检索关键词匹配就够了“为什么 2020 年居家办公突然爆发”——需要推理稠密检索语义匹配更合适“如何避免论文被拒”——抽象问题需要扩展检索补充上下文一刀切的结果简单问题搜出一堆解释性文档推理问题搜出表面相关的噪声。信息碎片化固定长度分块如 256 tokens 一截会无情地切断语义跨段引用断裂他随后决定……中的他指代上文的某个人名分块后丢失逻辑链断裂因果推理的前半段在 chunk A后半段在 chunk B表格/列表被拦腰截断这两个问题叠加的后果LLM 收到的证据既不精准意图不匹配又不完整语义被切断再强的模型也答不好。InSemRAG的解题思路InSemRAG 的核心是一个检索-检查迭代循环由两个模块支撑意图感知检索IAR和语义保持分块SPC。IAR意图感知检索第一步双视图查询改写用户查询往往不完美——太短缺信息或太长含噪声。IAR 用 SLM 把原始查询投影到两个正交子空间稠密视图 p_d语义扩展——SLM 做查询释义paraphrase把查询推到语义聚类中心稀疏视图 p_s关键词提取——SLM 抽取命名实体和罕见术语匹配长尾低频词第二步动态通道加权传统混合检索用固定权重如 α0.5 稀疏 0.5 稠密。InSemRAG 让 SLM 根据查询特征动态决定权重w Softmax(MLP(SLM(q)))w [α, β, γ]^Tα β γ 1三个权重分别控制稠密、稀疏和扩展检索的贡献。简单事实问题自动偏向稀疏抽象推理问题自动偏向稠密。第三步加权融合检索用改写后的稠密查询做稠密检索稀疏查询做 BM25 检索结果归一化后按动态权重融合排序。取 top-mm20作为初始证据集。SPC语义保持分块第一步候选精炼初始证据集太大用 SLM 结合原始查询对每个 chunk 重新评分取 top-kk10。第二步损坏检测SLM 判断每个分块是否语义完整——检查语法截断、未解析共指、断裂逻辑。完整性低于阈值 δ 的标记为损坏。这里有一个容易被忽视的关键点语法上完整的分块以句号结尾、括号配对、长度 50 tokens仍然可能是语义碎片。比如He then decided to pursue the matter语法完整但他是谁只有回溯上文才知道。消融实验显示用启发式规则替代 SLM 检测HotPotQA 上下降 5.6 个 F1。第三步分块修复对每个损坏的分块回溯源文档取其前后邻居分块拼接然后用 SLM 压缩——保留原始语义内容但控制在目标长度内c* SLM_compress(c_pre ⊕ c ⊕ c_post, q)不是简单扩展那会超出上下文窗口而是信息密度最大化的压缩缝合。第四步覆盖审计修复后的证据集是否足够回答查询提取查询的关键信息元素KIE检查每个元素是否被证据蕴含。未覆盖的元素转化为新查询触发下一轮 IAR SPC 迭代。用 SLM 驱动全流程InSemRAG 最务实的设计所有中间环节都用 Llama-3.2-1B-Instruct——查询改写、通道加权、损坏检测、分块修复、覆盖审计。为什么不直接用大模型因为迭代机制下每轮需要多次 LLM 调用——如果用 GPT-4o 做单次查询的成本和延迟会指数级增长。1B 模型做指令遵从已经够用关键是做对的事而非用最大的模型。效果多跳任务提升最大主实验在 GPT-4o-mini、Qwen-turbo、DeepSeek-V3 三个生成器上InSemRAG 一致优于所有基线数据集指标比 Naïve RAG比最强基线HotPotQAF16.322.65FEVERAcc1.51.52WikiMultiHopQAF17.782.45多跳和证据敏感任务提升最大——因为这类任务对信息完整性最敏感而 SPC 正好修复了碎片化问题。延迟方法HotPotQA 延迟Naïve RAG1.25sMulti-Hop RAG8.42sInSemRAG1.95s比 Multi-Hop RAG 快4.32 倍只比 Naïve RAG 慢 0.7 秒但 F1 高出 22。消融每个模块都不可或缺变体HotPotQA F1ELI5 ROUGE-LInSemRAG 完整66.8531.15去掉 SPC59.45 (-7.4)25.12 (-6.03)用启发式替代 SPC61.25 (-5.6)27.8 (-3.35)去掉动态加权64.1 (-2.75)29.8 (-1.35)去掉查询改写64.95 (-1.9)30.25 (-0.9)去掉 SPC 降幅最大——证明信息碎片化是 RAG 的核心瓶颈而非检索通道选择。换用 Qwen2.5-1.5B-Instruct 作为 SLM结果仅下降 1.43 F1——框架不依赖特定小模型。分块长度鲁棒性在 chunk size 128/256/512 三个设置下InSemRAG 一致领先。尤其在小分块128下Naïve RAG 和 Multi-Hop RAG 性能急剧下降而 InSemRAG 保持稳定——因为 SPC 会修复碎片化证据。总结分块碎片化的杀伤力比你想象的大。即使分块在语法上看起来完整仍可能丢失关键指代和逻辑链。SPC 的检测修复机制值得尝试。看起来RAG 的中间环节查询改写、分块修复、覆盖检查不需要用大模型。1B 小模型的指令遵从能力已经足够把大模型留给最终的答案生成。InSemRAG 的小模型好流程 大模型暴力检索是一个值得深挖的方向——流程工程的 ROI 可能比模型缩放的 ROI 更高。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】