多轮对话管理：你的上下文窗口正在被「蚕食」，每轮都在亏钱

张

张建站

2026/6/4 13:57:47

10分钟阅读

一只用 AI Agent 搭副业产线的程序员回忆一下我们在第三篇文章里说的API 不会帮你「记住」任何东西。每一轮对话你都得把整个历史重新发过去。第 1 轮10 条消息500 token第 10 轮100 条消息5000 token第 50 轮500 条消息25000 token你的 Agent 不是在做事情——是在烧钱而且烧得越来越快。这篇文章给你两套解决方案滑动窗口和摘要压缩。带上代码带上实测数据。先看清楚问题有多大我跑了一个模拟——Agent 跟 AI 进行 20 轮对话记录每轮的 token 消耗轮次累计消息数输入 token 本轮花费(DeepSeek Pro) 第 1 轮 2 320 ¥0.0003 第 5 轮 10 1680 ¥0.0017 第 10 轮 20 3560 ¥0.0036 第 15 轮 30 5420 ¥0.0054 第 20 轮 40 7310 ¥0.0073 20 轮总花费¥0.087 看起来不贵换成 GPT-4o20 轮总花费¥0.87换成 Claude Opus 420 轮总花费¥2.61一个 Agent 任务跑 20 轮很正常。如果你在用 Claude 跑一个每天 10 次任务的 Agent——一个月 ¥780更要命的是这只是「聊天」。如果每一轮你还塞入了 RAG 检索的文档5000 token/次那数字要乘 5-10 倍。方案一滑动窗口——最简单粗暴的办法思路只保留最近 N 条消息旧的全部丢掉。packagecontexttypeSlidingWindowstruct{MaxMessagesint// 最多保留多少条消息}funcNewSlidingWindow(maxMessagesint)*SlidingWindow{returnSlidingWindow{MaxMessages:maxMessages}}func(sw*SlidingWindow)Trim(messages[]Message)[]Message{// 永远保留 System Promptiflen(messages)0messages[0].Rolesystem{iflen(messages)sw.MaxMessages1{returnmessages}// System Prompt 最近 N 条start:len(messages)-sw.MaxMessages result:make([]Message,0,sw.MaxMessages1)resultappend(result,messages[0])// System Promptresultappend(result,messages[start:]...)returnresult}// 没有 System Prompt直接截断iflen(messages)sw.MaxMessages{returnmessages}returnmessages[len(messages)-sw.MaxMessages:]}使用window:NewSlidingWindow(10)// 只保留最近 10 条forround:0;round50;round{// 构造本轮消息messagesappend(messages,Message{Role:user,Content:taskInput})result:callLLM(messages,0.1,500)messagesappend(messages,Message{Role:assistant,Content:result})// 裁剪messageswindow.Trim(messages)fmt.Printf(第 %d 轮: 消息数%d, token 估算%d\n,round,len(messages),estimateTokens(messages))}优点简单token 消耗恒定缺点旧信息永久丢失。如果用户在第 1 轮说了「我叫小王」第 12 轮问「我叫什么」——AI 已经忘了。适合短期交互客服、代码生成辅助、不需要长期记忆的场景方案二摘要压缩——保留信息密度思路当对话历史超过一定长度时把旧的消息「压缩」成一段摘要。typeSummaryCompressorstruct{MaxMessagesint// 超过这个数就压缩SummaryPromptstring// 摘要的 PromptllmClient*llm.Client}funcNewSummaryCompressor(maxMessagesint,client*llm.Client)*SummaryCompressor{returnSummaryCompressor{MaxMessages:maxMessages,llmClient:client,}}func(sc*SummaryCompressor)Compress(messages[]Message)([]Message,error){iflen(messages)sc.MaxMessages{returnmessages,nil}// 找出需要压缩的部分中间部分保留头尾systemMsg:messages[0]// System Prompt不动recentMsgs:messages[len(messages)-5:]// 最近 5 条不动oldMsgs:messages[1:len(messages)-5]// 中间部分需要压缩// 把旧消息拼成文本varhistory strings.Builderfor_,msg:rangeoldMsgs{history.WriteString(fmt.Sprintf([%s]: %s\n,msg.Role,msg.Content))}// 让 AI 压缩成摘要summaryPrompt:fmt.Sprintf(将以下对话历史压缩为一段简洁的摘要不超过 200 字。保留关键信息人名、决策、承诺、数据、待办事项。对话历史 %s 摘要,history.String())summary,err:sc.llmClient.Chat([]Message{{Role:user,Content:summaryPrompt},},0.1,200)iferr!nil{returnnil,err}// 重建消息列表result:[]Message{systemMsg}resultappend(result,Message{Role:system,Content:fmt.Sprintf([对话历史摘要] %s,summary),})resultappend(result,recentMsgs...)returnresult,nil}效果实测压缩前35 条消息约 12000 token 压缩后1 条 System 1 条摘要 5 条最近 7 条消息约 800 token 压缩率93% 信息损失 - 用户在第 2 轮说的名字 → 保留在摘要中 ✅ - 用户在第 3 轮提到的技术栈 → 保留在摘要中 ✅ - 用户在第 8 轮随口说的一句话 → 消失了 ❌ - 用户在第 12 轮说的具体数据 → 消失了 ❌因为离得远且没有压进摘要两种策略的对比实测同一个任务—代码审查 Agent 跑 50 轮对话指标无管理滑动窗口(10)摘要压缩50 轮总 Token187,00024,00031,000每次成本(DeepSeek Pro)¥0.19¥0.024¥0.031信息保留率100%~20%~70%关键信息丢失0 次2 次0 次代码复杂度无10 行40 行无管理的最贵但信息最完整。滑动窗口最便宜但丢了 2 次关键信息用户前面提过的需求被滑动窗口裁剪掉了。摘要压缩中间价位关键信息都保留了。混合策略生产环境的选择最佳实践是组合使用typeHybridManagerstruct{window*SlidingWindow compressor*SummaryCompressor thresholdint// 超过多少条消息触发压缩}func(hm*HybridManager)Manage(messages[]Message)([]Message,error){iflen(messages)hm.threshold{returnmessages,nil// 消息还不多不做任何处理}iflen(messages)hm.threshold*2{returnhm.window.Trim(messages),nil// 消息较多滑动窗口}// 消息很多先压缩再滑动窗口compressed,err:hm.compressor.Compress(messages)iferr!nil{// 压缩失败降级为滑动窗口returnhm.window.Trim(messages),nil}returnhm.window.Trim(compressed),nil}流程消息数 20 → 全部保留成本可控信息完整度优先消息数 20-40 → 滑动窗口保留最近 20 条消息数 40 → 压缩中间的旧消息滑动窗口上下文预算意识现在你对上下文管理的成本有了直观感受我们来建立「预算意识」组件占用 Token 预算要不要省System Prompt100-500尽量精简Few-shot 示例200-500只在必要时加RAG 文档2000-8000按相关性截断对话历史随轮次增长用滑动窗口/压缩AI 输出200-1000设 MaxTokens 上限你的上下文窗口不是无限的。每一段文字都在吃预算、都在花钱。写 Prompt 的时候像写嵌入式程序一样精打细算。一句话总结多轮对话管理不是高级技巧——是做 Agent 的基本功。不管理上下文你的 Agent 成本是 O(n²) 增长。用滑动窗口变成 O(1)用摘要压缩变成 O(log n)。下一篇——模块二的收官之作——我把前面所有的 Prompt 工程知识打包成10 个拿来即用的模板。代码生成、代码审查、Bug 分析、日报生成……每个模板标注了适用场景和期望输出。关注我别错过。一只用 AI Agent 搭副业产线的程序员全平台同名虾哥不加班需要定制 AI 工具来聊聊 → lob_ai源码GitHub - lobster-bujiaban

别再为IIS安装报错头疼了！一个PowerShell脚本搞定.NET 3.5和Windows Update源切换

自动化解决IIS依赖问题：PowerShell脚本全攻略在Windows服务器部署过程中，IIS安装报错是许多运维人员经常遇到的棘手问题。特别是当系统提示"安装一个或多个角色、角色服务或功能失败"时，最常见的原因就是.NET Framework 3.5依赖项未…...

2026/6/4 13:56:57 阅读更多 →

Java工程师面试

穿透“八股文”：一名技术负责人的Java工程师面试操作系统一、招聘的本质：你在筛选“知识存储器”还是“问题终结者”？任何技术负责人都心知肚明：招聘市场上充斥着“面试精通、实战平庸”的候选人。2024年，GitHub Copilot已将基础CRUD代码的编写效率提升了约55%。到202…...

2026/6/4 13:56:52 阅读更多 →

手把手教你用Simulink Coder把模型打包成DLL（附VS2015配置避坑指南）

工业级Simulink模型DLL封装实战：从配置到集成的完整避坑指南在工业自动化与控制系统中，Simulink模型到DLL的转换是实现算法工程化部署的关键环节。不同于学术研究的快速验证，生产环境要求生成的动态链接库具备毫秒级响应、多线程安全和长期稳…...

2026/6/4 13:52:20 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/6/4 7:13:17 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/6/4 10:13:41 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/6/4 6:11:55 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/6/4 4:32:35 阅读更多 →