掌握 AI 大模型记忆系统：新手程序员必备收藏，轻松构建更智能 Agent 应用

张

张建站

2026/7/14 22:31:09

10分钟阅读

掌握 AI 大模型记忆系统：新手程序员必备收藏，轻松构建更智能 Agent 应用

本文深入探讨了 AI Agent 中的记忆系统阐述了其对于实现上下文连贯性和个性化交互的重要性。文章详细介绍了记忆的定义、分类及各 Agent 框架如 Google ADK、LangChain、AgentScope中的实现差异并解析了短期记忆和长期记忆的交互机制。此外还重点讨论了短期记忆的上下文工程策略包括缩减、卸载和隔离等以及长期记忆的技术架构和与 RAG 的区别。最后文章展望了 AI 记忆系统的发展趋势为开发者提供了构建智能 Agent 应用的实用指导。1、Memory 基础概念1.1 记忆的定义与分类对于 AI Agent 而言记忆至关重要因为它使它们能够记住之前的互动、从反馈中学习并适应用户的偏好。对“记忆”的定义有两个层面会话级记忆用户和智能体 Agent 在一个会话中的多轮交互user-query response跨会话记忆从用户和智能体 Agent 的多个会话中抽取的通用信息可以跨会话辅助 Agent 推理1.2 各 Agent 框架的定义差异各个 Agent 框架对记忆的概念命名各有不同但共同的是都遵循上一节中介绍的两个不同层面的划分会话级和跨会话级。框架说明Google ADKSession 表示单次持续交互Memory 是长期知识库可包含来自多次对话的信息LangChainShort-term memory 用于单线程或对话中记住之前的交互Long-term memory 不属于基础核心组件而是高阶的“个人知识库”外挂AgentScope虽然官方文档强调需求驱动但 API 层面仍然是两个组件memory 和 long_term_memory功能层面有明确区分习惯上可以将会话级别的历史消息称为短期记忆把可以跨会话共享的信息称为长期记忆但本质上两者并不是通过简单的时间维度进行的划分从实践层面上以是否跨 Session 会话来进行区分。长期记忆的信息从短期记忆中抽取提炼而来根据短期记忆中的信息实时地更新迭代而其信息又会参与到短期记忆中辅助模型进行个性化推理。2、Agent 框架集成记忆系统的架构各 Agent 框架在集成记忆系统时虽然实现细节不同但都遵循相似的架构模式。理解这些通用模式有助于更好地设计和实现记忆系统。2.1 Agent 框架集成记忆的通用模式各 Agent 框架集成记忆系统通常遵循以下通用模式1. Step1推理前加载 - 根据当前 user-query 从长期记忆中加载相关信息2. Step2上下文注入 - 从长期记忆中检索的信息加入当前短期记忆中辅助模型推理3. Step3记忆更新 - 短期记忆在推理完成后加入到长期记忆中4. Step4信息处理 - 长期记忆模块中结合 LLM向量化模型进行信息提取和检索2.2 短期记忆Session 会话短期记忆存储会话中产生的各类消息包括用户输入、模型回复、工具调用及其结果等。这些消息直接参与模型推理实时更新并受模型的 maxToken 限制。当消息累积导致上下文窗口超出限制时需要通过上下文工程策略压缩、卸载、摘要等进行处理这也是上下文工程主要处理的部分。核心特点存储会话中的所有交互消息用户输入、模型回复、工具调用等直接参与模型推理作为 LLM 的输入上下文实时更新每次交互都会新增消息受模型 maxToken 限制需要上下文工程策略进行优化关于短期记忆的上下文工程策略压缩、卸载、摘要等将在下一章节中详细介绍。2.3 长期记忆跨会话长期记忆与短期记忆形成双向交互一方面长期记忆从短期记忆中提取“事实”、“偏好”、“经验”等有效信息进行存储Record另一方面长期记忆中的信息会被检索并注入到短期记忆中辅助模型进行个性化推理Retrieve。与短期记忆的交互Record写入从短期记忆的会话消息中提取有效信息通过LLM进行语义理解和抽取存储到长期记忆中Retrieve检索根据当前用户查询从长期记忆中检索相关信息注入到短期记忆中作为上下文辅助模型推理实践中的实现方式在 Agent 开发实践中长期记忆通常是一个独立的第三方组件因为其内部有相对比较复杂的流程信息提取、向量化、存储、检索等。常见的长期记忆组件包括 Mem0、Zep、Memos、ReMe 等这些组件提供了完整的 Record 和 Retrieve 能力Agent 框架通过 API 集成这些组件。信息组织维度不同长期记忆产品在信息组织维度上有所差异一些产品主要关注个人信息个人记忆而一些产品除了支持个人记忆外还支持工具记忆、任务记忆等更丰富的维度。用户维度个人记忆面向用户维度组织的实时更新的个人知识库用户画像分析报告个性化推荐系统千人千面处理具体任务时加载至短期记忆中业务领域维度沉淀的经验包括领域经验和工具使用经验可沉淀至领域知识库可通过强化学习微调沉淀至模型3、短期记忆的上下文工程策略短期记忆直接参与 Agent 和 LLM 的交互随着对话历史增长上下文窗口会面临 token 限制和成本压力。上下文工程策略旨在通过智能化的压缩、卸载和摘要技术在保持信息完整性的同时有效控制上下文大小。备注需要说明的是各方对上下文工程的概念和理解存在些许差异。狭义的上下文工程特指对短期记忆会话历史中各种压缩、摘要、卸载等处理机制主要解决上下文窗口限制和 token 成本问题广义的上下文工程则包括更广泛的上下文优化策略如非运行态的模型选择、Prompt 优化工程、知识库构建、工具集构建等这些都是在模型推理前对上下文进行优化的手段且这些因素都对模型推理结果有重要影响。本章节主要讨论狭义的上下文工程即针对短期记忆的运行时处理策略。3.1 核心策略针对短期记忆的上下文处理主要有以下几种策略上下文缩减Context Reduction上下文缩减通过减少上下文中的信息量来降低 token 消耗主要有两种方法1. 保留预览内容对于大块内容只保留前 N 个字符或关键片段作为预览原始完整内容被移除2. 总结摘要使用 LLM 对整段内容进行总结摘要保留关键信息丢弃细节这两种方法都会导致信息丢失但能有效减少 token 消耗。上下文卸载Context Offloading上下文卸载主要解决被缩减的内容是否可恢复的问题。当内容被缩减后原始完整内容被卸载到外部存储如文件系统、数据库等消息中只保留最小必要的引用如文件路径、UUID 等。当需要完整内容时可以通过引用重新加载。优势上下文更干净占用更小信息不丢随取随用。适用于网页搜索结果、超长工具输出、临时计划等占 token 较多的内容。上下文隔离Context Isolation通过多智能体架构将上下文拆分到不同的子智能体中类似单体拆分称多个微服务。主智能体编写任务指令发送给子智能体子智能体的整个上下文仅由该指令组成。子智能体完成任务后返回结果主智能体不关心子智能体如何执行只需要结果。适用场景任务有清晰简短的指令只有最终输出才重要如代码库中搜索特定片段。优势上下文小、开销低、简单直接。策略选择原则以上三种策略上下文缩减、上下文卸载、上下文隔离需要根据数据的分类进行综合处理主要考虑因素包括时间远近近期消息通常更重要需要优先保留历史消息可以优先进行缩减或卸载数据类型不同类型的消息用户输入、模型回复、工具调用结果等重要性不同需要采用不同的处理策略信息可恢复性对于需要完整信息的内容应优先使用卸载策略对于可以接受信息丢失的内容可以使用缩减策略3.2 各框架的实现方式各框架一般内置上下文处理策略通过参数化配置的方式指定具体策略。Google ADK构建 Agent 时通过 events_compaction_config设置上下文处理策略和 Session 本身的数据存储独立。from google.adk.apps.app import App, EventsCompactionConfig app App( namemy-agent, root_agentroot_agent, events_compaction_configEventsCompactionConfig( compaction_interval3, # 每3次新调用触发压缩 overlap_size1 # 包含前一个窗口的最后一次调用 ), )LangChain构建 Agent 时通过 middleware 机制中的 SummarizationMiddleware设置上下文处理参数与短期记忆本身的数据存储独立。from langchain.agents import create_agent from langchain.agents.middleware import SummarizationMiddleware agent create_agent( modelgpt-4o, tools[...], middleware[ SummarizationMiddleware( modelgpt-4o-mini, max_tokens_before_summary4000, # 4000 tokens时触发摘要 messages_to_keep20, # 摘要后保留最后20条消息 ), ], )AgentScopeAgentScope 通过AutoContextMemory提供智能化的上下文工程解决方案。AutoContextMemory 实现了 Memory接口当对话历史超过配置阈值时自动应用 6 种渐进式压缩策略从轻量级到重量级来减少上下文大小同时保留重要信息。集成方式直接作为 Memory接口实现通过 memory参数集成到 Agent 中与框架深度集成无需额外的 middleware 或独立配置与 ADK 和 LangChain 的差异更精细化的压缩策略提供 6 种渐进式压缩策略压缩历史工具调用、卸载大型消息、摘要对话轮次等相比 ADK 的简单压缩和 LangChain 的摘要 middleware策略更加细化和可控集成方式直接实现 Memory 接口与 Agent 构建流程无缝集成而 ADK 和 LangChain 需要独立的配置对象或 middleware 机制完整可追溯性提供工作内存、原始内存、卸载上下文和压缩事件四层存储架构支持完整历史追溯而其他框架通常只提供压缩后的结果使用示例AutoContextMemory memory new AutoContextMemory( AutoContextConfig.builder() .msgThreshold(100) .maxToken(128 * 1024) .tokenRatio(0.75) .build(), model ); ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) .build();4、长期记忆技术架构及 Agent 框架集成与短期记忆不同长期记忆需要跨会话持久化存储并支持高效的检索和更新。这需要一套完整的技术架构包括信息提取、向量化存储、语义检索等核心组件。4.1 核心组件长期记忆涉及 record retrieve 两个核心流程需要以下核心组件1. LLM 大模型提取短期记忆中的有效信息记忆的语义理解、抽取、决策和生成2. Embedder 向量化将文本转换为语义向量支持相似性计算3. VectorStore 向量数据库持久化存储记忆向量和元数据支持高效语义检索4. GraphStore 图数据库存储实体-关系知识图谱支持复杂关系推理5. Reranker重排序器对初步检索结果按语义相关性重新排序6. SQLite记录所有记忆操作的审计日志支持版本回溯4.2 Record Retrieve 流程Record记录LLM 事实提取 → 信息向量化 → 向量存储 →复杂关系存储→ SQLite 操作日志Retrieve检索User query 向量化 → 向量数据库语义检索 → 图数据库关系补充 →Reranker-LLM→ 结果返回4.3 长期记忆与 RAG 的区别像 Mem0 这类面向 AI Agent 的个性化长期记忆系统与 RAGRetrieval-Augmented Generation在技术架构上有诸多相似之处但功能层面和场景上有明显区别技术层面的相似点1. 向量化存储都将文本内容通过 Embedding 模型转为向量存入向量数据库2. 相似性检索在用户提问时将当前 query 向量化在向量库中检索 top-k 最相关的条目3. 注入上下文生成将检索到的内容注入到模型交互上下文中辅助 LLM 生成最终回答4.4 关键问题与挑战长期记忆系统在实际应用中面临诸多挑战这些挑战直接影响系统的可用性和用户体验。1. 准确性记忆的准确性包含两个层面有效的记忆管理需要具备智能的巩固、更新和遗忘机制这主要依赖于记忆系统中负责信息提取的模型能力和算法设计记忆相关性的检索准确度主要依赖于向量化检索重排的核心能力核心挑战记忆的建模需要完善强大的用户画像模型记忆的管理基于用户画像建模算法提取有效信息设计记忆更新机制向量化相关性检索能力提升检索准确率和相关性2. 安全和隐私记忆系统记住了大量用户隐私信息如何防止数据中毒等恶意攻击并保障用户隐私是必须解决的问题。核心挑战数据加密与访问控制防止恶意数据注入透明的数据管理机制用户对自身数据的掌控权3. 多模态记忆支持文本记忆、视觉、语音仍被孤立处理如何构建统一的“多模态记忆空间”仍是未解难题。核心挑战跨模态关联与检索统一的多模态记忆表示毫秒级响应能力4.5 Agent 框架集成在 AgentScope 中可以通过集成第三方长期记忆组件来实现长期记忆功能。常见的集成方式包括4.5.1 集成 Mem0Mem0 是一个开源的长期记忆框架几乎成为事实标准。在 AgentScope 中集成 Mem0 的示例// 初始化Mem0长期记忆 Mem0LongTermMemory mem0Memory new Mem0LongTermMemory( Mem0Config.builder() .apiKey(your-mem0-api-key) .build() ); // 创建Agent并集成长期记忆 ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) // 短期记忆 .longTermMemory(mem0Memory) // 长期记忆 .build();4.5.2 集成 ReMeReMe 是 AgentScope 官方提供的长期记忆实现与框架深度集成// 初始化ReMe长期记忆 ReMeLongTermMemory remeMemory ReMeLongTermMemory.builder() .userId(user123) // 用户ID用于记忆隔离 .apiBaseUrl(http://localhost:8002) // ReMe服务地址 .build(); // 创建Agent并集成长期记忆 ReActAgent agent ReActAgent.builder() .name(Assistant) .model(model) .memory(memory) // 短期记忆 .longTermMemory(remeMemory) // 长期记忆 .longTermMemoryMode(LongTermMemoryMode.BOTH) // 记忆模式 .build();5、行业趋势与产品对比5.1 AI 记忆系统发展趋势AI 记忆系统的核心目标是让 AI 能像人类一样持续学习、形成长期记忆从而变得更智能、更个性化。当前行业呈现出从研究原型向生产级系统演进、从单一技术向综合解决方案发展的趋势。5.1.1 当前发展的核心脉络5.1.2 技术发展趋势记忆即服务Memory-as-a-Service, MaaSAI Agent 是大模型、记忆、任务规划以及工具使用的集合体记忆管理将是 Agent 智能体的核心基础功能之一。类似“数据库”之于传统软件记忆系统将成为 AI 应用的基础设施提供标准化的记忆服务接口、可扩展的存储和检索能力。精细化记忆管理借鉴人脑记忆机制构建分层动态的记忆架构对记忆进行全生命周期管理。技术路径包括LLM 驱动记忆提取向量化存储图数据库补充向量化检索海马体 LLM 提纯大脑皮层结合通过强化学习提升记忆管理表现。多模态记忆系统多模态大模型的兴起推动记忆系统向多模态、跨模态方向发展要求存储具备跨模态关联与毫秒级响应能力。参数化记忆Model 层集成记忆在 Transformer 架构中引入可学习的记忆单元 Memory Adapter实现模型层面原生支持用户维度的记忆。优点是响应速度快但面临“灾难性遗忘”和更新成本高的挑战。5.1.3 当前主要的技术路径1. 外部记忆增强当前主流使用向量数据库等外部存储来记忆历史信息并在需要时通过检索相关信息注入当前对话。这种方式灵活高效检索的准确性是关键。2. 参数化记忆深度内化直接将知识编码进模型的参数中。这可以通过模型微调、知识编辑等技术实现优点是响应速度快但面临“灾难性遗忘”和更新成本高的挑战。5.2 相关开源产品对比关于各产品的具体数据指标对比评测方式各有侧重因此评测结果不尽相同从实际情况看各方均以 mem0 为评测基准从各类技术指标评测结果以及开源社区的活跃度starissues 等方面mem0 仍然是占据长期记忆产品的领头地位。结语记忆系统作为 AI Agent 的核心基础设施其发展直接影响着智能体的能力和用户体验。现在各框架内置的压缩、卸载、摘要等策略已经能解决 80-90% 的通用场景问题但对于特定行业或场景比如医疗、法律、金融等领域基于通用的上下文处理策略基础之上进行针对性的处理和更精细的压缩 prompt 设计仍然有较大的优化空间。而长期记忆作为可独立演进的组件未来会更加贴近人脑的记忆演化模式包括记忆的巩固、强化、遗忘等全生命周期管理同时长期记忆应该以云服务模式提供通用的记忆服务共同助力 Agent 迈向更高阶的智能。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

新手快速上手Gemma-3-12B-IT：参数调优技巧，让生成的代码更靠谱

新手快速上手Gemma-3-12B-IT：参数调优技巧，让生成的代码更靠谱 1. 引言：为什么你的代码生成总是不对味？ 你刚用上Gemma-3-12B-IT，兴冲冲地让它写个Python脚本。输入“写个爬虫”，它给你生成了一堆代码&am…...

2026/6/16 16:41:14 阅读更多 →

TDD+AI双引擎驱动的敏捷开发新范式：某金融级项目实现CI/CD门禁自动补全覆盖率缺口，耗时下降63%

第一章：智能代码生成在敏捷开发中的应用 2026奇点智能技术大会(https://ml-summit.org) 智能代码生成正深度融入敏捷开发的迭代闭环，成为提升交付速度与代码一致性的关键杠杆。它不再仅作为辅助补全工具，而是嵌入用户故事拆解、测试驱动开发…...

2026/6/16 16:41:15 阅读更多 →

头歌实训-图论实战：从概念到最短路径的Python实现

1. 图论基础：从零理解数据结构第一次接触图论时，我完全被各种术语搞晕了。直到在头歌实训平台反复练习后，才发现图论其实就像我们日常生活中的社交网络。想象一下微信好友关系：每个人是一个顶点，好友关系就是边&#…...

2026/6/16 16:41:15 阅读更多 →

渔人的直感：你的FF14智能钓鱼助手，让钓鱼变得简单又高效

渔人的直感：你的FF14智能钓鱼助手，让钓鱼变得简单又高效【免费下载链接】Fishers-Intuition 渔人的直感，最终幻想14钓鱼计时器项目地址: https://gitcode.com/gh_mirrors/fi/Fishers-Intuition 在《最终幻想14》的广阔世界中&#x…...

2026/7/14 13:02:37 阅读更多 →

操作系统原理 4 大核心调度算法对比：FCFS/SJF/HRRN/轮转吞吐与响应时间实测

操作系统四大核心调度算法深度解析：从理论到量化实践引言：调度算法的战略价值在多道程序设计的操作系统中，进程调度算法如同交通指挥系统，决定了计算资源的高效分配。当多个进程竞争有限的CPU资源时，如何公平合理地分配…...

2026/7/14 17:19:54 阅读更多 →

Scrapy 中使用的 `parsel` 是一个独立的、轻量级的 HTML/XML 解析库，专为高效提取网页数据而设计

Scrapy 中使用的 parsel 是一个独立的、轻量级的 HTML/XML 解析库，专为高效提取网页数据而设计。它被 Scrapy 内部用作默认的选择器引擎（替代了早期版本中基于 lxml 的直接封装），提供类似 jQuery 的 CSS 选择器和 XPath 表达式支持…...

2026/7/13 21:12:35 阅读更多 →

创作革新：TEdit地图编辑器释放泰拉瑞亚世界的无限表达可能

创作革新：TEdit地图编辑器释放泰拉瑞亚世界的无限表达可能【免费下载链接】Terraria-Map-Editor TEdit - Terraria Map Editor - TEdit is a stand alone, open source map editor for Terraria. It lets you edit maps just like (almost) paint! It also lets yo…...

2026/7/14 9:11:15 阅读更多 →