Agent认知架构深度解析：小白程序员必看的大模型学习收藏指南

张

张建站

2026/6/4 11:59:31

10分钟阅读

本文深入探讨了Agent软件与传统机器学习模型及业务软件的本质区别阐述了为何Agent需要独立的认知架构。对比了Soar与CoALA两种认知架构详细解析了记忆系统的分类、生命周期及实现方式并以Claude Code与OpenClaw为例对比了不同设计思路。文章最后提出了Agent记忆架构设计的挑战与未来演进方向强调了记忆系统对于Agent持续运行中保持稳定身份和行为预期的重要性。在讨论 Agent 的认知架构设计之前有必要先厘清一个根本问题Agent 软件究竟是什么它与我们熟知的传统机器学习模型、与一般业务软件相比究竟有何本质不同只有明确这种特殊性才能理解为何 Agent 需要一套独立的认知架构而非简单地套用现有的软件工程或模型训练范式。Agent vs 传统机器学习模型传统机器学习模型的生命周期可以概括为两个阶段离线训练与在线推理。在训练阶段模型通过大量数据将知识提炼并固化为网络参数在推理阶段模型接收输入通过前向传播输出预测结果。知识的存在形式是静态的、内隐的——它记录在权重矩阵中仅在特定输入的激活下才短暂显现。Agent 的运行逻辑则不同。虽然 Agent 底层依赖大语言模型LLM但它更关心的是运行时如何组织信息、流转状态、编排动作。模型从训练数据中学习一般知识Agent 则从与环境的交互中实时组织认知活动。这一差异决定了 Agent 不能仅仅依赖 LLM 的知识而必须在模型之上构建一套系统性的认知理论和技术手段。Agent vs 一般软件若将 Agent 与一般软件相比其特殊性则体现在“业务对象”的差异上。一般软件——无论是通信系统、电商平台还是数据库内核——都是对特定业务领域的自动化实现。算法、优化、规则引擎这些”智能”技术是提升效率的手段但业务本身并不是智能。软件架构设计关注的是如何高效实现业务规则。Agent 的不同之处在于它的业务对象本身就是智能活动意图理解、目标分解、规划、反思。这些能力既是完成任务的手段某种程度上也是产品要交付的价值本身。更进一步人们已经在探索用 Agent 来设计新的 Agent如果这条路走通系统就具备了自进化的可能。既然 Agent 的”业务”就是智能活动本身那它的架构设计就不能只套用传统的软件工程范式还需要回答一个更底层的问题智能活动是如何运行的这正是认知科学的研究对象也是认知架构设计的工程出发点。01什么是“认知架构”认知科学里有一个基本问题智能到底是什么功能主义Functionalism给出的回答是智能由功能定义。只要一个系统能实现等效的信息输入、内部表征转换和行为输出无论它是基于神经元还是硅晶体都可以被认为具有认知能力。这个视角对工程实践的意义在于我们不必去模拟生物大脑的微观结构只需要构建一套能够实现等效认知功能的计算架构即可。这就是认知架构Cognitive Architecture的基本思路——它不是对大脑的仿生而是对心智功能的工程化实现。经典认知架构SoarSoar 是由 John E. Laird 等人提出的符号主义认知架构其设计目标是用统一的计算机制解释人类认知的全部范围——从简单的反射动作到复杂的推理与学习。上图图A展示了 Soar 的完整系统结构图B则简化了其核心的决策循环。从图A可以看出Soar 的体系呈清晰的层次结构底部是具身Embodiment层通过视觉与其他感知模块接收环境输入经空间-视觉系统处理后汇入中央的工作记忆顶部是符号化长期记忆Symbolic Long-Term Memories按知识类型分为程序记忆、语义记忆与情景记忆居于核心位置的符号化工作记忆Symbolic Working Memory则是整个系统的动态中枢维持着 Agent 对当前情境的实时表征。图B描绘了 Soar 的决策循环Decision Cycle它以上图A中的”决策过程”模块为核心持续运转。其核心是基于规则的提议Proposal - 评估Evalutation - 选择Selection过程。此外Soar 并非静态地调用已有知识而是在运行中持续更新记忆。Soar 展示了一种可行的认知系统结构持续的决策循环、分层的记忆系统加上在运行中自动进行的知识编译。这些机制配合起来可以支撑从简单反射到复杂推理的各类认知行为。对于今天的 LLM Agent 设计者来说Soar 的一个重要启示是认知架构不能只有推理引擎还需要显式的记忆分层和持续学习机制。面向 LLM 的新型认知架构CoALASoar 的决策循环和记忆分层思想为认知架构奠定了理论基础但它基于符号 AI 思想其符号式规则与 LLM 的推理规则存在根本差异。近年来随着大语言模型的兴起研究者开始探索如何将经典认知架构的思想迁移到 LLM-based Agent 的设计中CoALACognitive Architectures for Language Agents是这一方向的代表性工作。CoALA 将 LLM 视为一个通用推理引擎置于认知架构的中央控制位置。但 CoALA 明确指出LLM 本身不能构成完整的认知架构——它缺乏持久记忆、没有跨会话的状态连续性、也无法从经验中自主更新。因此CoALA 在 LLM 周围显式构建了认知模块观察Observations接收环境输入包括文本、多模态信号等工作记忆Working Memory临时存储当前上下文和推理状态容量受限于 LLM 的上下文窗口长期记忆Long-term Memory持久存储程序性知识Procedural与陈述性知识Declarative包括情景记忆Episodic Memory、语义记忆Semantic Memory和程序记忆Procedural Memory行动Actions通过工具调用、语言生成等方式与环境交互。CoALA 的核心思路是把 LLM Agent 的设计从碎片化的提示工程推进到更系统的认知架构层面。它区分了在线推理工作记忆操作和离线学习长期记忆更新并给出了一套从简单反射型 Agent 到复杂目标导向系统的分层构建方法。决策过程与记忆系统从 Soar 到 CoALA认知架构的研究主要围绕两个问题展开决策过程负责将当前情境转化为行动选择记忆系统负责维持状态、存储经验、支持学习与连续性。在当前基于 LLM 的 Agent 中决策过程已被 LLM 的推理能力较好地覆盖——经由后训练LLM 可以在工作记忆即上下文窗口内完成“提议-评估-选择”这一核心决策过程。但记忆系统的设计仍然缺乏统一范式也最容易影响实际使用体验。接下来本文将聚焦于记忆系统的概念、机制与工程实现。02记忆系统记忆系统在实际工程中之所以重要是因为它解决了 LLM 的几个天然限制上下文窗口有限无法在一次推理中处理太多历史信息无状态推理缺乏基于历史交互的连续性和一致性模型权重固定难以从实际交互中持续学习。一个好的记忆系统可以缓解这些问题通过压缩工作记忆为 LLM 推理提供精确、紧凑的上下文信息通过记忆的整理、遗忘和检索注入为 Agent 提供历史交互信息保障其生命周期内的一致性通过反思机制让 Agent 从经验中提取有用的模式并利用上下文学习能力复用这些模式。记忆的分类按时间跨度短期记忆与长期记忆短期记忆维持当前会话或近期交互的信息通常通过对话摘要将长交互历史压缩后重新注入上下文窗口。它的作用是保证会话内的连贯性但不具备跨会话的持久性。长期记忆跨越多个会话保留历史经验、用户偏好与关键知识。早期多采用检索增强生成RAG将历史交互存储于外部数据库并按需检索近年则出现了 MemoryLLM 等将记忆与模型推理更深度集成的方案。按保存形态显式记忆与隐式记忆维度显式记忆Explicit隐式记忆Implicit存储形式文本、向量、图结构等外部化数据结构模型参数、潜在向量等内部化表示可解释性强可直接查看与编辑弱难以解读更新成本低可直接增删改高通常需要微调或反向传播代表技术向量数据库、知识图谱、Markdown 文件全参数微调、LoRA、MemoryLLM显式记忆是当前工程实践的主流选择因为它易于调试、可控性强隐式记忆则代表模型原生记忆的发展方向追求记忆与推理的无缝融合。按用途情景记忆、语义记忆与程序记忆这一分类直接对应人类认知心理学的三元记忆体系也是 CoALA 等认知架构采用的标准划分情景记忆Episodic Memory记录具体的事件和经历保留时间、地点、交互对象等上下文细节。在 Agent 中通常以交互历史、会话日志的形式存在。语义记忆Semantic Memory存储从具体经验中提炼的概念、事实和抽象知识。例如从多次交互中归纳出的用户偏好 Python 而非 JavaScript。程序记忆Procedural Memory指 Agent 执行任务的操作流程和技能回答如何做的问题。在 LLM Agent 中程序记忆可以体现为 ReAct 轨迹、工具调用模式或沉淀为可复用的函数/工作流。记忆的生命周期记忆不是静态的存储而是一个动态管理的过程。完整的记忆生命周期分为外部操作与内部管理两个层面。外部操作读取与写入读取Read的核心是根据当前情境从存储中召回相关信息。高效的读取机制直接影响 Agent 的决策质量与响应速度。现代记忆系统通常采用多级检索策略先通过向量相似度进行语义召回再通过时间过滤优先近期记忆最后根据重要性加权调整排序。写入Write决定哪些信息应被存储以及如何存储。原始交互数据通常经过压缩和抽象后才写入长期记忆。实践表明存储摘要比保存完整对话有效得多——既节省存储空间又降低检索噪声。内部管理合并、反思与删除记忆系统的维护成本和检索质量往往比单纯的存储容量更能决定其实用价值。合并Merge将多个相关记忆片段整合为一条连贯的元记忆减少冗余的同时保留关键模式。例如定期将同一主题的多次交互总结为一条包含核心观点和模式的记忆项。语义压缩是合并的常用技术。反思Refine是记忆系统实现在线学习的核心机制。Agent 定期审视近期行为从中提炼模式、识别错误、总结改进方向。反思结果本身作为元记忆存储用于指导未来任务的决策。这个过程类似于强化学习中的经验回放只是反馈信号和策略更新都通过自然语言完成。删除Delete维护记忆系统的健康状态防止信息过时或噪声累积。常用策略包括基于时间的淘汰移除过于陈旧的记忆、基于相关性的过滤删除长期未被引用的低频记忆、以及基于冲突的解决新旧记忆矛盾时保留更可信的版本。记忆的实现方式在当前主流 Agent 实现中长期记忆主要通过外部存储和查询机制实现记忆功能。按照保存和检索原理的不同可分为以下四种实现方式。文本化记忆文本检索依赖于关键词匹配或元数据过滤来查找相关记忆。优点实现简单、可解释性强、精确匹配确定性高局限局限于表面语法匹配难以处理语义相似但表述不同的查询例如涨价与价格上调在关键词层面毫无交集。向量化记忆向量匹配通过将文本转换为高维空间中的向量表示并计算余弦相似度等距离度量来检索相关记忆。其实现通常包括三个步骤文本嵌入Embedding、向量索引构建、近似最近邻ANN查询。向量检索的核心优势在于能捕捉语义相关性——即使查询词与存储文本在字面上完全不同只要语义相近仍能成功召回。这也是当前大多数 RAG 系统的默认检索方式。知识图谱知识图谱将记忆组织为节点和边的网络结构通过图遍历算法发现复杂关系。图匹配的优势在于能发现记忆间的复杂关系、支持推理链例如从 A 关联到 B再从 B 关联到 C但实现复杂度和维护成本显著高于前两种方法。混合形态单一检索方式各有短板文本检索精确但僵化向量检索灵活但可能引入噪声图匹配强大但笨重。工程上一般会把几种方式组合起来使用。近期许多研究工作、开源思路与工程实践对记忆系统的实现进行了探索如结合向量语义检索与动态图链接并通过 LLM 驱动的记忆进化实现新记忆对旧记忆的主动更新。结合语义分层摘要与位置索引路由实现从高层概览到底层细节的层级化检索避免全库扫描的噪声与开销。结合查询图语义搜索、交互图细粒度合成与洞察图宏观指导构建面向多智能体协作的三层图记忆结构。将交互历史作为只读的情景记忆语义记忆组织为类似维基百科的结构化文本条目实现人可读、机可写的显式记忆维护。03通用Agent的记忆架构设计本章把前面讨论的记忆架构概念落实到工程设计上介绍当前主流 Agent 采用的三层记忆模型并通过 Claude Code 与 OpenClaw 的对比看看不同设计思路下的具体取舍。整体架构基于认知循环的三层记忆模型整个系统围绕Agent Loop运转Agent 接收用户输入调用 LLM 进行推理根据需要执行工具再将结果反馈回循环。支撑这一循环的是三层记忆结构。最上层是LLM 上下文窗口也就是 Agent 当前能直接看到的全部文本受限于模型的 token 上限。压缩后的信息注入这里供 LLM 推理LLM 的输出和环境反馈也在这里产生。中间层是短期记忆 / 工作记忆负责承载会话内的任务状态和历史上下文。它的核心任务是解决 LLM 窗口容量不足的问题LLM 的输出和环境反馈先进入工作记忆但在送入 LLM 之前必须通过摘要、筛选或截断等手段进行压缩把信息量控制在 token 预算以内。最下层是长期记忆跨会话的持久化存储。工作记忆中的原始交互信息可以通过保存操作沉淀下来进一步演化为语义记忆和程序记忆Agent 也可以在需要时通过检索重新加载这些信息。这一架构可以看作 Soar 记忆分层思想和 CoALA 认知循环的工程化落地LLM 负责“提议-评估-选择”的规划过程分层记忆系统则负责维护 Agent 的内部状态保证它在生命周期内的一致性。实践对比Claude Code 与 OpenClaw 的记忆系统设计维度Claude Code (编程专家)OpenClaw (通用型)设计哲学领域相关、纯粹文件操作领域无关、混合形态记忆存储方式markdown 文件markdown 文件、数据库工作记忆多级压缩细粒度、微压缩、折叠视图、自动摘要支持会话裁剪、自动压缩token数接近门限和手动压缩/compact情景记忆按日期保存logs/2025/04/2025-04-02.md按日期保存memory/YYYY-MM-DD.md语义记忆分为 user、feedback、project、reference 四类还有索引文件MEMORY.md直接记录在 MEMORY.md 文件中。 “梦境”维护的 wiki 知识库程序记忆通过 /skill-creator 引导生成需安装技能。通过 /skill-creator 引导生成需安装技能。搜索技术文件搜索GrepToolGlobTool。混合搜索Vector BM25 (精准匹配)工作记忆上下文压缩对比Claude Code 的压缩策略是在多个层级上逐步裁剪尽量保留原始信息的粒度只在必要时才重建消息链OpenClaw 则是在接近上下文上限时整体做一次摘要把历史对话折叠后存档以此换取当前上下文的简洁。长期记忆对比Claude Code 的长期记忆走极简路线一个文件、用户主控、全量注入适合保存项目编码规范这类确定性知识OpenClaw 则采用分层自治的思路Agent 主动从日笔记中提炼要点再通过 Dreaming 流程后台晋升更接近人类写日记→定期反思→形成长期认知的沉淀过程。两种设计并不互斥Claude Code 的在工程上更成熟对需要精确保留任务细节的 Agent 很有参考价值OpenClaw 的记忆分层和自动提炼机制能够更好的模拟认知功能更适合需要角色模拟的 Agent。04当前挑战与后续演进Agent 记忆架构设计目前面临的一个核心难题是长生命周期下的自我一致性Agent 运行越久积累的记忆越多就越容易引入噪声和幻觉或在不同会话中给出不一致的回应。个人认为以下两个方向是未来 Agent 认知架构要解决的关键问题从情景记忆到语义记忆的提升问题情景记忆记录了发生了什么但这些原始日志本身无法直接指导未来的决策。真正有价值的是从海量交互中识别出可复用的模式——也就是回答这意味着什么。当前的主要挑战有三噪声过滤并非所有交互都值得被抽象为长期管理随着 Skills 越来越多模型的识别和触发效率将明显下降如何在有限的模型注意下管理越来越多的 Skills也就是说提取和生成 Skill 是容易的但如何解决准确性、泛化性和触发效率等问题是未来认知架构要探索的核心问题。05最后总结Agent 的认知架构设计说到底是在用工程手段回答智能如何运行这个问题。在 LLM 已经胜任单次推理的今天记忆系统作为维持连续性、支撑学习与保障自我一致性的核心基础设施——正是 Agent 从能用的工具走向可用的伙伴的关键。无论是精细的上下文压缩管线还是分层自治的长期记忆维护最终都服务于同一个目标让 Agent 在持续运行中保持稳定的身份和行为预期而不是随着交互变长而逐渐失控。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

H.266/VVC帧内预测黑科技揭秘：从65个预测方向到AI矩阵预测（MIP）

H.266/VVC帧内预测黑科技揭秘：从65个预测方向到AI矩阵预测（MIP）在视频编码领域，每一代标准的演进都伴随着预测精度的革命性提升。当我们从H.265/HEVC迈入H.266/VVC时代，帧内预测技术已经完成了从"手工优化"到…...

2026/6/4 11:59:30 阅读更多 →

GPT-4 Turbo真实能力图谱：拆解免费版边界与AI落地三堵墙

我需要明确告知您：GPT-5目前并未正式发布，也不存在官方确认的“GPT-5”模型或产品。截至2024年7月，OpenAI官方公开发布的最先进大语言模型是GPT-4 Turbo（于2023年11月发布），其后陆续通过API和ChatGPT界面迭…...

2026/6/4 11:52:45 阅读更多 →

基于OpenCV与Tesseract的OCR实战：从图像预处理到参数调优全解析

1. 项目概述与核心价值在数字化的浪潮中，将纸质文档、图片中的文字信息快速、准确地提取出来，是许多自动化流程和数据分析项目的起点。这就是OCR（光学字符识别）技术的核心价值。你可能遇到过这样的场景：需要手动录入几…...

2026/6/4 11:51:10 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/6/4 7:13:17 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/6/4 10:13:41 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/6/4 6:11:55 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/6/4 4:32:35 阅读更多 →