从Prompt到Harness:下一代AI Agent开发方法论,工程师必须掌握的系统性设计!
本文探讨了AI开发方法论的演进从Prompt Engineering到Context Engineering再到当前的Harness Engineering。Harness Engineering关注于系统性地设计、构建和演进Agent外部的基础设施包括工具、记忆、验证、护栏和可观测性等以提升Agent性能和可靠性。文章详细阐述了Harness的核心组成、设计模式、生产实践案例并对比了Harness Engineering与Context Engineering的区别。随着AI技术的发展工程师的角色也发生了转变从传统的编码者转变为系统设计者和反馈工程师。Harness Engineering将成为未来AI开发的重要方向帮助工程师构建更强大、更可靠的AI系统。2024 年是 Prompt Engineering2025 年是 Context Engineering2026 年正在成为Harness Engineering的元年。本文基于 Martin Fowler、Anthropic、OpenAI 等最新一手资料系统梳理这一正在重塑研发工程师工作方式的新兴方法论。从 Prompt 到 Harness三次范式跃迁过去三年围绕 LLM 的工程方法论经历了三次明显的范式演进三者是嵌套关系而非替代关系层级核心问题工程对象影响范围Prompt Engineering问什么指令文本单次调用Context Engineering展示什么Token 窗口内容单个 SessionHarness Engineering环境如何设计Agent 外部的约束、反馈、工具、运行时整个系统生命周期什么是 Harness Engineering2.1 核心公式Agent Model HarnessHarness是围绕模型构建的一切基础设施——除了模型本身权重、推理其他所有东西都属于 Harness 的范畴。Harness Engineering则是系统性地设计、构建和演进这套基础设施的工程方法论。来自 Martin Fowler2026.04.02“Engineering a user harness for a coding agent is a specific form of context engineering — the harness decides when context gets loaded, which tools are available, which actions are allowed, and how failures get handled.”2.2 两个直觉类比用两个大家熟悉的系统来理解 Model 和 Harness 的关系2.3 为什么现在成为焦点随着 Agent 能力的提升模型本身已不再是瓶颈。同一个模型如 Claude Opus 4.5在不同 Harness 下的表现可以天差地别LangChain 仅通过改进 Harness在 Terminal Bench 2.0 排行榜从 30 名外跃升至第 5Stripe 每周合并超过 1000 个 AI 生成的 PR靠的是严格的 CI Harness 而非更好的模型OpenAI Codex 团队估算借助 Harness Engineering用约1/10 的时间完成了原本需要手写的代码量“The bottleneck was the environment. The agents didn’t lack the ability to write code. They lacked structure, tools, feedback, and clear constraints.”Harness 的核心组成3.1 工具与 API 层Tools APIs工具是 Agent 与世界交互的唯一手段。Harness 的工具设计决定了 Agent 能做什么、以什么粒度操作。工具设计原则最小权限Agent 只应拥有完成当前任务所需的最小工具集可观测每次工具调用都应被记录可回溯幂等优先读操作优于写操作写操作应有回滚机制沙盒隔离危险操作删除、部署应在隔离环境中执行3.2 记忆与状态管理Memory StateLLM 本身无状态Harness 负责构建和维护 Agent 的记忆系统3.3 验证机制Verification3.3 验证机制Verification验证是 Harness 中最关键的反馈来源分为两类类型执行方式速度确定性示例ComputationalCPU确定性快毫秒级100%单元测试、Linter、类型检查、格式校验InferentialGPULLM 推理慢秒级非确定AI Code Review、语义正确性、架构合规核心原则Keep Quality Left越靠左越早发现问题修复成本越低。Harness 的目标是把检测点尽量推到左侧。3.4 护栏与权限Guardrails护栏定义了 Agent不能做的边界是 Harness 的安全层3.5 可观测性Observability“A one-off mistake is usually a context problem. Weeks of gradual degradation is a harness problem.”没有可观测性就无法区分这两种情况前馈与反馈控制系统视角Martin Fowler 借用控制系统的概念来描述 Harness 的两种工作方式这是 Harness Engineering 最核心的思维模型。4.1 前馈Feedforward行动前引导前馈机制在 Agent行动之前注入信息预防问题发生提高首次正确率。AGENTS.md 典型内容结构# AGENTS.md ## 项目概述 这是一个 Java Spring Boot 微服务使用 PostgreSQL... ## 代码规范 - 所有公共 API 必须有 Javadoc - 禁止直接使用 System.out统一用 SLF4J - 单元测试覆盖率不低于 80% ## 架构约束 - 禁止在 Controller 层直接调用 Repository - 跨服务调用只能通过 FeignClient ## 技术栈 - JDK 17, Spring Boot 3.2, Maven - 运行测试: mvn test - 启动服务: mvn spring-boot:run -Dport8080 ## 当前已知问题 - Issue #234: 支付模块有内存泄漏暂勿修改 PaymentService.java4.2 反馈Feedback行动后感知反馈机制在 Agent行动之后检测结果提供自纠正信号。4.3 Steering Loop人机协作的持续改进Harness 不是一次性配置而是一个持续演进的系统。人类通过观察 Agent 的失败模式不断改进前馈和反馈机制Harness 设计模式基于 arXiv 2026 年学术综述Natural-Language Agent Harnesses和业界实践现代 Agent Harness 有七种核心设计模式5.1 Reason-Act LoopReAct 模式最基础也最重要的模式LLM 交替执行推理和工具调用5.2 Verification Gate验证门控在 Agent 行动前后插入强制检验点防止错误向下传播5.3 Multi-Agent Orchestration多 Agent 编排5.4 Long-Running Harness长任务双层架构Anthropic 2025 年提出专门解决跨 Context Window 的任务持续性问题详见第 8 章。生产实践真实案例解析6.1 OpenAI用 Codex 构建内部工具2026.02OpenAI 工程团队发布报告描述了他们如何用 Codex 在约 1/10 的时间内完成原本需要手写的代码量。Harness 核心设计组件实现方式Chrome DevTools 集成Agent 可直接看到 UI 并复现 bug无需截图描述隔离可观测栈每个任务独立的 logs/metrics/traces便于 Agent 理解状态可衡量的约束启动需在 800ms 内完成变为可验证的指标而非模糊描述架构规则机械化依赖方向检查自动化违规在合并前被拦截教学式 Linter错误信息本身就是下次尝试的 Context引导 Agent 自修复“Humans steer. Agents execute.”— OpenAI Engineering Team角色转变传统工程师设计 → 编码 → 测试 → 调试 AI 时代工程师设计系统 → 构建 Harness → 引导 Agent → 验证结果6.2 Stripe每周 1000 AI 生成 PRStripe 的 Agent 系统被设计为处理窄范围、定义清晰的任务单元测试编写Linter 警告修复API 版本迁移废弃依赖移除文档更新核心 Harness 设计6.3 LangChainHarness 改进驱动排行榜提升LangChain 通过专注改进 Harness而非更换模型在 Terminal Bench 2.0 排行榜从 30 名外跃升至第 5 名。改进内容更精确的工具调用格式定义更丰富的错误处理反馈改进的步骤追踪机制更清晰的任务完成判断标准这一案例清晰说明在当前阶段模型已不是瓶颈Harness 才是。Agent Model Harness架构设计7.1 完整架构图7.2 Harness 与 Framework 的区别这是一个常见混淆点Harrison ChaseLangChain 作者给出了清晰区分维度Framework如 LangChainRuntimeHarness是什么构建 Agent 逻辑的积木Agent 执行的引擎Agent 生产运行的基础设施关注点开发体验、抽象层调度、并发、生命周期可靠性、约束、可观测性换模型时需要适配需要适配不需要改变模型无关生产关键性开发时重要运行时重要持续运营中最重要长任务 Agent跨 Context Window 的挑战8.1 核心问题LLM 的上下文窗口是有限的。当任务需要跨越多个 Session比如实现一个包含 200 功能的完整应用Agent 在每次新 Session 开始时都会失忆8.2 Anthropic 的双层 Harness 方案Anthropic 工程团队2025.11提出了专门针对长任务的双层 Harness 架构8.3 四大失败模式及对策失败模式根本原因Harness 对策过早宣告完成缺乏清晰完成标准Feature List 提供结构化验收标准不知道环境状态无交接机制Git 历史 进度文件一次修改太多缺乏范围约束每次只做一个功能的 SOP测试不充分反馈信号弱Puppeteer E2E 自动化测试Harness Engineering vs Context Engineering9.1 核心区别Context Engineering解决的是Agent 知道什么Harness Engineering解决的是Agent 能做什么以及做错时会发生什么Context Engineering给 Agent 正确的地图Harness Engineering确保 Agent 在正确的道路上行驶维度Context EngineeringHarness Engineering关注点Token 窗口内的信息质量Agent 行动的约束与反馈系统作用时机推理时in-context推理前后系统层面解决的问题模型不理解任务模型理解但执行出错典型手段RAG、Few-shot、文档注入CI、测试、护栏、监控失效表现Agent 给出错误答案Agent 持续退化、系统性失败9.2 一个诊断框架当 Agent 出现问题时如何判断是 Context 问题还是 Harness 问题工程师的角色转变Harness Engineering 带来的不仅是技术方法论的变化更是研发工程师职能定位的根本性转变。10.1 职能变化对比职能维度传统工程师Harness 工程师主要产出代码Harness 系统规范、工具、测试、反馈核心技能编程、算法系统设计、反馈工程、可观测性调试对象代码逻辑Agent 行为模式质量保证手写测试设计 Agent 无法绕过的验证门文档工作事后补文档AGENTS.md 是第一优先级迭代节奏PR → Review → Merge观察失败 → 改进 Harness → 重跑10.2 新的核心能力栈当前局限与未来方向11.1 当前局限局限描述缓解方式Inferential 验证成本高AI Code Review 慢且贵不适合每次提交分层验证关键路径才用 InferentialHarness 维护成本AGENTS.md 等文件会过期背景 Agent 持续扫描更新跨语言/项目迁移性差针对具体项目的 Harness 难以复用标准化 Harness 接口规范NLAH 方向多 Agent 协调复杂Agent 间通信、状态共享有挑战标准化 Agent 间协议Guardrail 和能力的平衡过严的护栏限制 Agent 解决创造性问题分层权限 人工审批升级11.2 未来方向11.3 一个核心信念“Every time an agent makes a mistake, don’t just hope it does better next time. Engineer the environment so it cannot make that specific mistake the same way again.”— Louis Bouchard,Harness Engineering: The Missing Layer Behind AI Agents2026.03这句话是 Harness Engineering 的精髓从期待模型更好转变为工程化地消除错误。这才是系统性可靠性的来源。结语抓住大模型时代的职业机遇AI大模型的发展不是“替代人类”而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作却催生了更多需要“技术业务”交叉能力的高端岗位。对于求职者而言想要在这波浪潮中立足不仅需要掌握Python、TensorFlow/PyTorch等技术工具更要深入理解目标行业的业务逻辑如金融的风险控制、医疗的临床需求成为“懂技术、懂业务”的复合型人才。无论是技术研发岗如算法工程师、研究员还是业务落地岗如产品经理、应用工程师大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情紧跟技术趋势就能在AI大模型时代找到属于自己的职业新蓝海。最近两年大模型发展很迅速在理论研究方面得到很大的拓展基础模型的能力也取得重大突破大模型现在正在积极探索落地的方向如果与各行各业结合起来是未来落地的一个重大研究方向大模型应用工程师年包50w属于中等水平如果想要入门大模型那现在正是最佳时机2025年Agent的元年2026年将会百花齐放相应的应用将覆盖文本视频语音图像等全模态如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享扫描下方csdn官方合作二维码获取哦给大家推荐一个大模型应用学习路线这个学习路线的具体内容如下第一节提示词工程提示词是用于与AI模型沟通交流的这一部分主要介绍基本概念和相应的实践高级的提示词工程来实现模型最佳效果以现实案例为基础进行案例讲解在企业中除了微调之外最喜欢的就是用提示词工程技术来实现模型性能的提升第二节检索增强生成RAG可能大家经常会看见RAG这个名词这个就是将向量数据库与大模型结合的技术通过外部知识来增强改进提升大模型的回答结果这一部分主要介绍RAG架构与组件从零开始搭建RAG系统生成部署RAG性能优化等第三节微调预训练之后的模型想要在具体任务上进行适配那就需要通过微调来提升模型的性能能满足定制化的需求这一部分主要介绍微调的基础模型适配技术最佳实践的案例以及资源优化等内容第四节模型部署想要把预训练或者微调之后的模型应用于生产实践那就需要部署模型部署分为云端部署和本地部署部署的过程中需要考虑硬件支持服务器性能以及对性能进行优化使用过程中的监控维护等第五节人工智能系统和项目这一部分主要介绍自主人工智能系统包括代理框架决策框架多智能体系统以及实际应用然后通过实践项目应用前面学习到的知识包括端到端的实现行业相关情景等学完上面的大模型应用技术就可以去做一些开源的项目大模型领域现在非常注重项目的落地后续可以学习一些Agent框架等内容上面的资料做了一些整理有需要的同学可以下方添加二维码获取仅供学习使用