我想带你动手走一遍最简单的 Harness Engineering

张

张建站

2026/5/5 0:33:47

10分钟阅读

百闻不如一用这可能是你的 Harness Engineering 初体验。写在前面想必大家最近被 Harness Engineering 刷屏了。从 OpenAI 的原文到各路大佬的深度解读从马具比喻到四大支柱概念已经被翻来覆去讲了无数遍。但我猜你的状态可能是这样的“道理我都懂但我手头没有适合落地的项目啊……” “我又不是做前端/后端的这跟我有什么关系”“看完了十篇文章还是不知道第一步该干什么。”如果你没有适合落地的项目你会在焦虑中茫然。所以今天我不想输出焦虑也不想在复杂的项目中教你各种复杂的理念。我只想用最简单的最佳实践带你跑一遍——一个不需要写业务代码、不需要复杂项目、任何人都能上手的场景让 AI Agent 自动帮你追踪前沿 AI 技术动态生成每日技术简报。你只需要准备两样东西一个 AGENTS.md一个 verify.py。然后在 CodeBuddy 里敲一段话坐下来看 Agent 自己跑起来。这可能是你的 Harness Engineering 初体验。30 秒搞懂 Harness Engineering如果你还没看过任何文章我用一句话说清楚Harness Engineering 给 AI Agent 搭一条有护栏的高速公路让它既跑得快、又不会翻车。Harness本意是马具——缰绳、鞍具那一套东西。AI Agent 就像一匹动力十足但不太守规矩的马Harness 就是那套让它既能跑得快、又不会跑偏的装备。它由四样东西组成核心理念只有一条搭脚手架调 Prompt。❌ 在 Prompt 里写请确保输出格式正确 → Agent 可能忽略✅ 写一个 verify.py 自动检查格式 → 格式不对就报错Agent 被迫修正好了概念到此为止。下面我们直接动手。场景让 AI 自动帮你追踪前沿技术为什么选这个场景1.不需要任何业务代码——你不需要有一个 Flask 项目、React 项目或任何在跑的服务2.任何人都能用——只要你关注 AI 技术动态这个场景就对你有价值3.Harness 四要素全部体现——架构护栏限定信息源、工具反馈搜索结果、文档记录AGENTS.md、验证闭环verify.py4.有真实产出——跑完你会得到一份结构化的技术日报可以直接发到群里学习中的正反馈比什么都重要你需要准备什么VSCode CodeBuddy 插件已安装就行一个空文件夹10 分钟时间Step 1创建 AGENTS.md3 分钟在你的空文件夹里创建一个 AGENTS.md 文件。这是 Agent 的工作手册CodeBuddy 每次启动会话时会自动读取它。# AGENTS.md - 前沿 AI 技术研究 Agent 工作手册 ## 任务目标自动追踪前沿 AI 技术动态生成结构化的每日技术简报。 ## 信息源通过网络搜索以下渠道的最新内容 1. 技术博客OpenAI、Anthropic、Google DeepMind 等官方博客 2. 技术社区知乎、CSDN、掘金等平台的 AI 热门文章 3. GitHub TrendingAI 相关的热门仓库 4. 行业媒体机器之心、量子位等 ## 关注领域必须匹配至少一个 - AI Agent / Agentic AI - Harness Engineering / Context Engineering - MCP (Model Context Protocol) - LLM 推理与优化 - AI Coding / Vibe Coding - 多模态大模型 ## 输出格式要求生成 JSON 文件结构如下 - date: 日期YYYY-MM-DD - topic_focus: 本期关注主题 - items: 条目数组每条包含 - title: 标题中文 - source: 来源Blog/社区/GitHub/媒体 - url: 原文链接必须是真实可访问的 URL - date: 发布日期YYYY-MM-DD - category: 所属领域从上述关注领域中选择 - summary: 一句话摘要不超过100字 - insight: 技术洞察不超过150字 - relevance: 相关度评分1-55最高 ## ⚠️ 已知陷阱 - 不要收录纯营销/广告内容 - 相关度评分低于 3 的不要收录 - 同一篇文章不要重复收录用 URL 去重 - 输出必须是合法的 JSON 格式 - 日期不能是未来日期 - 每条必须有真实的 URL不要编造链接这个文件是活的。每次 Agent 犯了新错比如编造了一个不存在的 URL你就在已知陷阱里加一条。正如 Terraform创始人 Mitchell Hashimoto 所说AGENTS.md 里的每一行都对应一个过去的 Agent 失败。Step 2编写验证脚本 verify.py5 分钟这是 Harness 的灵魂——自动质检员。Agent 生成的内容必须过这一关。创建 verify.py#!/usr/bin/env python3 verify.py - 技术日报的 Harness 验证脚本 import json import sys from datetime import datetime, timedelta from pathlib import Path def verify_report(file_path: str) - tuple: 验证研究日报是否符合 AGENTS.md 中定义的规范 errors [] warnings [] # 1. 文件存在性 path Path(file_path) if not path.exists(): return False, [f❌ 文件不存在: {file_path}], [] # 2. JSON 格式 try: with open(path, r, encodingutf-8) as f: data json.load(f) except json.JSONDecodeError as e: return False, [f❌ JSON 格式错误: {e}], [] # 3. 顶层结构 for key in [date, topic_focus, items]: if key not in data: errors.append(f❌ 缺少顶层字段: {key}) if errors: return False, errors, warnings # 4. 日期合法性 try: report_date datetime.strptime(data[date], %Y-%m-%d) if report_date datetime.now() timedelta(days1): errors.append(f❌ 日期不能是未来日期: {data[date]}) except ValueError: errors.append(f❌ 日期格式错误: {data[date]}) # 5. 条目逐一检查 items data.get(items, []) if len(items) 0: errors.append(❌ 条目列表为空至少需要 1 条技术动态) required_fields [ title, source, url, date, category, summary, insight, relevance ] valid_categories [ AI Agent, Harness Engineering, Context Engineering, MCP, LLM推理与优化, 多模态大模型, AI Coding, Vibe Coding, 其他 ] seen_urls set() for i, item in enumerate(items): tag f条目[{i}] # 必填字段 for field in required_fields: if field not in item or not item[field]: errors.append(f❌ {tag} 缺少或为空: {field}) # 分类合法性 cat item.get(category, ) if cat and cat not in valid_categories: warnings.append(f⚠️ {tag} 分类不在预定义列表: {cat}) # 相关度评分 rel item.get(relevance, 0) if not isinstance(rel, (int, float)) or rel 1 or rel 5: errors.append(f❌ {tag} 相关度必须在 1-5 之间: {rel}) elif rel 3: errors.append( f❌ {tag} 相关度 3不应收录: {item.get(title, ?)} ) # 摘要长度 summary item.get(summary, ) if len(summary) 100: warnings.append(f⚠️ {tag} 摘要超100字({len(summary)}字)) insight item.get(insight, ) if len(insight) 150: warnings.append(f⚠️ {tag} 洞察超150字({len(insight)}字)) # URL 去重 url item.get(url, ) if url in seen_urls: errors.append(f❌ {tag} URL 重复: {url}) seen_urls.add(url) has_errors len(errors) 0 return not has_errors, errors, warnings def main(): if len(sys.argv) 2: print(用法: python verify.py report.json) sys.exit(1) file_path sys.argv[1] print(f\n{*50}) print(f 开始验证: {file_path}) print(f{*50}\n) passed, errors, warnings verify_report(file_path) for msg in errors: print(msg) for msg in warnings: print(msg) print(f\n{*50}) if passed: print(f 验证通过共 {len(warnings)} 个警告。) print(日报格式正确可以发布。) sys.exit(0) else: print(f {len(errors)} 个错误, {len(warnings)} 个警告) print(请根据上述错误信息修复后重新验证。) sys.exit(1) if __name__ __main__: main()这个脚本做了什么关键理解这个脚本就是 Harness 的缰绳。Agent 不需要理解什么是好的日报——它只需要让 verify.py 返回exit code 0。用技术约束替代文字约束这就是 Harness Engineering 的精髓。Step 3在 CodeBuddy 中发起 Harness 循环2 分钟现在打开 VSCode确保你的文件夹里有这两个文件my-ai-research/ ├── AGENTS.md ├── verify.py └── output/ ← 创建一个空的 output 目录在 CodeBuddy 对话框中输入以下 Prompt请帮我完成今日的前沿 AI 技术研究日报 1. 先阅读 AGENTS.md了解研究方向和输出规范 2. 搜索最近 3 天内关于 AI Agent、Harness Engineering、MCP、 AI Coding 等领域的最新技术动态 3. 筛选出相关度 3 的内容按 AGENTS.md 定义的 JSON 格式生成日报文件 output/report_2026-03-26.json 4. 运行 python verify.py output/report_2026-03-26.json 验证 5. 如果验证不通过根据错误信息修复 JSON再次验证 6. 重复 4-5 直到验证全部通过 7. 最后将 JSON 转为可读的 Markdown 文件 output/report_2026-03-26.md ⚠️ 不要修改 verify.py严格遵循 AGENTS.md 中的所有约束。然后坐下来看它跑。你会看到什么如果一切顺利你会看到 CodeBuddy 经历这样一个过程读取 AGENTS.md… 了解到需要关注 AI Agent、Harness Engineering 等领域开始搜索最新技术动态… 找到 12 条相关内容筛选后保留 8 条相关度 3 生成output/report_2026-03-26.json 运行 verify.py…❌ 条目[3] 分类不在预定义列表: LLM ❌ 条目[5] 摘要超100字(127字) 修复条目[3]的分类为LLM推理与优化精简条目[5]的摘要再次运行 verify.py… 验证通过生成 Markdown 日报…注意看这个过程Agent 第一次生成的内容大概率不完美——分类写错了、摘要太长了。但因为有verify.py这个自动裁判它能自己发现问题、自己修复不需要你介入。这就是 Harness 的魔力你搭好了环境Agent 在环境里自我纠正。用一张图总结整个流程┌─────────────────────────────────────────────────────┐ │ 你只做这些 │ │ │ │ 写 AGENTS.md 写 verify.py ️ 发指令 │ │ 3 分钟 5 分钟 2 分钟 │ └──────────────────────┬──────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────┐ │ Agent 自己跑这些 │ │ │ │ 搜索 → 筛选 → 生成 JSON │ │ ↓ │ │ verify.py 验证 │ │ ↓ 失败 │ │ 自动修复 → 再次验证 → ... → ✅ 通过 │ │ ↓ │ │ 生成 Markdown 日报 │ └─────────────────────────────────────────────────────┘Step 4持续演进——Harness 的灵魂跑完第一次后你审阅日报可能会发现一些新问题“这条内容其实是广告软文Agent 没识别出来”“GitHub 仓库只有 3 个 star不值得收录”“有一条是 2 个月前的旧文章”不要去调 Prompt去更新 AGENTS.md## ⚠️ 已知陷阱 - 不要收录纯营销/广告内容 - 相关度评分低于 3 的不要收录 - 同一篇文章不要重复收录用 URL 去重 - 输出必须是合法的 JSON 格式 - 日期不能是未来日期 - 每条必须有真实的 URL不要编造链接 - 标题含震惊必看速看等营销词汇的相关度自动降 1 分 - GitHub 仓库必须有超过 100 star 才值得收录 - 超过 30 天的旧文章不收录除非是里程碑级别的如 OpenAI 官方发布 - 纯翻译/搬运外网内容的文章相关度降 1 分同时你也可以加强verify.py——比如加一个标题营销词检测# 在 verify.py 中新增检查 marketing_words [震惊, 必看, 速看, 赶紧收藏, 不看后悔] title item.get(title, ) if any(w in title for w in marketing_words): warnings.append(f⚠️ {tag} 标题含营销词汇请确认内容质量)每一次更新都让 Harness 变得更强。这就是飞轮效应。为什么这个例子能帮你理解 Harness Engineering让我们对照 Harness 的四大支柱看看这个简单例子覆盖了什么而且你还体验到了 Harness 最核心的理念你的工作不是写代码而是设计环境。你没有帮 Agent 搜索任何一篇文章没有帮它写任何一行JSON。你只做了三件事定义规则AGENTS.md、搭建质检verify.py、发出指令。剩下的Agent 自己搞定。进阶从能跑到好用如果你觉得这个初体验不错可以沿着这条路继续走Level 1 → Level 2加强验证# 在 verify.py 中加入 URL 可达性检查 import urllib.request def check_url(url, timeout5): try: urllib.request.urlopen(url, timeouttimeout) return True except: return False这样 Agent 就无法编造假链接了——用技术约束替代文字约束。Level 2 → Level 3自动化触发写一个简单的 shell 脚本每天早上自动触发#!/bin/bash # daily_research.sh - 每日自动研究 DATE$(date %Y-%m-%d) # 通过 CodeBuddy CLI 或 API 触发 Agent echo 开始生成 ${DATE} 的技术日报...Level 3 → Level 4无人值守验证通过后自动发送到企微群与昨日日报对比标记新增/消失的热点每周自动生成趋势分析报告┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │Day 1 │───▶│Week 1│───▶│Week 2│───▶│Month│ │ │ │ │ │ │ │ │ │手动跑│ │加强 │ │自动化│ │无人 │ │一次 │ │验证 │ │触发 │ │值守 │ └──────┘ └──────┘ └──────┘ └──────┘ 你在这里最后Harness Engineering 不是什么高深的理论。它的本质就是一句话与其教 AI 怎么做对不如搭一个环境让它做错了能自己发现、自己改正。你不需要一个复杂的项目才能开始。一个 AGENTS.md、一个 verify.py、一段 Prompt——10 分钟你就能完成自己的第一次 Harness Engineering。而当你看到 Agent 在验证失败后自动修复、再次验证、最终通过的那一刻你会真正理解这个概念为什么火了。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Vue3+java基于springboot框架的智慧养老云服务平台设计与开发

目录同行可拿货,招校园代理 ,本人源头供货商功能模块分析服务管理模块系统管理模块技术实现要点项目技术支持源码获取详细视频演示 ：文章底部获取博主联系方式！同行可合作同行可拿货,招校园代理 ,本人源头供货商功能模块分析用户管理模块支持老年人…...

2026/5/5 0:32:22 阅读更多 →

【权威实测】.NET 9边缘配置性能对比报告：启用后内存占用下降41.7%，启动耗时缩短至83ms——附完整Benchmark源码

更多请点击： https://intelliparadigm.com 第一章：.NET 9边缘配置的核心概念与演进背景 .NET 9 将边缘计算场景首次纳入官方支持的首要目标，其边缘配置（Edge Configuration）不再仅是运行时参数调优，而是融…...

2026/5/5 0:28:49 阅读更多 →

Transformer模型高效微调技术与实践指南

1. Transformer模型微调面临的挑战现代自然语言处理领域，Transformer架构已经成为事实上的标准模型。从BERT到GPT-3，这些基于Transformer的大型预训练模型在各种NLP任务上展现了惊人的性能。然而，当我们需要将这些通用模型适配到特定下游任务…...

2026/5/5 0:24:43 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/4 22:42:56 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/4 13:37:30 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/4 23:04:47 阅读更多 →