再探 Harness Engineering 该做点什么？

张

张建站

2026/4/21 16:49:39

10分钟阅读

最近在搞 Agent 或 AI Coding 的同学基本都绕不开一个词 —— Harness。很多人第一反应是 “是不是又一个新概念”但你真在业务里踩过坑就会发现这玩意儿不是锦上添花是救命用的。前几天看到 Lychee Technology 的一篇文章《Your AI Isnt Stupid — It Just Needs a Better Harness》讲得挺实在。今天我们就结合 Go 工程视角把这件事拆开聊清楚怎么用工程化手段把大模型驾驭住。一个现实例子在写 Agent 的时候很多人都遇到过类似场景给模型安排一个长链路任务前面几步执行得非常漂亮甚至让你觉得 “这波稳了”。但是很无奈的是一旦跑到中后段它开始逐渐失控要么胡说八道要么输出结构开始漂移最后直接给你吐一个少括号的 JSON。然后你的 Go 服务一接var resp PriceResponse _ json.Unmarshal(raw, resp) // boom直接 panic。这类问题本质上就是长链路的不确定性累积爆炸。很多同学第一反应是改 Prompt“必须返回合法 JSON”“绝对不能省略字段”“请严格遵守格式”说实话这套在短链路还行一旦链路变长基本就是玄学。这时候思路就得变了从 Prompt 工程 → RAG → Harness 工程。核心思想一句话总结不要指望模型变聪明要让系统变严格。什么是 Harness 工程简单来说Harness 就是一层包在 LLM 外面的 “执行壳”。在这个体系下模型不能直接对用户说话模型不能直接调用外部系统所有输入输出必须经过 “检查点”可以理解为模型只是一个 “函数”而 Harness 才是 “运行时”。约束大于指导强契约与校验这个点在 Go 里特别好理解。与其在 Prompt 里祈求模型 “返回正确格式”不如直接用结构体校验兜底。type PriceResponse struct { Price float64json:price Currency stringjson:currency } func ValidateLLMOutput(rawJSON []byte) (*PriceResponse, error) { var resp PriceResponse // 结构校验 if err : json.Unmarshal(rawJSON, resp); err ! nil { returnnil, fmt.Errorf(契约校验失败: %v, err) } // 业务校验 if resp.Currency { returnnil, errors.New(缺少必须的 Currency 字段) } return resp, nil }可以看到这其实就是经典的 Go 风格写死规则不信任输入。如果失败怎么办本地重试Fail locally不让脏数据进入后续链路这比你在 Prompt 里写 10 行 “请务必返回 currency 字段” 靠谱多了。状态外置记忆与持久化很多人刚写 Agent 会踩一个坑把状态全放在上下文里。问题在于Context Window 是有限的Token 一旦超了前面的信息直接被截断也就是说你的 “记忆” 是会丢的。工程上正确做法是状态外置。type AgentState struct { TaskID string json:task_id Completed []string json:completed InProgress string json:in_progress } func SaveState(ctx context.Context, state AgentState) error { data, err : json.Marshal(state) if err ! nil { return err } return os.WriteFile(state.json, data, 0644) }每完成一个步骤就落一次状态。这样即使API 超时、进程崩溃、模型抽风等。都可以从断点继续。这其实就是把 Agent 当成 “分布式任务系统” 来做。应对上下文焦虑这里有个很有意思的现象上下文焦虑。当 Token 使用接近上限比如 70% 以上模型会出现开始省略步骤回答变短逻辑变乱这时候很多人会做摘要压缩但效果有限。更硬核的做法是直接重启上下文if float64(tokensUsed)/float64(maxContext) 0.7 { // 保存状态 SaveState(ctx, currentState) // 终止当前 Agent cancelCurrentAgent() // 拉起新实例 StartNewAgentInstance(currentState) }简单粗暴但有效kill → restore → continue这在 Go 服务里实现成本很低但收益非常高。利用外部工具Tool而不是纯靠模型这里有一个很多人一开始都会踩的坑把大模型当成万能执行器。比如查数据 → 让模型“猜”计算 → 让模型“推”调 API → 让模型“编参数”问题在于模型本质上是在“生成”不是在“执行”。一旦信息不完整它就会开始“补全”说白了就是编。所以 Harness 的一个关键转变是让模型负责决策让工具负责执行。工具层本质是一个“受控执行环境”在一个健康的 Harness 架构里模型决定要不要调用工具Harness校验调用工具工具返回确定性结果但有一个很关键的点工具的输出不能直接喂回模型。因为数据可能过大爆 Token内容可能重复可能包含噪音。所以必须经过一层处理例如排序只保留关键结果去重避免信息膨胀截断控制上下文大小等操作。这样通过工具调用的结果就算更准确更有效更省 token。社区观点关于大模型怎么用社区一直是 “各打各的”搞微调卷 Prompt做 RAG。但一旦进入长链路工程化落地这些方案都会遇到同一个问题不可控性无法被彻底消除这时候Harness 派的思路就很明确了用工程手段把 “不确定性” 压缩到局部。这就是为什么有了驾驭工程这一说法的缘来。总结可以看到AI 开发正在发生一个很明显的转变早期谁 Prompt 写得好中期谁 RAG 做得全现在谁 Harness 做得稳哪怕刚开始写 Agent也建议优先把这几件事做好状态外置Schema 校验重试 backoffToken 控制工具调用剩下的再慢慢优化。至于未来会怎么发展大概率不是模型 “无限变强”而是 Harness 越来越标准化。甚至不排除未来会出现类似 “LLM Runtime” 的基础设施层。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

PyTorch 1.7.1环境下，如何用Awesome-Backbones快速切换并对比MobileNetV2/V3的性能？

PyTorch 1.7.1环境下轻量级模型横向评测实战：MobileNetV2/V3性能对比与选型指南当你在资源受限的设备上部署图像分类任务时，选对模型往往能事半功倍。想象一下这样的场景：你的边缘设备只有2GB内存，却需要在200ms内完成图像识别&a…...

2026/4/21 16:48:18 阅读更多 →

3步解锁：如何快速解密RPG Maker加密资源文件？

3步解锁：如何快速解密RPG Maker加密资源文件？ 【免费下载链接】RPG-Maker-MV-Decrypter You can decrypt RPG-Maker-MV Resource Files with this project ~ If you dont wanna download it, you can use the Script on my HP: 项目地址: https://gitc…...

2026/4/21 16:48:17 阅读更多 →

别再只盯着PSNR了！图像修复/超分实战中，SSIM、LPIPS、FID到底该怎么选？

图像修复与超分实战：如何科学选择评估指标？ 当你熬了几个通宵训练出的超分辨率模型在测试集上PSNR值爆表，但生成的图像却让产品经理皱起眉头说"看起来怪怪的"时，作为工程师的你是否感到困惑？这种"指标很…...

2026/4/21 16:47:32 阅读更多 →

从T3到T5：全志工控处理器性能跃迁与工业应用场景深度解析

1. 全志T3与T5处理器核心架构解析全志T3（A40I）和T5（T507）作为两代工控处理器，在核心架构上有着显著差异。T3采用四核Cortex-A7架构，主频1.2GHz，搭配Mali400MP2 GPU，属于经典的"…...

2026/4/21 5:14:24 阅读更多 →

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全图解实战）一、前言二、列出 ES 所有索引：整体流程流程图三、Elasticsearch 列出所有索引：核心命令3.1 方法1：_cat/indices（最常用、运维…...

2026/4/21 5:14:28 阅读更多 →

SAP PI/PO HTTPS接口调用实战：从SSL证书导入到彻底告别iaik.security.ssl.SSLCertificateException

1. 当SAP PI/PO遇到HTTPS接口报错时发生了什么？ 最近在帮客户调试SAP PI系统调用外部HTTPS接口时，遇到了一个让人头疼的问题。系统在调用Swagger Petstore的API时，控制台突然抛出"iaik.security.ssl.SSLCertificateException: Peer cert…...

2026/4/21 5:14:31 阅读更多 →