【卷卷观察】Vibe Coding 和 Agentic Engineering 正在融合——Simon Willison 自己也慌了

张

张建站

2026/5/12 3:23:34

10分钟阅读

【卷卷观察】Vibe Coding 和 Agentic Engineering 正在融合——Simon Willison 自己也慌了

Simon Willison 最近在 Heavybit 的播客上讲了一句让我背后发凉的话。他说Vibe coding and agentic engineering are getting closer than Id like.翻译一下Vibe coding 和 Agentic Engineering 这两件事正在以我不太舒服的方式融合到一起。注意用词——他说的是 than Id like。不是我觉得这很有趣不是这是个值得关注的趋势。是比我想要的更近了。这人是 Django 联合创始人Datasette 作者在 AI 编程工具领域跟踪了两年多的深度使用者。如果他都说自己慌了这事儿值得我们认真看看。这篇文章在 Hacker News 上拿了 687 赞、768 条评论是整个五月 AI 话题里讨论量最大的一篇。结论先行AI编码正在撕掉辅助工具的标签。随着模型越来越靠谱即使是最谨慎的资深工程师也开始跳过代码审查这一步——不是因为懒是因为模型确实很少在简单任务上出错。这个趋势正在把Vibe Coding不审代码、靠感觉编程和Agentic Engineering专业工程师用AI提效之间的界限彻底抹掉。对程序员来说这是好事也是坏事——生产力暴涨但信任链条正在无声断裂。先把概念说清楚Vibe Coding vs Agentic Engineering这两个词如果你还不太分得清咱先对齐一下。Vibe Coding氛围编码Andrej Karpathy 在 2025 年初提出来的概念。就是你对着 AI 描述一下你想要什么AI 生成代码你跑一下看看对不对。如果不对再跟它说不对你再改改。整个过程你基本不看代码甚至不一定会编程。重点是你靠感觉vibe来判断结果好不好而不是靠技术评审。Simon 对 Vibe Coding 的态度一直很清晰对自己用的工具随便搞。但如果是给别人用的软件Vibe Coding 是极其不负责任的。因为别人的数据、别人的体验会因为你的 bug 而受损而你可能压根不知道这些 bug 存在。Agentic Engineering智能体工程Simon 自己造的词[^2]。意思是你是一个有经验的软件工程师你懂安全、懂可维护性、懂运维、懂性能优化。你使用 AI 编程 Agent 作为自己的副驾驶但最终决策权在你手里你对代码质量负责。核心区别在于——有没有人在把关。到目前为止这个区分是清晰的。但 Simon 发现在他自己的日常工作中这条线正在变得越来越模糊。问题出在哪里模型太靠谱了Simon 说了一段特别真实的话我知道如果你让 Claude Code 写一个 JSON API 端点它会做对。它不会搞砸这种事。你让它加自动化测试它加。你让它写文档它写。然后我就——不看这些代码了。这就是融合的起点。不是因为你懒。是因为经验告诉你对于一个标准的 JSON API SQL 查询的任务Claude Code 的正确率已经高到——你花 15 分钟逐行审查它的输出几乎肯定是在浪费时间。跟开车一样。新手时你紧握方向盘盯着路面五年后你可以在高速上单手扶着甚至偶尔瞥一眼手机。不是因为你的驾驶技术变差了是因为你的脑子和身体已经建立了一个大部分情况OK的信任模型。AI 编码也是一样。你用了 Claude Code 两个星期写了 200 个 API 端点它一个都没出错。到第 201 个的时候你大概率不会再审了。而这就是 Simon 说的融合。你做的是 Agentic Engineering 的事但你正在用 Vibe Coding 的方式对待它。信任黑洞代码没有信用分问题不止在不看代码这个行为本身。更深层的问题是——代码正在失去它作为一种信号的能力。Simon 说了一句话我特别认同以前你在 GitHub 上看到一个项目——100 个 commit漂亮的 README全面的测试覆盖——你基本可以确定作者在这个项目上花了很多心思。而现在我可以在半小时内生成一个同样有 100 个 commit、完美 README、逐行测试覆盖的仓库。他举的例子很扎心你看到两个项目长得一模一样都有漂亮的文档、完整的测试、清晰的提交历史。一个是用心写了三个月的手工代码另一个是一小时内 AI 吐出来的生成物。你现在根本分不清。他说Even for my own projects, I cant tell.——连自己写的项目他都分不清哪些代码自己看过哪些是 Agent 写的就直接合入了。这不是技术问题这是认知问题。代码作为一种质量信号正在被 AI 的产出能力稀释到一个毫无意义的地步。那什么信号还有价值Simon 的答案是使用记录。如果你有一个 Vibe Coding 做出来的东西你自己已经每天用了两周——那比一个刚生成出来、基本没跑过的项目有价值得多。代码质量不再能从静态指标判断了。唯一的证据变成了它真在真实世界里跑过而且没翻车。把 Agent 当成另一个团队——这个类比有用但也不够为了缓解不看代码就直接上线的罪恶感Simon 给自己找了个类比在大公司的时候你要调用另一个团队提供的服务——比如图片缩放服务。你不会去读那个团队写的每一行代码。你会看他们的文档用他们的 API 测试一下然后就上线你的功能了。如果出了 bug——你觉得性能不对或者偶尔返回错误——你才会去翻他们的代码仓库。但大部分时候你把它当成一个半黑盒。他说自己正在用同样的方式对待 AI Agent。但这个类比有个致命缺陷——人类团队有信誉。你可以说我信那个团队他们以前做的软件很好他们不会搞砸因为搞砸会影响他们的职业声望。Claude Code 没有职业声望。它不能为它写的东西负责。但它一次又一次地证明自己是对的。这就是 AI 编码的核心悖论你给它的信任不是基于它可以承担后果而是基于你觉得它能做对。而一旦这个觉得在某个关键时刻出错——这个错误可能比你看走眼一个人类团队严重得多。Simon 把这个叫异常化常态normalization of deviance——每次 Agent 写对了你没审查的代码你就会更信任它一点。每次信任增加一点你离出一个大错就更近一步。瓶颈转移代码便宜了什么变贵了这是一个被反复讨论但一直没被说透的问题如果你每天能写的代码量从 200 行变成 2000 行哪些东西会崩Simon 的答案是——整个软件开发生命周期都是基于人写代码很慢这个前提设计的。他引用了 Anthropic 设计负责人 Jenny Wen 的一个观察设计流程之所以那么长、那么严谨是因为如果设计错了、开发做了三个月才发现代价太大但如果开发不再需要三个月了呢如果错了改过来只要一天呢那也许设计流程也可以变得更大胆、更快速但反过来想如果代码本身不值钱了那什么值钱了需求定义— 你得比任何时候都清楚你要的是什么评估体系— Agent 产出 2000 行代码后你怎么知道它写对了系统设计— 单点代码可以由 AI 写但架构决策还是得人来拍信任链— 谁为 AI 写的代码负责这些都不会因为有了 Agent 就消失。它们只是从你会不会写代码变成了你知不知道该让 AI 写什么。程序员还安全吗这个问题每篇文章都要答一遍。Simon 的答案跟主流观点差不多AI 是经验放大器不是经验替代品。他的理由有两个第一跟 AI Agent 对话这件事本身对大多数人来说是天书。你随便找一个人看他跟 Claude Code 的真实对话记录那里面充满了修复那个类型错误把数据库查询改成 LEFT JOIN用 SQLite FTS5 做全文搜索。这些不是不会写代码的人能说得出来的。第二软件开发这件事本身难到超乎想象。你给全世界所有的 AI 工具我们要实现的目标仍然是极其困难的。他把这个类比成请水管工你可以看 YouTube 学会修水管但你不会想自己修。你宁愿花钱请个水管工。AI 编码也是一样——Matthew Yglesias 前两天的推文[^3]说得很好我决定了我不想自己 Vibe Code。我想要专业软件公司用 AI 帮我做出更好、更便宜的软件产品然后卖给我。那对于在职的程序员呢危险的不是被 AI 替代。危险的是你不会用 AI 而被别人替代。一个能用 Claude Code 把日产出从 200 行提到 2000 行的工程师跟一个坚持手写每一行代码的工程师——在同一个岗位竞争前者会把后者打得满地找牙。那怎么办Simon Willison 没说我们应该怎么做但他的话里能读出几条1. 继续审代码但审该审的。如果 Claude Code 写一个 JSON API 端点的正确率是 99.9%你把审查精力放在那 0.1% 的复杂场景上。重点是识别什么是它可能出错的。2. 建立使用过的才信文化。一个项目好不好不能看它有多少测试、多漂亮的文档。你要看有人用没用过、用了多久、出了什么问题。运行中的代码看起来好的代码。3. 评估体系比代码本身更重要。如果代码可以零成本生成你花最多时间的应该是验证它对不对而不是看它写得好不好。自动测试、集成测试、金丝雀发布、灰度上线——这些以前是加分项现在是必需项。4. 别把 AI Agent 当成人类来信任。你可以把它当成一个高效的队友。但它不会为错误负责不会有职业羞耻感不会因为搞砸了一个项目晚上睡不着觉。信任可以有但必须是有边界的信任。最后一句话Simon Willison 说vibe coding and agentic engineering are getting closer than Id like这句话里最让人在意的不是getting closer是than Id like。他跟这些工具打了两年多的交道写了上百篇分析文章是这个领域最冷静的观察者之一。连他都说than Id like——说明这件事的走向已经超出他自己的预期了。作为每天都在用这些工具写代码的人我也有同感。Agent 确实越来越好用了。好用到我自己也在不知不觉中从每行都审变成了看起来差不多就行。这不是说 AI 工具不好。恰恰相反——是太好了好到我们需要比以往任何时候都更警惕我们给它的信任。代码可以变便宜。信任不能。[^2]: Simon Willison, What is Agentic Engineering?, simonwillison.net/guides/agentic-engineering-patterns/[^3]: Matthew Yglesias 推文, 2026年5月5日: Five months in, I think Ive decided that I dont want to vibecode — I want professionally managed software companies to use AI coding assistance to make more/better/cheaper software products that they sell to me for money.

收藏！小白也能用自然语言玩转数据库，Text2SQL数据分析智能体入门指南

本文介绍了Text2SQL数据分析智能体，一种基于NLP和LLM的技术，能将自然语言指令转化为SQL，实现数据查询、验证和报告生成。它降低了技术门槛，适用于测试、分析和业务场景。文章详细阐述了其技术流程、挑战、Schema理解、自然语言处理…...

2026/5/12 3:23:32 阅读更多 →

揭秘Midjourney“红卷心菜”印相逻辑：为什么V6默认参数会意外激活氰版显影色谱？

更多请点击： https://intelliparadigm.com 第一章：Midjourney“红卷心菜”印相现象的发现与定义现象溯源 2023年秋季，多位Midjourney V5用户在生成高饱和度植物主题图像（尤其是紫甘蓝、甜菜根、红洋葱等）时&#xf…...

2026/5/12 3:19:37 阅读更多 →

【工程师专属搜索效率革命】：用Perplexity提升技术调研速度3.2倍？实测12类开发场景下的搜索转化率差异

更多请点击： https://intelliparadigm.com 第一章：Perplexity vs Google搜索对比核心定位差异 Perplexity 是面向知识探索的 AI 原生搜索引擎，强调推理链透明、引用可追溯与多轮对话上下文感知；而 Google 搜索是基于网页索引与…...

2026/5/12 3:19:36 阅读更多 →

CANN/pyasc Dump检查点功能

asc.language.basic.dump_acc_chk_point 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口，支持在昇腾AI处理器上加速计算，接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc asc.language.basi…...

2026/5/11 13:04:35 阅读更多 →