AI Agent 的难点,不在搭 Demo,而在让人敢交任务
Agent难在让人敢托付很多团队做 Agent 的误会是把跑通一次当成好用。现在搭一个 Demo 确实不难。一个大模型几段提示词接几个搜索、表格、浏览器或数据库工具很快就能演示一个会拆任务、会调用工具、会输出结果的流程。看起来像产品录屏也很顺。真正麻烦的是用户不会只给它一次好处理的任务。用户会改需求会给含糊材料会中途打断会要求它记住前文会让它碰到权限、格式、网络、登录态、脏数据和异常页面。Agent 一旦进入这种环境难点就从模型聪明不聪明变成系统能不能稳住。这张图把 Demo 与生产系统放在一起看落差通常不是模型调用而是权限、状态、回滚和评测。好用 Agent 至少要过几道坎。任务边界要清楚。它不能把所有话都当成命令也不能遇到不确定就硬往下做。一个报销 Agent 如果不知道哪些发票能自动归类哪些必须让人确认迟早会把效率工具变成风险来源。工具权限要收住。很多 Agent Demo 喜欢展示它能读邮件、改表格、点网页、发消息。可真正上线时能做什么不重要默认不能做什么更重要。权限太大模型一次误判就可能外发内容、覆盖数据、触发错误交易。这张清单更像上线前的评审板可复现、最小权限、失败回滚和人工确认都比炫技更关键。状态管理也很难。人做事会记住自己刚刚为什么这样判断Agent 如果只靠上下文窗口很容易在长链路里丢掉中间状态。它要知道任务进到哪一步哪些信息已确认哪些结果只是草稿哪些动作已经执行。这里更像传统软件工程而不是聊天机器人。再往后是评测。聊天模型可以拿一批问答看准确率Agent 要看任务完成率、失败原因、异常恢复、人工介入次数、工具调用成本。OpenAI 的 Computer-Using Agent 技术材料里OSWorld 这类真实桌面任务的成功率仍明显低于人类水平这恰好说明长链路操作不是写几个提示词就能抹平。这张故障时间线提醒一个现实Agent 常常不是输在不会回答而是输在一步错、后面全错。对企业来说Agent 能不能落地不取决于演示时有多像魔法而取决于它能不能让业务人员敢把一小块真实工作交出去。这个过程通常会从窄任务开始客服知识检索、销售线索整理、合同条款初筛、运营报表生成、研发工单分派。任务越窄边界越清楚越容易形成可控闭环。对个人开发者来说别一上来就做全能助理。更稳的做法是选一个痛点很具体的流程把输入、工具、输出、异常和确认节点写死一部分让模型在可控范围内发挥。Agent 的价值不在它显得像人而在它能替人稳定完成一段烦、重复、容易出错的工作。所以这件事看似是 AI 产品问题底层更像工程纪律问题。Demo 证明模型有想象力生产系统证明团队有边界感。只有后者过关用户才会把任务真的交给它。