前言近年来AI的讨论焦点已从“模型有多大”转向“系统有多强”。Agentic AI智能体式AI的兴起正在重新定义推理、计算分工乃至软件商业模式。本文基于一系列技术讨论系统梳理了从Agent工作流到芯片架构、从商业模式到产业认知的关键逻辑。一、Agentic AI的本质从模型到分布式系统1.1 传统推理 vs. Agentic工作流传统大语言模型LLM的推理模式是“输入-输出”用户提出问题模型直接给出答案整个过程为一次性生成。Agentic AI则完全不同。它具备自主规划能力能将复杂任务拆解为多个步骤动态调用不同工具搜索引擎、命令行、API等并根据中间结果调整后续行动。因此Agentic AI本质上是一个多步骤工作流是一个包含规划、执行、记忆等模块的分布式软件系统而非单一模型。1.2 GPU与CPU的新分工在这一架构下计算负载被明确分开GPU加速“推理负载”工作流中的每一步——模型分析、文本生成、图像理解——仍是神经网络计算高度并行适合GPU处理。CPU负责“控制平面”规划决定先做什么后做什么、编排协调模型与工具的调用、存储维护对话历史与中间结果、工具执行运行外部代码、数据库查询等任务本质上是逻辑判断、分支跳转、I/O等待和状态管理高度串行且延迟敏感属于CPU-bound性能瓶颈在CPU。一个形象的类比CPU是项目管理者定计划、调资源、保存进度GPU是专家计算员专注处理数学计算。在Agentic AI中管理者频繁调度专家工作但管理者自身的规划与协调可能成为系统瓶颈。二、Agent的工作机制自动化“人机对话循环”2.1 核心闭环Agent的工作流程可以概括为“感知-规划-行动-观察”的闭环感知接收用户指令和当前环境状态规划LLM将大任务拆解为多个子步骤行动调用工具如命令行、API执行一个子步骤观察获取行动结果如命令输出、错误码循环将观察结果加入对话历史返回规划步骤决定下一步这一循环正是“多步骤工作流”的体现——每走一步都依赖上一步的结果。2.2 一个自然的问题Agent怎么知道命令运行结束了关键在于编排层的同步与超时机制同步执行Agent通过代码执行器运行命令系统会阻塞等待——命令进程结束后捕获其stdout、stderr和返回码然后将结果文本送回LLM。LLM不是“感知”到结束而是代码层等命令跑完后拿到结果。超时机制每个工具调用预设超时如60秒超时后强制终止并返回超时信息。异步回调对复杂操作可异步执行Agent启动任务后得到任务ID再通过轮询或回调等待完成信号。LLM收到的观察结果类似[命令执行完成 (退出码: 0)] 文件列表: file1.txt file2.txt。它据此决定下一步。2.3 与传统LLM的根本区别维度传统LLMAgent输出模式一次性输出多轮循环过程“世界知识” → 答案拆解 → 调用工具 → 看结果 → 再调用 → 最终输出状态传递无通过对话历史传递包含tool调用和输出Agent不是“想完再做”而是“边想边做做完看看接着想”。2.4 框架实现Agent的“胶水代码”框架本质上是一个事件循环消息代理负责协调LLM、工具和环境。其核心工作流程接管对话历史保存整段对话包含普通消息、工具调用请求、工具返回结果解析LLM输出检查响应类型——普通文本则发送给用户工具调用请求则解析出函数名和参数暂停LLM进入执行阶段执行工具在受控环境中运行命令、读写文件或发送网络请求打包结果并写回历史构造特殊格式的消息追加到对话历史中再次调用LLM带着更新后的历史重新调用LLM接口闭环继续框架就是一个路由器在LLM和外部世界之间建立双向管道。这也是为什么Agentic AI对CPU要求高——框架在不停地做条件判断、消息序列化、进程管理和I/O等待。2.5 CPU为什么成为瓶颈在Agent工作流中CPU需要处理高频决策while True循环中的大量分支判断序列化/反序列化将对话历史打包成JSON消耗大量CPU时间上下文切换系统调用fork进程、exec命令、wait结果I/O等待与事件循环管理网络响应、命令执行、文件读写一个典型场景用户要求“写代码-运行-报错-修改”框架正好循环4圈。对于复杂任务如自动网购可能循环50-100次。虽然GPU单次推理约2秒占主导但CPU总处理时间0.3秒×5015秒已不可忽略。更关键的是50次GPU推理串行依赖每次必须等上一步CPU处理完导致GPU大量空闲。优化Agent系统不能只看模型推理速度更要关注编排层CPU的效率——如流式解析、减少序列化开销、使用更高效的语言。三、芯片架构CPU被拉入HBM Domain3.1 Agent对带宽的新要求Agent场景下控制平面变得极其繁重KV Cache巨大对话历史多轮工具调用结果可达几十万tokenCPU需要快速读取、打包、通过PCIe送给GPU上下文切换频繁每执行一次工具都要读取一次完整对话状态Scale-up需求单张GPU装不下整个Agent状态需要多GPU多核CPU紧耦合如果CPU到GPU的带宽不够GPU就会频繁处于“等待数据喂过来”的空闲状态。3.2 NVIDIA Vera的方案 vs. 其他CPU方案数据路径瓶颈NVIDIA VeraHBM → NVLink-C2C → CPULPDDR无——NVLink-C2C带宽可达900 GB/s其他CPUx86HBM → PCIe Switch → 内存控制器 → CPUPCIe 5.0 x16仅约64 GB/s且多GPU共享时收敛严重NVIDIA通过私有协议和物理封装把CPU拉入HBM Domain高带宽内存域使CPU几乎像GPU的一个“特殊核心”访问GPU的HBM显存延迟极低。其他厂商则困在PCIe窄带上。3.3 “大家的课越补越多”NVIDIA从一开始就设计“CPU紧贴GPU”的架构不需要补课。其他厂商则面临发现PCIe不够用开始搞私有互联AMD的Infinity Fabric、Intel的UPI发现通用CPU内存带宽不足开始搞内存池化CXL协议发现Agent需要异构计算统一内存地址重新设计内存控制器这就像NVIDIA一开始修了8车道高速直连其他厂商先用2车道省道凑合现在发现车流暴增只好回头拆房子扩路基——工程量巨大且短期内难以追上。NVIDIA的优势不在于“带宽高”这个事实而在于从系统架构层面预判了Agent带来的数据移动压力并提前用私有技术锁定了物理极限。四、商业模式从卖Token到收Transaction Fee4.1 卖Token的逻辑与局限卖Token把三样东西打包成单价极低的商品软件价值模型训练成本、算法IP硬件价值GPU算力、HBM带宽、电力用户友好用多少付多少但问题在于“从软件到钱的路径太长”AI应用公司的收入来自用户订阅成本却是按Token付给云大厂。用户只看到App的价值钱却大部分流向了底层卖Token的云厂商。最终只有少数拥有GPU集群的大厂能规模盈利中小应用层被挤压——这就是“被大厂全吃掉”。4.2 Transaction Fee按结果付费Transaction Fee不是按生成的字符数收费而是按完成的任务/达成的结果收费模式计费单位示例Token生成的字符数用户问“写投诉信”模型输出500 token → 收500 token的钱Transaction Fee完成的任务/结果用户说“拿到航班延误赔偿”Agent自动处理最终用户收到200元 → 收5元或抽成2.5%Transaction Fee兑现的是Agent的能力规划多步骤、调用工具、处理异常、达成目标而不仅仅是基模和硬件的能力。这种能力很难被大厂的通用Token定价捕获因为它依赖业务逻辑、领域知识和环境交互。4.3 为什么Transaction Fee可能避免大厂通吃大厂擅长卖Token囤积GPU、优化模型、降低硅成本适合标准化、大规模的商品大厂不擅长收Transaction Fee需要深度绑定业务结果理解具体领域规则、对接垂直系统需要大量工程、运营、合规投入——极度垂直、长尾、非标准化专注特定领域的Agent开发商可以保留Transaction Fee的大部分收益只支付底层的Token成本给大厂。4.4 客户到底在买什么在开源遍地、AI能写代码的今天客户购买的优先级已经非常明确买“结果” 买“时间” 买“代码/软件”买代码/软件最底层传统许可证模式。客户会问“为什么不用免费的”买时间中间层SaaS或托管服务省去部署、维护的麻烦。当前主流但竞争激烈。买结果最顶层护城河最深客户不为软件、API调用付费只为“问题被解决”付费。例如“帮我打赢官司我分你20%”“让我的网站转化率提升15%我付你提升额的30%”。开源项目提供原料代码、模型但没有提供成品解决方案、结果。客户买的是确定性点一下问题就解决、责任与兜底跑崩了有人赔、端到端的体验无需命令行。变现路径建议如果你的软件直接解决高价值的“结果” → 走Transaction Fee护城河极深如果你的软件主要提供便利和节省时间 → 走SaaS订阅买时间需要极致易用性和垂直深度集成永远不要卖Idea——把Idea快速变成最小闭环服务直接去服务一个客户拿到第一笔按结果付的钱五、CUDA的护城河正在被Agent击穿但也在上移5.1 正在发生的事实“AI Agent for CUDA”已经存在。清华大学与字节跳动联合发布的CUDA Agent在KernelBench的Level-3最难任务上比torch.compile快92%性能超越Claude Opus 4.5约40%。其工作方式正是自主思考 → 编写CUDA内核 → 编译运行 → 分析性能瓶颈 → 迭代优化。有开发者用Claude Code在30分钟内将一个CUDA后端完整移植到AMD的ROCm平台无需手写一行代码。5.2 CUDA的两道护城河壁垒传统情况Agent时代的冲击专业知识垄断GPU微架构优化需多年经验Agent通过强化学习学会专业知识甚至发现人类忽略的优化组合迁移成本从CUDA迁移到ROCm需重写数千个算子Agent可自动完成跨平台移植实现“单样本跨平台知识迁移”5.3 护城河正在“上移”英伟达没有坐以待毙。如果纯CUDA编程层面的壁垒在消失它就把战场往上推了一层Vera CPU NVLink-C2C把CPU拉入HBM domain让“控制平面”Agent的编排、规划、状态管理也能享受超高带宽Agent Toolkit包含Nemotron模型、OpenShell运行时、AI-Q蓝图、NemoClaw部署单元——卖的不是CUDA而是“Agent运行的基础设施”编排税复杂Agent工作流中每步95%准确率的模型只有46%成功率而99%准确率能达到86%。目前只有Claude和GPT能达到这个质量标准——这个“编排层”的定价权可能比GPU本身更值钱结论CUDA作为纯编程模型护城河正在被AI Agent快速击穿。10年后可能没人手写CUDA。CUDA作为系统生态护城河反而在加固。AI Agent时代对“算力带宽编排”的紧耦合要求更高而英伟达是唯一拥有全栈集成能力的玩家。对手在补CUDA编程的课Agent能解决而英伟达在补系统架构的课Agent解决不了物理定律。六、推荐任务 vs. GenAI推理MTIA芯片的分工逻辑6.1 两类任务的根本区别维度推荐/排序任务GenAI推理典型场景信息流排序、广告点击率预估Llama类文本生成、代码补全计算模式大规模稀疏矩阵运算 小批量稠密稠密矩阵运算注意力FFN内存访问极度稀疏、随机、依赖Embedding表连续、可预测Batch Size极大数千到数万较小1到几十延迟要求极低50ms内相对宽松首次token ~200ms硬件瓶颈内存带宽Embedding表常驻HBM计算能力工作流特征规则明确、确定性强自回归、分支多、依赖上下文长度6.2 Meta MTIA路线图芯片状态目标任务设计哲学MTIA 300已量产推荐/排名稀疏小矩阵优化极致性价比MTIA 400实验室测试GenAI推理入门提升稠密计算能力MTIA 450/500规划中GenAI大规模推理对标H100/B200全栈优化核心逻辑推荐是基本盘MTIA 300确保Meta核心业务广告、内容分发的算力自主和成本可控GenAI是未来Llama系列是战略资产不能永远依赖英伟达分步走先解决推荐相对简单再攻克GenAI需要多代迭代这也与Agentic AI相关推荐任务是确定性的批处理控制平面简单而GenAI推理尤其Agent场景是动态、交互式的控制平面成为瓶颈。因此MTIA 400不仅要算得快还要与推理框架深度协同优化调度、KV Cache管理和批处理策略。七、一个“算对了数量没算对价格”的产业认知案例7.1 原始计算2018年Google一位专家说“AI要占据数据中心90%的计算”。当时有人算了一笔账假设AI占据90%计算量当时NVIDIA GPGPU性能是CPU的10倍那么GPGPU与Server CPU的出货量比例最多维持在1:1。Jeff Dean杰夫·迪恩Google 首席科学家、Google Brain 负责人 。2018 年前后他多次公开/内部表示未来 AI 会占据数据中心 90% 以上的计算资源。-他是 Google TPU、TensorFlow、Google Brain 的核心缔造者也是当时最有话语权的 AI 与基础设施大牛。-类似表述也常被 Cliff YoungGoogle 芯片/TPU 团队在 2018 年 Linley 会议上引用/呼应 但源头与最广为人知的是 Jeff Dean。这个物理计算在今天是正确的——数据中心GPU/NPU的出货量确实约等于或略低于Server CPU出货量。7.2 “但是”来了没想到的是GPGPU/AI NPU的价格是CPU的10倍。一枚顶级Server CPU约2000-5000美元一枚AI GPU如H100/B200约20000-40000美元虽然出货量接近1:1但销售额是10:1GPU远大于CPU。当出货量接近1:1.5时GPU销售额就是CPU的10-15倍。目前GPU/NPU年市场规模约2000-2500亿美元已贡献整个半导体行业约8000亿美元的25%收入。7.3 为什么价格能差10倍CPU卖的是“通用算力”商品化竞争激烈AMD、Intel、AWS Graviton单核性能提升缓慢云厂商有议价权GPU卖的是“稀缺加速”对AI任务比CPU快10-100倍CUDA生态锁定无法替换云厂商可转租给AI客户能赚回来产能受限供不应求7.4 可提炼的公理在科技行业稀缺性决定价格而性能只决定数量。当一项技术成为瓶颈时它的价格会脱离物理成本直奔“替代方案的机会成本”。AI训练目前几乎没有替代方案。八、如何建立产业认知可训练的四步法8.1 建立「坐标系」——判断信息价值固定三个核心维度所有信息往三个格子里放维度核心问题关键指标技术能不能做性能提升倍数、功耗、良率、架构代际产品做出来谁用客户是谁、解决什么场景、替代成本商业怎么赚钱定价模式、毛利率、市场份额看任何文章强制问它主要讲技术、产品还是商业如果三个都不是跳过。8.2 建立「时间轴」——看见变化而非状态选定关注的领域画出关键节点时间轴。例如AI芯片时间事件意义2018专家说AI占90%计算预言2018-2022GPU性能持续超越CPU技术验证2023H100发布单价3-4万美元价格变量出现2024-2025出货量接近CPU收入占比25%验证期关键心态不是背历史而是找“哪一年发生什么改变了后续逻辑”。8.3 建立「转换公式」——从物理量到经济量商业价值 (性能优势 × 稀缺程度) / (替代方案的可用性)性能优势比现有方案快/省多少稀缺程度有多少人能造替代方案客户有没有其他选择看到新产品强制做这个分析。8.4 建立「复盘的循环」——迭代自己的认知每月写一次针对关注领域写下对未来6-12个月的3-5个具体判断设定验证点到期复盘对了为什么错了忽略了什么产业认知不是背新闻而是一种思考框架的肌肉需要刻意训练。结语从Agentic AI的系统架构到芯片分工从Token商业模式到Transaction Fee的可能性从CUDA护城河的变迁到产业认知的训练方法一条清晰的线索贯穿始终AI正在从“模型中心”走向“系统中心”。理解这一转变需要的不仅是技术深度更是将技术指标转化为商业判断的能力——而这恰恰是可以通过刻意训练获得的。本文内容整理自相关技术讨论与问答记录仅作为个人学习笔记存档。