Agent 系列（18）：成本与性能优化——省钱且更快

张

张建站

2026/6/11 4:23:53

10分钟阅读

Agent 的钱花在哪里一次 Agent 调用的成本拆解：输入 Token 构成：系统提示固定，每次调用都付工具定义（Schema）固定，注册多少工具就付多少对话历史随轮次线性增长检索内容动态输出 Token：模型思考过程 ReAct 的 Thought 部分工具调用参数每次工具调用最终回复用户看到的答案延迟构成： LLM 推理时间占绝大部分（通常 90%）工具执行时间通常 10%，但串行叠加可观优化方向只有两个：减少 Token 数和减少等待时间。本文用四个实验量化每种策略的实际收益。Demo 1：Token 成本拆解——系统提示瘦身系统提示在每次调用时都会发送给模型，是最容易被忽视的固定成本。两版系统提示对比：MINIMAL_PROMPT="You are a helpful assistant."# → 6 tokensVERBOSE_PROMPT="""You are an extremely helpful, knowledgeable, and professional AI assistant for WonderLab's enterprise software platform. You specialize in providing accurate weather information... Always be thorough, comprehensive, and leave no important detail unexplained."""# → 107 tokensToken 对比：Minimal ( 6 tokens): 'You are a helpful assistant.' Verbose (107 tokens): 'You are an extremely helpful...' 每次调用多付: 101 tokens101 tokens 听起来不多。按 GPT-4o 输入 $2.50/1M tokens 计：每天 1 万次调用 → 每天多花 $0.25每天 100 万次调用 → 每天多花 $25，每月 $750延迟测量（2 次采样，同一 Query）：Agent Run 1 Run 2 Avg Answer Minimal 6.90s 3.39s 5.15s The current weather in Beijing is 25°C... Verbose 3.10s 4.21s 3.66s The current weather in Beijing is 25°C...Verbose 的平均延迟反而比 Minimal 更低——这是反直觉的结果。原因：2 次采样完全不足以测量 LLM 延迟。API 返回时间受服务端负载影响，波动区间通常是 ±50%。要得到可靠的延迟数据，至少需要 10-20 次采样后取中位数。这条系统提示延迟差异本质上是噪声。系统提示精简的收益是Token 成本，不是延迟。延迟优化需要别的手段。Prompt Caching（进阶）：Claude API 和 OpenAI API 支持显式的提示缓存。在 Claude 中：response=client.messages.create(model="claude-sonnet-4-6",system=[{"type":"text","text":LARGE_SYSTEM_PROMPT,"cache_control":{"type":"ephemeral"},# 标记为可缓存}],messages=[...],)# 首次调用：写入缓存（正常计费）# 后续同前缀调用：命中缓存，约 90% 成本折扣print(response.usage.cache_read_input_tokens)# 命中数print(response.usage.cache_

12503华夏之光永存：黄大年茶思屋榜文125期第3题面向语义和情感认知的语音encoder技术

华夏之光永存：黄大年茶思屋榜文125期第3题面向语义和情感认知的语音encoder技术摘要原题指标：通用语音encoder需同时输出准确的语义与情感表征；语义理解鲁棒性：安静普通话场景流式识别字准率≥99%，复杂场景&#x…...

2026/6/11 4:22:16 阅读更多 →

QRemeshify深度解析：Blender专业四边形重拓扑插件完全指南

QRemeshify深度解析：Blender专业四边形重拓扑插件完全指南【免费下载链接】QRemeshify A Blender extension for an easy-to-use remesher that outputs good-quality quad topology 项目地址: https://gitcode.com/gh_mirrors/qr/QRemeshify QRemeshify是一…...

2026/6/11 4:20:53 阅读更多 →

如何掌握Leantime打造高效敏捷团队协作平台

如何掌握Leantime打造高效敏捷团队协作平台【免费下载链接】leantime Leantime is a goals focused project management system for non-project managers. Building with ADHD, Autism, and dyslexia in mind. 项目地址: https://gitcode.com/GitHub_Trending/le/leantime …...

2026/6/11 4:15:53 阅读更多 →

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其核心能力之一即为外链跳转。目…...

2026/6/10 17:09:16 阅读更多 →

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能对加密压缩包进行自动化测试密码项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经面对一个加密…...

2026/6/10 1:59:41 阅读更多 →

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？ 【免费下载链接】sticky A sticky notes app for the linux desktop 项目地址: https://gitcode.com/gh_mirrors/stic/sticky 在Linux桌面上，你是否经常需要快速记录一闪而过的灵…...

2026/6/10 19:11:44 阅读更多 →

YOLO11部署优化：OpenVINO推理 | 在Intel CPU上利用OpenVINO异构推理加速，无需GPU也能实时检测

我在Intel i7-13700上实测，YOLO11n经过OpenVINO INT8量化后推理延迟从原始的92ms降至19ms，配合异构调度实现CPU+GPU双核并行后进一步压缩到11ms，无需独立GPU即可跑满30FPS实时检测写在前面：一个被低估的部署痛点过去两年，我在三个不同的工业视觉项目中遇到同样的困境—…...

2026/6/10 7:12:49 阅读更多 →