大模型 API 调用成本优化：从 Token 计算到智能路由省 60% 费用

张

张建站

2026/5/13 12:34:52

10分钟阅读

一个日均 10 万次调用的项目月费从 $3000 降到 $1200没有降低服务质量。本文分享我们的完整优化路径。先搞清楚钱花在哪大模型 API 的计费模型很简单按 token 付费input 和 output 分别计价。费用 input_tokens × input_price output_tokens × output_priceToken 是什么大概来说英文约 4 个字符 1 token中文约 1.5-2 个字符 1 token。一句 “写一篇 500 字的产品介绍” 大约消耗 10 个 input token生成的 500 字大约消耗 350 个 output token。为什么要区分 input 和 output因为生成 token 比读取 token 计算量更大所以 output 单价普遍是 input 的 3-5 倍。这意味着控制输出长度往往比压缩 prompt 更划算。主流模型定价对比2025 Q1USD/百万 token模型InputOutput定位GPT-5.2$1.75$14OpenAI 旗舰GPT-5$1.25$10OpenAI 推理Claude Opus 4.6$5$25Anthropic 旗舰Claude Sonnet 4.6$3$15Anthropic 均衡Claude Haiku 4.5$1$5Anthropic 快速Claude Haiku 3.5$0.80$4Anthropic 经济Gemini 3.1 Pro$2$12Google 旗舰Gemini 2.5 Flash$0.30$2.50Google 均衡Gemini 2.5 Flash Lite$0.10$0.40Google 经济Gemini 2.0 Flash Lite$0.075$0.30极低成本DeepSeek V3~$0.27~$1.10开源高性价比关键洞察从最贵到最便宜价格相差 20-60 倍。如果你的所有请求都跑在 Claude Opus而其中 80% 的任务用 Haiku 也能完成你在白白多花 5 倍的钱。优化策略一选对模型这是最大的杠杆没有之一。先把业务请求按复杂度分层简单任务用便宜模型意图识别、实体抽取文本分类、情感分析简单 QA、FAQ 匹配格式转换、模板填充中等任务用均衡模型文档摘要、内容改写代码补全片段级多轮对话助手翻译专业领域复杂任务用旗舰模型完整功能模块的代码生成复杂推理、多步骤规划长文档深度分析需要反思和修正的 Agentic 任务举例一个客服机器人意图识别用 Gemini 2.0 Flash Lite$0.075/$0.30回复生成用 Claude Haiku 4.5$1/$5升级复杂问题时才调用 Claude Sonnet$3/$15。三个层次组合使用比全程用 Claude Sonnet 便宜 60-70%。优化策略二Prompt 工程减少 TokenPrompt 优化是最容易被忽视的成本点。一个写得啰嗦的系统提示每次请求都在白白消耗 input token。具体做法1. 压缩系统提示反面案例~200 tokens你是一个非常专业的、有丰富经验的客服助理你的工作是帮助用户解决问题。你应该始终保持礼貌和专业的态度用清晰易懂的语言回答用户的问题。如果你不知道答案你应该诚实地告诉用户并建议他们联系人工客服。请用中文回答所有问题。正面案例~50 tokens你是客服助手用中文简洁回答问题。不确定时建议联系人工客服。效果完全等价节省 75% 的系统提示 token。日均 10 万次调用每次节省 150 tokens一个月节省 4.5 亿 tokens。2. 精简 Few-Shot 示例Few-shot 是提升效果的好工具但例子不是越多越好。2-3 个高质量示例通常比 10 个普通示例效果更好而且成本低很多。3. 避免在每次请求里重复传递大型上下文如果你的应用每次都把完整的用户历史记录塞进 context这会让 input token 快速膨胀。考虑使用滑动窗口——只保留最近 N 轮对话或者先做一次摘要再传递。Anthropic 的 Prompt Caching 功能值得利用把固定的系统提示和文档放到缓存后续请求复用缓存内容只需支付 10-30% 的 cache read 费用而不是每次都支付完整 input 费用。优化策略三智能路由如果你已经在用 AI API 网关这是成本优化的进阶玩法。按任务复杂度动态路由不需要等模型生成完才知道任务难度很多情况下可以在请求阶段就判断请求里包含大量代码 → 可能是复杂任务路由到旗舰模型纯文字问答长度 100 字 → 大概率是简单任务路由到经济模型带有tools参数函数调用→ 结构化输出要求高用支持度更好的模型基于成本的路由算法在多个 provider 都支持同一个标准模型时优先选当前成本最低的路由。比如anthropic/claude-sonnet-4.6可以通过 Anthropic 直连或 AWS Bedrock 调用两者成本略有差异取决于 AWS 合同价格和 Anthropic 零售价的比较网关层可以自动选更便宜的。在 TheRouter 里路由算法可以在priority按优先级和lowest_cost按成本之间切换也可以通过请求参数provider.order指定偏好顺序。优化策略四缓存相似请求对于重复性高的场景语义缓存可以直接跳过模型调用。完全一致的请求哈希缓存内容完全相同的请求直接返回缓存结果成本为零。适合 FAQ、固定模板的批量任务。语义相似的请求向量缓存先把请求 embedding和缓存库里的历史请求做相似度比较超过阈值比如 0.95就返回缓存。实现成本稍高但对用户查询场景效果显著。注意事项缓存会牺牲实时性。如果你的场景对内容时效性要求高比如查询最新股价或者响应强依赖当前时间、用户状态就不适合做语义缓存。一个电商客服场景实测对 “这个商品能退货吗” 类的问题70% 以上的查询通过语义缓存命中当天的 API 调用量直接减少了一半。优化策略五用 max_tokens 控制输出长度这是最容易操作但最常被忽略的优化点。output token 贵那就别让模型无限生成。大多数任务都有合理的输出上限# 意图识别 - 最多返回 50 tokensresponseclient.chat.completions.create(modelanthropic/claude-haiku-4.5,messages[...],max_tokens50# 明确限制)# 摘要任务 - 限制在 200 tokens 以内responseclient.chat.completions.create(modelanthropic/claude-sonnet-4.6,messages[{role:user,content:用 150 字以内总结以下文章...}],max_tokens200)不设max_tokens时模型可能生成到允许的最大值。Claude Sonnet 的max_completion是 64000 tokens——如果你的任务只需要 200 tokens 的输出不加限制就是在等待并支付本不需要的 token。此外在 prompt 里明确要求简洁也有效果。“用一句话回答”、限制在 100 字以内这类指令通常能让模型生成更精炼的输出。实际案例月费从 $3000 降到 $1200某 SaaS 产品核心功能是 AI 辅助写作润色、扩写、摘要日均 API 调用约 10 万次。优化前状态所有请求统一使用 Claude Sonnet当时定价 $3/$15系统提示约 400 tokens包含大量指令说明无max_tokens限制平均 output ~800 tokens月均消耗约 30 亿 input tokens 24 亿 output tokens月费约 $3000优化步骤第一步分级路由节省约 35%分析日志发现请求分布大致如下45% 是润色/语气调整——短文本输入输出难度低35% 是内容扩写——需要一定创意难度中等20% 是深度分析/长文摘要——需要理解复杂内容难度高调整后润色任务路由到 Claude Haiku$1/$5扩写用 Gemini 2.5 Flash$0.30/$2.50深度分析仍用 Claude Sonnet。加权平均成本大幅下降。第二步压缩系统提示节省约 15%把 400 tokens 的系统提示精简到 80 tokens功能完全保留。同时启用 Anthropic Prompt Caching固定的系统提示部分缓存后只收 30% 费用。第三步设置合理的 max_tokens节省约 25%按任务类型设置不同的max_tokens上限润色max_tokens500原始文本的 1.5 倍扩写max_tokens1000摘要max_tokens300深度分析max_tokens2000实际平均 output 从 800 tokens 降到约 420 tokens。优化后结果月均消耗约 18 亿 input tokens 12 亿 output tokens但模型成本大幅降低月费约 $1200总节省60%且用户满意度没有下降A/B 测试验证。用量监控没有数据就没有优化所有优化都依赖清晰的成本可见性。你需要知道每个接口/功能的平均 token 消耗不同模型的调用分布高消耗请求的 prompt 特征实际 output 长度分布找出可以缩短的余量TheRouter 的 Dashboard 提供按模型、按 API Key、按时间段的用量分析可以看到每次请求的 token 明细和费用。结合这些数据你才能找到最值得优化的点而不是凭感觉乱调。总结大模型成本优化没有银弹但有清晰的优先级选对模型——价格差 20-60 倍这是最大的杠杆控制输出长度——output 比 input 贵 3-5 倍设好max_tokens精简 Prompt——把啰嗦的系统提示压缩配合 Prompt Caching智能路由——网关层自动按任务类型分发到合适的模型语义缓存——对重复性高的查询缓存是最便宜的模型先做 1 和 2大概率就能省掉 40-50% 的费用全部做完60% 完全可以实现。如果你想在不自建网关的情况下实现多模型管理、智能路由和成本追踪可以试试 TheRouter——一个 API Key统一接入所有主流大模型Dashboard 提供完整的用量和成本分析。

Win11Debloat全方位系统优化：开源工具助你重塑Windows性能与隐私安全

Win11Debloat全方位系统优化：开源工具助你重塑Windows性能与隐私安全【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to de…...

2026/5/13 12:33:31 阅读更多 →

XianyuAutoAgent智能客服：7×24小时值守系统如何颠覆闲鱼运营模式

XianyuAutoAgent智能客服：724小时值守系统如何颠覆闲鱼运营模式【免费下载链接】XianyuAutoAgent 智能闲鱼客服机器人系统：专为闲鱼平台打造的AI值守解决方案，实现闲鱼平台724小时自动化值守，支持多专家协同决策、智能议价和上下…...

2026/5/13 12:32:59 阅读更多 →

前端使用AI试水报告

这，是一个采用C精灵库编写的程序，它画了一幅漂亮的图形： 复制代码 #include "sprites.h" //包含C精灵库 Sprite turtle; //建立角色叫turtle void draw(int d){for(int i0;i<5;i)turtle.fd(d).left(72); } int main(){ …...

2026/5/8 5:53:40 阅读更多 →

CANN/pyasc Dump检查点功能

asc.language.basic.dump_acc_chk_point 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口，支持在昇腾AI处理器上加速计算，接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc asc.language.basi…...

2026/5/12 13:10:28 阅读更多 →