Claude Opus 4.8 发布:可靠性提升、快速模式成本降2/3,动态工作流强大!
可靠的 AI 追求人工智能公司 Anthropic 推出大型语言模型 Claude Opus 4.8承诺提供更可靠的 AI 回答。第欧根尼是公元前 4 世纪以行为艺术闻名的希腊哲学家传说他曾在中午提灯在雅典街头高呼寻找诚实的人放到现代人们都在找可靠的 AIAnthropic 认为 Claude Opus 4.8 或许能满足这一追求。该公司在周四的博客文章中提到Opus 4.8 最显著的改进之一是其可靠性。Anthropic 报告称Opus 4.8 不太可能做出没有根据的断言不确定答案时更可能告知用户评估显示与前代版本相比Opus 4.8 让其所编写代码中的缺陷不被察觉的可能性降低了约 4 倍。在 Claude Code 中Opus 4.7 相较于 4.6 有显著改进4.6 常误解指令或给出错误结果而 Opus 4.7 常告知最初处理问题的方式行不通并采用不同策略。鉴于从 4.6 到 4.7 的质量提升明显人们希望从 4.7 到 4.8 也有同样进步。至少 Shopify 的工程师汤姆·普里查德Tom Pritchard测试后认为情况确实如此他称 Claude Opus 4.8 的判断力明显更好在 Claude Code 中能提出正确的问题等是适合开发的模型。努力程度设置至少从 4.7 版本开始Claude Code 具备设置“努力程度”的功能“努力程度”是以令牌token衡量模型为解决问题投入多少 AI 算力的指标。在 Opus 4.8 中Claude Code 的高努力程度默认设置能产生该公司所说的“质量和用户体验的最佳整体平衡”。在编码任务中这个默认设置使用的令牌数量与 Claude Code Opus 4.7 的默认级别相似但性能更好。现在这种“努力程度”设置功能正应用到 Claude.ai 和 Cowork 中。设置更高的努力程度Claude 会“更频繁、更深入地思考”设置较低的努力程度Claude 响应更快用户也会发现其 AI 使用体验受限制的情况减少。动态工作流发布时动态工作流功能还未完全定义但很有意思。作为研究预览版推出的 Opus 4.8 可以规划工作在一个会话中运行数百个并行子代理并在反馈结果之前验证输出。这个功能是为大规模任务设计的Anthropic 给出的例子是对数十万行代码库进行迁移。看起来 Claude 可以随着任务的进展生成和管理工作流代理不必按照固定计划执行而是可以根据工作中发现的情况改变优先级和任务这可能会非常强大。Anthropic 表示子代理在向用户反馈结果之前会验证其结果。如果 Claude 要协调数百个子代理用户需要它能察觉不确定性、错误假设和失败的输出。有趣的是这与文章开头讨论的可靠性说法直接相关。如果 Claude 要启动“数千个代理”获得可靠且经过验证的结果非常重要因为人工监督根本无法跟上。动态工作流功能将向使用企业版、团队版和 Max 计划的 Claude Code 用户提供。价格和可用性Anthropic 表示Claude Opus 4.8 于周四通过 Claude 和 Claude API 以 claude - opus - 4 - 8 的名称在所有平台上可用。实际上特别是使用 Claude Code 时可能需要重新启动会话或者等上一两天Claude Code 才会识别到它。当 Anthropic 从 Opus 4.6 升级到 4.7 时一直询问 Claude Code 它使用的是什么模型直到第二天早上它才不再显示 Opus 4.6 而开始显示 Opus 4.7。自 Opus 4.7 以来整体定价没有变化。常规的基于令牌的定价仍然是每百万输入令牌 5 美元每百万输出令牌 25 美元。该公司表示快速模式能让模型以正常模式 2.5 倍的速度运行其成本将“比之前的模型降低三分之二”。虽然有人不使用快速模式但能理解它的吸引力。有人花了很多时间在 YouTube 上等着 Claude Code 回应提示至于希望 Claude 以较低的努力程度更快地响应还是以较高的努力程度思考更长时间欢迎在评论中交流。