Anthropic就Claude Fable隐形护栏致歉,将使保护措施更透明
致歉声明Anthropic为其悄悄对新AI模型Claude Fable 5设置隐藏护栏的行为致歉。这些隐藏护栏会影响研究人员和竞争对手使用该模型来开发竞争系统。该公司表示将改变做法对于限制何时生效会更加透明即便这意味着Fable会拒绝更多查询。Fable模型情况Fable是Anthropic的Mythos类AI系统中首个广泛可用的模型。数月来该公司一直警告称这类模型对公众发布过于危险。Anthropic表示通过为Fable设置防止其回应某些“高风险”查询的保护措施已解决了部分风险。Anthropic称将限制Fable在蒸馏方面的回应蒸馏是一种利用大型AI模型的输出来训练小型AI模型的技术。处理方式改变在Fable的系统卡片中Anthropic表示将通过直接改变和降低模型答案的质量来处理它认为是蒸馏尝试的查询。用户不会收到触发安全措施的通知也不会被告知回复已被更改。Anthropic在X上发文称现在正在改变其对蒸馏的处理方式查询现在将转至Anthropic的上一代旗舰模型Claude Opus 4.8。Anthropic还会显著告知用户“每次发生这种情况时你都会看到提示。”类似处理方式这与Fable处理其他高风险领域查询的方式类似。当安全功能在生物学、化学和网络安全等领域被触发时查询将通过Opus 4.8进行处理除非根据公司更广泛的安全规则如涉及毒品、武器或其他违禁内容的规则被直接阻止。在某些情况下尤其是生物学领域保护措施的设置范围非常广泛以至于Fable实际上连基本查询都无法处理Anthropic发言人Paruul Maheshwary在对The Verge的评论中承认了这一点。错误权衡Anthropic在X上写道“可见的保护措施可以被探究因此必须足够强大而这需要时间来完善。隐形保护措施可以更有针对性使我们能够快速推出且误报极少。出于这个原因我们选择了隐形保护措施——但这是一个错误的权衡。你应该了解我们所设置的保护措施以及原因。我们很抱歉没有把握好平衡。”引发反对此前Anthropic决定悄悄限制疑似试图将Fable蒸馏成竞争模型的用户这一决定引发了AI研究社区的强烈反对。批评者警告称这种保护措施也可能影响试图评估前沿模型的第三方。在系统卡片中Anthropic表示较新模型加速AI发展的能力证明了针对这些请求的合理性并指出“使用Claude开发竞争模型已经违反了我们的服务条款”。Anthropic此前曾指责中国竞争对手如DeepSeek以“工业规模”不公平地蒸馏其模型。那么未来Anthropic在平衡模型安全与开放使用方面会有怎样的举措呢