过去两年,大模型行业习惯用参数规模、测试分数和排行榜名次证明实力。但随着模型能力不断逼近人类专业工作场景,新的竞争指标开始出现——谁能真正完成一项复杂工作,而不仅仅是回答一个问题。
Anthropic最新发布的Claude Fable 5,显然希望占据这个叙事高地。
从官方披露的数据来看,Fable 5被定位为首个向公众开放的Mythos级别模型。在FrontierCode的Diamond难度编程测试中,其得分达到29.3%,不仅大幅领先Claude Opus 4.8的13.4%,也远超GPT-5.5的5.7%。单纯从基准测试看,这已经不是小幅领先,而是出现了一定程度的代际差距。
不过,比起排行榜数字,更吸引企业客户的可能是另一组数据。
Stripe在内部测试中让Fable 5处理一个拥有5000万行代码的大型Ruby系统迁移项目。按照Anthropic的说法,模型在一天时间内完成了此前需要工程团队工作两个月左右的任务。
这类案例之所以受到关注,不只是因为效率提升。
过去的大模型更像高级搜索引擎或者代码助手,擅长局部优化;而Fable 5所展示的方向,是长时间保持上下文理解、跨模块协调和持续执行能力。换句话说,行业竞争正在从“单次推理能力”转向“持续工作能力”。
这也是为什么越来越多AI公司开始强调Agent(智能代理)概念。
企业采购AI产品时,真正愿意付费的场景往往不是写一封邮件,而是能够代替部分知识工作流程。代码重构、数据分析、系统迁移、财务审计、法律文件整理,本质上都属于长链条任务。模型能否连续工作数小时甚至数天,正在成为新的价值判断标准。
有意思的是,Anthropic此次没有把重点全部放在性能宣传上。
与Fable 5一同亮相的,还有一套更复杂的安全控制体系。当模型识别到网络安全、生物研究等高风险请求时,会自动切换至Claude Opus 4.8处理,而不是由Fable 5直接响应。
这种设计透露出一个行业变化。
模型能力增长的速度已经快到连开发者自己都开始谨慎。过去大家担心模型“不够聪明”,如今头部厂商更多担心模型“过于能干”。
尤其是在漏洞挖掘、自动化攻击、生物工程等领域,更强的推理能力意味着更高的潜在风险。Anthropic采用独立安全分类器进行实时判断,据称仅影响不到5%的会话。这意味着绝大多数用户不会察觉限制存在,但高风险场景会被动态隔离。
从商业角度看,这其实是一种平衡术。
如果安全限制过多,模型竞争力下降;如果完全开放,又可能面临监管和声誉风险。Anthropic正在尝试建立一种“能力开放、风险分层”的运营模式。
价格策略同样值得关注。
Fable 5的API定价为每百万输入Token 10美元、输出Token 50美元,相比测试版本降价超过一半。表面看是价格调整,背后却反映出整个行业正在经历成本战。
过去一年,模型厂商普遍依赖性能提升维持高定价。但随着算力效率改善和竞争加剧,降价正在成为获取开发者生态的重要手段。Anthropic显然不希望让价格成为用户迁移的障碍。
某种意义上,Fable 5的发布不仅是一款新模型上线,更像是AI产业进入下一阶段的信号。
模型能力的比拼仍在继续,但焦点已经从“谁最聪明”转向“谁最能干活”。对于企业客户而言,一个能持续执行复杂任务、成本更低且风险可控的模型,远比单纯刷新测试纪录更具吸引力。
接下来,大模型行业或许会进入一个新的周期:排行榜仍然重要,但真正决定市场份额的,可能是那些能够接管实际工作流程的AI系统。Claude Fable 5正在试图证明,它属于这一类产品。