AI应用的成本问题,正在从“模型贵不贵”转向“用哪个模型更划算”。Factory这次推出的Router系统,本质上是在模型之间加了一层调度逻辑,把原本粗放的统一调用,拆成了更细的任务分发结构。
听起来像工程优化,但实际改变的是推理链路的经济模型。
这个模型路由器的工作方式并不复杂。任务进入系统后,先做一次复杂度评估,再决定调用哪一层模型:简单请求走低成本模型,只有在涉及复杂推理或多步骤逻辑时,才调用Claude Opus 4.7这类高性能模型。某种意义上,它更像一个“AI调度员”,而不是模型本身。
成本下降的数据给得很直接:token消耗降低20%到25%,同时在Terminal-bench 2测试中,整体表现接近Claude Opus 4.7的99%通过率,在Legacy-bench上也维持在96%左右。这组数字的微妙之处在于,它并没有牺牲太多性能,却在成本侧做出了明显切分。
这种结构在云计算行业并不陌生。早期的计算资源调度,本质上也是把不同任务分配到不同算力层级,只不过那时候的单位是CPU和内存,现在换成了大模型。
但AI路由的问题更复杂一点,因为它处理的不只是资源分配,还有“认知路径选择”。同一个问题,是否需要高级模型参与,本身就是一个概率判断问题。如果判断偏保守,成本会上升;如果判断偏激进,效果可能下降。
Factory的做法是把这个判断前置化,并嵌入到agent工作流里。也就是说,它不是在回答问题之后优化,而是在问题进入模型之前,就决定“谁来回答”。
这种机制对agent生态的影响会更直接。随着智能体逐渐承担更多自动化任务,它们的调用频率远高于传统聊天式AI。一个简单的客服或代码生成agent,可能一天调用上千次模型接口。如果每一次调用都使用同一档模型,成本曲线会非常陡峭。
路由器的意义就在这里被放大了。
它把“模型选择权”从开发者手里部分拿走,交给系统本身。开发者不再需要为每一步调用手动挑模型,而是设定策略边界,系统自动执行分层调用。这种变化有点像早期数据库从手写SQL走向自动优化执行计划。
从结果看,20%到25%的成本下降并不夸张,但在大规模agent系统里,这个比例会被放大成显著的边际收益。尤其是在企业级应用中,推理成本往往是最难压缩的一块。
值得注意的是,这种路由结构其实也在重塑模型厂商之间的关系。过去模型之间是替代关系,现在更像分工关系。低成本模型负责“覆盖面”,高性能模型负责“关键路径”,中间由路由系统决定调用权重。
如果这种模式成为主流,大模型市场可能会从“单模型竞争”逐渐走向“组合竞争”。厂商不再只卖模型能力,而是卖进入路由体系的资格。
Factory目前只在CLI和桌面端向部分用户开放测试,这个节奏也比较克制。原因不难理解,这类系统一旦进入生产环境,它影响的不只是体验,而是整个推理成本结构。一旦路由策略出现偏差,放大的不是延迟,而是账单。
更长周期看,这类模型路由器可能会成为AI基础设施的一层隐性标准。就像云计算中的负载均衡器一样,不直接被用户感知,但决定了资源如何被消耗。
AI系统正在从“调用模型”转向“调度模型”。而真正开始被交易的,已经不是模型能力本身,而是如何以更低成本组合这些能力的方式。