近日,Snorkel AI联合加州大学伯克利分校 rLLM 团队推出全新强化学习训练环境 FinQA,并已在由 Meta PyTorch 与 Hugging Face 共同维护的 OpenEnv 平台上开源发布。这一项目基于真实的 SEC 10-K 财务报告构建,被认为是当前少数真正贴近企业级数据场景的AI训练环境之一。
FinQA的数据来源涵盖22家上市公司,包括 Alphabet、亚马逊、苹果、美国银行以及波音等企业,共整理出290道由专家标注的财务问答任务。这些问题并不是简单的文本问答,而是围绕真实财报数据展开的结构化推理任务,强调模型对复杂金融表格与语义关系的理解能力。
在设计上,FinQA不仅提供数据,还为AI Agent搭建了一套完整的工具调用体系。系统包含四个核心MCP工具:列出可用财务表、获取表结构、执行SQL查询以及提交最终答案。特别值得注意的是,SQL执行规则被刻意限制,例如必须包含过滤条件,并禁止使用“SELECT *”这种全表查询方式。这种设计的目的,是迫使模型在推理过程中精准定位数据,而不是简单“搬空”整张表。
在实验阶段,Snorkel AI与伯克利团队对Qwen3-4B进行了强化学习微调,并在金融问答基准 SnorkelFinance 上进行了测试。结果显示,该4B参数模型取得了59.7%的得分,甚至超过了参数规模约60倍的 Qwen3-235B(得分51.37%)。与此同时,其推理成本下降约90%,在效率与性能之间展现出明显优势。
这一结果引发了业内对“大模型规模优势是否仍然绝对”的重新讨论。研究团队指出,大模型在未受约束的情况下容易出现幻觉问题,例如编造不存在的列名或忽视SQL规则,而经过强化学习训练的小模型反而在工具使用上更加稳定和准确。
换句话说,问题的关键不再只是“模型有多大”,而是“模型是否懂得如何使用工具”。FinQA实验强调了一种被称为“工具纪律”的能力,即模型在复杂任务中是否能够严格遵守结构化调用规则,而不是依赖自由生成能力。
从更长远的角度看,这一训练范式可能会改变企业级AI Agent的构建方式。传统方法往往依赖更大规模的基础模型,而FinQA则表明,通过高质量环境设计与强化学习,小模型同样可以在特定领域达到甚至超过大模型的效果。
目前,FinQA已作为OpenEnv上的首个开源环境发布,未来Snorkel AI计划进一步扩展至医疗、保险、法律等多个行业场景,构建覆盖多轮交互的企业级强化学习环境体系。
整体来看,这一项目不仅是一次金融AI训练工具的升级,更代表着Agent训练范式从“模型中心”向“环境与规则中心”的一次明显转向。