2026-03-31

Snorkel AI开源FinQA：用强化学习重塑金融问答与Agent训练方式

摘要

近日，Snorkel AI联合加州大学伯克利分校 rLLM 团队推出全新强化学习训练环境 FinQA，并已在由 Meta PyTorch 与 Hugging Face 共同维护的 OpenEnv 平台上开源发布。

近日，Snorkel AI联合加州大学伯克利分校 rLLM 团队推出全新强化学习训练环境 FinQA，并已在由 Meta PyTorch 与 Hugging Face 共同维护的 OpenEnv 平台上开源发布。这一项目基于真实的 SEC 10-K 财务报告构建，被认为是当前少数真正贴近企业级数据场景的AI训练环境之一。

FinQA的数据来源涵盖22家上市公司，包括 Alphabet、亚马逊、苹果、美国银行以及波音等企业，共整理出290道由专家标注的财务问答任务。这些问题并不是简单的文本问答，而是围绕真实财报数据展开的结构化推理任务，强调模型对复杂金融表格与语义关系的理解能力。

在设计上，FinQA不仅提供数据，还为AI Agent搭建了一套完整的工具调用体系。系统包含四个核心MCP工具：列出可用财务表、获取表结构、执行SQL查询以及提交最终答案。特别值得注意的是，SQL执行规则被刻意限制，例如必须包含过滤条件，并禁止使用“SELECT *”这种全表查询方式。这种设计的目的，是迫使模型在推理过程中精准定位数据，而不是简单“搬空”整张表。

在实验阶段，Snorkel AI与伯克利团队对Qwen3-4B进行了强化学习微调，并在金融问答基准 SnorkelFinance 上进行了测试。结果显示，该4B参数模型取得了59.7%的得分，甚至超过了参数规模约60倍的 Qwen3-235B（得分51.37%）。与此同时，其推理成本下降约90%，在效率与性能之间展现出明显优势。

这一结果引发了业内对“大模型规模优势是否仍然绝对”的重新讨论。研究团队指出，大模型在未受约束的情况下容易出现幻觉问题，例如编造不存在的列名或忽视SQL规则，而经过强化学习训练的小模型反而在工具使用上更加稳定和准确。

换句话说，问题的关键不再只是“模型有多大”，而是“模型是否懂得如何使用工具”。FinQA实验强调了一种被称为“工具纪律”的能力，即模型在复杂任务中是否能够严格遵守结构化调用规则，而不是依赖自由生成能力。

从更长远的角度看，这一训练范式可能会改变企业级AI Agent的构建方式。传统方法往往依赖更大规模的基础模型，而FinQA则表明，通过高质量环境设计与强化学习，小模型同样可以在特定领域达到甚至超过大模型的效果。

目前，FinQA已作为OpenEnv上的首个开源环境发布，未来Snorkel AI计划进一步扩展至医疗、保险、法律等多个行业场景，构建覆盖多轮交互的企业级强化学习环境体系。

整体来看，这一项目不仅是一次金融AI训练工具的升级，更代表着Agent训练范式从“模型中心”向“环境与规则中心”的一次明显转向。