2026-03-31
币链网 loading...

Snorkel AI开源FinQA:用强化学习重塑金融问答与Agent训练方式

摘要
近日,Snorkel AI联合加州大学伯克利分校 rLLM 团队推出全新强化学习训练环境 FinQA,并已在由 Meta PyTorch 与 Hugging Face 共同维护的 OpenEnv 平台上开源发布。

近日,Snorkel AI联合加州大学伯克利分校 rLLM 团队推出全新强化学习训练环境 FinQA,并已在由 Meta PyTorch 与 Hugging Face 共同维护的 OpenEnv 平台上开源发布。这一项目基于真实的 SEC 10-K 财务报告构建,被认为是当前少数真正贴近企业级数据场景的AI训练环境之一。

FinQA的数据来源涵盖22家上市公司,包括 Alphabet、亚马逊、苹果、美国银行以及波音等企业,共整理出290道由专家标注的财务问答任务。这些问题并不是简单的文本问答,而是围绕真实财报数据展开的结构化推理任务,强调模型对复杂金融表格与语义关系的理解能力。

在设计上,FinQA不仅提供数据,还为AI Agent搭建了一套完整的工具调用体系。系统包含四个核心MCP工具:列出可用财务表、获取表结构、执行SQL查询以及提交最终答案。特别值得注意的是,SQL执行规则被刻意限制,例如必须包含过滤条件,并禁止使用“SELECT *”这种全表查询方式。这种设计的目的,是迫使模型在推理过程中精准定位数据,而不是简单“搬空”整张表。

在实验阶段,Snorkel AI与伯克利团队对Qwen3-4B进行了强化学习微调,并在金融问答基准 SnorkelFinance 上进行了测试。结果显示,该4B参数模型取得了59.7%的得分,甚至超过了参数规模约60倍的 Qwen3-235B(得分51.37%)。与此同时,其推理成本下降约90%,在效率与性能之间展现出明显优势。

这一结果引发了业内对“大模型规模优势是否仍然绝对”的重新讨论。研究团队指出,大模型在未受约束的情况下容易出现幻觉问题,例如编造不存在的列名或忽视SQL规则,而经过强化学习训练的小模型反而在工具使用上更加稳定和准确。

换句话说,问题的关键不再只是“模型有多大”,而是“模型是否懂得如何使用工具”。FinQA实验强调了一种被称为“工具纪律”的能力,即模型在复杂任务中是否能够严格遵守结构化调用规则,而不是依赖自由生成能力。

从更长远的角度看,这一训练范式可能会改变企业级AI Agent的构建方式。传统方法往往依赖更大规模的基础模型,而FinQA则表明,通过高质量环境设计与强化学习,小模型同样可以在特定领域达到甚至超过大模型的效果。

目前,FinQA已作为OpenEnv上的首个开源环境发布,未来Snorkel AI计划进一步扩展至医疗、保险、法律等多个行业场景,构建覆盖多轮交互的企业级强化学习环境体系。

整体来看,这一项目不仅是一次金融AI训练工具的升级,更代表着Agent训练范式从“模型中心”向“环境与规则中心”的一次明显转向。

币安是全球货币交易所龙头

提供200+种加密货币交易,24小时交易量超过300亿美元

欧易是领先的数字交易平台

支持400+交易对,提供现货、合约、理财等多种服务

声明:文章不代表本网观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部