Cursor 近日发布了其最新的 Composer 2 技术报告,首次对外披露了完整的模型训练方案与性能评估细节。这一报告不仅展示了模型的技术底座,还详细说明了训练流程、强化学习机制以及评测体系,标志着其在大模型工程化与实际应用方面迈出了重要一步。
在底层架构方面,Composer 2 基于 Kimi K2.5 构建,该模型采用混合专家模型(MoE,Mixture of Experts)架构。其总参数规模高达 1.04 万亿,而在实际推理过程中激活的参数为 320 亿。这种设计能够在保证模型表达能力的同时,有效降低计算成本,使模型在复杂任务中依然保持较高效率。
训练过程被划分为两个阶段。第一阶段是在大规模代码数据上进行继续预训练(continued pretraining),主要目的是增强模型对编程语言结构、代码模式以及常见开发任务的理解能力。在这一阶段,模型重点学习如何更好地处理代码补全、函数调用以及结构化逻辑。
第二阶段则引入了大规模强化学习(RL),以提升模型在实际开发场景中的端到端编码能力。值得注意的是,整个强化学习环境并非简单的模拟,而是尽可能还原真实的 Cursor 使用场景。这些场景包括文件编辑、终端操作、代码搜索以及各类工具调用,使模型能够在接近真实生产环境的条件下进行学习和优化。这种训练方式有助于模型在面对复杂任务时具备更强的适应能力和执行能力。
在评测体系方面,Cursor 同步公布了自研基准 CursorBench 的构建方法。与传统依赖人工设计测试集不同,CursorBench 的任务数据来自工程团队的真实编码会话。这意味着测试场景更加贴近实际开发工作,能够更真实地反映模型在实际应用中的表现。这种数据来源方式也减少了人为偏差,使评测结果更具参考价值。
在性能对比中,底座模型 Kimi K2.5 在 CursorBench 上仅取得 36.0 分,而经过两阶段训练后的 Composer 2 则达到了 61.3 分,整体提升约 70%。这一显著提升说明强化学习结合真实场景训练,对模型能力的提升具有关键作用,也验证了训练方案的有效性。
除了性能表现,Cursor 还特别强调了推理成本的优势。相比 GPT-5.4 和 Claude Opus 4.6 等当前主流前沿模型的 API,Composer 2 在保持较高准确率的同时,推理成本明显更低。这种在性能与成本之间实现平衡的能力,使其在实际应用中更具竞争力。
从整体来看,Composer 2 的发布不仅展示了一套完整的训练体系,也体现了 Cursor 在工程实践上的思路,即通过贴近真实使用场景的训练和评估方式,提升模型在实际开发中的价值。这种“以用促学”的策略,使模型不再只是实验室中的技术成果,而是能够真正服务于开发者的工具。
随着大模型技术的不断发展,如何在性能、成本与实用性之间取得平衡,正成为行业关注的重点。Cursor 通过 Composer 2 给出了一种可行路径,即结合大规模预训练与真实场景强化学习,在实际应用中持续优化模型能力。这一方向,或许也将为未来 AI 编码助手的发展提供重要参考。