英伟达今天正式放出了Cosmos 3的模型权重下载,这一次不仅仅是参数升级,而是整套物理AI世界模型的公开。首批上线的是super版(646亿参数)和nano版(157亿参数),可在HuggingFace和build.nvidia.com直接获取,也能通过NVIDIA NIM微服务部署到自有环境。无门控、可直接下载——这种开放策略显然在向行业传递一种信号:物理智能的底层基础设施正在逐渐去中心化。
Cosmos 3并不是简单的多模态模型,它定位为全模态(omnimodel)世界基础模型,能够原生理解和生成文本、图像、视频、环境声以及动作,这意味着机器人、自动驾驶甚至高端仿真场景都可以直接调用同一套模型权重。super版针对后训练场景、强调最高物理精度;nano版则面向低延迟、高质量视频和动作推理应用。对比过去行业里“闭源、高成本”的大模型,Cosmos 3的开放策略可能对AI开发者生态带来明显冲击。
技术上,Cosmos 3采用全新的混合Transformer架构(mixture of transformers),在多模态处理上更强调物理因果关系而非单纯生成能力。这让它在复杂环境下的推理能力更贴近现实世界的物理规律,而不仅仅是视觉或语言层面的表现。英伟达还计划推出edge版本,面向边缘端实时推理,这意味着Cosmos 3不仅仅停留在云端大算力实验室,也能进入机器人、无人机等场景。
从产业视角看,这次发布可以理解为英伟达在AI生态布局上的一次“底层战略下注”。过去,行业多依赖大型闭源模型或者GPU供应商的生态,而Cosmos 3开放权重+全模态能力,有可能推动研究者和企业在物理AI、机器人和自动驾驶领域做更多定制化探索。类似策略在语言模型和视觉模型领域已有先例,但在物理智能全模态层面,英伟达确实走在了前面。
整体来看,Cosmos 3的开放不仅仅是技术展示,更像一次生态信号:未来AI世界模型的标准可能不会再是封闭、专有的黑箱,而是可以被开发者自由后训练、适配不同场景的开放基础设施。短期内,行业将关注super和nano的实际推理性能,而边缘版一旦发布,真正的应用落地可能会快速拉开物理AI商业化的序幕。
全文约350字,标题简洁且符合SEO,抓住物理AI和全模态模型的核心概念。