2026-04-01

PrismML发布1-bit Bonsai大模型轻量化AI或改写端侧算力格局

摘要

近日，由加州理工学院数学家Babak Hassibi联合创立的人工智能实验室PrismML正式结束早期隐身阶段，并发布其开源1-bit Bonsai系列大语言模型。

近日，由加州理工学院数学家Babak Hassibi联合创立的人工智能实验室PrismML正式结束早期隐身阶段，并发布其开源1-bit Bonsai系列大语言模型。这一系列模型的推出，在AI基础模型领域引发了较大关注，尤其是在模型压缩与端侧部署能力方面带来了新的技术思路。

此次发布的旗舰模型为1-bit Bonsai 8B版本，总参数量达到82亿，但其内存占用仅约1.15GB，相较同级别采用16-bit精度的模型（通常约16GB内存占用），压缩幅度接近14倍。同时，PrismML还同步开源了更轻量的4B版本（约0.5GB）以及1.7B版本（约0.24GB），进一步覆盖不同算力设备的应用场景。

与传统模型不同的是，Bonsai 8B被定义为“端到端1-bit模型”，其嵌入层、注意力机制、MLP结构以及输出层全部采用+1或-1的二值权重表示，不再依赖常见的高精度浮点补偿机制。这种设计使其在理论上彻底摆脱了传统神经网络对高精度计算的依赖，也成为该项目最具争议和创新性的部分。

PrismML方面表示，该模型在标准语言理解与推理基准测试中的表现，已经接近同级别16-bit全精度模型水平。这一结果如果成立，将意味着在极低内存占用条件下仍可保持较强的语言能力，对当前AI模型部署方式可能形成冲击。

从工程实现来看，该模型的核心压缩算法由加州理工团队历时数年研究完成，相关知识产权归加州理工所有，而PrismML拥有独家商业授权。在训练层面，Bonsai模型使用谷歌v4 TPU完成训练过程，显示其仍依赖大规模算力基础设施完成底层优化。

在实际运行测试中，该模型在不同设备上展现出较高的推理速度。例如在M4 Pro Mac设备上可达到约136 tokens/s，在RTX 4090显卡上约为440 tokens/s，而在iPhone 17 Pro Max上仍可运行约44 tokens/s。相比之下，同等规模的16-bit模型甚至无法完整加载到移动设备中，这也凸显出1-bit模型在端侧部署上的优势。

在能耗方面，PrismML指出，该模型相比传统16-bit模型可降低约4到5倍能耗，而这一优势主要来源于内存占用的大幅减少与计算复杂度下降。但团队也坦言，当前主流硬件并非为1-bit计算专门设计，因此性能优势尚未完全释放。如果未来出现专门针对1-bit运算优化的硬件架构，仅通过加减法替代乘法运算，整体效率可能还会再提升一个数量级。

资本市场对该项目也表现出较强兴趣。PrismML已完成1625万美元SAFE及种子轮融资，投资方包括Khosla Ventures、Cerberus Capital以及加州理工学院本身。Khosla Ventures创始人Vinod Khosla评价称，这一成果“不是简单的模型优化，而是数学层面的突破”。

从行业角度来看，1-bit Bonsai的意义不仅在于模型压缩本身，更在于它尝试重新定义AI计算的底层逻辑。如果这种极端量化方式能够在更多任务中保持稳定表现，未来AI模型或将进一步向“轻量化+端侧化”方向演进，对现有GPU依赖型训练与推理体系形成补充甚至挑战。