2026-04-17

PrismML发布三值模型降低AI算力门槛

摘要

在大模型持续向更高性能与更大规模演进的同时，如何降低资源消耗成为行业另一条重要探索路径。

在大模型持续向更高性能与更大规模演进的同时，如何降低资源消耗成为行业另一条重要探索路径。近日，AI研究公司PrismML推出名为Ternary Bonsai的语言模型系列，通过引入三值权重技术，在显著压缩模型体积的同时保持较高性能表现。这一进展被认为是端侧AI发展中的关键一步，也为移动设备运行高质量模型提供了新的可能性。在算力成本与能效比日益成为行业焦点的背景下，该技术路线的出现无疑具有现实意义。

具体来看，Ternary Bonsai系列覆盖了8B、4B和1.7B三种参数规模，满足不同应用场景需求。其中最受关注的是其采用的“1.58比特”权重表示方式，即将神经网络中的权重限制为-1、0和+1三种取值。相比传统的16位或更高精度模型，这种方式在存储上实现了数量级的压缩。例如，8B参数模型的权重文件仅约1.75GB，这对于动辄数十GB的主流模型来说是一次显著瘦身。与此同时，引入“0”值使得模型能够主动剔除冗余连接，从而在压缩过程中尽量减少性能损失。测试数据显示，该模型在基准评测中取得75.5的成绩，不仅优于其此前的1比特版本，也在单位显存性能上超过部分主流稠密模型。

除了体积优势，运行效率同样是这一系列模型的亮点之一。在苹果设备上的实测表现显示，8B版本可以达到每秒约27个token的生成速度，同时能效比提升约3至4倍。这意味着在智能手机或轻薄笔记本上，也可以实现接近云端模型的推理能力。值得注意的是，该模型已通过苹果MLX框架实现原生支持，开发者无需复杂适配即可部署使用。此外，模型以开源形式发布在Hugging Face平台，并采用较为宽松的开源协议，这也为社区进一步优化和扩展提供了空间。

从技术趋势角度分析，三值权重模型的出现反映出行业对“智能密度”的重新重视。过去几年，大模型的发展更多依赖参数规模的扩张，而如今，如何在有限资源下实现更高效的智能输出，逐渐成为新的竞争焦点。一个明显变化是，越来越多的研究开始关注模型压缩、量化以及稀疏化等方向，以期在性能与成本之间取得平衡。对于企业而言，这意味着可以在无需大规模算力投入的情况下部署AI能力；对于开发者来说，则降低了进入门槛，使更多创新应用得以落地。与此同时，端侧AI的兴起也推动了硬件厂商在芯片设计上向更高能效比倾斜，形成软硬件协同优化的趋势。

如果将这一进展放在更广泛的行业背景中，可以看到类似技术路径正在逐渐形成体系。从早期的模型剪枝到如今的低比特量化，再到三值甚至更复杂的离散权重表示，AI模型正经历一轮“轻量化革命”。一些科技公司已经在探索将大模型能力嵌入操作系统或终端设备，实现离线推理与隐私保护并存的应用场景。与此同时，开源社区的活跃也加速了这些技术的传播，使得创新不再局限于少数头部机构。值得注意的是，尽管压缩技术带来了诸多优势，但在复杂任务或高精度需求场景下，仍可能存在性能瓶颈，这也是未来需要持续优化的方向。

综合来看，PrismML此次发布的Ternary Bonsai系列，不仅是一项技术突破，也体现了AI发展路径的多元化。在算力资源约束日益突出的背景下，如何提升单位资源的智能产出，将成为决定竞争力的重要因素。可以预见，随着类似技术的不断成熟，更多高性能模型将走向端侧设备，推动AI从云端走向普及化应用。不过，短期内高精度与高效率之间的权衡仍将持续存在，行业或将在不同场景中形成分层发展的格局。