Kyle Wiggers 太平洋时间2025年4月16日上午8:48

微软的研究人员声称他们已经开发出迄今为止最大规模的1-bit AI模型,也称为“bitnet”。这个模型名为BitNet b1.58 2B4T,它已根据MIT许可证公开提供,并且可以在包括苹果M2芯片在内的CPU上运行。

本质上,Bitnets是为在轻量级硬件上运行而设计的压缩模型。在标准模型中,权重(weights)是定义模型内部结构的值,通常会对它们进行量化(quantized),以便模型在各种机器上都能良好运行。量化权重会降低表示这些权重所需的比特数(bits,计算机可以处理的最小单位),从而使模型能够在内存更少、速度更快的芯片上运行。

Bitnets将权重量化为仅三个值:-1、0和1。从理论上讲,这使得它们比当今大多数模型在内存和计算效率方面都更高。

微软的研究人员表示,BitNet b1.58 2B4T是第一个具有20亿参数的bitnet,“参数(parameters)”在很大程度上与“权重(weights)”同义。研究人员声称,BitNet b1.58 2B4T在一个包含4万亿个tokens的数据集上进行训练(相当于大约3300万本书,据估计),其性能优于类似规模的传统模型。

需要明确的是,BitNet b1.58 2B4T并没有完全超越竞争对手的20亿参数模型,但它似乎表现良好。根据研究人员的测试,该模型在包括GSM8K(小学水平的数学题集合)和PIQA(测试物理常识推理能力)在内的基准测试中,超过了Meta的Llama 3.2 1B、Google的Gemma 3 1B和Alibaba的Qwen 2.5 1.5B。

更令人印象深刻的是,BitNet b1.58 2B4T比其他同等规模的模型速度更快——在某些情况下,速度是它们的两倍——同时使用的内存也少得多。

然而,有一个问题。

要实现这种性能,需要使用微软的自定义框架bitnet.cpp,但目前该框架仅适用于某些硬件。在支持的芯片列表中没有GPU,而GPU在AI基础设施领域占据主导地位。

总而言之,bitnet可能具有前景,特别是对于资源受限的设备。但兼容性是一个很大的障碍,而且可能仍然是。

主题 AI, bitnet, Microsoft