【太平洋科技快讯】近日,微软研究院宣布推出一款大型语言模型(LLM)——BitNet b1.58 2B4T,这款模型采用1.58 位低精度架构,仅占0.4GB。
BitNet b1.58 2B4T 拥有 20 亿参数,其核心创新在于采用了原生 1-bit 训练方式,而非传统的训练后量化。这种创新架构使得模型在保持高性能的同时,大幅降低了计算资源的需求。在性能方面,BitNet b1.58 2B4T 直追同规模的全精度模型,而在内存占用上,其非嵌入内存占用仅为 0.4GB,远低于同类竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。
据悉,BitNet b1.58 2B4T 模型摒弃了传统的 16 位数值,转而采用定制的 BitLinear 层,将权重限制为 -1、0 和 1 三种状态,形成三值系统。这种设计使得每个权重仅需约 1.58 位信息存储,极大地节省了内存空间。其次,层间激活值以 8 位整数量化,形成了独特的 W1.58A8 配置。此外,微软团队还调整了 Transformer 架构,引入了平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化等技术,确保了低位训练的稳定性。
微软团队的技术报告显示,BitNet b1.58 2B4T 在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流的 1B-2B 参数全精度模型。该模型在能耗和 解码延迟上具有显著优势,每 token 能耗仅为 0.028 焦耳,解码延迟低至 29 毫秒。
尽管已取得显著成果,微软团队并未止步。他们计划进一步优化 BitNet b1.58 2B4T,包括增强对 GPU 和 NPU 的支持,将上下文窗口延长至 4096 token,探索多语言模型的开发,以及研究更大规模模型的硬件协同设计方案。
目前,BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 平台发布,供社区测试与应用。然而,需要注意的是,其高效性依赖于微软提供的专用 C 框架(bitnet.cpp),标准工具(如 Hugging Face transformers 库)无法完全展现其速度与能耗优势。
本文转载于:https://www.sohu.com/a/886303324_223764 如有侵犯,请联系dddazheyh@163.com删除
丁丁打折网©版权所有,未经许可严禁复制或镜像 ICP证: 湘ICP备20009233号-2
Powered by 丁丁打折网本站为非营利性网站,本站内容均来自网络转载或网友提供,如有侵权或夸大不实请及时联系我们删除!本站不承担任何争议和法律责任!
技术支持:丁丁网 dddazhe@hotmail.com & 2010-2020 All
rights reserved