丁丁打折网 - 网友优惠券分享网站,有688999个用户

京东优惠券 小米有品优惠券

当前位置 : 首页>电脑数码>小米发布Xiaomi MiMo开源大模型 7B参数超越o1-mini

小米发布Xiaomi MiMo开源大模型 7B参数超越o1-mini

类别:电脑数码 发布时间:2025-04-30 15:44

【太平洋科技快讯】4 月30 日,小米大模型团队通过“Xiaomi MiMo”公众号宣布,正式开源其首个专为推理任务设计的大模型 - Xiaomi MiMo。这款模型在数学推理和代码竞赛等公开测评集上表现出色,仅用 7B 参数便超越了 OpenAI 的闭源推理模型 o1-mini 以及阿里 Qwen 的更大规模开源推理模型 QwQ-32B-Preview。

MiMo 的卓越推理能力得益于预训练和后训练阶段的数据和算法创新。在预训练阶段,MiMo 团队着重挖掘富含推理信息的语料,并合成了约 200B tokens 的推理数据。通过三阶段逐步提升难度的训练,MiMo 总共接受了 25T tokens 的训练,从而“见识”了更多推理模式,为后续的推理能力打下了坚实基础。

在后训练阶段,MiMo 团队引入了高效稳定的强化学习算法和框架,进一步提升了模型的推理能力。他们提出了 Test Difficulty Driven Reward(测试难度驱动奖励)机制,以缓解困难算法问题中的奖励稀疏问题,并引入了 Easy Data Re-Sampling(简单数据重采样)策略,以稳定强化学习(RL)训练过程。

此外,MiMo 团队还设计了 Seamless Rollout(无缝展开)系统,该系统使得 RL 训练加速 2.29 倍,验证加速 1.96 倍,大大提高了训练效率。

本文转载于:https://www.sohu.com/a/890864717_223764 如有侵犯,请联系dddazheyh@163.com删除

丁丁打折网©版权所有,未经许可严禁复制或镜像 ICP证: 湘ICP备20009233号-2

Powered by 丁丁打折网本站为非营利性网站,本站内容均来自网络转载或网友提供,如有侵权或夸大不实请及时联系我们删除!本站不承担任何争议和法律责任!
技术支持:丁丁网 dddazhe@hotmail.com & 2010-2020 All rights reserved