丁丁打折网 - 网友优惠券分享网站,有688999个用户

京东优惠券 小米有品优惠券

当前位置 : 首页>手机平板>全国运营商首个!华为联合湖北移动完成AI推理加速现网测试:Token吞吐率大增372%

全国运营商首个!华为联合湖北移动完成AI推理加速现网测试:Token吞吐率大增372%

类别:手机平板 发布时间:2026-06-26 06:55

6月26日消息,据“华为数据存储”公众号消息,在2026 MWC上海展期间,华为与中国移动通信集团湖北有限公司(以下简称“湖北移动”)联合宣布,双方已成功完成全国运营商首个AI推理加速解决方案现网测试。

此次测试基于华为OceanStor A800存储与昇腾A3超节点架构,并搭载UCM(Unified Cache Manager,推理记忆数据管理)能力,在长序列AI推理场景下,实现Token吞吐率最高提升372%的突破性成果,为运营商智算业务的高效部署提供了重要技术支撑。

据介绍,本次测试在湖北移动现网环境中部署vLLM-Ascend框架,面向MiniMax M2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。

测试结果显示,在MiniMax M2.5模型场景下,启用UCM后,首Token延迟(TTFT)优化26%至62%,单NPU卡Token输出效率(TPS)也获得明显提升。

其中,在64K序列长度下,TPS提升58%;在128K序列长度下,TPS提升78%。

在GLM-5.1模型场景下,UCM带来的加速效果更加明显,TTFT优化幅度达到51%至93%,TPS提升56%至372%。

具体来看,在64K序列长度下,TPS提升313%;在128K序列环境下,TPS最高提升372%。

华为表示,测试结果表明,随着上下文长度不断增加,AI推理加速方案的优势将持续放大,有效解决了长序列推理中的KV Cache容量瓶颈。

对于运营商而言,这意味着在大模型推理、智能客服、内容生成、行业智能体等长序列AI业务场景中,现网智算资源有望获得更高利用效率,同时降低长上下文推理带来的性能压力。

全国运营商首个!华为联合湖北移动完成AI推理加速现网测试:Token吞吐率大增372%

丁丁打折网©版权所有,未经许可严禁复制或镜像 ICP证: 湘ICP备2023003002号-11

Powered by 丁丁打折网本站为非营利性网站,本站内容均来自网络转载或网友提供,如有侵权或夸大不实请及时联系我们删除!本站不承担任何争议和法律责任!
技术支持:丁丁网 dddazhe@hotmail.com & 2010-2020 All rights reserved