【太平洋科技快讯】近日,据相关曝料透露,深度求索计划于下个月发布其下一代AI大模型DeepSeek-R2。据悉,该模型在性能和成本上都取得了显著突破,并实现了全产业链的自主可控,有望对现有AI服务市场产生重大影响。
DeepSeek-R2采用了混合专家模型(MoE)架构,并结合了智能门控网络层(Gating Network),以优化高负载推理任务的性能。这种架构通过动态分配计算资源,使得模型能够更灵活、高效地处理复杂任务。此外,DeepSeek-R2的总参数量达到1.2万亿,几乎是上一代DeepSeek-R1的6710亿参数的两倍。
在训练和推理性能上,DeepSeek-R2表现出色。基于华为昇腾910B芯片集群进行训练,该模型在FP16精度下达到512 PetaFLOPS的计算能力,芯片使用效率高达82%,这一性能相当于英伟达上一代A100训练集群的91%。在推理方面,DeepSeek-R2的速度达到每秒320 tokens,比前代模型有显著提升,并且在复杂逻辑推理任务上的准确率提升了83%。
此外,DeepSeek-R2预计将比GPT-4的成本降低97%,这预示着其可能颠覆现有AI服务的定价模式。分析师预计,DeepSeek-R2的定价将显著低于OpenAI的同类产品,这无疑将极大地提升其市场竞争力。
本文转载于:https://www.sohu.com/a/890538408_223764 如有侵犯,请联系dddazheyh@163.com删除
丁丁打折网©版权所有,未经许可严禁复制或镜像 ICP证: 湘ICP备20009233号-2
Powered by 丁丁打折网本站为非营利性网站,本站内容均来自网络转载或网友提供,如有侵权或夸大不实请及时联系我们删除!本站不承担任何争议和法律责任!
技术支持:丁丁网 dddazhe@hotmail.com & 2010-2020 All
rights reserved