丁丁打折网 - 网友优惠券分享网站,有688999个用户

京东优惠券 小米有品优惠券

当前位置 : 首页>电脑数码>SmolVLM AI视觉语言模型发布 拥有20亿参数适用于端侧推理

SmolVLM AI视觉语言模型发布 拥有20亿参数适用于端侧推理

类别:电脑数码 发布时间:2024-11-28 09:50

【太平洋科技快讯】近日,人工智能平台Hugging Face宣布推出一款创新的AI视觉语言模型——SmolVLM,并将该模型开源。这意味着所有相关的模型检查点、数据集、训练配方和工具都将按照Apache 2.0许可证向公众开放,便于更多研究者和技术人员使用和改进。

架构设计上,SmolVLM的借鉴了Idefics3的理念,采用SmolLM2 1.7B作为语言主干。通过独特的像素混洗策略,模型将视觉信息的压缩率提高至9倍,显著提升了处理效率。

SmolVLM使用了Cauldron和Docmatix数据集进行训练,同时对SmolLM2进行上下文扩展,使其能够处理更长的文本序列和多张图像。这些优化措施有效降低了内存占用,解决了大型模型在普通设备上运行缓慢甚至崩溃的问题。

在内存使用方面,SmolVLM表现出卓越的性能。它将384x384像素的图像块编码为81个tokens,相比同类模型Qwen2-VL,在相同测试图片下,内存占用大幅减少。在多项基准测试中,SmolVLM展现出优异的性能。其预填充吞吐量比Qwen2-VL快3.3到4.5倍,生成吞吐量更是快7.5到16倍。

丁丁打折网©版权所有,未经许可严禁复制或镜像 ICP证: 湘ICP备20009233号-2

Powered by 丁丁打折网本站为非营利性网站,本站内容均来自网络转载或网友提供,如有侵权或夸大不实请及时联系我们删除!本站不承担任何争议和法律责任!
技术支持:丁丁网 dddazhe@hotmail.com & 2010-2020 All rights reserved