【太平洋科技快讯】英伟达近日推出了全新自动语音识别(ASR)开源模型Parakeet TDT 0.6B。该模型仅需1秒即可处理长达60分钟的音频文件,其处理速度是现有主流开源ASR模型的50倍。同时,在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B的字错率(WER)低至6.05%,在开源模型中表现优异,为实时转录、语音分析、呼叫中心智能化以及音频内容索引等企业级应用提供了强大支持。
Parakeet TDT 0.6B基于先进的Transformer架构,采用6亿参数的编码-解码结构,并利用高质量转录数据进行微调。此外,该模型还针对英伟达硬件进行了优化,通过量化和融合内核技术提升了推理效率,并支持TDT(Transducer Decoder Transformer)架构。
除了速度和精度,Parakeet TDT 0.6B还内置了多项独特功能。该模型还支持将歌曲内容转录为歌词,这一功能在音乐索引和媒体平台中具有广泛的应用前景。此外,该模型还支持数字和时间戳格式化,能够显著提升会议记录、法律转录和医疗记录的可读性。标点恢复功能的加入,则进一步增强了下游自然语言处理(NLP)应用的表现。
本文转载于:https://www.sohu.com/a/892937553_223764 如有侵犯,请联系dddazheyh@163.com删除
丁丁打折网©版权所有,未经许可严禁复制或镜像 ICP证: 湘ICP备20009233号-2
Powered by 丁丁打折网本站为非营利性网站,本站内容均来自网络转载或网友提供,如有侵权或夸大不实请及时联系我们删除!本站不承担任何争议和法律责任!
技术支持:丁丁网 dddazhe@hotmail.com & 2010-2020 All
rights reserved