当前位置:首页 > 每日看点 > 正文内容

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?

卡卷网6个月前 (05-07)每日看点136

Nvidia 发布 Parakeet V2,一款新的开源自动语音识别 AI,核心亮点:一秒钟转录一小时的音频;Open ASR 上的顶级模型,击败了 ElevenLabs 的 Scribe 和 OpenAI 的 Whisper;6.05% 的单词错误率;CC-BY-4.0 许可下可用。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第1张

基本信息:基于 FastConformer-TDT 架构,有 6 亿参数,用于高质量英语转录,支持标点、大小写和时间戳预测,遵循 CC-BY-4.0 许可,可全球部署。适用于需要语音转文本功能的开发者、研究人员、学者和行业。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第2张

输入输出:输入为 16kHz 单声道音频,支持.wav 和.flac 格式;输出为包含标点和大小写的文本字符串。

使用方法:需安装 NVIDIA NeMo,可在 NeMo 工具包中使用,也能作为预训练检查点进行推理或微调。示例代码展示了如何自动实例化模型、转录音频以及获取带时间戳的转录结果。

训练与评估:使用 NeMo 工具包训练,从 LibriLight 数据集预训练的 wav2vec SSL 检查点初始化,在多种数据集上训练,包括 10000 小时人工转录数据和 110000 小时伪标记数据,训练数据包含多种噪声源。评估使用 Huggingface Open ASR Leaderboard 数据集,性能指标为词错误率(WER)。模型在不同数据集上的平均 WER 为 6.05%,在噪声鲁棒性和电话音频性能方面也有相应测试结果。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第3张

性能表现

    • 基础性能:在多个数据集上进行测试,平均词错误率(WER)为 6.05% 。
    • 噪声鲁棒性:随着信噪比降低,WER 有所上升。
    • 电话音频性能:相比标准 16kHz 音频,μ-law 8kHz 音频的 WER 略高。

推理:使用 NVIDIA NeMo 引擎,支持多种 NVIDIA 硬件进行推理测试。

伦理考量:开发者应确保模型符合行业和用例要求,避免产品滥用。在偏差、可解释性、隐私和安全方面有相关说明,如未采取缓解偏差措施、模型输出可能不准确、训练数据有来源证明、数据标注符合隐私法但无法满足外部数据主体的修改或删除请求等。


huggingface.co/nvidia/p

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/05/12949.html

分享给朋友:

相关文章

抖音和快手最大的区别是什么?

1、目标人群定位不同抖音:一二线城市,占比52%,大专学历以上,女性偏多。抖音以年轻群体居多。快手:三四线城市,占比64%,高中学历以下,男女更均衡。快手所覆盖的年龄段范围更广。2、内容创作的形式和深度不同抖音:偏深层,内容的装饰及表达更高...

自媒体如何快速起步?

自媒体如何快速起步?

有两种经验,可供参考。第一种是:现象级的爆火、爆款,这种情况捞到钱,实现财务自由的人并不多,但确实存在。只不过非要说清楚为什么这个账号可以火、可以短时间内赚到普通人一辈子赚不到的钱,他们自己也不一定能说清楚,因为赶上了风口(内外部情况)。举...

用wordpress做这个网站的话,需要用到哪些插件?

一个完整成型的B2C电商独立站,如果用wordpress+woocommerce搭建,最终会用上20来个插件,而且是在经过慎重筛选,剔除不必要的插件的情况下,别问我为什么。wordpress建站,插件安装多了,速度会变慢,这是常识,但需要在...

为什么张雪峰什么专业都懂?

他不懂专业,他懂的是就业。我记得有个老哥,家里条件不好,母亲吸血。想脱离家庭张雪峰眼睛一亮就说这是个学土木的好苗子。作为土木人我可知道他说的太对了,这种人学土木毕业进中建中铁,直接给你拉非洲看大鳄鱼呲牙。工资不低还能脱离家庭,可不是个学土木...

是什么原因让你一定要用 iPhone?

是什么原因让你一定要用 iPhone?

1、不用清理内存,iPhone真的可以开机用上一年,你根本不用关注期间打开过什么软件。2、支持的频段足够多,天天在国内走动倒是无所谓,很多Android手机一旦出去了,就会发现很多运营商接入都是问题,更不用说各种本土化的服务了。3、屏幕素质...

中国的科技为什么在最近2-3年时间像突然大爆发一样?

这个真的得感谢1998年美国在南联盟使馆投的两颗大炸弹。在80年代中国下马了一千多个项目,用资金进口了近一百万辆小汽车。我记得小时候有一段时间从海南岛开往北方的漂亮日本小面包车,密集从村前公路上驶过,连过路的间隙都没有,就这样接连开了一个星...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。