当前位置:首页 > 每日看点

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?

卡卷网1年前 (2025-05-07)每日看点345

Nvidia 发布 Parakeet V2,一款新的开源自动语音识别 AI,核心亮点:一秒钟转录一小时的音频;Open ASR 上的顶级模型,击败了 ElevenLabs 的 Scribe 和 OpenAI 的 Whisper;6.05% 的单词错误率;CC-BY-4.0 许可下可用。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第1张

基本信息:基于 FastConformer-TDT 架构,有 6 亿参数,用于高质量英语转录,支持标点、大小写和时间戳预测,遵循 CC-BY-4.0 许可,可全球部署。适用于需要语音转文本功能的开发者、研究人员、学者和行业。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第2张

输入输出:输入为 16kHz 单声道音频,支持.wav 和.flac 格式;输出为包含标点和大小写的文本字符串。

使用方法:需安装 NVIDIA NeMo,可在 NeMo 工具包中使用,也能作为预训练检查点进行推理或微调。示例代码展示了如何自动实例化模型、转录音频以及获取带时间戳的转录结果。

训练与评估:使用 NeMo 工具包训练,从 LibriLight 数据集预训练的 wav2vec SSL 检查点初始化,在多种数据集上训练,包括 10000 小时人工转录数据和 110000 小时伪标记数据,训练数据包含多种噪声源。评估使用 Huggingface Open ASR Leaderboard 数据集,性能指标为词错误率(WER)。模型在不同数据集上的平均 WER 为 6.05%,在噪声鲁棒性和电话音频性能方面也有相应测试结果。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第3张

性能表现

    • 基础性能:在多个数据集上进行测试,平均词错误率(WER)为 6.05% 。
    • 噪声鲁棒性:随着信噪比降低,WER 有所上升。
    • 电话音频性能:相比标准 16kHz 音频,μ-law 8kHz 音频的 WER 略高。

推理:使用 NVIDIA NeMo 引擎,支持多种 NVIDIA 硬件进行推理测试。

伦理考量:开发者应确保模型符合行业和用例要求,避免产品滥用。在偏差、可解释性、隐私和安全方面有相关说明,如未采取缓解偏差措施、模型输出可能不准确、训练数据有来源证明、数据标注符合隐私法但无法满足外部数据主体的修改或删除请求等。


huggingface.co/nvidia/p

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/05/12949.html

分享给朋友:

相关文章

AI普及:让人类更聪明还是更愚蠢?

AI普及:让人类更聪明还是更愚蠢?

人工智能真的会替代人类吗?如果你询问人工智能这个问题,它通常会用“情感模块”作为标准答案来回复你——人工智能因为缺失情感模块,所以暂时无法替代人类的情感、创造力和想象力。是否这意味着,人工智能一旦拥有了情感模块,就会超越正态曲线最中段的大部…

200+ 工具,这个网站堪称最强

200+ 工具,这个网站堪称最强

作为一个乱七八糟什么都懂一点的电脑小白,日常经常被别人增加些临时任务,比如PDF转Word,提取视频里的音频,图片加个边框。之前,电脑里安装了不少这类的软件,虽然能满足要求,但装的多了,总感觉电脑卡卡的。最近发现了一个超强的在线工具网站,首…

有哪些正规的兼职平台?

1.阿里巴巴云客服:工作优点是时间自由,可自主选择班次,不需要去公司坐班,多做多得 2.蚂蚁云客服:同样是阿里巴巴旗下的兼职平台,工作优点是时间自由,可自主选择班次,不需要去公司坐班,多做多得。 3.菜鸟优加云客服:工作优点是时间自由,可自…

天涯论坛关闭后,除了知乎,大家都在逛什么?

天涯论坛关闭后,除了知乎,大家都在逛什么?

天涯神贴合集完整版,给大家整理好了! 那年大学,打开天涯,感觉打开了一片新天地,里面什么样的人都有,有大神也有蛇神,比某乎好太多了,可惜后面关了很多年前,天涯社区曾出现了不少深受欢迎的帖子,成功地预言了许多形势和事件。这些帖子因此被冠以“天…

想要在双 11 换一台全面无短板的新手机,有没有「闭眼买」的机型推荐?

想要在双 11 换一台全面无短板的新手机,有没有「闭眼买」的机型推荐?

最近一个月各大手机厂商的旗舰机扎堆发布,不知道大家看爽了没? 这一代的性能续航大提升,最低 3599 元就能买到,同时老款也有不小的降幅,今年双 11 算是相当适合换手机的节点了! 这次,小黑就给大家推荐双 11 期间值得购买的手机...…

大量刷短视频,会让大脑变笨拙吗?

会。 我曾经是一名高三学生,亲身实践过。 当时集中突破语文,每天都在刷语文卷。然后有一天想躺一下刷手机,结果短视频刷完了,我再去看哪些文章,只觉头晕眼花,难以理解文字。不过好在这种情况是短时间的,过了一天我的能力又恢复了。 在我看来,长期刷…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。