当前位置:首页 > 每日看点

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?

卡卷网1年前 (2025-05-07)每日看点346

Nvidia 发布 Parakeet V2,一款新的开源自动语音识别 AI,核心亮点:一秒钟转录一小时的音频;Open ASR 上的顶级模型,击败了 ElevenLabs 的 Scribe 和 OpenAI 的 Whisper;6.05% 的单词错误率;CC-BY-4.0 许可下可用。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第1张

基本信息:基于 FastConformer-TDT 架构,有 6 亿参数,用于高质量英语转录,支持标点、大小写和时间戳预测,遵循 CC-BY-4.0 许可,可全球部署。适用于需要语音转文本功能的开发者、研究人员、学者和行业。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第2张

输入输出:输入为 16kHz 单声道音频,支持.wav 和.flac 格式;输出为包含标点和大小写的文本字符串。

使用方法:需安装 NVIDIA NeMo,可在 NeMo 工具包中使用,也能作为预训练检查点进行推理或微调。示例代码展示了如何自动实例化模型、转录音频以及获取带时间戳的转录结果。

训练与评估:使用 NeMo 工具包训练,从 LibriLight 数据集预训练的 wav2vec SSL 检查点初始化,在多种数据集上训练,包括 10000 小时人工转录数据和 110000 小时伪标记数据,训练数据包含多种噪声源。评估使用 Huggingface Open ASR Leaderboard 数据集,性能指标为词错误率(WER)。模型在不同数据集上的平均 WER 为 6.05%,在噪声鲁棒性和电话音频性能方面也有相应测试结果。

目前有哪些较好的开源语音识别框架?语音识别的原理是怎么样的?  第3张

性能表现

    • 基础性能:在多个数据集上进行测试,平均词错误率(WER)为 6.05% 。
    • 噪声鲁棒性:随着信噪比降低,WER 有所上升。
    • 电话音频性能:相比标准 16kHz 音频,μ-law 8kHz 音频的 WER 略高。

推理:使用 NVIDIA NeMo 引擎,支持多种 NVIDIA 硬件进行推理测试。

伦理考量:开发者应确保模型符合行业和用例要求,避免产品滥用。在偏差、可解释性、隐私和安全方面有相关说明,如未采取缓解偏差措施、模型输出可能不准确、训练数据有来源证明、数据标注符合隐私法但无法满足外部数据主体的修改或删除请求等。


huggingface.co/nvidia/p

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/05/12949.html

分享给朋友:

相关文章

什么软件可以看电视直播?

什么软件可以看电视直播?

2024年9月6日最新更新:本文列举的 所有看电视直播、或流媒体影视资源点播的软件,我这两天又重新梳理成最新版本,最大程度保证可用性。获取方式见文末图片,或见评论。后续我也将持续更新,文章是旧的软件也会是新的,保证都是最新可用版本。作为一个…

有哪些让你目瞪口呆的 Bug ?

有哪些让你目瞪口呆的 Bug ?

成都有个监狱情况比较特殊,关押的基本全是重犯,而且还都是经济犯和政治犯, 他们以前都是一方大佬,在自己的一亩三分地翻手为云覆手为雨,无非是不小心中箭落马或帮老大顶锅才进监狱, 所以即使进来了,他们依然保持着体面和骄傲,依从性差,虽然不至于和…

在追求家居美学的过程中,如何选择一款电视机,使其既具备出色的音画质又能与家居装饰相得益彰?

在追求家居美学的过程中,如何选择一款电视机,使其既具备出色的音画质又能与家居装饰相得益彰?

先看照片,你就说美不美吧? 我家这个40平的客厅东西放得不少,其中最提升观感的是各种灯光,在这么多灯光中,是不是第一眼视觉中心就落在了电视上?没错,因为这电视是非常特别的环景光电视,与显示器的神光同步一样,会随着画面的变化而变化不同的光…

为什么神经网络可以解偏微分方程,是什么原理?

为什么神经网络可以解偏微分方程,是什么原理?

题主一直比较关心神经网络在其他科学领域的应用,比如数学、物理学还有生物学,比如AlphaFold。本次带来的这篇文章傅里叶神经网络算子解偏微分方程就是一个很有意思的方向,其实我自己去年在给美国一个客户做兼职预测数字货币期权价格的时候就用到过…

自己拥有一台服务器可以做哪些很酷的事情?

自己拥有一台服务器可以做哪些很酷的事情?

我就有一台,跑了两年了,ipv6 ddns 网络,加虚拟化平台.跑了个 winserver 和 ubuntu 服务器。 稳的雅皮! 拆掉后盖,散热更好。烟盒固定硬盘。键盘防止灰尘掉落。电池拆掉,屏幕拆掉,也是散热考虑。 屏幕拿去做便携副屏了…

客观的讲,华为是不是真的遥遥领先?

客观的讲,华为是不是真的遥遥领先?

最近,华为上市了最新款的三折叠屏手机,于是很多大V们把这款手机吹上了天,吹成是技术上遥遥领先于全世界。谁要是敢质疑华而不实,就会被人扣上一顶汉奸卖国贼美狗的帽子。把一个商品捧成了宗教和菩萨,你只能说好,不能说不好。其实这个世界上,只要是人和…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。