当前位置:首页 > 每日看点 > 正文内容

有哪些语音识别的开源项目?

卡卷网7个月前 (01-10)每日看点126

<>项目概述

SenseVo是一个具有音频理解能力的音频基础模型,支持多种语音处理任务,包括:

    <>语音识别(ASR):将语音转换为文本。<>语种识别(LID):识别语音的语言种类。<>语音情感识别(SER):分析语音中的情感。<>声学事件分类(AEC)或声学事件检测(AED):检测语音中的特定事件(如笑声、掌声等)。

项目提供了SenseVo模型的介绍、性能评测、环境安装指南和推理方式。

<>核心功能

    <>多语言识别:
      支持超过50种语言,训练数据超过40万小时。在中文和粤语识别效果上优于Whisper模型。
    <>富文本识别:
      具备优秀的情感识别能力,能够达到或超过当前最佳情感识别模型的效果。支持声音事件检测,包括音乐、掌声、笑声、哭声、咳嗽、喷嚏等。
    <>高效推理:
      SenseVo-Small模型采用非自回归端到端框架,推理延迟极低。10秒音频推理仅耗时70毫秒,Whisper-Large快15倍。
    <>微调定制:
      提供便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。
    <>服务部署:
      支持多并发请求,客户端语言包括Python、C++、HTML、Ja和C#。

<>最新动态

    <>2024/7:新增导出ONNX与Litorch功能,发布Python版本runtime:funasr-onnx-0.4.0funasr-torch-0.1.1<>2024/7:开源SenseVo-Small多语言音频理解模型,支持中、粤、英、、韩语的多语言语音识别、情感识别和事件检测。<>2024/7:发布CosyVo,支持多语言、音色和情感控制的自然语音生成。<>2024/7:推出FunASR基础语音识别工具包,提供多种语音处理功能。

<>性能评测

<>多语言语音识别

在AHELL-1、AHELL-2、Wenetspeech、Lirispeech和CommonVo等数据集上,SenseVo在中文和粤语识别效果上优于Whisper。

<>情感识别

在多个集上,SenseVo在不进行目标数据微调的情况下,能够达到或超过当前最佳情感识别模型的效果。

<>事件检测

在ESC-50数据集上,SenseVo的事件检测效果优于EATS和PANN模型,但与专业事件检测模型仍有差距。

<>推理效率

SenseVo-Small模型的推理速度Whisper-Small快5倍,Whisper-Large快15倍。

<>用法️

<>安装依赖环境

pipinstall-rrequirements.txt

<>推理

<>使用FunASR推理

fromfunasrimportAutoModel fromfunasr.utils.postprocess_utilsimportrich_transcription_postprocess model_dir="iic/SenseVoSmall" model=AutoModel( model=model_dir, trust_remote_code=True, remote_code="./model.py", vad_model="fn-vad", vad_kwargs={"max_single_seent_time":30000}, dev="cuda:0", ) res=model.generate( input=f"{model.model_path}/example/en.mp3", cache={}, language="auto",#"zh","en","yue","ja","ko","nospeech" use_itn=True, atch_size_s=60, merge_vad=True, merge_length_s=15, ) text=rich_transcription_postprocess(res[0]["text"]) print(text)

<>直接推理

frommodelimportSenseVoSmall fromfunasr.utils.postprocess_utilsimportrich_transcription_postprocess model_dir="iic/SenseVoSmall" m,kwargs=SenseVoSmall.from_pretrained(model=model_dir,dev="cuda:0") m.eval() res=m.inference( data_in=f"{kwargs['model_path']}/example/en.mp3", language="auto",#"zh","en","yue","ja","ko","nospeech" use_itn=False, an_emo_unk=False, **kwargs, ) text=rich_transcription_postprocess(res[0][0]["text"]) print(text)

<>服务部署

exportSENSEVO_DEV=cuda:0 fastapirun--port50000

<>微调

<>安装训练环境

gitclones://githu/aliaa/FunASR.git&&cdFunASR pip3install-e./

<>数据准备

数据格式需要包括如下字段:

{"key":"YOU0000008470_S0000238_punc_itn","text_language":"<|en|>","emo_target":"<|NEUTRAL|>","event_target":"<|Speech|>","with_or_wo_itn":"<|withitn|>","target":"Includinglegaldued,suscriptionagreement,negotiation.","soce":"/cpfs01/shared/Group-speech/einian.lzr/data/industrial_data/english_all/audio/YOU0000008470_S0000238.w","target_len":7,"soce_len":140}

<>启动训练

ashfinetune.sh

<>WeUI

pythonweui.py


<>总结

<>SenseVo是一个功能强大且高效的音频理解模型,支持多语言语音识别、情感识别和事件检测。其低延迟和高精度的特点使其成为语音处理领域的理想选择。通过FunASR工具包,用户可以轻松进行推理、微调和服务部署。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/8323.html

分享给朋友:
返回列表

上一篇:一个大型开源项目是怎样的体验?

下一篇:如何理解Spring的核心?

相关文章

逾期后支付宝微信被冻结,显示执保该怎么办?

这几天有朋友问我说,他的微信零钱突然的用不了,问我是不是被冻结了,问我该怎么办?是不是被起诉了?这个,那个,别慌,别慌,还是那句老话:有钱就去协商,没钱只能暂时不管!但是真不管,这个被冻结的微信怎么办呢?今天针对这个问题,我就给大家做一哥比...

下班后可以做点什么副业赚钱呢?

下班后可以做点什么副业赚钱呢?

首先说明一下,我分享的任务不需要交钱,也不需要入群,只需要你去平台学习就可以。如果有任何让你交钱,进群的任务,请警惕被割韭菜。今天给大家分享7大赚钱副业,新手小白0粉丝0门槛0技术都可以去做,不说大富大贵,但是赚个零花钱还是可以。如果你已经...

感觉手机配置都差不多,为什么有的手机能卖2k-3k,而有的手机却能卖到6k-8k?

感觉手机配置都差不多,为什么有的手机能卖2k-3k,而有的手机却能卖到6k-8k?

与所有的商品一样,手机的价格,也是由它的成本所决定的。虽然看起来3000元的手机和6000的手机配置差不多,甚至处理器都可能是同一个,但在很多大家容易忽略的地方,决定了两者价格的不同:例如手机的外观,塑料的机身,与素皮机身和玻璃机身就完全不...

华为纯血鸿蒙,从此天下三分了吗?

华为纯血鸿蒙,从此天下三分了吗?

万众期待的纯血版 HarmonyOS NEXT 终于是端上来了,主打一个自研,从里到外,从内核到架构,都是自研。用户的激情已经被点燃,可见大家对于纯血鸿蒙的期待,但是鸿蒙系统能不能真正与安卓、iOS三分天下呢?目前来说,还为时过早。iOS和...

程序员都有自己的服务器吗?

程序员都有自己的服务器吗?

2024.9. 24,有朋友咨询功耗,我没有单独给服务器弄智能插座,系统做的 esxi 也看不到,所以只能用其他角度判断供大家参考。我有一个餐边柜改的机柜,里面白裙两盘,黑群晖 4 机械 1 mvme,一个爱快硬路由,一个联通光猫,一个 2...

你见过哪些有趣的偏微分方程组?

你见过哪些有趣的偏微分方程组?

说说我一直在做的一个偏微分方程系统吧,该模型为生物领域的趋化性(chemotaxis)模型,也叫Keller-Segel模型,由该二人于1971年左右提出,用于刻画细胞或者细菌的趋化机制。解释一下趋化性(chemotaxis):趋化性是指单...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。