当前位置：首页 > 每日看点 > 正文内容

有哪些语音识别的开源项目？

卡卷网10个月前 (01-10)每日看点162

<>项目概述

SenseVo是一个具有音频理解能力的音频基础模型，支持多种语音处理任务，包括：

<>语音识别（ASR）：将语音转换为文本。<>语种识别（LID）：识别语音的语言种类。<>语音情感识别（SER）：分析语音中的情感。<>声学事件分类（AEC）或声学事件检测（AED）：检测语音中的特定事件（如笑声、掌声等）。

项目提供了SenseVo模型的介绍、性能评测、环境安装指南和推理方式。

<>核心功能

<>多语言识别：

支持超过50种语言，训练数据超过40万小时。在中文和粤语识别效果上优于Whisper模型。

<>富文本识别：

具备优秀的情感识别能力，能够达到或超过当前最佳情感识别模型的效果。支持声音事件检测，包括音乐、掌声、笑声、哭声、咳嗽、喷嚏等。

<>高效推理：

SenseVo-Small模型采用非自回归端到端框架，推理延迟极低。10秒音频推理仅耗时70毫秒，Whisper-Large快15倍。

<>微调定制：

提供便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。

<>服务部署：

支持多并发请求，客户端语言包括Python、C++、HTML、Ja和C#。

<>最新动态

<>2024/7：新增导出ONNX与Litorch功能，发布Python版本runtime：funasr-onnx-0.4.0和funasr-torch-0.1.1。<>2024/7：开源SenseVo-Small多语言音频理解模型，支持中、粤、英、、韩语的多语言语音识别、情感识别和事件检测。<>2024/7：发布CosyVo，支持多语言、音色和情感控制的自然语音生成。<>2024/7：推出FunASR基础语音识别工具包，提供多种语音处理功能。

<>性能评测

<>多语言语音识别

在AHELL-1、AHELL-2、Wenetspeech、Lirispeech和CommonVo等数据集上，SenseVo在中文和粤语识别效果上优于Whisper。

<>情感识别

在多个集上，SenseVo在不进行目标数据微调的情况下，能够达到或超过当前最佳情感识别模型的效果。

<>事件检测

在ESC-50数据集上，SenseVo的事件检测效果优于EATS和PANN模型，但与专业事件检测模型仍有差距。

<>推理效率

SenseVo-Small模型的推理速度Whisper-Small快5倍，Whisper-Large快15倍。

<>用法️

<>安装依赖环境

pipinstall-rrequirements.txt

<>推理

<>使用FunASR推理

fromfunasrimportAutoModel fromfunasr.utils.postprocess_utilsimportrich_transcription_postprocess model_dir="iic/SenseVoSmall" model=AutoModel( model=model_dir, trust_remote_code=True, remote_code="./model.py", vad_model="fn-vad", vad_kwargs={"max_single_seent_time":30000}, dev="cuda:0", ) res=model.generate( input=f"{model.model_path}/example/en.mp3", cache={}, language="auto",#"zh","en","yue","ja","ko","nospeech" use_itn=True, atch_size_s=60, merge_vad=True, merge_length_s=15, ) text=rich_transcription_postprocess(res[0]["text"]) print(text)

<>直接推理

frommodelimportSenseVoSmall fromfunasr.utils.postprocess_utilsimportrich_transcription_postprocess model_dir="iic/SenseVoSmall" m,kwargs=SenseVoSmall.from_pretrained(model=model_dir,dev="cuda:0") m.eval() res=m.inference( data_in=f"{kwargs['model_path']}/example/en.mp3", language="auto",#"zh","en","yue","ja","ko","nospeech" use_itn=False, an_emo_unk=False, **kwargs, ) text=rich_transcription_postprocess(res[0][0]["text"]) print(text)

<>服务部署

exportSENSEVO_DEV=cuda:0 fastapirun--port50000

<>微调

<>安装训练环境

gitclones://githu/aliaa/FunASR.git&&cdFunASR pip3install-e./

<>数据准备

数据格式需要包括如下字段：

{"key":"YOU0000008470_S0000238_punc_itn","text_language":"<|en|>","emo_target":"<|NEUTRAL|>","event_target":"<|Speech|>","with_or_wo_itn":"<|withitn|>","target":"Includinglegaldued,suscriptionagreement,negotiation.","soce":"/cpfs01/shared/Group-speech/einian.lzr/data/industrial_data/english_all/audio/YOU0000008470_S0000238.w","target_len":7,"soce_len":140}

<>启动训练

ashfinetune.sh

<>WeUI

pythonweui.py

<>总结

<>SenseVo是一个功能强大且高效的音频理解模型，支持多语言语音识别、情感识别和事件检测。其低延迟和高精度的特点使其成为语音处理领域的理想选择。通过FunASR工具包，用户可以轻松进行推理、微调和服务部署。

扫描二维码推送至手机访问。

本文链接：https://www.kajuan.net/ttnews/2025/01/8323.html

分享给朋友：

返回列表

上一篇：一个大型开源项目是怎样的体验？

下一篇：如何理解Spring的核心？

有哪些语音识别的开源项目？

<>项目概述

<>核心功能

<>最新动态

<>性能评测

<>多语言语音识别

<>情感识别

<>事件检测

<>推理效率

<>用法️

<>安装依赖环境

<>推理

<>使用FunASR推理

<>直接推理

<>服务部署

<>微调

<>安装训练环境

<>数据准备

<>启动训练

<>WeUI

<>总结

相关文章

内存和硬盘的单位都是G，两者的功能是什么？谁能用简单通俗的方式来解读一下？

你是如何在不依靠工资收入的情况下赚到一万元的？

小米15就要来了，不知道小米15值不值得买?

台积电通知其中国客户，从下周开始，所有 7nm 及以下芯片出货将停止。如何看待这一行为？

为什么说不懂电脑的不要碰AMD？

网易云音乐上看到过最触动的热评是什么？

发表评论

Copyright © 2019-2024 www.kajuan.net 版权所有

Powered By Z-BlogPHP. Theme by TOYEAN.

有哪些语音识别的开源项目？

<>项目概述

<>核心功能

<>最新动态

<>性能评测

<>多语言语音识别

<>情感识别

<>事件检测

<>推理效率

<>用法️

<>安装依赖环境

<>推理

<>使用FunASR推理

<>直接推理

<>服务部署

<>微调

<>安装训练环境

<>数据准备

<>启动训练

<>WeUI

<>总结

相关文章

内存和硬盘的单位都是G，两者的功能是什么？谁能用简单通俗的方式来解读一下？

你是如何在不依靠工资收入的情况下赚到一万元的？

小米15就要来了，不知道小米15值不值得买?

台积电通知其中国客户，从下周开始，所有 7nm 及以下芯片出货将停止。如何看待这一行为？

为什么说不懂电脑的不要碰AMD？

网易云音乐上看到过最触动的热评是什么？

发表评论取消回复

Copyright © 2019-2024 www.kajuan.net 版权所有

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论