有哪些语音识别的开源项目?
作者:卡卷网发布时间:2025-01-10 19:15浏览数量:76次评论数量:0次
<>项目概述>
SenseVo是一个具有音频理解能力的音频基础模型,支持多种语音处理任务,包括:
<>语音识别(ASR)>:将语音转换为文本。<>语种识别(LID)>:识别语音的语言种类。<>语音情感识别(SER)>:分析语音中的情感。<>声学事件分类(AEC)或声学事件检测(AED)>:检测语音中的特定事件(如笑声、掌声等)。
项目提供了SenseVo模型的介绍、性能评测、环境安装指南和推理方式。
<>核心功能>
<>多语言识别>:支持超过50种语言,训练数据超过40万小时。在中文和粤语识别效果上优于Whisper模型。
<>富文本识别>:具备优秀的情感识别能力,能够达到或超过当前最佳情感识别模型的效果。支持声音事件检测,包括音乐、掌声、笑声、哭声、咳嗽、喷嚏等。
<>高效推理>:SenseVo-Small模型采用非自回归端到端框架,推理延迟极低。10秒音频推理仅耗时70毫秒,Whisper-Large快15倍。
<>微调定制>:提供便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。
<>服务部署>:支持多并发请求,客户端语言包括Python、C++、HTML、Ja和C#。
<>最新动态>
<>2024/7>:新增导出ONNX与Litorch功能,发布Python版本runtime:funasr-onnx-0.4.0
和funasr-torch-0.1.1
。<>2024/7>:开源SenseVo-Small多语言音频理解模型,支持中、粤、英、、韩语的多语言语音识别、情感识别和事件检测。<>2024/7>:发布CosyVo,支持多语言、音色和情感控制的自然语音生成。<>2024/7>:推出FunASR基础语音识别工具包,提供多种语音处理功能。
<>性能评测>
<>多语言语音识别>
在AHELL-1、AHELL-2、Wenetspeech、Lirispeech和CommonVo等数据集上,SenseVo在中文和粤语识别效果上优于Whisper。
<>情感识别>
在多个集上,SenseVo在不进行目标数据微调的情况下,能够达到或超过当前最佳情感识别模型的效果。
<>事件检测>
在ESC-50数据集上,SenseVo的事件检测效果优于EATS和PANN模型,但与专业事件检测模型仍有差距。
<>推理效率>
SenseVo-Small模型的推理速度Whisper-Small快5倍,Whisper-Large快15倍。
<>用法️>
<>安装依赖环境>
pipinstall-rrequirements.txt
<>推理>
<>使用FunASR推理>
fromfunasrimportAutoModel
fromfunasr.utils.postprocess_utilsimportrich_transcription_postprocess
model_dir="iic/SenseVoSmall"
model=AutoModel(
model=model_dir,
trust_remote_code=True,
remote_code="./model.py",
vad_model="fn-vad",
vad_kwargs={"max_single_seent_time":30000},
dev="cuda:0",
)
res=model.generate(
input=f"{model.model_path}/example/en.mp3",
cache={},
language="auto",#"zh","en","yue","ja","ko","nospeech"
use_itn=True,
atch_size_s=60,
merge_vad=True,
merge_length_s=15,
)
text=rich_transcription_postprocess(res[0]["text"])
print(text)
<>直接推理>
frommodelimportSenseVoSmall
fromfunasr.utils.postprocess_utilsimportrich_transcription_postprocess
model_dir="iic/SenseVoSmall"
m,kwargs=SenseVoSmall.from_pretrained(model=model_dir,dev="cuda:0")
m.eval()
res=m.inference(
data_in=f"{kwargs['model_path']}/example/en.mp3",
language="auto",#"zh","en","yue","ja","ko","nospeech"
use_itn=False,
an_emo_unk=False,
**kwargs,
)
text=rich_transcription_postprocess(res[0][0]["text"])
print(text)
<>服务部署>
exportSENSEVO_DEV=cuda:0
fastapirun--port50000
<>微调>
<>安装训练环境>
gitclones://githu/aliaa/FunASR.git&&cdFunASR
pip3install-e./
你 发表评论:
欢迎