qmh球盟会-Vivo携手昆仑芯、wenet助力提升语音识别效果与性能,共建开源生态 发布时间:2026-01-14

语音辨认是AI范畴的一项主要基础办事,一样也是vivo AI系统及第足轻重的能力,是Jovi输入法、Jovi语音助手等运用的基石。打造高正确率、高机能的语音辨认引擎,才能给vivo亿级的语音用户带来优良的体验。基在wenet端到端语音辨认东西,vivo联合自身营业场景举行深度优化,乐成研发离线及流式辨认引擎,支撑vivo语音营业的快速成长。

跟着用户量的快速增⻓,语音辨认机能问题凸显,CPU推理方案于峰值场景TP99延时较高,且难以满意高算力的营业场景。为确保优良的用户体验、进一步晋升产物和办事质量,机能优化、降本增效势于必行。

vivo AI工程中央于模子推理加快堆集了多年经验,为此自研一套语音辨认流式推理引擎。引擎撑持动态batching、显存池、数据分桶排序等特征,同时撑持CPU及GPU,并于GPU上取患了不错的加快效果。

昆仑芯科技深耕AI加快范畴十余年,专注打造拥有强盛通用性、易用性及高机能的通用人工智能芯片,并连续精进于芯片架构、软件栈、工程化体系层级等方面的技能实力。今朝,昆仑芯科技已经实现两代通用AI芯片产物的量产和落地运用,经由过程用算力赋能差别场景中的 AI 运用,驱动千行百业的智能化转型。

为进一步降本增效以和晋升用户体验,vivo AI工程中央同步启动AI多元算力项目,结合昆仑芯科技,于语音辨认场景起首睁开研发共建,深切互助,并已经取患上阶段性冲破进展。

vivo自研语音辨认流式推理引擎

整个引擎包括四部门:

1.wenet解码器,包括前端处置惩罚(特性、VAD等)- encoder- 语言模子(wfst)- decoder流程;

2.数据调理,动态batching、分桶排序等;

3..Runtime适配层,抽象模子推理接口,便在适配差别推理后端;

4.Runtime层,后端推理层包括onnxruntime、GPU、昆仑芯的XpuRT等。

自研引擎特色:

撑持多batch流式哀求,多batch能充实阐扬硬件计较机能;

动态batchting,按照现实哀求会于必然时间主动组装batch,便在晋升引擎的并发吞吐能力;

分桶排序,削减多batch的无效padding,削减无效计较量;

显存池,高并发下游式辨认缓存会频仍申请及开释,经由过程显存池优化了这部门开消,提高机能。

别的针对于语言模子(wfst)优化:

语言模子的lattice-faster-decoder历程有万万/秒的小对于象内存申请(ForwardLink及BackpointerToken),经由过程将小对于象归并年夜对于象的池化方案,一次wfst的search从14ms削减到5ms;

线程模子优化。默许的线程模子是一个会话一个pthread线程,于GPU方案中,每一秒数千线程创立体系负载较年夜,经由过程将pthread线程优化为bthread;

对于象复用。将AsrDecoder池化复用,削减内存的动态申请,cpu机能晋升27%。

昆仑芯高机能推理库方案

AI推理引擎面对的最年夜技能挑战——同时满意营业快速矫捷迭代及硬件高机能。面临该挑战,昆仑芯科技团队为vivo提供了两种解决方案:基在图编译引擎方案及基在高机能推理库方案。综合营业及机能的两重考量,vivo团队终极选择了高机能推理库方案。该方案基在昆仑芯API高机能算子库自研模子推理年夜算子,重要由Encocer及Decoder两个年夜算子构成。

高机能推理库特色:

撑持动态shape,机能与静态shape无异,比拟”静态模仿动态“可节省年夜量名贵的显存资源;

撑持多batch流式推理,解决流式推理一浩劫题,尤其是cache治理;

深度图优化,利用了昆仑芯富厚的图交融优化,如:ffn_kernel_fusion、attention_fusion等,可变长优化技能等;

差别量化计谋,FP16/INT8动态静态量化以和混淆量化;

定制算子交融,如ConforermEncoder的RelPos相干计较可以交融为rel_pos_fusion_kernel等;

主动化东西,模子一键导入等。

机能测试

对于比差别后真个机能数据onnxruntime(cpu)、165w GPU、昆仑芯XPU。

硬件配置:

总体来看,于FP16量化后差别后端均到达精度无损,昆仑芯高机能推理库方案单卡并发财到了1400路,比拟CPU的350路的最年夜并发,机能晋升约4倍,首字及尾字耗时也年夜年夜降低,降本增效较着。单机单卡的测试外,也举行了单机4卡的压测,单机4卡GPU及4卡R200均到达了4000路并发。

相对于主流165w GPU方案,昆仑芯语音辨认高机能推理库方案经由过程构建年夜算子的方式也为营业按照自身特征做针对于性交融、量化、裁剪提供了越发便捷、越发有效的东西。

昆仑芯于wenet中开源XPU撑持

wenet是海内最年夜的语音开源社区,致力在鞭策语音技能落地, “共创双赢”。昆仑芯是wenet中撑持的首款新型异构AI推理芯片,基在昆仑芯第二代推理卡模子推理采用语音高机能推理库的非流式解码方案,今朝源码已经合入到wenet主线。第二阶段,昆仑芯、vivo、wenet社区三方联手,将配合推出图引擎及高机能库两种后端推理,撑持多batch流式解码,模子优化到部署端到真个解决方案,为客户营业落地连续赋能。

将来,昆仑芯将连续阐扬于推理生态的领先上风,助力语音营业用户体验不停优化,同时也将与社区合作无懈,合力共建wenet国孕育发生态。

-qmh球盟会