标题 摘要 内容
    详情

    腾讯在自研芯片领域的研发和应用正在不断加速。


    视频编解码芯片“沧海”,已经量产并投用数万片,并在云游戏、直点播等场景中,面向腾讯自研业务和公有云客户提供服务。


    高性能网络芯片“玄灵”,采用自研的网络、存储、计算加速方案,实现主机CPU的“0”占用及高达4倍的性能提升,助力打造下一代高性能网络基础设施。


    自研AI推理芯片“紫霄”,已经量产并在多个头部业务落地,目前在腾讯会议实时字幕上已实现全量上线,单卡紫霄机器负载可达到T4的4倍,并将超时率从0.005%降低至0


    本文将从技术实践角度,解读紫霄在腾讯会议实时个性化字幕场景下的应用。


    高峰期十万路并发,时延需控制在1s


    在海量音视频会议中,信息实时获取和记录逐步成为了刚需。为了方便实时查看和记录会议中参会者所表达的信息,腾讯会议在2022年中旬推出了实时辅助字幕功能,方便在会议过程中结合音频,视频和会议内各类多模态信息,对会议内容进行内容实时转录和复刻。

    随着业务规模的扩张,高峰期实时字幕常常十万路级别以上的并发,这对于业务的成本,延时和体验带来了极大的挑战。

    通常实时字幕服务不同于一句话识别或离线识别,需要实时解码各类人声密集场景的音视频信息,进行瞬态和稳态的同时呈现,在业界单T4卡做到50路是比较合理的性能配置,到达100路则会对用户体验产生影响。

    为此,腾讯会议天籁实验室联合在多模态内容识别推理上有丰富经验的腾讯蓬莱实验室,在腾讯自研硬件芯片上,针对该场景进行了软硬件结合优化,在降低了75%成本的同时,进一步减少了首字和尾字延迟。

    为确保腾讯会议实时字幕的准确性及用户体验,模型的推理需要具备极高的要求。一般来说,字幕上屏应与用户的发言一致,因此,整体发声到上屏延迟必须控制在1s以内。同时,对于任意语音段,其处理时延不能超过2秒,否则被视为超时而被丢弃。在如此高的时延要求下,所承载的是对算力和计算优化的极致要求,这正是保障腾讯会议实时字幕质量的关键。

    紫霄是蓬莱实验室第一款云端AI推理芯片,目前已经在腾讯头部业务规模部署,均提供至少3倍的计算加速性能,和超过45%的整体成本节省。

    有关紫霄芯片的算力参数,以及跟其他常见芯片的对比,详见下表:

    在紫霄落地腾讯会议的业务过程中,双方团队联合在原来的智能语音解码引擎中加入了紫霄硬件后端的支持,并开发了一套针对紫霄硬件的高性能运行时系统,能够在高并发条件下满足业务团队对于实时率、精度等指标的要求,横向对比 T4 和 A10 GPU 在单卡支持的路数、接口调用平均耗时、丢包率上均取得显著优势。

    紫霄在处理语音数为T4两倍的情况下(单路语音解析成本相对T4节省50%),超时率依然为0%(任务耗时2s以上视为超时)。为了稳定,业务先以两倍T4性能上线,后续再逐步加大负载(紫霄在处理400路语音的情况下超时率依然为0%)。


    紫霄加速流式解码背后技术实践


    1.  流式解码简介

    我们从全局角度分析下腾讯会议实时字幕的技术细节。在一场腾讯会议中,当会议用户在应用内点击 “开启字幕” 功能后便开始进行实时字幕处理,而后引擎开始持续识别会议中每个人的语音,在保证识别质量的前提下,对实时性和吞吐量都有很大的挑战。