“音频质量对直播场景核心指标有重要的影响,本文结合陌陌实际的直播场景探索了音频质量评估的方法,对其中的一些基础问题和关键技术做了拆解”
01
—
音频质量评估的意义
音频作为信息传达的主要载体,其质量直接关乎信息交换是否顺畅、用户体验是否良好。在当前陌陌主要直播分类中,如颜值、音乐、脱口秀、游戏、户外等,音频质量对用户观看时长和粘性等关键指标影响很大,所以为了能更好的监控和管理线上直播音频流的质量,为后续进一步的音质干预和优化提供指导,设计一套可靠且高效的声音质量评价系统至关重要。
图1陌陌直播的各类场景
02
—
音频质量评估的一般方法
传统语音通信中语音质量是基于人的主观评价,需要综合考虑个人偏好、响度、可懂度、说话人本人发音的辨识度以及信道传输的质量等。国际电信联盟ITU在语音和音频质量评估方面给出了一系列标准和建议,具有很强的指导性,被业界广泛借鉴和使用;同时,ITU也定义了语音通信的最佳状态:两人站在无障碍空间,一对一间隔一米说话的效果。一般来说,声音质量评估主要分为3类:主观意见评分、有参考质量评估以及无参考质量评估。
表1音频质量评估的一般方法
有参考语音质量评价,以PESQ为例,其核心原理是把处理完的语音和无损语音做对比,在对比过程中,首先把声音对齐,找到二者偏差,然后把每对平行的无损语音片段和音质退化后的语音片段分别放到听觉模型中,计算各频率成分的损失、有无额外频率产生,这些频率成分的增减在人的听觉上是否足够显著等,最后在整个时域上做各片段语音损伤情况的平滑、加权平均等,最终映射成单独的语音质量分数。目前最新版的POLQA模型效果最好,但在使用过程中还是要小心,因为每个模型都有其应用场景限定,不同场景或者不同输入信号,对测试结果的准确性都有影响。
图2PESQ算法原理
无参考语音质量评价,首先通过话音活性检测查找每个语音片段,然后通过各种经验设计的规则、先验模型以及噪声估计模块去计算语音的自然度、音色,是否出现削波、信噪比、等等,最终把各个维度的计算结果通过感知模型融合并映射成人耳主观感受,完成了物理声学到生理声学再到心理声学的建模过程。
图33SQM算法原理
03
—
直播场景中的音频质量评估的挑战
相比于传统语音通信,娱乐直播场景中的声音质量评估有其特殊性:
娱乐直播场景中的声音内容更加复杂,形式更加多样。比如音乐和一些秀场通常会有背景音乐,音乐的类型和风格多种多样,当主播开口唱歌或说话时,背景音乐的原唱时开时关;又比如户外直播,会有更多的环境声(发动机运转、动物叫声、风声、等等);又比如游戏直播,游戏里的声音会混进音频流;又比如主播会经常添加一些特定的声音特效(鼓掌声,笑声等)用于活跃直播气氛;再比如有些主播会转播一些影视剧,影视剧的音频有可能是外录,也有可能是内录;等等。
音频质量不再是也无法以主播说话的可懂度、自然度、音色等维度去衡量,主播的行为具有一定的随机性,可能是唱歌,可能是说话,可能发出其他一些比较奇怪的声音(叹气,哼曲,大笑,打哈欠等),也有可能是不同的方言语种;噪声或者信噪比的情况也无法单纯的去表征声音受噪声干扰的程度,因为有些声音在传统语音/音频质量评估中被认为是噪声,但是在直播场景中却是直播的有效内容,比如持续存在的音乐伴奏,户外直播时与直播内容有关的环境声,喝水吃饭,敲键盘,点鼠标,脚步声,等等。
主播直播时的设备和配置对音质影响非常大;有些主播会把有线耳机自带的麦克风挂在嘴边,容易导致喷麦和削波;有些主播用手机自带的麦克风,则会导致远场拾音混响比较重,人声高频衰减比较多;不同主播会选择不同品牌和类型的声卡,给声卡的配置参数也不尽相同,有些主播会倾向于给比较大的混响,这在唱歌以及有比较强的音乐伴奏时给人的听感还好,说话时有比较大的混响听感上就会比较奇怪;不同主播也可能会给音乐伴奏施加不同的均衡,有些均衡的效果会很差,要么风格不匹配,要么均衡加的太过导致沉闷或刺耳等等。
04
—
陌陌的音频质量评价方案
基于陌陌复杂多变的直播场景,音频质量评估须从新的起点出发,以新的视角看待:首先,相比于传统质量评估方法,语音的可懂度、自然度等因素不再那么重要;其次,噪声需要特殊看待,噪声的判别需保证内容无关,也即敲键盘、点鼠标等这类声音应当视为直播的有效内容;最后,个人主观因素对音质得分的影响会变大,尤其体现在混响、均衡等这类因素上面。
为了能很好的拟合出人在观看直播时的听觉体验,及时大批量的对陌陌直播的音频数据质量进行监控和管理,在综合调研了目前学术界和工业界关于语音和音频质量评估的方法之后,我们决定用神经网络来对陌陌直播场景下的音质进行建模,尤其是主观因素成分;另外,对一些特殊的平稳噪声(比如电流声)、信号太小导致听不清、信号太大超过动态范围导致的削波甚至爆音等问题,我们通过一些检测和估计手段直接计算出来,根据人耳主观感受来修正模型预测的分数;最后我们对导致音质退化的因素也进行了建模,试图通过模型和算法建立声音质量与影响因素之间的联系,为音质的优化提供建议和参考。我们的数据、模型、算法、策略以及效果评估会在下文详细给出。
4.1数据与标注
主观听觉测试或者MOS被认为是最准确的音质评价方法,所以训练数据的标签主要依靠人来标注。根据ITU推荐的标准,退化类别评分(DCR,DegradationCategoryRating)在音质打分准度方面要比绝对类别评分(ACR,AbsoluteCategoryRating)要好,尤其对音质好的数据来说。所以我们在数据标注的过程中是采用5名训练有素的专业测听人员,根据DCR的准则来进行MOS综合评分,最终得分为5名评测人员的几何平均。在打分时,评测人员需要考虑所有导致音质退化的因素,我们把这些因素分为4类:噪声-Noisiness、染色-Coloration、断续-Discontinuity、响度-Loudness。其中,噪声指的是直播内容无关的噪声;染色指的是同时,为了能够找出导致音质退化的因素类别,我们也会在噪声和染色这两个子维度分别进行评分,用以表征当前音频在这两个子维度下的音质水平。综合MOS分需要考虑所有退化因素,子维度评分只需考虑当前因素对音质的退化程度。在所有硬件设备和配置都对齐的情况下,评测人员按照以下准则分别对10s一段的音频进行综合MOS分和子维度的打分:
表2综合MOS分和子维度分评分标准
4.2算法与评测
鉴于娱乐直播的复杂场景,我们设计了基于Attention的深度学习神经网络模型,并通过一些信号检测和估计方法对模型预测结果进行修正,具体方法如下:
图4音质评价网络模型结构
如图4所示,本文所用的深度神经网络由PreNet网络和Multiheadattention网络所组成。其中PreNet具体结构如表3所示,Multiheadattention采用dot-productattention,此处主要考虑到音频中的突发事件对于整条音频的音质会有较大影响,因此引入attention机制来自适应的学习每一帧的权重。模型输入采用对数尺度的48维梅尔谱特征和4子带的交流信号特征,同时为了表征频谱的动态特征,我们考虑了一阶差分特征作为网络的并行输入。最后PreNet和Multiheadattention输出的reducedmean经过三层全连接,网络预测最终的MOS得分。
表3PreNet网络结构
此外我们还引入后处理策略对效果进行进一步提升,对于每一条音频我们会先估计出该段音频的噪声谱(稳态噪声)用于进一步检测电音以及计算信噪比,也会通过能量计算和采样点统计的方式来确定当前音频是否能量太小、是否出现爆音等,根据检测和计算的结果对模型预测分数进行修正,我们最终的系统框架如图5所示。
图5系统整体框架
我们从陌陌直播业务数据中随机10s音频段采样来构建最终的测试集,下图给出了最终系统在测试集上的评测结果,图a-b分别为总mos分、噪声维度mos分和染色维度mos分的评测结果,其皮尔逊相关系数也分别达到了0.,0.及0.
图6音质评价系统在真实场景数据测试集上的表现
05
—
总结与展望
音质评价系统作为音视频服务的重要一环,对提升视听体验至关重要。而目前业界在娱乐直播这一新场景下的音质评估研究很少,所以本文也是对新场景新需求下的一次探索。我们也专门组织并测试了人的打分相较于系统的能力,具体来说,单个测听人员的打分同多人几何平均后的皮尔逊相关系数,相关性从0.7到0.85不等,从这个角度来看,我们的系统已经初步具备了单人的打分能力。从当下技术发展的角度来看,系统还有进一步可优化的点,数据方面可以探索自监督的方法解决海量数据无标签的问题;特征方面则可以探索更适合音频质量评价的特征来替换本文使用的梅尔谱。
参考文献
[1]RothauserandE.H.,“IEEEre