与市面上各种VoIP语音通话系统类似,腾讯云中的语音解决方案也需要面对包括PSTN电话机等接入形式,进行双向通话。由于历史原因,PSTN电话机采用了传统窄带通话引擎;与之相对应的,腾讯云内置的是宽带通话引擎。因此,用户在使用腾讯云客户端与对端持有PSTN电话机的朋友进行通话时,只能接收到窄带话音,体验大打折扣。这个窘境怎么破?

图1. 下行侧窄带语音和宽带语音

在公布答案前,先做一些常识科普。如下图所示,所谓窄带话音的采样率是8000Hz,表示每秒钟声音信号有8000个采样点,高频的缺失导致听感比较”闷”;与之对应地,所谓宽带话音的采样率可以达到16000Hz,表示每秒钟声音信号有16000个采样点,丰富的高频成份让听感更加”亮”。显然,更高的采样率能够更加精确地表示声音信号、能够带来更丰富的高频成份,用户的体验也更佳。

图2.窄带语音和宽带语音的频谱响应

如何才能让腾讯云的用户在使用语音通话系统时,始终获得宽带话音的体验呢(即使对方接入的是PSTN窄带话机)?升级支持PSTN电话机硬件,会增加用户的成本;修改网络协议,会增加开发者的工作量。显然,上述方法的成本非常高,部署难度大。

3.零成本语音宽带扩展的诉求

针对上述诉求,腾讯多媒体实验室研发团队提出并实现了低复杂度盲式频带扩展技术。该技术类似视频处理中超分辨算法,无需用户升级硬件、无需修改现有通信协议,实现“零”成本”丽音”效果。该技术部署在客户端后,可以对远端传输过来的窄带信号进行后处理,实时合成出宽带语音信号,让用户获得更好的体验。

图4.窄带和盲式频带扩展后的语谱图

我们先进行两组试听(支持手机听筒外放,但佩戴耳机体验),包含女声和男声。每一个文件的前半段为窄带语音、后半段为盲式频带扩展增强后的语音序列。主观体验上,可以清晰地感知,经过频带扩展后的语音更加清晰、听感更佳。

图5.盲式频带扩展原理

腾讯云是如何做到低成本“丽音”效果的呢?

如图5所示,我们给出一段宽带语音的频谱响应。从波形上,我们似乎可以觉察到窄带频段和宽带频段有几分相似;而这种相似性就是频带扩展方法的立足点。然而,在实际过程中,我们不可能简单地将窄带频段的频谱“搬迁”到宽带频段,就可以高质量地完成宽带频段的信号重建。

业界有一种思路,就是利用现在流行的深度学习方法,通过大数据去”学习”,然后完成宽带频段的重建。然而,这种实现方法必然带来对数据的强依赖(模型的泛化能力,是深度学习应用中必须考虑的一项因素);同时,模型大小可能是几百MB,复杂度也相对高,不适合客户端部署。

本技术融合了深度学习技术和经典语音信号处理、心理模型等技术,通过轻量级建模,克服了一般深度学习算法中对数据的过度依赖和网络模型过大等问题(本技术的模型只有2MB,适合客户端部署),保证了宽带频段的重建精度和质量。

本技术的鲁棒性还包括对多语种的支持。特别地,本文中展示的技术仅基于中文数据库训练模型,但在英语等其它语种上仍然表现出高可靠性。我们使用友商提供的英文语料进行独立测试。文件的前一半为窄带语音、后一半为频带扩展增强后的语音序列。虽然未做语种适配,但本方案仍然在英语语料方面表现出稳定高质量。

盲式频带扩展技术,采用极简的设计方法,带来“零”成本的”丽音”效果。未来,用户只需接入腾讯云,可以不受远端接入用户类型的约束,实现本地VoIP终端侧的双向高清通话,获得更好的体验。

腾讯多媒体实验室持续打造业界领先的音视频处理技术,为我们的用户带来更为卓越的音视频体验。

文章来源于腾讯云开发者社区,点击查看原文