聲網(wǎng)侯希明：AI+RTC 打造實(shí)時(shí)互動(dòng)新體驗(yàn)

5G寬帶 dvbcn編輯 2018-12-03 10:07 閱讀 5,553 來(lái)源：DVBCN 　

2018年11月28日，第六屆中國(guó)網(wǎng)絡(luò)視聽(tīng)大會(huì)在成都盛大召開(kāi)，大會(huì)以“凝心聚力創(chuàng)造美好新視界”為主題，邀請(qǐng)300余位重量級(jí)業(yè)界嘉賓進(jìn)行分享交流。11月30日下午,由金山云承辦的“AI賦能俯瞰視界”人工智能應(yīng)用發(fā)展論壇上，聲網(wǎng)Agora首席產(chǎn)品架構(gòu)師侯希明做了題為《AI+RTC 打造實(shí)時(shí)互動(dòng)新體驗(yàn)》的演講，介紹了在人工智能浪潮下，RTC將帶來(lái)怎樣的驚喜。

聲網(wǎng)侯希明：AI+RTC 打造實(shí)時(shí)互動(dòng)新體驗(yàn)-DVBCN

圖為聲網(wǎng)首席產(chǎn)品架構(gòu)師侯希明

聲網(wǎng)Agora是一家做實(shí)時(shí)音視頻云服務(wù)的公司，在2014年成立，創(chuàng)始團(tuán)隊(duì)來(lái)自YY，11月份剛剛拿了7000萬(wàn)美元的C輪融資。其產(chǎn)品形態(tài)主要是在移動(dòng)端、PC端和網(wǎng)頁(yè)端的SDK以及配套的云服務(wù)，用戶通過(guò)集成SDK就可以實(shí)現(xiàn)終端之間音視頻通話的能力。主要應(yīng)用行業(yè)包括在線教育，直播社交，在線游戲，廣電OTT，遠(yuǎn)程醫(yī)療，智能硬件等等，到目前為止在全球擁有200個(gè)數(shù)據(jù)中心，累積連接二十億終端，日通話在3億分鐘。

侯希明本人在實(shí)時(shí)音視頻領(lǐng)域工作超過(guò)了16年，經(jīng)歷了從傳統(tǒng)的光碟格式VCD到DVD到藍(lán)光，再到online視頻，到CDN單向視頻云點(diǎn)播直播再到實(shí)時(shí)音視頻。對(duì)于他而言，明顯地體會(huì)到隨著音視頻技術(shù)的廣泛應(yīng)用，AI技術(shù)對(duì)于音視頻來(lái)講越來(lái)越不可或缺，AI的加入使得實(shí)時(shí)音視頻在各個(gè)行業(yè)的各個(gè)場(chǎng)景下的應(yīng)用更加智能和完善。

這些應(yīng)用主要體現(xiàn)在以下三點(diǎn)：

第一AI助力RTC提升音視頻端到端的質(zhì)量

眾所周知，在視聽(tīng)的角度，一個(gè)永恒的主題就是質(zhì)量，質(zhì)量的背后是各種高精尖的AI算法。比如在視頻領(lǐng)域，視頻經(jīng)歷從發(fā)出到編碼、經(jīng)過(guò)傳輸再到解碼、最后到顯示的過(guò)程。在視頻編碼的階段，通過(guò)窄帶高清的算法可以把碼率降低節(jié)省帶寬，這是比較常見(jiàn)的智能應(yīng)用，那在實(shí)時(shí)音視頻有一個(gè)條件，全球的網(wǎng)絡(luò)環(huán)境和硬件設(shè)備不對(duì)等，比如印度網(wǎng)絡(luò)條件比較差，歐美比較好，國(guó)內(nèi)有不同網(wǎng)絡(luò)運(yùn)營(yíng)商的差異，各種硬件設(shè)備能力之間也有差異，發(fā)送端有很大的概率發(fā)送出非常低清的視頻。

那接收端怎么享受高清體驗(yàn)?zāi)?侯希明表示：“通過(guò)在解碼后，顯示之前，插入AI算法，通過(guò)識(shí)別視頻里邊的內(nèi)容進(jìn)行視頻超分，最終在設(shè)備端來(lái)顯示高清的視頻效果。

同樣AI算法還在提升語(yǔ)音質(zhì)量上方面也有非常大的幫助，目前聲網(wǎng)Agora比較典型的兩個(gè)應(yīng)用：一個(gè)是場(chǎng)景識(shí)別，另外一個(gè)是3A算法。場(chǎng)景識(shí)別在實(shí)時(shí)互動(dòng)分成兩個(gè)模式，一個(gè)是通話模式，一個(gè)是音樂(lè)模式。侯希明介紹到：“通話模式比如我們常見(jiàn)的會(huì)議，要求通話過(guò)程語(yǔ)音清晰不卡頓。而音樂(lè)模式則更多的是主播在唱歌時(shí)，后面有背景音樂(lè)放出的場(chǎng)景;在不同的場(chǎng)景下適配不同的音頻算法已達(dá)到適配場(chǎng)景的最佳質(zhì)量”。3A算法的應(yīng)用主要是在智能降噪的處理上，侯希明介紹到：“我們知道現(xiàn)實(shí)場(chǎng)景面對(duì)面的溝通，即使周圍有嘈雜的背景噪聲，我們也會(huì)忽略這些噪聲，專注在溝通本身。但是實(shí)時(shí)通話的時(shí)候，麥克風(fēng)會(huì)把所有噪音收進(jìn)去了，這時(shí)候就要識(shí)別把無(wú)意義的噪音消除掉，把有效的聲音傳過(guò)去。”

那除了音視頻算法本身，實(shí)時(shí)通話離不開(kāi)云服務(wù)的傳輸能力，在跨洲跨運(yùn)營(yíng)商的多方通話中，如何動(dòng)態(tài)的智能的找到數(shù)據(jù)傳輸?shù)淖罴崖窂剑彩翘峁┳罴岩粢曨l服務(wù)的有力保障。

AI除了提升質(zhì)量之外，聲網(wǎng)還可以借助其做質(zhì)量分析，聲網(wǎng)目前推出了“水晶球”產(chǎn)品，可以對(duì)云上所有實(shí)時(shí)通話進(jìn)行質(zhì)量分析，實(shí)時(shí)的檢測(cè)整條通話鏈路上的各個(gè)模塊的運(yùn)行狀況以及對(duì)于有問(wèn)題的質(zhì)量給出最精確的原因分析，幫助客戶在運(yùn)營(yíng)側(cè)更好的處理業(yè)務(wù)邏輯。

第二AI增強(qiáng)RTC實(shí)時(shí)互動(dòng)體驗(yàn)

實(shí)時(shí)音視頻傳輸把線下的場(chǎng)景完整的搬到線上，使得人與人之間在任何時(shí)間和地點(diǎn)都可以隨意溝通，除了用先進(jìn)的技術(shù)提供最佳的質(zhì)量體驗(yàn)的同時(shí)，AI還增強(qiáng)了交互上的體驗(yàn)。最具代表性的就是人臉識(shí)別互動(dòng)和擬人變聲，侯希明介紹到：“人臉識(shí)別在實(shí)時(shí)音視頻領(lǐng)域主要體現(xiàn)在三個(gè)方面：一是美顏，二是面具變臉，三是情緒識(shí)別。”美顏在社交直播領(lǐng)域已經(jīng)非常的成熟，坊間的說(shuō)法美顏已經(jīng)成為亞洲三大邪術(shù)之一;再有趣一點(diǎn)的應(yīng)用就是加上面具表情等;再高階一點(diǎn)的應(yīng)用是關(guān)于情緒的識(shí)別，比如在視頻客服的應(yīng)用上，通過(guò)情緒識(shí)別來(lái)監(jiān)測(cè)客戶滿意度等。在語(yǔ)音方面，通過(guò)聲音客制化和擬人化達(dá)到各種各樣的效果，比如在語(yǔ)音陪聊或者游戲?qū)?zhàn)組隊(duì)聊天的場(chǎng)景下，每個(gè)游戲玩家都可以是一個(gè)萌妹子，跟你談戀愛(ài)的可能是個(gè)機(jī)器人。

第三AI+RTC可以實(shí)現(xiàn)更好的業(yè)務(wù)閉環(huán)

最后，侯希明還談到了AI如何在實(shí)時(shí)音視頻領(lǐng)域如何實(shí)現(xiàn)更好的業(yè)務(wù)閉環(huán)。在廣電領(lǐng)域，內(nèi)容監(jiān)管尤為重要，這一點(diǎn)在實(shí)時(shí)音視頻領(lǐng)域同樣重要。目前最火的監(jiān)管應(yīng)用是視頻鑒黃和語(yǔ)音鑒黃，假定每5秒鐘采取一個(gè)樣本點(diǎn)進(jìn)行鑒黃，一億視頻分鐘數(shù)就會(huì)產(chǎn)生12億張圖片，數(shù)據(jù)量非常龐大，通過(guò)機(jī)器識(shí)別進(jìn)行快速的分析判斷，把有潛在問(wèn)題的圖片再傳到人工那里進(jìn)行二次審核是目前比較成熟的方案。

除了監(jiān)管，另外一塊是業(yè)務(wù)增值，典型的應(yīng)用主要是語(yǔ)音轉(zhuǎn)文字和實(shí)時(shí)語(yǔ)音翻譯等自然語(yǔ)言處理功能。應(yīng)用場(chǎng)景包括視頻會(huì)議和全球同服的在線游戲等，比如跨國(guó)會(huì)議和游戲無(wú)國(guó)界組隊(duì)等，實(shí)時(shí)語(yǔ)音翻譯和轉(zhuǎn)文字等功能使得溝通無(wú)障礙。

侯希明總結(jié)到，AI與實(shí)時(shí)音視頻相互融合，緊密相連，是視頻發(fā)展的大勢(shì)所驅(qū)。在演講的最后，侯希明表示：“聲網(wǎng)主要專注在實(shí)時(shí)音視頻的領(lǐng)域，希望在這樣的領(lǐng)域跟更多合作伙伴一起打造生態(tài)，把最佳的終端體驗(yàn)提供給最終用戶。”

AI+RTC