圖為 聲網(wǎng)首席產(chǎn)品架構(gòu)師侯希明
聲網(wǎng)Agora是一家做實(shí)時(shí)音視頻云服務(wù)的公司,在2014年成立,創(chuàng)始團(tuán)隊(duì)來(lái)自YY,11月份剛剛拿了7000萬(wàn)美元的C輪融資。其產(chǎn)品形態(tài)主要是在移動(dòng)端、PC端和網(wǎng)頁(yè)端的SDK以及配套的云服務(wù),用戶通過(guò)集成SDK就可以實(shí)現(xiàn)終端之間音視頻通話的能力。主要應(yīng)用行業(yè)包括在線教育,直播社交,在線游戲,廣電OTT,遠(yuǎn)程醫(yī)療,智能硬件等等,到目前為止在全球擁有200個(gè)數(shù)據(jù)中心,累積連接二十億終端,日通話在3億分鐘。
侯希明本人在實(shí)時(shí)音視頻領(lǐng)域工作超過(guò)了16年,經(jīng)歷了從傳統(tǒng)的光碟格式VCD到DVD到藍(lán)光,再到online視頻,到CDN單向視頻云點(diǎn)播直播再到實(shí)時(shí)音視頻。對(duì)于他而言,明顯地體會(huì)到隨著音視頻技術(shù)的廣泛應(yīng)用,AI技術(shù)對(duì)于音視頻來(lái)講越來(lái)越不可或缺,AI的加入使得實(shí)時(shí)音視頻在各個(gè)行業(yè)的各個(gè)場(chǎng)景下的應(yīng)用更加智能和完善。
這些應(yīng)用主要體現(xiàn)在以下三點(diǎn):
第一AI助力RTC提升音視頻端到端的質(zhì)量
眾所周知,在視聽(tīng)的角度,一個(gè)永恒的主題就是質(zhì)量,質(zhì)量的背后是各種高精尖的AI算法。比如在視頻領(lǐng)域,視頻經(jīng)歷從發(fā)出到編碼、經(jīng)過(guò)傳輸再到解碼、最后到顯示的過(guò)程。在視頻編碼的階段,通過(guò)窄帶高清的算法可以把碼率降低節(jié)省帶寬,這是比較常見(jiàn)的智能應(yīng)用,那在實(shí)時(shí)音視頻有一個(gè)條件,全球的網(wǎng)絡(luò)環(huán)境和硬件設(shè)備不對(duì)等,比如印度網(wǎng)絡(luò)條件比較差,歐美比較好,國(guó)內(nèi)有不同網(wǎng)絡(luò)運(yùn)營(yíng)商的差異,各種硬件設(shè)備能力之間也有差異,發(fā)送端有很大的概率發(fā)送出非常低清的視頻。
那接收端怎么享受高清體驗(yàn)?zāi)?侯希明表示:“通過(guò)在解碼后,顯示之前,插入AI算法,通過(guò)識(shí)別視頻里邊的內(nèi)容進(jìn)行視頻超分,最終在設(shè)備端來(lái)顯示高清的視頻效果。
同樣AI算法還在提升語(yǔ)音質(zhì)量上方面也有非常大的幫助,目前聲網(wǎng)Agora比較典型的兩個(gè)應(yīng)用:一個(gè)是場(chǎng)景識(shí)別,另外一個(gè)是3A算法。場(chǎng)景識(shí)別在實(shí)時(shí)互動(dòng)分成兩個(gè)模式,一個(gè)是通話模式,一個(gè)是音樂(lè)模式。侯希明介紹到:“通話模式比如我們常見(jiàn)的會(huì)議,要求通話過(guò)程語(yǔ)音清晰不卡頓。而音樂(lè)模式則更多的是主播在唱歌時(shí),后面有背景音樂(lè)放出的場(chǎng)景;在不同的場(chǎng)景下適配不同的音頻算法已達(dá)到適配場(chǎng)景的最佳質(zhì)量”。3A算法的應(yīng)用主要是在智能降噪的處理上,侯希明介紹到:“我們知道現(xiàn)實(shí)場(chǎng)景面對(duì)面的溝通,即使周圍有嘈雜的背景噪聲,我們也會(huì)忽略這些噪聲,專注在溝通本身。但是實(shí)時(shí)通話的時(shí)候,麥克風(fēng)會(huì)把所有噪音收進(jìn)去了,這時(shí)候就要識(shí)別把無(wú)意義的噪音消除掉,把有效的聲音傳過(guò)去。”
那除了音視頻算法本身,實(shí)時(shí)通話離不開(kāi)云服務(wù)的傳輸能力,在跨洲跨運(yùn)營(yíng)商的多方通話中,如何動(dòng)態(tài)的智能的找到數(shù)據(jù)傳輸?shù)淖罴崖窂剑彩翘峁┳罴岩粢曨l服務(wù)的有力保障。
AI除了提升質(zhì)量之外,聲網(wǎng)還可以借助其做質(zhì)量分析,聲網(wǎng)目前推出了“水晶球”產(chǎn)品,可以對(duì)云上所有實(shí)時(shí)通話進(jìn)行質(zhì)量分析,實(shí)時(shí)的檢測(cè)整條通話鏈路上的各個(gè)模塊的運(yùn)行狀況以及對(duì)于有問(wèn)題的質(zhì)量給出最精確的原因分析,幫助客戶在運(yùn)營(yíng)側(cè)更好的處理業(yè)務(wù)邏輯。
第二AI增強(qiáng)RTC實(shí)時(shí)互動(dòng)體驗(yàn)
實(shí)時(shí)音視頻傳輸把線下的場(chǎng)景完整的搬到線上,使得人與人之間在任何時(shí)間和地點(diǎn)都可以隨意溝通,除了用先進(jìn)的技術(shù)提供最佳的質(zhì)量體驗(yàn)的同時(shí),AI還增強(qiáng)了交互上的體驗(yàn)。最具代表性的就是人臉識(shí)別互動(dòng)和擬人變聲,侯希明介紹到:“人臉識(shí)別在實(shí)時(shí)音視頻領(lǐng)域主要體現(xiàn)在三個(gè)方面:一是美顏,二是面具變臉,三是情緒識(shí)別。”美顏在社交直播領(lǐng)域已經(jīng)非常的成熟,坊間的說(shuō)法美顏已經(jīng)成為亞洲三大邪術(shù)之一;再有趣一點(diǎn)的應(yīng)用就是加上面具表情等;再高階一點(diǎn)的應(yīng)用是關(guān)于情緒的識(shí)別,比如在視頻客服的應(yīng)用上,通過(guò)情緒識(shí)別來(lái)監(jiān)測(cè)客戶滿意度等。在語(yǔ)音方面,通過(guò)聲音客制化和擬人化達(dá)到各種各樣的效果,比如在語(yǔ)音陪聊或者游戲?qū)?zhàn)組隊(duì)聊天的場(chǎng)景下,每個(gè)游戲玩家都可以是一個(gè)萌妹子,跟你談戀愛(ài)的可能是個(gè)機(jī)器人。
第三AI+RTC可以實(shí)現(xiàn)更好的業(yè)務(wù)閉環(huán)
最后,侯希明還談到了AI如何在實(shí)時(shí)音視頻領(lǐng)域如何實(shí)現(xiàn)更好的業(yè)務(wù)閉環(huán)。在廣電領(lǐng)域,內(nèi)容監(jiān)管尤為重要,這一點(diǎn)在實(shí)時(shí)音視頻領(lǐng)域同樣重要。目前最火的監(jiān)管應(yīng)用是視頻鑒黃和語(yǔ)音鑒黃,假定每5秒鐘采取一個(gè)樣本點(diǎn)進(jìn)行鑒黃,一億視頻分鐘數(shù)就會(huì)產(chǎn)生12億張圖片,數(shù)據(jù)量非常龐大,通過(guò)機(jī)器識(shí)別進(jìn)行快速的分析判斷,把有潛在問(wèn)題的圖片再傳到人工那里進(jìn)行二次審核是目前比較成熟的方案。
除了監(jiān)管,另外一塊是業(yè)務(wù)增值,典型的應(yīng)用主要是語(yǔ)音轉(zhuǎn)文字和實(shí)時(shí)語(yǔ)音翻譯等自然語(yǔ)言處理功能。應(yīng)用場(chǎng)景包括視頻會(huì)議和全球同服的在線游戲等,比如跨國(guó)會(huì)議和游戲無(wú)國(guó)界組隊(duì)等,實(shí)時(shí)語(yǔ)音翻譯和轉(zhuǎn)文字等功能使得溝通無(wú)障礙。
侯希明總結(jié)到,AI與實(shí)時(shí)音視頻相互融合,緊密相連,是視頻發(fā)展的大勢(shì)所驅(qū)。在演講的最后,侯希明表示:“聲網(wǎng)主要專注在實(shí)時(shí)音視頻的領(lǐng)域,希望在這樣的領(lǐng)域跟更多合作伙伴一起打造生態(tài),把最佳的終端體驗(yàn)提供給最終用戶。”