導(dǎo)讀:在阿里,音視頻會(huì)議已經(jīng)成為跨地區(qū)溝通、開會(huì)以及招聘的首選方式。據(jù)悉,目前阿里巴巴的辦公網(wǎng)絡(luò)與音視頻會(huì)議已經(jīng)覆蓋全球33個(gè)國(guó)家和地區(qū),其中,音視頻會(huì)議在過去3個(gè)月平均每天召開超過2000余場(chǎng)。在使用如此頻繁、覆蓋面如此之廣的音視頻場(chǎng)景中,如何滿足全球各地使用者的不同需求,保障交流的順暢?下面,我們一起來探討、研究。
分享者:阿里巴巴信息平臺(tái)事業(yè)部資深技術(shù)專家致凡
音視頻行業(yè)的發(fā)展
音視頻行業(yè)發(fā)展迅速,經(jīng)歷了1970年代的黑白時(shí)代、1980年代的數(shù)字化時(shí)代、1990年代的數(shù)字標(biāo)清時(shí)代、2006-2015年代的高清時(shí)代,2016年逐步開始以融合通信為主的行業(yè)趨勢(shì),高質(zhì)量(4K,高清,高幀率,HDR)、多場(chǎng)景(點(diǎn)播,直播,實(shí)時(shí)通訊)、云化(硬件軟件化,平臺(tái)云化)和行業(yè)化已經(jīng)成為當(dāng)下音視頻行業(yè)的發(fā)展趨勢(shì)。
音視頻行業(yè)未來的發(fā)展趨勢(shì),在我看來就是云+端+服務(wù)。
云:平臺(tái)云化,從PaaS到SaaS,從私有公有云,一切都是基于云的服務(wù)。
端:兼容各種終端,PSTN和VOIP,會(huì)議室設(shè)備,手機(jī),PC,Web,Android終端等。
服務(wù):包括短信,語音,IM,音視頻,呼叫中心,云客服和附加AI服務(wù)等多種服務(wù)。
目前,音視頻已廣泛應(yīng)用于包括B2B(企業(yè)與企業(yè)間、企業(yè)內(nèi)部間)、C2C(用戶與用戶間),以及B2C(企業(yè)和用戶間)。
圖片來自《艾瑞2018通信云服務(wù)行業(yè)報(bào)告》
根據(jù)著名Cisco的VNI(Virtual Network Index)預(yù)測(cè),到2021年,地球上將有46億互聯(lián)網(wǎng)用戶,271億聯(lián)網(wǎng)設(shè)備,82%互聯(lián)網(wǎng)的流量是視頻。每一秒鐘將會(huì)有一百萬分鐘的視頻內(nèi)容被創(chuàng)建,其中4K高清的內(nèi)容會(huì)增加30%,相當(dāng)于每個(gè)月生成71億部DVD影片,直播的需求也會(huì)大幅增長(zhǎng)15倍。
從視頻本身發(fā)展的趨勢(shì)看也是一路狂奔向高清、CIP、4CIP、720P、1080P、UHD4K和8K;加上高幀率FPS 120-160FPS、HDR(High Dynamic Range)、寬色域(Wide Color Gamut),一切發(fā)展變化都是為了給人一種身臨其境的Immersive體驗(yàn)。當(dāng)然還有VR、AR、360視頻,這所有的一切都意味著更多的視頻數(shù)據(jù)流將被生成和消費(fèi)。
網(wǎng)絡(luò)環(huán)境讓我們需不斷完善音視頻服務(wù)
如果網(wǎng)絡(luò)帶寬是無限且暢通無阻的,那世界將是多么美好。但網(wǎng)絡(luò)并不是一馬平川的。有時(shí)像十一長(zhǎng)假堵車,有時(shí)像鄉(xiāng)間泥濘小道,而且還有可能布滿大坑。
根據(jù)Silver-Peak跨美國(guó)和歐洲的網(wǎng)絡(luò)健康報(bào)告發(fā)現(xiàn),網(wǎng)絡(luò)傳輸?shù)难訒r(shí)、抖動(dòng)和丟包是普遍存在現(xiàn)象。有時(shí)網(wǎng)絡(luò)狀況就像天氣一樣令人難以捉摸。雖然網(wǎng)絡(luò)的平均丟包率只有0.34%,但個(gè)別情況下可以達(dá)到2.2%;而且丟包從來都不是均勻的,是突發(fā)性的Burst,網(wǎng)絡(luò)延遲可能會(huì)超過平均值300多倍。這些極端的網(wǎng)絡(luò)情況對(duì)音視頻的傳輸和用戶體驗(yàn)來說,都是極大挑戰(zhàn)。
網(wǎng)絡(luò)和音視頻流量的供求矛盾,網(wǎng)絡(luò)傳輸?shù)牟淮_定和不完善的殘酷現(xiàn)實(shí),倒逼著我們不斷完善和監(jiān)控音視頻服務(wù)。
音視頻內(nèi)容從生產(chǎn)到消費(fèi)的過程會(huì)經(jīng)歷不同環(huán)節(jié),且鏈路較長(zhǎng),其中涉及的技術(shù)也較多,下面將主要對(duì)其中的視頻編碼,網(wǎng)絡(luò)構(gòu)架進(jìn)行解析。
視頻編碼
視頻編碼標(biāo)準(zhǔn)的選擇
視頻編碼標(biāo)準(zhǔn)作為視頻技術(shù)的核心,在過去幾個(gè)世紀(jì)出現(xiàn)過很多不同標(biāo)準(zhǔn),但最終被市場(chǎng)采納主要為以下兩套體系:一套是標(biāo)準(zhǔn)化體系的H264、H265 和正在制定中的VVC;另一套是開源無版稅的VP8、VP9和AOM(Alliance for Open Meida)的AV1。
阿里巴巴是AOM的成員也同時(shí)積極參與VVC的制定,對(duì)于視頻編碼的核心不能被掐住發(fā)展的咽喉。
針對(duì)不同場(chǎng)景的不同編碼需求
視頻不同的應(yīng)用場(chǎng)景(如:點(diǎn)播、直播、實(shí)時(shí)通訊),決定了在每一個(gè)應(yīng)用場(chǎng)景底下對(duì)編碼的不同需求。
對(duì)點(diǎn)播而言最重要的是編碼效率,如何有效節(jié)約帶寬。直播對(duì)延時(shí)有要求,但是是在秒級(jí)的,對(duì)編碼的速度和穩(wěn)定性的需求也比點(diǎn)播高。實(shí)時(shí)通訊對(duì)“點(diǎn)對(duì)點(diǎn)”的延時(shí)要求最高,同時(shí)它對(duì)穩(wěn)定性和容錯(cuò)性的要求也很高,這需要通過平衡編碼效率來實(shí)現(xiàn)。
如何配對(duì)編碼率與分辨率
視頻編碼以前簡(jiǎn)單地采用固定壓縮參數(shù),固定碼率和固定分辨率,對(duì)于HLS和MPEG-DASH的ABR(Adaptive Bitrate),也用固定編碼率和分辨率來配對(duì)。這就無法滿足不同視頻對(duì)碼率的不同需求。1M的720P動(dòng)畫片看起來可能已經(jīng)不錯(cuò)了,但是1M的720P動(dòng)作片看起來就會(huì)很糊。
但對(duì)于ABR,編碼率和分辨率也是一個(gè)動(dòng)態(tài)平衡的過程。在低碼率的情況下用低分辨率以減少塊狀效果(blocking effects),當(dāng)碼率的提高到一定程度時(shí)提升分辨率,包圍不同分辨率RD曲線的就是凸包(Convex Hall)。曲線中的交叉點(diǎn)就是理性的編碼率和分辨率配對(duì)。
如何確定視頻質(zhì)量的衡量指標(biāo)
但怎么確定曲線中的交叉點(diǎn)呢?這需要有衡量視頻質(zhì)量的指標(biāo)。
通常的視頻指標(biāo)包括主觀的MOS分和客觀指標(biāo)比如PSNR,SSIM和VMAF。阿里巴巴的視頻質(zhì)量指標(biāo),不但結(jié)合了通用的客觀指標(biāo),也同時(shí)考慮了影響播放質(zhì)量的的卡頓和網(wǎng)絡(luò)狀況。
如何進(jìn)行自適應(yīng)編碼
自適應(yīng)編碼(Content Adaptive Encoding)是視頻編碼的一大趨勢(shì)。從One-size-fit-all的單一編碼參數(shù)、碼率和分辨率配對(duì),到根據(jù)視頻內(nèi)容的復(fù)雜度進(jìn)行定制化的編碼參數(shù)適配。自適應(yīng)編碼可以針對(duì)單個(gè)視頻、場(chǎng)景、GOP,甚至是Frame用不同的壓縮參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,這樣最大限度優(yōu)化視頻質(zhì)量、節(jié)約帶寬。這種自適應(yīng)優(yōu)化最重要的就是視頻質(zhì)量的衡量指標(biāo)。一旦定義好可用的指標(biāo),就可以圍繞它進(jìn)行不同層次的優(yōu)化。
對(duì)于自適應(yīng)編碼,機(jī)器學(xué)習(xí)可以大有用處。比如利用機(jī)器學(xué)習(xí)針對(duì)不同的視頻特征,找到對(duì)應(yīng)優(yōu)化的編碼參數(shù)。
人腦占人身體的比例不大,但是消耗人體大約1/3的能量,人的基因特性決定了大腦只會(huì)關(guān)注畫面中重要區(qū)域,忽略不重要的區(qū)域。利用這種ROI(Region of Interest)進(jìn)行編碼,就可以在保持視頻主觀質(zhì)量的情況下減少編碼率。比如人臉和文字是經(jīng)驗(yàn)意義下的ROI的例子。
音視頻服務(wù)器網(wǎng)絡(luò)架構(gòu)
實(shí)時(shí)音視頻服務(wù)器的網(wǎng)絡(luò)架構(gòu),除了MESH外,還有MCU(Multi-point Control Unit)和SFU(Selectiveforward Unit)兩種。
MCU是集中的媒體處理服務(wù),優(yōu)勢(shì)在于可以對(duì)媒體和信令進(jìn)行控制和轉(zhuǎn)換,如對(duì)媒體進(jìn)行轉(zhuǎn)碼、轉(zhuǎn)流、混屏、分流,對(duì)信令進(jìn)行轉(zhuǎn)換,對(duì)媒體包進(jìn)行路由優(yōu)化等等。MCU可以減低Client端的CPU和對(duì)網(wǎng)絡(luò)帶寬的需求,但是MCU的缺點(diǎn)也較明顯,那就是服務(wù)器CPU的開銷以及帶來的延遲。
相對(duì)MCU來說,目前更流行的架構(gòu)是SFU,它主要的好處是簡(jiǎn)單、低時(shí)延、高吞吐,缺點(diǎn)是對(duì)client端的帶寬要求比較高,client上傳一路或者多路流同時(shí)下載多路流。SFU的客戶端可以發(fā)單流、多流(Simulcast)和SVC。根據(jù)運(yùn)用場(chǎng)景的不同,客戶端發(fā)流策略也不同。
在阿里巴巴的音視頻會(huì)議系統(tǒng)中,采用的是一種SFU+MCU的混合模式,以保證最大的兼容性。這種SFU和MCU級(jí)聯(lián)的策略保證對(duì)各類客戶端的最大靈活性。此外媒體服務(wù)器在不同區(qū)域可以進(jìn)行級(jí)聯(lián),客戶端就近入會(huì)、就近補(bǔ)包,減低第一公里和最后一公里對(duì)音視頻質(zhì)量的影響。
網(wǎng)絡(luò)帶寬評(píng)估
網(wǎng)絡(luò)帶寬評(píng)估是實(shí)時(shí)通話的關(guān)鍵技術(shù)。阿里巴巴在這方面進(jìn)行了很多針對(duì)會(huì)議室場(chǎng)景的優(yōu)化。并且通過評(píng)估算法可以在服務(wù)器端快速發(fā)布,不用等待更新客戶端軟件。
在弱網(wǎng)不可避免的情況下,通過合理的帶寬分配,確保音頻優(yōu)先傳輸,同時(shí)及時(shí)把弱網(wǎng)信息傳達(dá)給用戶,同樣可以得到用戶理解,提升用戶體驗(yàn)。
后記
音視頻提供的是服務(wù),不是單點(diǎn)的QoS,用戶的最終體驗(yàn)不是簡(jiǎn)單的抗丟包率、卡頓率的指標(biāo),而是端到端的體驗(yàn)。所以不僅需要我們?cè)谑孪葎?chuàng)造一個(gè)良好的音視頻環(huán)境,更需要我們對(duì)整體鏈路進(jìn)行質(zhì)量監(jiān)控。除了能及時(shí)發(fā)現(xiàn)問題,快速響應(yīng)外,還能幫助我們不斷發(fā)現(xiàn)與創(chuàng)造更多新業(yè)務(wù)場(chǎng)景。通過把業(yè)務(wù)數(shù)據(jù)化,再根據(jù)數(shù)據(jù)來指導(dǎo)業(yè)務(wù),這樣才能讓音視頻的服務(wù)體驗(yàn)達(dá)到極致。