金山云高級技術總監韓博：多模態理解視頻，5G時代AI的認知進階

5G寬帶 dvbcn編輯 2019-05-30 16:40 閱讀 5,020 來源：DVBCN 　

5月28日，第七屆中國網絡視聽大會由金山云承辦的以“5G釋能超清視界”為主題的“5G視頻應用創新技術論壇”上，金山云高級技術總監韓博發表了題為《多模態理解視頻，5G時代的AI認知進階》的主題演講。韓博表示，5G時代，AI也要跟上，金山云將運用自身相關的輸出和能力真正的解決行業當中遇到的各種問題。

金山云高級技術總監韓博：多模態理解視頻，5G時代AI的認知進階-DVBCN

圖：金山云高級技術總監韓博

首先，韓博講到通信技術的發展和內容傳播的關系。每一次通信技術的變革對消費者來說感觸最大的是信息載體，也就是內容形式上的變化。2G時代使用短信和QQ文字的溝通方式。3G時代是圖片時代。人們開始使用圖片記錄分享生活中的精彩瞬間。進入4G時代，短視頻和直播蓬勃發展。14年被稱為移動互聯網的元年，依托技術涌現了很多非常知名的公司，頭條系、快手系、抖魚、龍珠等等。

5G是一個新時代，首先一定是一個視頻時代。5G帶來的高帶寬、低延時、低成本，大并發的等優勢給新的視頻形態的產生和傳播帶來了新的機遇。還有一個方面是物聯網。一個單一的基站可以接入上千、上百萬的小型的IOT設備，給物聯網帶來新的繁榮的機會。另外，從內容傳輸的角度，5G的到來也會真正的把VR/AR代入蓬勃發展期。

5G技術帶領視頻進入生活智能化時代

回到命題，5G帶我們全面進入了視頻時代，生活智能化從幾個方面體現，一個是5G推動了IOT技術的發展讓傳播和制作更加方便。再之后是AI賦能生產，人工智能技術已經貫穿了內容生產的全過程，使過程更加高效。最后是內容分發，做高質量的真正的個性化推薦，讓內容直接觸達用戶，這就是AI感知賦能內容生產的全過程。

韓博接下來談到了用戶感知升級。金山云在AI賦能生產方面已經嘗試了兩年多的時間，從兩年前的圖片層面到如今感知升級到語義的層面，這是一個視頻理解的過程。5G的一個重要的方面是記錄生活，生活到底是什么，生活并不僅僅是一系列的快照，而是隨著時間變化在現實世界中發生的事情，是一個動詞，而不是名詞。

隨后，韓博談到單模態理解的局限性，相似的圖像會造成誤判，韓博舉例到一個人拿著一根棒棒糖，單純看圖難以分辨他是在抽煙還是吃糖。如何解決這個問題呢？在多模態的情況下，有前后文，多模態的場景可以很好的解決這個問題。另外脫離場景判斷內容，判斷是跟場景、其他的信息相關時會更加客觀。最后結合文本識別。韓博強調，真正的多模態融合，最終要輸出一個跟場景和具體命題相關的整體視頻結論。

多模態融合理解助力讀懂視頻

韓博介紹到在讀懂視頻這件事情上金山云具體的實現方案分為兩個階段：第一個是感知階段，第二個是推理階段。現有的絕大多數技術更多的是局限于前一個階段，一些低層語義的信息感知上，而且感知的手段是多方面的，可以有音頻、視頻圖像，還可以有字幕，一系列的基礎模型，OCR識別、音頻識別，人臉識別，可以處理一堆結果，這是相關標簽，但是這些標簽并不足以支撐最終讀懂視頻，缺一個推理的過程，最終我們需要一個決策引擎把所有的信息融合在一起。

韓博以內容審核為例，如果你在前面一系列的視頻得出的標簽，有一女生穿著校服，還有一個場景是封閉的賓館，那么以現有的知識圖譜講是有一定的危險度場景，需要進一步的判斷或者進一步分析。

韓博介紹到多模態的概念，模態是一個生物學的概念，是一個生物通過自己的感覺器官，通過自己的新知識從自然界或者外界的信息中獲取信息的一個通道。從計算機科學的角度講，其實是一個感官或者是信息的通道，從不同的感官上搜集信息，最終做綜合的決策。

隨后韓博談到內容生產的幾個場景：語音字幕You Tube已經有這樣的場景，自動的進行語音的轉寫。還有智能的BGM，根據視頻的內容自動的推薦音樂，可以分析整個視頻中的節奏和韻律推薦最合適的音樂。還有視頻特效，識別出對應的場景和動作，可以自動添加視頻特效，相當于把5G內容生產的門檻進一步降低。多模態融合也存在許多技術難點，主要體現在兩個方面：第一個還是特征，第二個是融合。

相對于 AI 目前所展示出在圖像和語音領域的單一感知能力，視頻理解更加復雜，也更加困難，這體現在理解視頻是二者的疊加，是圖像到視頻的變化。對于一個視頻來講目前的模態區分成以下幾個方面，首先是視頻截禎，有可能封面或者代表性的圖片，還有音頻提取或者視頻本身。對于音頻，一方面用ASR轉化成文本，還有一種經過聲文的特征，謾罵等等敏感詞，會經過聲文特征的模型。還有一個文本分析的過程，最終這幾類的信息會進入決策引擎，產生AI認知，這是全過程。

最后，韓博介紹了多模態視頻理解帶來的展望，首先是人機交互的升級，無論是物聯網、智能家居，其實都是一個典型的多模態過程。現在用戶家中都有智能音箱入口，還有各種各樣的傳感器感知到周圍環境的變化，某種意義上這就是多模態的過程，而且多模態交互最終的訴求是想人機交互會更加自然，使用戶感到溫度，所以多模態一定是未來5G的大趨勢。最終帶來的算法技術的革新，新的技術場景一定會推動技術的演進，AI的技術會跟著5G的技術一起成長，一起賦能人類美好生活。