放眼全球,如果用一句話來形容當(dāng)下消費(fèi)互聯(lián)網(wǎng)的大勢(shì),「視頻吃掉世界」恐怕是再合適不過的話了。
7 月,在 Facebook 歷史性地突破 20 億月活用戶后,扎克伯格告訴分析師們,隨著用戶在 FB 上視頻內(nèi)容消費(fèi)的大幅增長(zhǎng),F(xiàn)B 會(huì)進(jìn)一步研發(fā)底層的視頻技術(shù),保證用戶在視頻消費(fèi)、視頻生產(chǎn)(上傳)上的優(yōu)秀體驗(yàn)。
中國地區(qū)用戶對(duì)于視頻內(nèi)容的需求也十分旺盛。在 QuestMobile 發(fā)布的《移動(dòng)互聯(lián)網(wǎng)2017春季報(bào)告》中,包括在線視頻、網(wǎng)絡(luò)直播、短視頻等行業(yè),移動(dòng)視頻的用戶月度總規(guī)模首次突破10億,同比增長(zhǎng)36.5%。
更進(jìn)一步的佐證來自 CNNIC 的第40次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至 2017 年6月,中國網(wǎng)絡(luò)視頻用戶規(guī)模達(dá)5.65億,較2016年底增加2026萬人,增長(zhǎng)率為3.7%;網(wǎng)絡(luò)視頻用戶使用率為75.2%。
在這樣的背景下,不管是 BAT 這樣的傳統(tǒng)流量大戶還是今日頭條此等的流量新貴,都在不遺余力地押注視頻。百度強(qiáng)化視頻在 Feed 流中的地位、騰訊領(lǐng)投快手、阿里旗下土豆全面轉(zhuǎn)型、今日頭條旗下抖音準(zhǔn)備出海......這些舉措會(huì)讓人產(chǎn)生一種視頻時(shí)代即將全面到來的產(chǎn)業(yè)錯(cuò)覺。
誠然,如上文所言,「視頻正在吃掉世界」,但就像過往任何產(chǎn)業(yè)爆發(fā)點(diǎn)類似,在商業(yè)應(yīng)用落地的同時(shí),底層技術(shù)進(jìn)步的重要性不言而喻。以視頻行業(yè)的現(xiàn)狀來看,一方面是產(chǎn)業(yè)生態(tài)的瘋狂,另一方面則是在一些底層技術(shù)上的瓶頸,比如可用于視頻動(dòng)作分析的技術(shù)并沒有得到有效的利用,這也讓圍繞視頻內(nèi)容的分類檢索、標(biāo)簽推薦變得非常困難,不僅影響到了視頻的展示效果,同時(shí)也制約了用戶的視頻消費(fèi)體驗(yàn),而這個(gè)行業(yè)痛點(diǎn),不是融資或推廣就能解決,它必須依靠技術(shù)上的突破。
類似的困難和挑戰(zhàn)還有不少,這也使得最近一系列圍繞視頻技術(shù)學(xué)術(shù)會(huì)議或競(jìng)賽成為行業(yè)關(guān)注的焦點(diǎn)。比如在今年的 ActivityNet Challenge 上,幾篇圍繞視頻技術(shù)新突破的獲獎(jiǎng)?wù)撐木蜑橐曨l行業(yè)未來發(fā)展路徑提供了靈感。
論文透露出的行業(yè)機(jī)會(huì)
ActivityNet Challenge是目前視頻動(dòng)作分析領(lǐng)域影響力最大的競(jìng)賽,包括 MSRA、CUHK、CMU、UTS 等眾多高校和科研機(jī)構(gòu)都會(huì)積極參與到比賽里。在今年的比賽里,有兩個(gè)新增的項(xiàng)目:「Kinetics」和「ActivityNet Captioning」兩個(gè)數(shù)據(jù)集。其中「Kinetics」是一項(xiàng)視頻行為分類比賽,有400個(gè)視頻動(dòng)作類別,大約20萬訓(xùn)練語料,可謂 ActivityNet 最具看點(diǎn)的一項(xiàng)任務(wù)。
根據(jù) ActivityNet 最新公布的結(jié)果,今年「Kinetics 視頻行為分類比賽」冠軍被來自百度的 Genome 團(tuán)隊(duì)獲得,香港中文大學(xué)和來自德國的創(chuàng)業(yè)公司 TwentyBN 分列二三位。
按照慣例,ActivityNet 各項(xiàng)任務(wù)的冠軍都有機(jī)會(huì)在 CVPR 上展示自己的論文,因此,我們也有機(jī)會(huì)進(jìn)一步了解這支來自百度的技術(shù)團(tuán)隊(duì)如何思考新一代技術(shù),尤其是基于深度學(xué)習(xí)的人工智能之于視頻行業(yè)的意義。
論文網(wǎng)址在https://arxiv.org/abs/1708.03805,有時(shí)間的話建議下載下來細(xì)細(xì)研讀,沒有時(shí)間精力的話,可以直接看下面我們的解讀:
首先,視頻分類技術(shù)的根本,是要讓視頻成為像文本、圖片一樣的結(jié)構(gòu)化數(shù)據(jù)。過去很長(zhǎng)一段時(shí)間里,互聯(lián)網(wǎng)上都是文本、圖像數(shù)據(jù),但最近幾年隨著移動(dòng)網(wǎng)絡(luò)的普及以及智能手機(jī)性能的提升,視頻內(nèi)容已然「霸占」了移動(dòng)互聯(lián)網(wǎng),然而對(duì)于很多開發(fā)者或視頻服務(wù)商來說,視頻內(nèi)容是一種典型的非結(jié)構(gòu)化數(shù)據(jù),它無法像文本、圖像那樣被自動(dòng)檢索和有效利用,需要大量人力成本進(jìn)行手動(dòng)查看、加標(biāo)簽以及審核,效率低下。
在百度 Genome 團(tuán)隊(duì)的這篇論文里,提出了一整套視頻分類的解決思路,通過對(duì)視頻內(nèi)容的智能分析和提取,它能夠自動(dòng)提取視頻中的語音、文字、任務(wù)、物體等元素,從而自動(dòng)輸出這些視頻的泛標(biāo)簽。這些提取的「泛標(biāo)簽」,事實(shí)上也讓視頻內(nèi)容變成了半結(jié)構(gòu)化的數(shù)據(jù)——它可以被簡(jiǎn)單分類和檢索,對(duì)開發(fā)者或視頻服務(wù)商來說,已經(jīng)節(jié)約了前期人工處理的時(shí)間,從而大大提升了效率。
其次,視頻分類技術(shù)的應(yīng)用場(chǎng)景非常廣泛,不僅會(huì)解決視頻服務(wù)商的痛點(diǎn),還能在提升用戶體驗(yàn)上發(fā)揮作用。
舉個(gè)簡(jiǎn)單的例子,基于深度學(xué)習(xí)的視頻分類技術(shù),可以讓視頻對(duì)比檢索變得非常簡(jiǎn)單。很多用戶常常會(huì)有一種需求,即能否通過一張靜態(tài)圖像來搜索某個(gè)視頻,這與過往以文本搜索視頻的技術(shù)完全不同,它需要在靜態(tài)圖像上提取有效信息,并將這些信息與已經(jīng)半結(jié)構(gòu)化的視頻庫進(jìn)行對(duì)比,從而準(zhǔn)確并快速找到最符合條件的視頻。
另一方面,在視頻分類技術(shù)的幫助下,視頻服務(wù)商還能提供更多可定制化的應(yīng)用場(chǎng)景。比如在運(yùn)營(yíng)層面,借助視頻對(duì)比檢索,可以快速查詢與其包含相同片段的短視頻,可以視頻去重和版權(quán)保護(hù);產(chǎn)品層面,當(dāng)視頻內(nèi)容變得像文本、圖片一樣可方便檢索的時(shí)候,可否打造一個(gè)適配視頻內(nèi)容的搜索引擎?又或者,由于視頻服務(wù)商具備了理解不同視頻的能力,在構(gòu)建新一代視頻推薦產(chǎn)品中,是否也具備了先發(fā)優(yōu)勢(shì)呢?
誰的機(jī)會(huì)?
一個(gè)有趣的細(xì)節(jié)是,這支 Genome 團(tuán)隊(duì),在今年 2 月的 YouTube-8M 大規(guī)模視頻理解競(jìng)賽中也進(jìn)入三甲。Youtube-8M數(shù)據(jù)集由谷歌今年2月在Kaggle平臺(tái)發(fā)起,擁有約800萬的已標(biāo)注視頻,是目前全球規(guī)模最大的視頻數(shù)據(jù)集之一??紤]到 Genome 團(tuán)隊(duì)出自百度深度學(xué)習(xí)實(shí)驗(yàn)室,此次該團(tuán)隊(duì)更進(jìn)一步獲得第一,也讓外界對(duì)于這些技術(shù)是否會(huì)融入百度產(chǎn)品體系,尤其是 Feed 流產(chǎn)品,充滿了好奇。
最新一季百度財(cái)報(bào)里,來自 Feed 流的日活用戶數(shù)量突破 1 億,收入也從一季度每天 1000 萬提升到了 3000 萬,這些數(shù)字的變化彰顯出百度在流量入口的強(qiáng)大控制力,同時(shí)也得力于基于海量數(shù)據(jù)、深度學(xué)習(xí)算法結(jié)合后所帶來的神奇效果,在保證用戶體驗(yàn)的前提下,讓 Feed 流成為資訊、廣告的重要載體。
這種基于內(nèi)容分發(fā)的 Feed 流模式也被 Google 所效仿,在其最新的 Google 手機(jī)搜索客戶端里,也加入了類似的產(chǎn)品形式。
縱觀百度的 Feed 流產(chǎn)品設(shè)計(jì),產(chǎn)品入口層面,不管是手機(jī)百度、貼吧還是手機(jī)瀏覽器,視頻、短視頻都有單獨(dú)的入口;技術(shù)層面,視頻分類技術(shù)所展現(xiàn)的巨大潛力,借助百度在用戶畫像的積累,不僅能夠?qū)崿F(xiàn)新用戶的冷啟動(dòng),還能不斷提升老用戶的視頻內(nèi)容消費(fèi)體驗(yàn)。更重要的一點(diǎn)則是,視頻分類技術(shù)所帶來的產(chǎn)品運(yùn)營(yíng)方式方法的變化,或?qū)⒔o視頻內(nèi)容的上游產(chǎn)生諸多影響,比如,能否根據(jù)特定用戶畫像實(shí)現(xiàn)真正意義上的特定視頻推薦?也真正實(shí)現(xiàn)所謂「千人千面」的定制化 Feed 流產(chǎn)品。
事實(shí)上,將這些產(chǎn)品設(shè)計(jì)和底層技術(shù)的討論放在全民視頻消費(fèi)井噴的行業(yè)背景下,更具現(xiàn)實(shí)意義。在這一波依然以移動(dòng)設(shè)備為主體的內(nèi)容消費(fèi)浪潮里,F(xiàn)eed 流或類 Feed 流已成行業(yè)共識(shí),而得視頻者也才有可能得天下。這或許也是百度、Google 這些巨頭的機(jī)會(huì),他們各自在用戶畫像和知識(shí)圖譜上擁有豐富積累,并且擁有中美互聯(lián)網(wǎng)流量入口的權(quán)力,未來兩家公司在 Feed 流,尤其是以視頻內(nèi)容為主導(dǎo)的 Feed 流產(chǎn)品和技術(shù)演進(jìn)格局,也將進(jìn)一步左右行業(yè)發(fā)展的方向。
寫在最后
不過,與文本、圖像相對(duì)成熟的技術(shù)、產(chǎn)業(yè)生態(tài)相比,視頻內(nèi)容還無法真正實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化存儲(chǔ),這也使得某些應(yīng)用場(chǎng)景還處在相對(duì)初級(jí)的階段。另一方面,當(dāng) Facebook 的 News Feed 不斷鼓勵(lì)用戶生產(chǎn)、消費(fèi)視頻內(nèi)容,當(dāng)短視頻、直播類的產(chǎn)品一個(gè)個(gè)突破活躍用戶極限,整個(gè)互聯(lián)網(wǎng)已然處在視頻爆發(fā)的前夜,這既是全行業(yè)的機(jī)會(huì),更是屬于掌握「核心技術(shù)」者的機(jī)會(huì)。
某種意義上,視頻行業(yè)的競(jìng)爭(zhēng)早已不局限在簡(jiǎn)單的內(nèi)容、生態(tài)競(jìng)爭(zhēng),而是底層技術(shù),尤其是人工智能領(lǐng)域的競(jìng)爭(zhēng),即包括數(shù)據(jù),也包括算法,更是人才和戰(zhàn)略的競(jìng)爭(zhēng)。從這個(gè)角度去看,早已將人工智能放入公司發(fā)展戰(zhàn)略的 Google、FB、百度已經(jīng)擁有不小的優(yōu)勢(shì)。
當(dāng)百度上月通過一場(chǎng)開發(fā)者大會(huì)展現(xiàn)出了轉(zhuǎn)型人工智能決心后,整個(gè)公司的產(chǎn)品線都在圍繞人工智能進(jìn)行重構(gòu)。在 Feed 流的未來場(chǎng)景里,基于深度學(xué)習(xí)的視頻技術(shù),比如視頻分類技術(shù)所帶來的化學(xué)反應(yīng)——不管是利用視頻分類催生的新業(yè)務(wù)模式還是視頻技術(shù)進(jìn)步帶來的用戶體驗(yàn)上升,這一切或?qū)⒆尠俣仍?Feed 流產(chǎn)品的未來格局中占據(jù)重要位置。