2018年11月28日,第六屆中國網(wǎng)絡視聽大會在成都盛大召開,大會以“凝心聚力 創(chuàng)造美好新視界”為主題,邀請300余位重量級業(yè)界嘉賓進行分享交流。11月30日下午,由金山云承辦的“AI賦能 俯瞰視界”人工智能應用發(fā)展論壇上,小米人工智能與云平臺語音總監(jiān)王育軍做了題為《語音技術(shù)在小米》的演講,介紹了小米是如何運用人工智能,讓語音技術(shù)快速成長的,以及在這個過程中,又實現(xiàn)了怎樣的產(chǎn)品和算法創(chuàng)新。
圖為 小米人工智能與云平臺語音總監(jiān)王育軍
在演講的開始,王育軍首先感謝了小米公司,因為對于做語音的人來說,小米有最多的語音用戶場景,每天有大量的語音的需求和數(shù)據(jù)。
小米的“ABC”業(yè)務
王育軍表示:“說到人工智能電視就不得不提語音,因為它是電視的基礎。去年3月,小愛同學已經(jīng)應用在電視上, 如今小愛同學不僅是單純的音箱,還是人工智能的載體,我們內(nèi)部管它叫人工智能的OS。”
據(jù)王育軍介紹:“從2012年的大數(shù)據(jù)云服務到2017的人工智能,小米的業(yè)務主要是圍繞人工智能,大數(shù)據(jù)、云技術(shù),簡稱ABC。”目前小米在線活躍的智能設備數(shù)有1.32億,線下的小米之家遍布世界,僅在國內(nèi)就有超過500家的小米之家。
小米的語音識別業(yè)務
小米從去年2月份開始成立語音組,首先研究的就是語音識別。王育軍表示:“我們結(jié)合小米數(shù)據(jù)的特點,不斷迭代線上的語音識別數(shù)據(jù)模型,并在11月份把大部分語音場景接入小愛同學,同時跟金山云和英偉達合作把線上的服務都GPU化。”
關(guān)于小米語音識別和電視,王育軍表示:“我們做語音的有一句話:得電視者得語音,因為電視的場景特別窄,而想要把電視做好,有兩個關(guān)鍵模型,一是聲學模型,一個是語音模型。我們把用戶習慣的搜索數(shù)據(jù)進行改變,就成了語音模型的材料,這些可以形成種子模型。”
有了種子模型、電視模型之后,小米把目光放在了手機場景上,王育軍表示:“因為手機是近場的設備,我們可以通過手機了解和獲取用戶的說話習慣和發(fā)音習慣。沿著這個思路我們把語音的業(yè)務擴展到兒童,因為在節(jié)假日期間,電視的觀看用戶有50%的是兒童。”
小米遵循的開發(fā)模式
目前小米內(nèi)部遵循的開發(fā)模式還是一個測試集,這個測試集對于已經(jīng)上線的產(chǎn)品會從線上隨機抽取線上的語音請求進行測試。由于它是隨機抽取的,它真實反應了大部分用戶的說話習慣和線上大部分用戶的請求分布。在這個測試集上,語音識別業(yè)務和語音喚醒業(yè)務,把測試集的準確率做高,任務就會做高。王育軍表示:“有了這個測試集之后我們會搜集數(shù)據(jù)把它放到群里邊進行迭代,最后模型迭代的結(jié)果會檢測出結(jié)果是否可行,整個過程大概是6個月。”
據(jù)王育軍介紹:“對于端對端的喚醒來說,我們在訓練的時候會把注意力放在朝向用戶的麥克風上,即把注意力放在熟知的說話人身上。對于噪聲抑制,我們會放到噪聲干擾小的格子上。說話人自適應是老技術(shù),因為在小米有大量的用戶場景。對于沒有上線的業(yè)務,我們有大量的米粉自愿幫助我們做大量的實驗。”
在演講的最后,王育軍表示:“我們做項目交互的同時一直把注意力放在研究上,一邊做業(yè)務一邊做研究是非常難的,但我們會一直持續(xù)這樣的模式。”