小米王育軍：語音技術(shù)在小米

5G寬帶 dvbcn編輯 2018-12-04 09:18 閱讀 4,080 來源：DVBCN 　

2018年11月28日，第六屆中國網(wǎng)絡視聽大會在成都盛大召開，大會以“凝心聚力創(chuàng)造美好新視界”為主題，邀請300余位重量級業(yè)界嘉賓進行分享交流。11月30日下午,由金山云承辦的“AI賦能俯瞰視界”人工智能應用發(fā)展論壇上，小米人工智能與云平臺語音總監(jiān)王育軍做了題為《語音技術(shù)在小米》的演講，介紹了小米是如何運用人工智能，讓語音技術(shù)快速成長的，以及在這個過程中，又實現(xiàn)了怎樣的產(chǎn)品和算法創(chuàng)新。

圖為小米人工智能與云平臺語音總監(jiān)王育軍

在演講的開始，王育軍首先感謝了小米公司，因為對于做語音的人來說，小米有最多的語音用戶場景，每天有大量的語音的需求和數(shù)據(jù)。

小米的“ABC”業(yè)務

王育軍表示：“說到人工智能電視就不得不提語音，因為它是電視的基礎。去年3月,小愛同學已經(jīng)應用在電視上, 如今小愛同學不僅是單純的音箱，還是人工智能的載體，我們內(nèi)部管它叫人工智能的OS。”

據(jù)王育軍介紹：“從2012年的大數(shù)據(jù)云服務到2017的人工智能，小米的業(yè)務主要是圍繞人工智能，大數(shù)據(jù)、云技術(shù)，簡稱ABC。”目前小米在線活躍的智能設備數(shù)有1.32億，線下的小米之家遍布世界，僅在國內(nèi)就有超過500家的小米之家。

小米的語音識別業(yè)務

小米從去年2月份開始成立語音組，首先研究的就是語音識別。王育軍表示：“我們結(jié)合小米數(shù)據(jù)的特點，不斷迭代線上的語音識別數(shù)據(jù)模型，并在11月份把大部分語音場景接入小愛同學，同時跟金山云和英偉達合作把線上的服務都GPU化。”

關(guān)于小米語音識別和電視，王育軍表示：“我們做語音的有一句話：得電視者得語音，因為電視的場景特別窄，而想要把電視做好，有兩個關(guān)鍵模型，一是聲學模型，一個是語音模型。我們把用戶習慣的搜索數(shù)據(jù)進行改變，就成了語音模型的材料，這些可以形成種子模型。”

有了種子模型、電視模型之后，小米把目光放在了手機場景上，王育軍表示：“因為手機是近場的設備，我們可以通過手機了解和獲取用戶的說話習慣和發(fā)音習慣。沿著這個思路我們把語音的業(yè)務擴展到兒童，因為在節(jié)假日期間，電視的觀看用戶有50%的是兒童。”

小米遵循的開發(fā)模式

目前小米內(nèi)部遵循的開發(fā)模式還是一個測試集，這個測試集對于已經(jīng)上線的產(chǎn)品會從線上隨機抽取線上的語音請求進行測試。由于它是隨機抽取的，它真實反應了大部分用戶的說話習慣和線上大部分用戶的請求分布。在這個測試集上，語音識別業(yè)務和語音喚醒業(yè)務，把測試集的準確率做高，任務就會做高。王育軍表示：“有了這個測試集之后我們會搜集數(shù)據(jù)把它放到群里邊進行迭代，最后模型迭代的結(jié)果會檢測出結(jié)果是否可行，整個過程大概是6個月。”

據(jù)王育軍介紹：“對于端對端的喚醒來說，我們在訓練的時候會把注意力放在朝向用戶的麥克風上，即把注意力放在熟知的說話人身上。對于噪聲抑制，我們會放到噪聲干擾小的格子上。說話人自適應是老技術(shù)，因為在小米有大量的用戶場景。對于沒有上線的業(yè)務，我們有大量的米粉自愿幫助我們做大量的實驗。”

在演講的最后，王育軍表示：“我們做項目交互的同時一直把注意力放在研究上，一邊做業(yè)務一邊做研究是非常難的，但我們會一直持續(xù)這樣的模式。”

小米