這幾年,各種各樣的技術和產品,就像地里的稻谷一樣,火了一茬又一茬。這不,近段時間,智能音箱又開始強勢崛起,巨頭們紛紛瞄向智能音箱市場,引起了新一輪的血雨腥風。
這一切源于近兩年智能家居開始流行的“解放雙手”,在這“解放雙手”的過程中語音識別是最關鍵的一環,有很多人斷言沒有語音識別的的智能家居系統都是假智能家居。人們對于語音識別未來的發展充滿了信心,甚至在“語音識別”的百度百科中有這么一句話:人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。當然,小編同樣是語音識別的腦殘粉,對語音識別未來的發展前景充滿了美好的想象。不過,在充滿信心的同時,小編我不禁對一個問題充滿了好奇:那些語音識別的巨頭企業一直在告訴大眾:我們的識別率已經達到了95%了97%了,99%了,99.9%了!看他們打了雞血似的不斷更新這個數字,真是一件可喜可賀、喜大普奔的事情。但是,小編卻想歪個樓,識別率99%的語音識別搞得定方言嗎?
討論語音識別方言識別率的必要性
小編絕對不承認,這個問題的討論僅僅是基于小編本人無處釋放的無聊。所以我們就先來確定一下討論這個問題的必要性。對于國外的情況小編不是很了解,那咱們就來探討一下中國的方言情況。小編還記得大學時期《方言學》上課的第一天,我們那個漂亮的女教授說的第一句話就是:我想大家一定都聽過“十里不同音,百里不同俗”吧。十里不同音,這就是中國的語言現狀。在中國,很多的人們說著彼此幾乎無法交流的語言,作為南方人小編深有感觸,也許真的走出自己家的小鎮,就聽不懂當地人說的是什么了。普通話的普及也不過短短幾十年,各種方言混雜的情況實在是太常見了。
那中國究竟有多少種方言呢?中國共有56個民族,除了回族沒有自己的語言之外,其他所有民族都有自己的語言,這就有50多種,但這并不是全部,因為在各個方言區中又分布著多種土語。據不完全統計,中國至少有80種以上的語言。除此之外,由于受到方言的影響,很多人的普通話會有一定的口音存在。其實對于這一點,小編真的很有話語權啊,因為小編平時對一些企業管理者進行采訪之后,用語音識別軟件將錄音轉錄出來時,小編就發現口音對于語音識別的干擾真的是非常非常大的啊。但是然并卵,小編的軟件賬號丟失了,所以這些記錄都找不回來了,無圖無真相啊。
語音識別的原理
好了,先忽略口音的問題,讓我們回到方言識別這個問題。我們先來看看語音識別的技術原理,所謂語音識別,就是將一段語音信號轉換成相對應的文本信息(我們這里不討論作為安防手段的聲紋識別,而是討論以人機交互為目的的語音識別),系統主要包含特征提取、聲學模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對所采集到的聲音信號進行濾波、分幀等預處理工作,把要分析的信號從原始信號中提取出來;之后,特征提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特征向量;聲學模型中再根據聲學特性計算每一個特征向量在聲學特征上的得分;而語言模型則根據語言學相關的理論,計算該聲音信號對應可能詞組序列的概率;最后根據已有的字典,對詞組序列進行解碼,得到最后可能的文本表示。
作為語音識別的前提與基礎,語音信號的預處理過程至關重要。在最終進行模板匹配的時候,是將輸入語音信號的特征參數同模板庫中的特征參數進行對比,因此,只有在預處理階段得到能夠表征語音信號本質特征的特征參數,才能夠將這些特征參數進行匹配進行識別率高的語音識別。若果讓小編用一句話來進行總結就是:對語音識別來說,給它足夠的數據量進行學習是關鍵。
語音識別的方言識別率究竟如何?
那語音識別對于方言的識別情況究竟怎么樣呢?在寫稿的時候,小編就近找了兩個同事(一個是湖北赤壁人,一個是湖南長沙人以及小編本人是湖南邵陽人)跟我一起進行了一個簡單的測試。
小編截取了這篇文章中的一段文字:那中國究竟有多少種方言呢?中國共有56個民族,除了回族沒有自己的語言之外,其他所有民族都有自己的語言,這就有50多種,但這并不是全部,因為在各個方言區中有分布著多種土語。因此,據不完全統計,中國至少有80種以上的語言。
小編讓同事分別用自己家鄉的方言念了一遍這段話,然后用微信的語音轉文字進行轉寫,測試結果如下:

湖南長沙同事的測試結果

湖北赤壁同事的測試結果

湖北赤壁同事的測試結果
然后,小編其中一個多才多藝的同事表示,這樣的測試結果太慘絕人寰了,而且她覺得這樣催人淚下的結果,主要是因為我們說的話都太土了,于是她又用標準的武漢話念了一遍……
當語音識別撞上方言,誰比誰懵逼?
我還能說什么呢?微信用的可是現在最火的訊飛輸入法。最后,小編又用普通話念了一遍這句話,算是為語音識別強力挽了一把尊,99%的識別率其實并不算是吹的。
當然,小編的這個討論是國際化的,不可能僅僅局限于中國方言,接下來我們來看看國外的情況。不久前,一位來自美國的消費者最近投訴亞馬遜Alexa:它并不能識別自己老媽的口音。“這些軟件似乎聽不懂我在說什么。”這位母親如是說。面對母親的抱怨,這位美國消費者決定向亞馬遜反應這一問題。這件事情肯定會讓人想起Siri,盡管蘋果在每次發布會上都似有似無的提到一句“我們又提升了Siri的識別率”,但實際效果正如大家所看到的這樣,有的時候它真的無能為力。不僅如此,小編記得在看《非正式會談》的時候,其中一個日本嘉賓就嘲笑過另一個日本嘉賓的大阪口音,而一個美國嘉賓也嘲笑過一個美國嘉賓的俄亥俄州口音,所以說這個方言和口音的問題真的是一個全球性的問題,語音識別任重而道遠啊。
慧聰安防網總結
雖然小編在前文中說,這篇文章源于小編的無聊,但是小編必須嚴肅地說:我所討論的這個問題是具有非常大的現實意義的。以中國為例,因為普通話的推廣時間太短,導致很多上了年紀的人基本不會講普通話,而且,這樣的人群并不在少數。當然,現在很多語音識別系統都會考慮到方言的搭載,但是不得不說這是一個很漫長的過程。
但是這還不是語音識別應用推廣最大的問題,事實上,在小編看來,口音問題可能會是語音識別應用更大的問題。和在這個測試中,小編與同事使用純方言這樣極端的情況不同的是,口音問題在我國是一個非常普遍存在的問題,尤其是在我國南方,很多人都帶有口音,而小編的經驗告訴我,對于這些有一定口音的普通話識別,語音識別技術很難做到99%,能達到70%的識別率就很不錯了。或許這會是小編的下一篇原創的主題,不過前提是我得先把訊飛聽見的賬號找回來。
責任編輯:吳一波
相關推薦
浦城法院啟用庭審智能語音識別系統
“現在開庭!”12月19日上午,隨著一聲清脆的法槌聲,一起定金合同糾紛案件在浦城縣法院開庭審理。審判員話音未落,電腦顯示屏上就同步出現漢字:“審判員:現在開庭”。與以往不同的是,這次庭審看不到書記員在忙碌的打字記錄,但電腦顯示屏上記錄著庭審中審判員和訴訟參與人說的每一句話。庭審一結束,當事人就可以核對后在庭審筆錄上簽字。筆錄怎么形成的呢
西媒:中國人工智能實力可比肩美國 “雙寡頭”局面已到來
西媒稱,擴音器識別出了使用者的聲音,并逐漸降低了音量;在人聲的指揮下,窗簾打開或關閉,空調系統依據指定的溫度開啟,吸塵器自動關閉。科大訊飛是一家專門從事語音識別技術研發的公司,旗下擁有約2000種使用語音識別技術的產品。中國政府已經正式將該公司認定為人工智能領域的領軍企業。據西班牙《國家報》網站12月24日報道,中國正經歷一場真正的人工