天天色一色-天天色影院-天天色资料-天天色综-免看一级一片一在线看-免看黄

又一里程碑:微軟宣布中英機(jī)器翻譯達(dá)到人類水平

2018-03-15 10:20:58 來(lái)源:網(wǎng)易智能 熱度:

 
微軟技術(shù)院士黃學(xué)東

昨天,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團(tuán)隊(duì)宣布,其研發(fā)的機(jī)器翻譯系統(tǒng)在通用新聞報(bào)道測(cè)試集newstest2017的中-英測(cè)試集上,達(dá)到了可與人工翻譯媲美的水平,微軟稱這是首個(gè)在新聞報(bào)道的翻譯質(zhì)量和準(zhǔn)確率上可以比肩人工翻譯的翻譯系統(tǒng)。
 
據(jù)了解,newstest2017新聞報(bào)道測(cè)試集由產(chǎn)業(yè)界和學(xué)術(shù)界的合作伙伴共同開(kāi)發(fā),并于去年秋天在WMT17大會(huì)上發(fā)布。為了確保翻譯結(jié)果準(zhǔn)確且達(dá)到人類的翻譯水平,微軟研究團(tuán)隊(duì)邀請(qǐng)了雙語(yǔ)語(yǔ)言顧問(wèn)將微軟的翻譯結(jié)果與兩個(gè)獨(dú)立的人工翻譯結(jié)果進(jìn)行了比較評(píng)估。
 
微軟技術(shù)院士,負(fù)責(zé)微軟語(yǔ)音、自然語(yǔ)言和機(jī)器翻譯工作的黃學(xué)東稱,這是對(duì)自然語(yǔ)言處理領(lǐng)域最具挑戰(zhàn)性任務(wù)的一項(xiàng)重大突破。“在機(jī)器翻譯方面達(dá)到與人類相同的水平是所有人的夢(mèng)想,我們沒(méi)有想到這么快就能實(shí)現(xiàn)。”他表示,“消除語(yǔ)言障礙,幫助人們更好地溝通,這非常有意義,值得我們多年來(lái)為此付出的努力。”
 
機(jī)器翻譯是科研人員攻堅(jiān)了數(shù)十年的研究領(lǐng)域,曾經(jīng)很多人都認(rèn)為機(jī)器翻譯根本不可能達(dá)到人類翻譯的水平。雖然此次突破意義非凡,但研究人員也提醒大家,這并不代表人類已經(jīng)完全解決了機(jī)器翻譯的問(wèn)題,只能說(shuō)明我們離終極目標(biāo)又更近了一步。微軟亞洲研究院副院長(zhǎng)、自然語(yǔ)言計(jì)算組負(fù)責(zé)人周明表示,在WMT17測(cè)試集上的翻譯結(jié)果達(dá)到人類水平很鼓舞人心,但仍有很多挑戰(zhàn)需要我們解決,比如在實(shí)時(shí)的新聞報(bào)道上測(cè)試系統(tǒng)等。
 
微軟機(jī)器翻譯團(tuán)隊(duì)研究經(jīng)理Arul Menezes表示,團(tuán)隊(duì)想要證明的是:當(dāng)一種語(yǔ)言對(duì)(比如中-英)擁有較多的訓(xùn)練數(shù)據(jù),且測(cè)試集中包含的是常見(jiàn)的大眾類新聞詞匯時(shí),那么在人工智能技術(shù)的加持下機(jī)器翻譯系統(tǒng)的表現(xiàn)可以與人類媲美。
 
跨時(shí)區(qū)跨領(lǐng)域合作
 
雖然學(xué)術(shù)界和產(chǎn)業(yè)界的科研人員致力于機(jī)器翻譯研究很多年,但近兩年深度神經(jīng)網(wǎng)絡(luò)的使用讓機(jī)器翻譯的表現(xiàn)取得了很多實(shí)質(zhì)性突破,翻譯結(jié)果相較于以往的統(tǒng)計(jì)機(jī)器翻譯結(jié)果更加自然流暢。為了能夠取得中-英翻譯的里程碑式突破,來(lái)自微軟亞洲研究院和雷德蒙研究院的三個(gè)研究組,進(jìn)行了跨越中美時(shí)區(qū)、跨越研究領(lǐng)域的聯(lián)合創(chuàng)新。
 
其中,微軟亞洲研究院機(jī)器學(xué)習(xí)組將他們的最新研究成果——對(duì)偶學(xué)習(xí)(Dual Learning)和推敲網(wǎng)絡(luò)(Deliberation Networks)應(yīng)用在了此次取得突破的機(jī)器翻譯系統(tǒng)中。微軟亞洲研究院副院長(zhǎng)、機(jī)器學(xué)習(xí)組負(fù)責(zé)人劉鐵巖介紹道,“這兩個(gè)技術(shù)的研究靈感其實(shí)都來(lái)自于我們?nèi)祟惖淖鍪路绞健?rdquo;對(duì)偶學(xué)習(xí)利用的是人工智能任務(wù)的天然對(duì)稱性。當(dāng)我們將其應(yīng)用在機(jī)器翻譯上時(shí),效果就好像是通過(guò)自動(dòng)校對(duì)來(lái)進(jìn)行學(xué)習(xí)——當(dāng)我們把訓(xùn)練集中的一個(gè)中文句子翻譯成英文之后,系統(tǒng)會(huì)將相應(yīng)的英文結(jié)果再翻譯回中文,并與原始的中文句子進(jìn)行比對(duì),進(jìn)而從這個(gè)比對(duì)結(jié)果中學(xué)習(xí)有用的反饋信息,對(duì)機(jī)器翻譯模型進(jìn)行修正。而推敲網(wǎng)絡(luò)則類似于人們寫(xiě)文章時(shí)不斷推敲、修改的過(guò)程。通過(guò)多輪翻譯,不斷地檢查、完善翻譯的結(jié)果,從而使翻譯的質(zhì)量得到大幅提升。對(duì)偶學(xué)習(xí)和推敲網(wǎng)絡(luò)的工作發(fā)表在NIPS、ICML、AAAI、IJCAI等人工智能的全球頂級(jí)會(huì)議上,并且已被其他學(xué)者推廣到機(jī)器翻譯以外的研究領(lǐng)域。
 

 
微軟亞洲研究院副院長(zhǎng)、機(jī)器學(xué)習(xí)組負(fù)責(zé)人劉鐵巖
 
此外,周明帶領(lǐng)的自然語(yǔ)言計(jì)算組多年來(lái)一直致力于攻克機(jī)器翻譯,周明表示,“由于翻譯沒(méi)有唯一的標(biāo)準(zhǔn)答案,它更像是一種藝術(shù),因此需要更加復(fù)雜的算法和系統(tǒng)去應(yīng)對(duì)。”自然語(yǔ)言計(jì)算組基于之前的研究積累,在此次的系統(tǒng)模型中增加了另外兩項(xiàng)新技術(shù):聯(lián)合訓(xùn)練(Joint Training)和一致性規(guī)范(Agreement Regularization),以提高翻譯的準(zhǔn)確性。聯(lián)合訓(xùn)練可以理解為用迭代的方式去改進(jìn)翻譯系統(tǒng),用中英翻譯的句子對(duì)去補(bǔ)充反向翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)集,同樣的過(guò)程也可以反向進(jìn)行。一致性規(guī)范則讓翻譯可以從左到右進(jìn)行,也可以從右到左進(jìn)行,最終讓兩個(gè)過(guò)程生成一致的翻譯結(jié)果。
 

 
微軟亞洲研究院副院長(zhǎng)、自然語(yǔ)言計(jì)算組負(fù)責(zé)人周明
 
可以說(shuō),兩個(gè)研究組分別將各自所在領(lǐng)域的積累與最新發(fā)現(xiàn)應(yīng)用在了此次的機(jī)器翻譯系統(tǒng)中,從不同角度切入,讓翻譯質(zhì)量大幅提升。在項(xiàng)目合作過(guò)程中,他們每周都會(huì)與雷德蒙總部的團(tuán)隊(duì)開(kāi)會(huì)討論,確保技術(shù)可以無(wú)縫融合,系統(tǒng)可以快速迭代。
 
沒(méi)有“正確的”翻譯結(jié)果
 
據(jù)網(wǎng)易智能獲悉,newstest2017新聞報(bào)道測(cè)試集包括約2000個(gè)句子,由專業(yè)人員從在線報(bào)紙樣本翻譯而來(lái)。微軟團(tuán)隊(duì)對(duì)測(cè)試集進(jìn)行了多輪評(píng)估,每次評(píng)估會(huì)隨機(jī)挑選數(shù)百個(gè)句子翻譯。為了驗(yàn)證微軟的機(jī)器翻譯是否與人類的翻譯同樣出色,微軟沒(méi)有停留在測(cè)試集本身的要求,而是從外部聘請(qǐng)了一群雙語(yǔ)語(yǔ)言顧問(wèn),將微軟的翻譯結(jié)果與人工翻譯進(jìn)行比較。
 
驗(yàn)證過(guò)程之復(fù)雜也從另一個(gè)側(cè)面體現(xiàn)了機(jī)器翻譯要做到準(zhǔn)確所面臨的復(fù)雜性。對(duì)于語(yǔ)音識(shí)別等其它人工智能任務(wù)來(lái)說(shuō),判斷系統(tǒng)的表現(xiàn)是否可與人類媲美相當(dāng)簡(jiǎn)單,因?yàn)槔硐虢Y(jié)果對(duì)人和機(jī)器來(lái)說(shuō)完全相同,研究人員也將這種任務(wù)稱為模式識(shí)別任務(wù)。
 
然而,機(jī)器翻譯卻是另一種類型的人工智能任務(wù),即使是兩位專業(yè)的翻譯人員對(duì)于完全相同的句子也會(huì)有略微不同的翻譯,而且兩個(gè)人的翻譯都不是錯(cuò)的。那是因?yàn)楸磉_(dá)同一個(gè)句子的“正確的”方法不止一種。 周明表示:“這也是為什么機(jī)器翻譯比純粹的模式識(shí)別任務(wù)復(fù)雜得多,人們可能用不同的詞語(yǔ)來(lái)表達(dá)完全相同的意思,但未必能準(zhǔn)確判斷哪一個(gè)更好。”
 
復(fù)雜性讓機(jī)器翻譯成為一個(gè)極有挑戰(zhàn)性的問(wèn)題,但也是一個(gè)極有意義的問(wèn)題。劉鐵巖認(rèn)為,我們不知道哪一天機(jī)器翻譯系統(tǒng)才能在翻譯任何語(yǔ)言、任何類型的文本時(shí),都能在“信、達(dá)、雅”等多個(gè)維度上達(dá)到專業(yè)翻譯人員的水準(zhǔn)。不過(guò),他對(duì)技術(shù)的進(jìn)展表示樂(lè)觀,因?yàn)槊磕晡④浀难芯繄F(tuán)隊(duì)以及整個(gè)學(xué)術(shù)界都會(huì)發(fā)明大量的新技術(shù)、新模型和新算法,“我們可以預(yù)測(cè)的是,新技術(shù)的應(yīng)用一定會(huì)讓機(jī)器翻譯的結(jié)果日臻完善。”
 
研究團(tuán)隊(duì)還表示,此次技術(shù)突破將被應(yīng)用到微軟的商用多語(yǔ)言翻譯系統(tǒng)產(chǎn)品中,從而幫助其它語(yǔ)言或詞匯更復(fù)雜、更專業(yè)的文本實(shí)現(xiàn)更準(zhǔn)確、更地道的翻譯。此外,這些新技術(shù)還可以被應(yīng)用在機(jī)器翻譯之外的其他領(lǐng)域,催生更多人工智能技術(shù)和應(yīng)用的突破。
 
機(jī)器翻譯需要用到哪些算法?
 
對(duì)偶學(xué)習(xí)(Dual Learning):對(duì)偶學(xué)習(xí)的發(fā)現(xiàn)是由于現(xiàn)實(shí)中有意義、有實(shí)用價(jià)值的人工智能任務(wù)往往會(huì)成對(duì)出現(xiàn),兩個(gè)任務(wù)可以互相反饋,從而訓(xùn)練出更好的深度學(xué)習(xí)模型。例如,在翻譯領(lǐng)域,我們關(guān)心從英文翻譯到中文,也同樣關(guān)心從中文翻譯回英文;在語(yǔ)音領(lǐng)域,我們既關(guān)心語(yǔ)音識(shí)別的問(wèn)題,也關(guān)心語(yǔ)音合成的問(wèn)題;在圖像領(lǐng)域,圖像識(shí)別與圖像生成也是成對(duì)出現(xiàn)。此外,在對(duì)話引擎、搜索引擎等場(chǎng)景中都有對(duì)偶任務(wù)。
 
一方面,由于存在特殊的對(duì)偶結(jié)構(gòu),兩個(gè)任務(wù)可以互相提供反饋信息,而這些反饋信息可以用來(lái)訓(xùn)練深度學(xué)習(xí)模型。也就是說(shuō),即便沒(méi)有人為標(biāo)注的數(shù)據(jù),有了對(duì)偶結(jié)構(gòu)也可以做深度學(xué)習(xí)。另一方面,兩個(gè)對(duì)偶任務(wù)可以互相充當(dāng)對(duì)方的環(huán)境,這樣就不必與真實(shí)的環(huán)境做交互,兩個(gè)對(duì)偶任務(wù)之間的交互就可以產(chǎn)生有效的反饋信號(hào)。因此,充分地利用對(duì)偶結(jié)構(gòu),就有望解決深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的瓶頸——訓(xùn)練數(shù)據(jù)從哪里來(lái)、與環(huán)境的交互怎么持續(xù)進(jìn)行等問(wèn)題。
 
 
對(duì)偶無(wú)監(jiān)督學(xué)習(xí)框架
 
推敲網(wǎng)絡(luò)(Deliberation Networks):“推敲”二字可以認(rèn)為是來(lái)源于人類閱讀、寫(xiě)文章以及做其他任務(wù)時(shí)候的一種行為方式,即任務(wù)完成之后,并不當(dāng)即終止,而是會(huì)反復(fù)推敲。微軟亞洲研究院機(jī)器學(xué)習(xí)組將這個(gè)過(guò)程沿用到了機(jī)器學(xué)習(xí)中。推敲網(wǎng)絡(luò)具有兩段解碼器,其中第一階段解碼器用于解碼生成原始序列,第二階段解碼器通過(guò)推敲的過(guò)程打磨和潤(rùn)色原始語(yǔ)句。后者了解全局信息,在機(jī)器翻譯中看,它可以基于第一階段生成的語(yǔ)句,產(chǎn)生更好的翻譯結(jié)果。
 
 
推敲網(wǎng)絡(luò)的解碼過(guò)程
 
聯(lián)合訓(xùn)練(Joint Training):這個(gè)方法可以認(rèn)為是從源語(yǔ)言到目標(biāo)語(yǔ)言翻譯(Source to Target)的學(xué)習(xí)與從目標(biāo)語(yǔ)言到源語(yǔ)言翻譯(Target to Source)的學(xué)習(xí)的結(jié)合。中英翻譯和英中翻譯都使用初始并行數(shù)據(jù)來(lái)訓(xùn)練,在每次訓(xùn)練的迭代過(guò)程中,中英翻譯系統(tǒng)將中文句子翻譯成英文句子,從而獲得新的句對(duì),而該句對(duì)又可以反過(guò)來(lái)補(bǔ)充到英中翻譯系統(tǒng)的數(shù)據(jù)集中。同理,這個(gè)過(guò)程也可以反向進(jìn)行。這樣雙向融合不僅使得兩個(gè)系統(tǒng)的訓(xùn)練數(shù)據(jù)集大大增加,而且準(zhǔn)確率也大幅提高。
 
 
聯(lián)合訓(xùn)練:從源語(yǔ)言到目標(biāo)語(yǔ)言翻譯(Source to Target)P(y|x) 與從目標(biāo)語(yǔ)言到源語(yǔ)言翻譯(Target to Source)P(x|y)
 
一致性規(guī)范(Agreement Regularization):翻譯結(jié)果可以從左到右按順序產(chǎn)生,也可以從右到左進(jìn)行生成。該規(guī)范對(duì)從左到右和從右到左的翻譯結(jié)果進(jìn)行約束。如果這兩個(gè)過(guò)程生成的翻譯結(jié)果一樣,一般而言比結(jié)果不一樣的翻譯更加可信。這個(gè)約束,應(yīng)用于神經(jīng)機(jī)器翻譯訓(xùn)練過(guò)程中,以鼓勵(lì)系統(tǒng)基于這兩個(gè)相反的過(guò)程生成一致的翻譯結(jié)果。
 
 
一致性規(guī)范:從左到右 和從右到左

責(zé)任編輯:吳一波

相關(guān)推薦

IBM、微軟等多家跨國(guó)巨頭入駐廣州開(kāi)發(fā)區(qū)

新華網(wǎng)廣州1月8日電,廣州開(kāi)發(fā)區(qū)2006年預(yù)計(jì)完成工業(yè)總產(chǎn)值2006億元,相當(dāng)于1996年廣州全市的工業(yè)總產(chǎn)值。建區(qū)22年來(lái)廣州開(kāi)發(fā)區(qū)再造了一個(gè)“經(jīng)濟(jì)廣州”。其生產(chǎn)總值、工業(yè)增加值、財(cái)政收入、可支配財(cái)力、工業(yè)利潤(rùn)等五項(xiàng)指標(biāo),近兩年連續(xù)稱冠全國(guó)49個(gè)國(guó)家級(jí)開(kāi)發(fā)區(qū)。新年伊始,英特爾、IBM、微軟、甲骨文、百事高等五家跨國(guó)企業(yè)巨頭將攜手入駐開(kāi)發(fā)區(qū),都將于今日舉行開(kāi)業(yè)慶典。去年5月26日,廣州有史以來(lái)最大的外資項(xiàng)目LG飛利浦液晶顯示項(xiàng)目也選擇落戶廣州開(kāi)發(fā)區(qū),該項(xiàng)目及系列廠最終投資總額總計(jì)將達(dá)20億美元,預(yù)計(jì)全面投產(chǎn)后將形成近千億元人民幣的產(chǎn)值。目前,廣州開(kāi)發(fā)區(qū)內(nèi)已吸引95家世界500強(qiáng)跨國(guó)企業(yè)入駐,數(shù)

CBS用微軟“銀光”在電視節(jié)目中融入用戶創(chuàng)作內(nèi)容

哥倫比亞廣播公司(CBS)的地方電視臺(tái)群4月30日宣布,將應(yīng)用微軟(Microsoft)的“銀光”(Silverlight)技術(shù),為本地臺(tái)群的網(wǎng)站網(wǎng)絡(luò),實(shí)施其創(chuàng)新的“社區(qū)造”電視節(jié)目?jī)?nèi)容計(jì)劃。銀光是微軟公司針對(duì)網(wǎng)上音視頻應(yīng)用所新推出的一種跨瀏覽器和跨操作系統(tǒng)平臺(tái)的插件。CBS電視臺(tái)群(CBSTelevisionStations)的新計(jì)劃,已經(jīng)在4月30至5月2日在拉斯維加斯(LasVegas)舉行的建網(wǎng)技術(shù)專業(yè)會(huì)議MIX07(visitmix.com)上進(jìn)行了展示。該計(jì)劃旨在幫助將用戶創(chuàng)建的數(shù)字媒體內(nèi)容與傳統(tǒng)的電視廣播內(nèi)容相融合,于是,可以在電視臺(tái)節(jié)目中捕捉到CBS電視臺(tái)群遍布美國(guó)各地觀眾的心

微軟與中華電信將攜手進(jìn)軍IPTV

5月22日消息,微軟將與臺(tái)灣中華電信于今天宣布攜手進(jìn)軍數(shù)字家庭市場(chǎng),率先在網(wǎng)絡(luò)電視(IPTV)進(jìn)行合作。包括微軟全球副總裁暨大中華區(qū)執(zhí)行官陳永正、大中華區(qū)區(qū)域總裁黃存義、中華電信董事長(zhǎng)賀陳旦等人都將親自出席。中華電信董事長(zhǎng)賀陳旦本周應(yīng)邀到美國(guó)微軟總部西雅圖參加全球總裁高峰論壇,并且成為微軟創(chuàng)辦人比爾蓋茲豪宅的座上嘉賓。中華電信之前已砸下一.七億元采購(gòu)微軟MSTV平臺(tái)、進(jìn)行測(cè)試,未來(lái)將評(píng)估MOD平臺(tái)是否全面轉(zhuǎn)換成MSTV。

微軟中華電信IPTV合作 增加高端家庭應(yīng)用

盡管早于2003年便已推出視頻點(diǎn)播服務(wù)MOD,臺(tái)灣第一大電信運(yùn)營(yíng)商中華電信22日宣布將推出采用微軟技術(shù)的IPTV服務(wù),增加較高端的數(shù)字家庭應(yīng)用。電信界與軟件界龍頭中華電信與微軟今宣布結(jié)成策略聯(lián)盟,在中華電信董事長(zhǎng)賀陳旦日前赴美與微軟董事長(zhǎng)完成合作簽約后,將結(jié)合兩家公司在通信與信息科技上的技術(shù)優(yōu)勢(shì),在數(shù)字生活、中小企業(yè)服務(wù)、NGOSS(NewGenerationOperationSystemsandSoftware,新一代操作系統(tǒng)與軟件),以及公益活動(dòng)等領(lǐng)域合作。不過(guò),雙方并未透露未來(lái)合作細(xì)節(jié),但首個(gè)可端出初步成果的,則是中華電信在既有MOD(MultimediaonDemand,視頻點(diǎn)播)之外

主站蜘蛛池模板: 亚洲精品一二区 | 日韩在线免费视频 | 生活片一级播放免费 | 国产成人aa在线观看视频 | 男女交性拍拍拍高清视频 | 131的美女午夜爱爱爽爽视频 | 久草在线免费福利视频 | 欧美黑人巨大最猛性xxxxx | 成年人在线视频观看 | 日韩精品一区在线观看 | 午夜久久视频 | 欧美三级日韩三级 | 国产一区在线播放 | 成人精品免费网站 | 国产精品久久久久久一区二区 | 亚洲www色| 欧美激情免费观看一区 | 久久99精品久久久久久久不卡 | 久久免费精品视频在线观看 | 老司机精品影院一区二区三区 | 深夜福利视频在线观看 | 99精品国产兔费观看久久99 | 久久不卡日韩美女 | 久久久国产一区二区三区 | 精品少妇一区二区三区视频 | 久久久精品久久久久三级 | 毛片免费在线观看 | 久久精品视频在线 | 不卡无毒免费毛片视频观看 | japanese色系tube护士 | 日韩国产一区二区 | 特及毛片| 久久亚洲私人国产精品 | 成人三级在线播放 | 清纯偷拍精品视频在线观看 | 怡红院在线观看视频 | 一级黄色免费网站 | 亚洲无总热门 | 99在线热视频 | 男人和女人在床做黄的网站 | 一级一片在线播放在线观看 |