AI完爆人類?一文讀懂AlphaGo Zero的偉大與局限

智慧廣電 dvbcn編輯 2017-10-23 11:07 閱讀 5,148 來源：DVBCN 　

雷鋒網AI科技評論按：每次AI領域有重大突破時，甚囂塵上的“AI威脅論”必然會卷土重來。

2017年10月19日，DeepMind團隊重磅發布AlphaGo Zero，再次震驚世人。相比上一代AlphaGo，該版本的AlphaGo實現了在AI發展中非常有意義的一步——”無師自通“，這也讓去年敗在未升級版本AlphaGo Master下的中國棋手柯潔驚呼”人類太多余了“。

相信看過之前的報道都知道，AlphaGo Zero的先進之處是可以完全從零開始，不需要任何歷史棋譜的指引，更不需要參考人類任何的先驗知識，完全靠自己通過強化學習

（Reinforcement Learning ），左右互搏來增長棋藝，最終達到百戰百勝。

那是不是就代表AI從此將進入到無需人類知識，不受人類控制的時代？顯然還達不到。

要想理解為什么，首先從圍棋這個游戲說起。圍棋是一種對弈游戲，具體來說就是信息透明，規則透明，結構明確，并且可用規則是可以窮舉的。而如果到了一些數據無法窮舉的領域，如語音識別，圖像識別，自動駕駛等，AlphaGo Zero中的算法很難遷移過來，也很難“無師自通”。

那AlphaGo Zero中的算法可以借鑒到哪些領域？他的核心技術是什么？他的偉大之處又是在哪里？這還得請AI科學家來談一談。AI科技評論得知，此版本的AlphaGo所采用的核心技術就是出自華人團隊研究的深度殘差網絡（ResNet）。就此背景，雷鋒網聯系到了深度殘差網絡ResNet作者之一孫劍博士來對這次的技術升級做闡述。ResNet技術正是他在微軟亞洲研究院時期的發明。

曠視首席科學家，曠視研究院院長孫劍博士

在他看來，本次技術提升足夠偉大，但同樣在真實技術落地過程中有著眾多局限，并指出未來的主流深度學習技術還將會圍繞大數據訓練模式的方式。換句話說，AI想脫離人類控制還為時尚早。

孫劍博士在接受雷鋒網的采訪過程中說道：“AlphaGo Zero的偉大之處是第一次讓機器可以不通過任何棋譜，不通過任何人類的經驗，在只告訴規則的前提下就實現了成為一個圍棋高手，這種無師自通的學習模式在AI整個發展上是非常有里程碑意義的。”孫劍博士講到AlphaGo Zero的技術意義時講到，“但是同時這種無師自通在很多AI落地上也存在一些局限，因為嚴格的講，圍棋規則和判定棋局輸贏也是一種監督信號，所以嚴格意義上來講，說人類無用，或者說機器可以自己產生認知都是對AlphaGo Zero理解的不精確。”

在很多AI行業落地中，實際上弱監督學習或無監督或者所謂的無師自通還是無法在短期成為主流。比如，就人臉識別來講，這個能力是人類后天學習的能力，是通過時間不斷演化出來的一種生存能力，人只有具備了人臉識別能力，人類社會才能正常運轉，把這種后天能力輸出給機器，其實就需要人的監督信號。除了人臉識別，還有很多人工智能研究的方向，比如自然語言處理，都是在模擬人類的一種技能。讓機器實現這種任務就需要海量的數據與更多的信號輸入。再比如醫學領域的圖像識別—AI醫學影像讀圖主要依賴于高水平醫生對影像的數據精標，從而機器學習對疾病的識別，這關乎于人的生命問題，自然馬虎不得。所以今天，甚至今后很長一段時間內，監督學習依然是AI研究與AI商業化的主流方向。

關于AlphaGo Zero中的算法可以借鑒到哪些領域？孫劍博士沒有直接給出答案，而是總結了此算法為何能在圍棋領域表現如此出色的幾點原因。首先，圍棋它沒有噪聲，能夠完美重現算法；其次圍棋中的黑白子雙方的信息是完全可觀測的。最后，也是他認為最重要的一點，圍棋對局可以用計算機迅速模擬，很快輸出輸贏信號?？匆粋€領域是否能借鑒此算法，基本就要看是否滿足以上三點。

AlphaGo的秘密武器：兩大核心要素實現極簡算法

其實AlphaGo Zero里面并沒有新的巨大的理論突破，它使用的白板學習，早在之前的圍棋系統Creazy Stone中就有用過。最主要還是用到了孫劍博士發明的ResNet技術，談到該技術時，他講到： ”AlphaGo Zero的搜索過程簡化了很多，例如把以前系統中的兩個網絡合并成一個網絡、將深度殘差網絡的輸入做最簡化。談到本次AlphaGo Zero在技術特點，他認為是“把19x19棋局圖像直接送給神經網絡，讓神經網絡看著棋盤做決策，這個非常簡潔。”

AI科技評論認為DeepMind的這一成果的啟發意義大于借鑒意義。與其想著把算法照搬過來，不如朝AlphaGo Zero啟發的方向探索。在與孫劍博士在采訪交流中，他表示本次AlphaGo Zero的提升主要有兩個核心要素，一個是啟發式搜索，一個是深度殘差神經網絡，而這兩個又非常完美的實現了結合。其中啟發式搜索的思想非常樸素，是個針對問題設計的一個高級定制版蒙特卡洛數搜索算法。另外一個核心要素是深度殘差神經網絡，讓簡單的搜索算法極大的提升了效率。

深度殘差神經網絡在2015年由孫劍在微軟領導的視覺團隊老師率先提出，并在當年在ImageNet以及COCO兩大學術競賽中包攬五項冠軍，其中最重要的部分就是實現了突破性的152層的網絡深度，從而讓一些非常復雜的函數做映射時效率與有效性得到極大的提升。強大的網絡使得AlphaGo Zero已經可以有能力學習把每一子下在那里的概率和對整個棋局的判斷算的非常準確。

開放與互通是AI通往未來之路的不二法則

今年，中國發布了人工智能戰略規劃，起碼從國家層面上是認可AI能給社會帶來巨大進步。在講到AI的未來發展中，孫劍博士強調了開放與互通兩個詞。他講到他現在在曠視研究院每天第一件事情就是去網上開放的論文平臺ArXiv看是否有新的、有意思的論文、思想發出來。

最后雷鋒網問道，ResNet被應用到AlphaGo Zero上，您有什么感受？孫劍博士表示：“這次應用在AlphaGo Zero中的ResNet殘差神經網絡，曾獲得了CVPR 2016的最佳論文獎，我也非常高興這個技術可以應用在AlphaGo Zero系統中，而這個應用過程其實并不需要我們直接進行接觸而是一種研究成果的交流，人工智能研究最前沿的開源與開放，才能讓我們在追求更優解的過程中有很多參考與理論支撐，可以極大的提升新技術產生的周期。”

孫劍博士還介紹到，曠視研究院今后還會不斷分享、開放研究成果。今年7月份，曠視研究院在ArXiv公開了一篇ShuffleNet的論文，是一種可以運行在很多移動端上非常低能耗的神經網絡算法，可以說是專為移動端而生的算法。發布至今不光有硬件產品、手機解鎖產品使用，同時也有很多同行在使用。

雷鋒網AI科技評論小結：AlphaGo Zero雖沒有新的突破性的技術，但這絲毫不影響它的偉大，它能夠完美集成已有的技術，給研究者帶來新的啟發，本身已具有里程碑式的意義。他的局限在于目前只能運用到特定領域，不過，換個角度來看，這對于人類來說未必不是好事兒?？傊?，AI還有很長的路要走，還需要更多像孫劍博士這樣的科學家們，不斷借助創新而實現更多的創新，不斷借助偉大的思想創造偉大的場景。只有不斷的開放最好的認知，才能讓AI不斷成長，讓更多更強的AlphaGo Zero產生。