科技報報/發明人首次復盤人機大戰 看阿法狗怎麼贏的

人工智慧。

『谷李』世紀大戰硝煙散盡,由此引發的機器學習與人工智慧的熱潮不減反增。日前,Alpha Go (中文俗稱『阿爾法狗』)專案負責人,有著阿爾法狗之父之稱的大衛•席爾瓦(David Silver)回到英國倫敦,在母校倫敦大學學院(UniversityCollege London,UCL)一場私密會復盤了人工智慧圍棋系統Alpha Go與李世石的5番棋大戰,在場的聽眾被禁止拍照。這也是賽後,阿爾法狗團隊的首次半公開復盤。

根據鈦媒體報導,UCL電腦系是全英電腦排名第一的學院。在UCL電腦系攻讀博士學位的大陸留學生張偉楠全程參與了這次分享會,並且在會後與席爾瓦進行了面對面的交流。鈦媒體獨家約稿張偉楠,根據席爾瓦的分享及會後與席爾瓦的交流,寫作此文,席爾瓦也透露了Alpha Go的下一步可能動向以及應用前景。席爾瓦透露,Alpha Go的最新版本自我估分在4500左右,遠遠超出積分3625的柯潔,實力水準大約在13段左右,人類選手中已然無敵。

兩周前的那場人機大戰,Alpha Go出人意料地獲得了壓倒性的勝利,4:1戰勝了李世石。棋局進程激烈精彩之處,不亞於那些人類棋手創造的歷史名局。3月24日,回到UCL大學,席爾瓦在復盤中詳細講述了Alpha Go背後的技術原理以及谷李5場比賽的分析。

獲得歷史性的勝利之後,外界十分關心Alpha Go的下一步和未來,席爾瓦透露,在《Nature》那篇文章引發廣泛關注和轟動之後,Alpha Go團隊還將再寫一篇論文,與外界分享Alpha Go與李世石比賽中的技術進步。

席爾瓦還表示,DeepMind一直希望能夠為開發者社區做貢獻,他們之前也公布了DQN專案(deep-q-network)的代碼——基於深度強化學習的遊戲平台。未來他們可能會公布Alpha Go的代碼,只要能找到一個合適的方案,但是目前還沒有找到。

投入20個人的團隊,花費大量的財力去做圍棋對弈,對谷歌來說意味著什麼?下一步會如何延伸到其他產業領域?席爾瓦透露,DeepMind今後的著眼點是和人們日常生活息息相關,並可以改變世界的應用,比如精準醫療、家用機器人以及智慧手機助手。

VAlpha Go之父十年磨一劍

似乎在一夜之間,機器選手戰勝了人類最頂尖圍棋選手。但是,對於席爾瓦來說,人工智慧圍棋耗時十幾年,最終不過是水到渠成。作為Alpha Go的幕後團隊的技術主管,也是谷歌DeepMind團隊最重要的科學家之一,席爾瓦還身兼UCL大學的教職,是該校電腦系的教授,教授『強化學習』的課程。

席爾瓦是在加拿大阿爾伯塔大學獲得博士學位,師從世界上首屈一指的『強化學習』大師理查•薩頓(Richard S.Sutton)研究強化學習演算法,後來在另一座科技聖殿美國麻省理工學院從事博士後研究。

長期專注於人工智慧與圍棋專案,在技術方面追求極致,再加上勢大財雄的谷歌的團隊配合,最終成就了Alpha Go的驟然爆發。

復盤谷李大戰

復盤是職業圍棋選手經常做的一件事,他們相信總結過去一盤棋的經驗和教訓,可以提高自己的棋藝。Alpha Go團隊也做了復盤,透過幾張幻燈片的形式,席爾瓦復盤了這5場比賽的勝負關鍵處,而在場的聽眾被禁止拍照。

第一盤的勝負關鍵處是,Alpha Go執白棋第102手打入黑空,職業高手們普遍認為這是一招險招,看上去李世石對此也早有準備。事後看,棋局的進程卻是李世石應對有誤,進入到了Alpha Go的計算步調中。再下了幾手棋之後,Alpha Go已經優勢明顯。

第二盤棋的開局不久,Alpha Go就下出了職業棋手們普遍認為不妥的一手棋。席爾瓦稱其為反人類(unhuman)一手——第37手5路肩沖。觀戰的多數職業高手認為這不太成立,超出了職業高手們正常的行棋邏輯。隨後的進程,這手棋的價值逐漸閃現,李世石又一次輸得毫無脾氣。

席爾瓦解釋道:『多數評論員都第一時間批評這一步棋,從來沒有人在這樣的情況下走出如此一著。在勝負已定之後,一些專業人士重新思考這一步,他們改口稱自己很可能也會走這一著。』而在Alpha Go看來,當時只是一步很正常的走子選擇而已。

對於第一盤棋和第二盤棋,許多職業圍棋選手以及媒體分析都認為,Alpha Go逆轉取勝,但是在Alpha Go自身的價值網路所做的即時勝率分析看來,自己始終處於領先。在Alpha Go獲勝的4盤中,Alpha Go系統自有的勝率評估始終都是領先李世石,從頭到尾壓制直到最終獲勝。

第三盤和第五盤,Alpha Go 都是在棋局剛開始不久,就已經取得了明顯優勢並持續提高勝率直到終局。與職業棋手根據經驗所做的勝負判斷不同,Alpha Go的自有勝率評估是基於一個價值模組,做出對棋局勝負的預計。

這兩種判斷截然不同。當第五盤右下角的爭奪錯綜複雜時,Alpha Go選擇脫先,轉而落子在其他位置。不少職業棋手認為,Alpha Go在此犯錯並落後了,但Alpha Go的選擇卻是依據全域最優估計而做出的。

以幾局的成敗論,Alpha Go的這種判斷似乎更為準確。突破了職業棋手對圍棋的傳統的理解範疇,不再局限於棋手多年培養出來的圍棋直覺和套路定式,會選擇探索職業棋手正常不願意考慮的招數。Alpha Go在人類棋譜學習的基礎上,還進行了大量的自我對弈,從而研究出了一些人類從未涉及到的走法。

『神之一手』的背後

Alpha Go系統並非無懈可擊,但是,漏洞並不是所謂的模仿棋、打劫等等。它的漏洞體現在李世石贏得比賽的第四盤棋,Alpha Go取得巨大進步的價值模組出現了瑕疵,這也是Alpha Go在5局棋中唯一的一次漏洞,也是唯一的一盤失利。

在第四盤棋中,開局之後很快就幾陷絕境中的李世石,弈出了被來自大陸的世界冠軍古力成為『神之一手』的白78手,凌空一挖。堅韌如山的對手突然倒下,Alpha Go變得不知所措,連續出現低級昏招,這也成就了Alpha Go有記載的公開的第一局失利。

對於Alpha Go的異常表現,各路觀戰的職業高手充滿了猜測。即使是觀賽的哈撒比斯和席爾瓦也都不知道究竟發生了什麼。事後的分析顯示,在李世石下出第78手之前,Alpha Go自有的勝率評估一直認為自己領先,評估的勝率高達70%。在第78手之後,Alpha Go評估的勝率急轉直下,被李世石遙遙領先,之後再也沒有縮短差距。

為什麼Alpha Go面對李世石的第78手表現如此差,是因為它沒有想到李世石的這手棋嗎?席爾瓦揭曉了這一秘密。Alpha Go的計算體系中,的確曾經評估過這手棋,只是在Alpha Go的評估中,李世石走那一子的概率大概是萬分之一,最終,它沒有想到李世石會這樣走,也就沒有計算李世石這樣走之後如何應對。賽後,獲勝的李世石則說,這一手在他看來是唯一的選擇。

Alpha Go背後的蒙特卡洛樹搜索依賴的策略網路,是根據人類對弈棋譜資料訓練出來的模型,它很難去預測白78手這樣的所謂手筋妙招,也就很難判斷基於這一步繼續往下搜索之後的勝負狀態。

這就是Alpha Go在這5盤對局中表現出的唯一破綻,也是目前人類智慧還領先於Alpha Go背後的大數據驅動的通用人工智慧(Data-driven Artificial General Intelligence)的地方。

人工智慧已然無敵?

在此次大賽之前,多數來自職業圍棋界的棋手包括李世石自己都認為,李世石會輕鬆取勝。但是,DeepMind團隊卻信心滿滿。另一位DeepMind團隊的主力成員也曾經在UCL介紹Alpha Go的進展,在展望與李世石的比賽時,他曾就篤定地預言,Alpha Go會贏。

當有人問及從去(2015)年10月戰勝梵麾,到今(2016)年3月對陣李世石,半年時間當中, Alpha Go究竟有哪些方面的提升時,席爾瓦簡要回答說:『我們在系統的每一個模型上儘可能推進效果極致,尤其在價值網路上獲得了很大的提升。訓練價值網路的目標勝率除了透過自我對弈的結果外,我們還使用了搜索策略去儘可能逼近理論的勝率。』

直觀地說,3月版本的Alpha Go比半年前的水準大概是讓4子——讓對方先占據4個星位!在戰勝李世石之後,大陸、南韓、日本許多的職業棋手,包括李世石本人都希望能夠再與Alpha Go一戰。

按照等級分排名,Alpha Go僅次於大陸的世界冠軍柯潔,排名世界第二。而席爾瓦透露,Alpha Go的最新版本自我估分在4500左右,遠遠超出現在3600多的柯潔,實力水準大約在13段左右,人類選手中已然無敵!

Alpha Go為什麼會有這麼強勁的表現?在講座當中,席爾瓦部分地複述和解釋了今年1月《Nature》上發表的論文,講述了人工智慧的基本原理以及Alpha Go的技術框架。

對於人工智慧來說,圍棋遊戲的難度在於,決策空間實在太大。決策(Decision Making)是人工智慧的關鍵要素,使得機器能夠在人類的世界中發揮作用。

在圍棋以及任何遊戲中,一次決策往往使得遊戲更新到了一個新的局面,於是影響到了接下來的決策,一直到最終遊戲的勝負。人工智慧的關鍵就是在決策空間中搜索達到最大效益的路徑,最終體現在當前決策中。

圍棋棋盤上棋子可能的組合方式的數量就有10的170次方之多,超過宇宙原子總數。在近乎無窮的決策空間中,去暴力搜索出當前棋盤的下一步最優走子是絕對不可能的事情。

Alpha Go的方案是在這樣的超級空間中,做到儘可能有效的路徑選擇。其思路是一個框架加兩個模組:解決框架是蒙特卡洛樹搜索(MonteCarlo Tree Search),兩個模組分別是策略網路和價值網路。

策略網路(Policy Network)根據當前棋盤狀態決策下一步走子,是典型的人工智慧決策問題。策略網路搭建的第一步,基於KGS圍棋伺服器上30萬張業餘選手對弈棋譜的監督學習(SupervisedLearning),來判斷當前棋盤人類最可能的下一走子是什麼。

第二步,是利用監督學習得到的第一個策略網路去透過自我對弈來訓練一個加強版的策略網路,學習方法是強化學習(Reinforcement Learning),自我對弈3000萬局,從人類的走子策略中進一步提升。

遵循策略網路的判斷,在蒙特卡洛樹搜索框架下對每個棋盤狀態的採樣範圍就大大減小,這是一個搜索寬度的減小,但是由於一盤圍棋總手數可以多達250步以上,搜索的深度仍然帶來無法處理的巨大計算量,而這就由第二個模組——價值網路來解決。

價值網路(Value Network)的功能是根據當前棋盤狀態判斷黑白子某一方的勝率,是一個人工智慧預測(Prediction)問題。

處理預測問題的機器學習模型一般需要直接知道需要預測的真實目標是什麼,比如預測第二天的天氣,或者預測用戶是否會一周內購買某個商品,這些歷史資料都有直接的目標資料可供機器學習。而在圍棋對局中,給定的一盤棋局完全可能在歷史上就找不到哪次對弈出現過這樣的局面,也就不能直接得到對弈最終的勝負結果。

Alpha Go的解決方法是使用強化學習得到的策略網路,以該棋局為起點進行大量自我對弈,並把最終的勝率記錄下來作為價值網路學習的目標。

有了價值網路,蒙特卡洛樹搜索也就不再需要一直採樣到對弈的最後,而是在適當的搜索深度停下來,直接用價值網路估計當前勝率。這樣就透過降低搜索的深度來大大減小了運算量。

Alpha Go整合了目前機器學習領域的大多數有效的學習模型,包括透過採樣來逼近最優解的蒙特卡洛樹搜索,透過有監督學習和強化學習訓練來降低搜索寬度並作出走子決策的策略網路,以及透過有監督學習訓練的降低搜索深度提前判斷勝率的價值網路。

作為人類棋手翹楚,33歲的職業圍棋九段高手李世石,過去15年獲得了十幾個世界冠軍頭銜,總共下了1萬盤圍棋對弈,經過了3萬個小時訓練,每秒可以搜索10個走子可能。

但是,作為人工智慧科技進步的代表,吸收了近期機器學習人工智慧的最新進展,建立起了全新的價值網路和策略網路,誕生只有兩年時間的Alpha Go,差不多經歷了3萬小時的訓練,每秒卻可以搜索10萬個走子可能。這一刻,勝負已分。

人工智慧的巨頭爭奪戰

在Alpha Go取得巨大成功,獲得全世界廣泛關注的背後,是谷歌、Facebook、微軟等幾家科技巨頭的競爭。基於人工智慧,幾大巨頭的都開展了各自的專案研究,以及人才爭奪。

幾天前的智慧圍棋大賽上,Facebook派出了自己研發的『黑暗森林』,獲得了第二名,其主創人員田淵棟正是來自於谷歌,他曾經服務於谷歌的無人駕駛汽車專案團隊。很明顯,黑暗森林現在還不是Alpha Go的對手。

2014年下半年以及2015年年中,我曾經兩次在微軟劍橋研究院實習,參與了微軟Xbox音樂推薦引擎的研究專案,期望透過基於強化學習的人工智慧演算法來互動式地為用戶推薦他們喜歡的音樂並從用戶提供的反饋中進一步學習。

該專案組直接負責人是特拉•格朗普(ThoreGraepel),業界大名鼎鼎的機器學習專家,又一個技術大咖中的圍棋高手。Windows中圍棋遊戲裡的人工智慧就是他負責研發的,與席爾瓦一樣,他也是UCL電腦系的兼職教授。

一個週一的上午,當我來到微軟劍橋辦公室的時候,一個同事告訴我,格朗普已經離職了,和席爾瓦一樣,加入了DeepMind。他後來告訴我,他在DeepMind感受到了前所未有的魅力,以致於他很後悔沒有早一些加入。他感嘆自己從未見過凝聚力如此之高,目標如此統一,而又沒有任何考核壓力的團隊。

後來,格朗普的名字也出現在了《Nature》關於Alpha Go的論文作者名單中,在谷李大戰間隙,他曾經與李世石一起接受電視台的採訪,熟悉他的人能夠明顯地感受到,他發自內心快樂。

我在微軟實習的另一位導師,是畢業於劍橋大學的貝葉斯機器學習方面的專家,他有著紮實的數學功底,在2015年下半年也從微軟離職,加入了劍橋的一家做語音識別智慧系統的初創公司,不久之後該公司即被蘋果公司收購。他帶領一個12人的團隊,負責蘋果Siri智慧問答系統的一項技術。

就在最近,我在倫敦的酒吧裡見到了他,他私下透露,自己正在申請加入DeepMind。他說,現在正處在人工智慧真正爆發的歷史轉捩點,從0到1一般的重大。未來5到10年人工智慧將會井噴式地發展,無論是工業界還是學術界。在這樣一個時代,搞人工智慧出身的自己難道不想奮力擁抱浪潮麼?

在這樣一種情境下,他不甘於在團隊中做管理,他已經半年沒有寫過一行程序,沒有推過一個數學公式了。『今天的人工智慧領域就像是一場舉世矚目的英超德比,全世界的人們都為此感到沸騰。而這個時候,我們人工智慧研究員就應該上場比賽,成為主角,而不是在觀眾席上加油。』

Alpha Go的巨大效應讓谷歌吸引人才方面占盡優勢,但是,Facebook、蘋果、微軟也不甘就此授首。在格朗普從微軟離職之後,一位年輕的女研究員接管了我在微軟的實習專案,兩人的研究成果在人工智慧會議AAAI2016上發表。2015年上半年,她在微軟啟動了一個叫做AIX的人工智慧專案,提供了一個通用人工智慧的平台,可以使得電腦科學家透過它編寫智慧學習程序並在微軟旗下的《我的世界》(Minecraft)遊戲世界中測試。

在AIX裡,科學家並不需要直接編程告訴機器人如何完成一個具體的任務,例如選擇什麼樣的路徑攀登上一座山的頂峰,而是把如何學習並取得進步的程序輸入機器人,讓它們來透過和環境的交互來自動學習到完成任務的辦法,真正做到『授機器以漁』。

與谷歌不一樣,微軟延續了自己慣用的平台戰略思路。巨頭之間戰略思路不同,事屬平常,但都非常看好人工智慧、機器學習帶來的戰略機遇,並同時開始在人才、技術、市場方面的布局和競爭,也許這場競爭會決定未來10年幾家巨頭競爭的勝負。


張偉楠與阿爾法狗之父席爾瓦在交流。