科技

王小川：人類棋手被弔打而不自知

鉅亨網新聞中心2016-03-12 08:52

文/王小川

萬矚目的人機大戰已經完成兩回合，機器超出大多數人的想象獲勝了，而且是大勝，棋壇震動。另一方面，我們又聽到這樣的聲音：“一開始是李世占優，中盤被大逆轉”，“是李世幾次失誤才輸的”，“機器這一手業餘五段水平，哈哈”。

‌

這類觀點背后的一個漏洞是，這些評價都基於人類棋手百年來積累下來的共識經驗來判斷。另一種細想極恐的解釋是：機器一開始就占優而人類棋手以之前的經驗並沒意識到，待到醒悟時已經來不及了。機器這一步棋厲害到人類棋手從來沒想到過。

賽后從Google傳來的消息已經證明了后一種觀點：至始至終白棋都在占優！也就是以機器的視角看：“人類呀，這盤棋不是啥逆轉，我一開始就吃定了你的。你以為我的昏招只是你！沒！看！懂！”

你沒看懂！我相信確實發生了這樣的事情，人不僅是沒有預料到機器的下棋能力，更是機器已經落子了我們還沒看懂為啥這麼下，反而評價不高，這是多麼大的差距！現在到了需要思考人和機器誰更懂棋而不只是誰更會下棋的時候了。

AlphaGo已經表現出十二段的水準，而我們還在遮羞“逆轉”、“失誤”以及“嘲笑”，這就是被弔打而不自知。

無招勝有招的宇宙流

機器和人下棋有什麼區別呢？人類下圍棋是靠的“搜索”+“計算”+“棋感”。傳統意義上，計算機沒有棋感只能靠搜索，這對於圍棋的海量變化和可能性完全不適用，也是我們之前不看好機器下圍棋的終極理由。而這個棋感配合一定的計算，就變成了對局勢判斷的抽象概念，比如“厚薄”、“虛實”、風格“穩健或強硬”、策略“纏繞攻擊、棄子整形”以及每步棋的招式“跳、長、靠”等等等。這些概念的引入：當前棋局->局勢抽象判斷->走棋招式抽象選擇->局勢抽象驗證->落子，大大減少了搜索量。談論這些抽象概念，就像是武功開始比試流派和招式，成為這項智力游戲的樂趣所在。

因為深度學習，世道變了。深度學習最大的魅力就是抽象能力，通過對3000萬局人類對弈數據的學習，機器建立了一套抽象局勢和落子招式的棋感。

既然機器掌握了棋感，一個未被大家深入討論的問題是：機器會把局勢、棋形抽象成多少類呢？會把落子策略和招式抽象成多少類呢？

答案是0！

這就是機器與人在抽象時最大的不同。當我們抽象出多個概念來，每一種概念便是一種簡化，一方面忽略了全局信息，一方面也排斥了其他概念，也是在丟失信息。

打一個比方，我們都知道光的波粒二象性，光既是波又是粒子。當我們把光描述成波，就會忽略了粒子特性，如果把光描述成粒子，就會忽略波的特性。但是如果同時表達這兩個屬性，對人的理解就是很大的挑戰了。

而深度學習下的概念抽象，Value Network同時既保留了全局信息，又兼顧了局部信息，直接對應到局勢評分。Policy Network對應的走棋的抽象，兼顧了所有的招式並融會貫通，直接對應到落子的概率。

這便是小裏寫的無招勝有招，真實地在圍棋裏再現。

以前我們贏機器，是因為我們有“抽象概念”而機器沒有。現在我們輸給機器，也是因為我們太有“抽象概念”，太細碎失去了整體，機器建立了大統一的抽象概念。

更多強調，這種無招勝有招，並不只是“見招拆招”，而是在時空雙重維度上的“終極大招”。之前我們有質疑機器沒有“大局觀”，在深度學習框架下，機器不僅是有大局觀，而是全局觀，包含了全部細節的全局。再有，這個全局觀不只是棋盤空間上的全局，而是每一步局勢的判斷以及落子的選擇都是指向最終贏棋的概率提升，這是時間維度的全局觀。

這種全局觀下，棋感與搜索的交織融合，每一步搜索中包含棋感、每一步棋感后都進行搜索，便打造出完全超越人理解的走棋邏輯來。

有了這種超越人的時空全局觀，機器就會走出一些人沒法解讀的匪夷所思的招式來，這些招式要麼超越我們的定式，要麼在招式下計算更精準，要麼兩者兼有。

這便是無招勝有招的宇宙流。

Google心機婊的棋外棋

Google這次人機大戰獲得了空前的關注，一方面是這個事情本身足夠吸引眼球，號稱人類棋類智慧的最后一塊堡壘被攻破，具有足夠的象徵性意義，另一方面是Google進行了深謀遠慮的市場運作。

從前幾日樊麾的口述可以看到，他在2015年11月就敗給AlphaGo，但是保密協議規定他不能對外透露。而等到2016年1月Nature雜誌刊登了Google研發成功基於深度學習的圍棋機器時才公佈此事，兩事情碰到一起互相佐證迅速引爆了媒體的關注。

再往深裏想，為什麼會找到樊麾？因為能造成最大的爭議：職業棋手以及歐洲“冠軍”的身份，看起來很有種，但是又只是二段棋手，與九段的世界冠軍形成強烈的反差和懸念，又使得這次首爾的勝利極其突然。

真夠心機！

往下有兩個繼續心機的預測：

1、有可能Google會放水讓李世贏1-2局，不至於人類太難看。

2、贏了李世之后，鳴金收兵迅速解散AlphaGo團隊宣佈人工智能進軍醫療領域，為下一個戰場造勢，並且避免后起的各家基於深度學習的圍棋機器挑戰AlphaGo，Google輸不起贏了也無趣，沒必要陪玩。

那后起的圍棋機器怎麼出頭呢？沒機會挑戰Google，挑戰世界冠軍也不是大新聞了。我的一個建議是設立一個“刷副本”賽：挑戰一位世界冠軍，同時運行其他網友隨時從這個棋局的任何復盤位置進入接下。不是覺得人有失誤麼，悔棋修正了失誤繼續來。這樣會有看頭，徹底體現機器怎麼碾壓人類智商。