menu-icon
anue logo
澳洲房產鉅亨號鉅亨買幣
search icon

科技

李喆:這兩盤棋 沒人會比李世石做得更好!

鉅亨網新聞中心 2016-03-11 14:41


本文轉載自李喆微信公眾號

引言  


我不知道這篇文章要怎麼開頭。

沒有言語能夠形容我現在的心情。

19年前,圍棋入門課,用十個棋子在中腹擺出兩眼活棋。

4年前,揮別圍棋賽場,進了大學。

怎麼也想不到,在今天,竟然會為了一張棋譜,我哭了。

哭得很開心。

我不知道這世界上還有幾人與我此時有同樣的感受。或許有,絕不會多。

我不奢求讀到此文的人都能理解我在說什麼。

但是,我要把我看到的記下來。

不是紀念,而是感激。

我發現,在情緒中,我只能記錄下我的情緒,卻無法寫出這情緒的由來。雖然我自認為清楚地知道它的由來。

寫一篇抒情的文章很容易,但沒有什麼太大的價值。我看到的東西,這似乎應該用「美」來表示的這種東西,難以抽象成語言將它描繪。於是,我只好等到情緒消退,從理性出發,試著把因果呈現。

這樣,會有更多人享受到這種美嗎?

我不知道。

或許可以試試。

深夜。終於可以動筆。


2016年3月10日,AlphaGo對陣李世石,人機大戰第二局。

對於這盤棋,雖然分歧遠小於上一盤,但職業棋手之間仍然有許多互不相同的看法。

或許隨著時間的前行,這些看法最終會匯流為一。但在今天,在故事發生的當下,面對經驗以外的事情,人類觀點的多元無法避免。我的觀點同樣也是這多元中的一元,正是人類思想的多元性豐富了我們的世界。

在敲完上面這一串字之後,我原本準備神遊到中午的狀態,從頭梳理一遍我的所見所思,將我看到的那無法用語言直接描述的感受的由來漸次呈現。

然而,事實教育我們不要在寫文章的時候刷微信微博新聞朋友圈……

一個小時之後,我不得不再次改變寫法。

這兩盤棋 ,沒人會比李世石做得更好!

是的,這就是我文章的標題。

我知道我說服不了所有人。這樣的標題也不是我一向的風格。

但是,在鋪天蓋地的對李世石的質疑聲中,我必須把我看到的講出來。

因為,我不相信這些質疑是出於惡意。我只能理解為有些我看到了的東西人們沒有看到。每個人的認知體系不同,對待事物的態度也不盡相同,對此倒沒什麼好指責的。

在小說《冰與火之歌》之中,有一場「黑水河之戰」。守方的指揮者是一個侏儒,用盡了各種策略,最後親上戰場被割掉了鼻子,終於抵擋住了對方的進攻,拯救了那座城市。但在戰爭結束后,他被解除了職位,甚至成為階下囚。他所做的一切,人們並沒有看到。

《冰與火之歌》電影截圖
沒有關係,我把我看到的東西講出來。

我只希望,讀者能耐心看完這一章,再做判斷。

在閱讀本章之前,建議先讀昨天那篇「【火線速遞】——李世石的策略與AlphaGo的弱點」,會幫助理解此文。

0。莫須有的「協議禁劫」

這一節是本文最沒有價值的部分,也是我最不想寫的部分。謠言自破,本不需我來回應。但一方面我對謠言擴散到圈外而感到羞愧,另一方面也能幫助大家稍微理解AlphaGo的演算法。

關於「協議禁劫」的質疑大概來自「AlphaGo七盤棋都沒出現劫爭」這一說法。

或許DeepMind會官方回應此事,或許在接下來的對局謠言自散。

但不需要這些證明,難道我們就不能分辨了嗎?

由弱到強,我先給出三個回應。

1,懂圍棋的朋友,你真的相信李世石作為一名世界頂級棋士在代表人類出戰的歷史時刻會簽這樣的協議?不懂圍棋的朋友,你真的相信谷歌團隊會簽這種改變圍棋玩法的協議?

2,AlphaGo的演算法決定了他在不打劫就能獲勝的條件下會盡量避免劫爭,因為優勢下的劫爭增加了搜索的不確定性,常常會使他對勝率的估計降低。這也是我在上一篇里談到的逃避劫爭問題的本質。但是,非勝不可的劫,電腦必然會打。可邏輯推斷或參考第3條。

3,難道不能去看一眼去年10月AlphaGo對樊麾的棋譜嗎?第三局、第五局,都出現了劫爭。其中第三局馬上消劫形成轉換;第五局劫爭過程持續18手,亦形成轉換。

在圍棋受到空前關注的時刻,我認為圈內人有闢謠的義務,不助長謠言則是底線。

1。AlphaGo演算法的關鍵特點

很多人說發現了AlghaGo的很多失誤,不能理解這麼弱的一個AI怎麼能贏李世石,所以blablabla……

如果你看過上一篇分析仍然這麼認為,那可能是我沒有講清楚。絕大多數對AlphaGo實力的錯誤估計,都是因為對AlphaGo演算法原理的不了解。

強調一下:

AlphaGo的演算法決定其落子的決策基於「勝率」而不是「最優」!

所有質疑AI失誤的同學請記住這一點。

這也是這篇文章整個分析的邏輯起點。

這意味著,我們人類所謂的「失誤」對於」AI「而言很可能不是失誤。

2。第一局李世石在做什麼?

第一局下完,有棋手提出」李世石心態不對,太過急躁,電腦計算力肯定強,應該慢慢下跟它拼形勢判斷,它的判斷力肯定不行」。

說得好。李世石第二局就是這麼做的。

只是,在第一局之前,幾乎沒有人認為李世石的亂戰能力會不如電腦。

在上一篇中,我談到在賽前對AlphaGo演算法的分析認為,它在面對「開放性複雜局面」的時候可能會變弱,因為深度學習加蒙特卡洛的剪枝和搜索在面對開放式複雜局面時可能會變得失效。

第一局,李世石上來先試探了無譜布局(你說李世石沒用什麼策略?好吧),然後馬上導入開放式複雜局面,呈現出六七塊棋縱橫交錯的場景。

結果,第一策略失敗。起碼下到中盤收兵為止,賽后職業棋手基本上都認為李世石虧損。

如果是我在場上,或許也會在第一盤選擇這樣的第一策略,但我只會考慮一盤棋試一個策略,畢竟有五盤棋的空間。

然而,李世石在中盤及時收手,第77、79手主動停戰轉向收空,導入細棋局面。

他在第一盤竟然試探了兩個策略!

那麼,你可能會問,如果李世石原本形勢不利,怎麼能導向細棋甚至反而領先呢?那不是說明AI出現了足以顛倒勝負的錯誤嗎?

在昨天,對此問題我還不能完全肯定地回答,但在今天我可以確認:

第一局所謂李世石的領先和細棋都是人類經驗帶來的錯覺!從開局戰鬥到最後結束,一直是AlphaGo優勢!

這一判斷也符合AlphaGo自己的勝率走勢。

在上一篇,我提出AlphaGo對局面的判斷是基於一手對方沒有算到的嚴厲手段(102),我們認為它在左上的緩手(80)和左下的惡手(86),確實並不肯定好,但在AI看來卻是最接近勝利的選擇。觀戰棋手認為左下之後黑棋已經逆轉甚至大勝,是由於

1) 「左下白棋大虧」

2)對第102手沒有充分的準備。

3)人類的傲慢自負。

然而,

1)是一個依靠經驗的局部判斷,並不具有能構成證明的準確性;

2)AlphaGo的局面判斷基於有102這一手;

3)人類的情緒降低了判斷能力。

102手一出,李世石長考無果,局部大虧。然而,這個大虧根本就在AlphaGo的判斷之中,對它而言,這隻是搜索樹中可能出現的一個分支。

至於很多人認為後面黑右下走好還能收——確實是能收,但恐怕不能贏了。當然,跟我下或許你能贏,但對AlphaGo不行,這是從AlphaGo的演算法和下法的邏輯推出來的。當然,這個結論的得出依賴於AlphaGo在對陣人類時這套方法不會出現問題。基於這兩天它這套方法在對人類時還沒有出現任何問題(關於失誤問題請看上一章或上一篇),我只能極大程度地相信它。這個信念只有在AlphaGo這套方法在對陣人類出現問題而敗北時才會動搖,才會需要去尋找它的問題在哪裡,以及人類能夠怎麼去利用。

有趣或者說可怕的是,對於人類而言無比閃耀的」勝負手」102,包含了如此多的計算、判斷和預謀,對於AI而言卻只是它這一局平凡的93手棋中平凡的一手。

這樣的話,李世石的第二策略起到什麼作用了呢?

非常大的作用。對於第一局的80和86手,我們在經驗上認為它們可能是不好的棋,但無法嚴格證明。但對於後面的136手和142手,我們可以嚴格證明它們肯定劣於另一個選點。這使我們確認了AI的一個弱點,即「缺乏邏輯能力」(見上一篇)。如果再補充一條,可以認為「缺乏局部封閉搜索能力」(這一條是否算弱點可討論)。

因為邏輯能力的缺乏,導致AI有時會出現人類看來明顯的失誤。

但我們認為的不可理解的失誤,只是在它看來不會降低勝率的選擇。確實,我們可以指出他的一些基於邏輯的可證明的局部虧損,比如無謂的絕對先手交換,比如目數的白白虧損。在對第一盤的總結中,我認為這可能會是電腦的一個弱點(對AI而言不是失誤),即「缺乏邏輯」而導致的局部小損,而這可能是人類僅有的兩個突破口之一。AI在優勢時會在局部有所退讓以確保勝利,在均勢時如果也退讓豈不是人類就有了領先機會?因此我提出:

1,我最期待的策略是,李世石按照人類研究很深的套路開局,因為AI並不會背套路。即使不能憑此佔優勢,也要儘可能保持局面的均勢。在這個條件下,AI或許會在一些簡單的局部因邏輯缺失而有所虧損,人類牢牢把握住這些微小的利益,最終取得小勝。不過,這似乎並不是李世石常用的風格。

這是第一局之後我分析認為針對電腦弱點的最優策略。

3。第二局李世石在做什麼?

如果是你,在第一局的下法失敗之後,第二局你會怎麼下?

我的想法是,通過第一局我意識到AI的強大可能超乎之前的想像,在我認為他最可能失敗的地方他居然成功了,但好在我也看到了他可能的弱點。我根據它最可能的弱點制定了一套新的策略,然後嚴格按照這一策略執行。

這是因為,我發現可針對AI弱點執行的策略並不多,而第一局我使用兩個策略失敗了。我可能需要更專注於一個策略的執行,畢竟後面還有三盤的空間。這是我在第一局後會做出的決定。

或許有人會問:」瞧你說得這麼玄乎,你又不是李世石,他又沒說,你怎麼證其有?」

是的,我不能證其有。即使他說了也不能完全證其有。我只是用棋譜信息加上AI演算法來做的合理推測。當然,李世石有可能並沒有制定什麼第幾策略。如果是這樣的話,他就太天才了——別人用知識和推理達到的方案,他僅憑意識就做到了。

前面說了這麼多,總還得用棋譜說話嘛。那麼讓我們看看第二局到底發生了什麼。

我個人認為,對於這一局,傳統的棋評解說意義已經不大了。


先看第13手。右下先虎之後脫先中國流,這又是「職業棋譜中從未出現過的布局」。看到這一步,李世石站起來,出去抽了根煙。

下面請允許我趁李世石出去抽煙時暫時代入他來思考。(畫風突變如有不適請勿見怪)。

此局我下決心執行一個策略,這個策略是針對AI弱點的攻擊。這個策略簡單說是:」熟練開局,爭優保平。細微局面,等待失誤。「(原因在前面講得很清楚了)

於是我開局選擇了最普通的布局應對。白方這一布局在歷史上經久不衰,沒有千局也有幾百局實戰了(感興趣可以去搜一下)。經過昨天試探,AI不會背譜,人類整體的經驗很可能是最有力的,我要儘可能導入到熟悉的套路中。

下到12手,我心裏還有一點興奮:這個布局我是見得多了,白棋總是不虧的。

然後,看到對方落下黑13。

納尼?

定式不下完?

這還能脫先?

我勒個去,AI你不會是知道我在想什麼,跟我玩心理戰吧?

啥時候通過圖靈測試的?

好吧讓我想想。你定式不下玩就脫先我得制裁你啊,夾擊如何?


我拆1,你拆2,我攻3,你搶4……這棋失控了啊,這局面沒人下過啊?

我這棋好不好呢?下邊會攻成什麼樣?是否足以抵消黑上邊陣勢?

以下省略幾十個腦海中飛速出現的變化圖……

判斷不清,好像沒啥把握。

怎麼辦?策略就這麼被破了?

有了!我就當右下黑棋沒交換虎那一下不就行了!

咱譜著該走哪還走哪,機器你能怎麼著?

哈,我咋這麼機智呢?

AlphaGo你有我這麼機智嗎?

一盒煙正好抽完,李世石回到了座位上,落下第14手。


這是右下沒有虎和拆一交換時最常見的下法,也不知有幾百盤。而且這時黑棋虎白棋也多半會拆一。

好了,這個小故事告一段落。我並不是說這就一定是李世石的心理過程,而是說,如果是我,我會這麼做。

這盤棋技術上無與倫比的精彩我想留到第二部分再談,那裡有更加精彩的新世界,但在這裏暫時先略過。

再簡單回應一下所有認為李世石後來84、146、172這三手棋沒選擇打劫有問題的觀點。

1)認為李世石不選擇打劫是因為簽了協議的人。

您好,再見。

2)認為李世石不選擇打劫實在太慫了的人:

如果你看完前面的分析還這麼認為,那請回答:打劫能贏?

當然,你可以說84托虎明顯優於實戰,146應該夾進去才能爭勝,172不沖不足以平民憤……

那句話怎麼說來著……你以為你以為的就是你以為的嗎?(這句話用來看人和AI真是金句了)

對AI來說,氣勢是什麼?血性是什麼?勝負感是什麼?

AI只看:勝率是什麼。

的確,我這不也是我以為的?

好吧,請告訴我托虎做劫在當時為什麼比實戰好,后兩處哪一處你認為會對勝負產生影響?給一個有效辯護吧,不要擺幾步說個看不清就贏了。

在我看來,這盤棋李世石完整地貫徹了他的策略。

可惜的是仍然並未取勝。原本預計在熟練的布局套路下能在前半盤佔優或持平,然後在後半盤等待AI因邏輯缺失而造成的局部小虧損。然而,在形勢接近的情況下,電腦的局部「失誤」變得比第一局更小、更難確認(比如15、117等先手不保留)。

這可能是一件非常可怕的事情。它告訴我們,在形勢接近的情況下,AI的「失誤」也會變少,甚至消失(不被人發現)。AlphaGo形勢越好,他的」失誤」可能越多。我們基於這些」失誤「對它進行棋力的判斷,只會造成對它無止盡的誤解。

還是把上一篇文章的結語在這裏引用一下:

如果我們只用人類思考圍棋的方式來理解AlphaGo,或許我們將永遠都不知道是怎麼輸的。

讀到這裏,相信大家對AlphaGo有了更直觀的認識。

或許有人會想到這一點:這麼看來,AlphaGo豈不是遇強更強?

的確是!

它的目標只有贏,不求最優。

在對手弱的情況下,它可能選擇的類似勝算的點就更多。

在對手強的情況下,它可能選擇的類似勝算的點就更少。

後者,意味著更精確,意味著在人類思維的意義上更少失誤。

那麼,AlphaGo的極限在哪裡?我不知道。

但我認為AlphaGo饒天下一先是指日可待的事情。

雖然我賽前和現在都無比希望李世石能獲勝,因為人機相持的時間越長,可供圍棋界反思的時間就越長。

但是,理智告訴我,AI真的絕塵而去了。

讓我們回顧一下老羅的這段話:

「人工智慧就像一列火車,它臨近時你聽到了轟隆隆的聲音,你在不斷期待著它的到來。他終於到了,一閃而過,隨後便遠遠地把你拋在身後。」

圍棋AI,是這段話最好的註腳。

看完第二盤之後所有認為AlphaGo 只是後半盤強的人,如果你能理解前面提到的知識和邏輯,那你也應該能理解這一點:

是李世石的強大逼出了AlphGo的後半盤。

為什麼第一盤AI的後半盤」失誤「更多?因為」失誤」時AI已經勝定。

第二局賽后的採訪中,Demis Hassabis表示程序中間一度認為形勢接近(根據勝率顯示),而李世石表示自己是完敗。

如果說第一局李世石輸棋之後還有曾經領先的錯覺,這一局他自己則完全沒有了錯覺。即使在棋界幾乎公認為AlphaGo明顯虧損的左下角定型之後,李世石都不覺得自己有過任何優勢。正是這種正確(保守?)的認識加上前半盤相對熟練的格局,使得AlphaGo一度認為局勢接近(很好奇AlphaGo有沒有認為自己落後過)。這也激發出AlphaGo強勁的後半盤,在對陣世界頂尖棋士時,僅僅通過收官就將勝負差距擴大到盤面十多目。

對於這件事情的誇張程度,棋手們能否正視?人類面對不能理解的事物,總是用固有的知識體系來理解。但是,新時代真的來了。

4。李世石,直面AI的圍棋英雄

讀到這裏,我希望有一部分人能夠理解在李世石和AlphaGo之間究竟發生了什麼。

這一節,我是對你們說的。

從古至今,我們從來不知道在圍棋技術的浩瀚空間里,人類到底站在了什麼位置。是離天只有三尺遠?還是仍然站在地平線?

如果把窮盡看作天,把入門看作地,人類今天對圍棋的認識究竟在什麼層級?

藤澤秀行先生曾說:」圍棋,我只知百分之五」。相信包括我在內的絕大部分棋手,都曾認為這是謙辭。往正面解,是敬畏心;往負面解,不知是什麼心。

真的是謙辭嗎?

縱向看不清,橫向比較一下總可以吧。其他有職業體系的棋類項目,變化比圍棋少很多,未知的東西少很多,那麼其職業選手是不是很可能相比我們在各自體系中站在更高的層級?

可是,他們都早已接受了AI的層級在人類之上這一事實。

誠然,在不短的時間里圍棋是僅存的碩果,圍棋選手看著用機器訓練的同事們,發出」圍棋永不會被機器打敗」的豪言,似乎在捍衛著什麼了不得的東西。

並不是我想要戳破這種幻象,而是事實擺在眼前,不由你不信。

國際象棋遭遇深藍挑戰時,人機之間還相持了一段時間。直到今天,在國象和象棋,雖然人不能戰勝AI,守和還是可能的。一方面AI的技術層級可能並沒有比人類高出太多,另一方面和棋的空間是一個很大的緩衝帶。

圍棋呢?確實圍棋更難於被AI攻破,可是一旦攻破,會有多少高出人類的空間?圍棋AI離天還有多遠?人類棋手離天又有多遠?沒人能給出準確的回答。

如果沒有圍棋AI,我們將永遠不知道自己在圍棋的天地之間究竟處於什麼位置。

圍棋AI是我們唯一的參照者。

雖然在圍棋被窮盡之前我們仍然不能準確地定位自己究竟處在什麼位置,但是,

我們不再孤獨。

多年以後,圍棋書上將會如何講述這次李世石代表人類圍棋最高水平與新生AI對決時做出的種種努力,又將會如何評價面對忽然之間凌駕於人類之上的圍棋AI時李世石的表現,我並不能肯定。

我只是希望在這個連李世石的職業精神都會受到質疑的時代里,把我看到的事情告訴大家。是不是真相,請自行判斷。

「李世石面對AlphaGo,並未因五個月之前的棋譜而有絲毫輕視,他做了非常充分的準備。他拋開人類的偏見和自負,試圖理解AlphaGo運算的機理,並找出其中可能存在的弱點。在比賽伊始,他就對AlphaGo可能存在的弱點進行了直指要害的攻擊,並且在失敗后迅速調整,繼而展開了第二次、第三次針對性攻擊。正是他的策略針對性,使人們更好地理解了AlphaGo的強度和特點,以及不同於人類的決策模式。他在第二局中就已經找到了足以在中盤接近甚至抗衡AlphaGo的布局策略,使人類第一次見識到AlphaGo夢幻般的後半盤。」

——這是我對李世石在人機大戰前兩局表現的評價。

從這兩盤來看,我不認為這個世界上還有哪一個人能夠代替李世石將這件事做得更好。

寫到這裏,天已經亮了。

但是故事還遠沒有結束。

5。在後三盤可以做什麼

第二盤之後,我在上一篇文章中推測得出的最優策略已經被AI強大的實力證明難以取勝。雖然這一策略在最大限度上利用了人類集體的經驗,從而能夠在中盤取得接近的局勢,但在這種情況下AlphaGo的後半盤不是限時人類所能抵擋的。那些認為李世石發揮太差、自己上去可以不失誤的選手,既低估了人性的弱點,又低估了AlphaGo的實力。

昨天給出的次優策略則是關於劫爭:

2,另一個策略是在局面選擇中儘可能製造劫爭,即製造對方不開劫就不利的局面。當然,AlphaGo目前沒展現出複雜劫爭的能力並不能證明它沒有這種能力,因此這種策略是存在風險的,太過刻意是不行的,還要考慮局面的自然和均衡。

但是在看完第二盤AlphaGo的表現之後,我認為這一策略實際上也已經破產了。AlphaGo的演算法使得它只會去打那些能影響到勝負的劫爭,與勝負無關的劫他就不會打了。

雖然如此,我覺得李世石還是會去試試。我在第一局時只看到了AlphaGo的兩個弱點,第二局則基本證明這兩個弱點都是人類所無法利用的。AlphaGo在儘可能避開劫爭的條件下仍然能完勝李世石,這才是關於劫爭方面應該關注的焦點。

關於弱點,李世石在第二局賽后表示,沒找到AlphaGo的弱點。我認為他非常誠實,而且他確實已儘力尋找。

雖然我非常希望李世石在這次比賽能夠獲勝,為圍棋行業的發展爭取時間。但在我看來,后三盤在正常情況下李世石將毫無勝算。

空中開局是否有效?我認為無效,但或許比較有趣。

如果不去找bug,剩下的事情就只有——跟AI學棋。

6。人類如何跟AlphaGo學棋

這是個不小的話題,在未來一段時期內會被圍棋界的人反覆拿出來討論。在這裏我只是簡單開個頭,或有不確之處。

首先一句話:AlphaGo的棋既容易學又不容易學。

為什麼不容易學?因為ALphaGo所有的著法都是從全局考慮並基於它認為的勝率,如果只是單純地模仿它的下法,將會掉入巨大的陷阱。

陷阱1:AlphaGo的一些下法本身就不是最優,甚至不如人類的選擇。例如第一局中的那兩個典型」失誤「。如果真要學局部的下法,或許只好期待他左右互搏時拿出最強功力(或者對人類的讓目對局,總之需要給它增加難度以減少選擇。)

陷阱2:AlphaGo的下法基於全局,全局形勢稍有不同可能就不適用。例如第二局AlphaGo在左下的下法,幾乎所有人都認為局部明顯虧損。但AlphaGo是基於上邊和右邊的情況而在左下做出的選擇(對此我將在第二部分解說……學習),這對棋手思維的拓寬有巨大的好處,但具體的著法卻不宜照搬。即使是天外飛仙的第37手,也是在獨特的局面下才是當時的好棋,如果對任何高拆二都跑去肩沖就成了東施效顰。

為什麼容易學?因為AlphaGo的圍棋技術層級已經在人類之上,它每一盤下出來的招都值得棋手反覆思考推敲。僅僅兩盤,就已經有這麼多的亮點、更多的不解,這絕對是史無前例的棋譜。

AlphaGo給出選點的思維方式與人類不同,但我們卻可以用人類的方式去理解它,這是一件多麼美妙的事情!同一個點,AlphaGo通過數據的方式來給出,人類卻用道理的方式來接收,圍棋的數與道在這種對話中得到完美的呈現。

此文的第二部分原本準備用棋譜解讀的方式來呈現我從第二局中看到的無法用言語來表達的震撼和美,但本文或許已經太長,兩部分關聯性又較弱,更主要的是,天色已大亮……留在下一篇吧。

想念吳清源大師。

文章標籤


Empty