稱,不用擔心,不會那么容易。不過他所在的朋友圈里,圍棋職業(yè)棋手們眾說紛紜,有些認為不可能,有些認為指日可待了,還有聲音是“人類快被自己滅絕了”。
擊敗歐洲圍棋冠軍
那么,人工智能程序AlphaGo是如何擊敗圍棋高手的?
GoogleAlphaGo的研究者DavidSilver說,AlphaGo系統(tǒng)的關(guān)鍵是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內(nèi)。
而為了達到這一目的,AlphaGo系統(tǒng)將最先進的蒙特卡洛樹狀搜索技術(shù)與兩個深層神經(jīng)網(wǎng)絡(luò)相結(jié)合,每個深層神經(jīng)網(wǎng)絡(luò)均包含許多層,每層又包含數(shù)以百萬計的神經(jīng)元一樣的連接。
在AlphaGo兩種不同的神經(jīng)網(wǎng)絡(luò)中,“策略網(wǎng)絡(luò)(policynetwork)”的作用是預(yù)測下一步,并用來將搜索范圍縮小至最有可能硬起的那些步驟。另一個神經(jīng)網(wǎng)絡(luò)“價值網(wǎng)絡(luò)(valuenetwork)”則是用來減少搜索樹的深度,每走一步估算一次獲勝方,而不是搜索所有結(jié)束棋局的途徑。
上述方法使得AlphaGo的搜索方式相比之前的方法更人性化。例如,深藍采用強力方法搜索的棋子位置要比AlphaGo多數(shù)千倍。而AlphaGo則相反,它通過想象下完剩余棋局來對下一步進行預(yù)判,如此多次反復。在上述模擬游戲中,策略網(wǎng)絡(luò)提出下一步的智能建議,而價值網(wǎng)絡(luò)則對走過的每個位置進行評估。
具體而言,Google首先采用圍棋專業(yè)棋手的3000萬步下法對價值網(wǎng)絡(luò)進行訓練,直到該網(wǎng)絡(luò)對人類下法預(yù)測準確率達到57%(AlphaGo之前的紀錄是44%)。
但AlphaGo的目標是擊敗水平最高的人類棋手,而不僅僅是模仿他們。為了做到這一點,AlphaGo學會自己發(fā)現(xiàn)新策略,通過自身兩個神經(jīng)網(wǎng)絡(luò)之間成千上萬的對弈,采用被稱為強化學習的試錯法逐步進行改善。這種方法提高了策略網(wǎng)絡(luò)的效率,以至于最原始的神經(jīng)網(wǎng)絡(luò)(即其中不包含任何樹狀搜索)可以擊敗最尖端、構(gòu)建有巨大無比的搜索樹的圍棋軟件。
這些策略網(wǎng)絡(luò)又反過來對價值網(wǎng)絡(luò)進行訓練,采用的還是從自我對弈強化學習的方法。這些價值網(wǎng)絡(luò)可以對圍棋的任何位置進行評估并預(yù)測獲勝方,而人們過去曾認為這個問題太過困難,根本無法實現(xiàn)。
實現(xiàn)上述所有設(shè)想的前提是,計算機要超級強大。Google稱,這一過程大量使用了Google云平臺,使得人工智能和機器學習研究人員得以隨時靈活地獲得計算、存儲和聯(lián)網(wǎng)能力。此外,采用數(shù)據(jù)流圖形(如TensorFlow)、用于數(shù)值計算的開房源庫使研究人員得以對多個CPU或GPU的深度學習算法的計算需求進行高效利用。
AlphaGo到底有多強大?為了回答這個問題,Google在AlphaGo和人工智能研究領(lǐng)域最前沿的其他頂級圍棋軟件如CrazyStone、Zen和Pachi之間進行了一次比賽。AlphaGo在總計495局中只輸了一局,勝率是99.8%。
AlphaGo甚至在每局開局讓對方四步的情況下對陣CrazyStone,Zen和Pachi,勝率分別達到了77%,86%和99%。
如果在今年3月的對戰(zhàn)中,AlphaGo戰(zhàn)勝李世石,是否意味著人工智能已經(jīng)超過人類?
或許還不能如此斷言。但新成立的非營利性組織OpenAI的AI研究者IlyaSutskever認為,從技術(shù)的角度說,這個研究對AI具有紀念碑式的貢獻。
在棋類游戲之外,這場對決也將引發(fā)更多的思考——那些人們曾經(jīng)以為人工智能不可能完成的腦力挑戰(zhàn),是否都將被一一打破?未來人類是否會被人工智能所取代?