如果不對(duì) AlphaGo 背后的神經(jīng)網(wǎng)絡(luò)系統(tǒng)稍作了解,你很容易以為 AlphaGo,在對(duì)局開(kāi)始前跟李世石站在同一起跑線上。
作為一種人工智能的 AlphaGo,和 IBM 在上個(gè)世紀(jì)打敗國(guó)際象棋大師卡斯帕羅夫的深藍(lán)超級(jí)計(jì)算機(jī),以及當(dāng)代的蘋(píng)果 Siri、Google Now 有著顯著的區(qū)別。
圍棋的可能性復(fù)雜度
要了解 AlphaGo,首先我們需要了解 AlphaGo 背后到底是一個(gè)什么東西。
它背后是一套神經(jīng)網(wǎng)絡(luò)系統(tǒng),由 Google 2014 年收購(gòu)的英國(guó)人工智能公司 DeepMind 開(kāi)發(fā)。這個(gè)系統(tǒng)和深藍(lán)不同,不是一臺(tái)超級(jí)計(jì)算機(jī),而是一個(gè)由許多個(gè)數(shù)據(jù)中心作為節(jié)點(diǎn)相連,每個(gè)節(jié)點(diǎn)內(nèi)有著多臺(tái)超級(jí)計(jì)算機(jī)的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。就像人腦,是由 50-100 億個(gè)神經(jīng)元所組成的,這也是為什么這種機(jī)器學(xué)習(xí)架構(gòu)被稱為神經(jīng)網(wǎng)絡(luò)。
你可以將 AlphaGo 理解為《超驗(yàn)駭客》(Transcendence) 里約翰尼·德普飾演的人工智能,而它所控制的超級(jí)計(jì)算機(jī),就像影片里被人工智能心控的人類一樣,共同為一種蜂群思維 (Hive Mind) 服務(wù)。
AlphaGo 是在這個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)上,專為下圍棋 (Go) 而開(kāi)發(fā)出的一個(gè)實(shí)例。然而,雖然名字已經(jīng)介紹了它的功能,AlphaGo 背后的神經(jīng)網(wǎng)絡(luò)系統(tǒng)卻適合用于任何智力競(jìng)技類項(xiàng)目。
這個(gè)系統(tǒng)的基礎(chǔ)名叫卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN) ,這是一種過(guò)去在大型圖像處理上有著優(yōu)秀表現(xiàn)的神經(jīng)網(wǎng)絡(luò),經(jīng)常被用于人工智能圖像識(shí)別,比如 Google 的圖片搜索、百度的識(shí)圖功能都對(duì)卷積神經(jīng)網(wǎng)絡(luò)有所運(yùn)用。這也解釋了為什么 AlphaGo 是基于卷積神經(jīng)網(wǎng)絡(luò)的,畢竟圍棋里勝利的原理是:
對(duì)弈雙方在棋盤(pán)網(wǎng)格的交叉點(diǎn)上交替放置黑色和白色的棋子。落子完畢后,棋子不能移動(dòng)。對(duì)弈過(guò)程中圍地吃子,以所圍“地”的大小決定勝負(fù)。
AlphaGo 背后的系統(tǒng)還借鑒了一種名為深度強(qiáng)化學(xué)習(xí) (Deep Q-Learning, DQN) 的技巧。強(qiáng)化學(xué)習(xí)的靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。不僅如此,AlphaGo 借鑒了蒙特卡洛樹(shù)搜索算法 (Monte Carlo Tree Search) ,在判斷當(dāng)前局面的效用函數(shù) (value function) 和決定下一步的策略函數(shù) (policy function) 上有著非常好的表現(xiàn),遠(yuǎn)超過(guò)上一個(gè)能夠和人類棋手旗鼓相當(dāng)?shù)膰宄绦颉?/p>
AlphaGo 所采用的 DQN 是一種具有廣泛適應(yīng)性的強(qiáng)化學(xué)習(xí)模型,說(shuō)白了就是不用修改代碼,你讓它下圍棋它能下圍棋,你讓它在紅白機(jī)上玩超級(jí)瑪麗和太空侵略者,它也不會(huì)手生。作為一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)、采用了強(qiáng)化學(xué)習(xí)模型的人工智能,AlphaGo 的學(xué)習(xí)能力很強(qiáng),往往新上手一個(gè)項(xiàng)目,玩上幾局就能獲得比世界上最厲害的選手還強(qiáng)的實(shí)力。
2014 年,已經(jīng)被 Google 收購(gòu)的 DeepMind,用五款雅達(dá)利 (Atari) 游戲 Pong、打磚塊、太空侵略者、海底救人、Beam Rider 分別測(cè)試了自己開(kāi)發(fā)的人工智能的性能,結(jié)果發(fā)現(xiàn):在兩三盤(pán)游戲后,神經(jīng)網(wǎng)絡(luò)的操控能力已經(jīng)遠(yuǎn)超世界上任何一位已知的游戲高手。
DeepMind 用同樣的一套人工智能,不調(diào)整代碼就去測(cè)試各種各樣的智力競(jìng)技項(xiàng)目,取得了優(yōu)異的戰(zhàn)績(jī),足以證明今天坐在李世石面前的 AlphaGo ,擁有多強(qiáng)的學(xué)習(xí)能力。
在此之前,DeepMind 進(jìn)行過(guò)的無(wú)數(shù)虛擬棋局訓(xùn)練,以及去年擊敗歐洲圍棋冠軍樊麾二段的經(jīng)驗(yàn)讓 AlphaGo 已經(jīng)訓(xùn)練出了頂尖的弈技,極有可能高于世界上任何已知的圍棋高手。
盡管棋盤(pán)上風(fēng)云變化,早在本次開(kāi)戰(zhàn)前,AlphaGo 跟李世石就已不在同一起跑線上了。至于李世石曾經(jīng)做出 AlphaGo 和自己棋份在二子和讓先之間的評(píng)論,恐怕第一局足夠讓他反悔了。
AlphaGo 只是 DeepMind 證明自己的一個(gè)工具。你也可以將這次和李世石的對(duì)局理解為 Google 的公關(guān)策略。
轉(zhuǎn)載請(qǐng)注明:北緯40° » 擊敗了李世石的AlphaGo究竟是什么?