Half the truth is often a great lie.

擊敗了李世石的AlphaGo究竟是什么?

科技 rock 12396℃ 1評論

如果不對 AlphaGo 背后的神經網絡系統稍作了解,你很容易以為 AlphaGo,在對局開始前跟李世石站在同一起跑線上。

作為一種人工智能的 AlphaGo,和 IBM 在上個世紀打敗國際象棋大師卡斯帕羅夫的深藍超級計算機,以及當代的蘋果 Siri、Google Now 有著顯著的區別。

6a4dabedgw1f1qj7gvyd6g20c806w4dt

圍棋的可能性復雜度

要了解 AlphaGo,首先我們需要了解 AlphaGo 背后到底是一個什么東西。

它背后是一套神經網絡系統,由 Google 2014 年收購的英國人工智能公司 DeepMind 開發。這個系統和深藍不同,不是一臺超級計算機,而是一個由許多個數據中心作為節點相連,每個節點內有著多臺超級計算機的神經網絡系統。就像人腦,是由 50-100 億個神經元所組成的,這也是為什么這種機器學習架構被稱為神經網絡。

你可以將 AlphaGo 理解為《超驗駭客》(Transcendence) 里約翰尼·德普飾演的人工智能,而它所控制的超級計算機,就像影片里被人工智能心控的人類一樣,共同為一種蜂群思維 (Hive Mind) 服務。

AlphaGo 是在這個神經網絡系統上,專為下圍棋 (Go) 而開發出的一個實例。然而,雖然名字已經介紹了它的功能,AlphaGo 背后的神經網絡系統卻適合用于任何智力競技類項目。

這個系統的基礎名叫卷積神經網絡 (Convolutional Neural Network, CNN) ,這是一種過去在大型圖像處理上有著優秀表現的神經網絡,經常被用于人工智能圖像識別,比如 Google 的圖片搜索、百度的識圖功能都對卷積神經網絡有所運用。這也解釋了為什么 AlphaGo 是基于卷積神經網絡的,畢竟圍棋里勝利的原理是:

對弈雙方在棋盤網格的交叉點上交替放置黑色和白色的棋子。落子完畢后,棋子不能移動。對弈過程中圍地吃子,以所圍“地”的大小決定勝負。

AlphaGo 背后的系統還借鑒了一種名為深度強化學習 (Deep Q-Learning, DQN) 的技巧。強化學習的靈感來源于心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。不僅如此,AlphaGo 借鑒了蒙特卡洛樹搜索算法 (Monte Carlo Tree Search) ,在判斷當前局面的效用函數 (value function) 和決定下一步的策略函數 (policy function) 上有著非常好的表現,遠超過上一個能夠和人類棋手旗鼓相當的圍棋程序。

AlphaGo 所采用的 DQN 是一種具有廣泛適應性的強化學習模型,說白了就是不用修改代碼,你讓它下圍棋它能下圍棋,你讓它在紅白機上玩超級瑪麗和太空侵略者,它也不會手生。作為一個基于卷積神經網絡、采用了強化學習模型的人工智能,AlphaGo 的學習能力很強,往往新上手一個項目,玩上幾局就能獲得比世界上最厲害的選手還強的實力。

2014 年,已經被 Google 收購的 DeepMind,用五款雅達利 (Atari) 游戲 Pong、打磚塊、太空侵略者、海底救人、Beam Rider 分別測試了自己開發的人工智能的性能,結果發現:在兩三盤游戲后,神經網絡的操控能力已經遠超世界上任何一位已知的游戲高手。

DeepMind 用同樣的一套人工智能,不調整代碼就去測試各種各樣的智力競技項目,取得了優異的戰績,足以證明今天坐在李世石面前的 AlphaGo ,擁有多強的學習能力。

在此之前,DeepMind 進行過的無數虛擬棋局訓練,以及去年擊敗歐洲圍棋冠軍樊麾二段的經驗讓 AlphaGo 已經訓練出了頂尖的弈技,極有可能高于世界上任何已知的圍棋高手。

盡管棋盤上風云變化,早在本次開戰前,AlphaGo 跟李世石就已不在同一起跑線上了。至于李世石曾經做出 AlphaGo 和自己棋份在二子和讓先之間的評論,恐怕第一局足夠讓他反悔了。

AlphaGo 只是 DeepMind 證明自己的一個工具。你也可以將這次和李世石的對局理解為 Google 的公關策略。

轉載請注明:北緯40° » 擊敗了李世石的AlphaGo究竟是什么?

喜歡 (1)or分享 (0)
發表我的評論
取消評論
表情
(1)個小伙伴在吐槽
  1. 天網倒計時
    匿名2016-03-13 09:39 回復