益 智 ·科技前沿·
“阿爾法狗”為什么厲害

從3月9日開始,一場人與機器的圍棋大戰吸引了全世界的目光。這場大戰在韓國首爾上演,一直持續到15日,共5輪。大戰之所以舉世矚目,是因為對戰的雙方是世界圍棋冠軍李世石與圍棋人工智能程序AlphaGo。令人驚嘆的是,整個比賽過程中,AlphaGo的表現都堪稱完美,最終以4∶1擊敗李世石。
這個戰勝人類世界圍棋冠軍的AlphaGo程序到底是何方神圣?它為什么如此厲害?
AlphaGo程序是美國谷歌公司旗下DeepMind團隊開發的一款人機對弈的圍棋程序,被中國棋迷們戲稱為“阿爾法狗”。游戲是人工智能最初開發的主要陣地之一,比如博弈游戲就要求人工智能更聰明、更靈活,用更接近人類的思考方式解決問題。
1997年,IBM的“深藍”計算機首次擊敗國際象棋世界冠軍卡斯帕羅夫,成為人工智能戰勝人類棋手的第一個標志性事件。此后近20年間,計算機在諸多領域的智力游戲中都擊敗過人類。但在圍棋領域,人工智能卻始終難以逾越人類棋手。直到2015年,由谷歌開發的這款“阿爾法狗”程序才首次戰勝歐洲圍棋冠軍樊麾。
為什么對于人工智能而言,圍棋的難度這么大?中國自動化協會副理事長、秘書長王飛躍說:“首先,圍棋的可能性太多。圍棋每一步的可能下法非常多,棋手起手時就有19×19=361種落子選擇。一局150回合的圍棋可能出現的局面多達10170種。其次,是規律太微妙,在某種程度上落子選擇依靠的是經驗積累而形成的直覺。此外,在圍棋的棋局中,計算機很難分辨當下棋局的優勢方和弱勢方。因此,圍棋挑戰被稱作人工智能的‘阿波羅計劃’。”
既然圍棋對于人工智能來說這么難攻克,那么對于AlphaGo程序的設計者來說,是否也需要具備很高的圍棋水平?“這個不需要,設計者們只需要懂得圍棋的基本規則即可。AlphaGo背后是一群杰出的計算機科學家,確切地說,是機器學習領域的專家。科學家利用神經網絡算法,將棋類專家的比賽記錄輸入給計算機,并讓計算機自己與自己進行比賽,在這個過程中不斷學習訓練。某種程度上可以這么說,AlphaGo的棋藝不是開發者教給它的,而是‘自學成才’的。”王飛躍說。
AlphaGo通過蒙特卡洛樹搜索算法和兩個深度神經網絡合作來完成下棋。什么是蒙特卡洛搜索樹算法?有專家曾通俗地解釋:假如籃子里有1000個蘋果,讓你每次閉著眼睛找一個最大的,可以不限制挑選次數。于是,你可以閉著眼隨機拿了一個,然后再隨機拿一個與第一個比,留下大的,再隨機拿一個,與前次留下的比較,又可以留下大的。循環往復這樣,拿的次數越多,挑出最大蘋果的可能性也就越大,但除非你把1000個蘋果都挑一遍,否則你無法肯定最終挑出來的就是最大的一個。這就是蒙特卡洛搜索,它被廣泛用于科學和工程研究的算法仿真中。
“這種方法在象棋、跳棋等方面還具有一定可實現性,但對于圍棋就無法實現,因為圍棋橫豎各19條線,落子的可能性大到計算機無法構建這棵樹(果子太多了)來實現遍歷搜索。”中國科學院自動化研究所研究員易建強說,“而AlphaGo采用了很聰明的方法,完美解決了這個問題。它利用深度學習的方法降低了搜索樹的復雜性,搜索空間得到有效降低。比如,策略網絡負責指揮計算機搜索出更像人類高手該落子的位置,而估值網絡負責指揮計算機搜索出后續更有可能獲勝的一個落子位置。”中國科學院自動化研究所博士研究生劉加奇進一步解釋,“策略網絡主要是用來生成落子策略的。在下棋的過程中,它不是考慮自己應該怎么下,而是想人類的高手會怎么下。也就是說,它會根據輸入棋盤當前的一個狀態,預測人類下一步棋會下在哪兒,提出最符合人類思維的幾種可行的下法。”然而,策略網絡并不知道自己要下出的這步棋到底下得好還是不好,它只知道這步棋是否跟人類下的是一樣的,這時候就需要估值網絡來發揮作用了。“估值網絡會為各個可行的下法評估整個盤面的情況,然后給出一個‘勝率’。這些值會反饋到蒙特卡洛樹搜索算法中,通過反復如上過程推演出‘勝率’最高的走法。蒙特卡洛樹搜索算法決定了策略網絡僅會在‘勝率’較高的地方繼續推演,這樣就可以拋棄某些路線,不用一條道算到黑。”
AlphaGo利用這兩個工具來分析局面,判斷每種下子策略的優劣,就像人類棋手會判斷當前局面以及推斷未來的局面一樣。在利用蒙特卡洛樹搜索算法分析了比如未來20步的情況下,就能判斷在哪里下子贏的概率會高。
專家們表示,AlphaGo成功的秘訣就是讓計算機知道如何完成目標并通過經驗來提高,而不是每項任務都通過手寫指令來完成。
此次AlphaGo的勝利被業界認為是人工智能發展當中的一個重要里程碑。“它的一些算法的機理可以運用到其它領域,去解決一些對抗性的問題,甚至還可以應用到以后的商業和金融交易當中,或者是城市的交通管理等方面。”劉加奇說。
很多人都擔心人工智能的發展會威脅到人類的生存,這次AlphaGo能在典型的反映人類智慧的比賽中打敗人類,則更加重了人們的擔憂。對此,記者采訪的幾位專家都表示人工智能并不會對人類造成威脅。他們認為,人工智能技術為我們提供了強大工具,有助于專家更快做出突破,提高我們應對那些亟待解決的全球性難題的能力。“我們需要機器學習來幫助處理復雜問題,預測未知,支持我們實現以往不可能的目標。”王飛躍說。
(摘自《人民日報》2016年3月21日)