999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

戰勝人類頂尖棋手的AlphaGo究竟有多聰明?

2016-05-14 08:41:58張澤玲
中學生天地(A版) 2016年6期
關鍵詞:程序人類模型

張澤玲

2016年3月9日至15日,韓國九段棋手李世石與谷歌計算機AlphaGo在韓國首爾進行了一次舉世矚目的人機大戰。經過5場艱難的對弈,AlphaGo以4∶1的比分取得勝利,而幾個月前,它還只能戰勝職業圍棋二段選手樊麾。AlphaGo戰勝了人類頂尖棋手,且進步速度如此之快,這不禁讓人擔心:這樣下去,它豈不是要像《終結者》中的“天網”和《黑客帝國》中的“母體”一樣,可以統治地球奴役人類了?

AlphaGo真的有這么無敵嗎?它的出現,對人類而言究竟是福還是禍呢?

拋開所有高大上的描述,AlphaGo本質上只是一段很長很長的程序代碼。人類眼中的下圍棋,在它眼里只是不停地按照代碼設定做計算。人類棋手下棋時要計算每一步棋該怎樣走,走這一步是優勢還是劣勢,同樣,AlphaGo也在做類似的計算。而支撐它進行計算的是四個程序設置:策略網絡、估值網絡、快速部署和蒙特卡洛樹搜索。要想知道AlphaGo是怎樣學棋、下棋的,我們就得好好說說這四個程序設置了。

AlphaGo的策略網絡,由監督學習和強化學習兩種機器學習方法搭建。聽上去有些高深?別急,平時刷題不止、考試不斷的你一定深有體會。

所謂的監督學習,是我們給程序一個訓練集,其中一部分稱為例子,相當于習題;一部分稱為目標,相當于答案。然后設定一個函數模型,讓程序不斷把訓練集的例子代入函數模型,算答案,對答案。如果答案不對,程序就去調整這個函數模型里的某些參數,再重復之前的過程,直到能得出較高的正確率。接著再給程序一個測試集,相當于考試。如果程序對測試集里的例子算出的答案正確率也比較高,表明訓練成功。

對于AlphaGo來說,訓練集是人類在KGS圍棋對戰平臺上下過的數萬局棋譜,其中,“例子”是給定一步以后下一步該走什么,“答案”是人類走法中較多人走的且效果不錯的那步,函數模型是模擬人類大腦的“深度卷積神經網絡”。這里的“神經網絡”指的是一類算法結構,本質是一簇互相關聯的函數;“深度”指的是“神經網絡”有好多層,每層負責學習不同的知識點;“卷積”則是一類數學方法,在神經網絡中處理一些函數之間的關系和提煉輸入數據里的有效信息。要想完全弄清楚“卷積”,大學的時候你可得好好學習高等數學哦。

接下來的強化學習,有點像平時老師讓我們用學到的知識去解決某些答案并不確定的實際問題。在監督學習的過程中,AlphaGo只是參照人類的走法大致學會了預測下一步,那么下棋的效果究竟會怎么樣呢?于是我們讓兩個策略網絡互相下棋并不斷調整,看哪邊下贏了就保留勝方的模式和參數,這樣下過3000萬盤后,AlphaGo便通過這樣“左右互搏”的方式提高了策略網絡的“實戰能力”,避免只會照貓畫虎模仿人類。

估值網絡與策略網絡中強化學習的過程差不多,只不過在這里AlphaGo學的不是預測下一步怎么走,而是學習評估此刻棋盤上自己下在不同地方最終獲勝的概率。

快速部署又是什么呢?雖然AlphaGo已經學習了很多東西,下棋的時候還是會遇到卡殼的情形,這個時候總不能干瞪眼發愣吧?于是,AlphaGo會根據經驗“猜”一步——按照正確率不太高的一個函數模型進行快速計算,然后結合估值網絡得出的獲勝概率分布和蒙特卡洛樹搜索得到的信息判定下一步該怎么下。

最后要說的是蒙特卡洛樹搜索。“蒙特卡洛”并不是人名,而是一個地名。該方法的發明人之一斯塔尼斯拉夫·烏拉姆的叔叔經常在蒙特卡洛賭場輸錢,賭博和這類方法都依賴概率,因此得名。它的功能是從當前一步參照估值網絡和快速部署所給的信息,去評估搜索接下來的幾步,再把搜索的結果傳回給策略網絡和估值網絡。這個過程的流程圖就像不斷分叉的樹干,選擇哪一個分支深入搜索下去則是靠一定的概率,因此被稱為“蒙特卡洛樹搜索”。

總的來說,AlphaGo跟人類下棋時,策略網絡和快速部署負責評估下一步不同走法的好壞,估值網絡負責估算當前盤面的獲勝概率分布,蒙特卡洛樹搜索負責結合前三者幫助找到最佳的那一步。當然,這只是粗略的分工,在AlphaGo的實際運行中,這四種程序設置是互相交叉協作的。

在跟李世石九段對決中,由于比賽規則里有時間限制,AlphaGo還額外增加了一部分程序設置用于控制時間。面對復雜度高的局面,AlphaGo的計算量會顯著增加,一樣會出現人類棋手的“長考”現象。為避免在一步棋中耗費太多時間,時間控制部分的程序就要權衡每步棋的時間分布。

這么看來,AlphaGo學習和下棋的過程真是比我們上課復雜枯燥多了——所有內容都是對數據的處理和計算。而且,因為只接受了“下圍棋”的訓練,AlphaGo只會下圍棋,別的什么也不會。如果沒有開發人員去調試AlphaGo的代碼,修改函數模型,給予新的訓練,AlphaGo就學不到新技能,逞不了什么威風。目前,AlphaGo更像是一條聰明的獵犬,必須要人類的牽引和訓練才能進步。即便有壞人企圖利用人工智能干壞事,情形也跟當下黑客入侵我們的電腦手機類似,自有負責信息安全的專家們去制止,更何況,人工智能的科學家們早在設計之初就把這些安全因素考慮進去了,目前最“聰明”的AlphaGo也還在科學家們的牢牢掌控之中呢。

從另一個角度看,AlphaGo的成功是因為它模仿了人類的思考方式和學習能力,這也讓我們認識到了人是多么神奇的存在,認識人類自身又是一個多么廣闊的領域。我們“日用而不知”的能力,包含了多少復雜的道理?這些天然的饋贈,我們不更應該好好珍惜、好好利用嗎?

猜你喜歡
程序人類模型
一半模型
人類能否一覺到未來?
重要模型『一線三等角』
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
重尾非線性自回歸模型自加權M-估計的漸近分布
1100億個人類的清明
試論我國未決羈押程序的立法完善
人大建設(2019年12期)2019-05-21 02:55:44
“程序猿”的生活什么樣
英國與歐盟正式啟動“離婚”程序程序
環球時報(2017-03-30)2017-03-30 06:44:45
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲一区二区精品无码久久久| 操国产美女| 国产美女丝袜高潮| 麻豆精品视频在线原创| 老司机aⅴ在线精品导航| 亚洲av色吊丝无码| 2020最新国产精品视频| 精品国产电影久久九九| 奇米影视狠狠精品7777| 日韩小视频在线播放| 欧美精品另类| 国产成人亚洲精品无码电影| 波多野结衣二区| 婷五月综合| 亚洲精品视频在线观看视频| 中国国产高清免费AV片| 亚洲床戏一区| 波多野结衣无码中文字幕在线观看一区二区 | 日韩免费成人| 亚洲国产成人精品青青草原| 日韩视频免费| 国产三级视频网站| 五月激情婷婷综合| 免费高清毛片| 国产亚洲精品资源在线26u| 国产情侣一区| 欧美伦理一区| 毛片在线播放a| 伊人AV天堂| 亚洲日本中文综合在线| 伊人网址在线| 在线播放真实国产乱子伦| 亚洲 欧美 中文 AⅤ在线视频| 欧美精品亚洲日韩a| www.国产福利| 国产69精品久久| 爆操波多野结衣| 欧美乱妇高清无乱码免费| 91极品美女高潮叫床在线观看| 一级片免费网站| 色综合天天操| 高清精品美女在线播放| 91免费观看视频| 国产va在线观看免费| 丝袜久久剧情精品国产| 日韩无码真实干出血视频| 亚洲美女久久| 国产95在线 | 国产成人一区| 亚洲天堂视频在线观看免费| 国产精品深爱在线| 国产91高清视频| 国产成人a毛片在线| 六月婷婷综合| 国产激情在线视频| h视频在线播放| 国产在线91在线电影| 亚洲精品午夜无码电影网| 亚洲天堂网视频| 免费国产一级 片内射老| 久久久四虎成人永久免费网站| 亚洲国产看片基地久久1024| 青青青伊人色综合久久| 依依成人精品无v国产| 国产裸舞福利在线视频合集| 亚洲欧洲一区二区三区| 国产免费怡红院视频| 狼友视频一区二区三区| 亚洲第一视频网站| 中文字幕亚洲专区第19页| 亚洲av无码专区久久蜜芽| 第一页亚洲| 亚洲综合婷婷激情| 91福利免费视频| 日本高清在线看免费观看| 亚洲无码不卡网| 91精品视频播放| 国产欧美在线| 亚洲男女在线| 久久久久无码精品| 亚洲AV无码乱码在线观看裸奔| 午夜天堂视频|