999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

戰勝人類頂尖棋手的AlphaGo究竟有多聰明?

2016-05-14 08:41:58張澤玲
中學生天地(A版) 2016年6期
關鍵詞:程序人類模型

張澤玲

2016年3月9日至15日,韓國九段棋手李世石與谷歌計算機AlphaGo在韓國首爾進行了一次舉世矚目的人機大戰。經過5場艱難的對弈,AlphaGo以4∶1的比分取得勝利,而幾個月前,它還只能戰勝職業圍棋二段選手樊麾。AlphaGo戰勝了人類頂尖棋手,且進步速度如此之快,這不禁讓人擔心:這樣下去,它豈不是要像《終結者》中的“天網”和《黑客帝國》中的“母體”一樣,可以統治地球奴役人類了?

AlphaGo真的有這么無敵嗎?它的出現,對人類而言究竟是福還是禍呢?

拋開所有高大上的描述,AlphaGo本質上只是一段很長很長的程序代碼。人類眼中的下圍棋,在它眼里只是不停地按照代碼設定做計算。人類棋手下棋時要計算每一步棋該怎樣走,走這一步是優勢還是劣勢,同樣,AlphaGo也在做類似的計算。而支撐它進行計算的是四個程序設置:策略網絡、估值網絡、快速部署和蒙特卡洛樹搜索。要想知道AlphaGo是怎樣學棋、下棋的,我們就得好好說說這四個程序設置了。

AlphaGo的策略網絡,由監督學習和強化學習兩種機器學習方法搭建。聽上去有些高深?別急,平時刷題不止、考試不斷的你一定深有體會。

所謂的監督學習,是我們給程序一個訓練集,其中一部分稱為例子,相當于習題;一部分稱為目標,相當于答案。然后設定一個函數模型,讓程序不斷把訓練集的例子代入函數模型,算答案,對答案。如果答案不對,程序就去調整這個函數模型里的某些參數,再重復之前的過程,直到能得出較高的正確率。接著再給程序一個測試集,相當于考試。如果程序對測試集里的例子算出的答案正確率也比較高,表明訓練成功。

對于AlphaGo來說,訓練集是人類在KGS圍棋對戰平臺上下過的數萬局棋譜,其中,“例子”是給定一步以后下一步該走什么,“答案”是人類走法中較多人走的且效果不錯的那步,函數模型是模擬人類大腦的“深度卷積神經網絡”。這里的“神經網絡”指的是一類算法結構,本質是一簇互相關聯的函數;“深度”指的是“神經網絡”有好多層,每層負責學習不同的知識點;“卷積”則是一類數學方法,在神經網絡中處理一些函數之間的關系和提煉輸入數據里的有效信息。要想完全弄清楚“卷積”,大學的時候你可得好好學習高等數學哦。

接下來的強化學習,有點像平時老師讓我們用學到的知識去解決某些答案并不確定的實際問題。在監督學習的過程中,AlphaGo只是參照人類的走法大致學會了預測下一步,那么下棋的效果究竟會怎么樣呢?于是我們讓兩個策略網絡互相下棋并不斷調整,看哪邊下贏了就保留勝方的模式和參數,這樣下過3000萬盤后,AlphaGo便通過這樣“左右互搏”的方式提高了策略網絡的“實戰能力”,避免只會照貓畫虎模仿人類。

估值網絡與策略網絡中強化學習的過程差不多,只不過在這里AlphaGo學的不是預測下一步怎么走,而是學習評估此刻棋盤上自己下在不同地方最終獲勝的概率。

快速部署又是什么呢?雖然AlphaGo已經學習了很多東西,下棋的時候還是會遇到卡殼的情形,這個時候總不能干瞪眼發愣吧?于是,AlphaGo會根據經驗“猜”一步——按照正確率不太高的一個函數模型進行快速計算,然后結合估值網絡得出的獲勝概率分布和蒙特卡洛樹搜索得到的信息判定下一步該怎么下。

最后要說的是蒙特卡洛樹搜索?!懊商乜濉辈⒉皇侨嗣?,而是一個地名。該方法的發明人之一斯塔尼斯拉夫·烏拉姆的叔叔經常在蒙特卡洛賭場輸錢,賭博和這類方法都依賴概率,因此得名。它的功能是從當前一步參照估值網絡和快速部署所給的信息,去評估搜索接下來的幾步,再把搜索的結果傳回給策略網絡和估值網絡。這個過程的流程圖就像不斷分叉的樹干,選擇哪一個分支深入搜索下去則是靠一定的概率,因此被稱為“蒙特卡洛樹搜索”。

總的來說,AlphaGo跟人類下棋時,策略網絡和快速部署負責評估下一步不同走法的好壞,估值網絡負責估算當前盤面的獲勝概率分布,蒙特卡洛樹搜索負責結合前三者幫助找到最佳的那一步。當然,這只是粗略的分工,在AlphaGo的實際運行中,這四種程序設置是互相交叉協作的。

在跟李世石九段對決中,由于比賽規則里有時間限制,AlphaGo還額外增加了一部分程序設置用于控制時間。面對復雜度高的局面,AlphaGo的計算量會顯著增加,一樣會出現人類棋手的“長考”現象。為避免在一步棋中耗費太多時間,時間控制部分的程序就要權衡每步棋的時間分布。

這么看來,AlphaGo學習和下棋的過程真是比我們上課復雜枯燥多了——所有內容都是對數據的處理和計算。而且,因為只接受了“下圍棋”的訓練,AlphaGo只會下圍棋,別的什么也不會。如果沒有開發人員去調試AlphaGo的代碼,修改函數模型,給予新的訓練,AlphaGo就學不到新技能,逞不了什么威風。目前,AlphaGo更像是一條聰明的獵犬,必須要人類的牽引和訓練才能進步。即便有壞人企圖利用人工智能干壞事,情形也跟當下黑客入侵我們的電腦手機類似,自有負責信息安全的專家們去制止,更何況,人工智能的科學家們早在設計之初就把這些安全因素考慮進去了,目前最“聰明”的AlphaGo也還在科學家們的牢牢掌控之中呢。

從另一個角度看,AlphaGo的成功是因為它模仿了人類的思考方式和學習能力,這也讓我們認識到了人是多么神奇的存在,認識人類自身又是一個多么廣闊的領域。我們“日用而不知”的能力,包含了多少復雜的道理?這些天然的饋贈,我們不更應該好好珍惜、好好利用嗎?

猜你喜歡
程序人類模型
一半模型
人類能否一覺到未來?
重要模型『一線三等角』
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
重尾非線性自回歸模型自加權M-估計的漸近分布
1100億個人類的清明
試論我國未決羈押程序的立法完善
人大建設(2019年12期)2019-05-21 02:55:44
“程序猿”的生活什么樣
英國與歐盟正式啟動“離婚”程序程序
環球時報(2017-03-30)2017-03-30 06:44:45
3D打印中的模型分割與打包
主站蜘蛛池模板: 91久久天天躁狠狠躁夜夜| 日韩专区第一页| 国产女同自拍视频| 欧美日韩亚洲综合在线观看| 久久视精品| 成人韩免费网站| 亚洲欧美激情小说另类| 一级黄色网站在线免费看| 免费国产高清视频| 视频二区亚洲精品| 欧美亚洲国产精品久久蜜芽| 成人国产三级在线播放| 丁香五月亚洲综合在线 | 色老二精品视频在线观看| 中美日韩在线网免费毛片视频 | 国产鲁鲁视频在线观看| 亚洲天堂日韩av电影| 日本在线欧美在线| 欧美一级一级做性视频| 国产成年女人特黄特色毛片免| 久久精品一品道久久精品| 国产成年女人特黄特色毛片免 | 亚洲无线国产观看| 精品无码人妻一区二区| 日韩精品久久久久久久电影蜜臀| 国产91在线|日本| 国产成人综合日韩精品无码不卡 | 美女被操91视频| 丁香婷婷久久| 国产视频只有无码精品| 欧美人人干| 永久免费无码日韩视频| a天堂视频在线| 中文字幕av一区二区三区欲色| 亚洲欧美日韩另类在线一| 国产99热| 91精品免费久久久| 精品国产成人av免费| 免费无码一区二区| 国产9191精品免费观看| 欧美成人一区午夜福利在线| 国内毛片视频| 精品三级在线| 国产日韩久久久久无码精品| 真人免费一级毛片一区二区 | 自慰网址在线观看| 亚洲另类色| 免费一极毛片| 欧美日韩在线第一页| 国产sm重味一区二区三区| 91久久偷偷做嫩草影院精品| 青青青亚洲精品国产| 久久久久久久久亚洲精品| 综合久久久久久久综合网| 国产激情无码一区二区APP | 国产精品浪潮Av| 国产精品林美惠子在线观看| 91av成人日本不卡三区| 99草精品视频| 久久亚洲国产视频| 亚洲综合亚洲国产尤物| 免费一级α片在线观看| 黑人巨大精品欧美一区二区区| 欧美午夜性视频| 日本三区视频| 动漫精品啪啪一区二区三区| 专干老肥熟女视频网站| 中文字幕va| 免费看久久精品99| 亚洲综合网在线观看| 亚洲天堂网在线视频| 四虎永久免费地址在线网站| AV网站中文| 亚洲精品在线影院| 亚洲欧洲日本在线| 不卡无码h在线观看| 99这里只有精品在线| 2048国产精品原创综合在线| а∨天堂一区中文字幕| 秋霞一区二区三区| 欧美成人区| 国产成人91精品|