999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強學習基本模型及其分析

2018-04-03 07:11:13北京市延慶區第一中學李子韓
電子世界 2018年5期
關鍵詞:動作智能游戲

北京市延慶區第一中學 李子韓

1.概述

總所周知的,機器學習主要有監督學習、非監督學習、半監督學習以及增強學習四類。一般具有規則性的行為,我們可以通過監督學習和非監督學習,使智能體習得并掌握這些行為。然而對于一些序列決策或者控制問題,就需要用到增強學。增強學習,主要關注的是智能體和環境之間的交互問題,智能體通過增強學習,可以在當前的狀態下挑選出一個當前回報最高的決策,通過執行當前挑選的最優決策,達到下一個狀態,如此往復,通過執行一系列的決策,從而獲得最終最優的累積回報。

例如,為了指導小狗學會一項新技能這一任務,我們不能告訴小狗它應該去做什么,但是我們可以在小狗做出動作后,判讀動作是否正確,如果動作正確,則給予獎勵;如果動作錯誤,則給予懲罰。經過一系列類似的訓練之后,小狗就可以學習到它做出哪些動作后會得到獎勵,做出哪些動作后會得到懲罰。類似地,我們同樣可以在控制問題中,使用相同的方法訓練智能體學習如何做出決策,獲得最大的累積回報,從而達到決策優化的目的。再以曾經風靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學會這款游戲的玩法,但因為游戲的路線是隨機的,所以如果我們直接給其輸入某一固定的路線,是達不到令其學會的這一效果的。此時應用到增強學習,訓練智能體學習如何作出決策,獲得最大的累計回報,即檢測到某一的障礙,智能體會作出選擇,如果在操作后游戲人物死亡,則否定上一步操作;如果游戲繼續,則記錄此操作,并于下次檢測到同樣障礙時作出相同的操作。經過多次否定和記錄,最終智能體可以學會這款游戲的玩法。

圖1 《神廟逃亡》游戲操作界面

2.增強學習的發展與應用

近些年來,增強學習的研究取得了豐碩的成果,對增強學習的研究主要集中在增強學習的理論、增強學習的算法以及增強學習的應用這三個方面[1]。具體的介紹如下:(1)增強學習理論:時序差分學習的收斂性、表格型強化學習的收斂性、強化學習的泛化方法。研究的主要內容是算法的收斂性等基礎理論,比如:時序差分學習的收斂性,表格型增強學習的收斂性等等。(2)增強學習算法:增強學習可以分為非聯想增強學習和聯想增強學習。比較經典的算法有:折扣型回報指標強化學習算法、Q-學習算法、Sarsa學習算法等等。(3)增強學習應用:增強學習是一種不依賴于環境模型和先驗知識的機器學習方法,通過試錯和延時回報機制,結合自適應動態規劃方法,能夠不斷優化控制策略,為系統自適應外界環境變化提供了可行方案。通過將系統建模成馬氏決策過程,在自動控制領域,增強學習方法已成功地實現了單個機器人的優化控制[2]、多機器人系統并行控制等等[3];如在博弈決策領域,人們利用增強學習方法,已經成功了開發出阿爾法狗——人工智能圍棋程序以及星際爭霸計算機模擬程序等等,此外增強學習方法在比如自動直升機、手機網絡路由、市場決策、工業控制、高效網頁索引、優化和調度等領域都取得了巨大的成功。

3.增強學習的數學模型

首先,基于增強學習問題建立如下模型(為了便于問題的簡化,我們這里建立的環境和智能體的模型都是具有隨機、有限狀態性質的模型)。如圖2所示。

圖2 簡單的增強學習模型

馬爾可夫動態過程可以進一步表示如下:

上述流程圖表示智能體在狀態s0下選擇執行某個動作a0,智能體按照概率Ps0a0隨機轉移到下一個s1狀態,然后再執行一個動作a1,智能體按照概率值Ps1a1轉移到下一個s2狀態,如此往復地進行動作執行和狀態轉移這兩個過程,直達到達最終的終止狀態或者到達最大的狀態轉移步數。

智能體的目標是學習找到一個馬爾可夫策略,即一個從狀態空間到動作空間的映射關系(,表示在當前狀態s下,智能體會根據策略π選擇執行動作a),從而最大化折扣回報加權和的期望。在馬爾科夫決策過程中,如果智能體的起始狀態記為s0,此時智能體根據策略π選擇執行下一個動作a0,執行后智能體的狀態轉移到s1,然后智能體繼續根據策略π選擇執行下一個動作a1,執行后智能體的狀態轉移到s2,按照這種方式執行下去,我們可以得到從起始狀態s開始,所有過程中回報函數的期望和:

我們把(1)式中定義的期望函數Vπ(s),稱為在起始狀態s下,在給定的策略π下的價值函數(value function)。與價值函數非常類似的另外一個函數便是Q函數(Q-function),給定策略π,它的Q函數定義為:從一個給定的起始狀態s開始,首先采取一個指定的動作a,然后根據策略π采取后續動作得到的所有回報函數的期望和:

從遞推的角度來看,我們可以進一步把上述(1)式子寫成:

因此,上述找最優馬爾可夫策略π的問題可以形式化為求解下述問題——求解最大化V*(s):

同樣地,我們可以把Q函數寫成上面的表達形式:

同樣,我們定義最優的Q函數如下:

通過求解上述式子(6),我們可以得到最優的決策策略π*和最大的累積回報值。

4.全文總結

通過本文的介紹,我們大致了解了增強學習的基本概念、增強學習適用于解決哪些問題,增強學習的研究領域及主要的應用領域,最后我們通過建立并且簡單地推導增強學習中最簡單的數學模型——隱馬爾科夫模型,加深了對增強學習模型的理解,即增強學習是通過不斷地試錯,學習到一組最優的決策策略,從而獲得最終最大的累積回報的學習過程。

增強學習在許多應用領域都取得了巨大的進展,我們有理由相信,增強學習在今后的發展中,將會進一步推動人工智能領域的發展,給我們的生產生活帶來極大的便利。

[1]陳學松,楊宜民. 強化學習研究綜述[J].計算機應用研究,2010,27(8):2834-2838.

[2]吳軍,徐昕,王健等.面向多機器人系統的增強學習研究進展綜述[J].控制與決策,2011,26(11):1601-1610.

[3]秦志斌,錢徽,朱淼良.自主移動機器人混合式體系結構的一種Multi-agent實現方法[J].機器人,2006,28(5):478-482.

猜你喜歡
動作智能游戲
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
數獨游戲
瘋狂的游戲
飛碟探索(2016年11期)2016-11-14 19:34:47
爆笑游戲
主站蜘蛛池模板: 亚洲伊人电影| 呦系列视频一区二区三区| 中文毛片无遮挡播放免费| 黄色污网站在线观看| 亚洲福利视频一区二区| Jizz国产色系免费| 五月天福利视频| www精品久久| 欧美爱爱网| 美女毛片在线| 国产99欧美精品久久精品久久| 97视频免费看| 中文精品久久久久国产网址| 精品福利网| 亚洲无码高清视频在线观看| 精品福利网| 熟女视频91| 亚洲一区二区三区麻豆| 1024国产在线| 日本国产精品一区久久久| 精品亚洲欧美中文字幕在线看| 亚洲综合狠狠| 欧美性精品| 亚洲成aⅴ人片在线影院八| 亚洲av片在线免费观看| 亚洲国产一成久久精品国产成人综合| 综合色在线| 欧美精品啪啪一区二区三区| 国产精品久久国产精麻豆99网站| 亚洲无码视频喷水| 九九久久精品国产av片囯产区| 一级毛片免费的| 欧美成人免费午夜全| 三上悠亚精品二区在线观看| 无码又爽又刺激的高潮视频| 大香网伊人久久综合网2020| 亚洲精品国产自在现线最新| 91福利一区二区三区| 国产美女在线观看| 四虎精品黑人视频| 巨熟乳波霸若妻中文观看免费| 爱做久久久久久| 色AV色 综合网站| 欧美午夜在线播放| 国产91在线|中文| 亚洲午夜福利精品无码| 美女无遮挡免费网站| 天天综合网站| 99人妻碰碰碰久久久久禁片| 人禽伦免费交视频网页播放| 久久毛片免费基地| 国产91久久久久久| 91国内视频在线观看| 亚洲综合片| 在线高清亚洲精品二区| 黄色网页在线观看| 视频二区中文无码| 久热99这里只有精品视频6| 亚洲第一成人在线| 亚洲无码四虎黄色网站| 久久窝窝国产精品午夜看片| 8090成人午夜精品| 国产经典免费播放视频| 女人av社区男人的天堂| 精品无码一区二区在线观看| 亚洲人成网站日本片| 91系列在线观看| 亚洲综合香蕉| 久久精品日日躁夜夜躁欧美| 18黑白丝水手服自慰喷水网站| 欧美自拍另类欧美综合图区| 1024你懂的国产精品| 激情无码字幕综合| 波多野结衣一区二区三视频| 尤物国产在线| 免费国产好深啊好涨好硬视频| 成人字幕网视频在线观看| 欧洲av毛片| 久久久久无码精品| 国产精品观看视频免费完整版| 国产靠逼视频| 国产综合网站|