999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強(qiáng)化學(xué)習(xí)算法分析與對比研究

2021-12-14 06:58:00程鑫瑤
關(guān)鍵詞:深度動作策略

◆程鑫瑤

深度強(qiáng)化學(xué)習(xí)算法分析與對比研究

◆程鑫瑤

(沈陽化工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧 110142)

隨著經(jīng)濟(jì)社會的發(fā)展,人工智能技術(shù)也得到了快速發(fā)展,深度強(qiáng)化學(xué)習(xí)融入了深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力,特別是在對運動控制問題的處理上,潛力非凡。本文分析了深度強(qiáng)化學(xué)習(xí)算法,通過分析探尋深度強(qiáng)化學(xué)習(xí)在現(xiàn)實生產(chǎn)中應(yīng)用的可能性。

人工智能;深度強(qiáng)化學(xué)習(xí);獎勵機(jī)制;經(jīng)驗重放;對比

近些年,因強(qiáng)化學(xué)習(xí)可以改善序列決策問題,受到了社會各界的廣泛關(guān)注。受動物學(xué)習(xí)試錯法的啟發(fā),強(qiáng)化學(xué)習(xí)在對智能體訓(xùn)練中,可以將環(huán)境和智能體融合得到的獎勵值當(dāng)做反饋信號。一般情況下,強(qiáng)化學(xué)習(xí)可用馬爾可夫決策過程來表示,是由S.A.R.T.y元素構(gòu)成,S特指現(xiàn)如今所處的環(huán)境狀態(tài),A特指智能體動作,R特指得到的獎勵值,T代表狀態(tài)轉(zhuǎn)移的概率,y代表折扣因子。智能體策略π代表狀態(tài)空間到達(dá)動作空間的映射。不斷優(yōu)化智能體策略,實現(xiàn)獎勵值的最高是強(qiáng)化學(xué)習(xí)的核心目標(biāo)。

1 深度強(qiáng)化學(xué)習(xí)算法分析

(1)SARSA算法

在強(qiáng)化學(xué)習(xí)算法中,一種相對經(jīng)典的算法即SARSA算法,該算法融合了動態(tài)規(guī)劃算法等特點。通過預(yù)測現(xiàn)階段動作長期回報,將收集到的反饋信號上傳到動作中,在獲得反饋獎賞值后,智能體僅向后倒退一步,更新規(guī)則如下所示:

其中學(xué)習(xí)速率是,折扣因子是,在該算法中,結(jié)合當(dāng)前的狀態(tài),動作值函數(shù)智能體就可明確下一個狀態(tài)的動作。結(jié)合策略對值函數(shù)的依賴程度就可確定SARSA算法的收斂性,因此,對于算性性能質(zhì)量來說,最關(guān)鍵的是設(shè)計良好的探索策略。

(2)Q-learning算法

在強(qiáng)化學(xué)習(xí)算法中,另一種比較經(jīng)典的算法即Q-learning算法,這種算法和SARSA算法有所不同。在迭代更新中,Q-learning算法會對所有可能的動作加以考慮,在更新計算中選擇最大的值函數(shù),以下是該算法的更新規(guī)則:

學(xué)習(xí)速率是∈(0,1],折扣因子是,該算法存在以下優(yōu)點:在不考慮環(huán)境模型的基礎(chǔ)下,對所有可用動作的預(yù)期效果加以對比。除此之外,該算法可以不做任何修改,對隨機(jī)獎賞和轉(zhuǎn)換問題進(jìn)行處理,經(jīng)理論和驗證:應(yīng)用Q-learning算法,針對處于有限動作和狀態(tài)空間下的MDP問題,可以結(jié)合現(xiàn)實情況為其設(shè)計最優(yōu)學(xué)習(xí)策略。

(3)確定性策略梯度算法

以下是策略梯度的計算公式:

綜合以上計算公式可以知道:結(jié)構(gòu)簡單是確定性策略梯度計算的主要特點。一般情況下,在應(yīng)用確定性策略中,會應(yīng)用Actor-Critic網(wǎng)絡(luò)來學(xué)習(xí),在該網(wǎng)絡(luò)架構(gòu)中,在近似狀態(tài)動作值函數(shù)上,要應(yīng)用Critic網(wǎng)絡(luò),此網(wǎng)絡(luò)學(xué)習(xí)流程和Q-learning算法非常相似。在進(jìn)行網(wǎng)絡(luò)參數(shù)學(xué)習(xí)上都是參照狀態(tài)動作值函數(shù)損失函數(shù)來進(jìn)行。該網(wǎng)絡(luò)和傳統(tǒng)的Q-learning算法有所不同的是,在計算損失函數(shù)期間,該網(wǎng)絡(luò)不再應(yīng)用貪心策略算法去選擇動作,在選取未來動作時,會應(yīng)用Actor網(wǎng)絡(luò)輸出動作來完成。

2 深度強(qiáng)化學(xué)習(xí)原理對比

常規(guī)的強(qiáng)化學(xué)習(xí)算法僅會對一些簡單的任務(wù)環(huán)境加以處理,而實際上面臨的一些任務(wù)流程都比較復(fù)雜,尤其是部分動作和狀態(tài)空間是呈連續(xù)狀態(tài),應(yīng)用傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法無法解決。隨著對深度強(qiáng)化學(xué)習(xí)原理研究的深入發(fā)展,社會各界也越來越關(guān)注強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的研究。如今人工智能領(lǐng)域的研究重心已集聚在深度強(qiáng)化學(xué)習(xí)的算法上,基于值函數(shù)近似深度強(qiáng)化學(xué)習(xí)算法和基于策略梯度深度強(qiáng)化學(xué)習(xí)算法是現(xiàn)階段深度強(qiáng)化學(xué)習(xí)算法的兩大類別,其中,前者具有典型代表的是深度 Q網(wǎng)絡(luò)算法,后者最具典型代表的是深度確定策略梯度算法,在下文具體贅述:

(1)深度Q網(wǎng)絡(luò)算法

在現(xiàn)實應(yīng)用中,一些任務(wù)環(huán)境狀態(tài)空間較大或者呈連續(xù)狀態(tài),想要解決這樣的問題,應(yīng)用直接估計離散狀態(tài)動作值函數(shù)較難。通常情況下,要應(yīng)用參數(shù)化連續(xù)函數(shù)對估計的狀態(tài)動作值函數(shù)加以近似是常見的解決方式,算法如下所示:

參數(shù)化連續(xù)函數(shù)Q針對一些比較復(fù)雜的環(huán)境,在近似上一般用神經(jīng)網(wǎng)絡(luò)來完成,然而強(qiáng)化學(xué)習(xí)算法在應(yīng)用Q網(wǎng)絡(luò)時,通常是離散的,在現(xiàn)實應(yīng)用中不夠穩(wěn)定。原因是在強(qiáng)化學(xué)習(xí)算法期間,這些訓(xùn)練數(shù)據(jù)是按順序生成的,具有較強(qiáng)的相關(guān)性。針對于此,外界為解決此問題,提出了DQN算法。DQN在網(wǎng)絡(luò)輸入數(shù)據(jù)上,是以原始圖像為例,無需提取,本質(zhì)上屬于端到端的機(jī)器學(xué)習(xí)算法。該算法結(jié)合了Q-learning和深度學(xué)習(xí)算法,與傳統(tǒng)的Q-learning算法相比,具備以下兩大技術(shù):

其一,在該算法中融合了目標(biāo)網(wǎng)絡(luò),而應(yīng)用這種目標(biāo)網(wǎng)絡(luò)可以顯著提高DQN具有的穩(wěn)定性。

其二,在DQN中應(yīng)用了經(jīng)驗池結(jié)構(gòu),這種結(jié)構(gòu)在訓(xùn)練儲存期間,對應(yīng)的智能體將過去應(yīng)用過的數(shù)據(jù)信息加以記憶。同時,在實際應(yīng)用階段中,兩個數(shù)據(jù)元組之間數(shù)據(jù)弱相關(guān),對以往數(shù)據(jù)之間強(qiáng)相關(guān)性加以改善,能顯著提高系統(tǒng)的收斂性。

(2)雙重深度Q網(wǎng)絡(luò)算法

在傳統(tǒng)的Q-learning或DQN算法中,在選擇動作并對狀態(tài)動作值函數(shù)加以評估期間,會在最大化操作算子中應(yīng)用相同的值,這也讓實際操作中產(chǎn)生較高的值估計。為此,學(xué)者基于算法基礎(chǔ)上提出了一種創(chuàng)新方法,此種方法也被稱作雙重深度Q網(wǎng)絡(luò)算法。在應(yīng)用此種算法中,最大化操作算子被分解為兩大部分。

(3)深度確定性策略梯度算法

在解決連續(xù)動作空間存在的問題時,DPG雖然可以發(fā)揮一定的功能,但是一旦面臨的策略網(wǎng)絡(luò)流程相對復(fù)雜,應(yīng)用此種方法依舊存在不少問題,比如具有較差的收斂性。所以學(xué)者為提高此種算法的性能,提出了深度確定性策略梯度算法。此種算法融合了DQN和DPG算法的優(yōu)勢,可以有效解決策略網(wǎng)絡(luò)流程比較復(fù)雜的問題。該種算法與DQN算法一樣,應(yīng)用經(jīng)驗重放技術(shù)來提高數(shù)據(jù)應(yīng)用的效率,應(yīng)用這種技術(shù),可以弱化數(shù)據(jù)之間具有的相關(guān)性,為系統(tǒng)學(xué)習(xí)提供充足的穩(wěn)定性。在學(xué)習(xí)期間,一些需要的經(jīng)驗數(shù)據(jù)會被存儲到經(jīng)驗池中,一旦經(jīng)驗池裝滿數(shù)據(jù),會丟棄最老的數(shù)據(jù)。也會應(yīng)用隨機(jī)抽樣的方式在經(jīng)驗池中抽取一些小批量的數(shù)據(jù),將這些數(shù)據(jù)用作更新訓(xùn)練網(wǎng)絡(luò)參數(shù)。與此同時,目標(biāo)網(wǎng)絡(luò)在DQN算法中應(yīng)用的主要目的是提高系統(tǒng)具有的穩(wěn)定性,而在深度確定性策略梯度算法中,在更新對應(yīng)的網(wǎng)絡(luò)參數(shù)之后,應(yīng)用目標(biāo)網(wǎng)絡(luò)主要目的是及時更新滑動平均算法。

3 深度強(qiáng)化學(xué)習(xí)算法設(shè)計探究

強(qiáng)化學(xué)習(xí)屬于一種有核心目的自動化學(xué)習(xí)決策的一種算法,和現(xiàn)有的監(jiān)督學(xué)習(xí)算法有所差異,智能體在強(qiáng)化學(xué)習(xí)期間,并不會收到指令是否正確的命令,在優(yōu)化選擇和行為時,是依靠智能體得到的積極或消極的獎勵來完成。隨著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有機(jī)融合,在機(jī)器學(xué)習(xí)領(lǐng)域,深度強(qiáng)化學(xué)習(xí)已將其具有的作用發(fā)揮出來。學(xué)者也積極探究深度強(qiáng)化學(xué)習(xí)算法的原理以及應(yīng)用的途徑,2015年,Lillicrap為解決機(jī)器人連續(xù)運動空間問題,指出了DDPG算法,在這之后,眾多學(xué)者為提高此算法具有的性能,在此基礎(chǔ)之上指出了事后經(jīng)驗重放的想法,所以陸續(xù)提出了DAPG,PPO等算法。以上算法在不同的仿真環(huán)境之下,可以將機(jī)器人運動空間問題有效解決,但是,在解決機(jī)器人面臨的問題上,單純依靠一個深度強(qiáng)化學(xué)習(xí)算法遠(yuǎn)遠(yuǎn)不夠。究其原因,一些深度強(qiáng)化學(xué)習(xí)算法在控制對策以及策略形成上是逐步生成的,此種控制策略會推進(jìn)機(jī)器人以較高的效率完成任務(wù)。一般情況下,電機(jī)會驅(qū)動控制機(jī)器人關(guān)節(jié),如果電機(jī)角速度和角度軌跡波動性較大,不夠穩(wěn)定,也會直接影響電機(jī)的驅(qū)動力矩,甚至?xí)l(fā)較大的突變值,直接損害機(jī)器人的關(guān)節(jié)。所以在控制機(jī)器人運動時,應(yīng)和人類運動一樣,平滑地編碼機(jī)械臂運動。

通過前文的分析可以看出深度強(qiáng)化學(xué)習(xí)算法在人工智能領(lǐng)域發(fā)揮著主要的功效,因此,有必要提出完善深度強(qiáng)化學(xué)習(xí)算法的對策,推進(jìn)其在人工智能的有效應(yīng)用。現(xiàn)如今DMPs算法在保障機(jī)器人自主學(xué)習(xí)上依舊存在問題:如何保障參數(shù)化運動基元,可以盡可能適應(yīng)全新的外部環(huán)境,賦予其獨立自主性。在應(yīng)用運動基元過程中,通過對全局參數(shù)加以調(diào)整,可以將運動基元轉(zhuǎn)化到嶄新的任務(wù)模塊,這里的全局參數(shù)就被稱作元參數(shù)。學(xué)者在過去的研究中指出,機(jī)器模型本身決定這些元參數(shù)。例如在乒乓球活動中,當(dāng)預(yù)設(shè)擊球位置之后,可以通過逆運動模型得到元參數(shù)。但是實際情況是,機(jī)器人的模型結(jié)構(gòu)大多處于未知,有關(guān)人員想要得到關(guān)節(jié)角度信息,無法通過逆運動來獲取。因此,在提高機(jī)器人自主學(xué)習(xí)獨立性上,如何應(yīng)用現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法來計算和獲取至關(guān)重要。為了對這種缺陷加以彌補(bǔ),讓機(jī)器人和人類一樣可以執(zhí)行任務(wù),可以應(yīng)用分層動態(tài)運動基元算法,這也是一種創(chuàng)新的學(xué)習(xí)算法。在該算法中,有兩個相互關(guān)聯(lián)的部分,即元參數(shù)以及運動軌跡,這兩個部分可以獨立完成訓(xùn)練學(xué)習(xí),同時二者互相關(guān)聯(lián),融合了深度強(qiáng)化學(xué)習(xí)算法以及運動基元具有的優(yōu)勢,保障機(jī)器人和人類一樣,不但具有自主學(xué)習(xí)能力,同時也能形成平滑的運動軌跡。

4 總結(jié)

總的來說,具備強(qiáng)大的感知能力,甚至在一些場景應(yīng)用下已超出人類的感知水準(zhǔn)是深度學(xué)習(xí)最大的優(yōu)勢,其具有深度神經(jīng)網(wǎng)絡(luò)提取原始輸入的特點,如今在機(jī)器翻譯、語音識別、自動駕駛等多個領(lǐng)域被廣泛研究,并取得了顯著成果。深度強(qiáng)化學(xué)習(xí)憑借其強(qiáng)大的學(xué)習(xí)感知能力,融合強(qiáng)化學(xué)習(xí)的理念和環(huán)境做出交融,來完成決策過程。基于此種背景之下,本文主要研究了深度強(qiáng)化學(xué)習(xí)的算法,并分析出深度強(qiáng)化學(xué)習(xí)算法的性能,為人工智能技術(shù)的發(fā)展提供必要幫助。

[1]劉全.深度強(qiáng)化學(xué)習(xí)綜述[J].計算機(jī)學(xué)報,2018.

[2]Timothy.P.Lillic;rap.Continuous control with deep reinforc;ement learning[J].Machine Learning 2016.

[3]Volodymyr Mnih. Asynchronous Methods for Deep Rein-forc;ement Learning [J].Machine Learning 2016.

[4]董豪.基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人運動控制研究進(jìn)展[J/OL].控制與決策,2021.

[5]劉建偉.基于值函數(shù)和策略梯度的深度強(qiáng)化學(xué)習(xí)綜述[J].計算機(jī)學(xué)報,2019.

猜你喜歡
深度動作策略
深度理解一元一次方程
例談未知角三角函數(shù)值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
動作描寫要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫動作
動作描寫不可少
主站蜘蛛池模板: 啦啦啦网站在线观看a毛片 | 在线免费不卡视频| 2048国产精品原创综合在线| 欧美一级99在线观看国产| 国产手机在线观看| 91精品啪在线观看国产91九色| 亚洲欧美极品| 日韩福利视频导航| 2021无码专区人妻系列日韩| 国产欧美在线观看一区| 亚洲swag精品自拍一区| 青青热久免费精品视频6| 亚洲国产成人精品青青草原| 欧美成人精品在线| 国产高潮流白浆视频| 国产亚洲精品在天天在线麻豆| 2022国产无码在线| 国产96在线 | 精品国产成人av免费| 亚洲精品片911| 美女扒开下面流白浆在线试听 | 久久久波多野结衣av一区二区| AV不卡国产在线观看| 久久综合色88| 国产浮力第一页永久地址| 国产九九精品视频| 91国内视频在线观看| 人人爱天天做夜夜爽| 露脸国产精品自产在线播| av在线无码浏览| 国产精品私拍99pans大尺度 | 国产日本一区二区三区| www欧美在线观看| 久久久久人妻一区精品| 国产内射一区亚洲| 日韩无码一二三区| 欧洲精品视频在线观看| 日韩国产黄色网站| 色婷婷天天综合在线| 国产成人一二三| 成人中文在线| 在线欧美日韩| 国产成a人片在线播放| 国产激情国语对白普通话| 国产麻豆精品久久一二三| 重口调教一区二区视频| 日本高清在线看免费观看| 国产精品视频第一专区| 99在线观看免费视频| 欧美日韩在线观看一区二区三区| AV天堂资源福利在线观看| 国产日韩欧美黄色片免费观看| 欧美 亚洲 日韩 国产| 一级毛片在线直接观看| 久久a毛片| 伊大人香蕉久久网欧美| 免费国产小视频在线观看| 2021国产v亚洲v天堂无码| 婷婷五月在线| 一本一道波多野结衣av黑人在线| 国产在线专区| 夜夜操国产| 999在线免费视频| 九色视频最新网址| 成人亚洲视频| 亚洲精品中文字幕无乱码| 亚洲人成人无码www| 亚洲天堂首页| 成人午夜免费观看| 无遮挡一级毛片呦女视频| 成人国产精品网站在线看| 永久在线播放| 在线综合亚洲欧美网站| 国产97公开成人免费视频| 欧美.成人.综合在线| 中文字幕日韩久久综合影院| 好紧太爽了视频免费无码| 人妻无码中文字幕一区二区三区| 亚洲日本在线免费观看| 又污又黄又无遮挡网站| 欧美一级在线播放| 高清欧美性猛交XXXX黑人猛交|