999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組稀疏優化的強化學習稀疏表征

2024-01-03 00:00:00蔡林逸虞慧群
關鍵詞:優化

摘要:強化學習由于具有出色的數據效率和快速學習的能力,開始應用于許多實際問題以學習復雜策略。但是高維環境中的強化學習常常受限于維度災難或者災難性干擾,性能表現不佳甚至導致學習失敗。圍繞表征學習,提出了一種符合Lasso 類型優化的稀疏卷積深度強化學習方法。首先,對稀疏表征的理論和優勢進行綜述,將稀疏卷積方法引入深度強化學習中,提出了一種新的稀疏表征方法;其次,對由稀疏卷積編碼定義的可微優化層進行了數學推導并給出了優化算法,為了驗證新的稀疏表征方法的有效性,將其應用于相關文獻常見的基準環境中進行測試。實驗結果表明,應用稀疏卷積編碼的算法具有更好的性能和魯棒性,在降低了50% 以上模型開銷的前提下,取得了相當甚至更優的性能。此外,還研究了稀疏程度對算法性能的影響,結果顯示適當的稀疏度能獲得更優的性能。

關鍵詞:強化學習;災難性干擾;稀疏表征;隱式層;Lasso 優化

中圖分類號:TP181 文獻標志碼:A

在深度神經網絡的加持下,深度強化學習(DeepReinforcement Learning, DRL) 在處理含有大量狀態和動作的決策任務中取得了令人矚目的進展,因而備受關注。例如,自動駕駛[1] 和空戰決策系統[2] 就是DRL 對于實際問題有意義的應用。強化學習的核心問題是預測從不同狀態可以獲得的預期收益,其被廣泛使用的技術是值函數估計。在求解和優化值函數估計問題的過程中,由于非局部表征存在重疊,基于當前狀態更新的經驗很可能會改變值函數的所有參數,繼而嚴重干擾或遺忘基于早期狀態轉移樣本更新的經驗,這種現象就是災難性干擾,在高維連續的現實問題中更為嚴重。

一些傳統的稀疏表征方法[3-4] 已經被證明能有效緩解強化學習中的災難性干擾。在信號理論中,一個信號可以被分解為有限的基本信號的線性組合。類似地,稀疏編碼考慮用有限的特征來表示狀態在決策層面的本質信息,這些基本特征即為稀疏表征。如何從狀態輸入構造有效的稀疏表征是一個有趣的問題,但它仍然面臨一些挑戰。

目前,深度卷積網絡已經成為處理圖像數據的主流方法,而傳統的稀疏建模方法[4-5] 往往只考慮最后幾層網絡表征的稀疏性。這些方法沒有充分利用神經網絡的層次結構特性,不僅造成網絡的大量冗余,而且難以構造圖像數據的有效表征,導致算法性能低甚至學習失敗。也有學者采用正則化策略[5-6]作為稀疏化方法,提出在最后一個隱藏層上使用稀疏正則化器。這些工作只考慮了最終表示的稀疏性,但忽略了可能嚴重影響模型性能的其他隱藏層中的狀態表示。不少研究者著力于改進現有的卷積網絡,Gould 等[7] 和Agrawal 等[8] 通過固定點迭代定義一個隱式層,但是沒有對隱式層輸入的建模做出明確的解釋。也有研究者[9-10] 挖掘了潛在稀疏表示的互補性信息,構建了高效求解方法。更進一步,Deng 等[11] 提出的稀疏子空間聚類方法用“必須鏈接”和“不能鏈接”的思想構建了一個不完全數據的鄰接矩陣。而可微優化層的工作[12-14] 則是通過將凸優化問題嵌入隱藏層中,從而將隱藏層之間的復雜依賴關系包含其中。不過,這些研究都沒有考慮特定的信號模型,如稀疏模型。Xia 等[15] 和Zhao 等[16] 提出的深度稀疏表示網絡對每一層的稀疏模型進行求解,具有更優的性能,但是,這些方法都存在計算成本較高的問題。

為了解決上述問題,受可微優化層[17] 啟發,對其進行明確的數據建模,提出了一種基于組稀疏優化的稀疏表征方法。新的可微優化層可以簡單替換一般卷積層,這保證了方法的適用性。現有的稀疏編碼方法通常只考慮最后幾層的稀疏性,而由于每一層的表征只是對上一層的近似解釋,學習表征在傳播過程中不可避免地受到其他表征的嚴重干擾。本研究的可微優化層作用于狀態輸入,這樣構造的稀疏表征可以提取更精確的隱藏特征[18],從而緩解災難性干擾。

本文考慮了深度強化學習中卷積網絡的稀疏建模,在深度強化學習中引入可微的隱式層,利用稀疏卷積誘導生成深度稀疏表征,并通過實驗驗證該方法的有效性,結果表明其能夠緩解高維強化學習問題中的災難性干擾問題。同時,研究了學習表征稀疏程度對網絡性能的影響,通過實驗確定了合適的稀疏表征率。

1 問題形式化

1.1 稀疏表征模型

稀疏表征原理可簡單定義為x = D×α,即信號x可由來自信號空間的元素集合D的線性組合表示或近似表示[19],其中α表示一個系數向量。現將一張單通道圖像輸入表示為二維矩陣xi∈ RH×W,它可以看作是定義在離散域上的二維信號。假設一個強化學習智能體的狀態輸入是多通道圖像,則以一個多維信號x∈ RM×H×W表示環境狀態,其中M為信號x的通道數。

根據稀疏表征原理,進一步假設狀態表示可以由一個C通道的卷積字典多維核D ∈ RM×C×k×k和一個C通道的稀疏編碼z ∈ RC×H×W卷積產生,這一過程如圖1 中I 所示。圖1 中左下角為整體框架,虛線框內為整體框架的具體化,φ(si)為經過稀疏卷積后的結果,同時是流程Ⅱ的輸入。其他變量符號和表達式定義見下文。

為了更好地解釋這一過程,進行如下定義:

z ˙=(α1,…αi,…,αc) (1)

該算法首先對 z 進行隨機初始化,并且令 zt 表示第t 次迭代,有如下迭代過程:

其中,[·]+= max(·,0) ,(zt+1)G符合式 (6)。式 (11) 和式(12) 交替進行,一旦在擴展特征空間中獲得了解決方案,就將其按照原始空間的組結構重新組合以獲得結果。

為盡快獲得結果,在訓練過程中采用交替迭代的方法。對于每一輪迭代,首先固定多維核D和θ更新稀疏編碼z,接著固定z 和θ更新D,最后通過反向傳播更新θ。實驗中,持續執行迭代直到zt+1 - zt的元素l2 范數小于一個規定的界限值(例如10-5),或者達到最大迭代步長。這一算法偽代碼如算法1 所示。

算法1:SOGL 迭代求解算法

輸入:經驗回放緩存,D,γ,a,b

1 初始化網絡 θ ,隨機初始化 z

2 repeat:

3 while ( i ? Kmax ): # Kmax 為最大迭代步長

4 通過式 (11) 計算 z?

5 通過式 (12) 計算 zt+1

6 ifzt+1 - zt 收斂: # 以 10?5 為界限

7 break

7 通過式(10) 更新D

8 反向傳播更新 θ

輸出:z,D

3 實驗與分析

3.1 實驗設置

本文在性能表現、模型開銷等方面對所提出的方法進行了測試,同時研究了學習表征稀疏程度對網絡性能的影響。

3.1.1 環境設置

本文所用強化學習實驗環境有Atari 游戲中隨機選取的6 個游戲(Mspacman,Breakout, Seaquest, Qbert, SpaceInvaders 和Enduro)和vizdoom,這些環境都有著高維的狀態空間。在Atari 實驗環境中,智能體會訓練100 個epoch,每個epoch 為106 步;而在vizdoom 環境中則是訓練300個epoch。

3.1.2 對比算法

為了驗證稀疏表征方法的有效性,將該方法在DQN(Deep Q-Network)[22], Rainbow[23] 和PPO (Proximal Policy Optimization)[24] 這3 個基準算法中進行了測試。在對比實驗中,本文只將對應網絡中的第1 層卷積層替換為所提出的稀疏表征層,具體來說,是將pytorch 框架中的“Conv2d”替換為稀疏表征層,并保證狀態張量的輸入輸出的維度和形狀保持一致。將與DQN、Rainbow、PPO 對應的新網絡分別稱為SRDQN,SRRainbow和SRPPO,目的是為了驗證本文方法的通用性。

3.2 性能表現

3.2.1 Atari環境中的模型性能

為驗證稀疏表征方法的性能優勢,在模型訓練過程中監控并記錄了每個算法所需的計算資源,在訓練結束后統計了模型非零權重的個數,并將其作為模型大小的依據。之后,對每個訓練模型在對應的Atari 環境中測試50次并記錄其平均獎勵。SRDQN,SRRainbow,SRPPO及各自的對比算法的實驗結果在表1 中列出。

可以看到,稀疏表征方法的模型更小,并且訓練的開銷更低。與對比算法模型相比,稀疏表征模型只有原網絡大小的25%~50%,并且在這一前提下獲得了相當或者略優的性能,在Breakout 環境中SRPPO甚至有兩倍以上的優異表現,表明本研究的稀疏表征網絡作為現有的深度強化學習模型的替代方案具有強大潛力。

3.2.2 Vizdoom環境中的模型性能

本文進一步在Vizdoom 環境中測試稀疏表征層。Vizdoom 環境需要智能體同時完成探索路徑、收集裝備、躲避陷阱和殺死怪物等諸多任務。在300 個epoch 的訓練下,每經過一個epoch 就對智能體在當前參數下的算法表現進行一次測試,訓練過程中獎勵變化曲線圖如圖2所示。

圖2 中橫坐標是訓練步數,縱坐標是當前參數下的獎勵,獎勵越高,表明算法表現越好。圖中陰影部分的范圍則代表算法學習過程的獎勵方差。在Vizdoom 環境中,SRPPO 和SRRainbow 比原方法能夠更快地收斂并獲得略多的獎勵;SRPPO 和SRRainbow的陰影范圍更小,表明本研究的稀疏表征模型對環境狀態變化有更高的魯棒性,能夠有效緩解強化學習中面臨的災難性干擾。

3.2.3 稀疏度的影響

為進一步研究稀疏表征程度對模型性能的影響,在Vizdoom 環境中測試3 個算法在不同λ 值下的性能表現。λ 越大,學習表征越稀疏。以λ 為零時的表現作為基準表現,并進行多次測試,以評估在不同λ 值下稀疏表征方法的性能。實驗中,在每個階段都監控并記錄了性能,它們與基線的性能對比如圖3 所示。隨著λ 值的增加,本文的稀疏表征模型的性能先提高,但在某個階段之后迅速下降。

如前文所述,本文的稀疏模型符合SOGL 優化問題,其中參數λ 用于平衡z 的稀疏性和殘差x-D(z)。當λ較小(0.4左右)時,z 不夠稀疏,稀疏模型可能無法充分利用稀疏表征的優勢;隨著λ 的增加,z 變得更稀疏。稀疏表征模型能更好地緩解災難性干擾,表現出算法性能提高。然而,當λ 繼續增大時,z 變得過于稀疏。由于強化學習中的智能體是通過與環境交互來學習的,當z 過于稀疏時,可能會導致環境狀態信息的丟失,給智能體學習帶來困難,從而引發了算法性能的迅速下降。

4 結 論

強化學習算法的成功通常取決于良好的數據表征,研究強化學習中表征學習方法的目的是更好地表示數據以提高智能體的學習和泛化能力。本文針對高維環境中強化學習智能體面臨的災難性干擾問題,分別給出了模型訓練角度和泛化性角度的分析,提出了基于組稀疏優化的稀疏表征方法,并結合稀疏表征的理論和優勢推導出由稀疏卷積編碼定義的可微優化層和求解算法。最后通過實驗驗證了這種設計可以擴展到基于圖像的強化學習,同時保持在平均獎勵、模型大小和內存方面穩定的性能。實驗結果展示了這種網絡設計在緩解災難性干擾方面所具有的明顯優勢。

參考文獻:

[ 1 ]KUUTTI S, BOWDEN R, JIN Y, et al. A survey of deeplearning applications to autonomous vehicle control[J].IEEE Transactions on Intelligent Transportation Systems,2021, 22(2): 712-733.

[ 2 ]HU D, YANG R, ZUO J, et al. Application of deep reinforcementlearning in maneuver planning of beyond-visualrangeair combat[J]. IEEE Access, 2021, 9: 32282-32297.

[ 3 ]MAKHZANI A, FREY B J. Winner-take-all autoencoders[J]. Advances in Neural Information Processing Systems,2015, 28: 2791-2799.

[ 4 ]RAFATI J, NOELLE D C. Learning representations inmodel-free hierarchical reinforcement learning [J/OL].(2018-10-23) [2023-10-10]. https://arxiv.org/abs/1810.10096.

[ 5 ]LIU V, KUMARASWAMY R, LE L. The utility of sparserepresentations for control in reinforcement learning [C]//The Thirty-Third AAAI Conference on Artificial Intelligence.Honolulu, HI: [s.n.], 2019: 4384-4391.

[ 6 ]LI Z, ZHAO H, GUO Y, et al. Accelerated log-regularizedconvolutional transform learning and its convergence guarantee[J]. IEEE Transactions on Cybernetics, 2022, 52(10):10785-10799.

[ 7 ]GOULD S, HARTLEY R, CAMPBELL D. Deep declarativenetworks[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2021, 44(8): 3988-4004.

[ 8 ]AGRAWAL A, AMOS B, BARRATT S, et al. Differentiableconvex optimization layers[J]. Advances in NeuralInformation Processing Systems, 2019, 32: 9558-9570.

[ 9 ]陳凱旋, 吳小俊. 基于對稱正定流形潛在稀疏表示分類算法[J]. 軟件學報, 2020, 31(8): 2530-2542.

[10]張茁涵, 曹容瑋, 李晨, 等. 隱式低秩稀疏表示的多視角子空間聚類[J]. 模式識別與人工智能, 2020, 33(4): 344-352.

[11]DENG T, WANG J, JIA Q. Semi-supervised sparse representationcollaborative clustering of incomplete data[J].Applied Intelligence, 2023, 53(24): 31077-31105.

[12]AMOS B. Differentiable optimization-based modeling formachine learning [D]. PA: United States Carnegie MellonUniversity, 2019.

[13]BLONDEL M, BERTHET Q, CUTURI M, et al. Efficientand modular implicit differentiation[J]. Advances in NeuralInformation Processing Systems, 2022, 35: 5230-5242.

[14]BERTHET Q, BLONDEL M, TEBOUL O, et al. Learningwith differentiable pertubed optimizers[J]. Advances inNeural Information Processing Systems, 2020, 33: 9508-9519.

[15]XIA T, CHENG C, CUI W. A deep sparse representationwith random dictionary for hyperspectral image classification[J]. International Journal of Wavelets, Multiresolutionand Information Processing, 2023, 21(5): 2350010.

[16]ZHAO H L, WU J Q, LI Z N, et al. Double sparse deepreinforcement learning via multilayer sparse coding andnonconvex regularized pruning[J]. IEEE Transactions onCybernetics, 2023, 53(2): 765-778.

[17]SANDER M E, PUIGCERVER J, DJOLONGA J, et al.Fast, differentiable and sparse top-k: A convex analysis perspective[C]// Proceedings of International Conference onMachine Learning. [s.l.]: [s.n.], 2023: 29919-29936.

[18]YANG G, YANG J, LU Z, LIU D. A convolutional neuralnetwork with sparse representation[J]. Knowledge-BasedSystems, 2020, 209: 106419.

[19]董雋碩, 吳玲達, 郝紅星. 稀疏表示技術與應用綜述[J].計算機系統應用, 2021, 30(7): 13-21.

[20]QIAO L B, ZHANG B F, SU J S, et al. A systematicreview of structured sparse learning[J]. Frontiers of Information Technology amp; Electronic Engineering, 2017,18: 445-463.

[21]RAO N, NOWAK R, COX C, et al. Classification with thesparse group lasso[J]. IEEE Transactions on Signal Processing,2016, 64(2): 448-463.

[22]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playingatari with deep reinforcement learning [J/OL]. (2013-12-19)[2023-10-23]. https://arxiv.org/abs/1312.5602.

[23]HESSEL M, MODAYIL J, VAN HASSELT H, et al. Rainbow:Combining improvements in deep reinforcementlearning [C]// Proceedings of Proceedings of the AAAIConference on Artificial Intelligence. Honolulu, HI: [s.n.],2018: 3215-3222.

[24]SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximalpolicy optimization algorithms [J/OL]. (2017-07-20)[2023-10-10]. https://arxiv.org/abs/1707.06347.

(責任編輯:張欣)

基金項目: 國家自然科學基金面上項目(62276097, 62372174);國家自然科學基金重點項目(62136003);國家重點研發計劃(2020YFB1711700);上海市經信委“信息化發展專項資金”(XX-XXFZ-02-20-2463);上海市科技創新行動計劃(21002411000)

猜你喜歡
優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
PEMFC流道的多目標優化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
圍繞“地、業、人”優化產業扶貧
今日農業(2020年16期)2020-12-14 15:04:59
事業單位中固定資產會計處理的優化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 午夜高清国产拍精品| 成年女人a毛片免费视频| 国产精品欧美亚洲韩国日本不卡| 精品欧美一区二区三区久久久| 亚洲美女一区二区三区| 一本大道无码高清| 欧洲亚洲一区| 国产成人无码Av在线播放无广告 | 无码精品福利一区二区三区| 自偷自拍三级全三级视频| 色135综合网| 欧美成人午夜视频免看| 亚洲欧美成人综合| 欧美亚洲网| 国产成人h在线观看网站站| 国产性爱网站| 国产日韩精品欧美一区灰| 午夜日本永久乱码免费播放片| 久久综合色88| 国产欧美视频一区二区三区| 色偷偷av男人的天堂不卡| 国产精品一区二区不卡的视频| 看国产毛片| jizz国产在线| 在线亚洲精品自拍| 人妻丰满熟妇αv无码| 夜夜拍夜夜爽| 国产91无码福利在线| 日本成人不卡视频| 五月天久久综合国产一区二区| 久久精品波多野结衣| 国产XXXX做受性欧美88| 中文字幕2区| 国产精品专区第1页| 国产凹凸一区在线观看视频| 真实国产乱子伦高清| 亚洲欧洲日产国产无码AV| 欧美综合区自拍亚洲综合绿色| 黄色网址手机国内免费在线观看| 欧美成人免费| 日韩无码真实干出血视频| 欧美国产日产一区二区| www精品久久| 亚洲色图欧美| 亚洲欧洲日韩综合色天使| 97狠狠操| 亚洲男人的天堂久久精品| 国产乱人激情H在线观看| 九九热精品在线视频| 国产精品视频久| 亚洲天堂视频在线观看免费| 国产又爽又黄无遮挡免费观看| 中文天堂在线视频| 欧美有码在线| 亚洲天堂久久| av大片在线无码免费| 18禁影院亚洲专区| 久久香蕉国产线看观看亚洲片| 国产一级精品毛片基地| 国产区网址| 亚洲无码高清视频在线观看| 国产永久无码观看在线| 欧美一区二区自偷自拍视频| 91成人在线观看| 亚洲女同欧美在线| 欧美 亚洲 日韩 国产| 综合网天天| 色综合日本| 18禁不卡免费网站| 2048国产精品原创综合在线| 另类专区亚洲| 亚洲成年人片| 亚洲日本韩在线观看| 国产成人精品一区二区| 美女无遮挡拍拍拍免费视频| 99热这里只有成人精品国产| www亚洲天堂| 扒开粉嫩的小缝隙喷白浆视频| 国产欧美视频综合二区 | 91精品国产一区| 91免费观看视频| 久久国产亚洲欧美日韩精品|