999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情景記憶的量子深度強化學習

2022-03-30 04:18:10朱獻超侯曉凱吳紹君
電子科技大學學報 2022年2期
關鍵詞:深度智能方法

朱獻超,侯曉凱,吳紹君,祝 峰

(電子科技大學基礎與前沿研究院 成都 611731)

強化學習(reinforcement learning, RL)是機器學習的一個重要子領域,已被廣泛應用于解決智能體如何在環境中采取行動以最大化其累積獎勵的問題[1]。其中,深度強化學習(deep reinforcement learning, DRL)通過利用深度神經網絡(deep neural networks, DNN)卓越的函數近似能力,已經在許多方面取得了顯著成果[2],如圍棋游戲[3-4]、雅達利游戲[5-7]、機器人控制[8]等。作為深度強化學習的重要算法之一,深度Q 值網絡(deep Q-network, DQN)[6]通過結合卷積神經網絡(convolution neural network,CNN)[9]和Q 學習算法(Q-learning)[10],在一些雅達利游戲上已經能達到人類玩家的水平。然而,現有深度強化學習仍然存在許多問題,如樣本效率低、探索-利用困境、面對復雜任務環境的維數災難等,這些問題將嚴重限制深度強化學習的應用范圍。

最近,量子計算在加速經典機器學習算法方面顯示出強大的能力[11-14],同時也已被用以解決強化學習問題[15-21]。一種量子強化學習的實現方案是利用量子糾纏和量子疊加態等資源以提升經典強化學習算法的學習效率[15-16]。還有一些量子強化學習算法主要研究量子智能體在量子環境下的交互學習模式以及如何基于量子交互框架實現學習效率的平方或者指數加速[17-19]。除此之外,隨著含噪中等規模量子(noisy intermediate-scale quantum, NISQ)計算機的發展,變分量子線路(variational quantum circuit,VQC)作為一種適用于NISQ 設備的可優化量子線路模塊,已被廣泛應用于量子神經網絡的設計,進而被用于構建量子深度強化學習算法[20-21]。與經典強化學習算法相比,這種基于VQC 的量子深度強化學習算法在減少參數數量方面展現出一定優勢。然而,現有的量子深度強化學習方法仍然存在樣本效率低下的問題,即它們的訓練過程需要大量的量子智能體與經典環境進行交互,這會導致執行量子電路的調用次數迅速增加。

最近,基于情景記憶的傳統強化學習方法由于可以快速鎖定先前好的策略來加速強化學習訓練而引起廣泛關注。受這些研究工作的啟發,本文提出了一種量子情景記憶深度Q 網絡(quantum episode memory deep Q-network, QEMDQN)模型以提高樣本效率。該模型通過使用情景記憶監督量子智能體的訓練,學習更優策略,使用情景記憶存儲高獎勵的歷史經驗信息,使用情景記憶中的高獎勵的歷史信息以指導量子智能體訓練,顯著地降低了學習最優策略所需的算法迭代次數。此外,在訓練過程中,該模型可以隨時從情景記憶中提取高獎勵的歷史信息,并將這些信息整合到量子神經網絡中從而更有效地利用樣本。在5 種實驗環境中與幾種量子深度強化學習方法進行對比,本文方法獲得了更好的性能和更低的算法運行時間。

1 背景知識

1.1 強化學習

強化學習(RL)指智能體從與環境的交互中不斷學習以解決問題的方法[22-23],常被描述為一個馬爾可夫決策過程(Markov decision process, MDP)。馬爾可夫決策過程常常由一個五元組(S,A,R,T,γ)表示:其中S表示狀態的集合,A表示動作的集合,R:S×A→R表示獎勵函數,T:S×A×S→[0,1]表示狀態轉移矩陣,γ ∈[0,1]表示衰減因子。馬爾可夫決策過程的目標是學習一個最優策略π(s):

1.2 情景記憶

情景記憶來源于人類記憶的心理生物學和認知研究[25-26],并遵循基于實例的決策理論[27]。大量研究工作將情景記憶應用于強化學習以提高其樣本效率[28-31]。如文獻[28]提出一種上下文控制方法,通過使用情景記憶來存儲經驗使得智能體可以模擬先前具有高獎勵值的狀態動作序列。文獻[29] 提出一種神經情景控制(neural episodic control, NEC)方法,該方法使用可微分的神經字典來記錄那些緩慢變化的狀態-動作對和快速更新的狀態函數值,并通過狀態函數上下文的查找值來修正策略。文獻[30]使用情景記憶來構建用于狀態值函數估計的上下文強化學習。文獻[31] 在目標函數中添加正則化項,將情景記憶的信息提煉成參數模型,顯著提升了DQN 的性能。

1.3 變分量子電路

變分量子電路(VQC) 是由若干含參的單量子比特旋轉門和雙量子比特控制門組合而成的量子線路,其參數可通過經典計算機對特定目標函數求解梯度進行優化。通過在一個含參量子線路中添加更多的量子門,可增強量子電路的表達能力。原則上,近似任意的酉變換需要指數多的單比特門和多比特門,然而根據現有的NISQ 設備的要求,通常在變分量子線路中使用相對于量子比特數是多項式增加的量子門來求解特定問題。如變分量子電路可被用來構建變分量子本征求解器,從而可利用量子計算機來近似一些物理漢密爾頓量的基態能量。已有結果顯示,利用量子線路構建的變分量子本征求解器具有一定削弱量子線路噪聲的能力[32-33]。此外,變分量子線路可用來模擬量子多體系統,或構造量子神經網絡。基于量子變分線路的量子神經網絡相較于傳統的經典神經網絡可能存在需要更少參數等方面的優勢。其他的一些研究表明,變分量子電路可以在經典計算機上近似求解傳統算法難以處理的函數,甚至可以對量子多體物理進行模擬[34-35]。在某些情況下,變分量子電路可以用比傳統神經網絡更少的參數來模擬復雜環境[36-37]。

2 量子情景記憶深度值網絡

本節提出了量子情景記憶深度Q 網絡 (QEMDQN)方法,該方法使用情景記憶來加速量子智能體的訓練,如圖1 所示。

具體地,受大腦中紋狀體和海馬體之間競爭與合作作用的啟發[25-26],該方法采用兩個變分量子電路來逼近量子智能體的Q函數,從而分別為量子智能體構造了一個由U表示的推斷目標和一個由H表示的情景記憶目標。該方法構造了一個新的目標損失函數:

式中,D表示經驗回放池使用的批次數量。

在算法實現過程中,文獻[20] 提出變分量子電路來近似估計量子智能體的Q函數,如圖2 所示。其中,Rσ(θ),σ ∈{X,Y,Z},分別表示繞X,Y,Z軸旋轉的單比特旋轉門,同時,R(bi,di,ki)=Rx(bi)Ry(di)Rz(ki)。除單比特旋轉門外,該線路利用CNOT 門使得量子系統產生糾纏。最后該方法測量可觀測量Oai的期望值,并將其視為量子智能體所生成的Q函數,即:

圖2 QEMDQN 算法使用的變分量子電路結構

式中, ωai是用于輸出處的一個可觀察的權重參數。

本文方法使用情景記憶中的最佳歷史回報來學習策略,使得智能體在當前環境的狀態與情景記憶中的某狀態相似時快速地獲得期望的動作,從而顯著地加快收斂速度。在訓練過程中,本文方法可以隨時從情景記憶中提取高獎勵的歷史信息,并將這些信息整合到量子神經網絡中。通過這種方式,可以更有效地利用樣本。算法的偽代碼如下所示。

3 實驗結果

本文在Frozen-lake、Cognitive-ratio、Cartpole、Blackjack 和Acrobat 實驗環境[39-40]上進行了對比實驗。實驗所采用的服務器配置為:Intel i9 9900K 處理器、64 GB 內存、GPU 為GeForce RTX 2080Ti、Ubuntu 16.04 64 位操作系統,代碼基于Python 3.7編寫。此外,使用Pytorch 機器學習庫來實現線性代數運算的計算加速模擬[41]。同時,本文分別使用深度強化學習中廣泛使用的SGD、RMSprop 和Adam 優化方法來訓練量子智能體[42-44],其主要參數設置為η=0.01,α=0.99,momentum=0.9,τ=10-8。在幾個實驗環境中,經驗回放的批次大小統一設置為5, ε-貪心策略的選擇方法為:

圖3 和表1 分別展示了不同量子深度強化學習算法的期望累積回報和運行時間實驗對比結果。可以發現,雖然不同的優化算法對實驗結果有一定的影響,但在使用相同的優化算法的前提下,本文方法依然比原來的量子深度強化學習方法獲得了更高的平均得分和更低的算法運行時間。如圖3 所示,在采用不同的優化算法的情況下,通過結合情景記憶,本文方法(分別由紅色、紫色和青色曲線表示)在不同的實驗環境上經過幾十個回合之后就獲得了比原始的量子深度強化學習方法(分別由藍色、黃色和綠色曲線表示)高許多的平均得分(得分越高表示學習到的策略越好),并且保持這個優勢到整個算法迭代結束。這是因為本文方法在那些可以遇到重復的狀態的實驗環境上表現得很好,說明情景記憶的引入可提升算法的性能。此外,由圖3 可知,本文方法吸收了情景記憶的快速收斂特性,同時保持了量子神經網絡的良好泛化性,使其在后期訓練中保持了優越的學習能力。

圖3 不同的量子深度強化學習算法在幾個雅達利游戲環境中的實驗對比結果

表1 不同量子深度強化學習的運行時間對比s

4 結 束 語

本文提出了一種基于情景記憶的量子深度強化學習方法,通過使用情景記憶來加速量子智能體的訓練過程。該方法將歷史上出現的擁有高獎勵值的經驗記錄到情景記憶中,并使用它們提供額外的監督信息來指導量子智能體的訓練。通過這種方式,當量子智能體在當前狀態與情景記憶中的某個狀態相似時,可以快速獲得想要的動作,從而顯著地加快收斂速度。本文針對5 種典型的雅達利游戲做了數值模擬,結果顯示,本文方法可以獲得更高的期望累積回報和更低的算法運行時間。

猜你喜歡
深度智能方法
深度理解一元一次方程
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
深度觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 欧美天堂久久| 午夜激情福利视频| 色婷婷成人| 国产乱人免费视频| 国产精品人成在线播放| 国产视频资源在线观看| 91外围女在线观看| 中文字幕永久在线看| 国产杨幂丝袜av在线播放| 欧美午夜性视频| 在线精品欧美日韩| 免费国产好深啊好涨好硬视频| 亚洲中文字幕av无码区| 第九色区aⅴ天堂久久香| 四虎在线观看视频高清无码 | 亚洲国产精品日韩专区AV| 国产97视频在线观看| 成人在线观看一区| 人妻丰满熟妇αv无码| 亚洲欧洲日本在线| 亚洲成人免费在线| 亚洲福利片无码最新在线播放| 国产精品专区第1页| 女人18毛片水真多国产| 亚洲综合色区在线播放2019| 国产精品久久国产精麻豆99网站| 不卡无码网| 91久久夜色精品国产网站| 亚洲中文在线看视频一区| 91无码国产视频| 国产成人禁片在线观看| 国产一级妓女av网站| 欧美午夜在线观看| 国产精品播放| 久久精品aⅴ无码中文字幕| 亚洲婷婷丁香| 久久国产乱子伦视频无卡顿| 在线免费观看AV| 98精品全国免费观看视频| 国产精品免费入口视频| 日韩在线播放欧美字幕| 午夜色综合| 9啪在线视频| 久久国产精品夜色| 日韩精品成人网页视频在线| 亚洲不卡影院| 国产精品视频导航| 国产成人你懂的在线观看| 亚洲人成网站18禁动漫无码| 亚洲an第二区国产精品| 午夜日b视频| 福利小视频在线播放| av无码一区二区三区在线| 亚洲第一视频网| 天天摸夜夜操| 欧美三级不卡在线观看视频| 色综合久久88色综合天天提莫 | 日韩无码精品人妻| 国产精品手机在线播放| 91视频首页| 国产一区二区三区在线精品专区| 夜夜操狠狠操| 在线精品自拍| 四虎成人在线视频| 国产91小视频在线观看| 久久久久88色偷偷| 国产日韩欧美中文| 国产婬乱a一级毛片多女| 欧美一级高清片欧美国产欧美| 久久亚洲天堂| 日韩第一页在线| 国产日本欧美在线观看| 999福利激情视频| 欧美午夜视频在线| 99r在线精品视频在线播放| 天堂在线www网亚洲| 亚洲三级a| 久久伊人久久亚洲综合| 国产一级做美女做受视频| 亚洲精品爱草草视频在线| 国产第一页亚洲| 老司机精品99在线播放|