999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Q學習的代理模型輔助優(yōu)化算法

2025-05-31 00:00:00任志海
信息系統(tǒng)工程 2025年4期
關(guān)鍵詞:動作優(yōu)化策略

一、前言

進化算法常被用于解決各種優(yōu)化問題。然而,傳統(tǒng)的進化算法需要大量的目標函數(shù)評價才能獲得一個可接受的解。在實際應(yīng)用中,一次目標函數(shù)評價可能耗時數(shù)分鐘至數(shù)小時(如仿真模擬、物理實驗),這類問題被稱為計算昂貴優(yōu)化問題[。為了解決這個問題,研究人員在優(yōu)化算法中使用代理模型來替代目標函數(shù),稱為代理模型輔助的優(yōu)化算法。在代理模型輔助的優(yōu)化算法中,需要選擇樣本點使用目標函數(shù)進行評價,并對代理模型進行更新。選擇樣本點的策略已經(jīng)成為一個重要的研究問題。面對日漸復雜的應(yīng)用問題,單一的模型和優(yōu)化方法已經(jīng)不能滿足需求,需要根據(jù)算法的搜索情況動態(tài)切換代理模型和算法,當前多模型協(xié)同方法在模型切換策略方面依賴人工經(jīng)驗,缺乏自適應(yīng)性。

盡管代理模型輔助優(yōu)化已取得一定進展,但其性能仍受限于固定的模型一優(yōu)化器組合框架。因此,如何實現(xiàn)動態(tài)策略選擇成為亟待解決的關(guān)鍵問題。Q學習技術(shù)可以通過Q表評估模型一優(yōu)化器組合的收益,使算法在不同問題下自適應(yīng)地選擇適合的策略。

二、相關(guān)理論

(一)Kriging模型

Kriging模型[2是一種非參數(shù)型模型,常用于地理科學、優(yōu)化設(shè)計等領(lǐng)域,其功能函數(shù) 的數(shù)學表達式為:

其中, 為基函數(shù),多為常數(shù)、一次回歸多項式、二次回歸多項式, β 是相應(yīng)的回歸系數(shù), 是均值為0、方差為 的隨機過程。

(二)徑向基函數(shù)網(wǎng)絡(luò)(RBF)

徑向基函數(shù)網(wǎng)絡(luò)[3是一種基于前向傳播結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,公式如下:

其中, 是訓練集的數(shù)量, 代表第i個訓練樣本, 代表第i個訓練樣本的權(quán)重, 是核函數(shù)。在本文中,

使用“cubic”核函數(shù)。

(三)粒子群優(yōu)化算法(PSO)

粒子群優(yōu)化算法是一種被廣泛使用的群體優(yōu)化算法。為了找到優(yōu)化問題的全局最優(yōu)解,粒子從個體最優(yōu)和全局最優(yōu)位置學習。具體而言,粒子的學習機制概括如下:

其中t是迭代次數(shù), 是第i個粒子的位置和速度, ω 是慣性權(quán)重, 是自學習因子, 是群體學習因子, 是[0,1]\"范圍內(nèi)的隨機向量,n是決策空間的維度,pbesti是個體歷史最優(yōu)位置,gbest是種群歷史最優(yōu)位置。

(四)社會學習粒子群優(yōu)化算法(SL-PSO)

社會學習粒子群優(yōu)化算法[是粒子群優(yōu)化算法的一種變體,它引入了一種新的學習機制。在SL-PSO中,粒子的更新不僅依賴于它們自己的經(jīng)驗(即它們找到的最佳位置),還依賴于整個群體的經(jīng)驗。排名靠前后的粒子會學習排名靠前的粒子的行為,以提高自己的性能。當前最優(yōu)粒子的位置信息會被其他所有粒子所學習。算法中粒子的更新公式如下:

其中 (t)表示粒子i在第t代的飛行速度, (t)表示粒子i在第t代的位置。 是種群在第t代的平均位置,反映了整個群體的中心趨勢。 是社會影響因子。 用于在速度和位置更新中引入隨機性,范圍是[0,1]。 (t)是隨機數(shù),用于在粒子更新過程中引入隨機性。 代表在種群中降序排列在第i位的粒子的學習概率。m代表種群大小,n代表決策空間維度, 、M是一個定值。

總的來說,SL-PSO算法通過引入社會學習機制,允許粒子根據(jù)它們在種群中的相對位置和整個種群的中心趨勢來調(diào)整自己的速度和位置。這種機制有助于粒子探索解空間,并最終找到問題的最優(yōu)解或近似最優(yōu)解。

(五)Q學習(Q-learning)

Q學習[是一種無模型的強化學習算法。它根據(jù)當前狀態(tài)下執(zhí)行動作將會獲得的獎勵來決定執(zhí)行哪個動作。Q學習方法原理簡單,適應(yīng)動態(tài)環(huán)境,可收斂到最佳策略。Q表的更新公式為:

其中, )代表在當前狀態(tài)和動作下的Q值。 分別是學習率和折扣因子,范圍均為[0,1]。r代表在當前狀態(tài) 下執(zhí)行動作 后會獲得的獎勵。max Q( ,A)代表在下一狀態(tài) 可獲得的最大獎勵。A

三、基于Q學習的代理模型輔助優(yōu)化算法(QL-SAEA)

(一)算法詳細介紹

算法1給出了基于Q學習的代理模型輔助優(yōu)化算法的偽代碼。算法結(jié)合了Q學習框架和代理模型輔助的進化算法,設(shè)計了4種不同的采樣策略。首先,初始化Q表,每種采樣策略對應(yīng)一個動作action,每個動作執(zhí)行后是否更新最優(yōu)解各對應(yīng)一個狀態(tài)state,因此Q表設(shè)置為8行4列,所有Q值初始化為0.25,隨機選擇一個狀態(tài)作為當前狀態(tài)state。使用拉丁超立方體(LHS)生成NP個初始樣本,使用目標函數(shù)進行評價,存入數(shù)據(jù)庫DB中,從DB中找到當前最優(yōu)樣本 ,更新目標函數(shù)評價次數(shù)NFE。然后根據(jù)式子(4)和(5)選擇動作action,其 s)代表當前狀態(tài)s下第i個動作 被選中的概率, 代表當前狀態(tài)s下第i個動作 的Q值,rand表示一個[0,1]范圍內(nèi)的隨機數(shù),A為被選中概率不小于rand值中最接近rand的動作。接下來執(zhí)行所選動作代表的策略,獲得候選解x并使用目標函數(shù)評價,將 存入DB中,更新NFE。當候選解 的目標函數(shù)值f 小于f( )時,將 賦值給 模型更新標志 success置為1,否則將success置為 隨后按照式子(3)更新當前狀態(tài)和動作對應(yīng)的Q值,按照式子(6)更新狀態(tài)值state,第一個動作的成功與失敗分別對應(yīng)第1、2行,第二個動作的成功與失敗分別對應(yīng)第3、4行,以此類推。此后返回式子(3)繼續(xù)執(zhí)行,直到算法結(jié)束,輸出最優(yōu)解 及其目標函數(shù)值f(

表1實驗結(jié)果

算法1:QL-SAEA的框架。

輸入:問題維度Dim,最大目標函數(shù)評價次數(shù)MaxNFE。

輸出:最優(yōu)解xbest及其目標函數(shù)值。

1.初始化Q表及當前狀態(tài)state;

2.初始化DB,更新NFE、xbest;

3.while:NFE

4.選擇動作action;

5.執(zhí)行動作action,確定候選解x;

6.使用目標函數(shù)評價候選解 ,更新DB、xbest、NFE、success;

7.更新Q-table(state,action)對應(yīng)的Q值和當前狀態(tài) state;

8.endwhile。

(二)采樣策略

采樣策略用于尋找新的候選解更新 。為提高候選解搜索效率與算法穩(wěn)定性,本文采用Kriging與RBF雙代理模型協(xié)同策略。在建立Kriging模型時,為了防止模型過擬合,同時規(guī)避Kriging模型在訓練樣本數(shù)量大時計算量過大的問題,從DB中隨機選擇N個樣本作為訓練集,而不是選擇DB中的全部樣本。RBF模型使用DB全部樣本訓練,通過累積樣本密度引導搜索聚焦于最優(yōu)解 鄰域。本文使用了兩種優(yōu)化器:粒子群優(yōu)化算法[5(PSO)和社會學習粒子群優(yōu)化算法[(SL-PSO)。PSO算法全局搜索能力較強:粒子通過跟蹤個體最優(yōu)(pbest)和群體最優(yōu)(gbest)探索解空間,適合初期廣泛搜索。SL-PSO算法引入社會學習機制,對探索與開發(fā)的平衡較好。通過對PSO/SL-PSO優(yōu)化器與Kriging/RBF模型的交叉組合,形成4組策略組合:Kriging+PSO(策略1)、Kriging+SL-PSO(策略2)RBF+PSO(策略3)、RBF SL-PSO(策略4,通過不同模型與算法的優(yōu)勢互補增強算法魯棒性。

四、實驗及結(jié)果分析

(一)實驗設(shè)置

為了驗證本文所提出算法QL-SAEA的有效性,在CEC2005的5個基準測試函數(shù)上與CAL-SAPSO、

經(jīng)驗交流

LMSRBF、DYCORS、SSLPSO進行比較,每個測試函數(shù)的維度分別設(shè)置為10、20、30維。MaxNFE設(shè)置為 ,所有實驗獨立運行20次。NP設(shè)置為 。PSO和SL-PSO的最大迭代次數(shù)設(shè)置為 。在建立Kriging模型時,N為 PSO中慣性權(quán)重 ω 為0.8,自學習因子 為0.5,群體學習因子 為0.5。在Q-learning中,學習率 為0.1,折扣因子 為0.9,獎勵r為1。

(二)實驗結(jié)果和分析

表1給出了實驗的統(tǒng)計結(jié)果,為20次獨立運行結(jié)果的均值。對統(tǒng)計結(jié)果采用了顯著性水平為0.05的Wilcoxon秩和檢驗,所提出的算法的性能明顯優(yōu)于、無明顯差異或差于所比較的算法分別用 + , ≈ 和-表示。可以看出,相比較其他4種算法,本文所提出的算法在6個問題上獲得了最好的結(jié)果。在30維的Ellipsoid問題上與取得最好結(jié)果的CAL-SAPSO無明顯差異,在20、30維的Rosenbrock問題上和30維的Griewank問題上僅差于CAL-SAPSO,說明本文提出的QL-SAEA在計算昂貴問題上是有效的。

五、結(jié)語

本文針對計算昂貴優(yōu)化問題,提出了一種基于Q學習的代理模型輔助優(yōu)化算法QL-SAEA。在QL-SAEA中使用了Q學習方法用于選擇不同的策略用于采樣,使用Kriging模型輔助搜索時,注重對全局的擬合能力,使用RBF模型輔助搜索時,注重對最優(yōu)區(qū)域的擬合能力。實驗結(jié)果表明,本文提出的QL-SAEA在15個測試問題上比其他算法更有效。

參考文獻

[1]ZhenH.,GongW.,WangL..EvolutionarySamplingAgent forExpensive Problems [J].IEEE Transactions on Evolutionary Computation,2023,3 (27):716-727.

[2]張磊,胡震.基于克里金模型的潛水器耐壓艙結(jié)構(gòu)優(yōu)化[J].船舶力學,2020,24(01):108-117.

[3]Diaz-Manriquez,Alan, ToscanoG,Coello Coello C.Comparison of metamodeling techniques in evolutionary algorithms [J].Soft Computing, 2017, 19 (21):5647-5663.

[4]Watkins ChristopherJ.C.H.,Dayan Peter.Q-learning[J]. MachineLearning,1992,3(08):279-292.

[5]KennedyJ.,EberhartR.Particleswarmoptimization[C]. Proceedings of ICNN'95-International Conference on Neural Networks,1995(04):1942-1948.

[6]ChengRan,Jin Yaochu.A social learningparticle swarm optimizationalgorithm for scalableoptimization[J].Information Sciences,2015 (291):43-60.

作者單位:山西電子科技學院

責任編輯:王穎振楊惠娟

猜你喜歡
動作優(yōu)化策略
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
例談未知角三角函數(shù)值的求解策略
我說你做講策略
動作描寫要具體
高中數(shù)學復習的具體策略
畫動作
動作描寫不可少
主站蜘蛛池模板: 无码一区中文字幕| 国产在线精品99一区不卡| 18禁黄无遮挡网站| 亚洲最大福利网站| 综合亚洲网| 午夜啪啪网| 成人国产精品一级毛片天堂 | 青青青草国产| 亚洲第一黄片大全| 久久精品午夜视频| AV老司机AV天堂| 国产a在视频线精品视频下载| 性69交片免费看| 国产欧美亚洲精品第3页在线| 日本a级免费| 3344在线观看无码| 日本福利视频网站| 国产在线八区| 不卡无码网| 国内精品久久久久久久久久影视| 中文字幕啪啪| 国产免费一级精品视频| 国产玖玖视频| 国产高清不卡视频| 天天综合网色| 国产精品成人第一区| 亚洲日本精品一区二区| 亚洲视频无码| 日本在线欧美在线| 国产麻豆永久视频| 67194亚洲无码| 91原创视频在线| 99精品国产电影| 在线观看亚洲成人| 久久精品视频一| 99热这里都是国产精品| av色爱 天堂网| 国产日本视频91| 亚洲国产理论片在线播放| 亚洲娇小与黑人巨大交| 亚洲a免费| 久久福利片| 在线播放国产99re| 久久午夜影院| 97青草最新免费精品视频| 蜜桃视频一区二区| 国内嫩模私拍精品视频| 99久久精品国产自免费| 重口调教一区二区视频| 国产三级韩国三级理| 999国产精品永久免费视频精品久久 | 波多野结衣一区二区三区四区| 亚洲视频色图| 国产91透明丝袜美腿在线| 蜜臀AVWWW国产天堂| 伊人查蕉在线观看国产精品| 国产精品不卡片视频免费观看| 国产欧美在线观看精品一区污| 久久伊伊香蕉综合精品| 一区二区三区精品视频在线观看| 欧美A级V片在线观看| 欧洲一区二区三区无码| 欧美不卡二区| 免费在线视频a| 乱人伦99久久| 九色视频最新网址 | 免费国产黄线在线观看| 中国国产A一级毛片| 亚洲国产高清精品线久久| 国产精品自拍合集| 毛片三级在线观看| 国产精品网址在线观看你懂的| 免费又黄又爽又猛大片午夜| 欧美三级不卡在线观看视频| 久久性视频| 国产精品播放| 欧美精品成人一区二区视频一| 天堂成人在线| 网友自拍视频精品区| 无码精品国产VA在线观看DVD| 日韩小视频在线观看| 国产成人精品2021欧美日韩 |