999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的搶險機器人路徑規劃

2025-04-26 00:00:00李賀李論畢其功陳浩楠張文杰
中國新技術新產品 2025年7期

摘 要:高壓電房環境復雜,存在高電壓和狹窄空間等危險因素,傳統的人工應急處理面臨安全風險和效率低下的問題。通過選擇深度Q網絡,應急搶險機器人通過與環境的交互,積累經驗,并通過獎勵機制優化其策略,逐步學習到最佳的行動路徑和應急響應措施,從而實現快速、精準的故障識別和處理。通過模擬試驗驗證了基于深度強化學習的路徑規劃策略在實際搶險場景中的有效性,結果表明方法顯著提高了機器人在應急響應中的安全性和效率,為未來高壓電房的智能化管理提供了新的思路和方法。

關鍵詞:深度強化學習;高壓電房;應急搶險機器人;路徑規劃

中圖分類號:TP 242" " 文獻標志碼:A

高壓站房內電氣設備眾多且長期運行,增加了發生著火事故的風險。當發生此類事故時,由于高壓電房的復雜環境,常常面臨高電壓、狹窄空間和各種障礙物多等情況,人工操作的風險極高。處理不當可能導致嚴重的財產損失、人員傷亡。國內外眾多研究人員針對這些問題開展了一系列的工作,陳人楷等[1]設計了一種基于深度強化學習的電力巡檢機器人自動化監測系統。金涌濤等[2]提出了一種基于改進YOLOv7-tiny的變電站機器人設備巡檢中目標動態捕捉識別方法。孔曉兵[3]研究了基于電力大數據的變電站設備智能控制系統。本文擬應用深度強化學習技術,通過與環境的交互,積累經驗并優化決策策略,使機器人逐步學習最佳的行動路徑和應急響應措施,實現快速、精準的故障識別與處理。

1 深度強化學習概要

深度強化學習(Deep Reinforcement Learning,DRL)是一個結合了深度學習和強化學習的強大方法,旨在使智能體能夠在復雜動態環境中自主學習并制定最優策略。

深度學習基于多層神經網絡,通過多層網絡進行特征提取和模式識別。它能自動從原始數據中自動提取高級特征,已廣泛應用于計算機視覺和自然語言處理等領域。強化學習則通過智能體與環境交互學習最佳策略,并通過獎勵信號評估行為優劣,目標是最大化累積獎勵。深度強化學習結合了深度學習的特征提取與強化學習的決策能力,使智能體能在復雜、高維的狀態空間中有效學習。

深度強化學習將深度學習的特征提取能力與強化學習的決策能力結合,使智能體能夠在復雜、高維的狀態空間中有效學習。例如,深度Q網絡(DQN)結合了深度學習和Q學習算法,通過神經網絡對狀態進行編碼,近似Q值函數,使智能體能夠在視覺輸入中直接學習到最佳行動策略。

2 深度Q網絡介紹

深度Q網絡(Deep Q-Network,DQN)是一種結合了深度學習和強化學習的算法,旨在解決高維狀態空間下的強化學習問題。DQN的核心思想是使用深度神經網絡來近似Q值函數,從而允許智能體在復雜環境中學習最佳策略。

2.1 Q學習原理

Q學習是一種無模型的強化學習方法,通過智能體在沒有環境模型的情況下學習如何最大化累積獎勵。智能體通過維護一個Q表(Q-table)來記錄每個狀態-動作對的預期累積回報,即Q(s,a)。Q(s,a)表示在狀態s下采取動作a后的預期累積回報。Q值的更新遵循貝爾曼方程,如公式(1)所示。

(1)

式中:α為學習率,決定了新舊信息的混合程度;r為即時獎勵;γ為折扣因子,用于平衡即時獎勵和未來獎勵;s'為智能體在執行動作a后到達的新狀態;為在新狀態s'下,未來可能采取的動作所能獲得的最大Q值。

2.2 DQN的基本原理

為了克服Q學習在高維環境中的限制,DQN使用深度神經網絡來近似Q值函數。深度Q網絡以當前狀態s作為輸入,輸出對應各個動作a的Q值。通過深度神經網絡中學習狀態-動作值的映射,從而避免維護智能體中龐大的Q值表。

DQN的模型如圖1所示。在DQN中,深度神經網絡用于近似Q值函數Q(s,a;θ),其中,θ為神經網絡的參數。該網絡接受當前狀態s作為輸入,輸出對應的每個可能動作的Q值。

DQN采用了2個網絡結構:一個是主網絡,另一個是目標網絡。主網絡負責實時更新Q值,目標網絡則用于計算目標Q值。為了保持學習過程的穩定性,目標網絡的參數會定期進行更新。

為了消除數據樣本之間的相關性,DQN引入了經驗回放機制。該機制的核心是一個名為回放緩沖區的數據結構。智能體在與環境交互過程中會將每次的經歷存儲到這個緩沖區中。每次訓練時,會從緩沖區中隨機選擇一批樣本用于訓練。這種方法有助于減少樣本間的時間相關性,并提高樣本的使用效率,顯著提高了DQN在復雜環境中的表現[4]。

DQN的Q值更新過程基于貝爾曼方程。目標Q值y如公式(2)所示。

(2)

式中:θ-為目標網絡的參數。

目標網絡的參數會在固定的步數后從主網絡進行同步更新,以此降低訓練過程中的不穩定性。

主網絡的參數通過最小化均方誤差(Mean Squared Error,MSE)損失函數進行更新,如公式(3)所示。

L(θ)=E(s,a,r,s')~D[(y-Qmain(s,a;w))2] (3)

式中:D為經驗回放緩沖區中的樣本集合;θ為主網絡的參數。

3 基于DQN的應急搶險機器人路徑規劃

3.1 應急搶險機器人路徑規劃DQN模型

應急搶險機器人從未知環境中獲取當前狀態st后,根據貪婪策略ε-greedy選擇一個動作at來執行運動。機器人以一定概率選擇當前狀態下Q值最高的動作at。同時,機器人以ε概率隨機選擇一個動作at,防止因受到噪聲和不確定性的影響陷入局部最優解。對應最大Q值的動作at如公式(4)所示。

at=argmaxaQ(st,a;w) (4)

式中:st為當前時刻的狀態值;at為當前狀態對應最大Q值的動作;w為當前網絡參數。

DQN學習流程如圖2所示。機器人通過與環境交互,并根據所獲得的反饋信息不斷學習和改進[5]。當機器人執行動作at后,環境會返回獎勵值rt以及下一時刻的狀態st+1。這些信息(st,at,γt,st+1)會被記錄并存儲在經驗池中,供后續訓練使用。當前值網絡用于計算在當前狀態下執行動作at的Q值Q(si,ai;w),而目標值網絡則計算下一狀態st+1中執行所有可能動作的Q值Q(si+1,ai;w')。接著,使用獎勵的折扣因子γ來計算目標值yi,如公式(5)所示(第一種情況表示機器人在狀態st+1下達成目標,第二種情況表示機器人未能達成目標。)。

(5)

式中:γ為獎勵值的折扣因子。

3.2 ε-greedy貪婪策略

為了使獎勵值rt最大化,研究者利用行動價值函數Qπ(st,at)(如公式(6)所示)來估計在狀態st中采取行動后執行策略π的獎勵。最優動作值函數Q*(st,at)(如公式(7)所示)是通過最大化消除策略π得到的,消除策略π表示在狀態st中采取行動后執行最優策略的最大獎勵。函數Q*估計了當前狀態下每個動作的最大期望累積獎勵,指導機器人選擇具有最高期望獎勵的動作。因此,基于值的DQN算法采用了一個深度神經網絡來逼近最優的動作-值函數。

Qπ(st,at)=E[rt|St=st,At=at] (6)

(7)

通過采用貪婪策略,該模型很容易陷入局部最優解,因此,建議鼓勵該模型在訓練開始時進行更多的探索。在訓練過程中,機器人執行模型給出的動作的可能性為Epsilon,而采取隨機動作的概率為1-Epsilon,如公式(8)所示。在初始階段,由于值較小,因此機器人處于隨機探索狀態。該方法可以加速模型的收斂性,減少陷入局部最優的風險。

(8)

3.3 DQN訓練流程

智能體與環境交互:智能體在環境中執行動作,獲取狀態s、動作a、獎勵r以及下一狀態s',并將這些經歷存儲到經驗回放緩沖區中。

經驗回放抽樣:從經驗回放緩沖區中隨機抽取一批樣本(s,a,r,s')。

計算目標Q值:使用目標網絡計算目標Q值y。

更新主網絡:通過最小化損失函數L(θ)來更新主網絡的參數。

目標網絡更新:每隔一段時間,將主網絡的參數θ復制到目標網絡θ-中,使目標網絡的參數得到同步更新。

3.4 雙DQN算法

本文引用雙DQN算法[6]來減輕過高估計問題。傳統的DQN算法使用單神經網絡來同時估計當前狀態下各個動作的價值。雙DQN算法引入了2個獨立的神經網絡:評估網絡和目標網絡。評估網絡負責根據當前狀態估計所有可能動作的Q值;目標網絡用于計算訓練過程中指導評估網絡更新的Q值。目標網絡的結構與評估網絡相同,但其參數是定期從評估網絡中復制過來的。目標網絡的參數是通過固定間隔從評估網絡中復制得來的,這樣可以減少價值函數的波動性,緩解過估計問題。雙DQN中使用的Q學習目標如公式(9)所示。

(9)

在雙DQN算法中,只使用當前網絡參數,忽略了上一代網絡參數的重要性。本文改進的雙DQN算法可以充分利用上一代的網絡參數,隨著迭代次數增加,機器人可以獲得足夠的環境先驗知識積累,消除高估對動作選擇的影響,增加了重要經驗的回放概率,使樣本學習更有效。代理使用ε-greedy貪婪策略選擇行動。當開始時,代理不熟悉環境,并隨機采取行動。隨著經驗增加,為了選擇預期回報值最大的行動,應降低采取隨機行動的概率,并首選貪婪策略。貪婪策略的使用還可以防止代理陷入局部最優。

3.5 優先經驗回放機制

在傳統的訓練方法中,訓練樣本存儲在存儲單元中,并隨機選擇進行訓練,這可能導致有價值樣本學習不足,而無意義樣本被重復學習,影響收斂速度和學習效率。因此,采用基于優先經驗回放機制的DQN方法,充分利用有價值的傳輸樣本,使機器人能從大量數據中高效學習,從而提高學習效率。在訓練過程中,機器人-環境交互數據存儲在體驗重放隊列中,后續從隊列中提取數據輸入模型,顯著提高數據利用率。優先經驗回放機制通過標記緩存單元優先級,從而顯著提高了數據的利用率。

由于每個交互式數據對模型增強的影響都不同,為了提高數據利用的效率,有必要對數據進行訓練。這意味應該通過選擇性地采樣具有高TD誤差(Temporal Difference Error,時序差分誤差)的數據來提高模型性能。為了實現這一點,使用公式(10)和公式(11)來計算每個數據的優先級和采樣率,其中δi為數據的TD誤差值;為了防止采樣率過小,添加了ε。α是調節優先級對采用概率的影響的指標,當α=0時,它是傳統的統一抽樣,如果α=1,那么恰好是基于優先級的抽樣方法。

pi=|δi|+ε (10)

(11)

4 試驗結果與分析

使用Python 3.6和PyTorch工具搭建仿真平臺以進行試驗。本文提出的雙DQN算法的超參數配置見表1。為確保試驗的一致性,原始DQN算法的超參數設置與改進算法保持相同。

使用傳統DQN路徑規劃算法和改進算法得到的路徑結果見表2。當執行路徑規劃任務時,雖然2種算法都能成功引導機器人到達目標位置,但在路徑效率和行進路線的復雜度上有所不同。具體來說,傳統DQN算法的路徑平均長度為35.5m,而改進算法將路徑長度縮短至28.6m,相比之下節省了19.4%。此外,傳統算法規劃的路徑中有多達17個拐點,而改進算法減少到僅8個。這表明改進算法不僅提高了路徑的直線性,還可能降低機器人在實際導航中的能量消耗和時間成本,具有更高的導航效率和路徑優化能力。

5 結語

本文提出了一種基于雙DQN算法的應急搶險機器人路徑規劃方法,用于解決高壓站房內電氣設備眾多、環境復雜的搶險問題。通過深度強化學習,機器人能夠在與環境的交互中學習最優策略,快速響應故障并減少人工干預的風險。本文采用雙DQN算法通過引入目標網絡來減輕傳統DQN的過估計問題,并結合優先經驗回放機制,進一步提高了模型的學習效率。試驗結果顯示,改進后的算法在路徑規劃上優于傳統DQN,能有效縮短路徑長度并減少拐點數量,從而提高導航效率。

參考文獻

[1]陳人楷,方曉明,李仕彥.基于深度強化學習的電力巡檢機器人網絡自動化監測系統[J].自動化與儀表,2024,39(9):70-73,83.

[2]金涌濤,張恬波,季宇豪,等.變電站機器人巡檢中設備目標動態捕捉識別技術研究[J].機械設計,2024,41(增刊1):159-164.

[3]孔曉兵.基于電力大數據的變電站設備智能控制技術研究[J].電氣技術與經濟,2024(8):33-36.

[4]姬光楠.基于深度學習算法的電氣控制系統故障診斷與預測研究[J].電氣技術與經濟,2024(9):47-49.

[5]鄧國泉.基于深度學習的工業電氣自動化系統故障診斷與智能優化控制[J].電氣技術與經濟,2024(8):60-62.

[6]陳寶華.基于邊緣計算的配電網供電恢復智能決策方法研究[J].電氣技術與經濟,2024(9):8-10.

主站蜘蛛池模板: 伊人AV天堂| 久久这里只有精品国产99| 午夜综合网| 综合久久五月天| 国内毛片视频| 免费高清自慰一区二区三区| 亚洲福利一区二区三区| 91热爆在线| 亚洲 日韩 激情 无码 中出| 18禁不卡免费网站| 国产精品亚洲а∨天堂免下载| 波多野结衣在线se| 热99re99首页精品亚洲五月天| 美女无遮挡免费视频网站| 91精品专区国产盗摄| 亚洲精品欧美重口| 亚洲天堂免费观看| 国产亚洲美日韩AV中文字幕无码成人| 欧美视频在线观看第一页| 午夜欧美在线| 91免费在线看| 亚洲日韩精品综合在线一区二区| 美女免费黄网站| 亚洲swag精品自拍一区| 欧美成人a∨视频免费观看| 国产三级精品三级在线观看| 国产日韩欧美成人| 国产96在线 | 欧美亚洲国产一区| 久久性视频| 久久黄色影院| 午夜福利在线观看入口| 国产欧美中文字幕| 激情视频综合网| 丰满人妻被猛烈进入无码| 日本五区在线不卡精品| 福利姬国产精品一区在线| 国产丝袜无码一区二区视频| 日韩无码白| 国产91视频观看| 色婷婷电影网| 欧美一区日韩一区中文字幕页| 无码不卡的中文字幕视频| 久久精品亚洲热综合一区二区| 永久免费av网站可以直接看的| 久久久噜噜噜久久中文字幕色伊伊| 亚洲三级a| 国产亚洲视频免费播放| 欧美日韩动态图| 日韩精品久久久久久久电影蜜臀| 亚洲高清中文字幕在线看不卡| 亚洲AⅤ永久无码精品毛片| 老司机精品99在线播放| 国产成人麻豆精品| 国产精彩视频在线观看| 99视频在线免费观看| 香港一级毛片免费看| 亚洲天堂首页| 91外围女在线观看| 99er精品视频| 国产xx在线观看| 久久久久国产精品嫩草影院| 国产在线一二三区| 国产高清不卡| 亚洲精品无码人妻无码| 国产亚洲精品自在久久不卡 | 999国产精品永久免费视频精品久久 | 午夜影院a级片| www.99在线观看| 91亚洲免费视频| 67194亚洲无码| 色网在线视频| 欧美国产日韩另类| 欧美成人午夜视频| 亚洲精品视频在线观看视频| 欧美国产日韩另类| 久久精品波多野结衣| 亚洲无线国产观看| 热这里只有精品国产热门精品| 色偷偷男人的天堂亚洲av| 欧美成人二区| 国产黄色免费看|