付 虹,王國志,柯 堅,鄧 斌,吳文海
(西南交通大學機械工程學院,成都 610031)
作為鐵路電力系統的關鍵組成部分,為預防污閃事故的發生,鐵路絕緣子需要定期清洗[1-3]。目前絕大多數的鐵路絕緣子沖洗車主要依賴于人工操作,人工操作存在沖洗效率低、勞動強度大、安全隱患大等諸多問題,隨著機器學習和人工智能的高速發展,研究和開發自動化和智能化沖洗設備成為電力系統清潔行業的迫切需求和必然趨勢[4-6]。
目前已有學者在智能沖洗領域做出了相關研究,林文文等提出了一種基于絕緣子顏色特征和相關參照特征的絕緣子識別方法,該方法可在準確識別和定位出鐵路絕緣子基礎上,縮短定位時間[7]。張雷等提出了一種具有雙臂的鐵路接觸網絕緣子智能清洗設備,結合單、雙目系統優勢構建一種單雙目結合的識別系統[8]。姚波等開發研究出一種實現絕緣子自動識別和定位的新型絕緣子水沖洗機器人[9]。李健、蔣超猛等也進行了變電站帶電作業水沖洗機器人的研制工作[10-11]。孫麗萍等進行了變電站帶電水沖洗移動機器人控制系統研究,提出采用工控機+觸摸屏+運動控制器的控制方式簡化機器人的運動控制過程,提高控制精度[12]。楊超杰等基于STM32單片機和Modbus通信協議研發出絕緣子帶電水沖洗裝置前端傳感數據采集系統樣機[13]。
然而,絕緣子帶電水沖洗作業環境復雜,僅僅依靠機器視覺和圖像識別技術來研發沖洗機器人是遠遠不夠的,水沖洗裝置必須具備較高的自主學習能力和應變能力,才能進行安全有效的沖洗作業。而水沖洗裝置學習的關鍵在于如何防止絕緣子丟失,即如何準確地定位絕緣子。
本文提出一種基于啟發式Q(λ)學習算法的絕緣子定位、跟蹤方法,該方法結合電氣化鐵路絕緣子分布特點,優先檢索支柱,提高了水沖洗裝置的學習效果,能夠有效地為水炮提供絕緣子位置信息,提高自動沖洗的準確性、快速性、高效性和智能性。
定位沖洗系統以西南交通大學新型驅動中心研制的KJ系列帶電水沖洗車為平臺,帶電水沖洗炮可通過調整水平和俯仰2個自由度實現目標絕緣子的對準。水炮水平角度可調整η范圍為0°~360°,俯仰角度可調整θ范圍為15°~85°[14]。
安裝有2個CCD相機、2個角度傳感器、1個距離傳感器的水沖洗裝置沖洗過程如圖1所示。安裝在水沖洗車身上CCD相機E用來返回目標范圍內絕緣子數目,安裝在水沖洗槍上的CCD相機D用來反饋是否沖到絕緣子,角度傳感器B和C分別用來檢測水槍水平和俯仰角度,距離傳感器A用來判斷水沖洗車身位置。

圖1 水沖洗裝置沖洗示意
將絕緣子水沖洗過程環境空間轉化為由η×θ組成的二維平面,其中η表示偏航角度,θ俯仰角度,則三維空間內目標絕緣子質心位置可轉化為二維平面上的目標點。本文主要研究的問題是如何通過對角度的訓練和學習從而實現對目標絕緣子的準確定位。
Watkins提出的Q學習是一種與模型無關的強化學習算法,Q學習更新迭代時采用狀態-動作對的回報值Q(s,a)作為估計函數,智能體每次學習時不僅要考慮狀態,還必須要考慮行為動作[15]。Q學習算法中智能體獲得立即回報后僅迭代修改了相鄰狀態的估計值,從而導致Q學習算法收斂速度較慢。類比于TD(λ)算法,Q(λ)算法的基本形式如公式(1)所示
Q(st,at)=Q(st,at)+

(1)

通過引入資格跡,賦予發生過的動作-狀態對相應的信度,Q(λ)算法可以有效實現在線、增量式學習。其中狀態動作的增量式資格跡e(s,a)定義如公式(2)所示[16]
(2)
在t時刻,如果狀態s未被訪問,則資格跡更新為原跡的γλ倍,反之,則資格跡更新為γλ倍再加1,其中γ為折扣因子,λ為資格跡的衰減系數。
采用傳統Q(λ)學習算法,水沖洗裝置直接在環境模型中檢索絕緣子,此時環境只存在兩種狀態,即水沖洗裝置瞄準目標或者水沖洗裝置丟失目標,由于絕緣子相對于整體狀態空間來說尺寸有限,智能體往往需要花費長時間大量的時間遍歷狀態空間才能確定目標絕緣子位置。
而啟發式Q(λ)學習算法,在引入支柱特征后,環境存在3種可能的狀態,即沖洗裝置瞄準絕緣子、沖洗裝置瞄準支柱或者水沖洗裝置丟失目標。設計傳統Q(λ)學習獎賞函數rT為
(3)
設計啟發式Q(λ)學習獎賞函數為rU
(4)
獎賞函數rT表明傳統Q(λ)學習當且僅當水炮瞄準絕緣子時,才能返回最大立即獎賞;而獎賞函數rU表明如果水沖洗裝置在某時刻t找到支柱,會返回獎賞值1,則水沖洗裝置會更傾向于沿著支柱或在支柱周圍檢索,直到找到目標絕緣子獲得最大獎賞。啟發式獎賞函數的設計在一定程度上縮小了有效檢索范圍,有利于提高學習過程的計算量和收斂速度。
啟發式策略選擇主要通過融入先驗或領域知識來設計和優化啟發式獎賞函數,與原有動作策略相結合,以此來指導智能體動作選擇[17]。基于啟發式策略選擇的強化學習系統如圖2所示。

圖2 啟發式強化學習系統原理
相比較傳統Q(λ)學習算法而言,啟發式Q(λ)策略學習模塊中的建議動作可分為基于規則和基于啟發式函數兩類。基于規則的啟發函數一般直接給出建議動作,基于啟發函數的則在原有的動作基礎上融入啟發函數H(s,a),根據結合后的動作選擇函數共同指導動作選擇。根據實際沖洗情況確定基于規則的啟發函數H(s,a)如公式(5)所示
(5)
式中,aθ表示水沖洗裝置沿著支柱方向檢索絕緣子的動作集合;aη表示水沖洗裝置沿著回轉方向檢索支柱的動作集合;smaxh表示沖洗達到支柱最高點的臨界狀態;Rtotal_rewards表示該學習幕數下的累積立即回報獎賞值。
該啟發式策略函數的主要作用是在初始階段,指導水沖洗裝置沿著回轉方向搜尋支柱,當找到支柱后則沿著支柱方向搜尋絕緣子,一旦到達支柱最高點則按照貪婪策略搜尋目標絕緣子。
為保證算法的穩定性和收斂性,所設計的水沖洗裝置啟發式策略函數H(s,a)得到的建議動作不直接用于指導水沖洗智能體的行為選擇,而是通過動作融合機制借助概率形式融合于智能體中[18]。水沖洗智能體融合策略選擇函數π(s)如公式(6)所示
(6)
式中,rand為每步生成的隨機數;πQ(s)表示利用Q值的貪婪策略;k表示啟發式建議策略的概率,且k按照公式(7)取值
(7)
當學習幕數小于m時,執行貪婪策略選擇動作;當學習幕數介于m、n之間時,按照一定的概率選擇動作策略;當學習幕數大于n時,逐步減小啟發式策略選擇函數對學習效果的影響,直到學習收斂。

圖3 接觸網絕緣子沖洗啟發式Q(λ)學習算法流程
(1)仿真環境設置。
算法在Intel(R)Xeon(R)CPU 3.3 GHz 4 GB內存的PC機上進行了仿真實驗,運行環境為64位Windows 7,編程環境為Matlab R2014b。
為方便編程與計算,選取單一目標絕緣子作為研究對象,分別采用Q(λ)學習方法和啟發式Q(λ)學習方法,進行沖洗仿真實驗。實驗環境采用20×20二維平面柵格來模擬,如圖4所示,三角形代表水炮初始位置,五角星代表目標絕緣子位置,黑色柵格代表支柱位置。

圖4 仿真環境:20×20柵格
(2)水沖洗智能體行為與學習
水沖洗智能體可采取的動作集A為{向上;向下;向左;向右;向左上;向左下;向右上;向右下}。每一幕學習起始點為水炮初始狀態位置,結束點為目標絕緣子位置,如果迭代步數超出maxsteps設定值還未找到目標位置,則結束當前幕數的學習,直到學習幕數再次超過maxepisode,終止整個學習過程。仿真過程中,單位長度代表角度旋轉1°,如果水炮在第i步探索中找到超出邊界的位置,則趨向于朝著遠離邊界的方向動作。
(3)參數設置
仿真實驗過程中,每次訓練學習中設定最大幕數為maxepisode=400,設定每個學習幕數最大迭代步數為maxsteps=200;學習因子α=0.4、折扣因子γ=1、貪婪因子ε=0.01和資格跡衰減系數λ=0.5,對于啟發式Q(λ)算法取m=30,n=50;為選取合理的k值使得啟發式Q(λ)算法學習效果最好,分別對k取0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1.0進行仿真實驗,得到收斂幕數與隨機數k的取值關系如圖5所示。

圖5 不同k值下啟發式Q(λ)算法收斂幕數
由圖5可以得到結論:k值的選取直接影響到啟發式Q(λ)算法的收斂效果,當k>0.5時,啟發式Q(λ)算法收斂效果逐漸趨于穩定,本文取k=0.99進行仿真實驗。
Steps分別對Q(λ)算法和啟發式Q(λ)算法進行仿真實驗,通過每一幕總體獎賞R、平均迭代步數Steps兩個參數來描述實驗效果,實驗結果如圖6、圖7所示。

圖6 Q(λ)算法學習效果

圖7 啟發式Q(λ)算法學習效果
由圖6、圖7分析可知:
(1)從仿真結果可以看出,兩種學習算法隨著學習幕數的增加,迭代步數均逐漸減小,表明水沖洗智能體通過不斷的訓練學習,最終確定了定位目標絕緣子的最優策略;相對于Q(λ)算法,啟發式Q(λ)可以減少和避免由于貪婪策略引起的學習效果波動;
(2)Q(λ)算法在第173幕的時候收斂,啟發式Q(λ)算法在第51幕的時候基本收斂,收斂速度提高70.5%;
(3)Q(λ)平均迭代步數為136步,啟發式Q(λ)算法平均迭代步數為66步,計算量減少51.4%,從而驗證了算法的正確性和可行性。
為克服人工沖洗弊端,考慮絕緣子水沖洗特殊環境,提出了一種新的絕緣子定位、跟蹤方法。通過優先檢索支柱特征,進行基于啟發式Q(λ)算法的學習和訓練,仿真實驗表明,該算法可以實時高效地實現絕緣子定位,為絕緣子智能沖洗提供重要依據。
參考文獻:
[1]孫忠國,張文軒,王衛東.電氣化鐵路接觸網絕緣子污閃預警檢測技術綜述[J].中國鐵路,2016(10):68-72.
[2]夏寶哲.電氣化鐵路接觸網絕緣子人工污穢特性試驗研究[J].中國鐵道科學,1986(1):74-91.
[3]李巖.基于HOG特征和SVM的絕緣子識別與定位[J].交通運輸工程與信息學報,2015(4):53-60.
[4]王佩.輪式帶電水沖洗車總體方案的研究[D].成都:西南交通大學,2013.
[5]孫麗萍.變電站帶電水沖洗移動機器人控制系統研究[D].濟南:山東建筑大學,2015.
[6]蔣超猛.變電站水沖洗機器人關鍵部件及控制研究[D].成都:西南交通大學,2015.
[7]林文文,鄧斌,于蘭英,等.一種基于顏色和相關參照特征的鐵路絕緣子識別方法[J].電瓷避雷器,2016(6):40-44.
[8]張雷.鐵路接觸網絕緣子清潔機器人關鍵技術研究[D].綿陽:西南科技大學,2016.
[9]姚波.變電所絕緣子水沖洗機器人結構與視覺系統研究[D].成都:西南交通大學,2016.
[10] 李健,魯守銀,董旭.變電站帶電作業水沖洗機器人的研制[J].制造業自動化,2015(10):67-71.
[11] 蔣超猛,李哲,柯堅,等.牽引變電站帶電水沖洗機器人設計[J].液壓與氣動,2015(5):96-99.
[12] 孫麗萍.變電站帶電水沖洗移動機器人控制系統研究[D].山東:山東建筑大學,2015.
[13] 楊超杰,梁鋒,彭盈燦,等.絕緣子帶電水沖洗裝置前端傳感數據采集系統的研發[J].武漢大學學報(工學版),2014(6):829-832.
[14] 王國志,王興民,單寶成,等.KJ-A型電氣化鐵道絕緣子帶電水沖洗裝置的研制[J].電氣化道,2003(1):26-28.
[15] R. S. Sutton, A. G. Barto. Reinforcement learning: An introduction[M]. Cambridge: MIT Press, 1998.
[16] 王雪松.強化學習原理及其應用[M].北京:科學出版社,2014.
[17] 魏英姿,趙明揚.強化學習算法中啟發式回報函數的設計及其收斂性分析[J].計算機科學,2005(3):190-193.
[18] 方敏,李浩.基于狀態回溯代價分析的啟發式Q學習[J].模式識別與人工智能,2013(9):838-844.