摘 要:本文研究生產企業中單臺衰變設備基于狀態的維護策略,建立馬爾科夫決策過程模型,通過強化學習中的Q學習算法,使總成本最小化,獲得基于每個狀態的維護策略,并通過實例進行了驗證。
關鍵詞:維護策略;Q學習算法;馬爾科夫決策過程;質量狀態
DOI:10.16640/j.cnki.37-1222/t.2016.23.182
0 引言
本文提出一種考慮設備狀態和距離上次預防性維護時間的維護模式,同時設備狀態由設備加工的產品質量信息為參考依據,以最小化設備運行成本為目標函數,建立多個設備狀態、多種行動的馬爾可夫模型[1,2],并采用Q學習對單臺設備生產模型進行求解,得到近似最優的維護策略。
1 單臺衰變設備建模
本文利用一個連續時間、離散狀態的馬爾科夫決策過程模型呈現單一設備的衰變過程。如圖1所示。
2 基于值迭代的Q學習維護策略
采用強化學習中基于值迭代的Q學習方法進行求解[3,4,5],其步驟如下:
(1)初始化Q(s,a)為(0,0)
(2)反復執行以下步驟:初始化s值。每一次仿真進行:根據Q中的狀態s選擇一個行動a,執行行動a,觀察得到的即時回報r和新的狀態s’,其迭代公式為:
(1)
3 仿真實例分析
應用基于值迭代的Q學習求解模型的步驟如下: 1)初始化所有全局參數;2)設置循環次數;3)開始仿真。仿真流程圖如圖2所示。
單一衰變設備系統的基本參數如表1所示。
M: 生產設備 Co: 設備M生產單個產品的成本 Cp: 單位時間內設備M的預防維護成本 Cc: 單位時間內設備M的修理成本
R: 設備M生產一個好產品的收益 ave_reward: 生產系統的平均收益 MTTF: 設備M的平均故障時間 y(t): 設備M加工的好產品比例 a: 設備M預防維護的成功率,也即預防維護速率 b: 不合格產品數 t: 自上次維護以來的時間
在仿真過程中,設備以線性模式衰變,y(t)=1-t/(MTTF),t為距離上次維護以來的時間,隨著tt的增加,設備生產好產品的概率不斷降低。通過基于值迭代的Q學習對單設備系統進行學習后,得到表2中的結果。
其中,“0”表示繼續生產,“1”表示進行預防維護。b=0時,設備總是在生產的,t服從馬爾科夫模型下的均勻分布,表示的是單位時間。當t為1和2,b=1時,系統采取了預防維護;而t=4,5,6,b<3時,設備都是繼續生產。可以看出,通過多次仿真,呈現出倒三角模型,這是必然的。a∈A={0,1,2},這里沒有出現“2”修理行動,是因為當t=MTTF時,才進行修理。而我們考慮的是最優的決策使系統的總成本最小,所以只有繼續生產和預防維護兩種行動。
參考文獻 :
[1]王文義,張洪芳.維修策略的概念、方法和模型(I)[J].北京: 機械工業出版社,1997,6(02):95-98.
[2]陳洪根.設備維護改進實施決策模型[J].系統工程理論與實踐,20n,31(05):954-960.
[3]Wang H.A survey of maintenance policies of deteriorating systems. European Journal of Operational Research,2002,139:469-489.
[4]Aissani N,Beldjilali B,Trentesaux D. Dynamic Scheduling of maintenance tasks in the petroleum industry:A reinforcement approach[J].Engineering Applications of Artificial Intelligence,22.7(2009):1089-1103.
[5]Arapostathis A,Borkar V S,Fernández-Gaucherand E, et al.Discrete-time controlled Markov processes with average cost criterion: a survey[J].SIAM Journal on Control and Optimization,31.2(1993):282-344.
基金項目:2014沈陽航空航天大學生創新創業訓練計劃項目 項目編號:DCX140410