方 冰
(合肥工業大學電氣與自動化工程學院,合肥 230009)
發電機、變速箱、葉片與液壓元件是風力發電機的核心部分,據相關統計發現,由葉片、變速箱失效導致風力發電機故障的概率達到了79%[1],風力發電機變速箱在工作中處于高速旋轉狀態,在壓力與磨損共同作用下[2],其性能和工作效率逐漸劣化,甚至引起整個變速箱故障。
劣化系統的狀態維修決策問題是目前設備維護領域的熱點問題之一,相關學者對這方面的研究也取得了一定的成果。Byon E和Ding Y把風力發電機系統看作有多種故障模式的多狀態退化系統,考慮了自然條件因素,基于馬爾可夫決策過程討論了劣化系統的維修策略優化[3];Tai A H和Chan L Y研究了考慮維修時間分布的基于預防維修閥值的連續狀態維修優化模型[4];劉華鵬研究了風電機組的變速箱的狀態維修,以單位時間費用最低為目標,建立了單部件最優更換時間模型[5];程志君研究了連續劣化系統的狀態維修模型,用Levy過程描述其狀態變化,利用更新過程理論解決了此類優化問題[6]。
筆者以風機變速箱為研究對象,將系統連續的劣化過程劃分為有限劣化狀態,把變速箱隨著時間逐漸劣化的過程看成一個Gamma過程,以風機長期運行的單位時間費用為最小為目標,建立基于半馬爾可夫決策過程的狀態維修[7]優化模型。
將風力發電機變速箱系統的劣化過程離散成n個狀態,風力發電機組通常采用三級行星齒輪箱(由行星齒輪和三級齒輪組成),高速運轉的齒輪經常會由于磨損、振動、溫度過高而發生故障,從而影響整個變速箱的運行狀態。把變速箱的劣化過程看成是齒輪磨損程度逐漸累積的結果,設其一段時間內的隨機磨損增量服從參數為(γtint,β)的Gamma分布:
(1)
考慮變速箱的狀態還受環境的隨機沖擊影響,假定沖擊是在決策時刻點之前瞬間發生的,若沖擊前系統狀態處于i,沖擊可能使狀態發生瞬時轉移,且轉移到j的概率為qij,則[qij]為沖擊轉移概率矩陣。變速箱系統也可能由于受到環境沖擊或者人為失誤操作導致其他零部件的性能降低,這樣就會增加一項額外費用,并設如果沖擊使狀態從i轉移到j產生的損失費用為cij,則變速箱的劣化過程如圖1所示。

圖1 變速箱劣化過程示意圖
半馬爾可夫決策過程一般由六元組組成,具體為{S,A,P(i,j,v(i)),Q(i,j,v(i)),r(i,v(i)),V},其中i,j∈S、a∈A。
狀態空間S={1,2,…,i,…,j,…,n},其中1為葉片完好狀態,n為葉片劣化故障狀態。
決策A={m,tint},決策者在離散時刻點T(0),T(1),…,T(n)對葉片和變速箱同時進行檢測觀察,得到變速箱的狀態信息,再根據這一信息采取適當的措施。其中,維修方式記為m={1,2,3,4}={不修,小修,大修,更換},tint為下一次檢測時間間隔。
令發生隨機沖擊的概率均為μ,設系統經過維修后的狀態為k,發生沖擊時系統處于狀態k′,設X(n)表示決策時刻點T(n)時系統所處的狀態,X(n+1)表示決策時刻點T(n+1)時系統所處的狀態。令v∈Ωs,Ωs是全體平穩策略的集合,v(i)表示在決策時刻點T(n)時采取的決策,運行如圖2所示。

圖2 變速箱運行過程示意圖
則變速箱的狀態轉移概率矩陣可表示成:
P(i,j,v(i))={X(n)=i,X(n+1)=j,v(i)=(m,tint)}
(2)
其中[pik]表示系統經過維修后的轉移概率,[pkj]表示系統自然運行時的轉移概率矩陣,稱為自然轉移概率,其表達式為:
(3)
(4)
且兩個決策時刻間隔時間分布函數為:
(5)
代價函數表示當前決策時刻系統狀態處于i,采取策略v(i),直到下一個決策時刻系統產生的總成本。由每次檢測變速箱的費用cins、維修費用cm、沖擊損失費用cij、系統單位時間的停機損失費用c和系統處于劣化狀態k的單位時間損失費用c(k)組成。變速箱系統的代價函數在葉片維修決策模型的基礎上增加了一個沖擊損失費用。
若未發生隨機沖擊,代價函數表示為:

λj-1c(j)tint/(λk-1+…+λj-1)
(6)
若發生了隨機沖擊,代價函數表示為:

λk′-1c(k′)tint/(λk-1+…+λk′-1)+ck′j
(7)
準則函數:設α為折扣因子且0<α<1,r(X(n),v(X(n))表示Tn→Tn+1時間內的單位時間期望代價,則無限階段的系統平均代價準則可表示為:
(8)
Q學習算法是一種基于隨機動態過程的強化學習常見方法[8,9],適用于模型信息不完全可知的馬爾可夫系統和半馬爾可夫系統的決策問題,其基本思想是通過樣本軌道學習并更新所有可能的狀態行動對的函數值Qα(Xn,v(Xn))。
根據性能勢的特點可以得到系統在折扣和平均準則下統一的計算公式,即Q因子的即時差分公式可表示為:
(9)
w(n)=T(n+1)-T(n)
(10)

(11)
ηn=(1-γn)ηn-1+γnf(Xn,v(Xn))
(12)
其中,γn為學習步長,則Q因子的迭代公式為:
Qα(Xn,v(Xn))=Qα(Xn,v(Xn))+γndn
(13)
經典的Q學習算法通常采取貪心策略的思想進行探索利用,前面介紹的半馬爾可夫決策過程的狀態維修優化模型為該算法在維修決策問題中的運用提供了可靠的理論基礎。
以FL-2500風力發電機作為研究對象,將變速箱的劣化過程離散成為5個狀態,即S={1,2,3,4,5},假設變速箱系統的各非故障狀態的逗留時間均服從參數λ=0.002的指數分布,設齒輪單位時間磨損增量服從參數為β=0.0001的指數分布,每次的檢測費用為cins=50,小修、大修、更換的維修費用分別為3 000、7 500、150 000元,即cm={0,3 000,7 500,150 000},小修、大修、更換的維修時間分別服從參數μm為0.5、0.2、0.1的指數分布,5個狀態單位時間損失的費用依次為0、50、100、150、200,即c(k)={0,50,100,150},且故障狀態損失的單位時間費用也就是停機損失的單位時間費用設為c=200。設變速箱各狀態下發生環境沖擊的概率均為μ=0.001,并將沖擊使得發生狀態轉移的概率和產生的單位時間損失的費用分別為:
(14)
(15)
根據前面介紹的策略迭代算法和Q學習算法,并利用Matlab7.1進行編程求解得到平均準則下的仿真結果(圖3、4)。

圖3 變速箱模型的策略迭代優化曲線

圖4 變速箱模型的Q學習優化曲線
通過策略迭代算法和Q學習算法得到的變速箱系統的最優單位時間(每天)費用為37.61元,最優維修策略為:v*={(1,281),(2,217),(2,60),(3,205),(4,281)}。將幾個不同檢測時間間隔值進行若干次仿真數據后整理得到檢測時間間隔與費用率的關系圖(圖5)。可以從最優維修策略中看出當變速箱系統處于中間狀態3時,其檢測時間間隔比其他劣化狀態下的檢測時間間隔小很多,這是因為在狀態3時進行小修可以使系統恢復到狀態2,而狀態2的檢測時間間隔較

圖5 檢測時間間隔與費用率的關系
長,劣化單位時間費用較低,且回到完好狀態也只需小修,若在狀態3采取大修或者更換,其昂貴的維修費用可能導致得不償失。
針對離散狀態的半馬爾可夫決策過程的狀態維修模型,建立風力發電機變速箱的Gamma過程劣化模型,并且通過理論仿真和學習仿真對模型進行求解分析,證明了模型的經濟性和有效性。對于連續狀態的情況,仍需要進一步的研究與討論。