何 康, 汪 勇, 陳榮澤, 任少君, 司風(fēng)琪
(1. 東南大學(xué) 能源與環(huán)境學(xué)院, 南京 210096;2. 上海發(fā)電設(shè)備成套設(shè)計(jì)研究院有限責(zé)任公司, 上海 200240)
機(jī)器學(xué)習(xí)以訓(xùn)練樣本集為基礎(chǔ),采用一系列數(shù)學(xué)方法從數(shù)據(jù)中提取變量間的關(guān)聯(lián)性,并且形成相應(yīng)的數(shù)學(xué)表達(dá)式。實(shí)際上,根據(jù)系統(tǒng)特性的不同,變量間的關(guān)聯(lián)性會(huì)呈現(xiàn)出不同的特點(diǎn),如靜態(tài)特性和動(dòng)態(tài)特性、線性和非線性、單模態(tài)和多模態(tài)等。神經(jīng)網(wǎng)絡(luò)作為常用的數(shù)據(jù)驅(qū)動(dòng)建模方法之一[1-3],由于該方法直接面對樣本本身,因此當(dāng)訓(xùn)練樣本無法體現(xiàn)變量間的關(guān)聯(lián)性時(shí),所建立的模型也難以反映系統(tǒng)真實(shí)的特性。因此,高質(zhì)量樣本是保證神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確性的重要前提。一般而言,高質(zhì)量樣本需要具備以下性質(zhì):
(1) 靜態(tài)特性。電站信息化系統(tǒng)保存了設(shè)備海量的運(yùn)行數(shù)據(jù),雖然這些數(shù)據(jù)能夠真實(shí)地反映出系統(tǒng)實(shí)際的運(yùn)行狀態(tài),但其中也包含了大量的動(dòng)態(tài)過程數(shù)據(jù),而這些數(shù)據(jù)無法準(zhǔn)確反映系統(tǒng)的靜態(tài)特性。因此,需要對原始數(shù)據(jù)進(jìn)行篩選才能得到適用于靜態(tài)模型的訓(xùn)練樣本。
(2) 分布均勻。在實(shí)際運(yùn)行過程中,電站設(shè)備的運(yùn)行模式會(huì)周期性發(fā)生變化,進(jìn)而產(chǎn)生大量冗余數(shù)據(jù)。因此,對原始數(shù)據(jù)進(jìn)行樣本約簡不僅可以找到反映過程特性的主要因素,而且能夠減小樣本規(guī)模,提升神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)速率和精度。此外,還會(huì)存在設(shè)備在某些工況下運(yùn)行樣本不足的情形,對于這類樣本則需要進(jìn)行擴(kuò)展和補(bǔ)充,從而提升訓(xùn)練樣本分布的均勻性。
綜上所述,為了提高神經(jīng)網(wǎng)絡(luò)模型的建模效果,以自聯(lián)想神經(jīng)網(wǎng)絡(luò)為研究對象,提出了一種面向海量過程數(shù)據(jù)的高質(zhì)量樣本提取方法,主要包括基于隱變量的系統(tǒng)級穩(wěn)態(tài)因子計(jì)算、海量樣本約簡和少數(shù)類工況樣本過采樣均衡三個(gè)步驟,最后利用實(shí)際工程案例驗(yàn)證了所提方法的有效性。
研究學(xué)者們已經(jīng)通過提取固定時(shí)間序列的趨勢特征[4]和統(tǒng)計(jì)特征[5]來反映系統(tǒng)單變量的穩(wěn)態(tài)程度,并通過與經(jīng)驗(yàn)值進(jìn)行比較來剔除動(dòng)態(tài)樣本。相比于趨勢特征法,統(tǒng)計(jì)特征法不依賴于趨勢的提取速度,對訓(xùn)練樣本及滑動(dòng)窗口的敏感度低。R檢驗(yàn)法[6]作為一種統(tǒng)計(jì)特征法,其對濾波后的數(shù)據(jù)采用兩種不同方法得到方差的無偏估計(jì)并建立檢驗(yàn)統(tǒng)計(jì)量。該方法不需要時(shí)間窗,采用的邏輯運(yùn)算少,占用存儲(chǔ)空間小,且具有較高的計(jì)算速度。因此,采用R檢驗(yàn)法進(jìn)行單變量的穩(wěn)態(tài)因子計(jì)算。假設(shè)樣本X∈Rn×p(R為實(shí)數(shù)組成的矩陣),n為樣本數(shù)量,p為參數(shù)個(gè)數(shù),Xi表示X的第i組樣本。R檢驗(yàn)法的具體步驟如下。

Xf,i=λ1Xi+(1-λ1)Xf,i-1
(1)
(2)
式中:λ1、λ2均為濾波系數(shù),均取0.2[7]。
(3)
式中:λ3為濾波系數(shù),取0.1[7]。
(4)
(5)
(5) 計(jì)算Xi的穩(wěn)態(tài)因子Ri[7]。
(6)
(6) 返回步驟2進(jìn)行計(jì)算,直至所有的Xi計(jì)算完畢。
熱工過程常涉及到多變量,通過單變量穩(wěn)態(tài)判定并不能反映多變量系統(tǒng)工況的變化,因此需要研究面向系統(tǒng)級的多變量穩(wěn)態(tài)因子計(jì)算方法。
隱變量分析作為一種特征提取方法,它將高維度數(shù)據(jù)經(jīng)過映射轉(zhuǎn)換到低維度空間,并且將新得到的特征變量作為系統(tǒng)的隱變量[8]。主成分分析(PCA)法是一種常見的隱變量分析方法,它通過線性映射將原始數(shù)據(jù)映射到低維度空間,只需要使用少量特征就能夠解釋原始數(shù)據(jù)間的相關(guān)性。圖1為PCA法的基本原理示意圖,原始高維數(shù)據(jù)X經(jīng)過線性映射投影到低維空間得到低維數(shù)據(jù)Z,即完成了對原始數(shù)據(jù)的降維處理。因此,為了更好地提取數(shù)據(jù)的特征,采用PCA法[9]提取系統(tǒng)隱變量,并通過隱變量的穩(wěn)態(tài)程度來表征系統(tǒng)數(shù)據(jù)的穩(wěn)態(tài)程度。

圖1 PCA法的基本原理示意圖
圖2為基于隱變量的系統(tǒng)級穩(wěn)態(tài)因子計(jì)算原理示意圖。具體計(jì)算步驟如下:
(1) 使用PCA法得到關(guān)于X的系統(tǒng)級隱變量Z及第k個(gè)隱變量對應(yīng)的貢獻(xiàn)率Gk。
(2) 根據(jù)1.1節(jié)中的方法計(jì)算第i組樣本Xi的第k個(gè)隱變量的穩(wěn)態(tài)因子Rk,i。
(3) 計(jì)算第i組樣本Xi的系統(tǒng)級穩(wěn)態(tài)因子Rsys,i,并得到系統(tǒng)級穩(wěn)態(tài)因子序列Rsys。
(7)
Rsys={Rsys,1,Rsys,2,…,Rsys,n}
(8)
式中:m為隱變量的個(gè)數(shù)。

圖2 基于隱變量的系統(tǒng)級穩(wěn)態(tài)因子計(jì)算流程
機(jī)組設(shè)備常常在一個(gè)或多個(gè)工況下長時(shí)間運(yùn)行,所產(chǎn)生的運(yùn)行數(shù)據(jù)中會(huì)存在大量冗余信息。為減少冗余信息的影響,有學(xué)者提出了一種壓縮近鄰(CNN)法[10],按照最近鄰規(guī)則將原始數(shù)據(jù)集壓縮成一個(gè)新的數(shù)據(jù)集。但CNN法依據(jù)樣本和壓縮集已有各樣本之間距離與閾值的關(guān)系決定樣本是否加入壓縮集,并沒有考慮樣本的穩(wěn)態(tài)屬性。結(jié)合系統(tǒng)級穩(wěn)態(tài)因子計(jì)算方法,提出了SWCNN法,其具體計(jì)算步驟如下。
(1) 初始化壓縮集X’為空集,初始距離閾值為D,穩(wěn)態(tài)權(quán)重序列集合W為空集。計(jì)算樣本X的穩(wěn)態(tài)因子序列Rsys。
(2) 判斷X是否為空,如果為空進(jìn)入步驟7。
(3) 按照式(9)計(jì)算Xi的穩(wěn)態(tài)權(quán)重Wi,按照式(10)計(jì)算權(quán)重閾值Di。
(9)
Di=D/Wi
(10)

(i=1,2,…,l;s=1,2,…,l)
(11)

(5) 從樣本集X中剔除樣本Xi并記作:
X=X-Xi
(12)
如果Dmin大于權(quán)重閾值Di,則將Xi歸入壓縮集X’并記作:
X’=X’∪Xi
(13)
同時(shí),將Xi對應(yīng)的穩(wěn)態(tài)權(quán)重Wi歸入穩(wěn)態(tài)權(quán)重序列W,并記作:
W=W∪Wi
(14)
(6) 返回步驟2進(jìn)行下一次計(jì)算。
(7) 輸出壓縮集X’及對應(yīng)的穩(wěn)態(tài)權(quán)重序列W。
機(jī)組在某些工況下的運(yùn)行時(shí)間較短,所產(chǎn)生的運(yùn)行數(shù)據(jù)量較少甚至沒有運(yùn)行數(shù)據(jù),從而造成樣本分布不均。為減少樣本分布不均勻?qū)δP偷挠绊?,主要從欠采樣[11]和過采樣兩個(gè)方面進(jìn)行研究。欠采樣通過減少多數(shù)類樣本數(shù)量以實(shí)現(xiàn)樣本的均勻分布,但這種方法會(huì)遺失部分有用信息。與欠采樣相比,過采樣增加少數(shù)類樣本以實(shí)現(xiàn)樣本的均勻分布,這種方法在降低過擬合的可能性的同時(shí)還可以避免信息遺失,因此更適合處理熱工過程數(shù)據(jù)?,F(xiàn)有的過采樣算法研究基本只考慮了樣本的距離因素,未考慮樣本間的差異性。因此,提出了一種基于穩(wěn)態(tài)權(quán)重的合成少數(shù)類過采樣(SWSMOTE)法,其具體計(jì)算步驟如下。
(1) 對于原始數(shù)據(jù)集X,采用SWCNN法得到壓縮集X’和對應(yīng)的穩(wěn)態(tài)權(quán)重序列W,并且利用1.2節(jié)計(jì)算得到的系統(tǒng)隱變量將壓縮數(shù)據(jù)集X’分成J類,將第j類的樣本個(gè)數(shù)記作dj。初始化新樣本集合Q’為空集,j=1和該類的樣本需求數(shù)量dj,max。
(2) 如果dj=dj,max,則進(jìn)入步驟4。

(15)
(4) 如果j (5) 將壓縮樣本集X’和生成的新樣本集Q’合并,輸出全部樣本集Xnew,記作: Xnew=X’∪Q’ (16) 圖3為熱工過程海量數(shù)據(jù)的高質(zhì)量樣本提取流程圖,整個(gè)算法的步驟總結(jié)如下: (1) 使用系統(tǒng)級穩(wěn)態(tài)因子的計(jì)算方法獲取關(guān)于X的系統(tǒng)隱變量和穩(wěn)態(tài)因子序列。 (2) 根據(jù)計(jì)算得到的系統(tǒng)穩(wěn)態(tài)因子,利用SWCNN法對原始數(shù)據(jù)進(jìn)行壓縮約簡,得到壓縮集及對應(yīng)的穩(wěn)態(tài)權(quán)重序列,并將其作為SWSMOTE法的輸入。 (3) 根據(jù)SWCNN法得到的壓縮集和穩(wěn)態(tài)權(quán)重序列,以及系統(tǒng)級穩(wěn)態(tài)因子計(jì)算得到的系統(tǒng)隱變量,利用SWSMOTE法對樣本進(jìn)行均衡,得到高質(zhì)量樣本集。 圖3 熱工過程的高質(zhì)量樣本提取方法 燃?xì)廨啓C(jī)是燃?xì)?蒸汽聯(lián)合循環(huán)機(jī)組的核心設(shè)備,其運(yùn)行狀態(tài)對機(jī)組的安全穩(wěn)定運(yùn)行有著重要作用。研究對象是某額定功率為130 MW的燃?xì)廨啓C(jī),其系統(tǒng)結(jié)構(gòu)見圖4。 圖4 燃?xì)廨啓C(jī)系統(tǒng)結(jié)構(gòu) 選用該燃?xì)廨啓C(jī)的發(fā)電功率、環(huán)境溫度、壓氣機(jī)出口溫度、壓氣機(jī)出口壓力、透平進(jìn)口溫度、透平出口溫度這6個(gè)過程參數(shù)作為模型變量,各參數(shù)運(yùn)行范圍見表1。從分散控制系統(tǒng)(DCS)中采集14 385組運(yùn)行數(shù)據(jù)作為原始訓(xùn)練樣本。同時(shí),采用MATLAB軟件進(jìn)行計(jì)算分析。 表1 6個(gè)過程參數(shù)的運(yùn)行范圍 對這6個(gè)參數(shù)進(jìn)行主成分分析,選擇2個(gè)主成分作為隱變量,其對系統(tǒng)的貢獻(xiàn)率之和為94.26%。計(jì)算樣本穩(wěn)態(tài)因子序列作為近鄰壓縮計(jì)算的權(quán)重閾值,并且對原始樣本進(jìn)行約簡。采用系統(tǒng)級隱變量對約簡后的數(shù)據(jù)進(jìn)行分類,獲得每種類別的樣本數(shù)量。根據(jù)樣本數(shù)量的不平衡率,用SWSMOTE法進(jìn)行插值,并且設(shè)定dj,max=max{d1,d2,…,dJ}。在插值過程中,當(dāng)類別中樣本數(shù)量小于6時(shí),插值效果較差,因此針對該類情況不進(jìn)行插值。 圖5為原始數(shù)據(jù)和高質(zhì)量樣本的分布,圖中數(shù)值表示該類樣本數(shù)量占總樣本數(shù)量的比值。由圖5可得:原始數(shù)據(jù)分布不均勻,而提取后的高質(zhì)量樣本分布得較為均勻,除個(gè)別類別樣本數(shù)量太少的工況以外,其他工況樣本數(shù)量均占總樣本數(shù)量的5%左右。 圖5 原始數(shù)據(jù)和高質(zhì)量樣本的分布 自聯(lián)想神經(jīng)網(wǎng)絡(luò)(AANN)是在1987年由Ballard針對編碼/解碼問題首先提出的,其網(wǎng)絡(luò)原型是一種具有對稱拓?fù)浣Y(jié)構(gòu)的五層前饋傳遞網(wǎng)絡(luò)。AANN首先通過輸入層、映射層和瓶頸層實(shí)現(xiàn)了輸入數(shù)據(jù)信息的壓縮。從網(wǎng)絡(luò)輸入的高維參數(shù)空間中提取了反映系統(tǒng)結(jié)構(gòu)的最具代表性的低維子空間,同時(shí)有效地濾去了測量數(shù)據(jù)中的噪聲和測量誤差,再通過瓶頸層、解映射層和輸出層實(shí)現(xiàn)數(shù)據(jù)的解壓縮,將前面壓縮的信息還原到各個(gè)參數(shù)值,實(shí)現(xiàn)各測量數(shù)據(jù)的重構(gòu)。AANN的具體結(jié)構(gòu)可見參考文獻(xiàn)[12]。采用AANN[12]分別對經(jīng)過穩(wěn)態(tài)篩選的原始數(shù)據(jù)和高質(zhì)量樣本進(jìn)行訓(xùn)練,得到2個(gè)模型,并且從模型精度和訓(xùn)練時(shí)間對模型性能進(jìn)行評價(jià)。模型學(xué)習(xí)率設(shè)為0.015,訓(xùn)練結(jié)束條件為各樣本達(dá)到最大迭代次數(shù)(2 500)或者模型精度達(dá)到預(yù)設(shè)精度(0.05)。訓(xùn)練完成后利用原始數(shù)據(jù)進(jìn)行測試,同時(shí)采用均方根誤差衡量模型效果。均方根誤差ERMS的計(jì)算公式為: (17) 圖6展示了測試樣本在不同第一隱變量和第二隱變量區(qū)間下平均均方根誤差的分布情況。 圖6 不同第一隱變量和第二隱變量分布區(qū)間下樣本測試平均均方根誤差 由圖6可得:從精度來看,原始數(shù)據(jù)在樣本分布密集處的平均均方根誤差較小,精度較高。第一隱變量在[-0.07,0.56],樣本數(shù)量占比為41.09%,平均均方根誤差為0.03;第二隱變量在[-0.86,-0.34],樣本數(shù)量占比為50.25%,平均均方根誤差為0.04。而在樣本數(shù)量較少的區(qū)域,模型測試誤差呈現(xiàn)出直線上升的趨勢。第一隱變量在[1.30,1.95],樣本數(shù)量占比為5.81%,平均均方根誤差為0.12;第二隱變量在樣本分布較少的[0.26,0.82],樣本數(shù)量占比為8.85%,而平均均方根誤差已經(jīng)達(dá)到2.78。經(jīng)過SWSMOTE法處理后的數(shù)據(jù),雖然在樣本分布密集處的精度有所下降,但是在其他區(qū)域內(nèi)的平均均方根誤差有明顯的下降,第一隱變量在[1.30,1.95]和第二隱變量在[0.26,0.82]時(shí),平均均方根誤差已經(jīng)分別降至0.07和0.05,其他區(qū)域樣本的平均均方根誤差在0.06左右??傮w來說,由于個(gè)別區(qū)域只有0~6個(gè)樣本,無法采用SWSMOTE法,但是所提出的算法大大改善了原始數(shù)據(jù)分布不均勻所帶來的誤差不均衡的問題,總體平均均方根誤差也較為均衡。 圖7為使用原始數(shù)據(jù)和高質(zhì)量樣本建模時(shí)的預(yù)處理時(shí)間和訓(xùn)練時(shí)間的對比。從學(xué)習(xí)時(shí)間來看,由于樣本數(shù)量的增加,采用原始數(shù)據(jù)對AANN模型進(jìn)行訓(xùn)練的時(shí)間高達(dá)535.25 s,使用高質(zhì)量樣本進(jìn)行數(shù)據(jù)預(yù)處理和模型訓(xùn)練時(shí)間加起來僅為49.68 s,模型訓(xùn)練時(shí)間減少90%。綜上所述,采用高質(zhì)量樣本所建立的模型不但提高了模型精度,還減少了模型學(xué)習(xí)時(shí)間。 圖7 預(yù)處理時(shí)間和訓(xùn)練時(shí)間的對比 提出了一種面向熱工過程海量運(yùn)行數(shù)據(jù)的高質(zhì)量樣本提取方法,該方法通過PCA法提取了參數(shù)主要特征的貢獻(xiàn)率,結(jié)合SWCNN法對原始樣本進(jìn)行約簡,降低了樣本規(guī)模。此外,該方法引入了SWSMOTE技術(shù)對少數(shù)類工況進(jìn)行過采樣,進(jìn)一步提升了訓(xùn)練樣本的均勻性。以燃?xì)廨啓C(jī)為對象進(jìn)行案列分析,分別采用原始數(shù)據(jù)和高質(zhì)量樣本建立AANN模型,結(jié)果表明:提出的高質(zhì)量樣本提取方法將燃?xì)廨啓C(jī)的原始數(shù)據(jù)數(shù)量壓縮到10%左右,模型平均均方根誤差從0.042下降至0.031,模型訓(xùn)練時(shí)間減少90%。在剔除了冗余信息的同時(shí),最大程度地保留了樣本穩(wěn)態(tài)信息,改善了樣本的不均勻?qū)傩运鶐淼木炔桓叩膯栴},具有廣闊的工程應(yīng)用前景。4 高質(zhì)量樣本提取流程

5 結(jié)果分析
5.1 燃?xì)廨啓C(jī)系統(tǒng)模型

5.2 高質(zhì)量樣本提取


5.3 模型訓(xùn)練與測試



6 結(jié)語