陳凱亮,陳堅紅,盛德仁,李 蔚
(浙江大學 熱工與動力系統研究所,浙江 杭州 310027)
現代大型火力發電機組的控制和優化決策依賴于測量數據的準確性,而在工程實際中,要做到參數的準確測量是不容易的,有一些參數(如燃氣輪機的壓氣機進氣流量等)是很難準確測量的;另一類參數(如汽輪機排汽濕度等)是無法直接測量的;而且很多測量傳感器是工作在高溫、高壓、易腐蝕的復雜環境下,受到電磁干擾,測量數據的準確與否難以保證。
針對以上問題,研究者們主要采用基于機理分析結合數據驅動建模的方法建立測量參數間的近似模型,用可測量準確的變量估計測不準和無法直接測量的變量,或進一步用這個模型檢測測量數據的有效性。
目前,基于數據驅動的軟測量建模方法主要包括主元分析法(Principal component analysis,PCA)、偏最小二乘方法(partial least square,PLS)和神經網絡方法(neural netword,NN)等,這些方法各有優點和局限,PCA和PLS利用信息壓縮技術將高維數據降維簡化數學模型,特別適用于處理相關性強的數據,但對非線性問題處理能力不強。徑向基神經網絡(radial basic functimneural netword,RBFNN)具有良好的非線性逼近能力,而且訓練過程中不易陷入局部極小的解域中,特別適用于非線性建模,但存在復雜網絡訓練時間長、不易收斂等問題。
近年來,針對以上方法存在的缺陷,學者們做了很多研究,并進行了不同程度的改進。如文獻[1-2]提出的遞歸偏最小二乘法(RPLS)適用于非線性建模和動態建模問題。文獻[3]提出的基于自聯想神經網絡(AANN)的自校正數據檢驗方法通過對神經網絡輸入數據的處理與選擇,提高了神經網絡方法在線應用的準確率。文獻[4]將最小二乘支持向量機與自適應遺傳算法相結合,提高了模型的精度和預測能力。
盡管通過各類方法的組合優化,基于數據驅動的軟測量建模方法已日趨成熟,但在實際應用的過程中仍存在不少問題。如王惠文[5]提出的基于樣條變換的PLS方法有效解決了PLS方法非線性擬合能力差的問題。但該方法在建模時,相關參變量的選取是經機理分析定性得出的,研究者未考察變量間依賴關系大小,而全部引入模型中,因此會導致模型因引入相關性不強的變量而相當復雜,擬合效果不佳。劉波平等[6]提出了將PLS與廣義神經網絡(GRNN)結合的方法,即利用PLS數據壓縮提取主成分,將主成分作為神經網絡的輸入,從而有效地簡化了神經網絡模型,提高了訓練速率和模型的可靠性。但這種方法實際上并未真正實現變量的篩選工作,主成分中仍然包含相關性不強的參變量的相關信息。王建星等[7]將GRNN與平均影響值(MIV)結合的方法用于機組主蒸汽流量的測定,通過評比待建模變量與參變量的相關程度,有效地篩選了變量,并得到了較準確的神經網絡模型。但由于GRNN神經網絡模型參數的數量隨著訓練樣本數的增加而爆炸式地增加,給存儲模型的數據庫的運行和維護帶來極大困難,尤其在發電機組系統中同時存在成百上千的測點需要軟測量或檢測測量數據的準確性,模型存儲和維護成本必然會影響該方法的實際應用。
針對以上方法存在的不足,本研究提出基于GRNN和B樣條PLSR的融合建模方法,下文簡稱NN-PLS方法。NN-PLS方法采用非線性擬合能力較好的GRNN預建模,計算機理分析初步選定的參變量對因變量的平均貢獻率,然后將篩選出的主要參變量采用B樣條PLS建模后得出最終簡化的非線性模型。這樣充分利用了GRNN優秀的非線性擬合能力完成了變量篩選,同時采用模型結構相對簡單但擬合能力同樣優秀的PLS完成最終建模,可有效規避保存GRNN模型海量參數給機組監控系統及數據庫的運行和維護帶來的麻煩。
本研究先介紹GRNN建模及篩選變量的原理及特性,再給出B樣條PLS的建模理論,然后說明所提出的NN_PLS建模方法的實現過程,最后通過算例驗證該方法的經濟性和有效性。
廣義神經網絡(GRNN)是一種基于非線性回歸理論的前饋式神經網絡模型。GRNN具有很強的非線性映射能力和柔性網絡結構以及高度的容錯性和魯棒性,適用于解決非線性問題。GRNN的拓撲結構如圖1所示,包括輸入層、模式層、求和層、輸出層。輸入層節點數量為自變量參數個數p,模式層節點數量為訓練樣本數n,求和層節點數量比因變量參數個數k多1個,即k+1個,輸出層節點數量為因變量參數個數k。

圖1 廣義回歸網絡結構圖
GRNN的優勢在于當訓練樣本數目很大時能夠快速學習并收斂到樣本積聚最多的最優回歸平面,并且可以處理不穩定的數據。然而由GRNN的拓撲結構可知,訓練好的GRNN中權值、閾值參數的個數隨著樣本數的增加而急劇增加,僅輸入層至模式層的個數就有p×n+n個,假若對于p=8,n=50的模型,僅前兩層參數個數就為450個,要在發電機組監控系統中保存并維護成百上千個這樣的模型,顯然極為困難。因此,采用GRNN方法建立的模型不適合用于在線的軟測量及數據驗證等應用。但鑒于GRNN神經網絡非線性擬合能力強、收斂快的優勢,可以采用GRNN預建模,考察由機理分析初步選定的自變量參數對因變量參數的影響值,從而篩選出主要的建模參數,使后續建立的模型得到簡化。
預建模時,本研究將機理分析得出的輸入輸出樣本輸入到GRNN中,采用循環訓練[8]的方法確定合理的網絡分布密度使GRNN收斂,并達到最佳的預測效果。
網絡訓練終止后,本研究將訓練樣本P中每一個參變量特征在其原值的基礎上分別±10%構成新的兩個訓練樣本P1和P2,將P1和P2分別作為仿真樣本利用已建成的網絡進行仿真,得到兩個仿真結果A1和A2,求出A1和A2的差值,即為變動該變量后對輸出產生的影響變化值(IV),最后將IV按樣本數平均得出該參變量對于因變量的MIV。最后本研究根據MIV[9]絕對值的大小為各參變量排序,得到各參變量對網絡輸出影響的相對重要性位次表,從而判斷出輸入特征對網絡結果的影響程度,即實現了變量篩選。
偏最小二乘回歸(PLSR)是一種將主成分分析、典型相關分析以及多元線性回歸相結合的回歸建模方法。該方法能夠同時提取輸入變量和輸出變量數據中數據的變化信息,選擇對數據累積方差最大的主元數目,使得輸入變量和輸出變量間的相關程度達到最大[10]。 PLS在參變量存在嚴重多重相關性及樣本個數較少的線性系統建模過程中優勢明顯。
而發電機組系統存在非線性關系,采用線性PLS建模無法取得令人滿意的結果,本研究選用擬線性的方法來解決非線性問題。樣條變換采用了分段擬合的思想,可以按需要裁剪以適應任意曲線的連續變化,擬合曲線對原始數據的特異點并不敏感,這使得模型在排除原始數據噪聲方面效果較好。
基于樣條變換的偏最小二乘回歸建模就是將自變量與因變量之間的未知非線性關系按照各維自變量對因變量的擬線性關系相加展開,再進行偏最小二乘回歸求參,從而得到自變量對因變量的整體函數解析式。
設待建模型有p個自變量{x1,x2,…,xp}和一個因變量y,選取n個樣本點構成自變量與因變量原始數據表X=[x1,x2,… ,xp]n×p和Y=[y]n×1。自變量和因變量的非線性關系式可表示為:

式中:β0—常數項,fj(xj)—自變量xj對因變量y的非線性關系,ε—隨機誤差項。



式中:Mj—第j個變量的樣條變換分段數;β0,βj,l—模型的待定參數。
由式(2,3),可得到自變量和因變量的非線性關系式為:

在式(4)中,y與zj,l=Ω3((xj-ξj,l-1)/hj)呈線性關系,可以采用偏最小二乘方法求解模型。
相對于GRNN神經網絡模型,B樣條PLS模型的參數較少,與樣本數n無關,對于p=8,n=150的訓練樣本,參數個數僅為80個,且不隨n增加而增加。因而相對于GRNN模型更易保存在數據庫中,適用于各種在線應用。
但由于發電機組運行參數之間關系的復雜性,研究者通過機理分析很難確定模型的參變量與待建模變量相關性強弱的定量關系,很難在模型的完備性、性能和模型的復雜性、計算量等代價之間作取舍。為了得到完備的模型,由機理分析初步選定的參變量常常含有相關性不強的冗余變量,如果不在B樣條PLS建模前進行變量篩選,那么最終得到的模型將因含有這部分信息而更加復雜,且擬合性能下降。因而研究者為了得到完備、精確、簡化的模型,有必要在B樣條PLS建模前,對由機理分析初步選定的參變量進行篩選。
對于發電機組等復雜非線性系統,本研究所要建立的軟測量模型應適應各個典型工況(不同負荷、春、夏、秋、冬等),因而必須使用大數量的樣本訓練,模型性能才能符合實際。而GRNN神經網絡訓練樣本數不宜過多,否則需要保存在數據庫中的參數將隨著樣本數的增加而爆炸式的增長。當訓練樣本數較少時,雖然對部分數據仍能取得較好的擬合效果,但由于神經網絡的泛化能力較弱,對于與訓練樣本相差較大的數據預測效果較差。所以GRNN不適宜用來建立最終在線應用的模型。但GRNN的優點在于非線性擬合能力強,利用Matlab軟件可以方便地用于對樣本數據建模并考察建模參變量的影響值,實現變量篩選。而B樣條PLS方法采用擬線性的方法解決非線性的問題,雖然最終得到的模型泛化能力較好,且結構簡單,參數少,但由于建模過程較為復雜,該方法無法在建模的同時實現變量篩選,常常因引入很多相關性不強的變量使模型精度下降。
結合兩者的優勢,本研究提出了NN-PLS建模方法,建模流程圖如圖2所示。

圖2 建模流程圖
在對變量Y建模時,首先,本研究采用機理分析方法定性地得到對測量數據Y建模需要的全部相關參變量X1~XP,然后選取合適的樣本數據建立GRNN模型,應用該GRNN模型考察模型中每個參變量對因變量Y的MIV值以篩選出主要變量X'1~X'm,將篩選出的變量重新構成樣本空間,進行三次B樣條變換,從而將自變量空間X'非線性映射到PLS自變量空間Z中,然后進行PLS建模求取Y對Z的回歸方程,并可以還原得到Y對X'的回歸方程,該模型即為最終的簡化模型。NN-PLS不但利用了采用大量樣本訓練時GRNN預建模在復雜非線性問題中能夠迅速收斂,且進一步與MIV方法結合,可以方便地定量篩選出建模所需要的主要參變量的優勢,彌補了“PLS建模過程復雜,常因無法對機理分析初步選定的變量定量篩選而導致模型中引入部分相關性不強的變量從而使模型性能下降”的劣勢,而且研究者采用結構簡單、參數少且泛化能力較好的B樣條變換擬線性PLS方法將篩選變量建模,得到了精度、泛化能力、結構都十分理想的模型,有效解決了“GRNN建模因大量樣本訓練而導致參數過多,從而不易用在需要保存模型的各種在線應用中”的問題。
本研究顯示Lp-PLA2及hsCRP的濃度變化有助于客觀有效的判定頸動脈粥樣硬化的治療效果。但樣本量少,仍需更多大樣本的研究。
雖然本研究闡述的建模方法以測量測不準變量、無法直接測量變量和驗證數據有效性為目的,但為了驗證該方法的有效性,現筆者選取測量較為準確的功率測點加以驗證,以某聯合循環電廠4#機組(400 MW)燃機有功功率數據建模為例,根據聯合循環電廠系統結構的熱力分析,同時考慮到燃機有功功率與相關熱力參數之間的關系,初步選取大氣溫度、大氣壓力、燃機擴散控制閥閥位、燃機預混控制閥閥位、燃機值班控制閥閥位、燃機IGV開度、壓氣機進口壓差、壓氣機出口壓力、壓氣機進口溫度、燃機值班氣流量、燃機排氣溫度1B、燃機排氣溫度5B、燃機排氣溫度9B、燃機排氣溫度13B、燃機排氣溫度17B、燃機排氣溫度21B共16個參數作為模型的輸入變量。
訓練樣本的選取是影響模型性能的重要因素,樣本數不宜過少,否則無法滿足訓練要求;而樣本數過多又會導致過擬合,影響模型的泛化能力。同時更重要的是選取的樣本要分布均勻,是各工況下的典型數據,以使所建模型泛化性能較好。本研究選取的訓練樣本覆蓋了春、夏、秋、冬,溫度從-5℃~35℃,大氣壓力從99 kPa~104 kPa,功率負荷段從30%~100%之間的共150組典型運行工況數據。
在構建神經網絡之前,為了避免由于輸入變量物理意義及單位不同而對神經網絡模型及相應MIV值的影響,本研究首先對各變量進行歸一化處理,即:

式中:x?(i,j)—第j個變量的第i個樣本值;(j),(j)—第j個變量的最大、最小值;x(i,j)—變量特征歸一化序列。
本研究在Matlab R2009b下編制神經網絡訓練程序,實現基于MIV的變量篩選,最終得到各輸入變量的平均影響值。
16個變量的平均影響值(MIV)絕對值分布如圖3所示,對其排序后,選取占MIV絕對值總和前85%的變量作為模型輸入變量,其MIV(絕對值)大小分別為0.02、0.017 4、0.017 3、0.006 8、0.006 4、0.006 2、0.005 2、0.005 1。分別代表:壓氣機出口壓力、燃機排氣溫度13B、燃機排氣溫度5B、燃機值班氣流量、大氣溫度、燃機排氣溫度9B、燃機IGV開度、壓氣機進口溫度,這8個變量平均影響值占總體影響值87.03%。

圖3 各變量平均影響值圖
本研究篩選出的8組自變量和因變量燃機有功功率的原始數據共同構成了樣條變換偏最小二乘回歸建模的原始樣本數據。

在對標準化的PLS自變量空間Z~和因變量Y~建模時,根據交叉有效性原則,本研究提取了6個主成分,最終得到的模型中因變量Y對PLS自變量空間Z的回歸系數。
PLS模型各變量回歸系數圖如圖4所示。

圖4 PLS模型各變量回歸系數圖
模型的適用性需要考察模型預測值和因變量實際樣本值之間的預測誤差,為了考察該模型的適用性,本研究另外選取對應9組建模變量的50組典型數據作為測試樣本,并對其進行樣條變換,然后用已建好的PLS模型對其進行預測,預測結果如圖5所示。

圖5 各樣本點樣本值和預測值擬合關系圖
從圖5中可以看出,在不同的負荷段模型預測值與樣本值均基本重合,預測效果十分理想。
此外,為了比較NN-PLS與GRNN建模的預測效果,本研究使用前述150組數據作為訓練樣本,分別采用兩種方法對經篩選變量后的9組變量建模,并另外選取5組測試樣本分別比較兩者的預測性能及精度,結果如表1所示。
從表1中可以看出,在不同負荷工況下,NN-PLS的預測相對誤差均低于1%,與GRNN的預測精度相近,某些點甚至更好。同時,由于測試樣本選取的是未經訓練過的不同負荷段上的樣本,經模型預測,效果均十分理想,證明NN-PLS模型能同時滿足精度和泛化能力的要求。

表1 模型擬合結果對比表
雖然采用大量樣本訓練的GRNN在變工況下同樣能取得較好的預測效果,但筆者注意到此時的模型參數僅GRNN輸入層至模式層的權值參數已經多達150×8=1 200個,這樣復雜的模型對于難測參數軟測量及校驗實時測量數據準確性等在線應用是不可取的。而相比GRNN神經網絡而言,NN-PLS在保證了模型性能和精度的同時,需要保存的模型參數僅為回歸系數56個,B樣條變換的參數24個,總計不足百個,大大簡化了模型,對于在線應用優勢明顯。
本研究提出了融合GRNN與B樣條PLS優勢的NN-PLS數據驅動軟測量建模方法,用以解決發電機組等復雜系統中難測準數據的軟測量或已測量數據的有效性驗證的問題。GRNN預建模考察機理分析初步選定的參變量對因變量的影響值,篩選出主要建模變量。B樣條PLS對篩選出的變量建模得出的最終模型不但結構簡單、參數少,而且預測精度和泛化能力都較好。
本研究采用某聯合循環電站的校準后的實測數據驗證該建模方法,研究結果表明NN-PLS方法建立的模型能很好地擬合出不同工況下的測量值,其精度與得到充分訓練的GRNN神經網絡模型相當,且由于NN-PLS模型本身結構簡單、參數較少,更加適合用于發電機組系統中難測參數的軟測量及已測量數據準確性的實時校驗等在線應用中。
(
):
[1]LI C,YE H,WANG G.A recursive nonlinear PLS algorithm for adaptive nonlinear process modeling[J].Chemical Engineering and Technology,2005,28(2):141-152.
[2]蘇金明,李春富,孫如田,等.遞推PLS方法及其在過程監控中的應用[J].機電工程,2010,27(3):93-95,99.
[3]司風琪,徐治皋.基于自聯想神經網絡的測量數據自校正檢驗方法[J].中國電機工程學報,2002,22(6):152-155.
[4]尚萬峰,趙升噸,申亞京.遺傳優化的偏最小二乘支持向量機在開關磁阻電機建模中的應用[J].中國電機工程學報,2009,29(12):65-69.
[5]王惠文,黃海軍,蘇建寧.基于樣條變換的PLS回歸的非線性結構分析[J].系統科學與數學,2008,28(2):243-250.
[6]劉波平,秦華俊,羅 香,等.PLS-GRNN法近紅外光譜多組分定量分析研究[J].光譜學與光譜分析,2007,27(11):2216-2220.
[7]王建星,付忠廣,靳 濤,等.基于廣義回歸神經網絡的機組主蒸汽流量測定[J].動力工程學報,2012,2(2):130-134.
[8]傅薈璇,趙 紅.Matlab神經網絡應用設計[M].北京:機械工業出版社,2010.
[9]GEORGE D,PARTHA N,JONATHAN S,et al.Prediction of rib fracture injury outcome by an artificial neural network[J].Journal of Trauma-Injury Infection&Critical Care,1995,39(5):915-921.
[10]BASTIEN P,VINZI V E,TENENHAUS M.PLS generalized linear regression[J].Computational Statistics&Data Analysis,2005,48(1):17-46.