張志業(yè),葛志強,趙小娟,林永江
(國能(泉州)熱電有限公司,福建泉州 362804)
氣體傳感器具有交叉敏感性,容易受溫度、濕度、環(huán)境條件等因素影響,且穩(wěn)定性和選擇性較差,僅限于精度較低、分辨率低、氣體組分簡單的應(yīng)用中[1]。在復(fù)雜氣體或氣味的定性和定量檢測中應(yīng)用較少。受氣體傳感陣列識別環(huán)境影響,僅使用單種傳感器無法對某種氣體進行精準識別[2]。為此,采用多種傳感器進行氣體傳感陣列的識別成為重要方式。通過氣體識別技術(shù)能夠?qū)崿F(xiàn)氣體成分檢測,這是當前氣體識別技術(shù)改進的主要方向[3]。目前,使用主元統(tǒng)計方法識別氣體傳感陣列,能夠在最小均方計算模式下分析氣體數(shù)據(jù),雖然該方法能夠自動分離不同氣體,但該方法受氣體主成分影響,缺乏自主學習能力,無法完成數(shù)據(jù)預(yù)處理,導(dǎo)致氣體識別結(jié)果不精準;使用基于人工神經(jīng)網(wǎng)絡(luò)理論識別時,利用MATLAB 軟件對所采集的氣體實驗數(shù)據(jù)進行識別與分析。該方法雖然識別速度較快,但缺少對冗余數(shù)據(jù)處理步驟,導(dǎo)致氣體識別結(jié)果不精準。
為此,該文提出基于梯度提升決策樹的氣體傳感陣列識別方法。
利用某公司生產(chǎn)的RCS2000-A 型號氣體分配系統(tǒng),獲取需要識別的混合氣體[4]。該設(shè)備采用世界上最先進的氣體配氣技術(shù),可輸出高質(zhì)量、高精度的混合標準氣體,并由計算機自動分配[5]。多組分混合氣體從配氣方案制定到實施,通過計算機監(jiān)控,實現(xiàn)了多組分混合氣體的自動分配過程,該方法自動化程度高,能夠分類處理多種氣體數(shù)據(jù),具有穩(wěn)定性較強的優(yōu)勢[6-8]。
通過配置多組混合氣體,將高純度N2作為研究對象,配制多組分混合氣時,原料氣G1~G6為高純度稀釋氣體,原料氣濃度為s1~s6。配制不同濃度混合氣體時,稀釋比為:

在式(1)所示的組分氣體稀釋比下,對比分析原料氣G1~G6的流量fG1~fG6和高純度N2稀釋后流量fN2的比值,計算結(jié)果為:

依據(jù)式(2)計算結(jié)果可知,氣體流量控制器采用流量比控制各組分原料氣、稀化氣流量,可準確、動態(tài)地分析多種組分混合氣[9]。
以變壓器油為例,通過對氣體傳感陣列數(shù)據(jù)的分析,確定變壓器工作狀態(tài)[10]。變壓器工作產(chǎn)生CO 時,說明該設(shè)備工作不靈敏,但仍能繼續(xù)工作;當出現(xiàn)H2時,說明該設(shè)備工作時產(chǎn)生的摩擦熱較高,此時氣體濃度高于150 ppm,需要考慮變壓器是否被燒壞;當出現(xiàn)C2H2時,應(yīng)嚴格檢查變壓器能否正常工作,一旦濃度超過5 ppm時,應(yīng)考慮該設(shè)備是否已經(jīng)損壞[11-12]。
利用SVM 直接分析傳感器陣列測得的變壓器油色譜數(shù)據(jù)中氣體濃度,可直接獲得潛在有價值的微小量信息[13]。因此,對氣體傳感陣列數(shù)據(jù)進行歸一化處理,采取這種處理方法是為了盡可能完整地保留數(shù)據(jù)信息,使數(shù)據(jù)差異降到最低[14]。
經(jīng)過歸納分析,發(fā)現(xiàn)氣體樣本的標準化范圍介于[0,1]和[-1,1]之間,[0,1]之間的數(shù)據(jù)按統(tǒng)計概率依次分布,[-1,1]之間的數(shù)據(jù)按坐標分布依次分布[15]。模型建立與計算的基本度量單位相同,該文使用梯度提升決策樹,通過訓練步驟和預(yù)測步驟,獲取統(tǒng)計樣本坐標。根據(jù)scale 函數(shù)對傳感陣列識別數(shù)據(jù)進行歸一化處理,其公式為:

式(3)中,yi表示歸一化數(shù)據(jù),ci表示傳感陣列數(shù)據(jù),cmax、cmin分別表示傳感陣列數(shù)據(jù)最大值與最小值。
經(jīng)過scale 函數(shù)對識別數(shù)據(jù)進行歸一化處理后,獲取存儲氣體傳感陣列數(shù)據(jù),并將陣列進行數(shù)字編號[16]。
在獲取的數(shù)據(jù)集中,經(jīng)歸一化的氣體數(shù)據(jù)均在[-1,1]的范圍內(nèi),有效地減小了不同數(shù)據(jù)間的差異,從而提高歸一化模型的收斂性。在使用測試樣本檢驗現(xiàn)有模型時,數(shù)據(jù)的標準化是為了保證數(shù)據(jù)的一致性。
將梯度提升決策樹識別方式看成是數(shù)據(jù)處理、分類與回歸的過程,梯度提升決策樹是由若干決策樹組成,采用加法模型和正態(tài)分布算法對模型進行修正,并逐步逼近最佳解,可以有效地降低各因素間的冗余,對離群點具有較好的魯棒性[17-19]。該方法能夠消除異常點,彌補傳感器脆弱性引起的信號異常缺陷,提高氣體最終識別的準確性。
假設(shè)氣體傳感陣列P中包含R個傳感陣列,每個傳感陣列中有xj個識別項目,其中,xi為第i個傳感陣列的識別項目。輸入向量可表示為:

式(4)、(5)中,X表示輸入向量;wij表示第i個傳感陣列的第j個識別項目權(quán)重,其計算公式為:

式(6)中,ej表示第j個識別項目的輸出熵。
采用梯度提升決策樹融合多個決策樹模型,通過比較迭代損失函數(shù)梯度,構(gòu)建高精度識別模型。其中,損失函數(shù)表達式為:

式(7)中,pk表示預(yù)測概率;F(X)表示比較迭代損失函數(shù)的梯度。
此時,第t輪第i個樣本對應(yīng)種類的負梯度誤差,計算公式為:

累加梯度提升決策樹,對負梯度誤差進行修復(fù),并逐步趨近最優(yōu)解。
基于此,結(jié)合SVM-predict 識別程序識別出六組氣體,如表1 所示。

表1 氣體傳感陣列識別結(jié)果
為了檢驗基于梯度提升決策樹的氣體傳感陣列識別方法的合理性,選擇七組實驗樣本進行測試。這七組實驗樣本分別模擬變壓器工作時出現(xiàn)故障時不同組分氣體含量,如上述表1 所示。
利用六種不同材料的碳納米管氣敏傳感器,將H2、CO、CH4、C2H4、C2H2和C2H6進行分類處理。實驗傳感裝置使用碳納米金叉指電極結(jié)構(gòu),以此識別氣體傳感陣列。實驗測試裝置結(jié)構(gòu)如圖1 所示。

圖1 氣體監(jiān)測實驗裝置
由圖1 可知,通過電化學分析儀在恒溫情況下分析流入氣體。
為了驗證該方法比主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識別方法更優(yōu),分別采用三種方法進行氣體識別,其經(jīng)過傳感陣列后獲取氣體濃度值,分別采用主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法和基于梯度提升決策樹的方法進行識別,將識別結(jié)果與實際值比較分析,表1 數(shù)據(jù)為實際值,識別結(jié)果如圖2 所示。

圖2 三種方法識別結(jié)果對比分析
由圖2(a)可知,使用基于主元統(tǒng)計方法在第7 次測試時,與實際值相差最大,最大誤差約為150 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第6 次測試時,與實際值相差最大,最大誤差約為125 μL/L;使用基于梯度提升決策樹的方法在7 次測試情況下,均與實際值一致,誤差為0。
由圖2(b)可知,使用基于主元統(tǒng)計方法在第6次測試時,與實際值相差最大,最大誤差約為40 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第4 次測試時,與實際值相差最大,最大誤差約為110 μL/L;使用基于梯度提升決策樹的方法在7 次測試情況下,均與實際值一致,誤差為0。
由圖2(c)可知,使用基于主元統(tǒng)計方法在第6 次測試時,與實際值相差最大,最大誤差約為45 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第4 次測試時,與實際值相差最大,最大誤差約為32.9 μL/L;使用基于梯度提升決策樹的方法在第5 次測試時,最大誤差為0.7 μL/L。
由圖2(d)可知,使用基于主元統(tǒng)計方法和基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法均在第7 次測試時,與實際值相差最大,最大誤差分別為90、120 μL/L;使用基于梯度提升決策樹的方法在第3 次測試時,最大誤差為0.05 μL/L。
由圖2(e)可知,使用基于主元統(tǒng)計方法在第7 次測試時,與實際值相差最大,最大誤差為10.2 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第3 次測試時,與實際值相差最大,最大誤差為25 μL/L;使用基于梯度提升決策樹的方法在7 次測試情況下,均與實際值一致,誤差為0。
由圖2(f)可知,使用基于主元統(tǒng)計方法在第3 次測試時,與實際值相差最大,最大誤差為38.5 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第5 次測試時,與實際值相差最大,最大誤差為33.1 μL/L;使用基于梯度提升決策樹的方法在7 次測試情況下,均與實際值一致,誤差為0。
通過上述分析可以看出,采用該文所提的基于梯度提升決策樹的氣體傳感陣列識別方法,對實驗中樣本數(shù)據(jù)進行識別,得到的結(jié)果均優(yōu)于主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識別方法,充分驗證了所提方法的有效性,說明該文方法在實際應(yīng)用中具有一定優(yōu)勢。
由于氣體傳感陣列中存在敏感數(shù)據(jù),使用主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識別方法識別的結(jié)果存在較大誤差。因此,提出基于梯度提升決策樹的氣體傳感陣列識別方法。該方法主要以梯度提升決策樹作為主體算法,借助scale 函數(shù)構(gòu)造歸一化模型,標準化預(yù)處理敏感數(shù)據(jù),縮小敏感數(shù)據(jù)與其他數(shù)據(jù)的差異,并通過決策樹構(gòu)建最終的識別模型,提升識別的精度。實驗中以變壓器油中溶解氣體為例,對氣體傳感陣列進行深入識別。實例結(jié)果表明,該方法精度高,穩(wěn)定性好。
雖然該文方法在現(xiàn)階段具有一定可行性,但仍存在一些有待進一步研究的問題:不同方向氣敏傳感陣列對氣體的響應(yīng)存在一定不同,只選取氣敏元件陣列對氣體濃度的響應(yīng)作為特征量。在下一步工作中可深入研究不同布置方式對氣體濃度的影響。