基于梯度提升決策樹的氣體傳感陣列識別方法

2022-09-28 14:50:16張志業(yè)葛志強趙小娟林永江

電子設(shè)計工程 2022年18期

關(guān)鍵詞：方法

張志業(yè)，葛志強，趙小娟，林永江

（國能（泉州）熱電有限公司，福建泉州 362804）

氣體傳感器具有交叉敏感性，容易受溫度、濕度、環(huán)境條件等因素影響，且穩(wěn)定性和選擇性較差，僅限于精度較低、分辨率低、氣體組分簡單的應(yīng)用中[1]。在復(fù)雜氣體或氣味的定性和定量檢測中應(yīng)用較少。受氣體傳感陣列識別環(huán)境影響，僅使用單種傳感器無法對某種氣體進行精準識別[2]。為此，采用多種傳感器進行氣體傳感陣列的識別成為重要方式。通過氣體識別技術(shù)能夠?qū)崿F(xiàn)氣體成分檢測，這是當前氣體識別技術(shù)改進的主要方向[3]。目前，使用主元統(tǒng)計方法識別氣體傳感陣列，能夠在最小均方計算模式下分析氣體數(shù)據(jù)，雖然該方法能夠自動分離不同氣體，但該方法受氣體主成分影響，缺乏自主學習能力，無法完成數(shù)據(jù)預(yù)處理，導(dǎo)致氣體識別結(jié)果不精準；使用基于人工神經(jīng)網(wǎng)絡(luò)理論識別時，利用MATLAB 軟件對所采集的氣體實驗數(shù)據(jù)進行識別與分析。該方法雖然識別速度較快，但缺少對冗余數(shù)據(jù)處理步驟，導(dǎo)致氣體識別結(jié)果不精準。

為此，該文提出基于梯度提升決策樹的氣體傳感陣列識別方法。

1 氣體傳感陣列識別方法設(shè)計

1.1 混合氣體組成成分分析

利用某公司生產(chǎn)的RCS2000-A 型號氣體分配系統(tǒng)，獲取需要識別的混合氣體[4]。該設(shè)備采用世界上最先進的氣體配氣技術(shù)，可輸出高質(zhì)量、高精度的混合標準氣體，并由計算機自動分配[5]。多組分混合氣體從配氣方案制定到實施，通過計算機監(jiān)控，實現(xiàn)了多組分混合氣體的自動分配過程，該方法自動化程度高，能夠分類處理多種氣體數(shù)據(jù)，具有穩(wěn)定性較強的優(yōu)勢[6-8]。

通過配置多組混合氣體，將高純度N2作為研究對象，配制多組分混合氣時，原料氣G1～G6為高純度稀釋氣體，原料氣濃度為s1～s6。配制不同濃度混合氣體時，稀釋比為：

在式（1）所示的組分氣體稀釋比下，對比分析原料氣G1～G6的流量fG1～fG6和高純度N2稀釋后流量fN2的比值，計算結(jié)果為：

依據(jù)式（2）計算結(jié)果可知，氣體流量控制器采用流量比控制各組分原料氣、稀化氣流量，可準確、動態(tài)地分析多種組分混合氣[9]。

1.2 樣本數(shù)據(jù)歸一化處理

以變壓器油為例，通過對氣體傳感陣列數(shù)據(jù)的分析，確定變壓器工作狀態(tài)[10]。變壓器工作產(chǎn)生CO 時，說明該設(shè)備工作不靈敏，但仍能繼續(xù)工作；當出現(xiàn)H2時，說明該設(shè)備工作時產(chǎn)生的摩擦熱較高，此時氣體濃度高于150 ppm，需要考慮變壓器是否被燒壞；當出現(xiàn)C2H2時，應(yīng)嚴格檢查變壓器能否正常工作，一旦濃度超過5 ppm時，應(yīng)考慮該設(shè)備是否已經(jīng)損壞[11-12]。

利用SVM 直接分析傳感器陣列測得的變壓器油色譜數(shù)據(jù)中氣體濃度，可直接獲得潛在有價值的微小量信息[13]。因此，對氣體傳感陣列數(shù)據(jù)進行歸一化處理，采取這種處理方法是為了盡可能完整地保留數(shù)據(jù)信息，使數(shù)據(jù)差異降到最低[14]。

經(jīng)過歸納分析，發(fā)現(xiàn)氣體樣本的標準化范圍介于[0,1]和[-1,1]之間，[0,1]之間的數(shù)據(jù)按統(tǒng)計概率依次分布，[-1,1]之間的數(shù)據(jù)按坐標分布依次分布[15]。模型建立與計算的基本度量單位相同，該文使用梯度提升決策樹，通過訓練步驟和預(yù)測步驟，獲取統(tǒng)計樣本坐標。根據(jù)scale 函數(shù)對傳感陣列識別數(shù)據(jù)進行歸一化處理，其公式為：

式（3）中，yi表示歸一化數(shù)據(jù)，ci表示傳感陣列數(shù)據(jù)，cmax、cmin分別表示傳感陣列數(shù)據(jù)最大值與最小值。

經(jīng)過scale 函數(shù)對識別數(shù)據(jù)進行歸一化處理后，獲取存儲氣體傳感陣列數(shù)據(jù)，并將陣列進行數(shù)字編號[16]。

在獲取的數(shù)據(jù)集中，經(jīng)歸一化的氣體數(shù)據(jù)均在[-1,1]的范圍內(nèi)，有效地減小了不同數(shù)據(jù)間的差異，從而提高歸一化模型的收斂性。在使用測試樣本檢驗現(xiàn)有模型時，數(shù)據(jù)的標準化是為了保證數(shù)據(jù)的一致性。

1.3 基于梯度提升決策樹的識別方案設(shè)計

將梯度提升決策樹識別方式看成是數(shù)據(jù)處理、分類與回歸的過程，梯度提升決策樹是由若干決策樹組成，采用加法模型和正態(tài)分布算法對模型進行修正，并逐步逼近最佳解，可以有效地降低各因素間的冗余，對離群點具有較好的魯棒性[17-19]。該方法能夠消除異常點，彌補傳感器脆弱性引起的信號異常缺陷，提高氣體最終識別的準確性。

假設(shè)氣體傳感陣列P中包含R個傳感陣列，每個傳感陣列中有xj個識別項目，其中，xi為第i個傳感陣列的識別項目。輸入向量可表示為：

式（4）、（5）中，X表示輸入向量；wij表示第i個傳感陣列的第j個識別項目權(quán)重，其計算公式為：

式（6）中，ej表示第j個識別項目的輸出熵。

采用梯度提升決策樹融合多個決策樹模型，通過比較迭代損失函數(shù)梯度，構(gòu)建高精度識別模型。其中，損失函數(shù)表達式為：

式（7）中，pk表示預(yù)測概率；F(X)表示比較迭代損失函數(shù)的梯度。

此時，第t輪第i個樣本對應(yīng)種類的負梯度誤差，計算公式為：

累加梯度提升決策樹，對負梯度誤差進行修復(fù)，并逐步趨近最優(yōu)解。

基于此，結(jié)合SVM-predict 識別程序識別出六組氣體，如表1 所示。

表1 氣體傳感陣列識別結(jié)果

2 實例分析

為了檢驗基于梯度提升決策樹的氣體傳感陣列識別方法的合理性，選擇七組實驗樣本進行測試。這七組實驗樣本分別模擬變壓器工作時出現(xiàn)故障時不同組分氣體含量，如上述表1 所示。

2.1 氣體監(jiān)測實驗裝置

利用六種不同材料的碳納米管氣敏傳感器，將H2、CO、CH4、C2H4、C2H2和C2H6進行分類處理。實驗傳感裝置使用碳納米金叉指電極結(jié)構(gòu)，以此識別氣體傳感陣列。實驗測試裝置結(jié)構(gòu)如圖1 所示。

圖1 氣體監(jiān)測實驗裝置

由圖1 可知，通過電化學分析儀在恒溫情況下分析流入氣體。

2.2 結(jié)果與分析

為了驗證該方法比主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識別方法更優(yōu)，分別采用三種方法進行氣體識別，其經(jīng)過傳感陣列后獲取氣體濃度值，分別采用主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法和基于梯度提升決策樹的方法進行識別，將識別結(jié)果與實際值比較分析，表1 數(shù)據(jù)為實際值，識別結(jié)果如圖2 所示。

圖2 三種方法識別結(jié)果對比分析

由圖2（a）可知，使用基于主元統(tǒng)計方法在第7 次測試時，與實際值相差最大，最大誤差約為150 μL/L；使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第6 次測試時，與實際值相差最大，最大誤差約為125 μL/L；使用基于梯度提升決策樹的方法在7 次測試情況下，均與實際值一致，誤差為0。

由圖2（b）可知，使用基于主元統(tǒng)計方法在第6次測試時，與實際值相差最大，最大誤差約為40 μL/L；使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第4 次測試時，與實際值相差最大，最大誤差約為110 μL/L；使用基于梯度提升決策樹的方法在7 次測試情況下，均與實際值一致，誤差為0。

由圖2（c）可知，使用基于主元統(tǒng)計方法在第6 次測試時，與實際值相差最大，最大誤差約為45 μL/L；使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第4 次測試時，與實際值相差最大，最大誤差約為32.9 μL/L；使用基于梯度提升決策樹的方法在第5 次測試時，最大誤差為0.7 μL/L。

由圖2（d）可知，使用基于主元統(tǒng)計方法和基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法均在第7 次測試時，與實際值相差最大，最大誤差分別為90、120 μL/L；使用基于梯度提升決策樹的方法在第3 次測試時，最大誤差為0.05 μL/L。

由圖2（e）可知，使用基于主元統(tǒng)計方法在第7 次測試時，與實際值相差最大，最大誤差為10.2 μL/L；使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第3 次測試時，與實際值相差最大，最大誤差為25 μL/L；使用基于梯度提升決策樹的方法在7 次測試情況下，均與實際值一致，誤差為0。

由圖2（f）可知，使用基于主元統(tǒng)計方法在第3 次測試時，與實際值相差最大，最大誤差為38.5 μL/L；使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第5 次測試時，與實際值相差最大，最大誤差為33.1 μL/L；使用基于梯度提升決策樹的方法在7 次測試情況下，均與實際值一致，誤差為0。

通過上述分析可以看出，采用該文所提的基于梯度提升決策樹的氣體傳感陣列識別方法，對實驗中樣本數(shù)據(jù)進行識別，得到的結(jié)果均優(yōu)于主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識別方法，充分驗證了所提方法的有效性，說明該文方法在實際應(yīng)用中具有一定優(yōu)勢。

3 結(jié)束語

由于氣體傳感陣列中存在敏感數(shù)據(jù)，使用主元統(tǒng)計方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識別方法識別的結(jié)果存在較大誤差。因此，提出基于梯度提升決策樹的氣體傳感陣列識別方法。該方法主要以梯度提升決策樹作為主體算法，借助scale 函數(shù)構(gòu)造歸一化模型，標準化預(yù)處理敏感數(shù)據(jù)，縮小敏感數(shù)據(jù)與其他數(shù)據(jù)的差異，并通過決策樹構(gòu)建最終的識別模型，提升識別的精度。實驗中以變壓器油中溶解氣體為例，對氣體傳感陣列進行深入識別。實例結(jié)果表明，該方法精度高，穩(wěn)定性好。

雖然該文方法在現(xiàn)階段具有一定可行性，但仍存在一些有待進一步研究的問題：不同方向氣敏傳感陣列對氣體的響應(yīng)存在一定不同，只選取氣敏元件陣列對氣體濃度的響應(yīng)作為特征量。在下一步工作中可深入研究不同布置方式對氣體濃度的影響。