(北京科技大學 a.自動化學院;b.新材料技術研究院,北京 100083)
基于ANFIS改進的大氣腐蝕環境缺失數據填補方法
石雅楠a,付冬梅a,支元杰a,陳閩東b
(北京科技大學 a.自動化學院;b.新材料技術研究院,北京 100083)
目的針對大氣腐蝕中重要環境數據缺失的復雜問題,提出一種相關因素(Relevance Factors)和自適應神經模糊推理系統(Adaptive Neuro-Fuzzy Inference System)結合的方法(RF-ANFIS)對缺失數據進行填補。方法首先采用相關因素方法計算缺失數據和多項環境因素間的相關程度,篩選出相關系數較大的因子,然后應用ANFIS構建缺失數據與所選環境因子的關系模型。最后以二氧化硫數據為具體對象,采用北京2015年的氣象數據對所建立的模型進行檢驗。結果經過改進的RF-ANFIS模型在最優情況下樣本均方誤差為0.696,在14個測試樣本中有13個相對誤差在20%以內,針對有限樣本的數據分析中更為適用。結論該方法有效提高了大氣腐蝕環境數據缺失的填補精度,對在數據缺失情況下預測大氣腐蝕速率具有重要意義。
大氣腐蝕;缺失數據;相關因素;ANFIS
大氣腐蝕中缺失數據的填補是建模與應用中重要且具有一定難度的研究課題。根據 ISO 9223—2012標準,金屬大氣的腐蝕速率與環境中的二氧化硫濃度、氯化物濃度、溫度以及濕度四個因子息息相關,但這些腐蝕因子由于人為疏忽、信息獲取的滯后性等客觀因素常有缺失,因此探索合適的精確度高的填補方法是實際工程亟待解決的難題。
目前腐蝕數據的處理方法主要集中在灰色模型[1—4]和 BP網絡[5—7]。灰色系統中較常用的GM(1,1)模型僅適用于單變量對輸出變量的預測,如利用一維時間序列建模,這種方法可獲取信息少,無法考慮多維環境因素對腐蝕因子的影響。BP網絡雖然可用于多維數據,但其需要大量的樣本和長時間的訓練才能得到較為準確的結果,且容易產生局部最優和過擬合,在腐蝕數據樣本量有限時預測效果往往不理想。近年來專家將模糊神經網絡逐漸應用于腐蝕數據的分析[8—11],模糊神經網絡有效融合了模糊推理系統和神經網絡的優點,在一定程度上克服了由于原始數據樣本量過小而影響預測效果的問題。當數據樣本維度較高時,模糊神經網絡結構的特殊性會導致維數災難而無法計算,所以如何有效實現降維就成了解決問題的一個途徑。
基于上述原因,文中以二氧化硫缺失數據的填補為例,不同于傳統利用多維環境因素或在一維時間序列上預測大氣數據的單一模式,而將二者充分結合以挖掘更多信息,并通過相關因素(Relevance Factors)對所構建的ANFIS(Adaptive Neuro-Fuzzy Inference System)進行簡化,進而建立二氧化硫的缺失預測填補模型。該研究對工程應用中填補二氧化硫一類有限樣本的腐蝕數據具有實際意義。
文中的數據來源于腐蝕站點提供的北京 2015年3月19日至2015年6月5日的環境數據和腐蝕數據。環境數據含有氣溫、風力、濕度、天氣狀況、降水量、PM2.5、PM10、O3、NO2共9個因素,腐蝕數據即二氧化硫濃度。文中選用了統一的 Excel表格進行規范化,MATLAB可以方便地將數據導入和導出表格。氣象數據的采集是按小時進行的,每小時采一次,一天應有24組數據,表1僅列出了北京市某一天的10條數據。

表1 部分原始環境數據和腐蝕數據Table 1 Part of the original environmental data and corrosion data
ISO 9223—2012標準中統計二氧化硫濃度的最小單位為日,所以數據預處理的目的是將原始小時化的數據轉換成以日為單位的樣本,填補目標也為二氧化硫的日平均濃度。首先將所有數據量化,根據風力等級表將風力轉換成區分度更高的風速。研究表明[12],日照時間是影響腐蝕的重要因素之一,而日照時間可通過每小時的天氣狀況(晴、陰、多云、雨雪等)推斷得到,對天氣狀況處理時將晴記為1,其他情況記為0。然后將數據進行轉換,每日的日照時間和降水量由相應每小時的數據累加得到,而其他所有因素則求日平均值作為對應數據。最后經過數據預處理后共得到79個樣本用于研究。
模糊神經網絡的結構具有多樣性的特點,比較常用的是Jang提出的ANFIS系統。實際應用中,網絡生成的模糊規則數為各輸入變量的隸屬度函數個數之積(例如網絡有m個輸入變量,每個變量隸屬度函數個數為n,模糊規則數即為nm)。因此在隸屬度函數個數(一般取3~5)變化不大的情況下,網絡的輸入變量不宜過多,否則生成的規則數過大不易于實現[13]。針對ANFIS這一應用中的問題,文中引入相關因素的分析降低網絡的復雜性,進而提出了一種RF-ANFIS預測模型,結構如圖1所示。

圖1 RF-ANFIS預測模型結構Fig.1 Structure of RF-ANFIS prediction model
第一層為所有變量的輸入層,假定輸入變量為m維,則輸出函數為:

第二層為相關因素計算層,計算每個輸入變量xk與輸出變量y之間的相關系數。相關因素分析是研究隨機變量之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度的一種統計方法。相關系數R表示相關方向和相關程度。R在(0,1)之間為正相關,在(-1,0)之間為負相關,等于1為完全正相關,-1為完全負相關,0為不相關。變量kx與變量y之間的相關性系數公式為:本值和樣本均值。
第三層為相關因素判斷層,通過相關性系數的大小對輸入變量進行取舍。設定一個常量c,判斷規則為若|R|大于c則將對應的輸入變量輸出至下一層,否則留在這一層。由此已將m維的原始數據降至d維(d<m)。

第四層為降維后的輸入變量的隸屬函數層,負責輸入信號的模糊化。對于一階Takagi-Sugeno模糊系統具有如下模糊規則:

該層的輸出函數為:

式中:1z到dz是經過相關系數判斷后選出的輸入變量,4O是iA到iD的隸屬函數值,表示1z到

式中:xkl和xk表示輸入變量xk的第l個樣本值和樣本均值;yl和y表示輸出變量y的第l個樣zd分別屬于 Ai到 Di的程度,n是隸屬度函數的個數。μAi(x)到 μDi(x)可以是任意合適的參數化隸屬函數,如一般的鐘型函數,以 μAi(x)為例:

第五層為規則的強度釋放層,負責將輸入信號相乘,每個節點的輸出代表該規則的可信度。輸出函數為:

第六層為所有規則強度的歸一化,第i個節點計算第i條規則的歸一化可信度。輸出函數為:

第七層為計算模糊規則的輸出,這一層的每個節點i為自適應節點。輸出函數為:

式中:wi為第六層的輸出,為該節點的參數集,稱為后件參數。
第八層為一個固定節點,計算所有輸入信號的總輸出,輸出函數為:

在第五層至第八層中,通常采用一種反向傳播算法和最小二乘法的混合學習算法分別對ANFIS的前件參數和后件參數進行訓練。首先輸入信號沿網絡正向傳播至第七層,在前件參數不變的情況下采用最小二乘法調節后件參數,然后信號繼續沿網絡正向傳播直到第八層,將獲得的誤差信號沿網絡反向傳播,進而調節前件參數。這種方法不僅可以降低梯度法中搜索空間的維數,而且大大提高了收斂速度[14]。
以北京市二氧化硫為例進行仿真,仿真過程可平移至其他環境參數缺失數據的補償中。將79個樣本隨機分為65個訓練樣本和14個測試樣本,根據第2節中RF-ANFIS模型的結構逐層分析,通過改變參數c的值改變篩選的輸入變量d的個數,并與傳統僅利用多維環境因素和僅在一維時間序列上預測的方法作對比。
3.1 建模步驟
1)相關因素分析。在收集到的樣本中二氧化硫是一個時序數據,傳統工程上采用滾動預測的方法建立二氧化硫缺失預測模型,但該方法僅利用了二氧化硫自身的信息而未考慮其他因素對樣本的影響。文中挖掘二氧化硫與各環境參數間的相關性,并考慮二氧化硫自身的時序特征,第t天的二氧化硫濃度與當日的環境數據以及前五日的二氧化硫濃度的相關性系數見表2,其中Ct-1為第t-1天的二氧化硫,Ct-2表示第t-2天的數據,以此類推。

表2 二氧化硫濃度與各因子的相關性系數Table 2 Relevance coefficient of the concentration of SO2and other factors
經過相關性分析發現,其中二氧化硫與PM2.5,PM10,NO2,Ct-1,Ct-2五個因子關聯性較明顯。二氧化硫與前三者相關是因為霧霾天氣時二氧化硫在空氣中會轉化成硫酸鹽,導致硫酸鹽顆粒達到40 μg/m3以上,致使PM2.5,PM10,NO2超標[15]。第t天的二氧化硫與t-1天和t-2天的相關性大也證明了其本身的自相關性。由此相關因素分析方法有效將十四維(m=14)的復雜問題轉化成五維(d=5)的可計算網絡,同時排除了干擾因素的影響,為ANFIS的建模打下基礎。
2)ANFIS建模。根據ANFIS的結構,網絡固定為五層。首先設定c=0.2,此時選擇出的輸入變量個數d=5(Ct-1,PM2.5,PM10,NO2,Ct-2),輸出變量個數為1,每個輸入變量的隸屬度函數個數n=3。輸入的模糊隸屬度函數選擇鐘型函數,輸出層選擇一階線性模糊推理系統即一階Sugeno模糊模型,采用網格分割法生成FIS。網絡學習算法選擇混合學習算法。目標誤差為 0.001,訓練次數設定為200次。利用訓練樣本訓練網絡,在訓練過程中,為提高函數逼近的效果,可對其隸屬度函數類型、函數個數n、訓練次數等指標進行適當的調整。利用訓練網絡學習的結果對測試樣本進行檢測,將預測結果與真實數據相比較,獲得樣本分布圖,分析誤差。
繼續改變c的值,令c=0.4,此時選出的輸入變量個數為d=4(Ct-1,PM2.5,PM10,NO2),輸出變量個數仍為1,重復上述調參數的過程;再令c=0.45和c=0.5,此時選出的輸入變量個數分別為d=3(Ct-1,PM2.5,PM10)和d=2(Ct-1,PM2.5),調整參數比較不同輸入變量下的網絡性能。
3.2 仿真結果
經過上述建模過程后,將c取不同值時RF-ANFIS模型的預測結果與文獻[7]中BP網絡時間序列和文獻[6]中 BP網絡多維因素建模的方法進行比較。表 3是五種建模方法在誤差和計算時間上的比較,可以看出,首先對于樣本的準確率,RF-ANFIS模型在c=0.4時不論是整體的均方誤差還是單個樣本的相對誤差都是幾種情況中最優的,c=0.45其次。當c=0.5,輸入變量減少為2個時,網絡性能已開始降低,這說明僅用Ct-1,PM2.5兩個輸入變量做預測有偏差,PM10對于二氧化硫的預測同樣重要,而c=0.2時效果也不理想。這充分說明了ANFIS的輸入變量并不是越多越好,相關系數為0.222的Ct-2加入到網絡中反而對二氧化硫的預測形成了干擾。對于計算時間,BP網絡時序建模由于其網絡構造的簡單性用時最短,RF-ANFIS隨著c的減小,輸入變量依次增多,使得網絡生成的規則呈冪指數變化用時也就越長。因此綜合上述因素,如果不考慮計算時間,只追求樣本的精確度,優先選擇c=0.4時的RF-ANFIS模型;如果在樣本精確度達到一定程度時,希望節省計算時間,優先選擇c=0.45的RF-ANFIS模型。

表3 各方法參數對比Table 3 Comparison of different methods
表 4列舉了部分訓練樣本真實值和四種方法方法預測值的比較,從單個樣本的預測中可以看出,c=0.4時預測值與真實值幾乎完全相同,c=0.45時誤差在1%以內,同樣與真實值近似。BP網絡的平均誤差均大于10%,且個別樣本出現極大誤差,這也體現了BP網絡在樣本量不足的情況下準確性降低。

表4 部分訓練樣本不同方法預測值和相對誤差對比Table 4 Comparison of predicted values and relative errors of different methods in part of training samples
c=0.4時的RF-ANFIS模型與BP網絡時間序列和多維因素建模在測試樣本上的對比如圖 2所示。這14個訓練樣本中有9個預測結果優于多維因素建模,13個優于時間序列建模。由此可得,經過相關因素分析后,降低了傳統ANFIS維數災難的影響,有效地將難題轉化為低維的可解決問題,說明應用RF-ANFIS模型對缺失數據的處理是可行的。同時該方法可以通過改變常量c的值控制所選擇的輸入變量d的個數,在經過多次仿真后尋找最佳的網絡結構,結果比較理想。

圖2 三種建模方法測試樣本預測值與真實值比較Fig.2 Comparison of predicted values and real values of three methods in test sample
1)相關因素的引入為ANFIS在多維數據樣本適用局限性的問題上提供了一種解決途徑。根據腐蝕站點提供的腐蝕因子和多項環境數據進行測試,結果表明,該RF-ANFIS模型可以有效實現二氧化硫缺失數據的填補。
2)提出的 RF-ANFIS模型不僅可適用于二氧化硫,可推廣至補償同類型腐蝕因子的缺失情況。
3)充分挖掘了多維數據之間存在的聯系和時序數據本身的自相關性,為處理時序數據問題提供了新思路。
4)相關因素分析發現氣象上二氧化硫與PM2.5,PM10,NO2三者有緊密的關聯性也是一個意外的收獲。
[1] 黃海軍, 李嬋, 王俊. 典型大氣腐蝕介質的灰色預測模型分析[J]. 裝備環境工程, 2012, 9(1): 13—16. HUANG Hai-jun, LI Chan, WANG Jun. Study on Grey Prediction Model of Typical Atmospheric CorrosionMediums[J]. Equipment Environmental Engineering, 2012, 9(1): 13—16.
[2] 王安東, 陳躍良, 張勇, 等. 基于灰色馬爾科夫模型的2A12鋁合金腐蝕預測方法研究[J]. 裝備環境工程, 2014, 11(6): 22—28. WANG An-dong, CHEN Yue-liang, ZHANG Yong, et al. The Research on 2A12 Aluminum Corrosion Prediction Method Based on Gray Markov Model[J]. Equipment Environmental Engineering, 2014, 11(6): 22—28.
[3] 黃海軍, 李嬋, 王俊. 典型大氣腐蝕介質的灰色預測模型分析[J]. 裝備環境工程, 2012, 9(1): 13—16.HUANG Hai-jun, LI Chan, WANG Jun. Study on Grey Prediction Model of Typical Atmospheric Corrosion Mediums[J]. Equipment Environmental Engineering, 2012, 9(1): 13—16.
[4] ZHI Y J, FU D M, WANG H L. Non-equidistant GM(1,1) Model Based on GCHM-WBO and Its Application to Corrosion Rate Prediction[C]// Leicester: Proceedings of IEEE International Conference on Grey Systems and Intelligent Services, 2015: 272—276.
[5] 劉成臣, 徐勝, 王浩偉, 等. 基于灰色模型和神經網絡的鋁合金腐蝕預測對比[J]. 裝備環境工程, 2013, 9(1): 1—4. LIU Cheng-chen, XU Sheng, WANG Hao-wei, et al. Comparative Study of Prediction Models of Aluminum Alloys Based on Gray Model and Artificial Neural Network[J]. Equipment Environmental Engineering, 2013, 9(1): 1—4.
[6] 周立建, 穆志韜, 邢瑋, 等. 基于灰色神經網絡的有機涂層壽命預測研究[J]. 裝備環境工程, 2011, 8(5): 62—66. ZHOU Li-jian, MU Zhi-tao, XING Wei, et al. Study of Service Life Prediction of Organic Coatings Based on Grey Neural Network[J]. Equipment Environmental Engineering, 2011, 8(5): 62—66.
[7] 蕭彧星, 吳光海, 孫寧, 等. BP神經網絡在碳鋼和低合金鋼大氣腐蝕數據預測中的應用[J]. 腐蝕科學與防護技術, 2011, 23(2): 171—174. XIAO Yu-xing, WU Guang-hai, SUN Ning, et al. Application of Artificial Neural Network on Prediction of Atmospheric Corrosion Data for Carbon Steel and Low Alloy Steel[J]. Corrosion Science and Protection Technology, 2011, 23(2): 171—174.
[8] 鄧志安, 李姝儀, 李曉坤, 等. 基于模糊神經網絡的海洋管線腐蝕速率預測新方法[J]. 中國腐蝕與防護學報, 2015, 35(6): 571—576. DENG Zhi-an, LI Shu-yi, LI Xiao-kun, et al. A Prediction Method Based on Fuzzy Neural Network for Corrosion Rate of Marine Pipelines[J]. Journal of Chinese Society for Corrosion and Protection, 2015, 35(6): 571—576.
[9] TIAN Y J, LIU Y, CHENG G J, et al. PCA-FNN Based Performance Prediction for Water Injection in Oilfields[J]. Advanced Materials Research, 2014, 909: 410—417.
[10] FU Z N, XIE H W. Wind Speed Forecasting Based on FNN in Wind Farm[J]. Applied Mechanics and Materials, 2014, 651—653: 1117—1122.
[11] GHIASI M M, ARABLOO M, MOHAMMADI A H, et al. Application of ANFIS Soft Computing Technique in Modeling the CO2Capture with MEA, DEA, and TEA Aqueous Solutions[J]. International Journal of Greenhouse Gas Control, 2016, 49: 47—54.
[12] SEIDL D, JANCíKOVá Z, KO?TIAL P, et al. Exploitation of Artificial Intelligence Methods for Prediction of Atmospheric Corrosion[J]. Defect and Diffusion Forum, 2012, 326—328: 65—68.
[13] 付青文. 基于規則約簡的模糊神經網絡模型的研究[D].廣州: 華南理工大學, 2012. FU Qing-wen. A Research of Fuzzy Neural Network Model Based on Rules Reduction[D]. Guangzhou: South China University of Technology, 2012.
[14] 張小娟. 自適應神經模糊推理系統(ANFIS)及其仿真[J].電子設計工程, 2012, 20(5): 11—13. ZHANG Xiao-juan. Study on the Adaptive Network-based Fuzzy Inference System and Simulation[J]. Electronic Design Engineering, 2012, 20(5): 11—13.
[15] 陳瑞敏, 吳雁, 康文英, 等. 連續霧霾天氣污染物濃度變化及天氣形勢特征分析[J]. 氣候與環境研究, 2014, 19(2): 209—218. CHEN Rui-min, WU Yan, KANG Wen-ying, et al. Analysis of Pollutant Concentrations and Characteristics of Continuous Smoggy Weather[J]. Climatic and Environmental Research, 2014, 19(2): 209—218.
Improved ANFIS-based Imputation Method for Missing Data on Atmospheric Corrosion Environment
SHI Ya-nana,FU Dong-meia,ZHI Yuan-jiea,CHEN Min-dongb
(a. School of Automation; b.Institute of Advanced Materials and Technology, University of Science and Technology Beijing, Beijing 100083, China)
ObjectiveTo propose a new method (RF-ANFIS) based on relevance factors and Adaptive Neuro-Fuzzy Inference System to impute missing important environmental data on atmospheric corrosion.MethodsThe relevance degree between missing data and a number of environmental factors was calculated through relevance factors. Factors of high relevance degree were selected; then a relationship model between missing data and environmental factors was built through ANFIS. Finally, SO2data was taken as the specified object to test the model according to atmospheric data of Beijing in 2015.ResultsThe error of mean square of samples in the improved RF-ANFIS model was 0.696 in the best case. The relative error of 13/14 testsamples was within 20%. It was applicable to data analysis of limited samples.ConclusionThe new method effectively improves the accuracy of imputing environmental data in atmospheric corrosion. It is vital to predict atmospheric corrosion rate with missing data.
atmospheric corrosion; missing data; relevance factors; ANFIS
FU Dong-mei(1963—), Female, from Liaoning, Doctor, Professor, Research focus: intelligent data analysis.
10.7643/ issn.1672-9242.2016.06.014
TJ01;TG172.3
A
1672-9242(2016)06-0078-07
2016-07-12;
2016-08-12
Received:2016-07-12;Revised:2016-08-12
國家重點基礎研究發展計劃項目(2014CB643300);國家科技基礎性工作專項(2012FY113000)
Fund:Suported by The National Basic Research Program of China(2014CB643300); The National Science and Technology Basic Work (2012FY113000).
石雅楠(1993—),女,遼寧人,碩士研究生,主要研究方向為大氣腐蝕數據挖掘的研究。
Biography:SHI Ya-nan(1993—), Female, from Liaoning, Master graduate student, Research focus: atmospheric corrosion data mining.
付冬梅(1963—),女,遼寧人,博士,教授,主要研究方向為智能數據分析的研究。