夏志敏 張大發 陳永紅 張 耀
(海軍工程大學核能科學與工程系 武漢 430033)
核動力裝置管系繁多,且長年運行于高溫、高壓、高濕度、強輻照的惡劣環境中,管道腐蝕不可避免[1].本文根據核動力管道腐蝕環境復雜,檢測樣本少的實際情況,提出了一種基于支持向量機(support vector machine,SVM)的核動力管道腐蝕狀態評估方法.支持向量機是Vapnik與其領導的貝爾實驗室的研究小組根據統計學理論提出的一種新的通用機器學習方法[2-3],它是建立在統計學理論的VC維理論基礎上的,采用結構風險最小化(SRM)原理,兼顧訓練誤差和泛化能力,在解決小樣本、非線性、高維數、局部極小值等工程實際問題中具有獨特的優勢.因而在許多領域得到了廣泛的應用,如人臉識別、手寫字體識別、文本分類、醫療診斷等[4-5].
支持向量機理論是從線性分類發展而來,核心就是構建最優分類面.其基本思想可用圖1的兩維平面的情況來說明.
圖1 兩類線性分劃的最優超平面
圖1 中,空心圓點和實心圓點代表兩類樣本,中間的粗實線H為分類線,其附近的2條虛線H1和H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離就是分類間隔(margin).所謂最優分類線就是要求分類線不但能將兩類正確分開,即訓練錯誤率為零,而且使分類間隔最大.
對于線性可分的樣本集(xi,yi),i=1,2,…,l.x∈Rn,y∈{-1,+1},l為樣本數,n為輸入維數,有分類線方程
式中:w為權值向量;b為分類閾值.對其進行歸一化處理,使得樣本集(xi,yi)滿足下面的不等式
此時分類間隔等于2/‖w‖,使分類間隔最大等價于使‖w‖/2最小.訓練樣本正確可分,且使‖w‖/2最小的分類面就是最優分類面,位于兩條虛線上的訓練樣本點就稱作支持向量.
對于非線性SVM問題,基本思想是:根據泛函的有關理論,通過非線性映射φ:Rn→H,其中H是高維內積空間稱為特征空間,引入一種內積核函數K(xi,xj)=φ(xi)·φ(xj)滿足 Mercer條件,將訓練樣本x轉化為某個高維空間中,而高維空間中的內積可以通過核函數用低維空間中的輸入向量直接計算得到,從而使得計算量不會呈指數增長,避免了一般擴維方法中的維數災難,然后在變換空間中求最優分類面.此時的對偶問題變為
其最優分類函數為
對于非線性不可分的情況或者訓練樣本集中出現“野點子”,可以在條件中增加一個松弛ξi≥0,將約束放寬為
相應地,目標函數為
選擇不同的核函數就可以構造不同的支持向量機,從而可以形成各種不同的分類曲面,但目前還沒有一個對特定問題選擇最佳核函數的有效方法,常用的主要有以下幾種.
1)線性核函數K(xi,xj)=xi·xj.
2)多項式核函數K(xi,xj)=[xi·xj+1]q.式中:q是由用戶決定的參數.
3)徑向基核函數(RBF)
4)2層神經網絡核函數(Sigmoid)
由于核動力管道腐蝕的普遍性,而且更換其被腐蝕的部分是非常困難的,需要耗費相當多的人力、物力和時間,因此不能一發現有腐蝕的存在就將其拆除更換或停止運行.經驗表明,有些腐蝕雖然存在,但并不影響裝置的運行安全性和可靠性,為了避免造成過修,各國都制定了金屬管道腐蝕等級標準,為腐蝕等級評估提供依據.前蘇聯根據金屬的腐蝕速率把金屬的耐蝕性劃分為十級標準,本文運用SVM分類方法,建立結構相對比較簡單的樣本評估模型,對某管道腐蝕狀態進行評估.
1)評估數據表 計算分析數據采用某管道腐蝕狀況檢測數據[6-7],并對數據進行分類預處理,建立評估數據表的關鍵在于選擇評估數據的泛化性和代表性.評估數據表包括評估的影響參數和待評估參數.評估的影響參數分別為是s1,s2,s3,s4,s5,s6,s7;參照前蘇聯的金屬耐蝕性等級劃分標準,結果如表1所列.
2)測試數據表 從建模樣本中隨機選取一定量的樣本作為測試數據,通過交叉比對測試,檢驗所建模型的準確率和可靠性,以調整模型評估參數的數值.測試數據表中不包括腐蝕狀態等級.
3)待評估數據表 將沒有測量腐蝕速率的樣本作為待評估數據進行分類評估.待評估數據表中不包括腐蝕狀態等級.
根據目標函數
及其約束條件
可構建最優超平面的問題轉化為下面的對偶二次規劃問題:
表1 某管道腐蝕狀態等級表
由上式可知,對評估結果影響較大的支持向量機參數主要是核函數和懲罰因子,它們的合理確定直接影響評估模型的準確性和推廣能力.一般地,RBF核函數應用最為廣泛,無論是低維、高維、小樣本、大樣本等情況,RBF核函數均適用,它具有較寬的收斂域,具體原因主要有以下3點[8-9]:(1)RBF核函數可以將線性不可分或非線性復雜樣本映射到某個高維內積空間中,從而解決類標簽和屬性間的非線性的復雜關系問題,這是目前線性核函數無法解決的.從線性函數的懲罰因子和RBF核函數性能的相互關系可以得到,線性核函數其實是RBF核函數的特例;(2)分類評估模型建立的復雜性很大程度上受核函數參數數目的影響.多項式核函數參數數目比RBF核函數多,模型建立更為復雜.因此,利用RBF核函數建立的分類評估模型結構相對比較簡單;(3)RBF核函數中惟一需要人為設定的參數即為徑向基寬度 ,且一般不會太大,否則核函數對指數的變化不敏感,根據實際數據一般不難確定;而Sigmoid核函數存在函數的寬度和偏移問題,在取某些參數值時則可能無效.
應用Libsvm2.86軟件分別對不同核函數的支持向量機的分類評估模型進行測試驗證,并對懲罰因子C和徑向基寬度γ進行反復交叉比對測試,最終確定,C=512,γ=0.000 122 07.
通過采用不同的核函數和最終確定的懲罰因子C和徑向基寬度γ對預測數據表進行了分類評估,所得結果如表2.
表2 評估數據表
通過采用不同核函數的支持向量機對所建分類評估模型進行測試驗證表明,采用線性核函數需進行5 729次迭代,多項式核函數需5 067次迭代,RBF核函數需200次迭代,Sigmoid核函數雖只需5次迭代,但準確率卻只有66.67%,從而驗證了采用RBF核函數的支持向量機的適用性.
所得結果與實際測量后的腐蝕狀態等級進行對比,可以看出,采用RBF核函數評估的準確率達到100%,限于樣本數據不多,但在一定程度上表明支持向量機方法得到的評估結果與實際測量值十分吻合,同時也表明其在小樣本情況下有較高的評估準確率和較好的穩定性,而且其結構相對比較簡單.因此,運用支持向量機方法進行核動力管道腐蝕狀態評估具有廣闊的應用前景,而且在其它工程應用領域也將有較強的優勢.
1)SVM是建立在結構風險最小化基礎上的機器學習方法,它將函數估計最終轉化為二次規劃問題,本文運用此方法建立了樣本腐蝕評估模型,通過最后的評估準確率可知,當訓練樣本數目有限時,它具有很強的泛化和分類評估能力.
2)通過SVM分類評估模型的參數選取對評估準確率的影響,表明不同的參數選擇其支持向量機模型的評估效果是不同的,尤其在具有復雜映射關系的高維小樣本情況,RBF核函數作為SVM分類評估模型核函數是較好的選擇,能夠兼顧運算速度和準確率.
3)本文根據某管道腐蝕狀態評估的具體問題,利用Libsvm2.86軟件對該評估模型的主要相關參數進行了交叉比對優化,從而得到了滿意的結果.分析表明,運用支持向量機方法進行核動力管道腐蝕狀態評估具有廣闊的應用前景.
[1]陳永紅,張大發,王悅民,等.基于灰色馬爾科夫組合模型的管道腐蝕速率預測方法[J].原子能科學技術,2009,30(2):95-98.
[2]楊志民,劉廣利.不確定性支持向量機原理及應用[M].北京:科學出版社,2007.
[3]Vapnik V N.統計學習理論許建華[M].張學工,譯.北京:電子工業出版社,2009.
[4]李祚泳,汪嘉楊,熊建秋,等.可持續發展評價模型與應用[M].北京:科學出版社,2007.
[5]肖小玲,李臘元.基于概率支持向量機方法的人臉識別[J].武漢理工大學學報:交通科學與工程版,2009,33(2):345-348.
[6]王鳳平,康萬利,敬和民.腐蝕電化學原理、方法及應用[M].北京:化學工業出版社,2008.
[7]劉 洪,喻西崇,吳國云,等.基于支持向量機算法的注水管道剩余壽命預測[J].石油機械,2005,33(3):17-20.
[8]喻西崇,趙金洲,鄔亞玲,等.利用灰色理論預測管道腐蝕速率的變化趨勢[J].腐蝕與防護,2003,24(2):51-54.
[9]Lee Youngchan.Application of support vector machines to corporate credit rating prediction[J].Expert Systems with Applications,2007,33:67-74.