摘 要:對于同一個非線性系統,比較單純ε不靈敏支持向量機方法和基于主元提取、基于偏最小二乘提取的ε不靈敏支持向量機方法在輸入相關和不相關兩種情況下的擬合性能和抗干擾性能。仿真結果表明:當輸入變量之間存在相關性時,基于特征提取的方法優于直接采用ε不靈敏支持向量機的方法。
關鍵詞:支持向量機; 非線性系統辨識; 偏最小二乘; 主元分析
中圖分類號:TP13文獻標志碼:A
文章編號:1001-3695(2007)06-0085-02
0 引言
非線性系統的辨識尤其是黑箱辨識一直是眾多學者研究的熱點問題之一。近年來出現的基于統計學習理論為基礎的支持向量機(SVM),有機結合了統計理論、機器學習、優化理論等,根據結構風險最小化原則來自動學習模型的結構,通過調節控制參數來改變模型結構[1,2],成為繼神經網絡、模糊辨識等方法之后用于黑箱辨識的熱點方法[3]。但是,SVM對干擾的抑制能力非常有限,尤其在輸入空間維數較大且存在相關時,即使是ε不靈敏支持向量機等改進方法也不能完全解決這個問題。因此,如何使其有效抑制干擾就成為SVM用于實際工程的一大問題。
多變量投影方法如主元分析方法(PCA)、偏最小二乘方法(PLS)將多變量高維數據空間投影到相對獨立的低維空間,以消除數據的相關性,對噪聲也可以起到有效的抑制作用。因此,這類方法在工業過程監控中獲得了廣泛的應用[4,5]。基于這樣的考慮,本文首先用PCA、PLS方法消除數據的相關性,并降低干擾的影響。處理后的數據用SVM進行學習以獲得辨識參數。
1 原理介紹
1.1 PCA簡介
由于式(4)、(5)是在X、Y各自獨立的情況下計算的,未考慮輸入/輸出之間的關系,這樣提取后的得分之間并不一定存在較強的對應關系,這對建模是很不利的。為了使U能最大限度地由T解釋,在對X和Y進行投影的同時,要考慮投影后數據的協方差最大。下面將給出其遞推實現過程。
需要說明的是,無論是PCA還是PLS,在使用時都要求首先對數據進行標準化處理,即減去各自均值并除以各自的標準差,以消除由于量綱的不同而產生的數據淹沒現象。
假定所有數據都經過了標準化處理。那么,PLS的遞推算法如下:
2 特征提取后的ε不靈敏支持向量機方法
3 仿真結果比較
4 結束語
當輸入變量獨立,無論測量數據是否含有噪聲,ε不靈敏支持向量機可獲得最好的辨識結果,但支持向量的個數也是最多的;當輸入變量之間存在相關性時,基于PLS的方法和基于PCA的方法效果皆優于ε不靈敏支持向量機方法,且支持向量的個數也少于ε不靈敏支持向量機方法。
從表中可看出,對于本文的例子,基于PLS的方法和基于PCA的方法在擬合性能和支持向量的個數方面沒有明顯的差異。產生這些結果的原因是:PCA和PLS不僅可去除變量的相關性,而且可以減小噪聲的影響,提高訓練的泛化能力。進一步要做的工作是從更普遍的工業系統著手來研究適合的黑箱辨識方法。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。