龍求青,廖柏林,印煜民,代建華
(1. 吉首大學信息科學與工程學院,湖南吉首,416000;2. 湖南師范大學信息科學與工程學院,湖南長沙,410081)
極限學習機(extreme learning machine,ELM)算法作為單隱含層前饋神經網絡(single hidden layer feed forward neural network, SLFNs)中一種全新的學習算法,憑借其訓練速度快、泛化性能優[1]等特點,吸引了該領域大批學者的關注與研究。與傳統的神經網絡算法(如誤差反向傳播算法[2-3]等)不同,該算法的核心思想為:網絡的輸入權值和隱含層偏置隨機產生,且其數值在訓練過程中保持不變,其輸出權值則是通過將平方損失函數最小化,再求解偽逆運算得到最小范數最小二乘解[4]。整個訓練過程不需迭代,僅需設定隱含層的神經元個數和激活函數。目前,ELM在疾病(如乳腺癌等)診斷[5]、交通標志識別[6]、智能決策[7]等方面獲得了廣泛應用。
然而,ELM 算法的輸入權值、隱含層偏置和隱含層神經元數的不確定性會對其預測性能和算法的穩定性產生較大的影響[8-9]。張文博等[10]指出,當完全隨機選擇輸入權值與隱含層偏置等參數時,ELM 的性能并不總是最優的,同時,這也是導致ELM 算法隱含層神經元數冗余的重要原因[11]。對此,學者們提出使用群智能優化[12-14]、剪枝法[15-16]和自適應[17-18]等算法對ELM 算法進行優化,以提高其整體性能。在實際應用中,雖然這些算法確實能夠優化隱含層神經元數,但又引入了大量的超參數,并且這些參數通常需要進行反復迭代尋優才能得到,增加了算法的計算復雜度,導致其難以應對實時性要求高的現實問題。為此,本文作者提出雙偽逆權值確定的極限學習機(double pseudo-inverse weight determination ELM, DPELM)算法,即首先采用偽逆法來確定ELM的輸入權值,隨后再次使用偽逆法確定輸出權值。最后,采用本文提出的DPELM對乳腺腫瘤進行快速分類,以驗證該算法的分類識別準確率。
設有N個任意不同的樣本集(xi,yi),其中,xi=(xi1,xi2,…,xin)T∈Rn,為輸入向量(樣本的特征);yi=(yi1,yi2, …,yim)T∈Rm,為對應的樣本標簽向量。在輸入神經元個數為n、隱含層神經元個數為L和輸出神經元個數為m且激活函數為f(·)的ELM網絡中,ELM的運算模型可以表示為如下形式:
式中:i=1,2,…,N;wj=(wj1,wj2,…,wjn),為隱含層第j個神經元與輸入層神經元的權值向量;bj為第j個隱含層神經元的偏置;βj=(βj1,βj2,…,βjm),為隱含層第j個神經元與輸出層神經元的權值向量;yi為對應于樣本xi的期望輸出向量。式(1)可以進一步簡化整合為如下矩陣表達式:
式中:Y=[y1,y2,…,yN]T,為訓練樣本期望輸出矩陣;β為輸出權值矩陣。
在ELM 中,H被稱為隨機特征映射矩陣[19]。當隱含層神經元參數(wi,bi)隨機生成并給出訓練樣本之后,矩陣H即為已知,且在整個訓練過程中其值都不會改變。此時,式(2)就轉化為求解其最小二乘解=H+Y,其中,H+為隱含層輸出矩陣H的偽逆。
雙偽逆權值確定的ELM 也由輸入層、隱含層和輸出層構成。式(1)還可以寫為如下矩陣表達式:
式中:Y=[y1,y2,…,yN]T∈RN×m;X=[x1,x2,…,xN]T∈RN×n;B= [b1,b2,…,bL]T∈RL×1,為偏置矩陣;W為輸入權值矩陣,
隨著人類的生存與發展,水污染逐漸成為威脅人們健康的重要因素之一,泌尿系結石是水污染造成的較為常見疾病之一。由于年齡、性別、職業、飲食結構、水分攝入量、氣候、遺傳等因素的不同,我國1980年和2003年做過兩次的調查,泌尿系結石的發病情況大約是黃河以北為10%,長江以南為25%,其中男性患有泌尿系結石的比例明顯高于女性[5]。泌尿系結石是尿中形成的結石晶體呈超飽和狀態,是形成結石的主要原因。結石通常可出現在膀胱、輸尿管等部位,臨床表現為一側腰部的劇烈疼痛,有腹脹、惡心、嘔吐、程度不同的血尿、排尿困難和排尿疼痛等癥狀,對患者的生活造成嚴重影響。根據結石的位置選擇適當的方法,能有效治愈泌尿系結石。
定理1:假設激活函數f(·)為嚴格單調函數,輸出權值β和偏置矩陣B分別選自區間[a1,a2]和[a3,a4],則最優的輸入權值矩陣W=(f-1(β+Y)+B)X+,其中f-1(·)表示f(·)唯一的反函數。
證明:將式(3)兩邊同時乘以β+,得到
求解式(4)的反函數, 得到f-1(β+Y)=WX-B,即
將式(5)兩邊同時乘以X+,得到WXX+=(f-1(β+Y)+B)X+, 即W=(f-1(β+Y)+B)X+。證明完畢。
在得到最優的W之后,再次使用偽逆法確定最優的輸出權值。可以通過下式求得:(f(WX-B))+。至此,輸入和輸出權值均為使用解析式計算而求得的最優值。
雙偽逆權值確定極限學習機的具體算法訓練過程如下:
1)在某一特定的區間內對輸出權值矩陣β和隱含層神經元偏置矩陣B進行隨機初始化;
2)在訓練樣本確定的情況下,根據公式W=(f-1(β+Y)+B)X+,計算出最優輸入權值W矩陣;
4)將最優輸入權值矩陣W、最優輸出權值矩陣以及偏置矩陣B用于測試集測試。
從UCI數據庫中隨機選擇6個數據集,對改進后的極限學習機算法進行分類性能評估。
為驗證改進后算法的性能,本文通過Matlab平臺,從算法的預測精度、算法所需的隱含層神經元個數以及算法輸出結果的穩定性3個方面對原始ELM 和本文算法進行比較。為證實算法的普遍適用性,本實驗從UCI 數據庫中選取6 個數據集(包含3 個二分類數據集和3 個多分類數據集)作為實驗數據集。各數據集的描述如表1所示。

表1 實驗數據描述Table 1 Description of experimental data
通過實驗比較傳統ELM 和本文算法中隱含層神經元個數對模型預測性能的影響。首先,隨機選取各數據集中70%的數據為訓練樣本,30%的數據為測試樣本,訓練和測試樣本劃分好后固定不變,采用生長法確定隱含層神經元個數,即每次增加1個神經元觀察準確率的變化,當準確率不變或變化值小于所設定的閾值時,確定其為相應算法最好的網絡結構。然后,在各算法最優的網絡結構下運行ELM 算法和本文算法各100 次,計算其測試集的平均分類準確率。本實驗選擇tan函數作為激活函數,其反函數為arctan函數。不同算法分類準確率及隱含層神經元個數對比及其達到最高分類準確率時所需的隱含層神經元個數對比如表2所示。

表2 不同算法分類準確率及隱含層神經元個數對比Table 2 Comparisons of classification accuracy and number of hidden layer neurons of different algorithms
由表2可以看出,無論是在二分類數據集還是在多分類數據集中,本文所提算法的分類性能均比傳統的極限學習機算法分類性能有所提升。本文所提算法達到最高分類準確率時所需要的隱含層神經元個數更少,網絡結構更為簡單,由此可見本文采用的通過解析式確定輸入權值方式所得結果要優于隨機確定輸入權值方式所得結果。同時,為進一步分析算法參數對分類性能和算法穩定性的影響,本文在二分類問題和多分類問題中各選取1個數據集,對其算法性能進行比較。
選取多分類的SL 數據集和二分類的LD 數據集,其訓練集與測試集依然按照7:3 的比例劃分,樣本劃分好后固定不變。設定隱含層神經元數從1遞增至100 個,每增加1 個神經元都執行100 次ELM 算法和本文算法,觀察實驗結果的均值、方差、極差的變化趨勢,結果分別如圖1 和圖2 所示。圖1和圖2中,黑色五角形所示位置為各算法取得最高分類準確率的位置。
從圖1(a)和圖2(a)可以看出,隨著隱含層神經元個數不斷增加,傳統ELM 和本文算法的預測準確率均先迅速上升,而后趨于平緩或下降。根據實驗結果及文獻[20]中的定理,可知本文算法和傳統的極限學習機算法有同樣的特性,即隨著隱含層神經元個數增加,算法的擬合性能越來越好,但當擬合性能達到某個極值點后,繼續增加隱含層神經元個數,則會出現訓練樣本過擬合的現象,而測試樣本的分類準確率增速緩慢甚至開始下降。由圖1和圖2還可以看出,無論是在多分類的SL數據集還是在二分類的LD數據集中,隨著隱含層神經元數的增加,本文所提算法的分類平均準確率的上升速率均比傳統的極限學習機算法的快,且所需要的隱含層神經元個數均要比傳統的極限學習機算法的少。從方差和極差結果可以看出,本文所提算法在SL 和LD 數據集中的方差和極差均要比傳統的極限學習機算法的小,說明本文算法的穩定性優于傳統極限學習機算法的穩定性。
為了進一步驗證雙偽逆權值確定極限學習機算法的準確性,本文將其應用于乳腺腫瘤診斷的分類識別;采用多種不同的算法對同樣的乳腺腫瘤訓練集、測試集分別進行學習和識別,并與本文方法的性能進行對比。
實驗用計算機CPU 型號為Intel i5-4200U(1.6 GHz),內存為4 GB,操作系統為Windows 7,實驗軟件為Matlab2012(b)。
本實驗數據來自美國威斯康星大學醫學院所發布的公開數據集(Wisconsin Breast Cancer Database),包含有569個乳腺腫瘤病例,其中良性357 例,惡性212 例。本文隨機選取450 組腫瘤數據(良性病例數為282,惡性病例數為168)作為訓練集,剩余的119 組腫瘤數據(良性病例數為75,惡性病例數為44)為測試集。每例樣本由從乳腺腫瘤樣本數據中提取的10 個特征值的均值、標準差和最大值共30個數據組成。
選取各算法的良性腫瘤平均確診率(簡稱良性確診率)、惡性腫瘤平均確診率(簡稱惡性確診率)以及平均診斷準確率這3個性能指標進行比較。為了增加比較的可靠性,對本文算法、改進魚群算法優化的ELM、人工魚群優化的極限學習機算法(AFSA-ELM)、ELM、學習向量量化算法(LVQ)和誤差反向傳播算法(BP)等[21]分別進行20 次獨立實驗,取其良性確診率、惡性確診率、平均準確率、假陰性率的平均值進行比較,其中改進魚群算法優化的ELM,AFSA-ELM,ELM,LVQ和BP等算法的實驗結果來自文獻[21],比較結果如表3所示。
<1),且各件產品是否為不合格品相互獨立.
由表3可見,本文所提算法的良性確診率、惡性確診率、平均準確率均比其他算法的高,而假陰性率比其余算法的要低,說明本文所提算法可以快速準確地識別惡性腫瘤,降低了由于誤診而導致的延誤治療、影響治療效果的風險。

表3 多個算法的性能對比Table 3 Performance comparison of multiple algorithms
1)在6個隨機選取的UCI數據集中,本文所提出的基于雙偽逆權值確定的極限學習機(DPELM)算法分類性能較傳統的極限學習機(ELM)算法分類性能都有不同程度提升,其中,SL 數據集的分類準確率提升幅度最大,為4.77%;LD 數據集的分類準確率提升幅度最小,僅提升了0.54%。
2)改進后算法達到最佳分類準確率時,所需隱含層神經元個數比傳統ELM 算法的更少,網絡結構更簡單。
3)改進后算法在SL 數據集和LD 數據集測試實驗中的方差和極差更小,說明算法的穩定性更優。同時,其在乳腺腫瘤分類識別實驗中,診斷性能較改進魚群算法優化的ELM,AFSA-ELM,ELM,LVQ 和BP 等方法的診斷性能均有所提升,表明本文所提算法在乳腺腫瘤輔助診斷中具有分類準確率高、假陰性率低的優點,本文方法用于乳腺腫瘤輔助診斷是可行的。