陳文堅,陳曉云,汪巧萍
(福州大學數學與統計學院,福建 福州 350108)
Huang等[1]提出的極限學習機(extreme learning machine,ELM)面對回歸問題時,存在表示能力有限的不足.因此,Zhang等[2]構建殘差補償極限學習機(residual compensation extreme learning machine,RC-ELM),對回歸預測殘差進行迭代補償,來提高回歸精度,并通過實驗證明了殘差補償思想的有效性.但現實生活中,對標簽的標注代價十分昂貴,因此無監督學習方法解決現實問題更為普遍.
Huang等[3]將流形正則的思想引入ELM中,提出無監督極限學習機(unsupervised extreme learning machine,US-ELM),將原數據投影到低維空間保持其近鄰結構不變.Chen等[4]在US-ELM的基礎上,提出基于稀疏和近鄰保持的極限學習機(SNP-ELM),保持樣本的稀疏性及局部近鄰結構不變對數據有較好的自適應性.除了US-SELM,Kasun等[5]將自編碼器引入極限學習機中,提出了極限學習機自編碼器(extreme learning machine autoencoder,ELM-AE),目標是重構原始輸入,利用輸出權重對原始輸入進行投影.但對于高維數據,希望提取特征盡量稀疏,因此 Tang等[6]引入l1范數構建極限學習機稀疏自編碼器(ELM-SAE),能夠提取更稀疏,更緊湊的輸入特征.除此之外,考慮流形結構也是至關重要的,因此Sun等[7]在ELM- AE中引入局部流形結構,提出了廣義極限學習機自編碼器(GELM-AE),使得原樣本空間中盡量接近的樣本,特征映射后在新空間中也能盡量接近.
上述算法都是從近鄰結構和稀疏表示改善US-ELM和ELM-AE的表示能力,而殘差補償思想也能改善模型的表示能力,因此本文將殘差補償思想擴展到ELM-AE上,提出了基于殘差補償的極限學習機自編碼器(residual compensation extreme learning machine autoencoder,RCELM-AE),通過對重構殘差迭代進行補償式學習,使重構輸出更為接近原始輸入,以此改善ELM-AE的表示能力.
殘差補償極限學習機作為層次結構,由基線ELM和若干補償ELM組成.基線ELM構建輸入數據與預測輸出之間的特征映射,補償ELM對預測殘差進行迭代學習,直到沒有性能提高或殘差小于預定義值為止.


(1)

模型第一項為殘差項,α為懲罰系數;第二項正則項是為了控制模型復雜度,防止過擬合. 由于只含單一變量β,則該目標函數的解析解如下

(2)


(3)
補償ELM1以X為輸入向量,e1為對應期望目標向量,H2為補償ELM1的隱層輸出,則優化模型如下

(4)
于是補償ELM1目標函數的解析解如下

(5)

(6)
重復補償ELM1迭代學習操作,RC-ELM的最終預測值可計算為

(7)



(8)

圖1 極限學習機自編碼器(ELM-AE)的網絡結構Fig.1 Extreme learning machine autoencoder(ELM-AE) network structure
極限學習機自編碼器(ELM-AE)讓輸入作為網絡理想輸出,目的是讓輸出盡可能等于輸入.極限學習機自編碼器的網絡結構如圖1所示.X=[x1,x2, …,xN]T∈N×d為輸入向量,Wi和bj如式(1)的構造,是隱層與輸出層的權重,N×d為經由ELM-AE映射的重構輸出.
ELM-AE從輸入層到隱層的操作與ELM一致,兩者差別在于ELM隱層到輸出層的輸出權重β由最小化網絡輸出Hβ與標簽向量y的殘差計算得到,而ELM-AE的β是由最小化Hβ與輸入樣本X的殘差計算得到. 則ELM-AE的優化模型如下
s.t.WTW=I,bTb=I
(9)
其中: 當隱層節點個數L小于樣本特征維數d時,輸入樣本可被投影到更低維特征空間. 式(9)求解得到的輸出權重β為

(10)
根據文獻[5],ELM-AE將原始高維樣本X與輸出權重β相乘進行降維,即可得到降維后樣本的新表示Xnew=XβT,可以更有效地應用于數據聚類或分類等任務.

圖2 殘差補償極限學習機自編碼器 (RCELM-AE)的網絡結構Fig.2 Residual compensation extreme learning machine autoencoder(RCELM-AE)network structure
本研究提出殘差補償極限學習機自編碼器(RCELM-AE)也是由基線ELM-AE和若干補償ELM所組成,基線ELM-AE構建輸入樣本與重構輸出之間的映射,補償ELM對輸入樣本和重構輸出的殘差進行迭代學習.RCELM-AE的網絡結構如圖2所示.
根據式(9)、(10),求解基線ELM-AE優化模型,可計算出輸出權重的解析解:

(11)


(12)
由于殘差中可能蘊含有意義信息,因此進一步用補償ELM1,補償ELM2,…, 對e1進行特征表示學習,且設補償ELMi(i=1, 2, …,k)網絡輸入和隱層輸出均與基線ELM-AE相同,均為X和H.根據式(4),補償ELM1的優化模型為

(13)
據式(5)求解補償ELM1輸出權重的解析解

(14)

根據式(8)的啟發和(15),方便H可從多項式中提出來,則權重λl的計算公式如下

(16)


(17)


Input: 歸一化的數據矩陣X∈ N×d, 隱層節點數(維數)L, 最大補償層數k, α>0Output: 降維后樣本矩陣XnewInitialization: 隨機初始化W和b計算隱層輸出矩陣H, ε=10-6, l=1. Step1: 通過式(11)和式(12), 計算β和e1Repeat: 通過式(13)和式(14), 計算輸出權重βl令el=Hβl, 計算殘差el+1=el-el, l=l+1 Until: el+1≤ε or l>kStep2: 通過式(16)和式(17), 計算最終輸出權重β(Step3: 計算降維后的樣本矩陣Xnew=Xβ(T
基線ELM-AE與補償ELM的網絡結構一致,計算時間開銷主要為輸出權值的計算, 包括矩陣乘法計算時間復雜度分別O(L2N)、O(LNd)和O(L2d),矩陣逆的計算時間復雜度為O(L3),k層補償ELM的權重計算時間復雜度為O(kd2N),在本研究的一般情況下隱層節點數量L小于數據樣本數量N,兩者遠小于樣本特征維數d,則經過1層基線ELM-AE和k層補償ELM的RCELM-AE來說,時間復雜度為O((k+1)×(L2N+LNd+L3+L2d)+kd2N),即O(kd2N).
本節驗證殘差補償極限學習機RCELM-AE的降維效果, 與5種方法進行降維聚類對比實驗,實驗基于MATLABR2019b編程實現,實驗環境為Win10系統,內存8 GB.實驗對比方法包括以下兩種:
1) 線性無監督降維方法.主成分分析(principal component analysis,PCA)[9]以最大化投影方差為目標.
2) 無監督極限學習機降維方法.極限學習機自編碼器(ELM-AE),該方法通過將原始輸入代替類標簽作為網絡理想輸出; 極限學習機稀疏自編碼器(ELM-SAE),該方法通過l1范數規范輸出權重β,使得β稀疏; 廣義極限學習機自編碼器(GELM-AE),該方法通過引入流形正則,保持局部近鄰結構.
對比實驗選擇6個公開的數據集,分別是2個公開的醫學圖像數據集,選取BreastMNIST[10]和PneumoniaMNIST[11];4個基因表達數據集,選取Colon[12]、DLBCL[13]、Prostate0[14]和Leukemia2[15].6個公開數據集的描述如表1所示.
BreastMNIST數據集收集乳腺超聲圖像,分為正常、良性和惡性3類.并預處理成28 px×28 px圖像.PneumoniaMNIST數據集收集胸部X光圖像,其中包括肺炎(細菌性肺炎和病毒性肺炎)圖像和正常圖像.所有的圖像如上預處理.兩個醫學圖像數據集部分示例展示如圖3.在BreastMNIST數據集中,第1行為正常圖片,第2行為良性圖片,第3行為惡性圖片;在PneumoniaMNIST數據集中,第1行為正常圖片,第2、3行為肺炎圖片.

(a) BreastMNIST數據集

(b) PneumoniaMNIST數據集
在6個實驗數據集上分別采用RCELM-AE與對比方法PCA、ELM-AE、ELM-SAE、GELM-AE進行降維.其中RCELM-AE最大補償層數k選擇5,GELM-AE的近鄰數取自5,所有方法選擇降維維數搜索范圍為{2, 4, 8, …, 64, 100},參數α和γ搜索范圍為{10-3, 10-2, …,103}.
對比實驗的5種算法在樣本降維之后,都使用K-means 進行聚類,并以聚類準確率進行評估.為減少K-means初始中心的隨機性以及ELM-AE隨機選取輸入權重和偏置帶來的影響,實驗中ELM-AE,ELM-SAE,GELM-AE和 RCELM-AE分別運行5次,每次降維后執行10次K-means聚類,取50次聚類準確率的平均值作為最終聚類準確率,PCA將10次K-means聚類的聚類準確率平均值作為最終聚類準確率.所有方法在6個實驗數據集的最佳聚類準確率均值和方差(運行時間,降維維數)列于表2,其中降維維數為每個數據集最優聚類結果對應的降維維數,運行時間為每個數據集最優聚類結果的模型運行時間(s).

表2 聚類準確率
從表2可以看出,RCELM-AE 的聚類準確率在6個數據集中都是最優的.RCELM-AE聚類準確率比ELM-AE有大幅度提高,提高幅度1.39%~13.76%,這說明RCELM-AE通過殘差補償能夠得到更接近原始樣本的重構輸出,進而使得輸出權重β更好表示原始樣本,運行時間略有提高,這是因為RCELM-AE增加殘差補償,說明RCELM-AE小幅度提高運行時間可得到比ELM-AE更優的聚類準確率.RCELM-AE準確率比ELM-SAE有提高,提高幅度0.81%~12.69%,這說明殘差補償得到的β比l1范數規范的β更能表示原始樣本,ELM-SAE運行時間比RCELM-AE平均提高0.9倍,這是因為ELM-SAE要求解l1范數,說明除了PneumoniaMNIST 數據集,RCELM-AE在運行時間和聚類效果都優于ELM-SAE.RCELM-AE聚類準確率比GELM-AE略有提高,提高幅度0.64%~1.92%,說明殘差補償思想比流形正則項聚類效果略好,GELM-AE運行時間比RCELM-AE平均提高1.1倍,這是因為GELM-AE要計算拉普拉斯矩陣,說明RCELM-AE運行效率優于GELM-AE.另外,GELM-AE對于PneumoniaMNIST數據集的時間復雜度非常大,說明GELM-AE不適合大型數據集.

圖4 不同殘差補償次數的聚類準確率Fig.4 Ariation of clustering accuracy with respect of residual compensation times
RCELM-AE其中一個參數l,代表補償ELM的層數.通過不同數據集結構,分析殘差補償層數對聚類準確率的影響,如圖4所示.從圖4可以看出,0層殘差補償為經典ELM-AE,所有數據集1層殘差補償的聚類效果都比0層殘差補償要好,這說明殘差補償確實有益于表示學習.2個醫學圖像數據集DLBCL和Leukemia2在1層殘差補償下就能獲得較高的聚類準確率,而Colon和Prostate0則是在2或3層殘差補償下獲得較高聚類準確率,這說明RCELM-AE在1~3層殘差補償下就能達到較高的聚類準確率.
除了殘差補償層數影響RCELM-AE的聚類準確率,RCELM-AE有兩個需要優化的參數,分別是隱層維數L和懲罰系數α.而從表2和圖4可知,RCELM-AE降維維數為2和殘差補償層數為1時,聚類準確率能達到較好的結果,因此只需對懲罰系數α進行分析,并且固定隱層維數L為2和殘差補償層數l為1.
圖5給出RCELM-AE在醫學圖像數據集和基因表達數據集的聚類準確率隨參數α不同取值的變化情況.從圖5(a)中可以看出,2個醫學圖像數據集從α=10-3到α=1之間聚類準確率有提高趨勢,并在α=1時聚類準確率達到最高,之后呈下降趨勢,說明在2個醫學圖像中模型正則項和殘差項起到相同主導作用;而從圖5(b)中看出,Colon從α=10-2到α=10-1時聚類準確率有略微提高,之后便下降直至平穩,其余3個基因表達數據集在α=10-3時聚類準確率開始下降直至平穩,因此大部分基因表達數據集在α=10-3取得最高聚類準確率,只有Colon在α=10-1比α=10-3聚類準確率略微提高,說明基因表達數據集α取較小值時RCELM-AE能達到較好效果,表示此時模型起到主導作用是正則項.總體而言,隨著數據集特征維度的增加,達到最優聚類準確率所選取的α則越來越小.

(a) 醫學圖像數據集

(b)基因表達數據集
由于現實生活的數據有可能包含噪聲,使得殘差中可能存在噪聲,為驗證RCELM-AE對噪聲數據的魯棒性,選擇BreastMNIST和PneumoniaMNIST這兩個醫學圖像數據集,并在圖像樣本中疊加高斯白噪聲和椒鹽噪聲.高斯白噪聲[16]生成公式如下:

(18)
其中:μ為高斯分布的均值;σ為高斯分布的方差,生成的高斯白噪聲疊加在原始圖像.
椒鹽噪聲[17]生成公式如下:

(19)
其中:smin為原始圖像所有灰度級中最小值;smax為原始圖像所有灰度級中最大值;xi, j表示第(i,j)像素位置的灰度級,r=p+q代表了噪聲級,最終生成椒鹽噪聲圖像.
本文6個方法的抗噪對比實驗,選擇原始數據,方差為0.002的零均值高斯白噪聲數據和噪聲級為0.02的椒鹽噪聲數據,實驗結果列于表3.

表3 混合噪聲對比實驗的聚類準確率
從表3中可以看出,無論增加高斯白噪聲還是椒鹽噪聲,6種方法的聚類準確率都隨之下降,但2個數據集中RCELM-AE的聚類準確率依舊最高,且RCELM-AE的下降幅度很小.說明, 無論是高斯白噪聲還是椒鹽噪聲,RCELM-AE抗噪性能方面都排在前列,具有較好的魯棒性.
在ELM-AE模型基礎上,提出基于殘差補償的極限學習機自編碼RCELM-AE.通過對重構殘差補償式學習,來改善基線ELM-AE表示學習能力.在 6個公開數據集上降維后的聚類實驗結果表明,RCELM-AE的聚類準確率優于PCA和無監督極限學習機降維方法,而且也不會帶來過高的時間復雜度,抗噪實驗結果表明RCELM-AE具有較好魯棒性.