












摘 要: "傳統(tǒng)的圖正則化方法使用歐氏距離度量樣本空間的相似度,并不能準(zhǔn)確考察復(fù)雜數(shù)據(jù)集的鄰域信息,容易導(dǎo)致模型在復(fù)雜形狀數(shù)據(jù)和非凸數(shù)據(jù)集中的泛化性能下降。提出一種改進(jìn)的圖正則算法,使用等距特征映射保留樣本空間的鄰域信息,幫助模型進(jìn)行流形學(xué)習(xí),同時(shí)結(jié)合使用KL約束進(jìn)一步使得數(shù)據(jù)表示的外部結(jié)構(gòu)變得光滑,從而捕獲到更稀疏和高級的特征表示。在MNIST和YaleB等數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比于流行的幾種特征提取算法,該算法能夠提取到更有意義和穩(wěn)健的特征。在分類任務(wù)和聚類任務(wù)上具有優(yōu)勢,同時(shí)具有更好的抗干擾性能。
關(guān)鍵詞: "特征表示; 圖正則; 流形學(xué)習(xí); 自編碼器; KL散度; 魯棒性; 無監(jiān)督學(xué)習(xí)
中圖分類號: "TP391.1 """文獻(xiàn)標(biāo)志碼: A
文章編號: "1001-3695(2022)02-027-0485-06
doi:10.19734/j.issn.1001-3695.2021.06.0223
Feature learning method based on improved graph regularized auto-encoder
Wu Wenbin, Zhou Wei, Tang Dongming
(School of Computer Science amp; Engineering, Southwest Minzu University, Chengdu 610041, China)
Abstract: "Traditional graph regularization methods use Euclidean distance to measure the similarity of sample space, and can not accurately preserve the neighborhood information of complex data sets, which easily lead to the degradation of the generalization performance of the model in complex shape data and non convex data sets. This paper proposed an improved graph regularization algorithm, which used isometric feature mapping to preserve the neighborhood information of the sample space and help the model learn manifold. The simultaneous used of KL constraints further smoothed the external structure of the data representation, thereby capturing more sparse and advanced feature representations. Experimental results on MNIST and YaleB datasets show that compared with several popular feature extraction algorithms, the proposed algorithm can extract more mea-ningful and robust features. It has advantages in classification and clustering tasks, and also has better anti-interference capability.
Key words: "feature representation; graph regularization; graph regularization; manifold learning; Kullback-Leibler divergence; robustness; unsupervised learning
0 引言
特征學(xué)習(xí)希望從數(shù)據(jù)集中獲得穩(wěn)健、稀疏的數(shù)據(jù)特征,幫助模型學(xué)習(xí)到輸入數(shù)據(jù)更本質(zhì)的特征,進(jìn)而使模型擁有更好的泛化性能。穩(wěn)健的特征學(xué)習(xí)方法應(yīng)能將數(shù)據(jù)中的各類解釋來源分解,在盡可能少地丟棄數(shù)據(jù)信息細(xì)節(jié)的前提下,剔除冗余信息 [1]。自編碼器(autoencoder,AE)是一類流行的特征學(xué)習(xí)方法,它讓模型的輸出盡可能靠近輸入,以便在中間隱含層得到理想的低維表示。收縮自編碼器(contractive autoencoder,CAE)通過對模型參數(shù)施加稀疏性約束,強(qiáng)迫模型通過更簡潔的結(jié)構(gòu)學(xué)到更本質(zhì)的特征 [2]。稀疏自編碼器(sparse autoencoder,SAE)著眼于隱藏表示的稀疏性,它在中間隱含層施加稀疏約束,降低隱藏變量對輸入波動的敏感性[3]。相對于深度神經(jīng)網(wǎng)絡(luò)很大程度上依賴于干凈的輸入數(shù)據(jù),降噪自編碼器(denoise autoencoder,DAE)主動對干凈輸入添加噪聲干擾[4],試圖從干擾數(shù)據(jù)中解碼得到干凈輸入,從而得到具有良好抗噪性能的模型。為了更深入地刻畫特征空間的內(nèi)在結(jié)構(gòu),Kipf等人[5]在2016年將圖的概念引入了自編碼器,即基于圖的(變分)自編碼器。圖自編碼器使用數(shù)據(jù)矩陣和鄰接矩陣成對作為模型的輸入,后者一般被視為流形學(xué)習(xí)的正則項(xiàng)。文獻(xiàn)[6]將圖正則項(xiàng)添加到受限玻爾茲曼機(jī)的損失函數(shù)中構(gòu)成圖受限玻爾茲曼機(jī)(graph regularized restricted Boltzmann machine,GRBM)最終學(xué)習(xí)到了稀疏和判別表示。文獻(xiàn)[7]中,圖自編碼器(graph regularized auto-encoders,GAE)使用圖正則項(xiàng)作為懲罰項(xiàng),捕獲了輸入空間中的局部性質(zhì)。文獻(xiàn)[8]創(chuàng)新性地將圖正則項(xiàng)作為一個(gè)單獨(dú)的網(wǎng)絡(luò)路徑,與數(shù)據(jù)重構(gòu)網(wǎng)絡(luò)并行構(gòu)成了一個(gè)雙路徑的編碼—解碼網(wǎng)絡(luò)。
上述算法在構(gòu)建圖正則項(xiàng)時(shí)都使用了經(jīng)典的圖拉普拉斯正則方法[9~11]。這一技術(shù)使用基于歐氏空間的K-NN圖或ε-圖方法構(gòu)建鄰接矩陣。然而在實(shí)際場景中,基于歐氏聚類的相似性度量一般只對凸數(shù)據(jù)有良好的性能,在復(fù)雜形狀和非凸數(shù)據(jù)中往往會失敗[12]。相比于歐氏距離,測地線距離考慮了數(shù)據(jù)的總體分布的結(jié)構(gòu)信息,能夠更準(zhǔn)確地刻畫數(shù)據(jù)空間的鄰域信息。文獻(xiàn)[13]利用測地線距離獲得數(shù)據(jù)點(diǎn)的可靠鄰居并在聚類任務(wù)上取得了良好效果,證明了測地線距離的鄰域捕獲能力。本文嘗試使用等距特征映射(isometric feature mapping ISOMAP)技術(shù)構(gòu)建圖正則項(xiàng),并結(jié)合KL項(xiàng)進(jìn)行特征學(xué)習(xí)。ISOMAP方法使用測地線距離度量兩個(gè)數(shù)據(jù)點(diǎn)之間的沿流形方向的距離,相較于簡單使用歐氏距離的度量方式,考慮了數(shù)據(jù)之間的結(jié)構(gòu)關(guān)系,因此相對來說度量的結(jié)果更符合實(shí)際分布,也更準(zhǔn)確。
1 自編碼器(AE)簡介
自編碼器一般包含編碼器(encoder)和解碼器(decoder)兩個(gè)對稱的結(jié)構(gòu),如圖1所示。前者將 高維的輸入X變?yōu)榈途S的特征表示H,后者試圖將低維表示H還原為原始輸入X rec "。
H=f( W X+b)
X rec=f( W T H+c) ""(1)
令 θ=θ( W ,b,c),其中 :W 是輸入到隱含層的權(quán)值矩陣,b、c是偏移量,表示模型的參數(shù)。激活函數(shù)f 使用sigmoid或tanh函數(shù)。
2 改進(jìn)的圖正則自編碼器
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)際應(yīng)用中,單層結(jié)構(gòu)的自編碼器往往達(dá)不到性能要求。將多個(gè)單層自編碼器結(jié)構(gòu)進(jìn)行堆疊就構(gòu)建出了多層自編碼器,如圖2所示。 對于多層網(wǎng)絡(luò)結(jié)構(gòu),一般使用分層預(yù)訓(xùn)練的方式進(jìn)行訓(xùn)練。令H i表示第i 層的隱層表示,對應(yīng)的重構(gòu)數(shù)據(jù)為X ^ "i。此時(shí)第i層的輸入數(shù)據(jù)是第i-1層的隱層表示H i-1 。
本文提出了一種新的特征學(xué)習(xí)算法,稱做改進(jìn)的圖正則自編碼器(improvement graph regularized auto-encoders,ImpGAE)。采用分層預(yù)訓(xùn)練的方式對模型進(jìn)行訓(xùn)練,第 i 層的目標(biāo)函數(shù)為
J= 1 n ‖H i-1-X i ^ ‖2 F+ β n tr(H i L H T "i)+ηK L (ρ‖ρ i Λ ) ""(2)
其中:第一項(xiàng)是( H i-1-X i ^ ")的Frobenius范數(shù),表示第 i層的重構(gòu)誤差項(xiàng),n表示樣本個(gè)數(shù),‖·‖2 F 表示Frobenius范數(shù);第二項(xiàng)表示圖正則項(xiàng),其中 tr(·)表示矩陣的跡運(yùn)算,L稱為圖的拉普拉斯矩陣[14],β是該項(xiàng)的權(quán)重系數(shù);第三項(xiàng)表示對隱含層節(jié)點(diǎn)的 KL約束,其中KL(·)表示KL 散度運(yùn)算,用以衡量兩個(gè)分布的相似程度,ρ ^ 和ρ分別表示隱層節(jié)點(diǎn)的平均激活度和設(shè)定的稀疏度常數(shù),η是權(quán)值系數(shù)。本文使用改進(jìn)的圖正則項(xiàng)學(xué)習(xí)數(shù)據(jù)的潛在流形,同時(shí)使 用KL約束對模型的隱含層輸出進(jìn)行稀疏性約束,使用動機(jī)以及相關(guān)的變量計(jì)算將在下節(jié)進(jìn)行詳細(xì)介紹。
得到目標(biāo)函數(shù)后,令θ i=(W i,b i,c i)表示第i層的模型參數(shù),進(jìn)行優(yōu)化 得到解:
θ ^ "i= arg min ""1 n ‖H i-1-X ^ "i‖2 F+ β n tr(H i L H T "i)+ηK L (ρ‖ρ ^ "i) """"(3)
值得一提的是,不同層的圖拉普拉斯矩陣都是由原始輸入數(shù)據(jù)生成的,因?yàn)楸疚南M鲗颖硎径寄軌虮3峙c原始空間相同的局部信息。最內(nèi)層網(wǎng)絡(luò)結(jié)構(gòu)隱藏層的輸出被看做是模型學(xué)習(xí)到的表示,可用于分類或聚類。
2.2 基于ISOMAP的圖正則項(xiàng)
在流形學(xué)習(xí)的假設(shè)下,數(shù)據(jù)樣本被認(rèn)為是位于高維空間中的低維流形附近。如果兩個(gè)數(shù)據(jù)點(diǎn) x i和x j在 數(shù)據(jù)分布的幾何結(jié)構(gòu)中很接近,那么它們對應(yīng)的低維特征表示也應(yīng)該彼此接近。這一思想通常被稱為局部不變性[15],在降維算法的設(shè)計(jì)中起著至關(guān)重要的作用。
將這一思想引入自編碼器中就得到了圖正則化自編碼器,圖正則自編碼器通過在自編碼器的重構(gòu)誤差項(xiàng)上添加額外的圖正則項(xiàng),幫助自編碼器學(xué)習(xí)數(shù)據(jù)的潛在流形。
傳統(tǒng)圖正則首先使用歐氏距離確定樣本之間的距 離d,然后根據(jù)d的大小確定樣本之間是否有連接以及連接的權(quán)重值φ ij的大小。φ ij一般使用高斯核函數(shù)定義(如果節(jié)點(diǎn)x j和x j連接,則φ ij= exp (-‖x i-x j‖2/ρ,其中ρ是核寬度)或者0,1編碼定義(如果節(jié)點(diǎn)x i和x j有邊連接,則φ ij=1,否則φ ij=0)。樣本在原始空間越接近,權(quán)重值φ ij越大,其矩陣形式寫做 Φ =[φ ij] n×n稱為鄰接矩陣,是一個(gè)稀疏矩陣。基于局部不變性的思想 ,圖正則項(xiàng)設(shè)計(jì)為
∑ i ∑ j φ ij‖h i-h(huán) j‖2 ""(4)
其中: h i和h j表示數(shù)據(jù)在隱含層的輸出。通過最小化式(4), 原始空間接近的樣本點(diǎn),在隱藏空間也將變得接近。令 L = D - Φ ,其中 D =[d ij] n×n為對角矩陣,表示數(shù)據(jù)矩陣的度矩陣,d ii= ∑ j φ ij。式(4)可進(jìn)一步改寫為矩陣形式tr( HLH T), H 表 示隱藏表示的矩陣形式。
鄰接圖是表示樣本點(diǎn)之間相鄰關(guān)系的數(shù)據(jù)圖,包含了輸入空間的連接信息,在圖正則項(xiàng)中發(fā)揮著重要的作用。與傳統(tǒng)使用歐氏距離構(gòu)建鄰接圖的方式不同,本文使用基于等距特征映射的方式進(jìn)行鄰接圖的構(gòu)建,即使用基于連通圖的最短路徑作為數(shù)據(jù)的鄰域信息。等距特征映射的思想最早由Tenenbaum等人[16]提出,它使用兩點(diǎn)之間沿連通分支方向的最短路徑來近似其測地線距離,是一種常用的低維嵌入方法。
ISOMAP算法思想如下:首先設(shè)置樣本點(diǎn)的連接 數(shù)K,計(jì)算每個(gè)樣本點(diǎn)的K最近鄰點(diǎn),模擬數(shù)據(jù)點(diǎn)之間的連通情況。令G= [g ij] n×n,表示輸入數(shù)據(jù)的連通圖。如果x j是x i的K最近鄰點(diǎn),則g ij=1,否則g ij=0。然后根據(jù)數(shù)據(jù)點(diǎn)的連通情況計(jì)算它們的最短路徑。最短路徑的計(jì)算主 要有Dijkstra和Floyd-Warshall算法等,不同的計(jì)算方法得到結(jié)果的差異性不大,本文選取后者作為計(jì)算方式。再令 S =[s ij] n×n,表示最短路徑矩陣,其中s ij表示根據(jù)連通圖計(jì)算得到的兩點(diǎn)之間的最短路徑。最后使用樣本點(diǎn)之間最短路徑的大小衡量它們之間的相似性。同時(shí),通過下面兩種方式可 以實(shí)現(xiàn)連接邊的自動確定:
a)由于在 G中,樣本點(diǎn)只會與最近的K個(gè)點(diǎn)連通。所以在最短路徑矩陣中,不在同一連通分支的樣本點(diǎn)會由于無法連通而 自動隔斷。
b)對鄰 域內(nèi)的最短路徑設(shè)置上限值u。即對于樣本點(diǎn)x i來說,如果點(diǎn)x j滿足s ijgt;u,認(rèn)為x j不在x i的鄰域內(nèi),兩點(diǎn)之間也沒有連 接。
除了能夠?qū)崿F(xiàn)連接邊的自動確定,該連接方式在非線性的情況下也具有優(yōu)勢。圖3(a)表示傳統(tǒng)的基于歐氏距離的兩點(diǎn)之間的距離情況,樣 本點(diǎn)x i和x j之間由于歐氏距離較短,極有可能會進(jìn)入x i的鄰域信息中,從而保留錯(cuò)誤的鄰域信息 。圖3(b)中,基于最短路徑的度量方法, x i和x j之間的距離尺度更貼合實(shí)際情況。此時(shí)x j難以進(jìn)入x i的鄰域信息中,避免了歐氏距離 直觀判斷的干擾。
基于局部不變性的思想,當(dāng)兩個(gè)樣本在原始空間中越接近,其相似性權(quán)重值 φ ij 應(yīng)該越大。本文采用高斯核函數(shù)進(jìn)行權(quán)重值的計(jì)算。
φ ij= e - ‖s ij‖2 σ ""x j與x i有邊的連接
0 x j與x i沒有邊的連 接 """(5)
其中: σ為高斯核參數(shù),由用戶定義。用以控制點(diǎn)的鄰域中不同距離鄰接點(diǎn)的權(quán)重占比,σ越大,較遠(yuǎn)距離的鄰接點(diǎn)所占權(quán)重越高。
2.3 KL正則項(xiàng)
根據(jù)流形學(xué)習(xí)的理論,好的流形結(jié)構(gòu)在內(nèi)部和外部都應(yīng)當(dāng)保持光滑[1]。因此除了使用圖正則項(xiàng)幫助AE學(xué)習(xí)數(shù)據(jù)潛在流形,本文還使用KL正則項(xiàng)幫助自編碼器約束隱含層的輸出,使其變得光滑和稀疏,形式為
KL(ρ‖ρ ^ "j)=ρ log "ρ ρ ^ "+ (1-ρ) log "1-ρ 1-ρ ^ """"(6)
其中:當(dāng)前隱含層節(jié)點(diǎn)的平 均激活度ρ ^ "j=(1/n)∑ n i=1 h(j) i;h(j) i表示第j層的第i個(gè)隱藏節(jié)點(diǎn)的輸出。通過將ρ設(shè)置為一個(gè)趨近于0的常量,迫使隱含層節(jié)點(diǎn)的取值趨向于很小的數(shù)。最小化式(6)將迫使 低維表示重視對數(shù)據(jù)特征有價(jià)值的維度,放棄對數(shù)據(jù)特征不重要的維度。
2.4 模型訓(xùn)練
本文模型使用式(2)作為損失函數(shù)進(jìn)行特征學(xué)習(xí)。由于模型輸入包含輸入數(shù)據(jù)和鄰接矩陣,而輸入數(shù)據(jù)集的鄰域信息在每一層的迭代過程中都是相同的。根據(jù)2.1節(jié)的方法計(jì)算輸入數(shù)據(jù)的連通圖和最短路徑,然后由式(5)計(jì)算邊的權(quán)值得到鄰接矩陣 Φ ,由 L = D - Φ 計(jì)算得到圖拉普拉斯矩陣 L 。將矩陣 L 存儲起來,然后 L 被看做常量信息在每個(gè)訓(xùn)練批中被使用。使用隨機(jī)梯度下降算法進(jìn)行分層訓(xùn)練,訓(xùn)練過程如算法1所示。
算法1 ImpGAE的分層訓(xùn)練算法
輸入:訓(xùn)練數(shù)據(jù) X,n;矩陣 L ;稀疏系數(shù)ρ;批次epoch;批次數(shù)據(jù)量epochSize;正則系數(shù)β和KL正則系數(shù)η 。
輸出:當(dāng)前層模型的特征表示。
初始化當(dāng)前模型的參數(shù) θ ;
for "i "in "epoch :
將數(shù)據(jù) X 的順序進(jìn)行隨機(jī)打亂
if已訓(xùn)練數(shù)據(jù)量 lt;n
從 X中取出子數(shù)據(jù)data
對 data執(zhí)行前向傳播,得到隱藏表示H,然后計(jì)算H的平均 激活度
由式(2)計(jì)算損失函數(shù) J
更新模型參數(shù) W,b,c
end if
end for
然后將訓(xùn)練好的各層進(jìn)行堆疊。具體來說,使用 第l-1層的隱層表示作為第l層輸入 數(shù)據(jù),將最后一層的隱層表示作為整個(gè)模型的特征輸出。模型學(xué)習(xí)到的特征可用于分類或聚類,實(shí)驗(yàn)將通過測試特征表示的分類和聚類性能,對特征學(xué)習(xí)的好壞進(jìn)行評估。
3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)在聚類和分類任務(wù)中的性能方面進(jìn)行評估,包括手 寫數(shù)字體數(shù)據(jù)集(MNIST)[17]、MNIST數(shù)據(jù)集的旋轉(zhuǎn)版本(MNIST_ rot)[18]、凸形識別數(shù)據(jù)集(convex)[18]和耶魯大學(xué)數(shù)據(jù)庫B擴(kuò)展數(shù)據(jù)集(YaleB)[19]四個(gè)數(shù)據(jù)集。為了驗(yàn)證算法的特征學(xué)習(xí)能力,ImpGAE與一些流行的無監(jiān)督特征學(xué)習(xí)算法進(jìn)行比較:a)進(jìn)化無監(jiān)督深度神經(jīng)網(wǎng)絡(luò)(EUDNN)[20],使用遺傳算法選取 多層神經(jīng)網(wǎng)絡(luò)模型的初始參數(shù),然后使用反向傳播進(jìn)行參數(shù)的微調(diào),學(xué)習(xí)得到最終的輸出層;b)針對圖像表示的圖正則自編碼器(GAE)[7],使用傳統(tǒng)的歐氏聚類進(jìn)行圖正則項(xiàng)計(jì)算,結(jié)合自編碼器進(jìn)行特征學(xué)習(xí);c)圖受限玻爾茲曼機(jī)(GrapRBM)[6],則是將圖正則項(xiàng)與受限玻爾茲曼機(jī)結(jié)合進(jìn)行特征學(xué)習(xí);d)卷積深度信念網(wǎng)CDBNs[21],將卷積網(wǎng)絡(luò)應(yīng)用于DBN模型得到的層次生成模型可以學(xué)習(xí)高維的圖像層次表示;e)其他自編碼器的常見變體,即堆疊稀疏自編碼器(SSAE)[22]、堆疊降噪自編碼器(SDAE)[23]和堆疊收縮自編碼器(SCAE)[24]。為保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,取30次實(shí)驗(yàn)的平均值作為最終結(jié)果。
3.1 數(shù)據(jù)集介紹及基本參數(shù)設(shè)置
MNIST數(shù)據(jù)集是手寫數(shù)字的圖片數(shù)據(jù)集,每張圖片都是28×28的灰度圖,有0~9共10類標(biāo)簽。數(shù)據(jù)集包含五萬條訓(xùn)練數(shù)據(jù)和一萬條測試數(shù)據(jù)。一般需要將灰度圖片轉(zhuǎn)換為784維的矩陣作為算法輸入數(shù)據(jù)使用;MNIST_rot數(shù)據(jù)集是在MNIST的基礎(chǔ)上將每張圖進(jìn)行隨機(jī)旋轉(zhuǎn),進(jìn)一步增大了算法的學(xué)習(xí)難度;convex是28×28的幾何圖形數(shù)據(jù)集,標(biāo)簽表示對應(yīng)的圖形是否為凸形,有0,1兩類標(biāo)簽;YaleB數(shù)據(jù)集包含2 470張38個(gè)人的正面圖像,每個(gè)人物對象有65張圖像,圖像大小為192×168像素。
當(dāng)特征學(xué)習(xí)模型訓(xùn)練完畢,利用最內(nèi)層模型的隱含層輸出訓(xùn)練一個(gè)獨(dú)立的分類器,并在測試集上獲得分類精度。為了測試在異常值和隨機(jī)噪聲條件下的特征學(xué)習(xí)能力,使用高斯噪聲對原始數(shù)據(jù)進(jìn)行破壞,以概率 p對數(shù)據(jù)進(jìn)行隨機(jī)置零。p 越大表示數(shù)據(jù)受到的破壞越嚴(yán)重,如圖4所示。
實(shí)驗(yàn)將不同算法的特征表示作為輸入數(shù)據(jù)用于分類和無監(jiān)督聚類,使用分類和聚類性能評估對應(yīng)算法的性能結(jié)果,如圖5所示。聚類算法和分類算法分別使用K-means無監(jiān)督聚類方法和softmax神經(jīng)網(wǎng)絡(luò)模型。其 中classify_acc表示分類精度,cluster_acc表示聚類精度,cluster_acc 的定義為
cluster_acc= ∑ n i=1 δ(I i, map ( "i)) n """(7)
其中: I i、 "i分別表示樣本點(diǎn)x i的真實(shí)標(biāo) 簽和使用聚類算法的預(yù)測標(biāo)簽;map(·)表示預(yù)測標(biāo)簽與真實(shí)標(biāo)簽最匹配的轉(zhuǎn)換映射。map(·)為狄 拉克δ函數(shù),即若i=j,則δ(i,j)=1;否則δ(i,j)= 0。
為考察算法在數(shù)據(jù)集遭受噪聲干擾以及數(shù)據(jù)量不足等惡劣情形下的表現(xiàn),對于MNIST、MNIST_rot數(shù)據(jù)集,每次隨機(jī)抽取兩萬條數(shù)據(jù)進(jìn)行訓(xùn)練,測試集數(shù)量不變,同時(shí)不斷增加噪聲,測試在更少的訓(xùn)練數(shù)據(jù)量以及有噪聲干擾的情況下不同算法的應(yīng)對能力。
同一數(shù)據(jù)集上的各算法保持基本參數(shù)的一致。MNIST、MNIST_rot以及convex數(shù)據(jù)集的第一隱含層都設(shè)置為500個(gè)節(jié)點(diǎn),第二隱含層都設(shè)置為361個(gè)節(jié)點(diǎn);YaleB數(shù)據(jù)集的第一隱含層為1 220個(gè)節(jié)點(diǎn),第二隱含層為900個(gè)節(jié)點(diǎn)。其他參數(shù)按照各算法調(diào)優(yōu)后情況進(jìn)行配置。
3.2 實(shí)驗(yàn)過程介紹
本文采用如圖2所示的兩層ImpGAE堆疊模型,每一層為經(jīng)典的“輸入層—隱藏層—輸出層”的自編碼器結(jié)構(gòu)。模型整體使用分層訓(xùn)練方式進(jìn)行學(xué)習(xí),每層模型的輸入包含輸入數(shù)據(jù) X和圖拉普拉斯矩陣 L ,使用隨機(jī)梯度下降算法學(xué)習(xí)當(dāng)前層的隱層特征。實(shí)驗(yàn)的整體流程如圖6所示。
首先介紹 L 的計(jì)算過程,如圖6“計(jì)算拉普拉斯矩陣 L ”部分所示。首先對原始數(shù)據(jù)X使用 K最近鄰算法,計(jì)算出每個(gè)樣本點(diǎn)的鄰接點(diǎn),屬于樣本點(diǎn)鄰居的樣本才視做與其連通,以此模擬數(shù)據(jù)集的連通情況;然后根據(jù)連通情況使用Floyd-Warshall算法計(jì)算樣本點(diǎn)之間的最短路徑,并將大于上限值 u的最短路徑置零,表示樣本點(diǎn)之間斷開連接;由式(5)高斯核函數(shù)進(jìn)一步計(jì)算邊的權(quán)值得到鄰接矩陣 Φ ,由 L = D - Φ 最終計(jì)算得到 L 。
模型訓(xùn)練階段,首先進(jìn)行特征提取模型的訓(xùn)練。在每一個(gè)訓(xùn)練批次中,首先計(jì)算出隱藏層的平均激活度,然后由式(6)計(jì)算得到KL正則項(xiàng)的損失值。同時(shí)由得到的 L 計(jì)算得到圖正則項(xiàng)的損失值和重構(gòu)誤差項(xiàng),最終得到當(dāng)前批次總的損失函數(shù)J并進(jìn)行參數(shù)的更新。當(dāng)前層訓(xùn)練完畢后得到的隱層特征表示H i將作為下一層模型的輸入數(shù)據(jù)。訓(xùn)練完成后得到模型最終的特征表示H。同時(shí)使用H作為輸入數(shù)據(jù)進(jìn)行聚類模型和分類模型的訓(xùn)練, 并將訓(xùn)練好的特征提取模型model,聚類模型cluster,分類模型classifier進(jìn)行保存,如圖6所示。
測試階段,首先對測試集添加不同程度噪聲干擾,然后使用model對測試集進(jìn)行特征提取,得到測試數(shù)據(jù)集的特征表示 H_t, 然后使用聚類器cluster和分類器classifier對 H_t進(jìn) 行聚類和分類,并對聚類和分類結(jié)果進(jìn)行評估。對于聚類性能,本文使用式(7)將聚類結(jié)果和樣本真實(shí)的聚類情況進(jìn)行比較,得出聚類 精度。對應(yīng)測試集的標(biāo)簽y test被看做是H_t真實(shí)的聚類情況。對于分類性能,本文將H_t作為輸 入數(shù)據(jù), y test作為 輸入數(shù)據(jù)的標(biāo)簽,使用三層神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)。 classify_acc 的計(jì)算公式為
classify_acc= ∑ n i=1 δ(y pre,y test) n """(8)
其中: y pre 表示分類網(wǎng)絡(luò)的預(yù)測結(jié)果。
用以對比的其他算法只是對計(jì)算拉普拉斯矩陣和模型方面進(jìn)行替換。獲取特征表示后,測試階段的處理流程與ImpGAE算法相同。
3.3 圖正則項(xiàng)和KL正則項(xiàng)的影響
單獨(dú)的AE結(jié)構(gòu)由于只考察了數(shù)據(jù)的重構(gòu)誤差項(xiàng),所以對輸入數(shù)據(jù)的變化敏感,受噪聲影響很大。為探討模型中圖正則項(xiàng)和KL約束項(xiàng)分別對算法產(chǎn)生的影響,本文依次去掉ImpGAE算法中的圖正則項(xiàng)和KL約束項(xiàng)得到模型ImpGAE_noGp和ImpGAE_noKL,在MNIST數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與ImpGAE算法進(jìn)行比較得到表1、2。
從表1來看,圖正則項(xiàng)對特征表示的分類性能影響不大,而KL正則項(xiàng)對分類性能的影響較大,當(dāng)增大對數(shù)據(jù)的干擾時(shí),分類性能的下降更加明顯。
從表2來看,圖正則項(xiàng)對特征表示的聚類性能有較大影響,添加圖正則項(xiàng)后,原始數(shù)據(jù)聚類精度從58.1%提升到71.8%;而KL正則項(xiàng)對聚類性能的影響相對小一些。
結(jié)合表1、2結(jié)果來看,圖正則對模型的聚類性能有較大幫助,最大提升了13.7%,對分類進(jìn)度的影響相對較小;KL項(xiàng)幫助模型提高了分類精度,同時(shí)增強(qiáng)了模型的抗干擾能力。
學(xué)習(xí)到表示數(shù)據(jù)的可視化結(jié)果如圖7所示,本文從低維特征中隨機(jī)取出標(biāo)簽為“0”的兩個(gè)樣本,然后按照樣本各個(gè)維度的取值大小作柱狀圖。圖中橫軸表示樣本的各個(gè)維度,縱軸表示對應(yīng)維度的取值。可以看出,單獨(dú)的KL項(xiàng)幾乎只是令隱含層節(jié)點(diǎn)的取值普遍變得更小,并沒有學(xué)習(xí)到有判別性的特征。結(jié)合圖7(a)(c)可以看出,盡管單獨(dú)的圖正則項(xiàng)也能幫助模型學(xué)習(xí)到較為有用的特征,但是數(shù)據(jù)形式十分冗余,不同維度對特征的重要性差距不大。而在圖正則項(xiàng)的基礎(chǔ)上添加KL正則約束后,如圖7 (a)所示,在保留判別性特征的同時(shí),數(shù)據(jù)形式變得稀疏,不同維度重要性之間的差距大大增加,最終得到稀疏和更有判別性的表示。
3.4 不同算法的比較
3.4.1 分類精度的比較
在MNIST、MNIST_rot、YaleB和convex數(shù)據(jù)集上的分類結(jié)果分別見表3~6。分類準(zhǔn)確率隨 p 值的變化情況如圖8所示。
結(jié)合表3~6的分類結(jié)果可以看出,在原始數(shù)據(jù)以及噪聲干擾較小的情況下ImpGAE算法的分類精度與對比算法相比不一定是最好的,但整體上相當(dāng);當(dāng)加大噪聲干擾時(shí),ImpGAE算法良好的抗干擾性能開始凸顯。當(dāng) p gt;0.4時(shí),ImpGAE算法的準(zhǔn)確率相比其他算法有較明顯優(yōu)勢。如表3中,當(dāng) p =0.8時(shí)ImpGAE算法的準(zhǔn)確率為66.5%,而其他算法大多低于40%。
從圖8能直觀看出,當(dāng)數(shù)據(jù)損壞程度 p較小時(shí),所有算法的分類精度都處于較高的水平;當(dāng)pgt; 0.4以后,ImpGAE算法開始逐漸具有優(yōu)勢,且 p 越大其優(yōu)勢越明顯。
從實(shí)驗(yàn)結(jié)果可以看出,相較于對比算法,ImpGAE具有更好的抗干擾性能,改進(jìn)的圖正則項(xiàng)和KL約束項(xiàng)幫助自編碼器學(xué)習(xí)到了更稀疏和更本質(zhì)的特征表示,從而在數(shù)據(jù)遭受較嚴(yán)重?fù)p壞時(shí)擁有更穩(wěn)定的分類性能表現(xiàn)。
3.4.2 無監(jiān)督聚類精度的比較
與分類問題不同,聚類問題沒有標(biāo)簽信息,聚類的最終結(jié)果幾乎只能依賴數(shù)據(jù)本身的結(jié)構(gòu),因此更能反映所提取到的特征是否有價(jià)值。
類似于3.4.1節(jié),本文模型最內(nèi)層網(wǎng)絡(luò)的隱含層輸出訓(xùn)練獨(dú)立的K-means聚類器,并在測試集上獲得聚類精度。在MNIST和MNIST_rot數(shù)據(jù)集上的聚類結(jié)果分別見表7、8。
結(jié)合表7、8的結(jié)果可以看到,在同樣的噪聲破壞程度下ImpGAE算法始終具有明顯優(yōu)勢,表明改進(jìn)的圖正則項(xiàng)幫助模型提高了在不同數(shù)據(jù)集上的聚類表現(xiàn)。
為了進(jìn)一步揭示各算法特征表示的聚類性能,將各算法在MNIST數(shù)據(jù)集上得到的隱層表示進(jìn)一步降維,得到二維的樣本數(shù)據(jù)。并對其進(jìn)行可視化,如圖9所示。樣本中來自同一個(gè)類的數(shù)據(jù)點(diǎn)用相同的符號進(jìn)行標(biāo)記。好的隱層表示應(yīng)當(dāng)將同一符號標(biāo)記的樣本盡量聚集在一起,不同符號標(biāo)記的樣本盡量分散,減少混合。
如圖9所示,傳統(tǒng)的特征學(xué)習(xí)算法如SCAE、SDAE和SSAE,最主要的問題是無法對相似數(shù)據(jù)點(diǎn)如“4”和“9”(圖中標(biāo)記為紫色和淺藍(lán)色的兩個(gè)簇,見電子版)進(jìn)行準(zhǔn)確的劃分, 實(shí)際上在手寫體中兩者的確難以區(qū)分,這給模型帶來了較大的挑戰(zhàn)。本文使用的基于最短路徑的鄰接矩陣則幫助模型只著重關(guān)注最重要的鄰域信息,從而一定程度上避免了受到錯(cuò)誤相似點(diǎn)的誤導(dǎo)。同時(shí),KL約束項(xiàng)進(jìn)一步約束數(shù)據(jù)的外部結(jié)構(gòu),使其變得稀疏,最終獲得比GrapRBM、GAE等算法更干凈的分布。
4 結(jié)束語
傳統(tǒng)圖正則方法使用歐氏聚類衡量樣本空間的相似度, 這種方式在計(jì)算復(fù)雜數(shù)據(jù)或非線性數(shù)據(jù)的鄰域信息時(shí)往往不夠準(zhǔn)確。本文根據(jù)流形學(xué)習(xí)的理論,提出基于ISOMAP獲取圖正則化的方法,能夠保留更準(zhǔn)確的鄰域信息,幫助模型學(xué)習(xí)到數(shù)據(jù)更真實(shí)的潛在結(jié)構(gòu)。同時(shí)使用KL正則項(xiàng)對特征表示的外部結(jié)構(gòu)進(jìn)行光滑性約束,進(jìn)一步捕獲稀疏而有意義的數(shù)據(jù)特征。實(shí)驗(yàn)結(jié)果表明,算法學(xué)習(xí)到的特征表示在分類任務(wù)和聚類任務(wù)上均表現(xiàn)出了良好的性能,同時(shí)在抗干擾實(shí)驗(yàn)中,新算法比對比算法也有更好的表現(xiàn),表明本文方法的確學(xué)習(xí)到了更有價(jià)值的數(shù)據(jù)表示。本文只使用了通用性的方法對模型性能進(jìn)行分析,下一步將結(jié)合具體的學(xué)習(xí)任務(wù),探討本文模型更多的應(yīng)用。
參考文獻(xiàn):
[1] "Melas-Kyriazi L. The mathematical foundations of manifold learning[EB/OL].(2020-10-30).https://arxiv.org/abs/2011.01307.
[2] Rifai S, Vincent P, Muller X, "et al . Contractive auto-encoders:explicit invariance during feature extraction[C]//Proc of the 28th International Conference on International Conference on Machine Lear-ning.2011:833-840.
[3] Chen Kunjin, Hu Jun, He Jinliang. A framework for automatically extracting overvoltage features based on sparse autoencoder[J]. IEEE Trans on Smart Grid ,2018, 9 (2):594-604.
[4] Vincent P, Larochelle H, Bengio Y, "et al . Extracting and composing robust features with denoising autoencoders[C]//Proc of the 25th International Conference on Machine Learning.2008:1096-1103.
[5] Kipf T N, Welling M. Variational graph auto-encoders[EB/OL].(2016-11-21).https://arxiv.org/abs/1611.07308.
[6] Chen Dongdong, Lyu Jiancheng, Yi Zhang. Graph regularized restricted Boltzmann machine[J]. IEEE Trans on Neural Networks and Learning Systems ,2018, 29 (6):2651-2659.
[7] Liao Yiyi, Wang Yue, Liu Yong. Graph regularized auto-encoders for image representation[J]. IEEE Trans on Image Processing ,2017, 26 (6):2839-2852.
[8] Yang Shijie, Li Liang, Wang Shuhui, "et al . Graph regularized encoder-decoder networks for image representation learning [J]. IEEE Trans on Multimedia ,2021, 23 :3124-3136.
[9] Majumdar A. Graph structured autoencoder[J]. Neural Networks ,2018, 106 :271-280.
[10] Tian Fei, Gao Bin, Cui Qing, "et al . Learning deep representations for graph clustering[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.2014:1293-1299.
[11] Jia Kui, Sun Lin, Gao Shenghua, "et al . Laplacian auto-encoders:an explicit learning of nonlinear data manifold[J]. Neurocomputing ,2015, 160 :250-260.
[12] 王治和,王淑艷,杜輝.基于密度敏感距離的改進(jìn)模糊C均值聚類算法[J].計(jì)算機(jī)工程,2021, 47 (5):88-96,103.(Wang Zhihe, Wang Shuyan,Du Hui. Improved fuzzy C-means clustering algorithm based on density-sensitive distance[J]. Computer Engineering ,2021, 47 (5):88-96,103.)
[13] 鄭毅,馬盈倉,楊小飛.基于可靠鄰居與精確簇?cái)?shù)的稀疏子空間聚類[J].計(jì)算機(jī)應(yīng)用研究,2021, 38 (1):75-82.(Zheng Yi, Ma Yingcang, Yang Xiaofei. Sparse subspace clustering based on reliable neighbors and exact number[J]. Application Research of Compu-ters ,2021, 38 (1):75-82.)
[14] Ng A Y, Jordan M I, Weiss Y. On spectral clustering: analysis and an algorithm[C]//Advances in Neural Information Processing Systems.2002:849-856.
[15] Belkin M, Niyogi P, Sindhwani V. Manifold regularization: a geometric framework for learning from labeled and unlabeled examples[J]. Journal of Machine Learning Research ,2006, 7 (11):2399-2434.
[16] Tenenbaum J B, De S V, Langford J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science ,2000, 290 (5500):2319-2323.
[17] LeCun Y, Bottou L, Bengio Y, "et al . Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE ,1998, 86 (11):2278-2324.
[18] Larochelle H, Erhan D, Courville A, "et al . An empirical evaluation of deep architectures on problems with many factors of variation[C]//Proc of the 24th International Conference on Machine Learning.2007:473-480.
[19] Georghiades A S, Belhumeur P N, Kriegman D J. From few to many: illumination cone models for face recognition under variable lighting and pose[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2001, 23 (6):643-660.
[20] Sun Y, Yen G G, Yi Z. Evolving unsupervised deep neural networks for learning meaningful representations[J]. IEEE Trans on Evolutionary Computation ,2018, 23 (1):89-103.
[21] Lee H, Grosse R, Ranganath R, "et al . Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proc of the 26th Annual International Conference on Machine Learning.2009:609-616.
[22] Shin H C, Orton M R, Collins D J, "et al . Stacked autoencoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2012, 35 (8):1930-1943.
[23] Vincent P, Larochelle H, Lajoie I, "et al . Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research ,2010, 11 :3371-3408.
[24] Liu Yanan, Feng Xiaoqing, Zhou Zhiguang. Multimodal video classification with stacked contractive autoencoders[J]. Signal Proces-sing ,2016, 120 :761-766.