鮑靜益 徐 寧 尚蘊(yùn)浩 楚 昕
①(常州工學(xué)院 常州 213032)
②(河海大學(xué)常州校區(qū) 常州 213022)
人工智能領(lǐng)域(Artifical Intelligence, AI)經(jīng)久不衰的一個(gè)研究話題是基于機(jī)器視覺的圖像理解與分類識(shí)別。不可否認(rèn),卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)在其中扮演了重要的角色,被一致公認(rèn)為主流方法之一。然而,CNN亦存在本質(zhì)缺陷:無(wú)法識(shí)別物體的姿勢(shì)和形變。因此,文獻(xiàn)[1]提出創(chuàng)新的膠囊網(wǎng)絡(luò)(Capsule Network,CN)來(lái)代替CNN,并取得了令人鼓舞的效果:2017年的向量膠囊網(wǎng)絡(luò)刷新了MNIST數(shù)據(jù)集的最高準(zhǔn)確率;2018年的矩陣膠囊網(wǎng)絡(luò)在Smallnorb數(shù)據(jù)集上達(dá)到了僅僅1.8%的錯(cuò)誤率[2]。更有研究人員將膠囊網(wǎng)絡(luò)的應(yīng)用從圖像分類擴(kuò)展到文本分類、自然語(yǔ)言處理以及對(duì)抗網(wǎng)絡(luò)等領(lǐng)域,并且在學(xué)術(shù)研究和實(shí)際應(yīng)用場(chǎng)景中證明了膠囊網(wǎng)絡(luò)的表現(xiàn)普遍優(yōu)于當(dāng)前場(chǎng)景最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型[3,4]。
目前來(lái)看,膠囊網(wǎng)絡(luò)亦存在一些不足:一是經(jīng)典路由使用前必須告知輸入數(shù)據(jù)的類別總數(shù),過(guò)度依賴先驗(yàn)知識(shí)的人工確定,不具備自主學(xué)習(xí)的能力;二是主流膠囊網(wǎng)絡(luò)本質(zhì)上均為監(jiān)督學(xué)習(xí),強(qiáng)烈依賴數(shù)據(jù)標(biāo)定,在面對(duì)無(wú)標(biāo)注數(shù)據(jù)時(shí),缺乏提煉抽象本征特征參數(shù)的能力。
針對(duì)第1個(gè)不足,文獻(xiàn)[5]提出利用變分路由來(lái)克服。首先,基于變分路由的膠囊網(wǎng)絡(luò)作用于矩陣膠囊,與向量膠囊相比,有特征區(qū)別度高和計(jì)算量小的優(yōu)勢(shì);其次,通過(guò)使用對(duì)數(shù)據(jù)先驗(yàn)干涉少的高斯混合模型(Gaussian Mixture Model, GMM)來(lái)擬合低級(jí)膠囊,滿足自動(dòng)確定數(shù)據(jù)類別數(shù)的要求,增強(qiáng)了網(wǎng)絡(luò)的魯棒性;最后,利用變分法擬合近似分布,避免了參數(shù)最大似然點(diǎn)估計(jì),置信度計(jì)算提高了泛化性能[6]。本文在前期工作的基礎(chǔ)上補(bǔ)充了更廣泛的實(shí)驗(yàn),用來(lái)展示變分路由的性能和優(yōu)勢(shì),并對(duì)算法進(jìn)行了更為詳盡的闡述和分析。
針對(duì)第2個(gè)不足,本文嘗試構(gòu)建一個(gè)能作用無(wú)監(jiān)督學(xué)習(xí)的新型膠囊網(wǎng)絡(luò)結(jié)構(gòu),提出了一種基于互信息評(píng)價(jià)的膠囊自編碼器。該模型有如下優(yōu)勢(shì):(1)引入局部編碼器。使網(wǎng)絡(luò)擁有從局部特征到全局特征的認(rèn)知過(guò)程;(2)保留了對(duì)象空間特征。編碼器的輸出為膠囊結(jié)構(gòu),這樣的矢量結(jié)構(gòu)能夠在保留原始空間特征的同時(shí)增強(qiáng)網(wǎng)絡(luò)魯棒性;(3)實(shí)現(xiàn)了特征的篩選。利用基于矢量重構(gòu)的互信息作為損失函數(shù)修正網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)具備對(duì)編碼膠囊的篩選能力,只保留最特別的編碼特征。
本文結(jié)構(gòu)安排如下:第2節(jié)闡述了經(jīng)典膠囊網(wǎng)絡(luò)的實(shí)現(xiàn)原理;第3節(jié)給出變分路由的詳盡推導(dǎo)以及基于互信息的膠囊自編碼器模型;第4節(jié)對(duì)上述創(chuàng)新工作進(jìn)行了實(shí)驗(yàn)驗(yàn)證和分析;第5節(jié)給出本文的總結(jié)。
膠囊的靈感來(lái)源于大腦視覺皮層中的微柱體,定義為一定數(shù)量的單神經(jīng)元以某種形式的組合[7]。經(jīng)典膠囊的組成方式有向量和矩陣兩種,向量膠囊以列向量形式存在,而矩陣膠囊則包含了神經(jīng)元、姿勢(shì)矩陣和一個(gè)標(biāo)量激活值。若膠囊網(wǎng)絡(luò)的輸入數(shù)據(jù)類別為K,那么最終會(huì)得到K個(gè)高級(jí)膠囊,每個(gè)高級(jí)膠囊中包含的不同特征值代表輸入數(shù)據(jù)的不同屬性,比如手寫數(shù)字線條的粗細(xì)、傾斜程度和大小等。高級(jí)向量膠囊的長(zhǎng)度表示網(wǎng)絡(luò)將該輸入判斷為當(dāng)前膠囊所對(duì)應(yīng)類別的概率,因此模長(zhǎng)最長(zhǎng)的膠囊決定了網(wǎng)絡(luò)對(duì)當(dāng)前輸入的預(yù)測(cè)輸出。高級(jí)矩陣膠囊中姿勢(shì)矩陣的不同元素對(duì)應(yīng)網(wǎng)絡(luò)提取的不同特征,激活值大小表示使用對(duì)應(yīng)低級(jí)膠囊的姿勢(shì)矩陣激活高級(jí)膠囊的概率。
膠囊網(wǎng)絡(luò)使用路由算法將初始膠囊分組形成高級(jí)膠囊,使網(wǎng)絡(luò)各層之間能夠更好地傳遞數(shù)據(jù),經(jīng)典路由算法有動(dòng)態(tài)路由和期望最大化(Expectation Maximization, EM)路由兩種。
EM路由作用于矩陣膠囊,使用GMM分布對(duì)初始膠囊間的特征進(jìn)行擬合,然后利用 EM算法迭代計(jì)算所需特征服從的各分布函數(shù)的最佳擬合參數(shù),其中特征所屬類別以分布函數(shù)相關(guān)參數(shù)(均值、方差等)來(lái)決定[8]。EM路由是兩階段的迭代算法,可分為E步和M步。步驟E計(jì)算初始膠囊i間特征符合高級(jí)膠囊j分布的先驗(yàn)概率;步驟M在掌握先驗(yàn)概率的基礎(chǔ)上,將先驗(yàn)分布的期望最大化,計(jì)算得到膠囊j和后驗(yàn)概率值(將膠囊i分配給膠囊j的概率),分別代表矩陣膠囊結(jié)構(gòu)中的姿勢(shì)矩陣和激活值。然后將膠囊j和概率值代入E步計(jì)算,同樣迭代3次完成EM路由。最終輸出高級(jí)膠囊的姿勢(shì)矩陣和激活值,其中4×4姿態(tài)矩陣是由GMM的16個(gè)期望值構(gòu)成的,代表將給定特征分配給當(dāng)前高級(jí)特征后所有給定特征的平均值,激活值表示給定特征被當(dāng)前高級(jí)膠囊激活的概率。
網(wǎng)絡(luò)模型參數(shù)的初始化具有隨機(jī)性,因此需通過(guò)網(wǎng)絡(luò)的反向傳播,以最小化損失函數(shù)為目的,不斷修正這些參數(shù),使網(wǎng)絡(luò)的預(yù)測(cè)輸出更準(zhǔn)確。經(jīng)典膠囊網(wǎng)絡(luò)有傳播和邊緣兩種損失函數(shù)。若將高級(jí)膠囊j預(yù)測(cè)為當(dāng)前圖像的高級(jí)抽象特征,那么傳播目標(biāo)函數(shù)公式為

其中,at是 標(biāo)簽對(duì)應(yīng)的正確激活值,aj是除標(biāo)簽外對(duì)應(yīng)的其他錯(cuò)誤的激活值,如果at和aj的邊距小于m,則通過(guò)m?(at ?aj) 的平方懲罰它。一般將m初始化為0.2,在每一次迭代訓(xùn)練后線性增加0.1。當(dāng)m達(dá)到最大值0.9后會(huì)停止增長(zhǎng)。其中從較低的邊距開始訓(xùn)練使網(wǎng)絡(luò)懲罰比較寬松,能夠避免在早期階段出現(xiàn)太多的死膠囊。如果網(wǎng)絡(luò)以0.9或更高的概率預(yù)測(cè)正確的類別,則函數(shù)將返回0。否則,如果置信度小于0.9,則返回0~1的數(shù)字。網(wǎng)絡(luò)的總傳播目標(biāo)函數(shù)可以表示為

邊緣目標(biāo)函數(shù)表示為

其中,Tj表 示對(duì)象j的存在與否,如果對(duì)象j存在,則Tj=1 ,否則Tj=0 。|vj| 表 示對(duì)高級(jí)膠囊j取模長(zhǎng),λ是調(diào)整左右部分的比重系數(shù)。m1和m2是對(duì)網(wǎng)絡(luò)分別表示識(shí)別出錯(cuò)和未識(shí)別出來(lái)的懲罰參數(shù)。通常設(shè)m1=0.9,m2=0.1,λ=0.5。也就是如果分類正確應(yīng)該滿足兩個(gè)條件:(1)高級(jí)膠囊j的模長(zhǎng)不應(yīng)該小于0.9;(2)其他高級(jí)膠囊的模長(zhǎng)都應(yīng)該小于0.1,其中條件(1)的重要性高于條件(2)兩倍。若輸入數(shù)據(jù)集類別數(shù)為K,那么所有高級(jí)膠囊的總損失函數(shù)為

3.1.1 變分路由
變分路由是可以在不計(jì)算最大似然解的情況下,完成對(duì)初始膠囊特征間的聚合過(guò)程,同時(shí)還能自適應(yīng)高級(jí)膠囊類別數(shù),因此網(wǎng)絡(luò)具有一定的抗過(guò)擬合能力。變分路由將潛在變量和未知參數(shù)都作為不 可 觀 測(cè) 變 量,使 用θ={θ1...θi...θk}表 示,k表示不可觀測(cè)變量數(shù),X={x1...xi...xm}表示可觀測(cè)變量的集合,m表示可觀測(cè)變量的個(gè)數(shù)。假設(shè)不可觀測(cè)變量都存在各自的先驗(yàn)概率分布,且互相獨(dú)立,根據(jù)平均場(chǎng)理論[9],概率分布q(θ)可以分解表示為

其中,qi(θi) 為θi的概率分布??紤]所有可觀測(cè)變量和不可觀測(cè)變量聯(lián)合概率分布的對(duì)數(shù),就可以得到qi(θi)的最優(yōu)解的對(duì)數(shù)[10]

其中,p(X,θi)是 輸入數(shù)據(jù)X和變量θi的真實(shí)聯(lián)合概率分布,qi?(θi)表 示不可觀測(cè)變量θi的近似分布。變分路由實(shí)則基于各個(gè)獨(dú)立分布形成的變分分布來(lái)近似隱藏變量的條件分布,然后最優(yōu)化每個(gè)獨(dú)立分布來(lái)達(dá)到混合分布的最優(yōu)化。
變分路由使用GMM對(duì)高級(jí)膠囊建模,然后將初始膠囊中的特征視為擬合GMM的數(shù)據(jù)點(diǎn),計(jì)算擬合分布的過(guò)程就是計(jì)算高級(jí)膠囊的過(guò)程。矩陣膠囊中姿勢(shì)矩陣代表的是對(duì)數(shù)據(jù)提取的抽象特征,通過(guò)對(duì)姿勢(shì)矩陣進(jìn)行分組、聚合來(lái)實(shí)現(xiàn)特征間的聚合。設(shè)初始膠囊位于網(wǎng)絡(luò)的L層,高級(jí)膠囊位于網(wǎng)絡(luò)的L+1層,n∈layerl,k ∈layerl+1。將初始膠囊的姿勢(shì)矩陣Mn乘 以一個(gè)4 ×4的視角不變轉(zhuǎn)換矩陣Wnk, 然后得到一個(gè)4 ×4 投 票矩陣Vnk, 其中Wnk通過(guò)網(wǎng)絡(luò)的反向傳播學(xué)習(xí)更新。那么初始膠囊n被分組整合到高級(jí)膠囊k的概率,是基于投票矩陣Vnk與其他初始膠囊對(duì)高級(jí)膠囊k的投票{Vik,i ?=n}的接近程度。本文將初始膠囊的投票矩陣Vnk作為可觀測(cè)變量,由V={ν1...νm...νM}表示,其中M=N×K,表示投票矩陣的數(shù)量,每個(gè)矩陣νm具有16個(gè)神經(jīng)元,對(duì)應(yīng)于被提取的16個(gè)原始圖像特征數(shù)據(jù),該元素表示為νmd。 對(duì)于每個(gè)觀察量νm,本文都設(shè)定一個(gè)對(duì)應(yīng)的潛在變量θi, 表示為θ={θ1...θn...θN},變量θn有k個(gè)維度,對(duì)應(yīng)數(shù)據(jù)集類別數(shù),θn的數(shù)據(jù)形式是one-hot向量(只有類別k對(duì)應(yīng)的元素為1,其余元素均為0),元素表示為θnk。
投票矩陣νm符合的高斯混合概率分布公式為

其中,π={πk}表示高斯混合分布中不同分布的占比大小集合,μ={μk}是高斯混合分布中各分布均值的集合,Λ={Λk}是各分布的協(xié)方差集合,下標(biāo)k表示第k個(gè)混合分布的相關(guān)參數(shù),p(νm)表 示νm所屬的高級(jí)膠囊分布。為了獲得完整數(shù)據(jù)集聯(lián)合分布p(ν,θ), 需計(jì)算后驗(yàn)概率p(θ/v),本文使用變分推斷的方法計(jì)算后驗(yàn)概率p(θ/v)的 近似解q(θ),根據(jù)式(6)可以得

其中


表1給出了變分路由算法的偽代碼。變分路由是由VBE步和VBM步構(gòu)成的兩階段迭代優(yōu)化算法,VBE步根據(jù)當(dāng)前參數(shù)計(jì)算先驗(yàn)分布表達(dá)式,VBM步根據(jù)求得的后驗(yàn)分布將期望最大化,然后更新參數(shù)。其中rnk ←rnk·a表示用a與rnk的點(diǎn)乘對(duì)rnk進(jìn)行修正,Nk表示每個(gè)圖像中投票矩陣V對(duì)類別歸屬的總和,mk表示每個(gè)圖像中姿勢(shì)矩陣對(duì)原始圖像的高級(jí)抽象特征值的平均值。通過(guò)偽代碼可以更加清晰地展示變分路由算法的整體思想,在初始膠囊層和高級(jí)膠囊層間以迭代計(jì)算VBE步和VBM步的方式,將初始膠囊分配到對(duì)應(yīng)高斯分布中。VBE步確定初始膠囊分配到高級(jí)膠囊的概率為rnk,并更新先驗(yàn)分布的各個(gè)參數(shù)。VBM步基于rnk重新計(jì)算GMM的各參數(shù)Nk,ν?k和Sk等。迭代結(jié)束后得到的mk和Nk分別經(jīng)過(guò)維度轉(zhuǎn)換函數(shù),計(jì)算高級(jí)膠囊的姿勢(shì)矩陣與標(biāo)量激活值。然后使用姿勢(shì)矩陣重構(gòu)原始圖片,使用標(biāo)量激活值預(yù)測(cè)原始圖像類別。

表1 變分路由算法偽代碼
3.1.2 網(wǎng)絡(luò)架構(gòu)與實(shí)現(xiàn)
圖1給出了基于變分路由的膠囊網(wǎng)絡(luò)模型示意圖。網(wǎng)絡(luò)由6層組成,分別為輸入層、普通卷積層、初始膠囊層、卷積膠囊層和分類膠囊層。網(wǎng)絡(luò)的預(yù)測(cè)輸出根據(jù)分類膠囊層里高級(jí)膠囊中的激活值a決定,每一個(gè)高級(jí)膠囊對(duì)應(yīng)一個(gè)類別,擁有最大激活值a的高級(jí)膠囊對(duì)應(yīng)類別為網(wǎng)絡(luò)的預(yù)測(cè)輸出。高級(jí)膠囊中姿勢(shì)矩陣元素值由該類圖像特性的平均值組成。

圖1 基于變分路由的膠囊網(wǎng)絡(luò)模型示意圖

初始膠囊層中用17個(gè)1×1的卷積核,以1為步長(zhǎng),將32個(gè)輸入通道轉(zhuǎn)換為32個(gè)膠囊特征圖,每個(gè)膠囊包含一個(gè)4×4的姿勢(shì)矩陣和一個(gè)激活值,共有17維。使用S形曲線函數(shù)激活得到輸出,命名為初始膠囊。網(wǎng)絡(luò)總共輸出12×12×32個(gè)初始膠囊,包含1 2×1 2×3 2 個(gè)4×4 的姿勢(shì)矩陣和1 2×1 2×32×1個(gè)激活值,表示為(12, 12, 32, 17)。
卷積膠囊層中實(shí)現(xiàn)了膠囊版的卷積,對(duì)姿勢(shì)矩陣和激活值分別以卷積核為5×5,步長(zhǎng)為2的滑動(dòng)窗口做卷積,得到4×4×32個(gè)中級(jí)膠囊,表示為(4,4, 32, 17)。
分類膠囊層,這一層使用變分路由算法將中級(jí)膠囊以部分─整體的方式形成高級(jí)膠囊,這些高級(jí)膠囊即為網(wǎng)絡(luò)對(duì)原始輸入圖像的高級(jí)特征抽象表示。網(wǎng)絡(luò)最終輸出10個(gè)高級(jí)膠囊,對(duì)應(yīng)數(shù)據(jù)的10個(gè)類別,表示為(10, 17)。
輸出層被設(shè)置為經(jīng)典的Softmax函數(shù)。
3.2.1 膠囊自編碼器
膠囊自編碼器結(jié)構(gòu)如圖2所示,包含以下部分:局部編碼器H(x) 、 全局編碼器G(h)、解碼器和路由算法。首先H(x)通 過(guò)計(jì)算得到原始輸入x的局部編碼膠囊h,接著h利用網(wǎng)絡(luò)的分支結(jié)構(gòu)對(duì)應(yīng)兩個(gè)輸出,一個(gè)輸出編碼h,一個(gè)將h作為輸入連接到G(h), 經(jīng)過(guò)全局編碼后輸出全局編碼膠囊g。然后將h和g進(jìn)行拼接得到初始編碼膠囊,再經(jīng)過(guò)路由計(jì)算得到高級(jí)編碼膠囊。最后將高級(jí)編碼膠囊輸入解碼器中重構(gòu)原始輸入圖像。

圖2 膠囊自編碼器結(jié)構(gòu)示意圖
3.2.2 互信息評(píng)價(jià)準(zhǔn)則
模型需要一個(gè)損失函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù)。文獻(xiàn)[13]通過(guò)最大化互信息來(lái)學(xué)習(xí)數(shù)據(jù)的高效表征[14]。本文受到啟發(fā),提出使用基于互信息評(píng)價(jià)準(zhǔn)則的損失函數(shù)來(lái)訓(xùn)練膠囊自編碼器。
假設(shè)X表示原始輸入圖像x的集合、G表示全局編碼膠囊g的集合、H表示局部編碼膠囊h的集合。首先考慮X和G之間的全局互信息L ossl的計(jì)算。按照基本定義,兩者的互信息可表示為

另一方面,假定g服從先驗(yàn)高斯分布q(g)(選擇高斯分布可以使編碼膠囊的規(guī)整度更高且人為干預(yù)少),那么,人為假設(shè)的分布q(g)與 真實(shí)分布p(g)之間就會(huì)存在偏差,而這種偏差應(yīng)越小越好,KL散度適合用來(lái)量化這種偏差[16],其優(yōu)化目標(biāo)為

其中, Ep(x)(·)表 示關(guān)于p(x) 的 數(shù)學(xué)期望,m和n分別為加權(quán)系數(shù)?;バ畔㈨?xiàng)需要通過(guò)最大化KL距離完成最大化互信息,但是KL函數(shù)值域?yàn)閇 0,+∞),無(wú)法實(shí)現(xiàn)最大化。另外,KL函數(shù)關(guān)于自變量不對(duì)稱,在訓(xùn)練中會(huì)因?yàn)檩斎霐?shù)據(jù)順序的不同而得到不同的結(jié)果。因此可以選取JS散度來(lái)表示互信息的最大化[17],JS散度定義為

使用負(fù)采樣的方法對(duì)JS散度進(jìn)行計(jì)算[18],得到

3.2.3 網(wǎng)絡(luò)架構(gòu)與實(shí)現(xiàn)
為了能夠直觀衡量網(wǎng)絡(luò)特征提取質(zhì)量,本文在模型中設(shè)計(jì)了分類計(jì)算模塊,如圖3所示。網(wǎng)絡(luò)獲取局部和全局編碼膠囊后,將其結(jié)合成初始編碼膠囊,接著利用動(dòng)態(tài)路由算法對(duì)初始編碼膠囊進(jìn)行特征聚合得到高級(jí)編碼膠囊,并使用高級(jí)編碼膠囊的長(zhǎng)度代表對(duì)應(yīng)類別的概率,此時(shí)需要將高級(jí)編碼膠囊經(jīng)過(guò)Squash函數(shù)得到歸一化概率值,并視最大概率值所在位置的類別為預(yù)測(cè)輸出,最后根據(jù)數(shù)據(jù)標(biāo)簽計(jì)算網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率。在進(jìn)入解碼器之前,我們對(duì)高級(jí)編碼膠囊進(jìn)行掩碼操作(將非預(yù)測(cè)類別對(duì)應(yīng)特征置為0,只保留預(yù)測(cè)類別對(duì)應(yīng)的特征),然后解碼器使用全連接網(wǎng)絡(luò)重構(gòu)輸入圖像,以判斷網(wǎng)絡(luò)學(xué)習(xí)到的高級(jí)編碼膠囊是否提取到足夠的能重構(gòu)原始輸入的特征。

圖3 基于互信息的膠囊自編碼器評(píng)估模型
表2給出了膠囊自編碼器中的動(dòng)態(tài)路由算法的偽代碼。其中b為網(wǎng)絡(luò)初始編碼膠囊的初始化偏置,c為初始編碼膠囊投票是否分配給高級(jí)編碼膠囊的權(quán)重系數(shù),c通過(guò)對(duì)b進(jìn)行softmax得到。h和g分別為局部和全局編碼膠囊、H(x) 和G(h)分別為對(duì)應(yīng)的局部和全局編碼器。u為投票矩陣,表示網(wǎng)絡(luò)對(duì)當(dāng)前特征是否聚集到某高級(jí)膠囊的投票。w是視角不變矩陣,網(wǎng)絡(luò)通過(guò)w獲得視點(diǎn)等變性。concat(?)表示對(duì)?中元素進(jìn)行拼接。s為高級(jí)編碼膠囊的集合,設(shè)定s中每個(gè)高級(jí)編碼膠囊的長(zhǎng)度表示對(duì)應(yīng)投票正確的概率,因此需要對(duì)s進(jìn)行歸一化處理。本文使用S quash函數(shù)來(lái)完成歸一化,然后得到輸出編碼膠囊v。 那么v中膠囊的模長(zhǎng)將被壓縮為0~1,模長(zhǎng)最大的膠囊所在位置的對(duì)應(yīng)類別被網(wǎng)絡(luò)認(rèn)為是最正確的投票,即為網(wǎng)絡(luò)對(duì)輸入的預(yù)測(cè)輸出。路由算法中的各種參量都需要通過(guò)網(wǎng)絡(luò)的反向傳播來(lái)進(jìn)行學(xué)習(xí)。本文使用互信息作為反向傳播的損失函數(shù),由局部互信息 L ossh、全局互信息L ossl和先驗(yàn)損失Lossp的加權(quán)和組成,損失函數(shù)表示為

表2 基于編碼膠囊的路由偽代碼

本文實(shí)驗(yàn)使用了4個(gè)數(shù)據(jù)集,分別是MNIST[19],FashionMNIST[20], CIFAR-10[18]和CIFAR-100[18]。MNIST數(shù)據(jù)集由200多個(gè)不同職位的人的手寫阿拉伯?dāng)?shù)字構(gòu)成(10類)。數(shù)據(jù)集總共包含70000個(gè)樣本,每個(gè)樣本都帶有標(biāo)簽。FashionMNIST數(shù)據(jù)集則是由德國(guó)的一家時(shí)尚科技公司旗下部門提供,由日常衣物鞋類構(gòu)成。與MNIST數(shù)據(jù)集一樣,總共有70000個(gè)樣本圖片,分為10類,每類有7000張圖片。CIFAR-10數(shù)據(jù)集是深度學(xué)習(xí)研究中使用最廣泛的數(shù)據(jù)集之一,由60000張普適物體圖片集組成。每張圖片有RGB(紅、綠、藍(lán))3個(gè)通道,包含鳥類、狗、輪船和卡車等生活常見物體,一共10個(gè)類別,每個(gè)類別分別有6000張圖像。CIFAR-100數(shù)據(jù)集是一個(gè)相對(duì)比較復(fù)雜的數(shù)據(jù)集,由60000張圖片組成,共100個(gè)類別,每個(gè)類別包含600張圖片。
4.2.1 分類準(zhǔn)確率評(píng)估
圖4展示了采用變分路由算法的膠囊網(wǎng)絡(luò)分類準(zhǔn)確性隨著處理批次(epoch)增加的變化曲線。其中,分別將MNIST和FashionMNIST中的55000張圖片作為訓(xùn)練集,剩余15000張作為測(cè)試集。
從圖4中可以發(fā)現(xiàn),MNIST由于圖像呈現(xiàn)形式簡(jiǎn)單,因此經(jīng)過(guò)9個(gè)epoch,性能基本穩(wěn)定;相比較之下,F(xiàn)ashionMNIST中圖像類別差異性較大,更為復(fù)雜,導(dǎo)致模型收斂速度相對(duì)較慢。在MNIST數(shù)據(jù)集上,變分模型平均分類準(zhǔn)確率可以達(dá)到99.50%;在FashionMNIST數(shù)據(jù)集上達(dá)到了93.50%,驗(yàn)證了數(shù)據(jù)集復(fù)雜度不同對(duì)模型預(yù)測(cè)能力的影響。

圖4 變分路由膠囊網(wǎng)絡(luò)分類準(zhǔn)確性
表3對(duì)比了經(jīng)典CNN, ResNet[21]和Inception-V3[22]、基本膠囊網(wǎng)絡(luò)(Capsule Network, CN)和變分膠囊網(wǎng)絡(luò)(Variational Bayesian Capsule Network,VBCN)在上述兩個(gè)數(shù)據(jù)集上的測(cè)試效果。可以發(fā)現(xiàn):在MNIST上,VBCN比CN提升了0.2個(gè)百分點(diǎn)的準(zhǔn)確率,在FashionMNIST前者比后者提升了1%左右的準(zhǔn)確率。相比較經(jīng)典CNN而言,膠囊網(wǎng)絡(luò)具有明顯分類增益,體現(xiàn)了潛在結(jié)構(gòu)的優(yōu)勢(shì)。相比較于ResNet和Inception-V3這些改進(jìn)后的CNN,VBCN在MNIST上的準(zhǔn)確率要高于這兩個(gè)網(wǎng)絡(luò),但是在FashionMNIST數(shù)據(jù)集上要低于這兩個(gè)網(wǎng)絡(luò)。對(duì)于MNIST這種簡(jiǎn)單的數(shù)據(jù)集,膠囊網(wǎng)絡(luò)通過(guò)向量建模的方式要優(yōu)于CNN網(wǎng)絡(luò)。但是對(duì)于復(fù)雜的數(shù)據(jù)集,因?yàn)槁酚删W(wǎng)絡(luò)需要消耗巨大計(jì)算資源的限制,無(wú)法像CNN一樣堆疊很多層去提取特征,因此性能表現(xiàn)暫時(shí)劣于CNN的改進(jìn)模型。這一結(jié)果給后期膠囊網(wǎng)絡(luò)的改進(jìn)提出了新的思路和啟示。

表3 分類準(zhǔn)確率對(duì)比(%)
4.2.2 模型泛化能力評(píng)估
為了測(cè)試和驗(yàn)證模型對(duì)數(shù)據(jù)異構(gòu)性的適應(yīng)能力,即模型泛化性能,本文仿照文獻(xiàn)[2]設(shè)計(jì)了兩個(gè)擴(kuò)展數(shù)據(jù)集:Two_MNIST和Two_FashionMNIST。這兩個(gè)數(shù)據(jù)集分別由原始MNIST和FashionMNIST樣本在垂直方向上拼接構(gòu)成。標(biāo)簽為包含兩個(gè)元素的數(shù)組構(gòu)成,依次記錄被拼接的兩個(gè)樣本標(biāo)簽。
表4給出了分類準(zhǔn)確率的對(duì)比結(jié)果。其中標(biāo)簽“Two_MNIST”表示用MNIST數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),人工生成的Two_MNIST數(shù)據(jù)集作為測(cè)試集的結(jié)果。標(biāo)簽“Two_FashionMNIST”具有類似含義。訓(xùn)練數(shù)據(jù)為55000張,測(cè)試數(shù)據(jù)為15000張,圖樣與訓(xùn)練數(shù)據(jù)不重疊。從表4中可以看出:得益于CN的優(yōu)秀結(jié)構(gòu)化設(shè)計(jì),CN比CNN, ResNet,Inception-V3等CNN有大幅的性能增益,從另一個(gè)側(cè)面反映了CNN對(duì)形變和圖像內(nèi)容姿勢(shì)變化的敏感性,而這點(diǎn)恰好是CN的長(zhǎng)處,即CN就是為了克服CNN的該缺陷所提出來(lái)的。另外,VBCN比CN也有一定程度的效果提升,這主要得益于VBVN的變分估計(jì)是“集合”估計(jì),而CN的模型估計(jì)是“點(diǎn)”估計(jì),前者精準(zhǔn)性更佳。

表4 泛化性對(duì)比(%)
4.3.1 基于最鄰近樣本的互信息機(jī)制評(píng)估
為了可視化基于互信息機(jī)制的特征分類能力,通過(guò)設(shè)置式(32)中不同的ε和ρ的值來(lái)調(diào)節(jié)局部互信息和全局互信息在網(wǎng)絡(luò)中比重,從而來(lái)觀察兩者對(duì)最終效果的影響。為保證實(shí)驗(yàn)的公平性,保持先驗(yàn)損失L ossp的 權(quán)重τ不變,只交替的改變局部互信息Lossh和 全局互信息L ossl的權(quán)重。
圖5-圖7分別給出了CIFAR-10數(shù)據(jù)集在下述3種不同情況下的最鄰近樣本圖:情況1下設(shè)ε=2,ρ=1,τ=0.01 ;情 況2下 設(shè)ε=1 ,ρ=0 ,τ=0.01;情況3下設(shè)ε=0,ρ=1,τ=0.01。實(shí)驗(yàn)測(cè)試發(fā)現(xiàn)當(dāng)將ε設(shè)置為與ρ相 等時(shí)能達(dá)到最好的效果,將τ設(shè)為較小的數(shù)是為了降低先驗(yàn)信息對(duì)網(wǎng)絡(luò)的影響。待這3種情況達(dá)到收斂狀態(tài)后,實(shí)驗(yàn)使用歐氏距離衡量當(dāng)前測(cè)試樣本和其他測(cè)試樣本的相似程度,即圖5-圖7,其中第1列為10個(gè)隨機(jī)抽取的原始樣本,其余9列同排樣本表示網(wǎng)絡(luò)計(jì)算所得最鄰近的9個(gè)測(cè)試樣本,按歐氏距離由大到小排列。

圖5 情況1下的最鄰近樣本示意圖
觀察圖5可以發(fā)現(xiàn),網(wǎng)絡(luò)能夠通過(guò)不同測(cè)試數(shù)據(jù)的高級(jí)編碼膠囊的相似度,判斷輸入是否為同一類別。如第1行,最左側(cè)為原始樣本卡車,然后通過(guò)計(jì)算相似度得到的9個(gè)最鄰近樣本都同為卡車。說(shuō)明高級(jí)編碼膠囊能夠較為理想地代表原始輸入圖像。
經(jīng)對(duì)比觀察圖6和圖7,可以了解到全局互信息和局部互信息損失的系數(shù)ε和ρ值會(huì)對(duì)準(zhǔn)確率產(chǎn)生一定影響,良好的分類性能高度依賴于局部項(xiàng),局部互信息的缺少會(huì)導(dǎo)致網(wǎng)絡(luò)的分類能力驟降。實(shí)驗(yàn)驗(yàn)證了網(wǎng)絡(luò)通過(guò)引入局部編碼器和局部互信息,不僅獲得了從局部看待整體的能力,還能夠提升網(wǎng)絡(luò)的分類能力。

圖6 情況2下的最鄰近樣本示意圖

圖7 情況3下的最鄰近樣本示意圖
4.3.2 分類準(zhǔn)確率評(píng)估
本實(shí)驗(yàn)通過(guò)計(jì)算分類計(jì)算準(zhǔn)確率來(lái)定量分析和比較改進(jìn)模型和經(jīng)典模型的優(yōu)劣。在實(shí)驗(yàn)中發(fā)現(xiàn)[1],如果向損失函數(shù)中添加邊緣目標(biāo)函數(shù),會(huì)提高網(wǎng)絡(luò)的分類準(zhǔn)確率。因此,本次實(shí)驗(yàn)在損失函數(shù)中加入邊緣目標(biāo)函數(shù),并給邊緣目標(biāo)函數(shù)添加一個(gè)較小的系數(shù),以使互信息損失占主導(dǎo)地位。表5給出了兩種對(duì)比方法針對(duì)每個(gè)類別測(cè)試時(shí)的準(zhǔn)確率結(jié)果,其中訓(xùn)練數(shù)據(jù)為各類標(biāo)簽總共50000張圖片,測(cè)試數(shù)據(jù)為各自類別剩余的總共10000張圖片。
對(duì)比分析表5中數(shù)值,改進(jìn)的CN模型在測(cè)試集上達(dá)到了平均72%的準(zhǔn)確率,相比經(jīng)典CN模型準(zhǔn)確率提高了7%左右。此實(shí)驗(yàn)進(jìn)一步證明本文模型提取的編碼膠囊,能夠高效代表輸入圖像特征,且能夠直接通過(guò)分類計(jì)算模塊,實(shí)現(xiàn)高準(zhǔn)確率分類,無(wú)需重新使用其他網(wǎng)絡(luò)模型對(duì)其訓(xùn)練分類。

表5 CIFAR-10測(cè)試準(zhǔn)確率對(duì)比
除了在CIFAR10數(shù)據(jù)集上測(cè)試我們模型的性能,本文還在CIFAR100數(shù)據(jù)集上做了實(shí)驗(yàn)。對(duì)比分析表6中數(shù)值,改進(jìn)CN模型比經(jīng)典CN模型準(zhǔn)確率提高了5.35%左右。這說(shuō)明了在復(fù)雜數(shù)據(jù)集的情況下,互信息損失函數(shù)能夠?qū)崿F(xiàn)對(duì)編碼膠囊的有效挑選,將最具辨別性的特征編碼成膠囊去做分類,從而提高了網(wǎng)絡(luò)的識(shí)別效果。

表6 CIFAR-100測(cè)試準(zhǔn)確率對(duì)比(%)
本文針對(duì)膠囊網(wǎng)絡(luò)的基本結(jié)構(gòu)進(jìn)行了研究,提出了提高其特征提取能力和泛化能力的優(yōu)化方法。本文的主要貢獻(xiàn)如下:
(1)提出了基于變分路由的膠囊網(wǎng)絡(luò),通過(guò)實(shí)驗(yàn)驗(yàn)證了其分類、特征表示和泛化的能力,證明了基于變分路由的膠囊網(wǎng)絡(luò)在遷移學(xué)習(xí)和特征整合上優(yōu)于基本模型CNN;
(2)通過(guò)對(duì)基于矢量重構(gòu)的互信息損失函數(shù)的推導(dǎo),使膠囊自編碼器獲得了對(duì)編碼膠囊的篩選能力,只保留膠囊中對(duì)原始輸入進(jìn)行識(shí)別分類最有效的特征,在減輕網(wǎng)絡(luò)計(jì)算負(fù)擔(dān)的同時(shí)提高了網(wǎng)絡(luò)分類識(shí)別的能力。