侯 青,楊榮新,張英杰,李 偉
(1.陜西中醫藥大學 科技處,陜西 咸陽 712046;2.長安大學 信息工程學院,陜西 西安 710064)
現階段利用深度學習相關技術實現圖像分類的任務往往是有監督學習的范疇,在對網絡進行訓練之前首先需要對輸入的圖片數據集進行人工標注,打上屬于某一類的“標簽”。所以基于這種方式的圖像分類方法很大程度上都依賴于數據集的容量和標簽的質量,這也在無形中對人工標注的質量和精度提出了更高的要求。所以減少對標簽信息的依賴程度實現對圖像數據的分類任務,也成了進一步的研究目標,這也是無監督圖像分類的發展方向。傳統的無監督圖像分類算法主要是基于統計特征或基于規則特征進行分類,這種方法不能直接對原始圖像數據進行處理,必須首先對原始圖像數據進行特征提取,然后構造合適的分類模型。在特征提取方面,主要包括紋理、顏色、形狀等底層視覺特征,尺度不變特征變換、局部二值模式、方向梯度直方圖等局部不變性特征,這些人工設計的特征缺乏良好的泛化性能,且依賴于設計者的先驗知識,因此這種無監督學習方法對于圖片分類的普遍適用性不高而且分類的準確率較低。基于深度學習大致可以分為兩種研究方向,一是將聚類算法與深度神經網絡相結合,依靠神經網絡提取特征,通過聚類算法對提取到的特征進行無監督圖像分類。Yang B等人將降維(DR)和聚類兩個任務相結合,提出一種聯合DR和Kmeans的聚類方法。降維通過DNN來實現,并在低維空間實現聚類,同時以重構的方式來優化DNN的降維損失。Caron M等人提出一種DeepCluster無監督聚類網絡,利用Kmeans對特征聚類生成偽標簽,并利用該偽標簽以監督方式訓練分類器。為了彌補特征提取的缺陷,謝娟英等人在深度卷積嵌入網絡中加入了兩個全連接層作為特征過渡層,同時在編碼層中加入下采樣結構,減少模型參數,解碼層加入上采樣層還原下采樣導致的細節損失,提出了一種深度卷積自編碼圖像聚類算法,并驗證了改進網絡結構的優越性。二是提出改進的卷積神經網絡模型,通過對輸入圖像進行數據集變換和對比學習,實現有語義過濾的特征級別無監督分類。Chang J等人提出一種DAC算法,將圖像聚類問題視為二元成對分類任務,判斷圖像對是否屬于同一類別,并通過引入聚類約束,將網絡學習到的標簽特征趨近于一個one-hot向量,可以被直接用于聚類圖像。Ji X等人通過將輸入數據集進行變換得到成對圖像,以最大化圖像對之間的互信息為目標,提出一種IIC網絡,使模型在這些成對圖像中挖掘出較好的聚類模式。Wouter Van Gansbeke等人基于對比學習,通過利用特征相似性來挖掘每張圖像的初始最近鄰,并利用最可信樣本對網絡進行微調,最大化圖像與其最近鄰之間的點積,實現無監督圖像聚類。任雪婷等人將成對學習和圖像聚類進行聯合,提出一種無監督肺癌亞型識別方法,將CNN不同層的輸出特征進行融合,構建了一個高效的CNN特征提取框架,并利用成對學習的方式在每次聚類迭代結果中選取一定的相同聚簇和不同聚簇的CT影像圖像對,結合對比損失函數對特征學習和聚類表示進行更新訓練,增強了肺癌亞型識別的準確率。深度學習與無監督學習算法融合起來自適應對圖像數據進行處理,進而減少甚至去掉數據標注的任務,這將給一系列基于神經網絡的有監督任務帶來重要的意義,并且在無監督視覺特征學習任務上也是一個重大的突破。
基于此,該文提出一種融合卷積神經網絡和聚類分析的自適應圖像聚類算法。首先對特征提取網絡AlexNet進行結構優化,加入WN歸一化層;其次在快速峰值聚類算法中,引入高斯函數對數據點的局部密度進行度量,利用非聚類中心到聚類中心存在明顯非線性變化來自適應確定聚類中心;最后將特征提取網絡和改進的快速峰值聚類算法融合起來,實現了端到端的無監督圖像分類目標,并在常見公開圖像數據集上展示了優異的分類性能。

圖1 WN權值歸一化示意圖
WN的過程也可表示為:

(1)

為了驗證WN層的加入是否可以起到優化模型性能的目的,本節對無WN層以及有WN層時的模型以同樣的圖像數據進行實驗,訓練過程中得到的準確率變化趨勢如圖2所示。
由圖2可知,對加入WN歸一化層的模型的準確率較未加入WN層的模型的準確率有了明顯提升,模型最終收斂時的準確率較無歸一化層的模型的準確率最終提升了將近4個百分點。從參數角度來說,對比LRN層,WN層可以實現利用更少的參數對網絡的權重進行更新,這不僅減少了模型的復雜度從而使模型更快地收斂,也在一定程度上提升了模型的分類準確率,達到了對AlexNet的模型結構進行優化的目的。

圖2 有無WN層的準確率對比
為了解決快速峰值聚類算法必須由人為設定截止距離和手動設置聚類中心的問題,本節引入高斯函數對數據點的局部密度進行度量,具體的計算方法如式(2)所示。

(2)
令I
={1,2,…,N
},則數據點與高密度點的距離計算公式如式(3)所示。
(3)

d
的選取,使得算法主觀性較強的同時穩定性較差,算法的性能也在較大程度上受到了限制。本節將參數d
的自適應選取轉化為求解一個最優化問題。利用上述經過重新定義的局部密度,可以構造局部密度信息熵,如式(4)所示。
(4)



γ
≤γ
≤…≤γ
(6)


(7)


(8)
式中,ε
為近似于0的正常數。在找出可能的聚類中心點后,算法需要從這些點的集合選取出真正的聚類中心,運行時每次只向后遞推一個數據,組成包含2m
+1個γ
值的新的一組,當第一次出現某一組中的2m
+1個γ
值產生躍變時,此時的γ
+2被選擇為聚類中心的閾值,并且將γ
≥γ
+2的數據選為聚類中心,即聚類中心點的集合表示如式(9)所示。x
:I
={k
∈I
|γ
≥γ
+2}(9)
在自動確定聚類中心之后,非聚類中心點的分配方式仍然是按照定義的距離計算方法將各個非聚類中心點分配到與其距離最近的高密度點所在的類,直到把所有的點全部分配完為止,至此完成了該自適應快速峰值算法的所有步驟。
該文將改進型的自適應快速峰值聚類算法與調整過的AlexNet網絡進行結合,結合過程的核心思想是對卷積網絡學習到的深層特征進行迭代地聚類,并以聚類結果為依據對卷積網絡的參數進行更新。模型整體框架和工作的流程圖分別如圖3和圖4所示。

圖3 基于AlexNet的無監督學習模型框架
用f
表示卷積網絡AlexNet從原始圖像到固定維度向量空間的映射,其中θ
是對應的參數集。將這個映射應用到無標簽圖像數據集上,可以得到對圖像信息進行表征的特征向量。對于訓練集X
={x
,x
,…,x
}中的N個圖像,希望找到一個參數θ
,以便映射f
產生良好的通用特性。這些參數傳統上是通過監督來學習的,即每個圖像x
都與{0,1}中的標簽y
相關聯。然后參數化分類器g
會根據特征f
(x
)預測該圖像隸屬的正確的標簽。則此時的損失函數如式(10)和式(11)所示。
圖4 無監督圖像分類流程

(10)

(11)

f
(x
)即為聚類算法的輸入,聚類算法根據相應的幾何準則把它們劃分成k
類。更簡單地說,算法以式(12)的最小化為手段,共同學習聚類中心矩陣×和每幅圖像n
的聚類結果y
。
(12)

(13)

利用預訓練的ImageNet圖像分類模型的參數對網絡權重的一般參數進行初始化設計。利用訓練過大型數據集的網絡參數進行初始化有兩點好處:(1)經過大量數據的訓練,網絡學習到了提取圖像特征的基本方法;(2)以在大型數據集上學習到的參數進行初始化賦值能加快模型的收斂,并且往往也能達到提高模型準確率的效果。在控制其他各個條件一致的情況下,預訓練參數和隨機初始化參數的網絡性能對比如圖5所示。
由圖5可以看出,基于預訓練參數的一般參數初始化比基于隨機參數初始化的模型更快地收斂,這兩種模型收斂后的圖像分類效果也有著直觀可見的差異,并且使用預訓練參數的模型在最終性能上有了較大程度的提升。

圖5 基于預訓練參數和隨機初始化參數的 模型性能對比
模型訓練過程采用GPU模式,并選取小批量梯度下降(MBGD)算法作為損失函數的優化器,具體的訓練流程如圖6所示。

圖6 無監督模型訓練過程
提出的無監督圖像分類模型是依賴聚類算法對圖像進行分類的,所以采用準確率(ACC)和歸一化互信息(NMI)來度量聚類結果對無監督圖像分類的適用程度。
設數據集的總數量為N
,每個數據對應的真實標簽為h
,每個數據利用無監督模型分得的類標簽表示為g
,那么可以得到無監督學習得來的類標簽映射到真實標簽的函數map(g
),則定義ACC如式(14)所示。
(14)
式中,δ
是計算h
和map(g
)匹配度的一個函數,表達式見式(15)。
(15)
另外,本節通過標準化互信息(NMI)來衡量同一數據的兩個不同賦值A
和B
之間共享的信息,該信息定義如式(16)所示。
(16)
式中,I
表示互信息,H
表示熵。此度量可應用于來自集群或真實標簽的任何分配。NMI值的變動范圍在0到1之間,如果兩個集群A
和B
是完全獨立的,則NMI等于0,NMI的值越大,代表兩個集群的相似度越高。以四個常見的公開圖像數據集為代表,分析所提出的融合卷積神經網絡和聚類分析的無監督網絡在各個圖像數據集上的表現,并以ACC和NMI兩種評價指標來對網絡模型的性能進行評價。選取了100個epoch迭代過程之后的收斂過程進行了可視化,分類結果的ACC評價指標如圖7所示,分類結果的NMI評價指標如圖8所示。

圖7 四個數據集在ACC下的分類結果
對圖7和圖8進行比較分析,可以看出四個數據集在兩種模型下訓練的NMI和ACC值基本上呈現出相同的變化趨勢,這兩個性能指標都是在訓練過程中逐漸提升并且最終達到收斂狀態,但是網絡在相同數據集訓練下達到收斂時的NMI值都比ACC高。也證明了文中提出的網絡模型在無監督圖像分類任務中的合理性和可行性。

圖8 四個數據集在NMI下的分類結果
同時,為了驗證文中提出的無監督分類模型的性能優劣,本節也選取了近年來表現相對優越的5種無監督學習算法分別對這幾種公開數據集進行了實驗,并將結果進行了橫向對比。不同的無監督算法對四種數據集在ACC指標下的分類結果對比如表1所示,不同的無監督算法對四種數據集在NMI指標下的分類結果對比如表2所示。

表1 ACC指標下不同無監督算法的分類結果

表2 NMI指標下不同無監督算法的分類結果
由表1和表2可以看出,文中提出的改進型無監督圖像分類模型的結果是最優的,評價指標ACC和NMI值在每類數據下都較現有算法有了較大的提升,特別是在CUB數據集上相較于Chang J等人提出的算法在ACC評價指標上的性能提升了將近7.4%,在NMI評價指標上的性能比Wouter等人的算法的性能提升了將近11%,這也證明了文中提出的無監督模型在不同數據集上進行無監督分類的可行性和有效性。
從理論角度進行分析,對比的五種模型中針對無監督條件下的圖像特征提取主要圍繞兩種方式展開。一是基于編碼和解碼重構的學習方式,即先構建編碼器對輸入圖像進行特征提取得到隱變量,然后對隱變量特征進行解碼重構,以最大化原始圖像和重構圖像之間的相似度來保證所提取隱變量特征的有效性,最后通過隱變量特征完成圖像分類。這種方式雖然能夠實現對圖像特征的有效提取,但就圖像分類任務而言,重構的限制太過于嚴格,往往不同類別對象間僅依靠某些特定的細節特征就可以分類。二是基于數據集變換的學習方式,即對輸入圖像進行隨機變換,然后以雙輸入通道的方式,對比網絡輸出的原始圖像特征表示和變換圖像特征表示之間的相似性,達到對同一類別圖像的特征學習的目的。這種方法能夠誘導網絡的輸出不因對象位置變化而產生差異,可以在一定程度上提高分類的準確性,但是數據集變換方法是有限的,無法完全滿足輸入圖像的各種狀態,且隨著數據集變換方式的增多,網絡復雜度會大幅度上升。
文中所提出的無監督分類模型將卷積神經網絡AlexNet和聚類分析相融合,一方面聚類的結果可作為偽標簽指導網絡的迭代過程,另一方面更新的網絡可以重新進行聚類。隨著batch批次的不斷迭代,聚類產生的偽標簽不斷向著正確類別逼近,同時也能更好地提升網絡的特征提取能力。這兩個過程動態化進行,能夠充分發揮卷積神經網絡的特征提取能力和聚類算法的聚簇能力,且模型設計簡單、巧妙,實現了聚類中心的自動選取和整個無監督圖像分類過程的自動化。
該文設計了一種融合改進型AlexNet網絡與自適應快速峰值聚類算法的無監督學習模型,在對卷積網絡學習特征進行聚類的同時以此為依據對網絡參數進行更新,兩個過程迭代進行,以實現對圖像的無監督分類。為了驗證該無監督分類模型的可行性和有效性,使用了四個公開的圖像數據集進行基準測試,并將最后的分類結果按ACC和NMI兩個評價指標進行了展示。另外,引入目前現有的幾種無監督分類算法完成同樣的分類任務,結果也證明了改進后無監督圖像分類模型相較目前比較出色的幾種無監督算法的優越性。然而,在實驗過程中發現,提出的無監督圖像分類模型不適應于數據特征維度較高的情況,在輸入到聚類網絡之前需要借助降維手段進行處理。分析原因可能是特征維度較高時,基于距離度量的快速峰值聚類算法會失效。如何將網絡提取到的高維特征直接運用到聚類算法還有待進一步研究。