劉雅芬,鄭藝峰+,江鈴燚,李國和,張文杰
1.閩南師范大學 計算機學院,福建 漳州 363000
2.數據科學與智能應用福建省高校重點實驗室,福建 漳州 363000
3.中國石油大學(北京)信息科學與工程學院,北京 102249
隨著智能技術的發展,深度學習已得到學術界和工業界的廣泛關注,尤其在計算機視覺、圖像處理、自然語言處理和語音識別等領域。例如百度的無人駕駛、阿里的用戶行為分析等。
深度學習以數據為驅動,其優異的性能離不開大量標簽數據。然而,在現實生活中,標簽數據獲取代價高昂。例如:在醫療任務中,標簽均由領域專家分析得出。相比于標簽數據,無標簽數據獲取相對容易,半監督學習則將二者相結合用以訓練模型。研究表明將少量有標簽數據和大量無標簽數據相結合有助于提高學習任務的準確率?;谏鲜鏊枷?,研究人員將半監督學習引入到深度學習,提出深度半監督學習。根據所采用半監督損失函數和模型設計方式,深度半監督學習方法可分為:生成式方法、一致性正則化方法、基于圖的方法、混合方法和偽標簽方法。
(1)生成式方法:生成式方法學習數據的隱式特征,假設所有數據均來自同一潛在模型,以更好地將無標簽數據與學習目標關聯建模,并采用最大期望進行求解。在標簽數據極少時,相比其他方法,能獲得較好的性能。其關鍵在于與真實分布吻合程度。
(2)一致性正則化方法:將無標簽數據用以模型強化,即將一個實際的擾動應用于一個無標簽的數據,亦不會使預測結果出現明顯變化。對于具有不同標簽的數據,在聚類假設中屬于低密度區域分離,因此,數據在擾動后標簽發生變化的可能性微乎其微。由此可見,可將一致性正則化項作用于損失函數,以指定假設的先驗約束。
(3)基于圖的方法:在數據集上構建圖,圖中每個節點表示一個訓練數據,每個邊緣表示節點對相似性??煞譃閳D正則化和圖嵌入兩種。圖正則化使用Laplacian 正則化,假設具有強連接邊緣的節點可能共享相同的標簽,例如標簽傳播(label propagation)、高斯隨機場(Gaussian random fields)和局部全局一致性(local and global consistency)。圖嵌入則是將節點編碼為向量,用于度量節點之間的相似性。
(4)混合方法:融合偽標簽、偽一致性正則化和熵最小化的思想用以提高模型性能。此外還引入一種混合物學習原理,即一種簡單的、數據不可知的數據增強方法,一個配對的數據及其各自標簽的凸組合。
大部分深度半監督學習方法不足之處在于過分依賴特定區域的數據增強,然而在大多數應用場景下,數據增強并不容易生成,而其中偽標簽方法卻不受數據增強的約束?,F階段為無標簽數據標注偽標簽的方法則大多先利用標簽數據訓練模型,而后將偽標簽數據與標簽數據相結合擴大數據集,共同訓練模型??梢?,偽標簽方法的性能主要依賴于所選擇的模型。偽標簽方法可分成自訓練和多視角訓練兩大部分,自訓練通過獲得無標簽數據的偽標簽從而得到更多訓練數據。多視角訓練是通過訓練多個模型,利用模型間的“分歧”給無標簽數據打上偽標簽。而Zhu 于2002 年提出的標簽傳播算法,無需依賴于任何的分類模型,將圖和偽標簽相結合,利用樣本間的關系建立圖模型,通過相似度給無標簽節點標記標簽。其具備易于實現且復雜度較低的特點,已被廣泛應用于虛擬社區挖掘等領域。
在本文中,首先,對深度半監督學習進行分析;其次,從自訓練和多視角訓練兩方面對偽標簽方法進行詳細的剖析;然后,著重闡述利用相似性且無需預訓練的基于圖和偽標簽的標簽傳播方法,并討論其優勢所在;接著,對已有的偽標簽方法進行實驗分析的比對;最后,從無標簽數據在實際應用中是否適用于所有模型、真實數據集帶有噪聲數據、數據采樣的合理性以及偽標簽方法和其他方法結合的情況總結偽標簽方法所面臨的問題和未來研究方向。
深度學習以數據為驅動,而獲取大量的標簽數據代價昂貴。深度半監督學習可通過少量標簽數據和大量無標簽數據構建模型,其無標簽信息能提供更多關于數據分布的信息,從而更好地估計不同類別的決策邊,有助于提高模型的性能。
近年來,隨著智能信息技術的推廣,機器學習方法得到廣泛的研究,其主要分為:監督學習(supervised learning)、無監督學習(unsupervised learning)和半監督學習(semi-supervised learning)。
半監督學習介于監督學習和無監督學習二者之間,其基本思想是利用無標簽數據提高模型的泛化能力,以減少對外界交互的過分依賴,從而訓練更好的模型。三者之間對比如圖1 所示。從圖中可以看出,在半監督學習中,同時提供標簽數據集D={(,),(,),…,(x,y)} 和無標簽數據集D={x,x,…,x},且無標簽數據數量遠遠多于標簽數據,即?。更具體地說,半監督學習的目標是利用無標簽數據集D輔助生成預測函數f,比僅使用標簽數據集D所獲得的函數更準確。

圖1 監督學習、半監督學習、無監督學習結構對比Fig.1 Structure comparison of supervised learning,semi-supervised learning and unsupervised learning
隨著智能應用的普及,數據量急劇增加,數據標注標簽信息代價昂貴。例如:在進行醫學影像分析時,雖可獲得大量的醫院影像,但對影像中的病灶進行標注則需要由醫學專家才能進行標注。同樣,在進行商品推薦時,僅有少部分的用戶愿意協助對商品進行標注。由此可見,半監督學習具有較高的應用價值。
如何有效利用無標簽數據成為亟需解決的問題。無標簽數據因其與標簽數據從相同的數據源獨立分布采樣而來,雖未包含標簽信息,但其分布的信息有助于模型的構建。本文給出一個直觀的示例,如圖2所示,圖中包含一個正方形類和一個三角形類,待判別樣本恰好位于兩者之間,則在進行樣本類別判斷時僅能依靠隨機猜測。倘若能觀察到圖中的無標簽數據分布狀況,則可將此待判別樣本歸為正方形類。由此可見,無標簽數據可提供關于數據分布結構的額外信息,有助于更好地估計不同類別之間的決策邊界。

圖2 無標簽數據效用示例(黑點為無標簽數據)Fig.2 Unlabeled data utility example(black dots indicate unlabeled data)
最早將無標簽數據應用到半監督學習中的方法是Self-training 方法,該方法使用有標簽數據構建模型,進而對無標簽數據進行預測,從中篩選出預測置信度高的樣本加入標簽數據集中,不斷更新模型,直至收斂。然而要有效利用無標簽數據,則必須對無標簽樣本所揭示的數據分布信息與類別標簽之間的關系進行假設。目前,可分為聚類假設(cluster assumption)、平滑假設(smoothing assumption)和流行假設(manifold assumption)。
(1)聚類假設:當兩個數據屬于同一簇時,則擁有相同的類標簽,即當數據和位于同一簇時,和的預測結果應一致。聚類假設亦稱為低密度分離假設,即決策邊界應位于低密度區域。
(2)平滑假設:指位于稠密數據區域的兩個距離相近的數據具有相同的標簽,即對于稠密區域中的兩個數據,如果其存在邊連接,則具有相同的標簽信息,反之亦然。這個假設在分類任務中很有幫助,但對回歸任務沒有多大的幫助。
(3)流行假設:將高維數據嵌入到低維流形中,如兩個數據在低維流形中同屬于一個局部鄰域,則其應具有相似的類信息,其著重于模型的局部特性。在該假設下,無標簽數據就能使數據空間更加密集,有助于分析局部區域特征信息,從而使決策函數較好地擬合數據。
綜上所述,上述三類假設雖然實現的方式不同,但其本質都是考慮樣本的相似性。
近年來,深度學習在實際應用中取得優異的表現,但其以數據為驅動,需要大量標簽樣本用以訓練模型。然而,在現實生活中,對樣本進行標注代價高昂。為此,研究人員將半監督學習引入到深度學習中,提出深度半監督學習。
在早期的方法中標簽數據和無標簽數據分開使用,先利用無標簽數據進行初始化,再利用標簽數據對模型進行調整,其本質上仍是監督學習的模式。在半監督模式下,神經網絡則應同時訓練有標簽和無標簽樣本,其損失函數的范式定義如下:

其中,表示為監督損失,表示為無監督損失,()為權重。不同的深度半監督方法區別在于所采用的的不同。
現階段,以一致性正規化方法為主的深度半監督學習由于過分依賴特定區域的數據增強,不易實現。為此Lee 提出偽標簽方法,標簽數據和無標簽數據同時參與模型的訓練。對于無標簽數據,在每次權重更新時,為每個無標簽數據賦予具有最大預測概率的標簽,再將標注后的無標簽數據放入標簽數據集用以模型訓練。本章將從自訓練和多視角訓練兩方面對偽標簽方法進行詳細的剖析。
自訓練是基于最可信預測以此標記無標簽數據,根據模型自身生成偽標簽,可分為熵最小化方法、代理標簽方法、噪聲學生模型方法、自半監督方法和元偽標簽方法。首先,使用少量的標簽數據D來訓練預測模型f,再使用f為無標簽數據x∈D分配偽標簽。如果模型預測概率高于預定的閾值,則將數據(,argmax f())添加到標簽數據集中,繼續訓練模型,為D-{x}中的數據標記偽標簽,重復上述過程,直至模型無法產生最可信預測或所有的無標簽數據都標注偽標簽。在實際訓練過程中,可采用相對置信度決定為哪些無標簽數據標記偽標簽,即在每次訓練后對前個高置信度預測的無標簽樣本進行標記,并添加至標簽數據集D中。Yalniz 等人將自訓練方法用以訓練ResNet-50 模型,先在帶有偽標簽的無標簽圖像上進行訓練,再對標簽圖像進行微調,實驗結果表明自訓練方法進一步提高訓練模型的魯棒性。
熵最小化方法(entropy minimization)是一種熵正則化的方法,其通過鼓勵模型對無標簽數據進行低熵預測,再將其應用到監督學習中以實現半監督學習。理論分析表明熵最小化有助于阻止決策邊界通過高密度的數據點區域,如無法阻止則將對無標簽的數據產生低置信度的預測。
給定圖像數據∈,令()表示特定神經輸出函數,將所有概率分布P的熵(P)最小化,上述方法僅精確神經網絡的預測,無法單獨使用。如果將其作為損失,則會導致預測退化。Grandvalet 和Bengio 考慮從標簽和無標簽的數據中學習決策規則,并使熵最小化方法規范化。熵最小化方法可作用于任何特定的或限制最低熵規范的模型。當生成模型被錯誤指定時,熵最小化方法更有助于實現最低熵規范化。最新研究表明,熵最小化方法本身并不能產生有競爭力的結果,但當與不同的方法結合時,可以產生最先進的結果。
代理標簽是一種估計無標簽數據為偽標簽的最簡單方法,目標是生成代理標簽用以增強學習。代理標簽同時將標簽數據和無標簽數據以監督方式進行訓練,如圖3 所示。

圖3 代理標簽模型Fig.3 Proxy-label model


Shi 等試圖確定其最優標簽和最優模型參數,并通過迭代訓練最小化損失函數。Iscen 等人將代理標簽方法用于標簽傳播,在標簽數據和偽標簽數據上交替訓練網絡模型,同時引入兩個不確定性參數,即每一個樣本基于輸出概率的熵(用以克服對預測的不平等置信度問題)和基于每個類得分的類種群(用以處理類的不平衡問題)。Arazo 等人則認為由于存在確認偏差,從而導致單純的偽標簽會過度擬合于不正確的偽標簽。同時證明采用混合方式并設置每批的最少標簽樣本數量有助于減少上述偏差。
噪聲學生模型(noisy student)方法受知識蒸餾思想啟發,基于“教師-學生”框架,如圖4 所示。其具體過程:首先采用教師EfficientNet模型對標簽數據進行訓練,為無標簽數據生成偽標簽,加入標簽數據集;再采用規模更大的EfficientNet 模型作為學生模型,在新數據集上進行訓練。同時,可在學生模型訓練階段加入Dropout 和Stochastic Depth 等模型噪聲。經多次迭代,獲更具有魯棒性的學生模型,此時學生模型可作為教師模型,重新標注無標簽數據。

圖4 噪聲學生模型Fig.4 Noisy student model
Liu 等人將噪聲學生模型法用于探索藥物代謝作用,可進一步加速藥物發現過程,從而降低成本。Kumar 等人也采用噪聲學生模型方法進行面部表情的識別,模型隔離面部的不同區域,并使用多級注意機制獨立進行處理。其結果表明,與其他單一模型相比,該方法更加有助于提升模型的性能。
自半監督學習(self-supervised semi-supervised learning)將自監督學習技術用以解決半監督圖像分類的問題。在自半監督學習方法中,有四個旋轉度{0°,90°,180°,270°},用以旋轉輸入圖像,其旋轉損失為旋轉圖像預測輸出的交叉熵損失。對于無標簽數據,預測其不同的旋轉角度打上偽標簽,后與標簽數據共同訓練模型,如圖5 所示。

圖5 自半監督學習模型Fig.5 Self-supervised semi-supervised learning model
Beyer 等人將損失分成有監督損失和無監督損失兩部分,其中監督損失為交叉熵損失,而無監督損失是基于自監督技術的旋轉和樣本預測的損失。同時,提出兩種半監督圖像分類方法,有助于解決圖像分類的半監督問題。
在半監督學習過程中,偽標簽通常是由教師模型生成,不能有效適應網絡訓練的學習狀態。為此,Pham 等人提出元偽標簽(meta pseudo labels)方法,采用“學生-教師”框架,如圖6 所示。在該框架中,教師模型使用元學習方法生成代理標簽,并鼓勵教師模型以改進學生模型學習的方式從而調整訓練的目標分布,再通過評估學生模型用以更新教師模型。雖然允許教師模型調整和適應學生的學習狀態,但不足以訓練教師模型。為了克服上述問題,在教師模型中,還需使用驗證集對標簽數據進行訓練。

圖6 元偽標簽模型Fig.6 Meta pseudo labels model
Pham 等在CIFAR-10、SVHN 和ImageNet 實驗更進一步證明MPL方法的有效性。此外,在CIFAR10和ImageNet上附加額外的無標簽數據,并使用Efficient-Net 進行訓練。實驗結果表明,采用元偽標簽方法在CIFAR-10 上獲得88.6%的準確率,在ImageNet 上獲得86.9%的top-1 準確率。
自訓練具備簡單性和通用性,可廣泛應用于各個領域。例如,圖像分類、語義分割和目標對象檢測等任務。但其不足之處在于,無法糾正其自身錯誤(即任何錯誤的分類都會被迅速放大)。而多視角訓練在理想情況下,不同的視角可相互補充、相互協作,進而提高彼此的性能。
多視角訓練亦稱為基于分歧的模型訓練,根據不同數據視角訓練的模型生成偽標簽,可分為協同訓練方法和三體訓練方法。與自訓練不同之處在于,其數據存在多個視角,例如圖像的顏色信息和紋理信息。多視角訓練的基本思想是同時訓練多個學習模型,分別用以標記無標簽的樣本。
協同訓練方法(co-training)是指在兩個視角上訓練不同的分類模型,即在標簽數據上分別訓練兩個預測函數f和f,如圖7所示。在每次迭代過程中,將f標記的無標簽數據添加到f中,彼此交換,重復此過程,直至無標簽數據耗盡或滿足最大迭代次數。

圖7 協同訓練模型Fig.7 Co-training model
具體過程描述如下:令()和()表示兩個不同的數據視圖,使得=(,)。假設為在上訓練的分類模型,表示在上訓練的分類模型,在目標函數中,協同訓練方法假設定義如下:

其中,(·)表示熵。
在標簽數據集上,標準的交叉熵損失可定義為:

其中,(,)表示和之間的交叉熵。
對于協同訓練模型,關鍵在于其兩種視角是不同且互補的,但損失函數和L僅確保模型對于數據集上的預測趨于一致。為了解決此問題,可在協同訓練模型強制引入視角差異約束。
Tran 等人提出協同訓練半監督回歸和自適應算法,利用不同的視角增加輸入數據量,并結合互相關等技術用于基于可見光的指紋技術定位。實驗結果表明,隨著輸入數據量的增加,模型的定位精度隨著增高。Díaz 等人提出一種使用深度神經網絡的視覺對象識別的聯合訓練模型,通過添加多層自我監督神經網絡作為視圖的中間輸入,視圖會因其輸出的交叉熵正則化而呈現多樣化。該模型綜合考慮輸出的差異性,將協同訓練和自我監督學習相結合,可稱為差分自我監督共同訓練(different self-supervised co-training)。結果表明,該方法雖然簡單,但有助于提高模型的精度。
三體訓練(tri-training)試圖克服多個視角存在的數據缺乏問題,從三個不同的訓練集(均通過自助抽樣法得到)中訓練三個分類模型,有助于減少自我訓練中產生的預測偏差,如圖8 所示。其基本思想:首先利用標簽數據集訓練三個預測函數f、f和f。令表示無標簽數據,若其在f和f上預測結果一致,則認為偽標簽自信且穩定。此時,將標記好的添加到f的標簽數據集中,再對其進行微調。如果無數據點再被添加到任何模型的訓練集中,則訓練停止。在整個增強過程中,三個模型會變得越來越相似。因此,需分別在訓練集上進行微調,以確保模型多樣性。根據所采用的框架不同,三體訓練可分為多任務三體訓練(multi-task tri-training)和交叉視圖訓練(cross-view training)。

圖8 三體訓練模型Fig.8 Tri-training model
(1)多任務三體訓練:使用神經網絡的三體訓練代價昂貴,需要對三個模型中的所有無標簽進行預測。為了緩解上述問題,Ruder 和Plank將遷移學習思想引入半監督學習中,提出多任務三體訓練方法,三個模型與特定于模型的分類層共享相同的特征提取器,將模型與一個額外的正交約束聯合訓練,從而進一步減少時間和空間復雜度。多任務三體訓練不再單獨訓練模型,而是采用共享參數,并用多任務學習機制進行聯合訓練。需要注意的是,由于模型作用相同,其屬于偽多任務學習。
(2)交叉視圖訓練:Clark 等人結合多視角學習和一致性訓練,提出交叉視圖訓練,對于不同的輸入視圖能獲得一致的預測輸出。其基本思想是采用共享編碼器,再添加輔助預測模塊,將編碼器表示轉換為預測輸出??蓪⑸鲜瞿K分為輔助學生模塊和初級教師模塊,二者具有一致的預測。學生預測模塊可以從教師模塊的預測中學習,既提高編碼器產生表示的質量,也有助于改進使用相同共享表示的完整模型。
在車輛識別中,不同視點下車輛的視覺外觀會發生顯著變化。為此,Yang 等人提出弱監督交叉視圖學習模塊,用于車輛的重識別,僅通過基于車輛入侵檢測系統最小化交叉視角特征距離,而不使用任何視角標注來學習一致的特征表示。該模型在VeRi-776、VehicleID、VRIC 和VRAI 數據集上均獲得顯著的性能改進。
基于偽標簽的深度半監督學習方法均需使用標簽數據訓練模型,繼而標注無標簽數據,其算法復雜度較高。而將偽標簽方法與基于圖的方法相結合可解決訓練模型復雜度高和數據分布形狀局限的問題。本章主要介紹標簽傳播方法,即為二者相結合的深度半監督學習方法,其滿足聚類假設和流行假設,即同一簇和同一流行中的數據可能共享相同的標簽,利用簇的結構和節點間的相似性,將標簽數據標簽傳播給無標簽數據,具有運算簡單和復雜度小的特點。

周志華認為基于圖形的半監督學習概念清晰,且易通過對所涉矩陣運算的分析來闡述其性質。其不足之處在于存儲開銷成本較大。此外,在圖構建過程僅依賴于訓練樣本集,對于新數據樣本,難以判斷其在圖中的位置。Yi 等人建立了一種自適應的基于圖的標簽傳播模型,解決了非負矩陣分解不能充分利用標簽信息的弱點,采用局部約束來反映數據的局部結構,迭代優化算法求解目標函數。實驗結果表明,該框架具有優異的性能。
標簽傳播主要假設是流行假設,即屬于同一流形中的數據樣本很可能共享相同的語義標簽。為此,標簽傳播根據數據流形結構和中間節點相似性,將標簽數據的標簽傳播給無標簽數據。
首先,根據給定數據構建圖,若假設圖為完全圖,則節點x和x邊的權重可表示為:

其中,是超參數。
標簽傳播算法通過相鄰節點之間傳播標簽,若節點間的權重越大,則表示其相似程度越高,標簽越容易傳播。為此,概率轉移矩陣可定義為:

其中,p表示從節點x轉移到節點x的概率。

假設數據集中有個類和個標簽樣本,則定義一個×的標簽數據矩陣F:

其第行表示第個樣本的標簽指示向量,即若第個樣本的類別為Y,則第個元素為1,其他為0。
為了便于說明,將上述標簽數據矩陣表示為F=[,,…,f]。
同樣對于個無標簽樣本定義一個×無標簽數據矩陣F:

值得注意,其數值初始可進行[0,1]之間隨機初始化。為了便于說明,將上述無標簽數據矩陣表示為F=[f,f,…,f]。
將F和F合并得到標簽向量矩陣=[F:F]。
標簽傳播算法的具體過程如下:
(1)執行傳播=;
(2)重置中前行標簽樣本的標簽F=F;
(3)重復步驟(1)、(2)直至收斂。
上述過程中,步驟(1)表示將矩陣和矩陣相乘,即對于每個節點按傳播概率將其周圍節點傳播的標注值按權重相加,并更新自身的概率分布。兩個節點越相似(在歐式空間中距離越近),則對方的偽標簽會越容易受影響。對于步驟(2),由于標簽數據的標簽是事先確定的,在每次傳播后,需要回歸其初始標簽。隨著標簽數據不斷將其標簽傳播出去,最后的類邊界會穿越高密度區域,而停留在低密度的間隔中。
在每次迭代過程中,需對=[F:F]進行計算,由于F已知,且需要重新恢復初始值,F是最終結果,于是可將矩陣表示如下:

F計算方式可表示為:

重復此步驟直至收斂。
近年來,社交媒體已廣泛應用于各個領域,影響最大化(influence maximization,IM)已成為社會網絡分析研究的熱點問題之一。Kumar 等人提出一種基于節點播種、標簽傳播和社團檢測的影響最大化算法,其使用擴展h 指數中心性檢測種子節點,再使用標簽傳播技術檢測群落。經典的標簽傳播方法不足之處在于無法有效地聯合節點屬性和標簽,且在大規模圖上收斂速度較慢。為解決上述問題,Xie 等提出一種基于圖結構數據的可伸縮半監督節點分類方法(簡稱為GraphHop),其使用適當的初始標簽嵌入向量。模型主要包括:標簽聚合和標簽更新。在標簽聚合過程中,每個節點將前一次迭代得到的相鄰節點的標簽向量進行聚合;在標簽更新過程中,利用鄰域信息,根據節點本身的標簽和其所得到的聚合標簽信息,為每個節點預測新的標簽向量。實驗結果表明,GraphHop 在各種規模的圖表中均能取得較好的結果。王俊斌對標簽傳播算法進行擴展,提出基于成對約束的標簽傳播算法,將先驗信息保存到成對關系矩陣中,并采用成對關系與聚類結果之間的差異來代替劃分矩陣之間的差異。同時,通過構建一種新的最優化模型,將標簽傳播算法的最優化問題轉化為譜聚類問題,并通過特征值分解方法進行求解。
本章將介紹各類半監督偽標簽方法所采用的數據集,同時對各種偽標簽方法進行實驗分析對比。
在實驗分析過程中,本文主要采用UCI(University of California,Irvine)數據集和圖像數據集進行實驗比對。UCI 數據集主要包括Iris、Cmc(contraceptive method choice)和Iono(Ionosphere),數據集信息如表1 所示。在實驗過程中,為了保證實驗結果的有效性,需對每個數據集進行歸一化處理,并劃分訓練集和驗證集。在進行半監督訓練時,標簽數據占訓練集的10%,采取分層抽樣的方式對每個類別進行采樣。

表1 實驗中使用的UCI數據集Table 1 UCI datasets used in experiment
圖像數據集主要包括ILSVRC-2012(多用于自訓練)、CIFAR-10(多用于多視角訓練)和CIFAR-100(多用于多視角訓練)。
ILSVRC-2012 是ImageNet 的子集,包含1 000 個圖像類別,其中訓練集包含120 萬張圖像,驗證集和測試集共包含15 萬張圖像。由于類別的數量較多,通常會將精確度設置為Top-1 和Top-5。Top-1 準確度是指一個預測與一個真實標簽相比較的經典準確度,而Top-5 準確性則是檢查一個基本真實標簽是否在一組最多5 個預測中。本文實驗過程中所給出的結果為僅使用10%的標簽進行訓練的Top-1 準確度。
CIFAR-10 和CIFAR-100 是大小為32×32 的彩色自然圖像大型數據集,其中CIFAR-10 包含10 個類別,CIFAR-100 包含100 個類別。均使用5 萬張圖像用于訓練,1 萬張圖像用于測試。本文實驗過程中,對于CIFAR-10,使用從訓練集中隨機選擇的4 000 張圖像作為標簽數據,其余的圖像作為無標簽數據;對于CIFAR-100,則是隨機挑選10 000 張圖像作為標簽數據,其余的圖像作為無標簽數據。
為了對已有的偽標簽方法進行分析,本文分別在圖像數據集和UCI數據集上進行實驗,具體結果分別如表2 和表3 所示。其中圖像數據集CIARF-10 和CIFAR-100 還未在自訓練模型實驗中大規模投入使用。因此,為保證實驗的公平性,自訓練模型仍然以ILSVRC-2012 為主。
表2 主要描述圖像數據集中不同方法的實驗結果,其中自半監督模型在不同數據集上均取得最高的準確率。自半監督模型為混合模型,將自監督旋轉預測、VAT(virtual adversarial training)、交叉熵損失和fine-tuning 結合到一個具有多個訓練步驟的單一模型中。此外,其將損失函數分為有監督和無監督的部分,其監督損失為交叉熵損失,而無監督損失則采用旋轉和范例的自監督技術。由此可見,基于偽標簽半監督學習方法仍然有著很大的進步空間。此外,從實驗結果不難發現,隨著數據樣本的類別增多,模型的不確定程度逐漸增大,精確率隨之下降。在相同的數據集上,三體訓練方法效果也都優于協同訓練方法,因三體訓練方法同時使用半監督學習和集成學習機制,進一步提升學習性能。綜上所述,隨著基于偽標簽半監督學習方法的發展,模型的識別準確率逐漸提高。而隨著所使用的架構復雜程度增加,可以預測模型精度亦會隨著時間的推移而提高。

表2 偽標簽方法在不同圖像數據集上實驗結果Table 2 Experimental results of pseudo-labeling method on different image datasets %
表3 主要描述在3 個不同的UCI 數據集中,協同訓練、三體訓練和標簽傳播方法在kNN(nearest neighborhood)上的實驗效果(=10)。為了更好地挑揀出結果的差異,采用十折交叉驗證方式。從結果可以看出,標簽傳播方法優于前兩者。模型的訓練與數據的分布情況直接有關,標簽傳播主要假設是流行假設(即屬于同一流形中的數據樣本很可能共享相同的語義標簽),可獲得更好的實驗結果。協同訓練要求數據能夠從不同的角度提取出兩份不同的數據,即使用同一份數據構造出兩個分類器,然而現實的數據大多缺乏多個視角。而三體訓練能有效解決協同訓練缺乏視角的問題,相比協同訓練,其在UCI 數據集和圖像數據集上均表現出更好的性能。但需要注意的是,基于圖的標簽傳播無法有效地聯合節點屬性并且具有很強的隨機性從而導致結果不穩定。在后續的工作中,可對此進行研究。

表3 偽標簽方法在不同UCI數據集上實驗結果Table 3 Experimental results of pseudo-labeling method on different UCI datasets %
盡管基于偽標簽的深度半監督學習已取得有效的進展,但仍存在有待研究的開放研究問題。
(1)無標簽數據效用性:在半監督學習中,人們普遍認為無標簽數據可以提高學習性能,特別是在標簽數據稀缺的情況下。值得注意的是,無標簽數據可以提高學習性能是在適當的假設或條件下,一些研究表明,使用無標簽的數據可能導致性能退化?,F有的基于偽標簽的深度半監督方法主要使用無標簽數據來生成約束,然后與標簽數據共同更新模型。一般情況下,使用權衡因子用于平衡監督和無監督的損失,即所有無標簽數據等權。然而,并非所有的無標簽數據在實際應用中都同樣適用于該模型。此時,需考慮無標簽數據的權重問題。
(2)噪聲數據:本文所提到的標簽數據均認為是準確的,從而可以學習標準的交叉熵損失函數。然而現實生活中得到的標簽數據可能帶有噪聲,在訓練時只能訓練帶有噪聲的數據集。在基于圖的半監督學習中,為增強數據預測的一致性,引入一種由稀疏編碼實現的L范數形式的Laplacian 正則化。從記憶效應的角度提出了一種協同訓練和平均教師相結合的學習范式。還可對數據進行預處理,降低噪聲數據帶來的損失。
(3)合理性:在標簽傳播方法中,目前大多采用有放回的取樣方式,使得樣本在下次采樣時仍然有可能被抽取到,這面臨的問題是有時取到的樣本集不能代表整體,從而降低其合理性,通過計算可得約有36.8%的樣本未出現在采集數據集中。在之后的工作中,可對群優化進行研究,群優化的核心價值在于研究和探索“個體與總體之間的沖突和求得一致結果的條件”,進而提升數據采樣的合理性。
(4)方法的結合:在調查過程中發現,一些平常的方法與偽標簽方法結合在一起會顯示出超乎預期的效果,第3 章有相應的介紹。然而,目前只有少數方法與偽標簽方法相結合,而合理的組合策略有助于進一步提高模型的性能,因此,不同思想的相結合的融合策略是一個值得探索的未來研究領域。
本文首先介紹深度半監督學習,可根據半監督損失函數和模型中最顯著的特征,將其分為生成式方法、一致性正則化方法、基于圖的方法、偽標簽方法和混合方法。本文以偽標簽方法作為切入點展開詳細的敘述,該方法旨在標簽數據上訓練模型,用以預測無標簽數據的類別(即偽標簽),再將新生成的偽標簽數據擴充訓練數據。針對偽標簽方法需預訓練模型這一問題展開討論,引入基于圖的標簽傳播方法,即無需經過預訓練模型就可得到偽標簽。此外,本文進一步闡述標簽傳播方法的基本思想,其利用數據的分布及其內在關系(即樣本間的相似關系),用以標記無標簽數據。最后,本文對偽標簽學習研究過程中所存在的問題進行總結,并提出未來的研究方向。