999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

小樣本下基于Wasserstein距離的半監督學習算法

2022-04-09 07:04:40馬幪浩
計算機工程與應用 2022年5期
關鍵詞:監督方法模型

馬幪浩,王 喆

華東理工大學 信息科學與工程學院,上海 200237

越來越多的機器學習模型,包括神經網絡,開始關注最大化小樣本條件下的未標記數據的效用。這些未標記數據獨立同分布地從與有標記數據相同的數據源中采樣,旨在幫助模型提高性能[1-3]。做出數據假設,例如流形假設和平滑假設,能夠更好地利用未標記數據的隱含數據分布信息,因此是半監督學習中不可或缺的處理步驟。利用數據假設的生成方法通常假設所有數據都是由一個潛在數學模型生成,然后使用基于期望最大化算法的最大似然估計來解決問題[4-5]。然而,依賴沒有先驗知識的模型假設并不總是可靠的。半監督支持向量機和基于圖的方法在過去的幾十年里已經得到了廣泛的研究。前者是一個混合整數規劃問題,依賴于低密度分離假設[6-8]。后者必須解決復雜圖規模和傳播造成的大量開銷[9-11]。基于分歧的方法在半監督學習中同樣扮演著重要角色,有理論證明,當兩個視圖充分且條件獨立時,分類器的泛化性能可以被未標記樣本提升到任意高。當然,由于對視圖和分類器的嚴格要求,這通常相當困難。基于分歧的方法依靠擾動來有效地調節模型的中間表示和輸出,將模型預測訓練成與在擾動下的預測一致。S?rel?等[12]提出了一種框架,稱為去噪源分離(DSS),決策支持系統在他們提出的框架中圍繞去噪過程構建源分離算法。Ladder Network[13]利用無監督部分來補充監督部分。它產生噪聲預測和干凈預測,然后應用來自決策支持系統的去噪層從噪聲預測中預測干凈的預測。Cheng等[14]提出了一種保持多樣性的協同訓練算法。該方法在標記未標記數據的過程中不使用類別分類器,而是使用屬性分類器對其進行凸聚類標記。Π模型[15]訓練網絡在相同輸入的多個增強上保持一致,Mean Teacher[16]通過使用平均模型權重構建教師模型來改進Π模型,以將時間集成擴展到大數據集和在線學習。從貝葉斯的觀點來看,一個好的模型應該適應各種不改變樣本性質的擾動,即學習到擾動下的不變性以平滑輸出。然而,這些方法有一個嚴重的缺點:強制一致性導致的神經網絡崩潰,強制平滑使網絡學習到最后過于相似。為了緩解這個挑戰,Qiao等將多個深度神經網絡訓練成不同的視圖,并使用對抗樣本來實現視圖差異[17]。后來的Tri-net[18]觀察到深度協同訓練中兩個網絡的局限性。因此,他們考慮在三個不同的網絡下同時進行模型初始化、多樣性增強和偽標簽編輯。但是由于tri-net使用了額外的網絡進行訓練,因此具有較高的時間成本。

1 方法

1.1 方法概述

本文提出了一種半監督學習方法WCT,WCT首先最小化兩個網絡在無標記數據集上的預測之間的Jensen-Shannon散度來建模協同訓練,同時在有標記數據上強制一致性輸出,并不斷為無標記數據分配偽標簽,將半監督問題轉化為監督問題。由于訓練約束鼓勵兩個網絡對有標記數據與無標記數據都做出類似的預測,這會導致神經網絡崩潰,因為訓練兩個相同的模型不是有益的。為了防止協同訓練的兩個網絡相互碰撞,WCT之后通過快速梯度符號攻擊施加的對抗攻擊來生成對抗樣本以鼓勵視圖的差異,最后將Wasserstein距離作為網絡視圖差異約束的度量,以防止深度神經網絡相互崩潰,使網絡在低維流形空間上平滑輸出。本文所提方法的整體框架如圖1所示。

圖1 WCT方法模型框架Fig.1 Framework of WCT model

1.2 Jensen-Shannon散度假設

本文首先學習由偽標簽標記未標記數據產生的確認偏差的判別表示。然而,獲取這樣的表示并不容易,因為由模型生成的標簽很可能是不正確的,并且可能導致偽標記樣本具有錯誤的類別而阻止了新信息的學習。偽標簽不能100%正確地反映真實標簽。因此,實現本文策略的關鍵是平衡標記樣本和偽標記樣本之間的權重。隨著分類網絡的更新,偽標記數據的權重需要更新,以使網絡的訓練指向正確的方向。方法總體的目標函數是:

其中,α(t)是平衡目標函數的超參數。使用偽標簽實現以激活進入飽和區域的方式來規范網絡。這個過程相當于熵正則化,并促進了訓練過程中表示的不變性或魯棒性。偽標簽也有助于類之間的低密度分離。本文將利用Jensen-Shannon散度假設來改進方法的訓練。首先,在監督數據集上使用標準交叉熵損失:

其中,H(p,q)是分布p和q之間的標準交叉熵,y是分布輸入x的標簽。在標準交叉熵損失下,通過從初始標記數據集構造監督學習部分。

對于未標記集合U中的x,最小化兩個網絡的預測分布之間的Jensen-Shannon散度,可以將其定義如下:

然而,通過直接使用Jensen-Shannon散度假設的協同訓練過程會造成一個嚴重的問題:兩個分類網絡會在協同訓練的過程中越來越相似。本文使用了不同的噪聲和數據擴充來維持網絡之間的多樣性,而長時間的訓練下網絡間的差異性是不穩定的,容易出現網絡的相互碰撞。在接下來的部分中,本文將在訓練網絡的過程中施加網絡差異約束,通過對抗樣本和Wasserstein距離來構建更好的網絡。

1.3 對抗樣本生成

本文的目標是以高精度標記樣本,通過Jensen-Shannon散度建模協同訓練得到了兩個精確的分類網絡,并且更有效率地利用了小樣本條件下的有標記數據,之后通過偽標記無標簽數據為模型帶來了更大的改進。然而為了更好地指導這兩個分類網絡的學習,必須考慮到它們會越來越相似,因為它們都是從相同的數據訓練得到。這是基于分歧的方法無法避免的問題。

為了防止F1網絡和F2網絡在訓練中無限接近而導致的相互碰撞,本文建立了Wasserstein距離下的網絡差異約束來解決這個問題。深度網絡中一個眾所周知的缺點是卷積神經網絡特征經常被用作歐幾里德距離的空間來近似感知距離。如果具有不可測量的小的感知距離的圖像對應于網絡表示中完全不同的類別,這種相似性將導致災難性的后果。利用這一特點,通過快速梯度符號法生成對抗樣本。主要利用對抗樣本和Wasserstein距離來推動F1網絡和F2網絡分開。

神經網絡易受對抗性擾動影響的主要原因是其線性性質。高維空間中的線性行為足以生成對抗樣本。本文應用這種技術作為生成模型來生成對抗樣本[19-22]。對于一個樣本,生成它的對抗樣本,這些對抗樣本是通過對原始樣本施加小而有意的擾動而形成的:

其中,θ表示模型的參數,y是輸入樣本x的標簽或偽標簽,δ是最壞情況擾動,||δ||p是?p-范數距離度量δ。之后計算生成對抗樣本:

其中,l(θ,x,y)是損失函數。將擾動添加到梯度中,沿著梯度反向傳播,以可靠地生成網絡差異約束所需的對抗樣本。這些對抗樣本與原始數據樣本非常接近,肉眼無法區分,但神經網絡會對其所屬類別做出完全不同的判斷。

1.4 Wasserstein距離

上述協同訓練成功的關鍵條件是兩個網絡的不同,在本文的建模中,使用了Jensen-Shannon散度假設使兩個分類網絡對無標簽數據做出相同的預測。其次,在有監督部分,有標簽數據使兩個網絡的訓練向正確的方向收斂。這種強制一致性的方法可能會帶來一個嚴重的問題:不能保證兩個網絡提供的視圖是不同和互補的。只有在兩個分類網絡提供不同且互補視圖的情況下,協同訓練才是有益的,因為訓練兩個相同的分類網絡是沒有意義的。當無法保證這一點時,兩個分類網絡不再基于分歧,而是會不斷趨于相似并碰撞。本文使用了對抗樣本和Wasserstein距離來施加網絡差異約束以防止深度神經網絡的碰撞。

本文通過快速梯度符號攻擊方法生成對抗樣本,由于圖像的分布可以看作高維空間的低維流形,原始樣本和對抗樣本在高維空間的分布重疊可以忽略,這帶來一個問題,使用傳統散度作為距離度量的情況下,距離值可能為常數,無法實現對樣本距離的有效度量。本文引入了新的衡量分布差異的方法——Wasserstein距離。使用Wasserstein距離度量F1網絡對于原始樣本的預測和由F2網絡生成的對抗樣本的預測的距離,以控制兩個網絡不會相互碰撞,距離評價方法為:

其中,F(x)代表兩個網絡對樣本x的預測輸出F∈1-Li pschitz約束著網絡的平滑輸出,使網絡對于原始樣本的預測和其協同訓練網絡對抗樣本的預測不會無限放大導致訓練無法收斂。對于Lipschitz函數的約束實現,約束F(x)的梯度,因為F(x)是受限于1-Lipschitz,那就表示對于所有的x,有:

其中‖?x F(x)‖為F(x)的梯度,在上述近似下,距離度量等價于:

實際上,不能保證對于所有樣本x都能施加上述約束。因此上式使用梯度懲罰進行等價轉換:

其中,Ppenalty為原始樣本和對抗樣本中間區域的采樣分布。參數是通過F(x)梯度進行更新,中間區域即為更新的方向。但是在實際實驗策略下,直接使用max(0,‖?x D(x)‖-1)進行懲罰過于直接,對于上式的梯度懲罰進一步優化為:

對抗樣本可以作為正則化技術來平滑輸出,收緊決策邊界以抵御對抗攻擊。本文通過使用網絡對原始樣本和對抗樣本的預測差異約束協同網絡以維持多樣性,鼓勵網絡對其協同訓練網絡的對抗樣本施加距離約束。

2 實驗設置與結果

2.1 實驗數據集

本文在MNIST、CIFAR-10和CIFAR-100三個公開數據集進行了相關實驗與討論。MNIST數據集是真實的手寫圖像數據集。它包含60 000張灰度訓練圖像和10 000張大小為28×28的測試圖像。CIFAR-10是由10個類別的60 000個32×32的彩色圖像組成,每個類別有6 000個圖像。它有50 000張訓練圖像和10 000張測試圖像。CIFAR-100類似于CIFAR-10,它包含100個類,每個類包含600張圖像。每個類別有500張訓練圖像和100張測試圖像。在本文實驗中,為CIFAR-10使用了50 000張訓練圖像中的4 000張有標簽的圖像。對于CIFAR-100,使用50 000張訓練圖像中有標簽的10 000張圖像。對于測試部分,10 000張測試圖像全部用于測試兩個數據集。

2.2 網絡架構

為了進行公平的比較,本文采用了深度半監督學習中通用的網絡框架,如表1所示。其他半監督方法對該網絡體系結構進行了或多或少的調整,例如使用不同的卷積核大小、不同的殘差塊和不同的深度,本文不會像其他方法那樣改變體系結構。

表1 網絡框架Table 1 Network framework

2.3 實驗設置

在本文的實驗中,最大訓練輪數在CIFAR-10和CIFAR-100中設置為600輪,在MNIST中為100輪。在最初的80輪訓練中,對平衡系數進行了預熱。更具體地說,逐漸增加無監督部分的平衡系數α(t)=α(t)max·exp(-5(1-T/80)2),其中α(t)max=10。實驗中使用動量為0.9,權重衰減為0.000 1的SGD。對于學習速率,本文考慮對每個批次進行余弦退火,如下所示:

在本文的工作中,T是實驗中的訓練輪數,設置ηt=0.05×(1.0+cos((T-1)×π/600))。實驗還使用了Batch Normalization和Dropout(p=0.5)。考慮了輸入圖像的隨機平移和水平翻轉,以及數據集輸入層上的高斯噪聲,batch size設置為100。

2.4 實驗結果

為了公平比較,本文只報告所提模型的平均性能,即使在整個訓練過程中有性能更好的模型輸出結果,本文也不會集成方法的模型,另外本文也不使用預先訓練好的模型。將所提方法與其他有代表性的半監督學習方法進行了比較:包括Ladder network、GAN[23]、CatGAN[24]、Improved GAN[25]、Triple GAN[26]、Πmodel、Temporal ensembling和Mean Teacher。本文方法優于其他代表性的方法。

在表2中,展示了在MNIST和CIFAR-10上的實驗的主要結果。對于MNIST,本文僅僅使用了100個標記數據,CIFAR-10使用了50 000張中隨機挑選的4 000張圖像作為標記數據。總體而言,本文所提方法在這兩個數據集的錯誤率指標上均排名第一。詳細地說,在所有比較的方法中,在MNIST數據集中的改進是有限的。所提方法的錯誤率僅有0.85%。但是,所提方法在更有挑戰性的CIFAR-10數據集上比其他方法好得多。在這種情況下,它獲得了錯誤率僅有11.96%的最佳結果。對于其他比較方法,CatGAN、Improved GAN、Triple GAN都相對于GAN具有一定的提升,但是它們都缺乏明顯的優勢。基于擾動的三個方法:Πmodel、Temporal ensembling和Mean Teacher,作為最著名的半監督的學習方法,在CIFAR-10數據集上都獲得了明顯高于其他方法的結果。Ladder network似乎很難通過有限的數據來擬合監督部分和非監督部分,與其他方法相比,Ladder network的性能相對較差。

表2 MNIST和CIFAR-10上方法的錯誤率Table 2 Error rates of methods on MNIST and CIFAR-10%

表3展示了CIFAR-100上的方法結果。CIFAR-100是深度半監督學習領域的一個難點數據集,包含100類圖像。從表3的結果可知,本文所提方法在使用數據增強與不使用數據增強兩個實驗中都有了一定的準確率上的提升,在不使用數據增強的條件下,相較于Πmodel提升了0.76個百分點。在使用數據增強的條件下,分類錯誤率為38.44%,相較于Πmodel和Temporal model分別提升了0.75個百分點和0.21個百分點。在標記數據更少的情況下,使用僅僅2 500個標記數據時,所提方法通過更復雜的預訓練、網絡框架的微調和輸入增強方法,可以具有更好的性能。這些結果證明了所提方法的有效性。

表3 CIFAR-100上方法的錯誤率Table 3 Error rates of methods on CIFAR-100%

2.5 擾動依賴分析

所提方法通過對兩個分類網絡在擾動下進行強制平滑來學習擾動下的不變性以提升泛化性能。這實際上是一種隱式的自集成,這種策略依賴于擾動來維持訓練過程。為了正確探索不同擾動帶來的效果,本文設計了消融實驗來檢測本文的訓練策略是否對擾動敏感。在每個實驗中,只移除噪聲,增強和dropout中的一項,并計算每個設置下的五次運行的平均值。結果如圖2所示。可以看到,在每種情況下,在所有實驗數據集上,移除不同擾動都會給性能帶來較為顯著的下降。

圖2 消融策略Fig.2 Ablation strategy

2.6 時間復雜度分析

2.7 超參數分析

WCT依賴于兩個關鍵超參數:平衡目標函數中有監督和無監督權重的α(t),以及對1-Li pschitz約束進行等價轉換時的λ。為了更好地探究所提方法對超參數的敏感性,在CIFAR-10上進行了4 000個有標簽數據的驗證實驗,一次改變其中一個超參數,同時保持其他所有參數變量不變。統計了訓練不同時期下的實驗結果,結果如圖3所示。

圖3 超參數評估Fig.3 Hyperparameter evaluation

對于α(t),本文使用的方案是不等權分配。首先給偽標簽數據分配一個較低的權重,在訓練的早期階段,有標簽數據的權重占主導地位。隨著訓練的進行,偽標簽數據的權重逐漸增加。在改變α(t)最大值的情況下可以看出,標記樣本和偽標記樣本之間的訓練平衡對于網絡性能至關重要,在α(t)取值為10時模型性能最優,良好的取值在5到15之間,范圍之外的取值為導致性能的迅速降低。對于實現約束轉換的λ,可以看出在不同訓練時期時WCT性能對λ均不敏感,模型性能只會隨著λ的改變輕微波動。這也證明了使用梯度懲罰進行等價轉換的魯棒性。

3 結束語

本文提出了一種小樣本條件下的半監督學習方法WCT,通過聚集充分的視圖信息,并將其集成到一個魯棒的訓練中,實現防止網絡崩潰和提高分類泛化性能。首先通過Jensen-Shannon散度來模擬協同訓練,使用一致性增強鼓勵兩個分類網絡做出相似的預測,再利用對抗攻擊生成的對抗樣本,在Wasserstein距離下構造網絡差異約束,以保持協同訓練網絡之間的多樣性,從而實現穩健的訓練過程。為了驗證該方法的有效性,本文在常用的圖像分類數據集MNIST、CIFAR10和CIFAR100中開展了相關實驗研究,實驗結果驗證了本文所提方法的優秀性能。

本文首次使用Wasserstein距離作為強制一致性平滑下的網絡距離控制,這種策略很容易訓練兩個差異化的網絡。如何防止協同訓練的網絡相互崩潰是基于分歧的半監督學習未來有趣的研究方向。

猜你喜歡
監督方法模型
一半模型
重要模型『一線三等角』
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
重尾非線性自回歸模型自加權M-估計的漸近分布
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 青青草91视频| 国产在线视频福利资源站| 四虎精品黑人视频| 日韩精品久久无码中文字幕色欲| 亚洲成人在线免费| 热思思久久免费视频| 国产成人精品亚洲77美色| 亚洲黄网在线| a级高清毛片| 亚洲精品黄| 成人国产精品一级毛片天堂| 中文字幕第1页在线播| 亚洲不卡影院| av尤物免费在线观看| 久久99这里精品8国产| 五月天久久综合| 无码网站免费观看| 毛片基地美国正在播放亚洲| 亚洲精品综合一二三区在线| 在线a视频免费观看| 免费jjzz在在线播放国产| 国产成人久久777777| 欧美视频免费一区二区三区| 亚洲,国产,日韩,综合一区| 久久国产亚洲欧美日韩精品| 免费看a毛片| 国产精品久久久久久久伊一| 国内99精品激情视频精品| 日本草草视频在线观看| 国产乱子伦无码精品小说| 国产va视频| 女人18毛片一级毛片在线 | 毛片卡一卡二| 国产毛片高清一级国语| 九色在线视频导航91| 五月天综合网亚洲综合天堂网| 久久免费视频6| 制服丝袜一区二区三区在线| 亚洲综合一区国产精品| 色窝窝免费一区二区三区 | 中文字幕无码中文字幕有码在线| aa级毛片毛片免费观看久| 亚洲乱强伦| 国产精品亚欧美一区二区| 久久综合九色综合97婷婷| 囯产av无码片毛片一级| 亚洲三级a| 五月天久久综合国产一区二区| 亚洲天堂网站在线| 99在线视频网站| 欧美一级夜夜爽| 国产精品亚洲а∨天堂免下载| 色婷婷成人网| 狼友av永久网站免费观看| 亚洲人成网站在线播放2019| 亚洲精品色AV无码看| 国产精品入口麻豆| 99在线视频精品| 亚洲欧美综合另类图片小说区| 亚洲VA中文字幕| 97成人在线观看| 伊人久久福利中文字幕| 97视频精品全国在线观看| 91蝌蚪视频在线观看| 国产美女在线观看| 成人在线视频一区| 亚洲欧美成人影院| 五月六月伊人狠狠丁香网| 成人欧美在线观看| 日韩精品专区免费无码aⅴ | 五月天福利视频 | 全午夜免费一级毛片| 国产第一页屁屁影院| 国产欧美日韩在线一区| 成人日韩欧美| 色综合久久综合网| 国产欧美日韩在线一区| 久久香蕉欧美精品| 亚洲欧美在线精品一区二区| 国产亚洲精品自在线| 四虎永久在线精品国产免费| 久久综合色天堂av|