何 花,謝明昆,黃圣君
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 江蘇 南京 211106)
深度學(xué)習(xí)已成功地應(yīng)用于多種實(shí)際任務(wù)中,如,圖像識(shí)別[1-4]、自然語言處理[5-9]和目標(biāo)檢測(cè)[10-13]等。在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,訓(xùn)練一個(gè)有效的深度模型往往依賴于大量已標(biāo)注樣本,而準(zhǔn)確標(biāo)注大規(guī)模數(shù)據(jù)往往耗時(shí)耗力且代價(jià)高昂。為降低模型對(duì)數(shù)據(jù)的依賴,包括無監(jiān)督學(xué)習(xí)[14],半監(jiān)督學(xué)習(xí)[15-16]以及弱監(jiān)督學(xué)習(xí)[17-18]等領(lǐng)域的學(xué)習(xí)方法相繼提出,并已吸引了大量關(guān)注。在這些方法中,主動(dòng)學(xué)習(xí)是降低樣本標(biāo)注代價(jià)的主要途徑之一。
主動(dòng)學(xué)習(xí)通過迭代的方式,選擇最有價(jià)值的樣本進(jìn)行標(biāo)注并加入訓(xùn)練,旨在以最小的標(biāo)注代價(jià)有效地提高模型性能。在該過程中,如何挑選樣本是影響主動(dòng)學(xué)習(xí)效果的關(guān)鍵因素。常用的采樣策略往往基于樣本的不確定性,包括最低置信度采樣、邊緣采樣和熵采樣[19]。不確定性采樣策略的核心思想是用模型對(duì)樣本的預(yù)測(cè)后驗(yàn)概率來估計(jì)該樣本的不確定性。一般而言,模型在未標(biāo)記樣本上的預(yù)測(cè)概率越均衡,則越難以判斷該樣本所屬的類別,因而,將這個(gè)樣本加入訓(xùn)練中將有效地提高模型的分類性能。以二分類任務(wù)為例,熵采樣策略通常選擇后驗(yàn)概率最接近0.5的樣本。
現(xiàn)有的主動(dòng)采樣策略都是根據(jù)當(dāng)前模型對(duì)樣本的預(yù)測(cè)來挑選樣本。然而,這些方法忽略了在主動(dòng)學(xué)習(xí)迭代過程中,分類模型對(duì)挑選樣本的潛在價(jià)值。一般而言,在迭代過程中,不同輪次的分類模型對(duì)同一樣本的識(shí)別效果是具有差異的,而這種差異性一定程度上反映了分類模型對(duì)該樣本的識(shí)別能力的不穩(wěn)定性。圖1展示了在主動(dòng)學(xué)習(xí)過程中,隨著迭代輪次的增加,分類模型對(duì)MNIST數(shù)據(jù)集中的同一個(gè)無標(biāo)注樣本的預(yù)測(cè)情況。從圖中可以看出,在整個(gè)迭代過程中,分類模型的預(yù)測(cè)持續(xù)變化,這種變化反映了模型預(yù)測(cè)該樣本的不穩(wěn)定性,說明該樣本是未標(biāo)注數(shù)據(jù)集中較難以準(zhǔn)確預(yù)測(cè)的樣本,將其加入訓(xùn)練能有效地提高模型的分類性能。相反,忽略歷史模型的這種潛在價(jià)值將導(dǎo)致主動(dòng)學(xué)習(xí)策略挑選的并不一定是最有價(jià)值的樣本。因此,在主動(dòng)采樣的過程中,除了考慮當(dāng)前模型對(duì)未標(biāo)注樣本的預(yù)測(cè),還應(yīng)考慮以往模型預(yù)測(cè)的差異。

(a) 手寫數(shù)字(a) Handwritten number (b) 模型預(yù)測(cè)結(jié)果(b) Model predictions圖1 歷史模型對(duì)同一無標(biāo)注樣本的不穩(wěn)定性預(yù)測(cè)Fig.1 Instability prediction of the same unlabeled instance by history models
本文提出基于不穩(wěn)定性采樣的主動(dòng)學(xué)習(xí)方法,根據(jù)模型在整個(gè)學(xué)習(xí)過程中對(duì)無標(biāo)注樣本的預(yù)測(cè)差異來衡量未標(biāo)注樣本對(duì)提升模型性能的潛在效用。具體而言,在每一輪的主動(dòng)查詢中,對(duì)于每一個(gè)無標(biāo)注樣本,計(jì)算最近的N個(gè)模型對(duì)其預(yù)測(cè)后驗(yàn)概率的差異用以衡量其不穩(wěn)定性,并選擇最不穩(wěn)定的樣本進(jìn)行標(biāo)注。為了驗(yàn)證提出方法的有效性,分別使用傳統(tǒng)和深度模型在9個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,基于不穩(wěn)定性的主動(dòng)采樣方法能有效地提高模型的泛化性能。
主動(dòng)學(xué)習(xí)有選擇地從標(biāo)注者處查詢最有價(jià)值的信息,旨在以最少的查詢訓(xùn)練一個(gè)有效的模型。主動(dòng)學(xué)習(xí)的關(guān)鍵任務(wù)是設(shè)計(jì)一個(gè)合適的策略,使所查詢的信息對(duì)改進(jìn)目標(biāo)模型最有幫助。在傳統(tǒng)設(shè)置下已提出了許多主動(dòng)學(xué)習(xí)方法[19]。其中一些方法挑選信息量最大的樣本進(jìn)行查詢[20-30],
信息量越大的樣本對(duì)提升模型性能越有價(jià)值。而信息量可以用不同的標(biāo)準(zhǔn)來衡量,如不確定性[21-27]、泛化誤差減少量[28-30]等,該類方法只考慮了模型對(duì)樣本的需求,有可能導(dǎo)致挑選的樣本分布與數(shù)據(jù)集真實(shí)分布存在差異。另外一些方法則查詢具有代表性樣本的標(biāo)簽[31-33],其代表性可以根據(jù)聚類結(jié)構(gòu)[27,31]或者密度[32]來估計(jì),該類方法挑選的是最能夠代表樣本分布的樣本,忽略了模型本身對(duì)樣本分類性能的信息。
目前主流的信息量與代表性相結(jié)合的方式可分為三類。第一類為串行結(jié)合方式,依次使用每個(gè)挑選策略來過濾“低價(jià)值”樣本。常用做法為先從無標(biāo)注樣本集中挑選最有信息量的一批樣本,然后使用聚類算法對(duì)這一批樣本進(jìn)行聚類,得到的聚類中心即為待查詢樣本[34]。第二類為概率選擇方式,在每輪主動(dòng)學(xué)習(xí)迭代中,依據(jù)概率參數(shù)決定當(dāng)前輪迭代使用的采樣策略[35]。第三類為并行結(jié)合方式,是目前最流行的主動(dòng)學(xué)習(xí)策略結(jié)合方式,使用不同采樣策略標(biāo)準(zhǔn)的加權(quán)求和或者多目標(biāo)優(yōu)化方法,計(jì)算混合得分,根據(jù)分?jǐn)?shù)對(duì)未標(biāo)注樣本進(jìn)行排序,挑選得分最高的一批樣本[36-41]。例如,Huang等從基于邊際采樣的主動(dòng)學(xué)習(xí)策略推導(dǎo)出一個(gè)最小最大框架的目標(biāo)[41],放松未標(biāo)注樣本標(biāo)簽變量后,得到僅含最大化的目標(biāo)函數(shù),利用該目標(biāo)得分挑選既具有信息量,又具有代表性的樣本進(jìn)行標(biāo)注[38]。Wang等將經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化推廣到主動(dòng)學(xué)習(xí)[39],對(duì)導(dǎo)出的目標(biāo)函數(shù)進(jìn)行交替優(yōu)化,其中該目標(biāo)函數(shù)包括一個(gè)估計(jì)不確定性的項(xiàng)用以挑選具有較高信息量的樣本,和一個(gè)估計(jì)有標(biāo)記數(shù)據(jù)集與整個(gè)數(shù)據(jù)集之間分布差異的項(xiàng)使挑選出的樣本具有代表性。Tang等在目標(biāo)函數(shù)中除了考慮信息量和代表性,還結(jié)合了自步學(xué)習(xí)[41],利用來自網(wǎng)絡(luò)的不確定性和后驗(yàn)概率分布差異信息,挑選最簡(jiǎn)單的、最具信息量和代表性的樣本進(jìn)行標(biāo)注。
此外,隨著深度學(xué)習(xí)的發(fā)展,衍生出了許多其他采樣標(biāo)準(zhǔn),部分研究將主動(dòng)學(xué)習(xí)策略視為從無標(biāo)記樣本到一個(gè)排序得分的映射,并利用深度模型去擬合這種映射。如,Liu等結(jié)合模仿學(xué)習(xí)(DAGGER)的框架直接學(xué)習(xí)一個(gè)采樣策略,其中模仿學(xué)習(xí)所使用的專家策略為每輪主動(dòng)采樣策略的貪心選擇[43]。Yoo等利用預(yù)測(cè)損失模塊擬合樣本到目標(biāo)模型損失值的映射,認(rèn)為損失值越大的樣本,對(duì)目標(biāo)模型的提升性能越大[44]。在此基礎(chǔ)上,Li等將目標(biāo)函數(shù)損失轉(zhuǎn)換為排序,通過最小化排序損失來學(xué)習(xí)一個(gè)主動(dòng)學(xué)習(xí)策略[45]。該類方法中主動(dòng)學(xué)習(xí)策略的學(xué)習(xí)依賴于大量訓(xùn)練數(shù)據(jù),在少樣本數(shù)據(jù)集中易過擬合。
雖然上述方法都試圖估計(jì)一個(gè)樣本對(duì)于改進(jìn)模型的潛在價(jià)值,但都只用當(dāng)前模型來對(duì)無標(biāo)注樣本進(jìn)行評(píng)估,忽略了歷史分類模型是否蘊(yùn)藏挑選最具潛在價(jià)值的樣本的能力。在不同迭代周期中,目標(biāo)模型對(duì)同一樣本的識(shí)別效果是變化的,如果能夠量化這種變化信息,就能挑選出模型識(shí)別效果最不穩(wěn)定的樣本,選擇這類樣本進(jìn)行標(biāo)注將對(duì)提升目標(biāo)模型泛化性能提供更多的有效信息。
本章節(jié)首先在2.1節(jié)中介紹問題設(shè)定以及基于不穩(wěn)定性的主動(dòng)學(xué)習(xí)框架,然后在2.2節(jié)中提出不穩(wěn)定性采樣策略。


表1 數(shù)學(xué)符號(hào)
圖2展示了基于不穩(wěn)定性采樣的主動(dòng)學(xué)習(xí)框架。除在第一輪主動(dòng)學(xué)習(xí)迭代中,采用隨機(jī)采樣挑選樣本,此后的每一輪迭代,都使用離當(dāng)前輪次最近的N個(gè)歷史分類模型{Mt-1,Mt-2,…,Mt-N}對(duì)每一個(gè)無標(biāo)注樣本xj進(jìn)行預(yù)測(cè),得到N個(gè)后驗(yàn)概率。在此基礎(chǔ)上,使用不穩(wěn)定性采樣來估計(jì)每個(gè)無標(biāo)注樣本的不穩(wěn)定性,并挑選最不穩(wěn)定的樣本進(jìn)行標(biāo)注。

圖2 學(xué)習(xí)框架Fig.2 Learning framework
正如前文提到的,在主動(dòng)學(xué)習(xí)的第t輪迭代中,以往的模型,即{Mt-1,Mt-2,…,Mt-N}對(duì)無標(biāo)注樣本xj預(yù)測(cè)結(jié)果不穩(wěn)定,這表明目標(biāo)模型對(duì)該樣本的識(shí)別能力不足。預(yù)測(cè)越不穩(wěn)定,該樣本越難以被有效地識(shí)別。因而,應(yīng)盡可能挑選最不穩(wěn)定的樣本進(jìn)行查詢。
首先介紹本文使用的度量模型對(duì)未標(biāo)注樣本識(shí)別能力的指標(biāo)。現(xiàn)有主動(dòng)學(xué)習(xí)往往用信息熵來衡量模型預(yù)測(cè)的不確定性,普遍認(rèn)為模型越難以判斷樣本所屬類別,該模型的識(shí)別能力就越低。
(1)
上式的含義是模型Mk對(duì)樣本xj的預(yù)測(cè)向量的熵。計(jì)算N個(gè)歷史模型對(duì)同一個(gè)無標(biāo)注樣本的后驗(yàn)概率的熵,旨在根據(jù)識(shí)別能力對(duì)相鄰兩輪迭代的目標(biāo)模型進(jìn)行排序。為此,定義:
(2)
當(dāng)相鄰兩輪迭代中,模型的信息熵增加,說明模型對(duì)樣本的識(shí)別能力變?nèi)酰藭r(shí)變?nèi)醯某潭燃礊楸疚奶岢龅牟环€(wěn)定性程度的度量;相反,模型的信息熵減少,說明模型識(shí)別能力趨于穩(wěn)定。
使用后驗(yàn)概率分布的差異來衡量模型識(shí)別能力變?nèi)醯拇笮 3S糜诤饬績(jī)蓚€(gè)分布差異的度量方式有KL散度、JS散度和Wasserstein距離。
(3)
(4)
(5)
通過實(shí)驗(yàn)發(fā)現(xiàn),使用上述幾種度量方式的實(shí)驗(yàn)性能相當(dāng),因此,統(tǒng)一采用Wasserstein距離來度量模型識(shí)別能力變?nèi)醯某潭取?/p>
基于信息熵和分布差異,引入sj衡量無標(biāo)注樣本xj的不穩(wěn)定性。使用同一未標(biāo)注樣本的信息熵來對(duì)相鄰模型識(shí)別效果進(jìn)行排序,熵增時(shí),累計(jì)模型性能變化大小。具體的,在第t輪迭代過程中,首先計(jì)算離當(dāng)前輪次最近的前N個(gè)目標(biāo)模型{Mt-1,Mt-2,…,Mt-N}對(duì)無標(biāo)注樣本xj的預(yù)測(cè)向量{Pj,t-1,Pj,t-2,…,Pj,t-N}。然后,通過式(6)計(jì)算xj的不穩(wěn)定性sj。
(6)
其中,D(P1,P2)代表Wasserstein距離。
根據(jù)式(6)得到每一個(gè)無標(biāo)注樣本的不穩(wěn)定性后,選擇值最大的b個(gè)樣本進(jìn)行標(biāo)注并加入訓(xùn)練。算法1中總結(jié)了不穩(wěn)定性采樣的計(jì)算框架。

算法1 基于不穩(wěn)定性采樣的主動(dòng)學(xué)習(xí)方法
本節(jié)主要介紹實(shí)驗(yàn)設(shè)置以及使用不同模型在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
在9個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),表2展示了所用數(shù)據(jù)集的樣本數(shù)量,特征維度以及類別數(shù)目。為了進(jìn)一步驗(yàn)證所提出方法在傳統(tǒng)模型和深度模型上的有效性,使用不同的基分類模型,包括邏輯斯蒂回歸(logistic regression, LR)模型、LeNet-5和ResNet18。所有實(shí)驗(yàn)使用的都是未經(jīng)過預(yù)訓(xùn)練的初始化模型。
將數(shù)據(jù)集劃分為70%的訓(xùn)練樣本和30%的測(cè)試樣本。在傳統(tǒng)模型上,訓(xùn)練集隨機(jī)采樣5%的樣本來初始化有標(biāo)注樣本集,在每輪主動(dòng)學(xué)習(xí)迭代中,通過采樣策略挑選b=1個(gè)未標(biāo)注樣本進(jìn)行標(biāo)注并加入有標(biāo)注集,總標(biāo)注預(yù)算為200。在深度模型上,初始的已標(biāo)注訓(xùn)練樣本占整個(gè)訓(xùn)練集的0.5%,總標(biāo)注預(yù)算為500;svhn除外,其隨機(jī)采樣1%的樣本來初始已標(biāo)注集,總標(biāo)注預(yù)算為2 000。不同的標(biāo)注預(yù)算依據(jù)實(shí)驗(yàn)最終的收斂情況而定,以便于觀察主動(dòng)學(xué)習(xí)采樣策略性能。深度模型在每輪主動(dòng)學(xué)習(xí)迭代中挑選b=10個(gè)樣本進(jìn)行標(biāo)注。

表2 實(shí)驗(yàn)所用數(shù)據(jù)集
實(shí)驗(yàn)初始學(xué)習(xí)率設(shè)為0.01,批量大小為64,在mnist和fashionmnist數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)每50次迭代更新學(xué)習(xí)率為原來的10%,svhn數(shù)據(jù)集每20次迭代更新學(xué)習(xí)率為原來的90%。重復(fù)地進(jìn)行5次實(shí)驗(yàn),計(jì)算每輪主動(dòng)學(xué)習(xí)迭代中目標(biāo)模型的平均準(zhǔn)確率,并繪制平均準(zhǔn)確率隨查詢樣本數(shù)的變化曲線,曲線提升得越快,說明采樣策略性能越高。
為了驗(yàn)證方法的有效性,將不穩(wěn)定性采樣方法與下列方法進(jìn)行對(duì)比:
1)隨機(jī)采樣: 對(duì)未標(biāo)注樣本進(jìn)行隨機(jī)采樣。
2)最低置信度采樣: 根據(jù)模型對(duì)未標(biāo)注樣本的預(yù)測(cè)后驗(yàn)概率,挑選一批置信度最低的樣本進(jìn)行標(biāo)注。
3)最大熵采樣: 基于模型的預(yù)測(cè)后驗(yàn)概率計(jì)算每一個(gè)未標(biāo)注樣本的信息熵,并挑選一批信息熵最大的樣本。
上述所有比對(duì)方法都基于ALiPy[46]庫(kù)提供的接口,使用默認(rèn)參數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果如圖3所示,其中圖3(a)~(f)是傳統(tǒng)模型的實(shí)驗(yàn)效果,圖3(g)~(i)是深度模型的實(shí)驗(yàn)結(jié)果。從圖中可以看出:不穩(wěn)定性采樣方法在大多數(shù)情況下都實(shí)現(xiàn)了最佳性能;不穩(wěn)定性采樣幾乎在所有情況下都顯著優(yōu)于基準(zhǔn)方法隨機(jī)采樣;不穩(wěn)定性采樣幾乎在所有情況下都與不確定性采樣方法(最低置信度采樣和最大熵采樣)表現(xiàn)相當(dāng)或優(yōu)于他們。這些實(shí)驗(yàn)結(jié)果證明了不穩(wěn)定性采樣能有效地挑選對(duì)模型最有用的樣本,并提升主動(dòng)學(xué)習(xí)性能;同時(shí)說明了考慮歷史模型預(yù)測(cè)不穩(wěn)定性比僅基于當(dāng)前模型挑選樣本帶來的潛在效用大。
本小節(jié)進(jìn)一步研究歷史模型數(shù)量N對(duì)實(shí)驗(yàn)結(jié)果的影響。圖4為模型數(shù)量對(duì)比實(shí)驗(yàn)結(jié)果,分別設(shè)置N=2,3,5,并展示出性能曲線。通過觀察發(fā)現(xiàn),當(dāng)N=5時(shí),不穩(wěn)定性采樣方法的性能比N=2和N=3的性能差。原因可能為本文使用距當(dāng)前主動(dòng)學(xué)習(xí)輪次最近的前N個(gè)歷史模型進(jìn)行實(shí)驗(yàn),隨著主動(dòng)學(xué)習(xí)迭代輪次的增加,前幾輪訓(xùn)練得到的模型性能較弱,這些模型預(yù)測(cè)的后驗(yàn)概率準(zhǔn)確率較低,計(jì)算得到的數(shù)據(jù)的不穩(wěn)定都較高,使得篩選出的數(shù)據(jù)可能不是“預(yù)期的高質(zhì)量數(shù)據(jù)”,最終導(dǎo)致隨著N增大,本文方法的效果下降。

(a) Iris & LR (b) Wine & LR (c) New-thyroid & LR

(d) Clean1 & LR (e) Breastcanser & LR (f) Digits & LR

(g) Mnist & LeNet-5 (h) Fashionmnist & LeNet-5 (i) Svhn & ResNet18圖3 性能對(duì)比實(shí)驗(yàn)結(jié)果Fig.3 Performance comparison of experimental results

(a) Iris & LR (b) Wine & LR (c) New-thyroid & LR

(d) Clean1 & LR (e) Breastcanser & LR (f) Digits & LR

(g) Mnist & LeNet-5 (h) Fashionmnist & LeNet-5 (i) Svhn & ResNet18圖4 模型數(shù)量對(duì)比實(shí)驗(yàn)結(jié)果Fig.4 Comparative experimental results on the different number of models
本文提出了一種基于不穩(wěn)定性采樣的主動(dòng)學(xué)習(xí)方法,通過以往模型的預(yù)測(cè)差異來衡量無標(biāo)注樣本的信息量。該方法考慮了以往模型在同一無標(biāo)注樣本上的預(yù)測(cè)的不穩(wěn)定性,使挑選的樣本對(duì)改善模型性能具有較高的潛在價(jià)值。為了充分驗(yàn)證方法的有效性,使用傳統(tǒng)和深度模型在多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,不穩(wěn)定采樣方法優(yōu)于經(jīng)典的基于不確定性的主動(dòng)學(xué)習(xí)方法。未來,打算將不穩(wěn)定采樣方法用于其他實(shí)際任務(wù)中,如目標(biāo)檢測(cè)任務(wù)。