999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合共享機(jī)制的多任務(wù)深度學(xué)習(xí)方法

2023-02-21 12:54:04郭靜純
關(guān)鍵詞:特征方法

郭 輝,郭靜純

(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)

0 引 言

按照學(xué)習(xí)模式的不同,多任務(wù)學(xué)習(xí)可以分為結(jié)構(gòu)化學(xué)習(xí)方法和多任務(wù)深度學(xué)習(xí)方法。其中,前者包括基于任務(wù)層面和基于特征層面兩種方法;而后者主要包括硬參數(shù)共享、軟參數(shù)共享及其改進(jìn)的多任務(wù)學(xué)習(xí)方法[1]。

在進(jìn)行多任務(wù)學(xué)習(xí)時(shí),如果任務(wù)之間具有較強(qiáng)的相關(guān)性,適合選用硬參數(shù)共享機(jī)制或基于任務(wù)層面的學(xué)習(xí)方法;反之,則采用軟參數(shù)共享機(jī)制或基于特征層面的多任務(wù)學(xué)習(xí)模型,這可以在一定程度上緩解前者對(duì)任務(wù)具有較高整體相似度的約束。如何充分地發(fā)揮上述兩類(lèi)方法的特點(diǎn),綜合應(yīng)用于更廣泛的多任務(wù)深度學(xué)習(xí)網(wǎng)絡(luò)中,這是目前多任務(wù)學(xué)習(xí)問(wèn)題面臨的主要挑戰(zhàn)之一。

針對(duì)上述問(wèn)題,本文提出了將硬參數(shù)共享機(jī)制與軟參數(shù)共享機(jī)制相結(jié)合的混合共享多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),給出相應(yīng)的混合交替網(wǎng)絡(luò)訓(xùn)練方法與應(yīng)用流程,并通過(guò)在MINIST數(shù)據(jù)集上的具體實(shí)驗(yàn)和相關(guān)對(duì)比分析,驗(yàn)證了該方法的有效性,這為多任務(wù)深度學(xué)習(xí)提供了新的解決思路。

1 相關(guān)工作

基于任務(wù)層面的多任務(wù)學(xué)習(xí)包括模型參數(shù)共享[2]、公共特征共享[3]、多任務(wù)聚類(lèi)結(jié)構(gòu)[4]以及多任務(wù)子空間學(xué)習(xí)[5]4種方法。前兩種學(xué)習(xí)方法都要假定一個(gè)特征共享空間,區(qū)別在于:前者直接在任務(wù)上尋找中心模型;而后者經(jīng)過(guò)特征選擇后確定共同結(jié)構(gòu),共享公共特征。多任務(wù)聚類(lèi)結(jié)構(gòu)則需假定多個(gè)特征共享空間,并尋找其中心模型;同時(shí)為了實(shí)現(xiàn)特征選擇與正則化,在學(xué)習(xí)時(shí)需進(jìn)行任務(wù)之間的相互約束。然而,上述3種方法在共享特征時(shí)都會(huì)忽略共享結(jié)構(gòu)之外的特征,存在信息丟失問(wèn)題。在此基礎(chǔ)上,子空間學(xué)習(xí)方法假設(shè)所有任務(wù)的特定信息保留在低維公共子空間中,不再以同等重要性在某些特征上共享信息,而考慮保留各自任務(wù)的特定信息,是一種隱式共享特征方法。

與基于任務(wù)層面的學(xué)習(xí)方法不同,基于特征層面的多任務(wù)學(xué)習(xí)對(duì)任務(wù)的每個(gè)特征進(jìn)行建模,注重個(gè)體特征的共享遷移。其代表性方法有魯棒多任務(wù)學(xué)習(xí)[6]、臟模型[7]、協(xié)同聚類(lèi)模型[8]、可變簇聚類(lèi)模型[9]等。這些方法的關(guān)鍵在于魯棒主成分的矩陣分解,不僅要考慮任務(wù)之間的通用結(jié)構(gòu),而且要能提取多個(gè)任務(wù)的共有特征和私有特征。其中,臟模型通過(guò)提取任務(wù)的稀疏特征,有效提升了多任務(wù)學(xué)習(xí)方法的穩(wěn)健性;而協(xié)同聚類(lèi)與可變簇聚類(lèi)通過(guò)對(duì)任務(wù)稀疏特征的關(guān)系建模,采用特征簇刻畫(huà)其局部相似性。

基于任務(wù)層面的多任務(wù)學(xué)習(xí)方法關(guān)注任務(wù)之間的相互關(guān)聯(lián),而當(dāng)某些任務(wù)的特征關(guān)聯(lián)很弱甚至無(wú)關(guān)時(shí),仍然共享這些“個(gè)性鮮明”的特征,其結(jié)果自然不理想;此時(shí),應(yīng)采用基于特征層面的多任務(wù)學(xué)習(xí)方法,捕捉共享結(jié)構(gòu)之外的特定任務(wù)特征,從而彌補(bǔ)基于任務(wù)層面學(xué)習(xí)方法的不足。

與結(jié)構(gòu)化學(xué)習(xí)方法不同,多任務(wù)深度學(xué)習(xí)通過(guò)改變神經(jīng)網(wǎng)絡(luò)層與層之間的連接方式表征不同的任務(wù)。作為一種最常用的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),硬參數(shù)共享通過(guò)多個(gè)任務(wù)共享隱藏層學(xué)習(xí)任務(wù)之間的聯(lián)合表示,并根據(jù)每個(gè)任務(wù)的不同特性設(shè)計(jì)各自的分類(lèi)器預(yù)測(cè)輸出層[10-13]。它可以有效降低對(duì)原始任務(wù)的過(guò)擬合風(fēng)險(xiǎn);而且,在設(shè)計(jì)共享層結(jié)構(gòu)時(shí),不需要對(duì)任務(wù)之間的關(guān)系進(jìn)行精確建模,極大地簡(jiǎn)化了網(wǎng)絡(luò)設(shè)計(jì)。但與此同時(shí),這會(huì)導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練的過(guò)程中無(wú)法根據(jù)實(shí)際任務(wù)的相關(guān)性差異調(diào)節(jié)共享量;另外,由于每個(gè)任務(wù)的分類(lèi)器預(yù)測(cè)輸出層是相互獨(dú)立的,這阻斷了共享信息在該層的自適應(yīng)傳播,使得網(wǎng)絡(luò)無(wú)法利用輸出層建立任務(wù)之間的相關(guān)關(guān)系。當(dāng)任務(wù)之間聯(lián)系不緊密時(shí),這種共享隱藏層結(jié)構(gòu)會(huì)增加負(fù)遷移的風(fēng)險(xiǎn);即使任務(wù)之間存在緊密聯(lián)系,負(fù)遷移現(xiàn)象也會(huì)隨著網(wǎng)絡(luò)層數(shù)的增加而愈加明顯[1,14],這是因?yàn)槟P蛷墓蚕砭W(wǎng)絡(luò)層到特定網(wǎng)絡(luò)層進(jìn)行特征傳遞的效率會(huì)在深層次網(wǎng)絡(luò)中明顯下降。由此可知,硬參數(shù)共享神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)雖然簡(jiǎn)單,但是只能建立在任務(wù)具有較高相關(guān)性約束條件的基礎(chǔ)上。

為了解決硬參數(shù)共享機(jī)制存在的上述問(wèn)題,很多學(xué)者提出了不指定共享結(jié)構(gòu)的軟參數(shù)共享機(jī)制[14-17]。該方法為每個(gè)任務(wù)設(shè)計(jì)了同樣的網(wǎng)絡(luò)結(jié)構(gòu),假設(shè)所有任務(wù)的特征層存在于一個(gè)共享空間中,可以在各層上通過(guò)范數(shù)進(jìn)行關(guān)聯(lián)約束,保證任務(wù)之間是相似的而非完全雷同。其中,Long等在每一網(wǎng)絡(luò)分層上對(duì)參數(shù)進(jìn)行堆疊,形成所有網(wǎng)絡(luò)層的張量集合后,再通過(guò)L2范數(shù)約束任務(wù)的相似性[1],除此之外,也可以采用跡范數(shù)進(jìn)行相似性約束[18]。軟參數(shù)共享機(jī)制雖然適用于聯(lián)系不緊密的多任務(wù)學(xué)習(xí),但是隨著任務(wù)數(shù)量的增加,這種網(wǎng)絡(luò)共享結(jié)構(gòu)和參數(shù)都會(huì)變得非常復(fù)雜,給實(shí)際應(yīng)用造成極大困難,甚至根本不可行。

2 混合共享多任務(wù)學(xué)習(xí)方法

硬參數(shù)共享網(wǎng)絡(luò)在進(jìn)行多任務(wù)學(xué)習(xí)時(shí),如果這些任務(wù)均具有較強(qiáng)的相關(guān)性,可以取得較好的分類(lèi)性能;但是,當(dāng)部分任務(wù)相關(guān)性較弱或者存在一些特異性特征時(shí),硬參數(shù)共享機(jī)制通常會(huì)出現(xiàn)負(fù)遷移和學(xué)習(xí)效果下降的問(wèn)題。由此可見(jiàn),任務(wù)之間具有整體相似性既是硬參數(shù)共享機(jī)制的優(yōu)點(diǎn),同時(shí)也是其缺點(diǎn)。而對(duì)于相關(guān)性較弱的多任務(wù)學(xué)習(xí),則是軟參數(shù)共享機(jī)制的適用場(chǎng)景。

因此,綜合應(yīng)用硬、軟兩種參數(shù)共享機(jī)制的混合共享多任務(wù)學(xué)習(xí)方法可以同時(shí)解決高相關(guān)與低相關(guān)的多任務(wù)學(xué)習(xí)問(wèn)題,擴(kuò)展了適用范圍,提高了應(yīng)用的靈活性。混合共享多任務(wù)學(xué)習(xí)主要包括3部分內(nèi)容:硬軟參數(shù)混合共享網(wǎng)絡(luò)結(jié)構(gòu)、混合訓(xùn)練與交替訓(xùn)練相結(jié)合的網(wǎng)絡(luò)訓(xùn)練方法,以及混合共享多任務(wù)學(xué)習(xí)方法具體應(yīng)用流程。

2.1 混合共享網(wǎng)絡(luò)結(jié)構(gòu)

設(shè)存在N個(gè)學(xué)習(xí)任務(wù),根據(jù)任務(wù)之間的相關(guān)程度差異將所有任務(wù)進(jìn)行分組,相關(guān)性近似的任務(wù)歸為一組,則每組任務(wù)可表示為Ngk, 其中g(shù)=1,2,…,G, 表示相關(guān)程度近似的任務(wù)組序號(hào),而k=1,2,…,K, 表示組內(nèi)的任務(wù)序號(hào)。這樣分組后,組內(nèi)任務(wù)相關(guān)性強(qiáng)或類(lèi)似,可由同一硬參數(shù)共享網(wǎng)絡(luò)分支進(jìn)行學(xué)習(xí);而組與組之間的任務(wù)相關(guān)性弱或差異較大,則由采用軟參數(shù)共享形式對(duì)不同的硬參數(shù)共享網(wǎng)絡(luò)分支進(jìn)行約束,表征它們之間存在的內(nèi)在聯(lián)系或部分信息交互。硬軟參數(shù)混合共享的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 混合共享網(wǎng)絡(luò)結(jié)構(gòu)

由圖1可知,與傳統(tǒng)的硬參數(shù)共享神經(jīng)網(wǎng)絡(luò)相比,硬軟參數(shù)混合共享網(wǎng)絡(luò)可以充分發(fā)揮其在整體相似度較高的任務(wù)上表現(xiàn)性能好的優(yōu)勢(shì),并在此基礎(chǔ)上弱化或去除了在某些共享層之間交換信息的硬性約束,能夠適用于聯(lián)系并不緊密的任務(wù);與傳統(tǒng)的軟參數(shù)共享神經(jīng)網(wǎng)絡(luò)相比,隨著任務(wù)數(shù)量的增多,它的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的復(fù)雜程度均會(huì)明顯降低。

從結(jié)構(gòu)化學(xué)習(xí)的角度來(lái)看,混合共享機(jī)制結(jié)合了基于任務(wù)層面和基于特征層面兩種多任務(wù)學(xué)習(xí)方法的優(yōu)點(diǎn):兼顧了不同任務(wù)的共享特征與各自任務(wù)的特定特征。這樣可以使得多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得更加靈活和完備。

2.2 混合共享網(wǎng)絡(luò)訓(xùn)練方法

參數(shù)共享的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)在進(jìn)行訓(xùn)練時(shí),如果不同任務(wù)都有相互獨(dú)立的訓(xùn)練集,通常采用交替訓(xùn)練方法:在輸入端為不同任務(wù)分別輸入各自的訓(xùn)練樣本,在輸出端依次交替收斂每個(gè)任務(wù)的損失函數(shù)。網(wǎng)絡(luò)在交替訓(xùn)練、迭代調(diào)用每個(gè)任務(wù)的優(yōu)化器過(guò)程中,通過(guò)共享層不斷地將信息在任務(wù)之間進(jìn)行傳遞,直到發(fā)現(xiàn)它們共有的歸納偏置。以硬參數(shù)共享神經(jīng)網(wǎng)絡(luò)為例,交替訓(xùn)練過(guò)程如圖2所示。這種訓(xùn)練方式需要將不同任務(wù)完全區(qū)分開(kāi),并給每個(gè)任務(wù)設(shè)定各自合理的損失函數(shù)。但由于目前對(duì)任務(wù)自身及其相互之間的層次關(guān)系、相似性等的理解非常有限,使得網(wǎng)絡(luò)準(zhǔn)確區(qū)分任務(wù)并不是一件能夠輕松完成的事情。而且,即使實(shí)現(xiàn)了任務(wù)的區(qū)分與各自損失函數(shù)的設(shè)定,這仍然有可能出現(xiàn)讓網(wǎng)絡(luò)在所有任務(wù)的聯(lián)合假設(shè)空間中偏向某個(gè)任務(wù)的問(wèn)題,進(jìn)而導(dǎo)致網(wǎng)絡(luò)參數(shù)無(wú)法對(duì)全部任務(wù)實(shí)現(xiàn)等效收斂。

圖2 交替訓(xùn)練方法

針對(duì)上述問(wèn)題,這里提出混合訓(xùn)練新方法:對(duì)相似任務(wù)組的硬參數(shù)共享網(wǎng)絡(luò)分支采用無(wú)需區(qū)分任務(wù)、一同參與訓(xùn)練的混合訓(xùn)練方法。與此同時(shí),結(jié)合混合共享多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)在不同任務(wù)組之間的軟參數(shù)共享機(jī)制,對(duì)不同網(wǎng)絡(luò)分支之間采用交替訓(xùn)練方法。因此,整個(gè)混合共享網(wǎng)絡(luò)需要綜合應(yīng)用混合訓(xùn)練與交替訓(xùn)練相結(jié)合的訓(xùn)練模式,才能更好地探尋與其網(wǎng)絡(luò)結(jié)構(gòu)和多個(gè)學(xué)習(xí)任務(wù)相契合的網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)整體性能的提升與優(yōu)化。

2.2.1 混合訓(xùn)練

設(shè)硬參數(shù)共享神經(jīng)網(wǎng)絡(luò)從輸入層l=0、 共享層l=1,…,L-1到輸出層l=L, 共L+1層,Wl表示每層的連接權(quán)參數(shù)矩陣,bl表示每層的偏置或閾值,其中l(wèi)=0,1,…L。 若每個(gè)任務(wù)的數(shù)據(jù)集為Zk={(xki,yki)}, 其中k=1,2,…K, 表示組內(nèi)的相似任務(wù)序號(hào),i=1,2,…,S, 表示每個(gè)任務(wù)的樣本數(shù)。則由k個(gè)任務(wù)構(gòu)成的一組多任務(wù)訓(xùn)練數(shù)據(jù)集為Z=Z1∪Z2∪…∪ZK。 對(duì)于第k個(gè)任務(wù)而言,所有屬于這個(gè)任務(wù)的樣本為正樣本,其它的則為負(fù)樣本。通過(guò)樣本學(xué)習(xí),網(wǎng)絡(luò)達(dá)到將此任務(wù)數(shù)據(jù)從其它任務(wù)中正確分離出來(lái)的目標(biāo)。

為了避免區(qū)分不同任務(wù)、特別是組內(nèi)相似任務(wù)的難題,在隨機(jī)初始化硬參數(shù)共享分支網(wǎng)絡(luò)參數(shù)后,混合訓(xùn)練方法將k個(gè)任務(wù)的無(wú)差別混合數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集Z, 通過(guò)輸入層W0直接送入相應(yīng)的硬參數(shù)共享分支網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。輸入數(shù)據(jù)在該網(wǎng)絡(luò)的前向傳播過(guò)程中,若每層神經(jīng)元的激活值為al,l=0,1,…,L, 則其計(jì)算公式如下

(1)

其中,g(·) 是激活函數(shù)。

在進(jìn)行組內(nèi)的混合訓(xùn)練時(shí),網(wǎng)絡(luò)將多個(gè)相似任務(wù)看作一個(gè)整體進(jìn)行學(xué)習(xí),無(wú)需為每個(gè)任務(wù)設(shè)定各自的損失函數(shù),因此可以統(tǒng)一采用如下?lián)p失函數(shù)計(jì)算公式

L(aL,y)=-(ylog(aL)+(1-y)log(1-aL))

(2)

其中,y表示組內(nèi)多個(gè)混合任務(wù)的期望誤差。

在混合訓(xùn)練的初始階段,根據(jù)訓(xùn)練數(shù)據(jù)集Z從網(wǎng)絡(luò)共享層到第一個(gè)分支輸出層的正向信息傳遞與反向誤差傳播調(diào)節(jié)相應(yīng)的網(wǎng)絡(luò)參數(shù),當(dāng)該網(wǎng)絡(luò)分支輸出端的損失函數(shù)L(aL,y) 收斂到最小值時(shí),表明此時(shí)的網(wǎng)絡(luò)參數(shù)最佳,結(jié)束本次訓(xùn)練;并把此分支輸出層設(shè)定為組內(nèi)第一個(gè)任務(wù)的特定分類(lèi)層,同時(shí)將共享層的網(wǎng)絡(luò)參數(shù)作為第二次訓(xùn)練,即從共享層到第二個(gè)分支輸出層網(wǎng)絡(luò)結(jié)構(gòu)中共享層部分的初始化參數(shù)。采用同樣的訓(xùn)練調(diào)節(jié)策略,當(dāng)?shù)诙€(gè)分支網(wǎng)絡(luò)輸出的損失函數(shù)收斂到最小值時(shí),結(jié)束第二次網(wǎng)絡(luò)訓(xùn)練。此時(shí),第二個(gè)分支輸出層設(shè)定為第二個(gè)任務(wù)的特定分類(lèi)層,同樣將共享層參數(shù)作為第三次訓(xùn)練中相應(yīng)網(wǎng)絡(luò)部分的初始化參數(shù)。依次類(lèi)推,展開(kāi)后續(xù)網(wǎng)絡(luò)訓(xùn)練,直至所有任務(wù)在特定分類(lèi)層上均收斂到最小值時(shí),混合訓(xùn)練結(jié)束。該部分網(wǎng)絡(luò)混合訓(xùn)練算法流程總結(jié)如下:

算法1:混合訓(xùn)練

輸入:多任務(wù)混合訓(xùn)練數(shù)據(jù)集Z與相關(guān)參數(shù)(迭代次數(shù)Total, 學(xué)習(xí)速率α,損失函數(shù)收斂閾值β)

輸出:N個(gè)任務(wù)的分類(lèi)性能

(1)隨機(jī)初始化硬參數(shù)共享網(wǎng)絡(luò)參數(shù)θ

(2)for episode←1 toTotaldo

(3)單個(gè)分支輸出層 (即特定任務(wù)分類(lèi)層) 上計(jì)算相應(yīng)的混合任務(wù)損失誤差

(4)if前后兩次混合損失誤差<βthen收斂, 且N←N-1

(5)else then返回步驟 (3)

(6)end if

(7)ifN≠0 then當(dāng)前共享層參數(shù)作為下一次訓(xùn)練共享層的初始化參數(shù), 返回步驟 (2)

(8)else then

(9)end if

(10)end for

它在輸入端混合了所有任務(wù)的訓(xùn)練集,并依次在每個(gè)任務(wù)的特定分類(lèi)層上收斂混合任務(wù)的損失函數(shù)。首先,避免了區(qū)分不同任務(wù)的難題,并可以讓網(wǎng)絡(luò)從全局角度出發(fā)更好地判斷這些混合任務(wù)的特征是否聯(lián)系緊密;其次,所有任務(wù)共用一個(gè)損失函數(shù),可以平衡每個(gè)任務(wù)的訓(xùn)練;最后,前一次訓(xùn)練得到的共享層參數(shù)作為后一次訓(xùn)練的共享層初始化參數(shù),可以讓組內(nèi)任務(wù)的分類(lèi)性能在損失函數(shù)收斂的過(guò)程中逐漸趨于優(yōu)化。

2.2.2 混合+交替訓(xùn)練

由混合共享網(wǎng)絡(luò)結(jié)構(gòu)可知,它包括硬參數(shù)共享與軟參數(shù)共享兩種形式。其中的每個(gè)硬參數(shù)共享網(wǎng)絡(luò)分支采用混合訓(xùn)練方法,實(shí)現(xiàn)對(duì)組內(nèi)相似任務(wù)的特征表示與任務(wù)區(qū)分;而對(duì)于它們之間的軟參數(shù)共享約束,采用交替訓(xùn)練方法,在不同的任務(wù)組之間交替收斂各自的損失函數(shù),使得各組任務(wù)可以更好地進(jìn)行參數(shù)信息交互。混合共享神經(jīng)網(wǎng)絡(luò)采用的混合與交替訓(xùn)練相結(jié)合的方法,其具體過(guò)程如圖3所示。

圖3 混合交替訓(xùn)練

由圖3可知,交替訓(xùn)練中的優(yōu)化函數(shù)為每組任務(wù)中最后一個(gè)特定任務(wù)的優(yōu)化函數(shù)。混合交替訓(xùn)練方法充分考慮了混合共享網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),有助于網(wǎng)絡(luò)找到更優(yōu)的參數(shù),實(shí)現(xiàn)更好的網(wǎng)絡(luò)性能。

2.3 混合共享網(wǎng)絡(luò)學(xué)習(xí)流程

混合共享網(wǎng)絡(luò)在進(jìn)行多任務(wù)學(xué)習(xí)與應(yīng)用時(shí)可以分為5個(gè)主要階段:任務(wù)數(shù)據(jù)采集與預(yù)處理、多任務(wù)分組、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、網(wǎng)絡(luò)訓(xùn)練(混合訓(xùn)練+交替訓(xùn)練)、網(wǎng)絡(luò)模型測(cè)試。除了多任務(wù)分組,其它階段的相關(guān)工作內(nèi)容或者較為基礎(chǔ),或者已在前面介紹過(guò),這里不再贅述,只重點(diǎn)說(shuō)明多任務(wù)分組問(wèn)題與解決方法。

硬參數(shù)共享機(jī)制是建立在所有任務(wù)具有較強(qiáng)相關(guān)性的假設(shè)基礎(chǔ)上,而當(dāng)任務(wù)之間的聯(lián)系并不緊密時(shí),硬參數(shù)共享機(jī)制的性能會(huì)因?yàn)椴糠秩蝿?wù)的差異性而下降。作為影響模型性能優(yōu)劣的關(guān)鍵因素之一,梯度可以反映出具有任務(wù)特異性的特征如何導(dǎo)致模型出現(xiàn)負(fù)遷移現(xiàn)象。因此,以硬參數(shù)共享神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),結(jié)合影響因子權(quán)重分析方法,根據(jù)不同任務(wù)在共享層的梯度變化衡量任務(wù)之間的相似度。當(dāng)多個(gè)任務(wù)中存在相似度較低的任務(wù)時(shí),基于梯度變化差異將其挑選出來(lái)并歸為另一組,輸入到新的硬參數(shù)共享網(wǎng)絡(luò)分支中,同時(shí)采用軟參數(shù)共享機(jī)制對(duì)不同的分支進(jìn)行相似性約束,從而達(dá)到同時(shí)學(xué)習(xí)不同相似度任務(wù)的目的。

在完成對(duì)硬參數(shù)共享神經(jīng)網(wǎng)絡(luò)的混合訓(xùn)練后,可以將其的每一個(gè)學(xué)習(xí)任務(wù)訓(xùn)練樣本作為自變量,共享層梯度變化作為因變量,根據(jù)影響因子權(quán)重分析方法定量評(píng)價(jià)各個(gè)自變量對(duì)因變量影響重要性程度的差異。當(dāng)訓(xùn)練樣本數(shù)據(jù)變化相同幅度時(shí),共享層的梯度變化矩陣越相似,則表明這部分訓(xùn)練數(shù)據(jù)對(duì)任務(wù)統(tǒng)一表示的重要性越相近,在硬參數(shù)共享神經(jīng)網(wǎng)絡(luò)中的整體相似度越高。通過(guò)對(duì)共享層梯度變化矩陣的相似度分析,實(shí)現(xiàn)基于整體相似度的任務(wù)分組。

由深度學(xué)習(xí)過(guò)程可知,靠近輸入一側(cè)的淺層網(wǎng)絡(luò)通常提取局部、具體的一般特征,而隨著網(wǎng)絡(luò)層數(shù)的增加,深層網(wǎng)絡(luò)提取更加全局、抽象的本質(zhì)特征[19]。與前者的淺層特征相比,后者的深層特征對(duì)于任務(wù)分類(lèi)的作用更重要。據(jù)此,可以簡(jiǎn)化衡量梯度變化矩陣相似度的過(guò)程,只選取共享層部分最后一層的梯度變化,在強(qiáng)化深層特征關(guān)鍵作用的同時(shí)進(jìn)一步提升任務(wù)相似度衡量的準(zhǔn)確性。

(3)

其中,n=1,2,…N-1。

在第一步混合訓(xùn)練的基礎(chǔ)上,根據(jù)梯度變化不同與層次特征作用差異計(jì)算第二步衡量梯度變化矩陣的相似度,其處理過(guò)程總結(jié)為算法2,如下所示:

算法2:衡量梯度變化矩陣的相似度

輸入:多任務(wù)混合訓(xùn)練數(shù)據(jù)集Z與相關(guān)參數(shù)(迭代次數(shù)Total, 學(xué)習(xí)速率α, 損失函數(shù)收斂閾值β)

輸出:N個(gè)梯度變化矩陣之間的相似度

(1)基于訓(xùn)練數(shù)據(jù)集Z,按照算法1進(jìn)行混合訓(xùn)練,計(jì)算最后一個(gè)共享層的梯度Δ(L-1)

(2)選取某個(gè)任務(wù),逐一增加或減少訓(xùn)練樣本特征值的10%~20%,生成新的訓(xùn)練數(shù)據(jù)集Z′, 同樣按照算法1計(jì)算最后一個(gè)共享層的梯度 (Δ(L-1))′

(4)if未改變所有任務(wù)訓(xùn)練樣本的特征值then返回步驟(2)

(5)else then

(6)end if

綜上所述,在混合訓(xùn)練后分析每個(gè)任務(wù)梯度變化矩陣的相似度,可以有效地衡量任務(wù)的整體相似度,并以此為依據(jù)進(jìn)行合理的任務(wù)分組。

3 實(shí)驗(yàn)研究

為了檢驗(yàn)基于混合共享的多任務(wù)學(xué)習(xí)方法的有效性,選取MNIST數(shù)據(jù)集為對(duì)象進(jìn)行具體的應(yīng)用實(shí)驗(yàn)。

3.1 實(shí)驗(yàn)設(shè)置

由“0~9”數(shù)字組成的手寫(xiě)體識(shí)別數(shù)據(jù)集MNIST可看作10個(gè)學(xué)習(xí)任務(wù),為每個(gè)任務(wù)分別選取10個(gè)訓(xùn)練樣本和50個(gè)測(cè)試樣本。同時(shí),為壓縮手寫(xiě)數(shù)字圖像的特征信息,基于PCA技術(shù)只需對(duì)每張圖像中的87個(gè)重要特征進(jìn)行學(xué)習(xí)即可。

實(shí)驗(yàn)采用的混合共享神經(jīng)網(wǎng)絡(luò)由3個(gè)硬參數(shù)共享網(wǎng)絡(luò)分支組成(網(wǎng)絡(luò)分支數(shù)由任務(wù)分組的實(shí)際結(jié)果決定,即分支數(shù)等于任務(wù)分組數(shù)),每個(gè)分支共4層,即一個(gè)輸入層、兩個(gè)共享層和一個(gè)特定任務(wù)分類(lèi)輸出層。其中,兩個(gè)共享層的神經(jīng)元個(gè)數(shù)分別為4和5。任務(wù)損失函數(shù)的收斂閾值根據(jù)根據(jù)該模型在實(shí)驗(yàn)過(guò)程中的實(shí)際性能設(shè)置,且每層選用的激活函數(shù)都為Sigmoid函數(shù)。

3.2 實(shí)驗(yàn)結(jié)果與分析

將設(shè)定的10個(gè)二分類(lèi)任務(wù)的混合訓(xùn)練集通過(guò)輸入層送入該神經(jīng)網(wǎng)絡(luò)進(jìn)行基于混合共享的多任務(wù)學(xué)習(xí)實(shí)驗(yàn)。

在衡量任務(wù)相似度的過(guò)程中,計(jì)算出任務(wù)梯度變化矩陣之間的歐氏距離,結(jié)果見(jiàn)表1,數(shù)據(jù)保留4位小數(shù)點(diǎn)。然后,選出與每個(gè)任務(wù)的梯度變化矩陣歐氏距離最短的3個(gè)任務(wù),結(jié)果見(jiàn)表2。據(jù)此進(jìn)行多任務(wù)分組,分組結(jié)果為:數(shù)字“1”、“2”、“4”和“5”作為第一組混合任務(wù),數(shù)字“0”、“6”、“8”和“7”作為第二組混合任務(wù),而數(shù)字“3”和“9”作為第三組分類(lèi)任務(wù)。

表1 梯度變化矩陣之間的歐氏距離

表2 梯度變化矩陣相似度分析

將3組混合任務(wù)輸入到各自的硬參數(shù)共享網(wǎng)絡(luò)分支中,并采用軟參數(shù)共享形式對(duì)不同的分支進(jìn)行約束。隨機(jī)初始化每個(gè)分支的參數(shù)后,對(duì)上述網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用混合交替訓(xùn)練方法,其中每個(gè)硬參數(shù)共享網(wǎng)絡(luò)分支進(jìn)行混合訓(xùn)練,而對(duì)3個(gè)硬參數(shù)共享網(wǎng)絡(luò)分支之間的軟參數(shù)共享分支依次進(jìn)行交替訓(xùn)練。而且,針對(duì)該網(wǎng)絡(luò)模型不同的初始化參數(shù),多個(gè)學(xué)習(xí)任務(wù)采用不同的訓(xùn)練順序基本不影響最終的學(xué)習(xí)結(jié)果,這表明該模型具有較強(qiáng)的適應(yīng)性能。基于混合共享的多任務(wù)學(xué)習(xí)的實(shí)驗(yàn)結(jié)果見(jiàn)表3。該方法同時(shí)解決了不同相似度或相關(guān)性的多任務(wù)學(xué)習(xí)問(wèn)題,充分結(jié)合了基于任務(wù)層面和基于特征層面兩類(lèi)學(xué)習(xí)方法的優(yōu)點(diǎn),并通過(guò)與幾種比較有代表性的多任務(wù)學(xué)習(xí)方法的對(duì)比,驗(yàn)證了該學(xué)習(xí)方法的良好性能。

表3 實(shí)驗(yàn)結(jié)果對(duì)比

4 結(jié)束語(yǔ)

多任務(wù)學(xué)習(xí)應(yīng)該同時(shí)兼顧特征共享與任務(wù)處理,這樣才能取得較好的結(jié)果。為此,本文提出基于混合共享機(jī)制的深度多任務(wù)學(xué)習(xí)方法。首先,通過(guò)混合多任務(wù)訓(xùn)練數(shù)據(jù)、一同送入網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),避免了硬參數(shù)共享網(wǎng)絡(luò)在訓(xùn)練過(guò)程中需要區(qū)分不同任務(wù)的難題,利于網(wǎng)絡(luò)更好地分析所有任務(wù)的特征是否具有整體相似性,并根據(jù)共享層部分深層網(wǎng)絡(luò)所提取的全局本質(zhì)特征對(duì)任務(wù)分類(lèi)作用更重要以及響應(yīng)不同任務(wù)的梯度變化量差異確定不同任務(wù)之間的相似度,據(jù)此對(duì)其進(jìn)行合理分組;其次,將相似度接近的任務(wù)分為一組,進(jìn)行硬參數(shù)共享,同時(shí)考慮到組與組任務(wù)之間的相似性區(qū)別,采用軟參數(shù)共享形式對(duì)不同的硬參數(shù)共享網(wǎng)絡(luò)分支進(jìn)行約束,然后對(duì)該網(wǎng)絡(luò)模型采用混合交替訓(xùn)練方法進(jìn)行參數(shù)學(xué)習(xí),充分發(fā)揮基于任務(wù)層面和特征層面的優(yōu)點(diǎn);最后,通過(guò)在MNIST數(shù)據(jù)集上的應(yīng)用實(shí)驗(yàn),驗(yàn)證了本方法的有效性。

基于混合共享機(jī)制的深度多任務(wù)學(xué)習(xí)方法是建立在任務(wù)數(shù)據(jù)分布相似的基礎(chǔ)上,但不同任務(wù)的結(jié)構(gòu)可能并不完全一樣。因此,如何合理地劃分多任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu),使用部分結(jié)構(gòu)共享或者參數(shù)共享還有待后續(xù)研究工作的持續(xù)改進(jìn)與完善。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
學(xué)習(xí)方法
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 一级看片免费视频| 91区国产福利在线观看午夜 | 午夜限制老子影院888| 久久久久国产精品熟女影院| 在线不卡免费视频| 一区二区三区国产精品视频| 欧美精品成人一区二区视频一| 精品久久综合1区2区3区激情| 亚洲一区二区三区中文字幕5566| 91在线精品免费免费播放| 久久人搡人人玩人妻精品| 欧美日韩成人| 全裸无码专区| 韩日无码在线不卡| 免费女人18毛片a级毛片视频| 亚洲欧美在线精品一区二区| 国产日韩丝袜一二三区| 精品一区二区无码av| 熟妇无码人妻| 天天做天天爱夜夜爽毛片毛片| 青青青国产精品国产精品美女| 伊人五月丁香综合AⅤ| 国产免费看久久久| 亚洲V日韩V无码一区二区| 91成人精品视频| 就去吻亚洲精品国产欧美| 四虎亚洲精品| 91精品国产丝袜| 99色亚洲国产精品11p| 一本色道久久88综合日韩精品| 国产精品三区四区| 日韩美毛片| 亚洲欧美不卡中文字幕| 国产免费久久精品99re不卡| 凹凸国产熟女精品视频| 欧美亚洲激情| 欧美成人在线免费| 国产精品尤物在线| 香蕉伊思人视频| 爆乳熟妇一区二区三区| 久久国产V一级毛多内射| 国产精品亚洲天堂| 国产精品福利社| 十八禁美女裸体网站| 国产欧美又粗又猛又爽老| 亚洲国产清纯| 国产网站在线看| 青草娱乐极品免费视频| 国模私拍一区二区 | 91麻豆精品视频| 啊嗯不日本网站| 熟女视频91| 国产一区亚洲一区| 国产日韩欧美精品区性色| 在线视频97| 亚洲欧美另类中文字幕| 欧美高清视频一区二区三区| 日韩天堂视频| 又大又硬又爽免费视频| 国产精品爆乳99久久| 日本高清视频在线www色| 国产高清免费午夜在线视频| 久久大香香蕉国产免费网站| 国产内射一区亚洲| 国产凹凸一区在线观看视频| 一本大道在线一本久道| 亚洲二区视频| 成人精品亚洲| 凹凸国产分类在线观看| 中字无码av在线电影| 日韩视频免费| 国产亚洲欧美另类一区二区| 欧洲成人在线观看| 欧美成人免费午夜全| 亚洲一区网站| 一本大道视频精品人妻| 99热这里只有精品在线观看| 久草青青在线视频| 永久毛片在线播| 日本黄色不卡视频| 欧美伦理一区| 精品少妇人妻av无码久久 |