999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于弱監督深度學習的文本聚類算法及應用

2019-04-15 06:55:10張宏源張海超
計算機應用與軟件 2019年4期
關鍵詞:深度監督特征

譚 敏 張宏源 張海超

(杭州電子科技大學計算機學院 浙江 杭州 310018)

0 引 言

圖像識別一直是計算機視覺領域中最受關注的問題之一。盡管近年來在相關技術方面有了較大的突破和進展,但是如何克服“語義鴻溝”依然是一個巨大的挑戰。為了解決這個問題,近年來一些學者開始使用用戶點擊數據來代替視覺特征表示圖像[1-5]。利用點擊數據,一張圖片可以被表示為一個文本點擊頻率向量,即文本點擊特征[2]。由于點擊數據是從商業搜索引擎中爬取的用戶反饋數據,與傳統的視覺特征相比,文本點擊特征有更豐富的語義信息,在許多計算機視覺任務上表現更為出色[1-5]。

盡管點擊特征有諸多優勢,但直接將這種點擊特征用于圖像識別仍然面臨很多的挑戰。由于查詢文本集的規模龐大,噪聲較多,原始的點擊特征非常稀疏和冗余。針對此問題,許多學者提出了利用點擊特征進行文本合并的方法[3]來應對傳統自然語言處理方法中的“語義鴻溝”問題。然而這些工作都是利用圖像點擊次數向量來表征文本。這種特征盡管簡單,但無法刻畫文本的層次化的深度語義特征。為此,我們提出利用深度網絡學習文本的深度點擊特征表達,并基于深度點擊特征表達合并相近語義的查詢文本。

隨著深度模型在視覺分類領域的廣泛應用,近年來,學者們也開始研究基于深度學習的圖像聚類模型[6-7]。基于此類模型,本文提出了面向點擊特征的深度文本聚類框架來合并語義相似的查詢文本,其中深度特征和查詢類別通過網絡自主迭代學習。為了克服點擊特征向量的稀疏性,本文提出構建平滑的結構化的點擊特征圖來表征查詢文本,并以此作為深度網絡的輸入來學習查詢文本的深度點擊特征。本文將楊等提出的無監督深度聚類框架JULE[6](Joint Unsupervised LEarning of deep representations and image clusters)擴展到點擊數據上,并融合弱監督學習策略對文本進行加權,利用迭代優化交替地學習文本權重和深度點擊特征,從而實現在噪聲文本數據中的自動樣本選擇。

1 JULE模型簡介

JULE是一個端到端的深度圖像聚類模型,它通過迭代更新深度圖像特征和類別標號實現無監督的圖像聚類。與傳統的深度圖像識別模型相比,該模型不需要精確的圖像類別信息,只需要為模型初始化粗糙的類標號。鑒于這些優勢,我們將此模型擴展到基于點擊數據的文本聚類上,以應對原始查詢文本缺乏類別標號的特點。該模型的特點是在訓練過程中聯合更新圖像的聚類結果和深度特征實現完全自主學習。

該模型通過一個三元加權的損失函數組進行訓練。實驗證明,該模型在許多圖像識別數據集中都具有優秀的特征學習能力和圖像聚類效果,如MNIST、USPS、COIL、UMist、FRGC、CMU-PIE、YTF等。

除了JULE外,關于如何將深度學習應用到聚類任務中也有許多其他的研究。如Dizaji等提出了DEPICT模型,它通過將數據映射到一個具有差異性的子空間來獲得更好的聚類效果[7];Tian等提出了一種簡單的深度學習方法來進行圖片聚類,該方法首先通過堆疊自動編碼器得到圖片的視覺特征,然后用K-means算法對這些特征進行聚類[8]。

盡管近些年深度聚類的研究工作越來越多,但已有模型都是針對圖像數據設計的,而本文研究的查詢文本與圖像本質上具有較大差距。為此,本文基于光滑性假設,為查詢文本構建了點擊特征圖,從而將JULE擴展到文本聚類任務上。此外,本文結合弱監督學習策略提出了可對抗文本噪聲的深度聚類網絡。

2 算法設計及應用

本文提出了一種基于弱監督深度學習的文本聚類方法來進行查詢文本合并,并利用合并后的文本集為圖像構建緊湊的點擊特征,從而實現高效的圖像識別。本文所提出的圖像識別算法流程如圖1所示。在本節中,首先將簡介點擊數據及對應的圖像(文本)點擊特征,接著詳細介紹基于弱監督深度學習的文本聚類框架,最后介紹算法在圖像識別中的具體應用。

圖1 基于弱監督深度學習的文本聚類與圖像識別框架

2.1 點擊數據及點擊特征向量

假設包含n張圖片的訓練圖片集為{xi|1,2,…,n},圖片所對應的類別標簽為{yi|i=1,2,…,n}。該圖像集在一個包含m條查詢的文本集{qj|j=1,2,…,m}上有非零的用戶點擊次數,且相應點擊矩陣為C∈Rn×m(其中ci,j表示第i張圖片在查詢j下的點擊次數),每張圖片可以用查詢文本下的用戶點擊頻率向量來表示。

具體而言,利用點擊數據,任意圖片可表示為ui=(ci,1,ci,2,…,ci,m)。類似地,查詢文本可表示為vj=(c1,j,c2,j,…,cn,j)。注意到原始的點擊向量ui和vj的特征維度分別由點擊數據涉及的圖像和查詢文本集大小決定,而高維的點擊數據容易導致維度災難。

2.2 基于弱監督深度學習的文本聚類算法

本文將查詢文本表征為圖像點擊特征,并在此上學習它的深度點擊特征。

2.2.1 點擊特征圖的構建

如前文所述,本文將利用深度學習網絡學習查詢文本的深度點擊特征。與文獻[1,3,9]中類似,利用用戶點擊數據,輸入的查詢文本可表示為圖像點擊向量。然而,由于互聯網圖像集龐大,原始的圖像點擊特征往往過于稀疏。為了解決該特征的不平滑性和稀疏性,本文利用原始圖像點擊向量,每個查詢文本構建了點擊特征圖G。

點擊特征圖的構建流程如圖2所示。首先將查詢文本的原始點擊特征轉化為圖像類點擊特征矩陣,再利用視覺相似性將此矩陣轉化為平滑的點擊特征圖。如下將展開介紹這兩個過程。

圖2 點擊特征圖構建流程

1) 圖像類點擊特征矩陣。構建圖像類點擊特征矩陣要利用到上文所述的點擊向量vj及真實標簽yi。利用類別的真實標簽對v進行重排列得到矩陣(Mj)i,使得(Mj)i的每一行對應同一類圖像下的點擊特征向量。由于Clickture-Dog和Clickture-Bird數據集類內不平衡,有些種類的圖片過少。為了平衡數據,本文首先利用圖像擴增算法對圖片數量少的類別進行擴充操作。對于每一張圖片xi,它的擴充圖像Li定義如下:

Li={τ(xi)|τ(·)∈Γ(·)}

(1)

式中:τ(·)是一種圖像變換,包括遮擋、加噪、改變顏色及其混合。L是增強后的數據集,變換后的圖片與原始圖片共享點擊特征。

得到增強過的數據后,本文將每個種類的圖片集聚類到NI個子類,這樣文本在同一類圖像下的點擊向量就可以轉化為一個維度NI的類點擊向量。具體來說,對于第j類圖片集,實現基于深度視覺特征的聚類,得到對應的子類圖像集索引{Aj,1,Aj,2,…,Aj,NI}。

聚類完成后,更新后的點擊特征矩陣定義如下:

(2)

相比于利用原始點擊特征構建的點擊特征矩陣,經過圖像擴增后聚類操作后得到的結構化的類點擊特征矩陣有效克服了數據集中的類別不平衡。

2) 點擊特征圖。為了改善圖像類點擊特征矩陣稀疏不連續的缺點,本文利用排序和傳播算法將圖像類點擊特征矩陣轉化為平滑的點擊特征圖。受到文獻[3]啟發,本文提出了2-D的重排序和2-D點擊傳播算法。該方法將點擊量在各圖像類和同類不同圖像中傳播,有效改善了點擊矩陣不連續性和稀疏性的問題。

(2) 點擊傳播 傳播算法主要是為了解決點擊特征稀疏的問題。通過在相似樣本間分享點擊量,使得點擊特征更加平滑均勻。與重排序過程類似,傳播分為類間傳播和類內傳播兩過程。類間傳播是指一個圖像類的點擊量和按照比例分享給其他相似類。

(3)

類間傳播的公式如下:

(4)

式中:ρ為傳播率,E是單位矩陣。

(5)

式中:E和Λ(·)同式(4)一樣分別代表單位矩陣和對角化矩陣。

2.2.2 弱監督深度文本聚類框架

弱監督深度學習的文本聚類框架旨在學習文本的深度點擊特征。受到文獻[6]中圖像深度聚類網絡“JULE”的啟發,我們構建了面向點擊特征圖的深度聚類模型。

除了構建點擊特征圖作為輸入外,本文還將弱監督學習引入到訓練過程中,使得深度網絡在訓練的過程中能自動選擇可靠性較高的文本進行訓練。具體地,我們引入了權重向量ω來衡量查詢文本的可靠性,并使用弱監督學習方法使得網絡在訓練過程中自動更新權重ω。設網絡的參數為θ,則整個模型可形式化為求解如下問題:

βP(w)+γS(Z,w)

(6)

式中:yj是查詢文本的類別,它被初始為k-means算法得到的類別標號,并隨著網絡迭代逐步更新類標號,oj為網絡輸出結果。l(o,y)是樣本分類損失項,P(w)是權重先驗項,依據文獻[6],本文用文本被點擊的次數總和來估計相應的權重,即:

(7)

式中:wC是每個查詢文本點擊次數和構成的向量。式(6)中S(Z,w)是平滑項,與文獻[6]中類似,它是根據特征一致性假設構建的。由于式(6) 是個過于復雜的非凸優化問題,因此本文仿照文獻[6],分兩步來訓練整個網絡。首先固定權重向量ω更新網絡參數θ,之后利用新的網絡所提取出的特征和產生的新聚類結果來更新權重ω。

整個網絡的構造如圖3所示。

圖3 基于弱監督深度學習的文本聚類框架

與文獻[6]中“JULE”網絡的結構不同,本文特別為點擊輸入構建了文本深度網絡結構。由于點擊的稀疏性,該框架采用相對較少的卷積層。表1列出文本深度聚類網絡的結構。

表1 網絡結構細節

2.3 基于點擊數據的圖像識別

(8)

(9)

值得注意的是,訓練和測試集中的查詢文本往往區別很大,即在訓練圖像上點擊過的查詢有可能在測試集上點擊次數為零。為了解決這個問題,本文通過尋求查詢文本在訓練-測試集中映射關系,并利用此關系將測試圖像也表征為訓練文本集上的點擊特征。

在構建文本映射時,需要衡量兩個查詢之間的距離,本文利用文本點擊的圖像視覺特征相似度來度量文本間距離。訓練集與測試集中的查詢文本對(qi,qj)之間的距離公式如下:

f(φ,v)=φ·v

(10)

式中:vi、vj是qi、qj的圖像類點擊特征向量,φt、φs是訓練(測試)圖像集的深度視覺特征矩陣。

3 實 驗

和文獻[9]一樣,本文在Clickture-Dog和Clickture-Bird兩個公開的點擊數據集上進行了實驗。Clickture數據集是從商業圖像搜索引擎必應的一年點擊日志中抽取的,該數據集包含了一系列(圖像、查詢文本、點擊次數)三元組,是目前最為主流和完善的點擊數據集。在本節中,將首先介紹實驗的相關設置;之后通過圖像識別精度展現點擊特征圖及深度聚類網絡的優勢;最后將本文方法與一些經典算法進行對比驗證。本文利用基于文本類點擊特征的圖像識別精度來度量文本聚類算法的效果,所列出的實驗結果為多次實驗后的平均結果。

3.1 實驗設置

和文獻[10]一樣,本文首先對Clickture-Dog和Clickture-Bird數據集進行了預處理。并用與文獻[11]同樣的方式劃分數據集。

在表2中,我們詳細列出了實驗數據的相關信息,包括在上文中提到的圖像擴增操作。下文中,如無特別說明,所列數據是在Clickture-Dog上的結果。

表2 數據集詳細信息

3.2 點擊特征圖實驗

首先實驗研究各參數對于點擊特征圖構建的影響,然后對比原始點擊特征向量和點擊特征圖的識別率,以此驗證點擊特征圖的有效性。

3.2.1 參數實驗

1) 聚類個數 本文對聚類個數做了大量實驗,結果如表3所示。對比不同取值的聚類個數NI后,可發現:(1) 圖像識別精度與聚類個數NI間呈負相關關系。這種現象表明把某一圖像類細分為太多的子類會打破這類樣本集間的相關性,從而消除相鄰元素間的本征聯系。(2) 子類個數太少則使點擊特征矩陣維度過低,而子類個數過多又會喪失點擊數據的特點。因此,本文選擇了一個適中的聚類個數,即NI為30。

表3 聚類個數對精度的影響

2) 近鄰傳播參數 本文測試了不同的近鄰傳播參數為K′與傳播率為ρ對構建點擊特征圖的影響,如圖4所示。

圖4 不同參數構建的點擊特征圖效果對比

由圖4可知:(1) 除傳播率ρ=1以外,識別精度與傳播率ρ間呈正相關關系。可能有兩方面原因:一是將自身點擊量全部傳播出去將打破原始點擊信息的有效性,降低圖像識別精度;二是適當的傳播操作可以改善點擊數據的稀疏性,令點擊數據更加平滑、圖像識別精度更高。(2) 當傳播率ρ<0.5時,識別精度隨K′的增加而增加;當傳播率ρ>0.5時,K′=10或K′=15條件下的識別精度較優。

經過以上實驗,我們選擇NI=30、ρ=0.8、K′=15。

3.2.2 點擊特征圖有效性

本文通過不同點擊特征形式的精度驗證構建點擊特征圖的有效性。

表4中的“V”、“VP”、“M”、“G”分別表示點擊特征向量、傳播的點擊特征向量(ρ=0.8)、點擊特征矩陣(傳播前)、點擊特征圖(傳播后),對比結果可知:(1) “VP”遠優于“V”的結果,證實了K近鄰傳播操作能有效地解決點擊數據過于稀疏的問題;(2) “VP”與“M”的識別精度相當,說明圖像聚類操作對文本聚類結果的影響并不明顯;(3)M的效果好于“V”也說明了增強圖片和聚類表達點擊特征具有一定的效果;(4)綜合對比“V”、“VP”、“M”、“G”下的識別精度,可以發現使用點擊特征圖“G”的圖像識別效果明顯優于聚類其他類型的點擊特征的識別結果。

表4 點擊特征圖構造過程結果對比

3.3 弱監督深度聚類模型

如上文所述,本文的輸入為點擊特征圖,而傳統的深度網絡的輸入為圖像。為了尋找最適合于點擊數據的深度模型,本文充分研究了幾個主要網絡結構參數的影響,即卷積核大小和網絡層數,結果如表5和表6所示。根據實驗數據,最終確定卷積核大小為7×7,網絡結構為3個卷積層加1個全連接層。

對于弱監督參數β、γ和權重更新次數T,本文進行了如圖5所示的對比實驗。由圖可知,T也對結果有很大影響,權重更新次數越多,學習到的特征表征能力越強。在最優性能下我們設定β=0.1、γ=0.001。

圖5 弱監督中參數不同值的效果對比

3.4 與相關方法的對比

本小節將本文提出的方法和其他常用的深度特征模型進行對比,利用不同模型獲得文本的深度點擊特征,再利用K-means進行文本聚類。本文最終設定查詢聚類的聚類個數K=500。

本文采用VGG、JULE和DEPICT[7]作為對比網絡。VGG是經典的卷積神經網絡,而JULE和DEPICT是深度聚類網絡。由于本文的輸入是點擊特征圖,因此我們對JULE和DEPICT進行了調整,將點擊特征圖作為輸入。調整后的模型我們稱為C-JULE和C-DEPICT。本文提出的方法使用點擊特征圖作為輸入,并融合了弱監督的訓練方法,因此將本文的方法稱為C-JWLE(Click-data guided Joint Weakly-supervised LEarning of deep representations)。

3.4.1 識別精度

我們在Clickture-Dog和Clickture-Bird上進行對比實驗,結果如表7和表8所示。

表7 在Clickture-Dog上的不同深度模型對比

表8 在Clickture-Bird上的不同深度模型對比

從上述結果可知:

(1) C-DEPICT/C-JULE優于VGG/JULE的性能,說明傳統的圖像深度模型(VGG和JULE) 是依據圖像的視覺特點搭建的,并不適用于點擊數據。與之相比,C-DEPICT/C-JULE是專門針對點擊數據設計的淺層深度模型。同時,C-JULE明顯優于JULE方法的識別精度,也證明了基于點擊數據設計專屬模型的必要性。

(2) 與C-JULE相比,C-JWLE由于融合了弱監督學習策略,取得了更好的效果。說明弱監督的學習策略可以更好地消除點擊數據中的噪聲,進而提升模型的整體性能。

3.4.2 聚類可視化分析

進一步地,為了更加直觀地分析弱監督算法的效果,本文對基于C-JULE和C-JWLE的聚類結果進行了可視化對比,圖6和圖7分別展示了C-JULE和C-JWLE產生的若干個文本聚類結果,圖中每個查詢類cluster中一行表示一條查詢文本。

圖6 C-JULE聚類效果

圖7 C-JWLE聚類效果

由圖可知,基于C-JWLE得到的每個聚類中,更多的查詢文本擁有相同的主題詞根(黑色劃線),而C-JULE更容易將含有不同意義詞根(黑色加粗)的文本聚成一類。這種現象說明C-JWLE由于能更好地應對文本噪聲,從而產生優于C-JULE的文本聚類效果。

4 結 語

本文利用點擊數據將圖像表征為文本點擊特征向量進而實現魯棒的圖像識別。針對查詢文本集的規模龐大、冗余的問題,本文提出面向點擊特征的深度文本聚類框架來合并語義相似的查詢文本。特別地,本文提出了一種新穎的2-D重排和2-D點擊傳播方法來構建一個平滑的結構化的點擊特征圖來表示查詢文本。此外,本文將深度學框架擴展到點擊數據上,學習查詢文本的深度表征。本文還結合弱監督學習策略自動學習查詢文本權重,利用迭代優化的方法交替更新文本權重和深度點擊特征。本文在公共數據集Clickture-Dog和Clickture-Bird上進行了實驗。結果表明:(1) 點擊特征圖的構建有效地解決了查詢文本的稀疏性和不平滑性問題;(2) 通過引入弱監督學習策略,有效地克服了查詢文本中的噪聲問題。今后,將繼續對該算法進行改進,以獲得更好的聚類效果。同時,也在考慮利用遷移學習的思想,將點擊數據應用到其他公共數據集中,輔助完成其他計算機視覺任務。

猜你喜歡
深度監督特征
深度理解一元一次方程
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
主站蜘蛛池模板: 亚洲视频一区在线| 91色爱欧美精品www| 国产精品视频第一专区| 国产大片喷水在线在线视频| 国产无码网站在线观看| 久久国产乱子伦视频无卡顿| 少妇精品久久久一区二区三区| 亚洲国模精品一区| 国产aaaaa一级毛片| 噜噜噜久久| 波多野结衣一区二区三区四区 | 欧美激情,国产精品| 欧洲成人在线观看| 亚洲天天更新| 18黑白丝水手服自慰喷水网站| 成年人久久黄色网站| 午夜福利视频一区| 欧美精品不卡| 日韩欧美成人高清在线观看| 精品久久蜜桃| 欧美一区二区福利视频| 国产免费一级精品视频 | 日韩av手机在线| 中文字幕欧美日韩| 国产免费a级片| 老熟妇喷水一区二区三区| 国产 日韩 欧美 第二页| 全免费a级毛片免费看不卡| 日韩成人在线视频| 亚洲成人网在线观看| 亚洲天堂.com| 国产69囗曝护士吞精在线视频| 日韩福利在线观看| 国产精品一线天| a级毛片在线免费观看| 国产一区二区三区在线观看视频| 日本在线国产| 国产成人a在线观看视频| 亚洲黄色成人| 欧美日韩国产综合视频在线观看| 五月激情婷婷综合| 久久国产V一级毛多内射| 99国产精品国产| 91国内在线观看| 999国产精品永久免费视频精品久久 | 曰韩免费无码AV一区二区| 在线无码私拍| 九色在线观看视频| 国产微拍一区二区三区四区| 欧美日韩国产在线观看一区二区三区| 国产成人综合欧美精品久久| 国产一区二区影院| 国产综合在线观看视频| 国产成人综合日韩精品无码首页| 青青青草国产| 亚洲欧美日韩中文字幕在线| 人人91人人澡人人妻人人爽| 欧美综合成人| 免费无码AV片在线观看中文| 美女被躁出白浆视频播放| 一级全黄毛片| 欧美性久久久久| 怡红院美国分院一区二区| 狠狠色综合网| 欧美福利在线| 日韩黄色大片免费看| 在线国产资源| 欧美精品成人| 亚洲综合一区国产精品| 国产呦精品一区二区三区网站| 找国产毛片看| 国产精品乱偷免费视频| 91人妻在线视频| 亚洲成网站| 热九九精品| 中文字幕 91| 高清国产在线| 中文一级毛片| 男人天堂伊人网| 国产亚洲精品97在线观看| 91久久天天躁狠狠躁夜夜| 国产精品手机视频一区二区|