999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于配對排序損失的文本多標簽學習算法

2020-10-21 00:57:58顧天飛彭敦陸
小型微型計算機系統 2020年10期
關鍵詞:排序分類文本

顧天飛,彭敦陸

(上海理工大學 光電信息與計算機工程學院,上海200093)

1 引 言

文本分類是自然語言處理領域中的一項重要任務,是構建信息檢索、對話機器人等復雜系統的基礎.多分類假設類別之間是互斥的,即一篇文檔有且只能歸屬于單個類別.而事實上,對象是多語義的,比如一篇新聞能同時標注上“體育”和“足球”標簽.所以,多標簽更適合用來對現實問題進行建模,并有其實際的應用背景和學術價值.

多標簽學習存在多標簽分類和標簽排序兩類任務[11],前者將標簽集劃分為與樣本相關和不相關兩部分,后者則預測標簽之間的前后關系.上述兩項任務存在共通性,多標簽分類和標簽排序之間是可以相互轉換的,文獻引入校準標簽對排序的標簽進行劃分[14],而采用判別模型完成多標簽分類時,樣本對標簽的后驗概率天然具有可排序性[5].故而,學界和業界開始嘗試將兩項任務聯合起來進行解決,并運用于不同的應用領域[6,9,16].大體上,這類方法基于以下思想,得分較高的標簽更能體現樣本的語義,模型應使正標簽集排在負標簽集之前,這樣篩選出來的標簽也更加精準[16],從這一角度看,標簽排序考慮到了標簽的相對關系.

對于文本處理,過去的研究普遍采用文本特征手工提取的方式[19,20].得益于深度學習的發展,端到端的深度表征模型已成為當今的主流[1-5,7,8,15].與此同時,深度模型的性能受到標注數據缺失和語義提取不足的限制.為此,本研究引入遷移學習,將BERT[1]作為模型的特征提取部分,將多標簽分類和排序共同納入考慮,利用標簽之間的相對關系來增強多標簽預測的有效性.文獻普遍采用錯誤排序統計[10]和鉸鏈損失[9]刻畫多標簽排序誤差,但這些損失函數通常難以優化,尤其在深度模型的背景下.故本文采用一種替代的配對排序損失,該損失函數在實數域上可微,同時也是鉸鏈損失的邊界.此外,為了更準確地獲得文本實例對應的標簽集,標簽的篩選被看作為一項二值分類,用一個輔助網絡構建篩選標簽的閾值.

本文的貢獻如下:1)將遷移模型BERT運用于文本多標簽學習;2)提出配對排序目標函數對標簽排序任務進行建模,并給出了相應的理論分析.最后,為了決斷出精準的標簽集,算法引入額外的輔助網絡進行閾值預測.

2 相關工作

一般地,解決多標簽任務存在兩類思路,問題轉換和算法適應[11].前者將多標簽學習轉化為二值分類[11]、多分類[12]或標簽排序[14],后者則修改現有的學習算法以適應多標簽領域[13].上述技術主要集中于傳統機器學習,往往存在嚴重的性能瓶頸,計算規模和標簽空間呈正比[10-14].如今,神經網絡在模式識別領域獲得了巨大的成功,其中很大一部分運用到了多標簽學習中[3,5-9].

傳統的文本分類算法受限于語義和句法信息提取能力的不足,深度模型已經成為了該領域的主流.文獻[15]率先采用詞向量word2vec[17]進行詞嵌入和卷積神經網絡作為特征提取器,獲得了顯著的性能提升.該模型奠定了深度文本分類的一種范式,即模型一般由詞嵌入層、銜接模型和分類器三部分組成.如何通過海量的語料庫無監督學習到詞的表示是一項熱門研究,Word2vec[17]通過對詞語上下文和語義關系進行建模,將詞語嵌入到稠密的歐式空間中.BERT[1]由多層Transformer[4]構建而成,能解析出更深層的語義,并能適用于各項下游任務.

文本多標簽學習需要考慮到兩方面,文本信息的提取和標簽之間的相關性,現有的研究基本上是圍繞這兩方面展開的.一部分研究構建了基于卷積神經網絡的模型[5,7,8],文獻[3]采用了二值交叉損失對多標簽進行建模,文獻[8]引入指示神經元對標簽共現進行建模,以利用標簽的信息,文獻[5]將標簽預測看作為序列生成,引入循環神經網絡構建標簽之間的關系.文本序列的各個位置對標簽的影響是不同的,SGM[3]利用注意力機制加強模型的關注性.

排序學習的目的是通過機器學習算法對項目進行排序,在信息檢索、推薦系統中運用極為廣泛.多標簽學習存在以下假設,與樣本相關的標簽在排序上高于不相關的標簽,所以排序任務能很好的刻畫這種標簽關系.文獻[16]最早將文本多標簽分類看作為一項排序任務,并利用配對排序損失刻畫誤差,但文獻僅在多層感知機模型上驗證了損失函數的有效性.配對排序損失也可以應用于圖像檢測領域[6,9],但研究中普遍采用的鉸鏈損失存在訓練困難的問題.為了彌補上述缺點,本研究在深度文本多標簽學習背景下,嘗試了語言模型的遷移學習,并著重了探討了配對損失的使用.

3 本文工作

本章將首先給出問題的定義,然后提出結合BERT的文本特征提取模型,最后給出配對排序和標簽閾值預測的設計,以及相關的目標函數.

3.1 問題描述

定義1.多標簽排序任務,給定樣本x,若s*為理想的映射函數,則需滿足以下性質:

(1)

3.2 多標簽文本學習模型

在深度自然語言處理中,一個端到端模型一般由以下幾個步驟組成,首先將原始文本序列嵌入至稠密的表征詞嵌入h1,h2,…,hl,其次通過銜接模型將詞嵌入序列轉化為定長的表征向量,最終輸入到文本分類器中.對詞嵌入表征的研究和應用向來受到學界和業界的廣泛關注,通過預訓練詞向量使詞嵌入涵蓋語義和語法信息.然而,類似于Word2vec詞向量模型存在無法解析一詞多義,上下文信息缺失等缺點,往往對性能的提升并不明顯.BERT作為一種語言遷移模型,可以較好地彌補上述缺陷.

在詞嵌入階段,bert(·)將原始文本序列x中的每個元素映射到固定尺寸的嵌入,映射方式如下:

h1,h2,…,hl=bert(w1,w2,…,wl)

(2)

這里,h∈d,d>L的維度由bert(·)決定.銜接模型用于對嵌入進行整合,文獻中,通常會壘砌大量模型[5,15],對于這一環節本研究不做過多地復雜化,采用均值操作mean(·)將嵌入序列轉化為d維的特征向量f:

(3)

接下來,考慮標簽相關性得分的建模,由d維特征向量向L維向量映射,形式化為:

s=relu(Wsf+bs)

(4)

其中,Ws∈L×d為權重矩陣,bs∈L為偏置向量.式(4)中的relu(·)為神經網絡的激活函數.至此,對某個輸入樣本x,便能得到模型對各個類別的打分s,即為類別對樣本的相關性.多標簽和多類別分類在判決函數上存在一定差異.多類別假設類別之間是相互獨立的,故而往往取得分最大的類別作為輸出標簽.在多標簽分類中,每個實例對應的標簽數是不同的.簡單的做法是取前k最大得分或設置全局閾值(將得分大于某一閾值的標簽篩選出來),這些方法會造成額外的預測誤差.本研究將采取一種更靈活的做法,即讓g(·)作為一項可學習的函數,為每個標簽自動地學習得到適應于樣本特征f的閾值.閾值建模類似于標簽相關性得分模型:

θ=relu(Wthrf+bthr)

(5)

模型的預測同時依賴于式(4)和式(5):

(6)

上式中,si,k表示樣本與標簽的相關性得分si的第k分量,θi,k表示閾值的第k分量.圖1為模型的整體框架.

3.3 多標簽配對排序損失

上節介紹了結合語言遷移模型的多標簽分類模型,本節將引出如何對模型參數進行優化.形式上,需要解決如下優化問題:

(7)

這里,l為每個樣本上的損失項,R為模型參數的正則項,Φs=[Ws,bs]為標簽相關性得分模型的參數.在訓練式(7)時,解凍bert,對其進行參數微調.由定義1可得,屬于Y的標簽得分需盡可能地大,反之亦然.借鑒三元損失,易對損失進行建模:

圖1 算法框架Fig.1 Architecture of algorithm

(8)

式(8)采用了鉸鏈損失,α是一項超參數,用來設定相關與不相關標簽之間的邊界.該損失函數是非光滑的,在x=0處不可微,從而造成了優化的困難.為解決上述問題,本研究考慮引入替代損失:

(9)

圖2 損失函數ls的性質Fig.2 Property of loss function ls

上式中,β是常系數.替代損失式(9)是式(8)光滑的近似.由圖2中實線可見,該損失函數為實數域上處處可微的凸函數,在+上為鉸鏈損失的邊界,當且僅當,β=ea-1.此外,β值越小,則實線越接近y=0.章節4給出了相應的梯度求解,并且從經驗誤差最小化和貝葉斯最優預測角度進行理論分析.

(10)

3.4 閾值模型損失

式(5)為閾值回歸模型,根據樣本特征為每個標簽學習篩選閾值θ,并通過式(6)得到最終的預測標簽集.對某個標簽來說,預測可以轉換為一項二值問題,得分大于閾值為正樣本,反之作為負樣本.于是,閾值參數的目標函數可以寫成以下形式:

(11)

4 理論分析

本章首先對優化目標函數進行梯度計算,考慮式(10)對sm和sn的梯度為:

(12)

(13)

整合式(12)和式(13)可以得到:

(14)

這里,ξn,m為L維向量,其中第n項為+1,第m項為-1,其余項為0,以上計算結果說明說明了目標函數在實數域上式處處可微的.文獻[18]從經驗誤差最小化和貝葉斯最優預測角度,證明了排序統計的有效性.相同地,對損失函數式(9)進行理論分析,式(10)作為簡化版本同理可得.考慮貝葉斯預測準則:

sk(x)=p(k∈Y|x)=∑Y∈y,k∈Yp(Y|x)

(15)

上式決定了標簽λk的得分即相應的排序,p(k∈Y|x)為標簽域中所有可能的標簽集的邊際分布.

定理1.采用損失函數式(9)能達到經驗損失最小化.

證明:考慮損失函數經驗誤差最小化:

R(s)=[ls(s(x),Y)]

(16)

將式(16)改寫成條件經驗損失的形式:

R(s|x)=[ls(s(x),Y)|x]

(17)

這里,γm,n=ln (1+esTξm,n).現需找到使經驗損失最小化的得分函數s*,即盡可能滿足定義1.計算式(17)的一階和二階導:

(18)

(19)

(20)

(21)

替換式(21)中的(n,m),得到:

(22)

(23)

(24)

式(24)易得p(m∈Y|x)>p(n∈Y|x),基本滿足貝葉斯預測準則.綜上,以式(9)作為排序損失,能達到經驗損失最小化.

5 實驗評估

本章節將在真實的中文文本數據集上驗證本文所提算法的性能,實驗首先對比了不同的標簽決斷方法和損失函數的表現,最后與一些主流的方法進行比較.

5.1 實驗數據

本實驗選用了法研杯比賽CAIL2018(1)https://github.com/thunlp/CAIL罪名預測任務,來進行算法驗證.為減少訓練時間,選取了187100份樣本,并根據8∶1∶1的比例將數據集劃分為訓練集,測試集和驗證集.多標簽數據集存在額外的性質,表1給出相關的信息.在文獻中,Card和Dens分別表示樣本所屬標簽平均數量和標簽密度.標簽集數量較大說明存在大量標簽共現的情況,如何利用上標簽的關系顯得額外重要.

表1 多標簽信息Table 1 Data set information

5.2 實驗設置

1)實驗平臺:本研究中所有的代碼都由Python編寫,模型基于Tensorflow搭建.采用哈工大提供的BERT(2)https://github.com/ymcui/Chinese-BERT-wwm預訓練模型,該版本在海量的中文語料庫上完成訓練,并在各項中文任務驗證了其有效性.設備系統為Ubuntu16.04,配備兩塊NVIDIA GeForce 1080Ti顯卡,內存為64G.

2)數據預處理:原始文本數據已經做了脫敏處理,本實驗將作進一步地優化,去除了文檔中的特殊符號,西文字符等.由于文書是存在格式的,其中有些子句實際上是無用的,比如“人民檢察院指控”,“公訴機關指控”或者文書審理日期等,實驗中將上述字符串從文檔中剔除.為處理數據集存在的多標簽不平衡問題,這里首先按照50:50的比例將標簽集劃分為多數類和少數類,并對少數類進行上采樣處理.

3)實驗參數設置:第一階段對標簽得分模型進行優化,該階段解凍bert的參數,做參數微調.第二階段凍結bert,僅對閾值模型進行優化.兩個階段皆采用ADAM優化器,學習率設置為0.001.BERT模型輸入序列的尺寸上存在限制,最大輸入為512,訓練中將長文本按200字符為單位進行分割,模型預測過程中,將由各個劃分的特征均值作為完整文本的特征.式(10)配對子采樣的數量為120.由式(14)可知,超參數β是一項平滑參數,對梯度的尺度和訓練的收斂性存在一定影響,與學習率的功能是相似的.β過大會使損失函數趨向于線性,過小則趨向于為零,在超參數調優過程中,嘗試了區間0.1至2都能使訓練收斂,故方便起見這里設置為1.

4)評價指標:本研究同時考慮到了多標簽的分類和排序兩方面,所以實驗也將從這兩方面對預測結果進行評估.下面所闡述的評價指標都參考自文獻[11],采用宏觀和微觀F1得分衡量分類性能:

(25)

(26)

這里,eval=2·prec·recall/(prec+recall)為F1得分,用于調和準確率prec=TP/(TP+FP),召回率recall=TP/(TP+FN).在以上式子中,TP表示為真正樣本,FP為假正樣本,TN為真負樣本,FN為假負樣本.用排序誤差衡量排序性能:

RankL=

(27)

排序損失RankL統計預測結果中的對誤排標簽對,數值越小越好.

5.3 實驗結果分析

本章節將通過實驗評估本文所提算法的有效性.

實驗1.不同標簽決斷方法

在章節3.2中提到了其它兩種標簽決斷方法,Top-k和全局閾值,在使用中,k值取1、3和5,閾值從0.05-0.95按照0.01為間隔,表2展示測試集上最優得分.值得注意的是,本文提出的得分模型其輸出是映射到實數域上的,所以通過sigmoid將其約束到概率空間中.相對來說,宏觀和微觀指標衡量了模型的整體分類性能,對標簽的誤選較為敏感,Top-k和全局閾值是靜態的刷選策略,而沒有考慮到了樣本特征本身所攜帶的信息,從而造成得分上的下滑.并且,在使用這些算法的時候往往會遇到超參的優化問題.表2中的結果說明在多標簽領域,標簽決斷對最終預測結果的影響非常大.相比于全局閾值,閾值預測方法在分類指標上能提供2%的提升,排序指標上也是表現最優的.

表2 標簽決斷技術的對比Table 2 Comparison of label decision

實驗2.不同訓練方式

本實驗將配對排序損失和其它幾種目標函數進行比較:

1)二值交叉損失[5](BCE):

(28)

BCE相當于標簽轉換,類似于參數共享的二值分類模型;

2)鉸鏈損失式(8);

3)BP-MLL[8]基于指數損失.為了確保方法之間的可對比性,實驗采用同一套數據預處理技術,并且默認采用閾值預測技術.表3展示了各種訓練方式之間的性能對比.可以看到BCE在微觀指標上的表現略微占有,但在其余指標上,文本的算法存在競爭性的優勢.這是由于BCE注重整體的分類誤差,配對排序損失則考慮錯誤的排序對.宏觀指標是標簽F1得分的平均,本文的算法在MacroF1上的優勢也體現了數據不平衡對配對排序損失的影響較低.

表3 訓練方式之間的對比Table 3 Comparison of training approaches

實驗3.不同模型進行對比

前兩項實驗分別從標簽決斷和訓練方式做了對比,本實驗將選取一些常用的多標簽算法進行完整的對比:

1)二值相關BR[11]為每個標簽訓練一個SVM分類器;

2)ML-KNN[13]將KNN拓展到多標簽領域,是一種惰性學習器;

3)卷積神經網絡CNN[5]是最常用的深度文本模型;

4)CNN-RNN[7]采用循環神經網絡對標簽之間的關系進行建模.

接下來將對上述算法的執行流程做一定闡述,對于詞級模型,首先中文文書進行分詞,算法1)2)采用TF-IDF算法進行特征提取,算法3)4)則將詞嵌入至定長向量.

表4 不同算法性能對比Table 4 Performance comparison of different algorithms

表4展示了在全數據上,不同算法之間的性能比較.圖3展示了在不同比例數據集上的分類性能.實驗結果顯示,隨著數據規模的增大,深度學習算法能獲得更好的表現.相比于另兩種深度模型CNN和CNN-RNN,本文提出的算法的整體性能都較優.這是由于研究在文本特征提取和標簽決斷上都做了考慮.遷移的BERT模型能提供數據集之外的語義知識并且具有更多的參數量,由圖3可見,模型表現受到數據集尺寸的波動較小.配對排序損失能鋪捉到標簽之間的排序關系,使相關度較高的標簽能獲得更大的得分,同時,自適應的標簽閾值學習能幫助算法得到更精準的預測結果.

圖3 不同比例數據集上的對比Fig.3 Comparison with different dataset proportion

6 總 結

多標簽文本學習能幫助用戶對文檔進行有效管理,加強多媒體系統的可用性.傳統的,基于機器學習的算法受限于特征提取和模型容量,存在嚴重性能瓶頸.本文提出的算法利用中文BERT預訓練語言模型對文書進行特征提取,模型架構上更精煉且高.算法選用配對排序損失作為目標函數,以鋪捉到標簽之間的關系.此外,為了更精準地得到結果,引入輔助的閾值預測模型,對標簽預測進行建模.實驗在法條預測和罪名推薦兩項任務上驗證了算法的有效性.作為自然語言處理的一項子任務,BERT對多標簽文本分類也是適用的,將閾值預測看作一項學習任務,相比Top-k和全局閾值,在測試集上表現更優異.未來我們將在更多的多標簽數據集上對算法進行驗證,并將對標簽之間的相關性做進一步探討.

猜你喜歡
排序分類文本
排序不等式
分類算一算
恐怖排序
在808DA上文本顯示的改善
分類討論求坐標
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
教你一招:數的分類
主站蜘蛛池模板: 欧美激情第一欧美在线| 毛片最新网址| 亚洲天堂久久| 亚洲中文字幕23页在线| 青青草久久伊人| 超清无码熟妇人妻AV在线绿巨人| 国产精品成人免费综合| 伊人丁香五月天久久综合 | 色香蕉网站| 国产一级无码不卡视频| 亚洲V日韩V无码一区二区| 日本人妻一区二区三区不卡影院| 久久人人97超碰人人澡爱香蕉| 国内老司机精品视频在线播出| 国产成人福利在线视老湿机| 99久久精品国产麻豆婷婷| 特级做a爰片毛片免费69| 国产成人资源| 久久久久亚洲精品成人网 | 热久久国产| 久久人人妻人人爽人人卡片av| 免费国产高清视频| 黄色网页在线播放| 亚洲综合极品香蕉久久网| 亚洲综合久久一本伊一区| 伊伊人成亚洲综合人网7777| 在线国产91| 高清欧美性猛交XXXX黑人猛交 | 成人福利视频网| 一级片一区| 狠狠色丁香婷婷综合| 免费高清自慰一区二区三区| 久久综合亚洲鲁鲁九月天| 丁香五月婷婷激情基地| 一级全免费视频播放| 四虎精品国产永久在线观看| 中国精品自拍| 免费人成视网站在线不卡| 五月婷婷导航| 国产精品美女免费视频大全| 3344在线观看无码| 55夜色66夜色国产精品视频| 69国产精品视频免费| 四虎AV麻豆| 国产精品自在在线午夜区app| 国内精品手机在线观看视频| A级全黄试看30分钟小视频| 国产亚洲高清在线精品99| 99精品影院| 福利一区在线| 久久综合伊人77777| 99re这里只有国产中文精品国产精品 | 国产在线精品香蕉麻豆| 国产又黄又硬又粗| 国产女人水多毛片18| 日a本亚洲中文在线观看| 亚洲水蜜桃久久综合网站 | 91探花在线观看国产最新| 狠狠做深爱婷婷综合一区| 亚洲欧美日韩中文字幕在线| 国产午夜人做人免费视频中文| 国产精品无码一区二区桃花视频| 91无码人妻精品一区| 亚瑟天堂久久一区二区影院| 911亚洲精品| 亚洲无限乱码一二三四区| 天天综合网色中文字幕| 久久性视频| 免费无遮挡AV| a级毛片一区二区免费视频| 国产一级妓女av网站| 国产免费福利网站| 欧洲高清无码在线| 久久综合干| 在线观看免费人成视频色快速| 在线观看国产黄色| 国产精品久久久免费视频| 国产99在线| 四虎成人免费毛片| 国产无人区一区二区三区| 国产日韩久久久久无码精品 | 中国国产一级毛片|