999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識架構的持續學習情感分類方法

2023-02-20 09:38:36王松買日旦吾守爾古蘭拜爾吐爾洪薛源
計算機工程 2023年2期
關鍵詞:分類機制方法

王松,買日旦·吾守爾,古蘭拜爾·吐爾洪,薛源,2

(1.新疆大學 信息科學與工程學院,烏魯木齊 830046;2.清華大學 電子工程系,北京 100084)

0 概述

機器學習模型在學習多個任務時通常會出現災難遺忘現象,災難遺忘現象是指在新任務中學習的知識會影響模型原有參數,降低模型在舊任務上的性能。因此,模型需要訓練完成后才能進行部署應用,然而隨著時間的推移,在訓練集中未出現的新樣本越來越多,導致模型無法正確分類,性能逐漸下降,此時需要在新舊數據集上重新訓練模型,但該過程又消耗大量能源、計算資源與人力資源,也給項目管理帶來了巨大挑戰,更重要的是遵循這種孤立的學習方式,難以使模型將新舊知識融會貫通,實現通用人工智能。為解決上述問題,THRUN[1]于1995 年提出持續學習(Continual Learning,CL)概念。自提出以來,持續學習已經在計算機視覺(Computer Vision,CV)、自然語言處理(Natural Language Processing,NLP)、強化學習等領域得到廣泛應用。由于情感分類是NLP 中的基礎任務,因此很多研究圍繞情感分類任務開展,主流網絡均能應用于該任務并在測試中取得了較好的性能表現[2],但在實際應用中效果并不理想,面臨知識的保留與遷移、領域適應等難題。CHEN等[3]嘗試將持續學習與情感分類相結合來解決這些問題,并且之后幾年國內外涌現出了一系列相關領域的研究成果。

在情感分類和圖片分類這兩種任務中,對于任務序列中分類任務的定義是不同的,根據任務的定義不同發展出類持續學習(Class Continual Learning,CCL)和任務持續學 習(Task Continual Learning,TCL)[4-5]。類增加學習假設任務序列中每個任務包含不同的類別。系統僅使用一個分類器來學習所有任務,當新的任務到來時,模型需要能夠分類迄今為止在訓練集中未出現的所有樣本。任務增加學習假設任務序列中的每一個任務都是獨立的分類任務。這些分類任務的類別可以是相同的也可以是不同的,每一個任務都有對應的分類器,在測試時測試樣本包含任務序列的標識,以幫助模型使用對應的分類器對其進行分類。因為分類器的設置不同,所以進一步產生了研究目標的差異。CCL 研究在分類器上不斷增加新的類別,因此側重減輕學習過程中的災難遺忘。TCL 為每個任務訓練獨立的分類器,因此側重分類器的知識積累與分類器之間的知識遷移。根據持續學習在計算機視覺和自然語言處理領域現有的研究成果,將其主要分為基于樣本重復、基于正則化、基于動態網絡結構和基于知識架構4 類持續學習方法[2,6-7]。

基于樣本重復的持續學習方法在學習過程中會存儲舊任務的部分樣本或者關于樣本的信息,在學習新任務時進行重復學習。該類方法根據任務樣本如何產生又可分為兩類:第一類將任務樣本直接存儲以備后用;第二類利用任務樣本訓練生成模型,在需要樣本時利用生成模型輸出偽樣本。iCaRL[8]直接保存代表性樣本,并在學習新任務時將這些樣本進行重復學習。GEM[9]使用存儲的樣本來限制新模型中梯度更新的方向。MBPA++[10]存儲所有訓練樣本,并在推理時尋找N個最相似的樣本重新微調模型。DGR[11]和LAMOL[12]都使用舊任務數據訓練一個生成模型,然后在新任務訓練時利用生成模型生成偽樣本。

基于正則化的持續學習方法會在損失函數中增加額外的正則項,通過限制參數更新的方式在學習新任務的同時保留舊任務參數,代表方法如EWC[13]、IMM[14]、LwF[15]和LFL[16]。EWC根據損失函數中的Fisher 信息正則項有選擇地更新模型參數,并使模型傾向于保留對舊任務重要的參數。IMM 訓練新模型并根據不同策略將新舊模型合并。LwF 將新舊模型的Softmax 層相加取平均值并計算知識蒸餾損失。LFL[16]將網絡最后一層抽取出來,用歐氏距離作為正則項度量特征之間的差別。

基于動態網絡結構的持續學習方法也被稱為參數隔離方法[2],因為其目的是根據不同的任務動態調節網絡結構,從而實現任務間部分參數的隔離。該類方法根據網絡規模是否固定分為兩類。PathNet[17]和任務門控注意力(Hard Attention on Task,HAT)機制[18]都使用固定的網絡規模,并且為每個任務動態地分配部分網絡,在學習新任務時,先前任務的參數會被Mask 屏蔽,其中PathNet 對參數進行屏蔽,HAT 對神經元進行屏蔽。PNN[19]會為每個新任務單獨訓練一列網絡,網絡規模會不斷擴大,當新任務到來時就會新增一列,原有列的輸出也會作為先驗知識輸入給新的列。

基于知識架構的持續學習方法主要應用在情感分類中。LSC[3]將終身學習用于情感分類任務,并設計終生機器學習架構,包含任務管理器、學習器、知識庫和知識挖掘器。LNB[20]改進了LSC 的知識庫內容和知識挖掘策略。LNB-DA[21]在中文數據集上進行了擴展,并在知識挖掘中提出領域注意力機制。SRK[22]使用門控循環單元(Gated Recurrent Unit,GRU)構建知識保留網絡、特征提取網絡和銜接兩者的融合網絡。KAN[5]擁有一個持續學習主網絡和一個基于動態網絡架構的知識庫控制網絡。BLAN[23]將LNB 中的知識庫和層次注意力網絡相結合。

本文基于文獻[21]研究成果,提出一種基于知識架構的持續學習中文情感分類方法,并構建了知識保留網絡(Knowledge Retention Network,KRN)和知識挖掘網絡(Knowledge Mining Network,KMN)。

1 基于知識保留與挖掘的持續學習方法

在情感分類任務中,單一模型難以適應多個特定的領域,因此將不同領域的商品評論數據視為不同的任務組成一個任務序列。模型依次學習任務序列中的每一個任務,利用持續學習方法緩解災難遺忘現象,實現知識遷移。

知識保留與挖掘網絡(Knowledge Retention and Mining network,KRM)設置了知識保留和知識挖掘兩個子網絡。在任務數據被輸入模型后,首先使用參數固定的BERT 模型轉化為特征向量,然后將向量和任務標志t一起輸入知識保留網絡,網絡中包含兩個改進的Transformer[24]編碼器層,使用任務自注意力機制替換原有自注意力機制,從而為每個任務單獨保留一組注意力矩陣參數,輸出被傳入知識挖掘網絡,該子網絡將HAT 機制與TextCNN[25]中三層全連接層相結合,最后得到分類結果。KRM 結構如圖1 所示。

圖1 KRM 結構Fig.1 KRM structure

1.1 知識保留網絡

知識保留網絡由兩個相同的Transformer 編碼器層組成,每層又包含兩個子層:任務自注意力層(Self-Attention)和全連接層。每個子層的輸出如式(1)所示:

輸入數據首先經過自注意力子層,輸出結果和輸入相加再做層正則化,然后作為全連接層的輸入,最后在全連接層后做殘差連接與層正則化后輸出,如圖2 所示。

圖2 知識保留網絡結構Fig.2 Knowledge retention network structure

知識保留網絡中的Transformer編碼器層進行了以下改進:1)移除了最初的位置編碼;2)為每個任務設置了獨立的參數矩陣,也就是任務自注意力機制。因為模型的輸入是BERT 最后一層的輸出,所以不必再重復嵌入位置信息。每個任務獨立的參數矩陣有助于模型根據任務的不同,有針對性地使用符合任務特性的注意力,提高檢索效率。

改進后的Transformer 編碼器層首先使用任務自注意力機制,自注意力層內包含3 個參數矩陣,根據不同的任務t∈[T1,T2,…,Tn],模塊會存儲對應的,將任務輸入的向量x轉換成相對應的Q、K、V向量,如式(2)所示:

然后使Q和K的點積計算注意力得分,為保持梯度穩定為注意力得分做歸一化處理,除以因子。經過Softmax 激活函數后再點乘V得到加權評分V。最后將所有V相加得到結果,如式(3)所示:

在實際運算過程中通常會由一組索引組成矩陣Q方便同時計算,對應的鍵和值也被打包成K和V,其中KT為K的轉置。在引入多頭注意力機制后的運算過程如式(4)所示:

任務自注意力機制會為每個任務的每個注意力頭均保留對應的矩陣。

1.2 知識挖掘網絡

知識挖掘網絡是一個經過改進的TextCNN網絡,其中將任務門控注意力機制加入全連接層,知識挖掘網絡結構如圖3 所示。

圖3 知識挖掘網絡結構Fig.3 Knowledge mining network structure

1.2.1 TextCNN

這部分沿用文獻[25]中的設置,假設知識保留網絡的輸出為x∈Rn×k,其中n為網絡設置的最大文本長度,k為詞向量維度。首先采用窗口長度s為2、3、4 的filter 來生成特征c,如式(5)所示:

其中:b∈R;f為非線性函數。

然后利用MaxPooling獲得特征=max{c},將3個filter 的特征做拼接得到最終的輸出如式(6)所示:

1.2.2 任務門控注意力機制

任務門控注意力機制[18]最初運用于CV 領域,考慮到卷積層作為特征提取部分,應該在各個任務間盡可能地保持特征選擇的穩定性,因此僅將HAT 用于全連接層。

門控注意力機制就像為全連接層的每一個神經元配置了一個開關,根據不同的任務t控制每一個神經元的開閉:打開對任務t重要的神經元而關閉其他的神經元,使網絡的連接方式隨任務的變化而變化。當學習任務t時,記全連接層為hl,經過門控注意力,輸出為,門控注意力機制作用于全連接層的過程如式(7)所示:

HAT 正向傳播過程如圖4 所示。

圖4 HAT 正向傳播過程Fig.4 Procedure of HAT forward propagation

在全連接層中,首先根據任務t生成hl層的任務嵌入,再乘以一個正的縮放參數s,利用Sigmoid函數來模擬開關。不同于軟注意力機制(soft attention)是一個概率的分布,更像是開關,被稱為硬注意力機制(hard attention)。hl中的每一個神經元都有其對應的,全連接層的輸出為hl的每個元素與對應位置的元素相乘,由此網絡可以確定哪些神經元對任務t更重要。

由于在網絡中的值接近0 或1 且反向傳播過程中是可導的,在Sigmoid 函數中,當輸入很大或很小時,輸出則會接近0 或1,因此HAT 利用超參數smax?1 使Sigmoid 函數來模擬單位躍階函數:當s→∞時,at→{0,1};當s→0時,at→0.5。使 用式(8)更新s模擬Sigmoid 函數的退火過程:

其中:b代表batch;B代表一個epoch 中batch 的總數。在訓練剛開始時,s很小,因此注意力還是軟注意力,隨著訓練s越來越大,注意力變成了硬注意力。由于參數s的變化,因此在訓練完成時更加傾向于0或者1,以表示一個神經元的開和關。

為任務門控注意力機制提供任務信息,并且是可訓練的參數,然而退火機制的加入影響了參數的更新,因此HAT 引入嵌入梯度補償,將梯度ql除以退火后Sigmoid 函數的導數,再乘以補償系數,如式(9)所示:

此外,為在學習新任務時保留舊任務已經學到的參數,在學習完任務T并且獲得了后,HAT 會按照式(10)遞歸地計算所有的:

通過對注意力值的比較能夠保留對舊任務重要的神經元,并且在學習新任務時起到一定的限制作用。當學習新任務時,根據已有的注意力值對梯度gl的更新進行修改,如式(11)所示:

在全連接層上,梯度首先經過式(11)的處理后,將傳遞給全連接層,同時梯度補償接收梯度ql、s和smax,由式(9)計算補償后梯度傳遞給任務嵌入。

HAT 反向傳播過程如圖5 所示。

圖5 HAT 反向傳播過程Fig.5 Procedure of HAT back propagation

2 實驗與結果分析

本節將介紹實驗中所使用的數據集、評價指標、對比方法等內容并對實驗結果進行分析。實驗相關源代碼參見https://github.com/ws719547997/KRM。

2.1 數據集

文獻[21]構建持續學習中文情感分類數據集JD21(https://github.com/ws719547997/LNB-DA),其中包含京東官方網站上21 個不同品類的商品評論,其被視為21 個不同的情感分類任務,在實驗中被看作1 個任務序列。在JD21 數據集中,一星~三星的評論被視為負類,四星和五星的評論被視為積極。在JD21 數據集中的評論字數多數為10 字~30字,且消極占比較低,屬于不平衡數據集,符合實際情況。JD21 數據集詳細信息見表1。

表1 JD21 數據集信息 Table 1 JD21 dataset information

2.2 實驗設置

2.2.1 評價標準

為了度量持續學習模型的性能,實驗引入準確率矩陣并計算First ACC、Last ACC 和反向轉移(Backward Transfer,BWT)指標。假設有一個矩陣R∈RT×T,矩陣中的元素Ri,j表示模型在學習完任務T1至Ti后在任務Tj上的準確率。3 個度量指標定義如式(12)所示:

其中:Ri,i表示模型學習完T1至Ti后在Ti上的準確率;RT,i表示模型學習完全部任務后在Ti上的準確率;First ACC 度量模型首次學習任務時的準確率;Last ACC 度量模型在學習全部學習完成后,在舊任務上的準確率;BWT度量Last ACC 和First ACC 之間的差值,用于評估知識遷移的程度,是持續學習性能評估的重要指標:值越大,說明知識遷移越多,值越低,說明災難遺忘越嚴重。根據已有研究,以Last ACC 作為主要評價指標,因為負類占比少,更難分類,所以也使用負類F1 值(F1-NEG)作為參考,計算方法類似于Last ACC。

2.2.2 模型參數

在本文模型中,經實驗發現當知識保留網絡中Transformer 設置為2 層、知識挖掘網絡中全連接層設置為3 層時效果最佳,HAT 參數設置與文獻[18]保持一致,其余參數設置與其他對比實驗保持一致。

對比實驗參數遵從原論文中的設置。TextCNN[25]中3 個卷積核的滑動窗口長度分別為2、3、4,輸出通道為100,使用最大池化策略,LSTM[5]隱藏層維度為768,Transformer[24]中有8個注意力頭,Q、K、V變換矩陣為64維,全連接層為2 048維。LNB-DA[21]使用Unigram 生成特征。實驗使用參數固定的BERT 模型bert-base-chinese(https://hugging face.co/bert-base-chinese/tree/main)的輸出作為特征向量。

2.2.3 實驗設置

實驗采用固定的任務序列順序,依次學習每一個任務,每學習一個任務都在新舊任務上做一遍測試。待所有任務學習完成后,準確率矩陣R為一個下三角矩陣,根據R計算評價指標。在訓練過程中,設置epoch 為50、batch_size 為64,learning_rate 為0.005 并且隨訓練動態調整。

2.3 實驗結果

實驗結果如表2 所示,其中:RNN、KRM-RM(Transformer)、MLP-Mixer[26]為非持續學習(Non-CL)方法;LNB 和LNB-DA 基于傳統機器學習方法,也被稱為終生機器學習方法;MBPA++是一種樣本重復方法,只有該方法會對整個BERT 網絡參數進行調整,其他方法都是以參數固定的BERT 的輸出作為輸入;UCL[27]是TCL方法;OWM[28]是CCL 方法;KAN、SRK 都是專門針對持續學習情感分類所提出的方法;HAT、PNN、PathNet 是基于動態網絡結構的方法;EWC、LwF、IMM、LFL 是基于正則化的方法;將各個指標中的前三進行加粗。

由表2 可以看出,本文KRM 方法在Last ACC、F1-NEG 上取得最佳值,First ACC 為第三,BWT 為第四,具體分析如下:

表2 基于JD21 數據集的持續學習方法實驗結果 Table 2 Experimental results of continual learning method based on JD21 dataset %

1)通過觀察Last ACC 可知,在學習完任務序列中所有的任務后,KRM 在所有舊任務上都保持了良好的分類性能,災難遺忘的程度較輕。KRM 的Last ACC 和F1-NEG 優于其他對比方法,比HAT 方法提升了0.37 和0.09 個百分點。

2)通過對KRM 刪去部分網絡得到了兩種對比方 法:KRM-RM 和KRM-M,其中,KRM-RM是在KRM 的基礎上去除了知識保留網絡中的任務自注意力機制與知識挖掘網絡,KRM-M 是在KRM 的基礎上去除了知識挖掘網絡。實驗結果表明,和非持續學習方法KRM-RM 相比,KRM 與KRM-M的BWT 分別提高了1.59 和1.02 個百分點,說明了本文方法中的兩個網絡都對減輕災難遺忘有幫助,也驗證了任務自注意力機制和任務門控注意力機制的有效性。

3)Non-CL 方法在持續學習場景下表現較差,KRM-RM、MLP-Mixer、RNN的BWT分別為-2.41%、-4.22%、-5.04%,神經網絡都出現了較為嚴重的災難遺忘現象,說明了災難遺忘現象的存在。

4)LNB 與LNB-DA 是以樸素貝葉斯文本分類算法為基礎的學習器,經過分詞后直接以unigram 作為特征進行學習,BWT 為正,說明知識遷移的效果超過了災難遺忘,且占用資源少,訓練速度極快,但在準確率等指標上略遜于部分神經網絡方法。兩種方法均使用知識架構的設計思想,后續方法SRK、KAN 以及本文方法也沿襲了這一設計思路,加入神經網絡后這類方法的性能不斷提升,是一個很有潛力的研究方向。

5)MBPA++在訓練過程中會調整BERT 模型的參數,并在測試時選擇部分與測試集相似的樣本重新微調網絡,因此BWT 為正,且需要明確的任務指示符來指明樣本來自哪個任務,但運算時間極長,不太符合情感分類的使用場景。同時需要注意的是,雖然MBPA++效果不佳,但將持續學習方法與預訓練語言模型相結合將是未來發展的趨勢。

6)基于動態網絡結構和基于知識架構的方法性能普遍優于基于正則化的方法,尤其是對比方法中提出較早的LwF、LFL、EWC,雖然此類方法最初提出時使用網絡相比BERT 結構相對簡單,且任務數量通常為3~5,但是最新的OWM 就具有良好的性能,很多基于正則化的思想也被運用在一些新方法中。在現在的持續學習方法中,通常會將融合多種方法來提升整體模型性能。

3 結束語

本文提出一種基于知識架構的持續學習中文情感分類方法。采用任務自注意力機制,為Transformer中每個任務單獨設置注意力變換矩陣,以保存任務特有的注意力參數,實現知識保留。將任務門控注意力機制應用于TextCNN 中的全連接層,為全連接層中每個神經元配置一個開關,以便于根據任務調整網絡結構,加強知識挖掘。實驗結果表明,該方法的Last ACC和F1-NEG 相比于基于HAT 的持續學習方法提升了0.37 和0.09 個百分點,相比于基于PathNet 的持續學習方法提升了0.17 和0.59 個百分點,災難遺忘現象相比于同類方法也得到了有效緩解,BWT 僅為-0.82%。下一步可將基于任務自注意力機制、任務門控注意力機制的持續學習方法應用于預訓練語言模型的Transformer 編碼層中,使模型參數也加入訓練過程,進一步緩解災難遺忘現象,提升知識遷移效率。

猜你喜歡
分類機制方法
分類算一算
分類討論求坐標
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 亚洲视屏在线观看| 福利一区在线| 精品少妇人妻无码久久| 中文无码精品A∨在线观看不卡| 日韩欧美视频第一区在线观看| 国产成+人+综合+亚洲欧美| 亚洲视频二| 日韩123欧美字幕| 免费国产小视频在线观看| 亚洲中文制服丝袜欧美精品| 久久综合九色综合97婷婷| 久久亚洲综合伊人| 国产一区成人| 妇女自拍偷自拍亚洲精品| 丁香六月综合网| 成AV人片一区二区三区久久| 欧美亚洲国产精品第一页| 国禁国产you女视频网站| 日本人真淫视频一区二区三区| 99热这里只有成人精品国产| 国产亚洲欧美在线视频| 亚洲精品欧美重口| 亚洲天堂免费在线视频| 午夜精品国产自在| 国产成人精品视频一区二区电影| 色婷婷狠狠干| AV无码无在线观看免费| 97se亚洲综合在线韩国专区福利| 国产精品尤物铁牛tv | 99re这里只有国产中文精品国产精品| 都市激情亚洲综合久久| 国产99精品久久| 精品少妇人妻无码久久| 国产亚洲精品资源在线26u| 亚洲美女视频一区| 国产精品福利导航| 国产网站免费看| 国产在线拍偷自揄拍精品| 国产在线日本| 国产乱子伦一区二区=| 伊人色在线视频| 91丝袜美腿高跟国产极品老师| 国产福利免费观看| 午夜视频免费一区二区在线看| 亚洲欧美成人在线视频| 国产精品极品美女自在线| 综合色在线| 女人爽到高潮免费视频大全| 正在播放久久| 国产一区二区三区在线观看视频| 午夜成人在线视频| 国产精品视频公开费视频| 青青热久免费精品视频6| 国产精品一线天| 亚洲一区二区日韩欧美gif| 性欧美在线| 欧美.成人.综合在线| 亚洲制服丝袜第一页| 欧美成人免费一区在线播放| 天堂成人在线| 日韩欧美国产三级| 四虎在线观看视频高清无码| 免费在线不卡视频| 国产99视频在线| 久久semm亚洲国产| 国产一二三区在线| 强奷白丝美女在线观看| 久久99国产综合精品女同| 欧美午夜久久| 欧美成人一级| 国产91久久久久久| 国产日本欧美在线观看| 日韩国产精品无码一区二区三区| 欧美精品二区| 在线观看亚洲人成网站| 99在线观看视频免费| 国产午夜无码片在线观看网站| 五月婷婷综合在线视频| 久久无码免费束人妻| 福利在线一区| 又粗又大又爽又紧免费视频| 中文字幕在线视频免费|