999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于三元訓練的跨領域依存句法分析

2022-07-15 08:58:20李帥克李正華
廈門大學學報(自然科學版) 2022年4期
關鍵詞:模型

李帥克,李 英,李正華,張 民

(蘇州大學計算機科學與技術學院,江蘇 蘇州 215006)

半監督學習中的自學習方法(self-training[3])是一種利用標注數據和無標注數據進行模型訓練的代表性方法.其核心思想是利用在標注數據上訓練得到的模型去自動分析無標注數據,然后選擇高置信度的自動標注數據作為額外訓練數據.訓練流程如下:首先在標注數據上訓練一個模型,然后使用這個模型去預測無標注數據,接著把置信度高的自動標注數據加入到有標注數據中,最后利用拼接后的數據重新訓練一個模型.重復上述過程直到模型性能不再提升.三元訓練(tri-training[4])與self-training的訓練方式類似,不同之處在于tri-training使用多個模型投票進行自動標注數據的選擇而非顯式的置信度評估.

然而,直接把self-training應用于領域移植的效果往往并不理想.其主要原因是目標領域自動標注數據包含了大量的噪聲,此時噪聲帶來的壞處超過了使用目標領域無標注數據帶來的好處,使用該數據反而對模型產生了干擾.因此,如何篩選高質量的自動標注數據是self-training的主要挑戰.為了解決此問題,前人做了一些探索.Mcclosky等[5]使用重排序策略獲得高置信度的自動標注數據并加入到訓練集,成功地把self-training應用到成分句法分析上.Kawahara等[6]通過一個額外的分類器來判別自動標注數據是否可靠,成功地把self-training應用到依存句法分析上.Yu等[7]嘗試使用基于句法解析樹分值的置信度選擇策略和基于Delta分值的置信度選擇策略進行依存句法分析.他們的實驗結果進一步證實了自動標注數據的質量在領域移植場景下依然至關重要,但是這些方法需要顯式的置信度評估.Sogaard等[8]把tri-training應用到了依存句法分析上,使用兩個模型的預測一致性進行自動標注數據的置信度評估從而簡化了訓練流程.Li等[9]運用tri-training的同時使用BERT[10]作為模型的編碼層,取得了NLPCC-2019句法分析評測開放賽道上的最佳結果.

Tri-training作為一種簡潔的生成自動標注數據的經典方法,目前仍缺乏將其應用于跨領域依存句法分析任務的系統性深入研究.為了解決這個問題,本研究使用3種簡單的多模型決策協同訓練算法——tri-training,來保證自動標注數據的質量進而提升跨領域依存句法分析性能.這3種算法分別從橫向和縱向兩個方面完成自動標注數據的篩選:同一時間輪次下3個模型預測一致的數據、同一時間輪次下當前模型之外的另兩個模型預測一致的數據、當前輪次之前兩輪的模型預測一致的數據.此外,本研究使用目標領域的無標注數據對BERT模型進行微調從而獲得領域相關特征以進一步增強模型的編碼能力.

為了驗證tri-training是否可以提高自動標注數據的質量,進而提升跨領域依存句法分析性能,本研究在NLPCC-2019評測任務發布的依存句法分析領域移植數據(http:∥hlt.suda.edu.cn/index.php/nlpcc-2019-shared-task)上進行了實驗.為了進一步分析跨領域模型性能下降的原因以及tri-training和BERT為什么可以提升跨領域模型的性能,本文還設計了詳細的分析實驗.

1 方 法

本章節會逐次介紹基礎模型框架、多模型決策協同訓練策略和預訓練語言模型的微調過程.首先使用雙仿射句法分析器[1]作為基礎模型,然后在此模型的基礎上使用多模型決策協同訓練策略生成高質量的目標領域自動標注數據,從而提升跨領域模型性能.最后使用目標領域的無標注數據對BERT模型進行微調,并將其作為模型的特征進一步提升模型性能.

1.1 雙仿射句法分析器

本研究將簡明高效的雙仿射句法分析器作為基礎模型.模型框架如圖1所示,該句法分析器包含4個模塊:輸入模塊、雙向長短期記憶網絡(BiLSTM)編碼模塊、多層感知機注意力(MLP)模塊和雙仿射打分模塊(Biaffine).

圖1 雙仿射句法分析器模型框架Fig.1 Framework of biaffine dependency parser

1) 輸入模塊:把輸入句子映射為向量表示.該模塊把輸入序列映射為輸入向量表示X=[x0,x1,…,xn],每一個輸入向量xi都由對應的詞向量和詞向量對應的字符集雙向長短期記憶網絡(CharBiLSTM)表示組成.

xi=e(wi)⊕CBiLSTM(wi),

其中:e(wi)是凍結的預訓練詞向量與隨機初始化可更新詞向量的和;CBiLSTM(wi)是將wi對應的字符輸入到一層的雙向長短期記憶網絡,然后拼接前向、后向最后的隱向量獲得的[11],本研究發現在輸入模塊中用CharBiLSTM替換文獻[1]中提到的詞性嵌入會帶來穩定的模型性能提升.

3) MLP模塊:對BiLSTM的輸出進行降維,去除與句法無關的信息.該模塊以隱向量作為輸入使用兩個不同的MLP模塊得到句法向量表示.

4) 雙仿射打分模塊:使用雙仿射函數對有所依存弧進行打分.

其中,sij是依存弧i→j的分值,Wb為雙仿射層的參數.本研究參照Dozat等[1]的研究,采用額外的多層感知機對依存關系進行打分,此處不再贅述.

5) 訓練損失:采用詞級別的非結構化損失函數,即最大化每個詞對應的正確核心詞的局部概率.假定詞wj的核心詞是wi,其對應的交叉熵損失為:

其中,n為句子長度.最終所有詞的損失累加起來構成句子的損失,不考慮任何樹結構約束.

6) 解碼策略:分兩個階段按序進行依存骨架樹的解析和依存關系的解析.首先是用最大生成樹算法[12]得到分值最高的一顆依存骨架樹y*.

s=∑(i,j)∈ysij,

其中y是輸入x對應的所有可能的依存句法骨架樹.然后采用貪婪分類的策略為樹中每條依存弧分配一個依存關系,得到一個最優的依存標簽樹.

1.2 多模型決策協同訓練策略

把經典的self-training應用到跨領域句法分析上包括以下幾步:

1) 在源領域訓練集上訓練一個初始模型.

2) 使用初始模型預測目標領域的無標注數據.

3) 把置信度高的自動標注句子加入到源領域訓練集構成一個新的訓練集.

4) 在新訓練集上重新訓練一個self-training模型.

5) 重復上述過程直到新模型的性能不再提升.

自動標注數據的質量對模型的性能至關重要,但是目前仍缺乏將其應用于跨領域依存句法分析任務的系統性深入研究.為了解決這個問題,本研究使用3種不同的tri-training算法進行自動標注數據的篩選.即兩種橫向、一種縱向的tri-training算法,相應的偽代碼見附錄(http:∥jxmu.xmu.edu.cn/upload/html/202204xx.html).

(i) 算法1(v-tri):首先在源領域訓練集上使用不同的隨機種子訓練3個初始模型,其中包含一個主模型M0及兩個輔助模型M1和M2(主模型和輔助模型按照時間順序進行劃分,即第一個訓練的模型為主模型,其它的為輔助模型).如果這3個模型在無標注數據上的預測結果一致,則把預測的自動標注數據加入到訓練集中.接著在新訓練集上重新訓練主模型,本研究把主模型的性能在五輪內是否提升作為算法的停止條件.每一輪訓練期間都進行停止條件判斷,如果不滿足停止條件則訓練兩個輔助模型;否則,將滿足停止條件的峰值性能最高的主模型作為最終的模型.先進行模型性能的比較,可以省去不必要的輔助模型訓練.最后使用主模型M0在目標領域上進行性能測試.

(ii) 算法2(c-tri):與算法1類似,同樣訓練3個初始模型,對于每一個模型,將另外兩個模型預測一致的數據加入到本模型的訓練集中.

(iii) 算法3(i-tri):與Li等[9]類似,將當前輪次之前兩輪模型預測一致的自動標注數據加入到當前輪次的訓練集中.不同于Li等[9]使用BERT作為編碼層,本研究使用BiLSTM作為編碼層并使用BERT進行微調(詳情見1.3節).

1.3 BERT微調

以BERT[10]為代表的大規模語料上的預訓練語言模型往往采用Transformer[13]架構,其優勢在于可以使用近乎無限量的無標注數據且學習到的表征可以在多個任務中進行快速遷移.將預訓練模型接入一個任務特定的模型,然后在新的數據集上進行微調是一種比較典型的預訓練模型應用方式.例如Howard等[14]提出通用語言模型微調,在6種文本分類任務上達到了最佳; Sun等[15]使用目標領域的數據和多任務學習在文本分類任務上進行微調;Xu等[16]提出了評論閱讀理解任務并使用后訓練策略進行微調.

Li等[17]的工作表明使用目標領域無標注文本對通用預訓練模型進行多輪微調,即繼續使用掩碼語言模型損失函數進行訓練,可以在依存句法分析領域移植任務上取得顯著的性能提升.鑒于此,本研究使用Google開源的bert-base-chinese(https:∥github.com/google-research/bert)模型作為原始模型,在所有領域的train/unlabeled原始文本上僅使用掩碼語言模型損失進行訓練.與Li等[18]的工作保持一致,使用BERT的輸出b(wi)替換詞向量e(wi)作為模型的輸入特征進行模型訓練,其中b(wi)是由BERT最后4層的輸出進行加權求和然后線性映射得到的100維的字表示向量.在訓練過程中凍結BERT的參數,不進行更新.

2 實 驗

2.1 實驗設置

1) 實驗數據:本研究在NLPCC-2019評測任務發布的中文依存句法分析領域移植數據集上進行實驗.此數據集包含4個領域,共計4×104句,4個領域分別是1個源領域和3個目標領域,其中源領域來自新聞領域的平衡語料庫(balanced corpus,BC),3個目標領域語料庫分別來自淘寶標題的產品博客(product blog,PB)、淘寶的產品評論(product comment,PC)、網絡小說的“誅仙”(ZhuXian,ZX).本研究直接采用官方劃分好的訓練集、開發集和測試集,具體的各個領域以句子為單位的統計結果如表1所示.

表1 NLPCC-2019評測數據的統計

2) 評價標準:使用無標簽/有標簽依存分值(unlabeled/labeled attachment score,UAS/LAS)作為評價指標,其中UAS為核心詞正確的詞數占總詞數的比值,即UAS只考慮依存骨架,不考慮依存關系;LAS為核心節點正確且對應依存關系類型也正確的詞占總詞數的比值,即LAS同時考慮依存骨架和依存關系.評價時,采用官方的評價腳本,直接忽略沒有正確核心詞標注的詞.

3) 預訓練詞向量:通過Google開源的word2vec(https:∥code.google.com/archive/p/word2vec/)在Chinese Gigaword V3(約1.1×106句、自動分詞)和所有領域訓練/無標簽原始文本上訓練10次迭代得到.

4) 基線方法(baseline):源領域訓練集上得到的模型直接在目標領域進行測試.

5) 超參設置:除了數據預處理和輸入層的參數外,其它的參數和雙仿射句法分析器[1]的參數設置與文獻[1]保持一致.在預處理階段根據句子長度對原始文本進行聚類,然后把聚類后的文本劃分為若干個批次,每個批次不超過5 000個詞.輸入層的字符集BiLSTM的輸入維度是50,輸出維度是100.

2.2 主實驗

最終實驗結果如表2所示.其中Li等[9]使用BERT作為模型的編碼層,其他方法均使用BERT表示作為額外的輸入特征.實驗結果表明在基線方法的基礎上無論是結合FBERT(fine-tuned BERT)還是tri-training訓練策略,模型的性能都有大幅度的提升.且基線方法的性能越低,結合FBERT或tri-training訓練策略后提升的比例越大.例如,加入v-tri-training(v-tri)后,模型的LAS值在PB、PC、ZX領域上分別同比增長了13.85%(v-tri vs. baseline)、34.78%和14.53%;加了FBERT(baseline-FB)后,模型的LAS值在PB、PC、ZX領域上分別同比增長了24.51%(baseline-FB vs. baseline)、66.63%和21.97%.即使加了FBERT和v-tri后準確率已經有了顯著的提升,把兩者結合依然可以進一步提升模型性能.這表明兩種方法分別是從不同的角度對模型有幫助,在下一節會進行更深入的探究.

表2 測試集上的最終結果

2.3 分析實驗

2.3.1 為什么跨領域模型性能會下降,領域的差異在哪里?

從機器學習建模角度來說,跨領域性能大幅度下降的直接原因是測試集和訓練集中的潛在數據分布不同.圖2給出了通過源領域(src)和目標領域(tgt)訓練集得到的模型的BiLSTM模塊的輸出進行主成分分析(principal component analysis,PCA)降維可視化(具體地:在目標領域開發集上采樣100句輸入到源領域和目標領域訓練集上得到的模型,然后把模型輸出的BiLSTM特征進行PCA降維可視化)后的結果,可以發現兩者在高維空間上的特征分布確實存在著不同.

圖2 源領域數據和目標領域數據上得到的模型的特征分布Fig.2 The feature distributions of different models which are trained with the source domain or the target domain data

從文學語法層次結構角度來說,句子的分布可能會有詞語、句法和語義層面的變化.1) 不同領域使用的詞語分布是不同的,有些詞語是某些領域所特有的,有些詞語在不同的領域的出現頻率是不同的.圖3是不同領域詞頻最高的10個詞,不同領域中詞語分布不盡相同.2) 從句法層面,不同領域的語法結構的分布也會發生變化.例如,祈使句、疑問句、陳述句等在不同領域的文本中相對頻率發生變化.句法結構的變化會直接導致語序發生變化,無論是傳統基于離散特征的模型,還是深度學習模型,都會受到影響.3) 從語義層面,不同領域的文本涉及的話題、概念的分布也可能發生變化.

圖3 不同領域中出現頻率最高的10個詞Fig.3 The top 10 words with the highest frequency on different domains.

2.3.2 為什么tri-training有用?

前面的實驗表明tri-training可以大幅度提升模型性能,在此小節探究為什么tri-training有效.語法是對蘊含在語言中的客觀規律的描述,反之,當給定大量的語言實例時,有可能總結出語法規律.而tri-training通過對目標領域的大量無標注數據進行迭代,目標領域的部分語法規則有可能被逐步保留下來.對經過tri-training訓練策略后的BiLSTM模塊的輸出進行PCA降維,得到如圖4菱形所示的分布.圖4的圓點分布與圖2的圓點分布一樣,都是目標領域訓練集上得到的模型的特征分布情況.可以看出,經過v-tri之后學習到的模型與目標領域訓練數據上得到的模型的編碼空間更加接近,從而使得模型的跨領域性能有所提升,這也在一定程度上印證了上面的猜想.

圖4 Tri-training對模型特征分布的影響Fig.4 The effect of tri-training on feature distributions

2.3.3 為什么FBERT有用?

預訓練語言模型是在海量的無標注文本上進行訓練的,這些文本往往已經涵蓋了所有源領域和目標領域,因此預訓練模型對跨領域句法分析非常有用[20].同樣的,本研究將使用FBERT得到的源領域模型和目標領域上的模型的特征進行對比,可以看到使用FBERT的輸出作為句法模型的輸入特征后得到的模型有更廣的編碼空間,從而使得以FBERT表示作為輸入的源領域模型與目標領域模型的編碼空間有更多的重合,進而提高了模型在目標領域上的泛化能力.

圖5 FBERT對模型特征分布的影響Fig.5 The effect of FBERT representations on feature distributions

2.3.4 不同tri-training算法的訓練趨勢

圖6是不同tri-training算法在開發集上的訓練趨勢.可以看出,不同的tri-training算法皆是增量式地利用目標領域的無標注數據.模型的性能也有著相似的提升趨勢,但模型性能的提升主要在前兩輪.自學習方法有效的條件是使用大量無標注數據帶來的正面影響超過自動標注數據引入的噪音所產生的負面影響.本文中猜測,在訓練的后期,無標注數據帶來的負面影響超過了正面影響,以至于后期模型的性能不提升甚至有所下降.

圖6 不同tri-training訓練算法自動標注數據數量和模型性能的變化曲線Fig.6 The change curves of the amount of auto-labeled data and the model performance on different tri-training algorithms

2.3.5 錯誤分析

圖7是不同tri-training算法在ZX開發集上對不同依存標簽的預測準確率.得益于tri-training和FBERT,3種算法幾乎在所有的依存關系上都有提升,但是各個方法又各有所長.比如說在“adv” 依存關系上,v-tri算法取得了最高的準確率.c-tri在“adjct”依存關系上取得了最高的準確率.而“subj”依存上的最高準確率則是由i-tri算法取得.

圖7 不同tri-training算法在ZX開發集上對依存關系的預測準確率Fig.7 The precision of dependency relations by different tri-training algorithms on the ZX development dataset

3 結 論

自動標注數據的質量是自學習方法成功與否的關鍵,本文使用3種簡單的多模型決策系統訓練算法(tri-training)來保證自動標注數據的質量進而提升跨領域依存句法分析性能.在NLPCC-2019評測任務發布的數據集上取得了顯著的提升并成為了當前最佳,同時還深入探究了導致跨領域模型性能下降的原因以及各個模塊的作用.結果表明,經過tri-training之后學習到的模型與目標領域訓練數據上得到的模型的編碼空間更加接近,從而使得模型的跨領域性能有所提升;使用FBERT后訓練得到的模型具有更廣的編碼空間,從而使得以FBERT表示作為輸入的源領域模型與目標領域模型的編碼空間有更多的重合,進而提高了模型在目標領域上的泛化能力.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品国产Av电影无码久久久| 欧美一级专区免费大片| 一级毛片无毒不卡直接观看 | 蝌蚪国产精品视频第一页| 成人国内精品久久久久影院| 99精品欧美一区| 久久精品中文无码资源站| 综合成人国产| 在线视频精品一区| 久久无码免费束人妻| 国产国模一区二区三区四区| 在线亚洲小视频| 亚洲无线视频| 99人体免费视频| 国产亚洲精品yxsp| 亚洲黄色成人| 日韩精品一区二区三区免费在线观看| h网站在线播放| 国产精品播放| 中文字幕日韩欧美| 国产精品极品美女自在线网站| 国产乱子伦无码精品小说| 国产黄在线免费观看| 国产午夜精品一区二区三| 宅男噜噜噜66国产在线观看| 最新加勒比隔壁人妻| 欧美特级AAAAAA视频免费观看| 美女视频黄频a免费高清不卡| 国产成人高清在线精品| 无码精油按摩潮喷在线播放| 国产人免费人成免费视频| 国产乱人伦精品一区二区| 日本国产一区在线观看| 日韩 欧美 小说 综合网 另类| 国产自在线拍| 美女无遮挡拍拍拍免费视频| 欧美性久久久久| 亚洲一区二区约美女探花| 国产成人高清精品免费5388| 成人国产免费| 爽爽影院十八禁在线观看| 免费国产高清视频| 日韩a级毛片| 日韩高清在线观看不卡一区二区| 毛片网站在线播放| yy6080理论大片一级久久| 亚洲最大看欧美片网站地址| 日本一区二区三区精品视频| 国产美女视频黄a视频全免费网站| 久久综合伊人77777| 成人午夜天| 亚洲天堂.com| 性色一区| 天堂av高清一区二区三区| 欧美日韩一区二区三区四区在线观看| 蜜臀AVWWW国产天堂| 国产精品久久久久久搜索| 亚洲精品图区| 91久久大香线蕉| 亚洲欧洲日产国产无码AV| 在线观看网站国产| 黄色网页在线观看| 日韩精品一区二区三区视频免费看| 国产va免费精品观看| 美女无遮挡被啪啪到高潮免费| 米奇精品一区二区三区| 亚洲欧美日韩精品专区| 人与鲁专区| 亚洲狼网站狼狼鲁亚洲下载| 成人中文在线| 91在线播放免费不卡无毒| 国产香蕉一区二区在线网站| 免费国产在线精品一区| 国产精品亚洲精品爽爽| 免费在线色| 日韩乱码免费一区二区三区| 国产h视频在线观看视频| 亚洲看片网| 欧美不卡视频一区发布| 青青草原国产av福利网站| 一级毛片网| 中文字幕免费视频|