999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多粒度特征的低資源語言詞性標注和依存分析聯合模型

2023-10-24 14:16:10毛存禮余正濤高盛祥黃于欣王振晗
中文信息學報 2023年7期
關鍵詞:實驗分析模型

陸 杉,毛存禮,余正濤,高盛祥,黃于欣,王振晗

(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)

0 引言

泰語、越南語皆屬于資源稀缺型語言,其相關依存分析研究較少并且效果不佳。大多數傳統的依存分析模型都靠人工定義核心的特征工程[1-2],但是這種方法受特征選取的影響較大,隨著深度神經網絡技術為自然語言處理研究帶來嶄新建模方式和性能上的巨大提升,基于神經網絡的依存分析方法成為研究熱點[3-5]。

目前,基于神經網絡的依存分析主流的方法為基于轉移的依存分析[4]和基于圖的依存分析[5]?;趫D的依存分析方法的目的是尋找一棵最大生成樹,得到句子的整體的依存結構全局最優解,該方法對長距離依存分析準確率較高,可處理非投射現象,但模型解碼時需進行全局搜索,算法復雜度較高,耗時較長。而基于轉移的依存分析將句子的解碼過程建模為一個有限自動機問題,使模型可以達到線性時間復雜度,但其采用的是局部搜索策略,容易出現錯誤傳遞現象,且準確率要低于基于圖的依存分析方法。

無論是基于圖的方法還是基于轉移的方法,編碼層都只使用了簡單的詞向量表示,如圖1所示。泰語句子在進行依存分析的過程中僅僅利用了詞語的語義,然而,泰語由字符、子詞以及詞語三種粒度組成,將三種不同粒度的表征結合能從各個層面更好地表征其語義信息。另外,基于深度學習訓練方式的模型在一定程度上依賴于訓練數據的規模,所以,深度學習方法針對標注數據充足的語言時往往都能取得較好的效果,但針對泰語、越南語這樣的低資源語言時,模型獲得的效果就不太理想,且現有方法處理泰語、越南語依存分析時,使用的詞性標注信息都是和依存分析任務分開處理得到的,詞性標注和依存分析作為獨立的任務單獨訓練會導致其任務之間特征信息傳遞不連貫,增加詞性標注錯誤在依存分析任務上的傳遞。

圖1 泰語依存分析結果示例(漢語釋義:小屋被燒毀了。)

針對上述問題,本文提出融合多粒度特征的詞性標注和依存分析聯合模型。與中文、英文等擁有豐富標注數據的語言不同,泰語、越南語的公開依存分析標注數據分別僅有1 000條和3 000條。為緩解泰語、越南語標注數據資源不足問題,從維基百科獲取大規模單語語料,使用Word2Vec[6]將其訓練成詞向量來表征詞級嵌入,獲得詞之間豐富的相似性特征信息;利用Jacob Devlin等人[7]2018年提出的一種預訓練語言模型——BERT,并結合層注意力機制來表征詞語的子詞級嵌入,使詞語的子詞表征能包含此句話豐富的上下文信息,并充分吸收預訓練模型中的詞性、句法等信息[8];通過BiLSTM來編碼表征詞語的字符級嵌入,使字符級表征擁有豐富的詞法信息[6];并把它們拼接作為聯合嵌入,使最終嵌入擁有更加豐富的語義、上下文、句法等信息,有效緩解了由于訓練數據不足導致的模型性能不佳的問題。最后,通過聯合訓練的方式,使詞性標注和依存分析組件相互共享知識,緩解依存分析和詞性標注任務之間錯誤傳遞和不連貫性問題。

本文主要貢獻如下:

(1) 利用多粒度特征聯合嵌入的方式,在各個粒度嵌入上使用相應方法,使詞嵌入擁有豐富的上下文語義信息及詞法、句法信息,有效緩解了泰語、越南語標注數據稀缺的問題;

(2) 通過聯合訓練的方式,使詞性標注和依存分析模型之間能相互共享知識,緩解了單獨訓練導致的任務之間錯誤傳遞問題,提高了模型整體性能;

(3) 在賓州樹庫(1)https://universaldependencies.org/泰語和越南語數據集上,本文提出的方法取得了明顯的效果,相較于基線模型,在POS,UAS,LAS三種評價指標上都得到了明顯提升。

本文組織結構如下: 第1節介紹詞性標注、依存分析的相關研究工作;第2節對本文提出的融合多粒度特征的詞性標注和依存分析聯合模型進行了詳細說明;第3節對本文實驗數據、實驗參數、實驗評價標準進行介紹,并對實驗結果進行分析;第4節對本文的研究進行總結。

1 相關研究

詞性標注和依存分析是自然語言處理任務中重要的基礎工作。詞性標注是將語料庫內單詞的詞性按其含義和上下文內容進行標記的文本數據處理技術。Toutanova[9]提出使用隱馬爾可夫模型來做詞性標注,該詞性標注模型取得了很好的效果。Tsuboi等人[10]提出一種使用神經網絡的詞性標注方法,在英語數據集上的詞性標注結果得到明顯改善。Huang等人[11]提出基于BiLSTM加上CRF的詞性標注模型,該模型在增強魯棒性的同時還提高了詞性標注的準確率。Kann等人[12]在2018年提出一種使用詞的字符特征作為監督信號提升低資源語言詞性標注效果的模型。

依存分析的目的是確定句子的句法結構或者句子中詞匯之間的依存關系。傳統的依存句法分析特征向量稀疏,特征向量泛化能力差,且計算消耗大[1-2],針對此問題Chen等人[3]提出使用神經網絡的方法做依存分析,大大提高了依存分析的準確率和速度。Kiperwasser等人[5]提出使用BiLSTM來改進依存分析效果,通過BiLSTM編碼過后的句子會考慮詞的上下文信息,因此,依存分析的效果再次提升。同年,Dozat和Manning[13]對Kiperwasser等人提出的方法加以改進,提出使用雙仿射注意力機制代替傳統機制,再使用雙仿射依存標簽分類器,使依存分析準確率達到新的高度。而后,Woraratpanya等人[14]提出融合字符信息的泰語依存分析方法,在其實驗的所有基線模型中,融合了字符信息的依存分析模型效果均要好于沒有融合字符的模型。

詞性標注對依存分析起著重要作用,而依存分析同樣也對詞性標注有著巨大幫助,所以,越來越多的研究者把詞性標注和依存分析通過聯合訓練的方法一起訓練。Dat等人[15]提出一種融入字符信息的詞性標注和依存分析聯合模型,其效果在各項評價指標上均得到了提升。Dat等人[16]還提出一種針對于越南語的神經聯合模型,根據越南語語言特點,利用越南語的音節信息對越南語進行分詞、詞性標注以及依存分析處理,在越南語數據集上取得了較好的效果。Yan等人[17]認為依存分析是在單詞級別進行的任務,故提出一種基于圖的中文分詞和依存分析聯合模型,其效果達到了當時中文依存分析最佳。

雖然,詞性標注和依存分析聯合訓練已成為依存分析任務的主流方法,但是,現有的詞性標注和依存分析聯合模型的良好效果大都基于大規模的標注數據或針對某種語言的語言特點進行相關特征融合。模型本身并不適用于低資源語言,以至于在低資源語言上模型效果不佳。基于此,本文提出了融合多粒度特征的詞性標注和依存分析聯合模型。

2 多粒度特征融合的詞性標注和依存分析聯合模型

圖2為本文提出方法的模型框架,模型從整體上可以被看作是由三個部分組合而成: 詞向量表示部分、詞性標注部分以及依存分析部分。

圖2 融合多粒度特征的詞性標注和依存分析聯合模型框架圖

(1)詞向量表示: 將詞向量表示用三部分構成,分別為詞級向量、字符級詞向量和子詞級詞向量,使其包含不同粒度的豐富上下文語義信息和部分詞法、句法信息。

(2)詞性標注: 對于詞性標注任務,使用BiLSTM網絡來學習表示詞語的潛在特征向量,再將這些特征向量送入多層感知器(MLP)進行降維后通過Argmax預測得到詞性標簽。

(3)依存分析: 使用詞的聯合嵌入向量拼接詞性標注組件預測得到的詞性標簽向量,通過另一個BiLSTM學習另一組潛在特征表示。這些潛在特征表示被送入MLP進行降維后經過雙仿射注意力機制[14]預測得到最終的依存分析結果。

2.1 多粒度特征融合的詞向量表示

其中,任意一個詞w的詞嵌入表示為ew,由k個子詞組成,其表示為w=(sub1,sub2,…,subk),由n個字符組成,其表示為w=(ch1,ch2,…,chn)。對詞w中第j個子詞subj的向量用sj來表示,第j個字符chj的向量用cj來表示。向量cj是由隨機初始化得到。而向量sj是由多語言BERT(2)https://github.com/google-research/bert預訓練模型得到的12層輸出再通過層注意力機制得到[21],其中,預訓練語言模型可使sj擁有豐富的上下文語義信息,再結合層注意力機制使其重點獲取到對后續任務更加有幫助的上下文語義信息,以達到緩解泰語、越南語標注數據稀缺的問題,如式(2)所示。

其中,BERTij表示BERT第i層的第j個子詞的輸出,ui是可訓練的權重。

2.2 詞性標注

詞性預測部分的損失Losspos采用交叉熵損失函數來計算。

此部分獲得的詞性標注的結果定義為p1,p2,…,pn,將這些結果進行向量化表示,所獲得的詞性標注部分特征信息繼續傳遞給依存分析部分,如圖2所示。

2.3 基于雙仿射注意力機制的依存分析

依存弧的損失Lossarc使用交叉熵損失計算。

其中,Ulabel為三維矩陣,維度為(Nlabel,Nd,Nd),Nlabel是依存關系種類數。Vlabel是維度為(Nlabel,2Nd)的二維矩陣,b為隨機初始化的偏執向量。最終弧(i,j)的依存關系預測如式(12)所示。

依存關系預測的損失同樣使用交叉熵損失函數來計算。

2.4 聯合模型損失

最終,我們將聯合模型的訓練目標損失函數表示為Lossall,聯合函數的損失由詞性標注損失、依存分析中的依存弧損失和依存關系損失共同表示,如式(13)所示,其中,λ1, λ2, λ3為超參數。

Lossall=λ1Losspos+λ2Lossarc+λ3Lossrel

(13)

3 實驗評測與結果分析

3.1 實驗數據

目前,泰語、越南語公開的語料數據集極少,可用的數據資源極其稀缺,實驗中使用的數據集為賓州樹庫公開泰文依存分析數據集Thai-PUD和越南語依存分析數據集Vietnamese-VTB,該數據集采用CoNLL-U格式,其中泰語包含1 000個句子,越南語包含3 000個句子。泰語數據集中一共包含 22 322 個詞語,越南語數據由43 754個詞語組成。通過分析數據集可以發現,泰語、越南語數據集中依存關系類型分別有43種、29種。

如圖3、圖4所示,泰語句子中詞語詞性類型共包含有15種,其中詞語詞性為名詞、動詞、副詞的數量最多。而越南語句子中詞語詞性類型共有14種,其中詞語詞性為名詞、動詞、標點的數量最多,實驗所用數據集中泰語、越南語句子以復雜句和長句和簡單句組成[14],具體分布如表1、表2所示。其中,詞語數在8個以內的句子為簡單句,詞語數為8~16的句子為長句,詞語數大于16的句子稱為復雜句。

表1 泰語數據統計

表2 越南語數據統計

圖3 泰語數據詞性分布情況

圖4 越南語數據詞性分布情況

本文實驗中泰語實驗所用訓練集、驗證集、測試集由賓州樹庫的1 000句泰語依存分析數據按 8∶1∶1分割所得,800句用作訓練集,100句用作驗證集,100句用作測試集。越南語實驗使用賓州樹庫劃分好的數據集,其中訓練集1 400句,驗證集800句,測試集800句。

3.2 實驗參數設置

本文使用的泰語詞向量是通過維基百科(3)https://th.wikipedia.org/wiki/爬取的1 000 000句泰語單語語料經過分詞(4)http://www.sansarn.com/lexto/后使用Word2Vec生成的100維靜態詞向量,越南語詞向量是通過維基百科爬取的1 000 000句越南語單語語料經過Vncorenlp(5)https://github.com/dnanhkhoa/python-vncorenlp分詞后使用Word2Vec生成的100維靜態詞向量。字符初始向量表示和詞性標簽向量表示是由隨機初始化得到。

本文模型參數的具體細節如表3所示,模型優化器選用Adam,其中,β1設置為0.9,β2設置為0.99,訓練輪次為30輪。模型學習率初始設置為2e-4,經過五輪預熱,每輪增加e-4的學習率,直至升至1e-3,再使用余弦退火衰減進行調整,余弦退火衰減T設置為25,學習率變化如圖5所示。

表3 實驗超參數設計表

圖5 學習率變化圖

模型使用的LSTM層數為三層,詞向量維度設置為100維,子詞向量維度設置為100維,詞性向量維度設置為100維,LSTM維度設置為500維,依存分析弧預測部分MLP隱藏層維度設置為500,依存分析弧關系預測部分MLP隱藏層維度設置為200,弧預測和弧關系預測部分MLP層數均為1。損失函數超參λ1、λ2、λ3分別設置為0.2,0.6,0.2。為了防止過擬合問題,我們使用了Dropout正則化[18]技術,詞性預測模型的詞語向量輸入層、依存分析模型的詞語向量輸入層的Dropout概率均設置為0.1,詞性預測模型的BiLSTM、 依存分析模型的BiLSTM中Dropout概率均設置為0.33,弧預測和弧關系預測部分MLP的Dropout概率均設置為0.25。文中模型中所使用的激活函數均為LeakyReLU激活函數。

3.3 實驗評價指標

目前依存分析任務的評價指標主要是無標簽依存關系準確率(UAS)和帶標簽依存關系準確率(LAS),詞性標注任務的評價指標通常是詞性準確率(POS)。本文是基于詞性標注和依存分析的聯合模型,所以評價本文實驗的評價標準選取UAS、LAS、POS三種評價指標來評測模型的性能,具體如式(14)~式(16)所示。

(14)

3.4 實驗結果分析

為了體現本文所提出的方法有效性,本文設計了三組對比實驗。

實驗一: 不同模型方法的實驗結果對比

為了驗證本文方法的有效性,將本文方法與其他相關模型進行對比。記錄每組實驗的UAS、LAS、POS,實驗結果如表4所示。

表4 不同模型實驗結果 (單位: %)

本文選取對比的基線模型如下:

(1)BIST-graph[5]: 由Kiperwasser等人在2016年提出的一種使用BiLSTM特征表示的基于圖的依存分析模型。

(2)BIST-transition[4]: 由Dyer等人在2016年提出的一種使用Stack-LSTM的基于轉移的依存分析模型。

(3)DeepBiaffineAttention[13]: 由Manning等人在2016年提出的一種雙仿射注意力機制依存分析模型。

(4)UDPipe[19]: 由Milan Straka等人2018年提出的一種詞性標注、依存分析的多任務模型。

(5)UDify[20]: 由Dan等人2019年提出的一種基于BERT實現的詞性標注、依存分析的多任務模型。

(6)JPTDP2.0[17]: 由Dat等人2018年提出的一種聯合詞性的神經網絡依存分析模型。

實驗結果表明,本文提出的融合多粒度特征的詞性標注和依存分析聯合模型,在泰語數據集上,UAS、LAS和POS分別較基線模型JPTDP2.0提升了4.11%、4.26%、2.32%,在越南語數據集上,各項評價指標也較其他基線模型有明顯提升。通過比較可知,針對泰語、越南語這種低資源語言,融合多粒度特征后詞性標注任務和依存分析任務的詞向量表示都擁有了更加豐富的語義信息,彌補了因資源稀缺導致的模型吸收語義知識不足的問題,且聯合訓練大大緩解了詞性標注和依存分析任務之間的錯誤傳遞,共享了信息,對依存分析和詞性標注效果都有明顯的提升。

實驗結果表明,本文提出的融合多粒度特征的詞性標注和依存分析聯合模型,在泰語數據集上,UAS、LAS和POS分別較基線模型JPTDP2.0提升了4.11%、4.26%、2.32%,在越南語數據集上,各項評價指標也較其他基線模型有明顯提升。通過比較可知,針對泰語、越南語這種低資源語言,融合多粒度特征后詞性標注任務和依存分析任務的詞向量表示都擁有了更加豐富的語義信息,彌補了因資源稀缺導致的模型吸收語義知識不足的問題,且聯合訓練大大緩解了詞性標注和依存分析任務之間的錯誤傳遞,共享了信息,使依存分析和詞性標注效果都有明顯的提升。

實驗二: 不同BERT微調策略的實驗結果對比

為了驗證本文方法的有效性并研究在多語言BERT模型的12層輸出上使用不同策略作為子詞向量表征對實驗結果的影響,本文選用泰語數據在子詞向量表征分別選取BERT輸出的1~4層求和、4~8層求和、8~12層求和、4~12層求和、單獨使用第12層和對12層輸出使用層注意力機制的結果進行對比,記錄每組實驗的UAS、LAS和POS,實驗結果如表5所示。

表5 不同策略的BERT使用情況對實驗結果的影響 (單位: %)

實驗結果表明,采用不同策略使用BERT的12層輸出對模型性能有著較大的影響。當使用BERT輸出的1~4層,4~8層時模型在三種評價指標上均低于使用8~12層,4~12層和單獨使用12層,可知BERT的12層輸出中不同層數的向量對依存分析和詞性標注有著不同的影響。其中,使用4~12層的求和做為子詞向量表征時詞性標注的結果最高,達到95.23%,可知后8層的輸出對詞性標注有著重要影響。而對BERT的12層輸出使用層注意力機制取最后加權結果作為子詞向量表征時UAS和LAS達到最高的86.84%和78.87%,可知讓模型在訓練過程中自主學習對BERT各層輸出的權重能使模型達到較好的效果。

實驗三: 消融實驗

為了驗證不同粒度的聯合嵌入的效果,本文使用泰語數據設計了使用詞本身嵌入,使用字符和詞的聯合嵌入,使用子詞和詞的聯合嵌入,使用詞、子詞和字符的聯合嵌入四種不同實驗進行對比,記錄每組實驗的UAS、LAS和POS值,實驗結果如表6所示。

表6 不同粒度聯合嵌入對實驗結果的影響 (單位: %)

本組實驗證明,“子詞+字符+詞”的聯合嵌入作為實驗輸入相比于字符和詞的聯合嵌入、子詞和詞的聯合嵌入和僅使用詞嵌入本身在各項評價指標上都有更好的效果。字符為詞語的最小粒度,其詞表很小,不能充分利用上下文信息,且字符切分包含了大量冗余信息。子詞切分的粒度介于詞語與字符之間,其語義表示相比于字符更加充分,相比于詞語更加細膩,所以其與詞的聯合嵌入效果比字符與詞的聯合嵌入效果更好。而把三種不同粒度的表示作為聯合嵌入,更能使詞表征獲得各個層面上的語義信息,所以使用子詞、字符加上詞的聯合嵌入在各項評價指標上都獲得了最好的結果。

3.5 不同句子類型結果分析

本文實驗中把1 000句泰語數據集按照8∶1∶1隨機切分為訓練集、驗證集和測試集。其中測試集中包含1個簡單句、10個長句和89個復雜句。觀察測試集結果,如圖6所示,因簡單句只有1句,數據樣本太少,故不做詳細分析。長句有10句,包含126個詞語,其中UAS、LAS和POS分別為88.09%、82.53%、92.86%。復雜句一共包含2 301個詞語,其中UAS、LAS和POS分別為86.74%、78.70%、95.34%。通過上述結果可以得知,模型在對復雜句進行詞性預測時,因上下文更加充分,其效果要好于其他類型句子。而對長句預測的UAS和LAS要明顯高于平均值,可知模型對復雜句的句法解析效果不如對長句的解析效果。

圖6 泰語不同句子類型結果分析

4 總結

針對于泰語、越南語因標注數據稀缺導致的詞性標注和依存分析效果不佳問題,本文提出一種針對低資源語言的融合多粒度特征的詞性標注和依存分析聯合模型。通過不同方法得到字符級、子詞級和詞級表征,并把它們進行聯合嵌入,使得編碼端能擁有不同層面豐富的形態特征信息、上下文信息和相似性特征信息,有效緩解了標注數據稀缺導致的模型效果不佳問題。再結合聯合模型,使詞性標注和依存分析任務之間相互共享知識,有效減少單獨訓練各任務出現的錯誤線性傳遞問題。我們的模型有效提升詞性標注以及依存分析任務的效果。今后的研究中,我們會將分詞任務一同融入所提出的模型框架中來進行聯合訓練,探究低資源語言中分詞、詞性標注、依存分析組件之間能否更加有效地共享知識,達到提升依存分析效果的目的。

猜你喜歡
實驗分析模型
一半模型
記一次有趣的實驗
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国模粉嫩小泬视频在线观看| 国产一区二区色淫影院| 亚洲精品另类| 99久久这里只精品麻豆| 熟妇人妻无乱码中文字幕真矢织江| 国产成人无码综合亚洲日韩不卡| 色噜噜在线观看| 中字无码精油按摩中出视频| 中文字幕无码中文字幕有码在线| 青青青视频免费一区二区| 日本欧美一二三区色视频| 99热这里只有精品国产99| 全免费a级毛片免费看不卡| 久久亚洲综合伊人| 久久综合一个色综合网| 亚洲综合天堂网| 中文字幕天无码久久精品视频免费| 欧美一区二区自偷自拍视频| 国产成人永久免费视频| 欧美怡红院视频一区二区三区| 亚洲无码精品在线播放| 国产在线观看精品| 欧美在线国产| 91精品视频在线播放| 尤物视频一区| 欧美一区二区人人喊爽| 激情综合激情| 国产第一页免费浮力影院| 日韩国产综合精选| 秋霞午夜国产精品成人片| 亚洲av无码成人专区| h网站在线播放| 国产肉感大码AV无码| 欧美在线伊人| 99久久精品久久久久久婷婷| 亚洲国产av无码综合原创国产| 亚洲日本中文字幕乱码中文 | 99热亚洲精品6码| 欧美国产日韩一区二区三区精品影视| 无码高潮喷水在线观看| 国产国产人成免费视频77777 | 久久99精品久久久久纯品| 欧美日韩国产在线人| 国产成人狂喷潮在线观看2345| 亚洲91精品视频| 日本午夜在线视频| 国产97色在线| 在线免费无码视频| 中文无码精品a∨在线观看| 女同国产精品一区二区| 欧美日韩成人在线观看| 精品亚洲麻豆1区2区3区| 一本大道无码日韩精品影视| 国产成人无码AV在线播放动漫| 午夜视频日本| 91伊人国产| 亚洲午夜福利在线| 污网站免费在线观看| 亚洲码一区二区三区| 亚洲第一视频区| 中文字幕乱码中文乱码51精品| 亚洲第一视频网| 成年看免费观看视频拍拍| 成人午夜视频免费看欧美| 日日拍夜夜嗷嗷叫国产| 色综合久久88色综合天天提莫 | 久久黄色小视频| 免费一级全黄少妇性色生活片| 欧美精品H在线播放| 欧美国产视频| 秋霞国产在线| 成人日韩精品| 国产精品无码翘臀在线看纯欲| 日韩精品欧美国产在线| 精品福利网| 国产偷倩视频| 国产精品自拍露脸视频| 青青草国产在线视频| 毛片久久网站小视频| 找国产毛片看| 亚洲欧美在线精品一区二区| 亚洲不卡影院|