999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT+BiLSTM+CRF模型與新預(yù)處理方法的古籍自動標(biāo)點

2022-09-22 05:59:38瑤,顧
軟件導(dǎo)刊 2022年9期
關(guān)鍵詞:文本模型

王 瑤,顧 磊

(南京郵電大學(xué)計算機學(xué)院軟件學(xué)院網(wǎng)絡(luò)空間安全學(xué)院,江蘇南京 210023)

0 引言

中華文明源遠流長,流傳下很多古籍文本,涵蓋了政治、歷史、哲學(xué)、文學(xué)、醫(yī)學(xué)等多方面內(nèi)容。通過對古籍文本進行整理和學(xué)習(xí),現(xiàn)代人能夠了解并學(xué)習(xí)古人的智慧,更加準(zhǔn)確地認識歷史。中文古籍文本一般不添加標(biāo)點符號[1]。韓愈在《師說》中云:“彼童子之師,授之書而習(xí)其句讀者?!北闶钦f古代孩子不僅要學(xué)習(xí)字詞,還要學(xué)習(xí)斷句?,F(xiàn)代人習(xí)慣在寫作過程中加入標(biāo)點符號幫助理解語義,在閱讀古籍文本時便會遇到諸多困難。因此,對古籍文本進行斷句和標(biāo)點是人們學(xué)習(xí)和理解歷史文化的基礎(chǔ)環(huán)節(jié)[2]。

1 相關(guān)研究

傳統(tǒng)的古文斷句和標(biāo)點方法主要分為基于規(guī)則的方法和基于統(tǒng)計的方法兩種。例如,黃建年等[3]采用基于規(guī)則的方法對農(nóng)業(yè)古籍文本進行斷句和標(biāo)點,但需要語言專家針對目標(biāo)文本制定復(fù)雜的規(guī)則,不僅耗費大量人力物力,還需要不斷修改和完善規(guī)則,且僅適用于目標(biāo)文本,移植性很差。基于規(guī)則的方法存在較多不足,研究人員開始嘗試采用基于統(tǒng)計的方法進行古文斷句和標(biāo)點。例如,陳天瑩等[4]提出古文句子切分算法,通過n-gram 提取上下文信息;黃瀚萱[5]采用字標(biāo)注的形式,通過條件隨機場模型(Conditional Random Field,CRF)進行古文斷句,性能優(yōu)于隱馬爾可夫模型(Hidden Markov Model,HMM)模型;張開旭等[6]將古文斷句問題看作是一個序列標(biāo)注問題,將CRF模型應(yīng)用于古文自動斷句和標(biāo)點任務(wù)中;Huang 等[7]將雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,BiLSTM)+CRF 模型應(yīng)用于自然語言處理的基準(zhǔn)序列標(biāo)記數(shù)據(jù)集工作中,發(fā)現(xiàn)該模型可有效利用上下文內(nèi)容。然而,這些模型對連續(xù)文本的內(nèi)在聯(lián)系和語境信息學(xué)習(xí)并不充分,雖然提高了自動斷句和標(biāo)點性能,但離實際應(yīng)用還有很大距離。

隨著自然語言處理技術(shù)的發(fā)展,研究人員嘗試將基于深度學(xué)習(xí)的方法應(yīng)用于古籍文本的處理中,主要應(yīng)用在斷句方面。例如,Wang 等[8]采用神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM)進行古文斷句實驗,得到了與CRF 模型相媲美的性能;王博立等[9]采用基于GRU(Gated Recurrent unit)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進行古文斷句,取得比傳統(tǒng)方法更高的F1 值;HAN 等[10]提出一種基于字根嵌入的BiLSTM+CRF 模型進行古文自動斷句,該模型可更好地學(xué)習(xí)連續(xù)文本的內(nèi)在聯(lián)系和語境信息;俞敬松等[11]將深層語言模型BERT(Bidirectional Encoder Representation from Transformers)用于古文斷句,采用二元標(biāo)記法在大規(guī)模語料庫上進行訓(xùn)練,整體斷句正確率達90%左右;胡韌奮等[12]在BERT 模型的基礎(chǔ)上加入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型和CRF 模型進行斷句,分別在詩、詞和古文3 種不同數(shù)據(jù)集上進行訓(xùn)練和測試,結(jié)果較BERT+微調(diào)模型性能有所提升。

然而,相較于斷句,對古籍文本進行標(biāo)點面臨著更大困難。傳統(tǒng)的機器學(xué)習(xí)和深度學(xué)習(xí)方法大都基于監(jiān)督學(xué)習(xí)設(shè)計,現(xiàn)代標(biāo)點符號的體系結(jié)構(gòu)并不能完全適用于古文。為此,本文將深層語言模型BERT 與BiLSTM+CRF 相結(jié)合用于古籍自動標(biāo)點,同時對文本數(shù)據(jù)進行以段落分行為格式的預(yù)處理,與以標(biāo)點分行為格式的預(yù)處理方法相比,可使模型更好地學(xué)習(xí)古文的語義和上下文之間的聯(lián)系。然后將本文模型與BiLSTM+CRF、BERT+CNN、BERT+CRF、BERT+微調(diào)等已應(yīng)用于現(xiàn)代文處理和古文斷句的深度學(xué)習(xí)模型進行性能比較。

2 用于文本處理的基本深度學(xué)習(xí)模型

2.1 BiLSTM 模型

傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型中,輸入的信息是沒有順序的,但在自然語言處理領(lǐng)域中經(jīng)常需要將詞匯映射成詞向量,然后輸入到神經(jīng)網(wǎng)絡(luò)。單詞不同的排列順序可能會導(dǎo)致語句意義的天差地別。為解決長距離句子信息的捕獲問題,Zaremba 等[13]提出了RNN 模型,但該模型會帶來梯度消失和梯度爆炸的問題。為解決該問題,Hochreiter等[14]提出長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型,該模型的整體邏輯與RNN 類似,都會經(jīng)過一個閉合的隱藏中間單元,但該模型引入了3 個門控單元解決梯度消失和爆炸問題。LSTM 模型通過訓(xùn)練過程可以學(xué)到記憶哪些信息和遺忘哪些信息,因此可以很好地捕捉較長距離的依賴關(guān)系,但其只能編碼從前到后的信息,并不能獲取當(dāng)前位置后面的信息。為解決這個問題,Dyer等[15]在LSTM 模型的基礎(chǔ)上提出BiLSTM 模型,其由前向LSTM和后向LSTM 組合而成,在自然語言處理任務(wù)中常被用于建模上下文信息。該模型既能編碼從前向后的信息,也能編碼從后向前的信息,可以更好地捕捉雙向的語義依賴。

2.2 CRF模型

CRF 是自然語言處理領(lǐng)域中的基礎(chǔ)模型,廣泛應(yīng)用于分詞、命名實體識別和詞性標(biāo)注等場景。CRF 是一個無向概率圖模型,通過建立概率模型分割和標(biāo)記序列數(shù)據(jù)[16]。CRF 將條件模型的優(yōu)點與隨機場模型的全局歸一化相結(jié)合,可獲得全局最優(yōu)結(jié)果。由于全局訓(xùn)練比較復(fù)雜,該模型僅訓(xùn)練正確選擇相鄰標(biāo)簽情況下的單個標(biāo)簽決策,最大程度地減少了誤差。

2.3 BERT模型

2018 年,Devlin 等[17]提出基于Transformer 的預(yù)訓(xùn)練語言模型BERT。與傳統(tǒng)語言模型不同,BERT 模型不是使用從左到右或從右到左的語言模型進行預(yù)訓(xùn)練,而是使用Taylor 等[18]提出的完型填空程序和下一句預(yù)測任務(wù)進行預(yù)訓(xùn)練,通過這兩個任務(wù)可以分別捕捉到詞語和句子級別的表示,從而實現(xiàn)真正意義上的雙向。

BERT 模型結(jié)構(gòu)如圖1 所示[19]。模型輸入為文本,位于圖1 的第①部分。輸入文本后,需要對文本進行向量表示,具體操作流程為圖1 的第②部分。模型的輸入向量(Input Embeddings,IE)除了從字向量表中查詢得到的字向量(Token Embeddings,TE)外,還加入了文本向量(Segment Embeddings,SE)和位置向量(Position Embeddings,PE)。SE 用于刻畫文本的全局語義信息,并且與字的語義信息相融合;PE 用于區(qū)分不同位置的字所攜帶的語義信息之間的差異。模型最終向量表示為:

輸入向量經(jīng)過12 層的Transformer Encoder 進行學(xué)習(xí),即圖1 的第③部分。Transformer Encoder 的結(jié)構(gòu)位于圖1右側(cè),圖中Nx=6 表示由6 個相同的層組成,每層由一個多頭注意力機制(Multi-Head Attention)和層歸一化(Add &Norm)加上一個前饋網(wǎng)絡(luò)(Feed Forward)和層歸一化(Add&Norm)組合而成,且多頭注意力機制和前饋網(wǎng)絡(luò)均有各自的殘差網(wǎng)絡(luò)(Residual Connection)。多頭注意力機制是將注意力機制操作多遍,將每次經(jīng)過注意力機制學(xué)習(xí)得到的結(jié)果組合得到最終輸出。注意力機制有Query、Key 和Value 3 個向量表示,其中Query 向量由目標(biāo)字線性轉(zhuǎn)換得到,Key 向量由上下文各字線性轉(zhuǎn)換得到,Value 由目標(biāo)字和上下文各字的原始向量表示得到。注意力機制首先通過計算Query 和Key 的相似度作為權(quán)重,然后加權(quán)融合目標(biāo)字和上下文各字的Value 向量作為注意力機制的輸出。注意力機制可以區(qū)分輸入的不同部分對輸出的影響,多頭注意力機制有助于幫助網(wǎng)絡(luò)捕捉到更豐富的特征和信息。前饋網(wǎng)絡(luò)將經(jīng)過注意力機制層后輸出的多個向量分別輸入到一個全連接層中。殘差連接將輸入與輸出相加,可有效避免在反向傳播過程中梯度連乘導(dǎo)致的梯度消失問題。層歸一化將輸入轉(zhuǎn)化為均值為0、方差為1 的數(shù)據(jù),以減少偏差,防止梯度消失和爆炸。最終,經(jīng)過12 層Transformer Encoder 的學(xué)習(xí)后可以得到模型的輸出向量,即圖1 的第④部分。輸出向量經(jīng)過損失函數(shù)和真值比較,將結(jié)果反饋給第③部分。

Fig.1 BERT model architecture圖1 BERT模型結(jié)構(gòu)

BERT 模型相較于傳統(tǒng)深度學(xué)習(xí)模型實現(xiàn)了從淺層雙向模型到深度雙向模型的突破性改變。傳統(tǒng)語言模型進行訓(xùn)練時分別通過編碼前向和后向信息達到雙向,這種淺層連接效果遠低于深度雙向模型。為使模型更好地學(xué)習(xí)前向和后向信息,BERT 模型提出了完型填空任務(wù)和下一句預(yù)測任務(wù),這兩項任務(wù)主要由12 層Transformer Encoder完成。在完型填空任務(wù)中,BERT 模型在向量表示部分會隨機遮蓋掉15%的字,然后根據(jù)上下文預(yù)測被遮蓋的字,被迫增加對上下文的記憶。為提高模型的遷移能力,BERT 模型會將80%被遮蓋的詞替換成[MASK]標(biāo)簽,10%用其他單詞隨機替換,10%保留原詞,使得模型在訓(xùn)練時需要關(guān)注到每個詞。為使模型能夠理解句子之間的聯(lián)系,BERT 模型增加了下一句預(yù)測任務(wù),使其具備抽象連續(xù)長序列特征的能力,其中50%的數(shù)據(jù)存在先后關(guān)系,是真實的下一句;另外50%是從語料中隨機拼湊而來,不具備先后關(guān)系,不是真正的下一句。同時,BERT 模型可以在大量未標(biāo)記數(shù)據(jù)[20]上預(yù)先進行訓(xùn)練,然后針對特定任務(wù)進行微調(diào)得到最終結(jié)果。

3 數(shù)據(jù)預(yù)處理格式改進

本文采用的文本數(shù)據(jù)均從網(wǎng)上下載而來,不能直接使用,需要對其進行清洗和預(yù)處理后才能送入BERT 模型。數(shù)據(jù)預(yù)處理是在數(shù)據(jù)轉(zhuǎn)化為輸入向量之前完成的,其不僅有利于模型訓(xùn)練和測試,還可以使其更好地學(xué)習(xí)古文的語義信息。

模型通常將每行數(shù)據(jù)作為一個單元進行處理,一個處理單元包含的信息越多,模型獲得的信息也就越多。進行斷句和標(biāo)點前需要對古文的每個字進行分類。本文吸取前人經(jīng)驗,選擇較為簡潔的二元標(biāo)簽組對數(shù)據(jù)集進行標(biāo)記。二元標(biāo)簽組只能區(qū)分句子的開頭和其他部分,開頭用[B]標(biāo)簽標(biāo)記,其他部分用[I]標(biāo)簽標(biāo)記。現(xiàn)有古文標(biāo)點數(shù)據(jù)集中的標(biāo)點較為雜亂,包含很多特殊的標(biāo)點符號,且數(shù)量較少,使得模型不易學(xué)習(xí)。為此,本文選取7 個常用標(biāo)點符號進行學(xué)習(xí),其他符號省略。7 個常用標(biāo)點符號分別為逗號(,)、句號(。)、問號(?)、感嘆號(?。⒚疤枺ǎ海⒎痔枺?;)、頓號(、),對應(yīng)的標(biāo)點集為{(,),(。),(?),(?。?,(:),(;),(、)}。結(jié)合對開頭和其他部分的標(biāo)記,標(biāo)點對應(yīng)的分類標(biāo)簽分別為{[B_,],[I_,],[B_。],[I_。],[B_?],[I_?],[B_?。荩跧_?。荩跙_:],[I_:],[B_;],[I_;],[B_、],[I_、]}。

用于古文信息處理的深度學(xué)習(xí)模型通常按照標(biāo)點符號分行進行數(shù)據(jù)預(yù)處理,將該種方法以PreA 表示。如表1所示,PreA 只要遇到標(biāo)點便進行分行,例如“已上五符,書投酒中,傾火穴傾符酒,咒曰:奔盧奔盧陀禹,念三徧”依據(jù)標(biāo)點符號可分成6 行,每行只有1 個標(biāo)點符號。此外,本文還設(shè)計了新的預(yù)處理方法,即按照段落分行,該種方法以PreB 表示。如表2 所示,“已上五符,書投酒中,傾火穴傾符酒,咒曰:奔盧奔盧陀禹,念三徧”依據(jù)段落進行分行后只能處于一行,不能進行換行。

PreA 使得模型每次只學(xué)習(xí)1 個標(biāo)點符號及其前面的文本,不能很好地學(xué)習(xí)上下文之間的關(guān)聯(lián),獲取到的文本語義和關(guān)聯(lián)信息較少。PreB 不僅使模型學(xué)習(xí)到上下文信息,還可獲得文本語義和一些關(guān)聯(lián)信息。

Table 1 Data preprocessing in the form of punctuation branch(PreA)表1 以標(biāo)點分行為格式的數(shù)據(jù)預(yù)處理(PreA)

Table 2 Data preprocessing in the format of paragraphs and branches(PreB)表2 以段落分行為格式的數(shù)據(jù)預(yù)處理(PreB)

4 基于深度學(xué)習(xí)模型的古文自動標(biāo)點模型

本文進行對比實驗使用的5 種深度學(xué)習(xí)模型結(jié)構(gòu)如圖2 所示,其輸入均為文本,輸出均為向量。Dropout 機制能夠提高模型性能,有效防止過擬合,因此本文在所有模型中均添加了Dropout機制[21]。

BiLSTM+CRF 模型結(jié)構(gòu)如圖2 中①所示,其將輸入送入BiLSTM 層中,再將BiLSTM 的輸出送入CRF 層中,直接使用CRF 的損失函數(shù),從而找出最有可能的標(biāo)簽。BERT+微調(diào)模型結(jié)構(gòu)如圖2 中②所示,其將BERT 模型的輸出傳入一個全連接層得到每個標(biāo)點標(biāo)簽的可能性,然后送入Softmax 層,Softmax 層再將全連接層輸出的可能性全部映射到(0,1)區(qū)間上,使映射后的所有值累計和為1,最后選取映射后值最大的結(jié)點,從而找到最有可能的標(biāo)點標(biāo)簽。BERT+CNN 模型結(jié)構(gòu)如圖2 中③所示,其引入CNN 模型,將BERT 的輸出直接送入到100 個寬度為3 的卷積核中進行再次學(xué)習(xí),得到的輸出傳入全連接層得到每個標(biāo)點標(biāo)簽的可能性,再傳入Softmax 層,以找到最有可能的標(biāo)點標(biāo)簽。BERT+CRF 模型結(jié)構(gòu)如圖2 中④所示,其在BERT 中引入CRF 模型,將BERT 的輸出直接送入CRF 層中。該模型舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層,直接使用CRF 的損失函數(shù),從而找出最有可能的標(biāo)簽。CRF層能進一步提高模型預(yù)測準(zhǔn)確率,學(xué)習(xí)標(biāo)點標(biāo)記之間的聯(lián)系,規(guī)范預(yù)測結(jié)果。本文模型BERT+BiLSTM+CRF 結(jié)構(gòu)如圖2 中⑤所示,其將BERT 的輸出直接送入BiLSTM 層,再將BiLSTM 的輸出送入CRF 層中。該模型亦舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層,直接使用CRF 的損失函數(shù),以找出最有可能的標(biāo)簽。BiLSTM 和CRF 層相結(jié)合能達到互補的效果,既能夠?qū)W習(xí)上下文之間的關(guān)聯(lián)信息,又可以學(xué)習(xí)標(biāo)點標(biāo)記之間的聯(lián)系。

Fig.2 Structure of automatic punctuation models for ancient Chinese based on deep learning圖2 基于深度學(xué)習(xí)模型的古文自動標(biāo)點結(jié)構(gòu)

5 實驗結(jié)果與分析

5.1 數(shù)據(jù)集

由于沒有開源的處理好的古文標(biāo)點數(shù)據(jù)集,本文從殆知閣(http://www.daizhige.org/)下載古文,并進行數(shù)據(jù)清洗和整理。殆知閣中包括易藏、儒藏、道藏、佛藏、子藏、史藏、詩藏、易藏和藝藏多個領(lǐng)域古文,但文本并沒有全部進行斷句和標(biāo)點,且不同類別文本的標(biāo)點效果也不同。本文采用標(biāo)點質(zhì)量較好的道藏作為訓(xùn)練集和測試集。為進一步測試模型和預(yù)處理方法PreB 的性能,本文還選取了史藏的部分內(nèi)容作為測試集,史藏測試集的大小與道藏測試集類似。本文所有訓(xùn)練集和測試集均無重復(fù)內(nèi)容,所有測試集均未參與預(yù)訓(xùn)練任務(wù)。具體標(biāo)點訓(xùn)練集和測試集規(guī)模大小如表3所示。

Table 3 Punctuation training and test set size表3 標(biāo)點訓(xùn)練集與測試集規(guī)模

5.2 實驗配置

硬件環(huán)境:64 位Ubuntu18.04 系統(tǒng),Intel Silver 4210@2.10GHz40 處理器,128GB內(nèi)存,GeForce RTX 2080 Ti 顯卡。軟件環(huán)境:Python3.6,TensorFlow1.14.0。

以BERT+微調(diào)模型作為基線模型,采用12 層Transformer 模型,hidden_size 設(shè)為768,num_attention_heads 設(shè)為12。按標(biāo)點分行的數(shù)據(jù)集最大序列長度為64,按段落分行的數(shù)據(jù)集最大序列長度為512。對于其他4 個模型,為了特征抽取,CNN 選取100 個寬度為3 的卷積核,CRF 層使用默認設(shè)置,BiLSTM 使用的lstm_size 為768。

5.3 評價標(biāo)準(zhǔn)

使用準(zhǔn)確率(P)、召回率(R)和調(diào)和平均值F1 作為模型評價指標(biāo)。由于標(biāo)點標(biāo)簽有多個,并且每個標(biāo)簽的學(xué)習(xí)結(jié)果不同,其中關(guān)于逗號(,)和句號(。)的數(shù)據(jù)集較多,學(xué)習(xí)效果優(yōu)于其他標(biāo)點符號。因此,考慮到標(biāo)點標(biāo)簽的不平衡性,采用微平均(micro)對模型進行評價,該指標(biāo)適用于數(shù)據(jù)分布不平衡的情況[11],具體評價公式為:

式中,TP為標(biāo)點標(biāo)簽預(yù)測正確的數(shù)量,F(xiàn)P為標(biāo)點標(biāo)簽預(yù)測錯誤的數(shù)量,F(xiàn)N為標(biāo)點標(biāo)簽沒有被預(yù)測出的數(shù)量。

5.4 實驗結(jié)果

標(biāo)點質(zhì)量較高的道藏數(shù)據(jù)集按PreA 方法進行數(shù)據(jù)預(yù)處理,將處理好的數(shù)據(jù)送入模型,得到的實驗結(jié)果如表4所示。為測試模型的泛化能力,本文還選取了與道藏測試集大小相似的史藏數(shù)據(jù)集,同樣按PreA 方法進行測試,得到的實驗結(jié)果如表5所示。

Table 4 Results of Taoist sutra dataset(preprocessing method:PreA)表4 道藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreA)

Table 5 Results of history sutra dataset(preprocessing method:PreA)表5 史藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreA)

由表4 可知,BERT+BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到77.46%;BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為58.25%??梢钥闯?,在BiLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠提高準(zhǔn)確率。由表5 可知,BERT+BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到63.95%;BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為52.81%??梢钥闯?,在BiLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠改善泛化能力。

此外,本文還嘗試采用PreB 方法進行數(shù)據(jù)預(yù)處理,以期模型能夠更好地學(xué)習(xí)文本的語義信息。采用PreB 方法預(yù)處理標(biāo)點質(zhì)量較高的道藏數(shù)據(jù)集,結(jié)果如表6 所示。為了進一步考察按照PreB 方法進行數(shù)據(jù)預(yù)處理后訓(xùn)練出的模型的泛化性,本文還選取了與道藏數(shù)據(jù)集大小相似的史藏數(shù)據(jù)集進行測試,結(jié)果如表7所示。

由表6 可知,BERT+微調(diào)模型在道藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到85.46%;BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為77.97%。由表7 可知,BERT+CRF 模型在史藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到78.56%;BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為70.14%。對比表4 和表6 結(jié)果可以發(fā)現(xiàn),使用PreB 方法進行數(shù)據(jù)預(yù)處理得到的結(jié)果優(yōu)于使用PreA方法的結(jié)果,最高F1 值提升了8%左右,說明使用PreB 方式進行數(shù)據(jù)預(yù)處理可使模型更好地學(xué)習(xí)文本信息及其內(nèi)在聯(lián)系。對比表5 和表7 結(jié)果可以發(fā)現(xiàn),使用PreB 方法進行數(shù)據(jù)預(yù)處理后模型的泛化效果優(yōu)于使用PreA 方法,最高F1值提高了14%左右。

Table 6 Results of Taoist sutra dataset(preprocessing method:PreB)表6 道藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreB)

Table 7 Results of history sutra dataset(preprocessing method:PreB)表7 史藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreB)

5.5 案例應(yīng)用

從道藏數(shù)據(jù)集中選取兩個標(biāo)點案例進行預(yù)測,預(yù)測文本與訓(xùn)練語料無任何關(guān)系。采用不同數(shù)據(jù)預(yù)處理方式訓(xùn)練得到的模型進行標(biāo)點,標(biāo)點標(biāo)錯的位置采用▲標(biāo)記。案例1標(biāo)點結(jié)果如表8所示,案例2標(biāo)點結(jié)果如表9所示。

Table 8 Prediction results of Taoist sutra dataset punctuation case 1表8 道藏數(shù)據(jù)集標(biāo)點案例1預(yù)測結(jié)果

Table 9 Prediction results of Taoist sutra dataset punctuation case 2表9 道藏數(shù)據(jù)集標(biāo)點案例2預(yù)測結(jié)果

由表8 可知,使用PreB 方法進行訓(xùn)練和預(yù)測的結(jié)果優(yōu)于PreA。由表9 可知,相較于BERT+CNN、BERT+CRF 和BERT+BiLSTM+CRF 模型,BERT+微調(diào)模型對于數(shù)據(jù)量較少的標(biāo)點符號預(yù)測效果較差,例如頓號(、)。然而,BERT+BiLSTM+CRF 模型在長文本數(shù)據(jù)的學(xué)習(xí)上相較于BERT+微調(diào)模型并沒有表現(xiàn)出更好的效果,反而會影響數(shù)據(jù)量較多的標(biāo)點符號學(xué)習(xí)。在日常生活中需要使用到很多標(biāo)點,有些不經(jīng)常被使用,數(shù)據(jù)量較少。后續(xù)如果引入更多類型的標(biāo)點符號,BERT+BiLSTM+CRF 模型可能會取得更好的標(biāo)記效果。

6 結(jié)語

本文在BERT 模型的基礎(chǔ)上加入BiLSTM+CRF 模型學(xué)習(xí)古籍文本語義信息與標(biāo)點標(biāo)簽的規(guī)范信息,同時提出按段落分行的數(shù)據(jù)預(yù)處理方法,使得一個數(shù)據(jù)處理單元能包含更多信息,模型能夠更好地學(xué)習(xí)到文本的語義和上下文關(guān)聯(lián)等信息。雖然使用按段落分行的數(shù)據(jù)預(yù)處理方法會使BERT+BiLSTM+CRF 模型的訓(xùn)練結(jié)果略遜于BERT+微調(diào)模型,但通過應(yīng)用案例可以發(fā)現(xiàn),在一些標(biāo)簽數(shù)量較少的標(biāo)點符號中,BERT+BiLSTM+CRF 模型的學(xué)習(xí)效果更好。后續(xù)可進一步增加古文常用的標(biāo)點標(biāo)簽數(shù)量,以驗證BERT+BiLSTM+CRF 模型的性能。同時,也可以進一步增加標(biāo)點質(zhì)量較差的數(shù)據(jù)集,以提高模型的泛化性能。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 好吊妞欧美视频免费| 国产在线第二页| 99久久精品免费视频| 成人在线观看不卡| 在线日本国产成人免费的| 亚洲黄色片免费看| 精品无码人妻一区二区| 亚洲综合在线最大成人| 亚洲有无码中文网| 国产不卡网| 国产精品久久精品| 香蕉精品在线| 偷拍久久网| 亚洲黄网视频| jizz亚洲高清在线观看| 亚洲天堂首页| 午夜激情福利视频| 国产精品手机视频| 亚洲AV无码乱码在线观看代蜜桃| 好紧好深好大乳无码中文字幕| 亚洲一区二区三区香蕉| 国产成人一二三| 国产精品 欧美激情 在线播放| 午夜小视频在线| 亚洲乱码视频| 午夜福利网址| 高清不卡一区二区三区香蕉| 国产大片喷水在线在线视频| 91福利免费视频| 国产成人精品男人的天堂下载 | 一本大道香蕉久中文在线播放| 国产无遮挡猛进猛出免费软件| 欧美三级视频在线播放| 亚洲欧美人成电影在线观看 | 精品成人一区二区三区电影| 亚洲综合18p| 中文纯内无码H| 国产青榴视频在线观看网站| 九九九国产| 天堂av高清一区二区三区| 亚洲一级毛片在线观播放| 欧美激情网址| 亚洲精品免费网站| 国产真实乱子伦视频播放| 美女被狂躁www在线观看| 国产欧美日韩精品第二区| 午夜精品区| 97国产成人无码精品久久久| 91色国产在线| 国产在线观看精品| 国产 在线视频无码| 就去吻亚洲精品国产欧美| 午夜精品福利影院| 日韩欧美在线观看| 国产免费久久精品99re不卡| 国产呦视频免费视频在线观看| 91国语视频| 国产网友愉拍精品| 五月天在线网站| 亚洲AV色香蕉一区二区| 超清人妻系列无码专区| 九九热这里只有国产精品| 亚洲va在线∨a天堂va欧美va| 丁香五月亚洲综合在线| 在线综合亚洲欧美网站| 亚洲中文无码h在线观看| 亚洲熟女中文字幕男人总站| 欧美高清国产| 一区二区三区国产精品视频| 欧美日韩精品一区二区在线线| 高潮毛片无遮挡高清视频播放| 亚洲人成日本在线观看| 露脸一二三区国语对白| 国产高清精品在线91| 热热久久狠狠偷偷色男同 | 欧美日韩91| 五月综合色婷婷| 亚洲精品成人福利在线电影| 久久国产精品影院| 国产男女免费视频| 国产精品污视频| 久久精品人人做人人爽97|