999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT+BiLSTM+CRF模型與新預(yù)處理方法的古籍自動(dòng)標(biāo)點(diǎn)

2022-09-22 05:59:38瑤,顧
軟件導(dǎo)刊 2022年9期
關(guān)鍵詞:文本模型

王 瑤,顧 磊

(南京郵電大學(xué)計(jì)算機(jī)學(xué)院軟件學(xué)院網(wǎng)絡(luò)空間安全學(xué)院,江蘇南京 210023)

0 引言

中華文明源遠(yuǎn)流長(zhǎng),流傳下很多古籍文本,涵蓋了政治、歷史、哲學(xué)、文學(xué)、醫(yī)學(xué)等多方面內(nèi)容。通過(guò)對(duì)古籍文本進(jìn)行整理和學(xué)習(xí),現(xiàn)代人能夠了解并學(xué)習(xí)古人的智慧,更加準(zhǔn)確地認(rèn)識(shí)歷史。中文古籍文本一般不添加標(biāo)點(diǎn)符號(hào)[1]。韓愈在《師說(shuō)》中云:“彼童子之師,授之書而習(xí)其句讀者。”便是說(shuō)古代孩子不僅要學(xué)習(xí)字詞,還要學(xué)習(xí)斷句。現(xiàn)代人習(xí)慣在寫作過(guò)程中加入標(biāo)點(diǎn)符號(hào)幫助理解語(yǔ)義,在閱讀古籍文本時(shí)便會(huì)遇到諸多困難。因此,對(duì)古籍文本進(jìn)行斷句和標(biāo)點(diǎn)是人們學(xué)習(xí)和理解歷史文化的基礎(chǔ)環(huán)節(jié)[2]。

1 相關(guān)研究

傳統(tǒng)的古文斷句和標(biāo)點(diǎn)方法主要分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法兩種。例如,黃建年等[3]采用基于規(guī)則的方法對(duì)農(nóng)業(yè)古籍文本進(jìn)行斷句和標(biāo)點(diǎn),但需要語(yǔ)言專家針對(duì)目標(biāo)文本制定復(fù)雜的規(guī)則,不僅耗費(fèi)大量人力物力,還需要不斷修改和完善規(guī)則,且僅適用于目標(biāo)文本,移植性很差。基于規(guī)則的方法存在較多不足,研究人員開(kāi)始嘗試采用基于統(tǒng)計(jì)的方法進(jìn)行古文斷句和標(biāo)點(diǎn)。例如,陳天瑩等[4]提出古文句子切分算法,通過(guò)n-gram 提取上下文信息;黃瀚萱[5]采用字標(biāo)注的形式,通過(guò)條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)進(jìn)行古文斷句,性能優(yōu)于隱馬爾可夫模型(Hidden Markov Model,HMM)模型;張開(kāi)旭等[6]將古文斷句問(wèn)題看作是一個(gè)序列標(biāo)注問(wèn)題,將CRF模型應(yīng)用于古文自動(dòng)斷句和標(biāo)點(diǎn)任務(wù)中;Huang 等[7]將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,BiLSTM)+CRF 模型應(yīng)用于自然語(yǔ)言處理的基準(zhǔn)序列標(biāo)記數(shù)據(jù)集工作中,發(fā)現(xiàn)該模型可有效利用上下文內(nèi)容。然而,這些模型對(duì)連續(xù)文本的內(nèi)在聯(lián)系和語(yǔ)境信息學(xué)習(xí)并不充分,雖然提高了自動(dòng)斷句和標(biāo)點(diǎn)性能,但離實(shí)際應(yīng)用還有很大距離。

隨著自然語(yǔ)言處理技術(shù)的發(fā)展,研究人員嘗試將基于深度學(xué)習(xí)的方法應(yīng)用于古籍文本的處理中,主要應(yīng)用在斷句方面。例如,Wang 等[8]采用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM)進(jìn)行古文斷句實(shí)驗(yàn),得到了與CRF 模型相媲美的性能;王博立等[9]采用基于GRU(Gated Recurrent unit)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進(jìn)行古文斷句,取得比傳統(tǒng)方法更高的F1 值;HAN 等[10]提出一種基于字根嵌入的BiLSTM+CRF 模型進(jìn)行古文自動(dòng)斷句,該模型可更好地學(xué)習(xí)連續(xù)文本的內(nèi)在聯(lián)系和語(yǔ)境信息;俞敬松等[11]將深層語(yǔ)言模型BERT(Bidirectional Encoder Representation from Transformers)用于古文斷句,采用二元標(biāo)記法在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,整體斷句正確率達(dá)90%左右;胡韌奮等[12]在BERT 模型的基礎(chǔ)上加入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型和CRF 模型進(jìn)行斷句,分別在詩(shī)、詞和古文3 種不同數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,結(jié)果較BERT+微調(diào)模型性能有所提升。

然而,相較于斷句,對(duì)古籍文本進(jìn)行標(biāo)點(diǎn)面臨著更大困難。傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法大都基于監(jiān)督學(xué)習(xí)設(shè)計(jì),現(xiàn)代標(biāo)點(diǎn)符號(hào)的體系結(jié)構(gòu)并不能完全適用于古文。為此,本文將深層語(yǔ)言模型BERT 與BiLSTM+CRF 相結(jié)合用于古籍自動(dòng)標(biāo)點(diǎn),同時(shí)對(duì)文本數(shù)據(jù)進(jìn)行以段落分行為格式的預(yù)處理,與以標(biāo)點(diǎn)分行為格式的預(yù)處理方法相比,可使模型更好地學(xué)習(xí)古文的語(yǔ)義和上下文之間的聯(lián)系。然后將本文模型與BiLSTM+CRF、BERT+CNN、BERT+CRF、BERT+微調(diào)等已應(yīng)用于現(xiàn)代文處理和古文斷句的深度學(xué)習(xí)模型進(jìn)行性能比較。

2 用于文本處理的基本深度學(xué)習(xí)模型

2.1 BiLSTM 模型

傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型中,輸入的信息是沒(méi)有順序的,但在自然語(yǔ)言處理領(lǐng)域中經(jīng)常需要將詞匯映射成詞向量,然后輸入到神經(jīng)網(wǎng)絡(luò)。單詞不同的排列順序可能會(huì)導(dǎo)致語(yǔ)句意義的天差地別。為解決長(zhǎng)距離句子信息的捕獲問(wèn)題,Zaremba 等[13]提出了RNN 模型,但該模型會(huì)帶來(lái)梯度消失和梯度爆炸的問(wèn)題。為解決該問(wèn)題,Hochreiter等[14]提出長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型,該模型的整體邏輯與RNN 類似,都會(huì)經(jīng)過(guò)一個(gè)閉合的隱藏中間單元,但該模型引入了3 個(gè)門控單元解決梯度消失和爆炸問(wèn)題。LSTM 模型通過(guò)訓(xùn)練過(guò)程可以學(xué)到記憶哪些信息和遺忘哪些信息,因此可以很好地捕捉較長(zhǎng)距離的依賴關(guān)系,但其只能編碼從前到后的信息,并不能獲取當(dāng)前位置后面的信息。為解決這個(gè)問(wèn)題,Dyer等[15]在LSTM 模型的基礎(chǔ)上提出BiLSTM 模型,其由前向LSTM和后向LSTM 組合而成,在自然語(yǔ)言處理任務(wù)中常被用于建模上下文信息。該模型既能編碼從前向后的信息,也能編碼從后向前的信息,可以更好地捕捉雙向的語(yǔ)義依賴。

2.2 CRF模型

CRF 是自然語(yǔ)言處理領(lǐng)域中的基礎(chǔ)模型,廣泛應(yīng)用于分詞、命名實(shí)體識(shí)別和詞性標(biāo)注等場(chǎng)景。CRF 是一個(gè)無(wú)向概率圖模型,通過(guò)建立概率模型分割和標(biāo)記序列數(shù)據(jù)[16]。CRF 將條件模型的優(yōu)點(diǎn)與隨機(jī)場(chǎng)模型的全局歸一化相結(jié)合,可獲得全局最優(yōu)結(jié)果。由于全局訓(xùn)練比較復(fù)雜,該模型僅訓(xùn)練正確選擇相鄰標(biāo)簽情況下的單個(gè)標(biāo)簽決策,最大程度地減少了誤差。

2.3 BERT模型

2018 年,Devlin 等[17]提出基于Transformer 的預(yù)訓(xùn)練語(yǔ)言模型BERT。與傳統(tǒng)語(yǔ)言模型不同,BERT 模型不是使用從左到右或從右到左的語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,而是使用Taylor 等[18]提出的完型填空程序和下一句預(yù)測(cè)任務(wù)進(jìn)行預(yù)訓(xùn)練,通過(guò)這兩個(gè)任務(wù)可以分別捕捉到詞語(yǔ)和句子級(jí)別的表示,從而實(shí)現(xiàn)真正意義上的雙向。

BERT 模型結(jié)構(gòu)如圖1 所示[19]。模型輸入為文本,位于圖1 的第①部分。輸入文本后,需要對(duì)文本進(jìn)行向量表示,具體操作流程為圖1 的第②部分。模型的輸入向量(Input Embeddings,IE)除了從字向量表中查詢得到的字向量(Token Embeddings,TE)外,還加入了文本向量(Segment Embeddings,SE)和位置向量(Position Embeddings,PE)。SE 用于刻畫文本的全局語(yǔ)義信息,并且與字的語(yǔ)義信息相融合;PE 用于區(qū)分不同位置的字所攜帶的語(yǔ)義信息之間的差異。模型最終向量表示為:

輸入向量經(jīng)過(guò)12 層的Transformer Encoder 進(jìn)行學(xué)習(xí),即圖1 的第③部分。Transformer Encoder 的結(jié)構(gòu)位于圖1右側(cè),圖中Nx=6 表示由6 個(gè)相同的層組成,每層由一個(gè)多頭注意力機(jī)制(Multi-Head Attention)和層歸一化(Add &Norm)加上一個(gè)前饋網(wǎng)絡(luò)(Feed Forward)和層歸一化(Add&Norm)組合而成,且多頭注意力機(jī)制和前饋網(wǎng)絡(luò)均有各自的殘差網(wǎng)絡(luò)(Residual Connection)。多頭注意力機(jī)制是將注意力機(jī)制操作多遍,將每次經(jīng)過(guò)注意力機(jī)制學(xué)習(xí)得到的結(jié)果組合得到最終輸出。注意力機(jī)制有Query、Key 和Value 3 個(gè)向量表示,其中Query 向量由目標(biāo)字線性轉(zhuǎn)換得到,Key 向量由上下文各字線性轉(zhuǎn)換得到,Value 由目標(biāo)字和上下文各字的原始向量表示得到。注意力機(jī)制首先通過(guò)計(jì)算Query 和Key 的相似度作為權(quán)重,然后加權(quán)融合目標(biāo)字和上下文各字的Value 向量作為注意力機(jī)制的輸出。注意力機(jī)制可以區(qū)分輸入的不同部分對(duì)輸出的影響,多頭注意力機(jī)制有助于幫助網(wǎng)絡(luò)捕捉到更豐富的特征和信息。前饋網(wǎng)絡(luò)將經(jīng)過(guò)注意力機(jī)制層后輸出的多個(gè)向量分別輸入到一個(gè)全連接層中。殘差連接將輸入與輸出相加,可有效避免在反向傳播過(guò)程中梯度連乘導(dǎo)致的梯度消失問(wèn)題。層歸一化將輸入轉(zhuǎn)化為均值為0、方差為1 的數(shù)據(jù),以減少偏差,防止梯度消失和爆炸。最終,經(jīng)過(guò)12 層Transformer Encoder 的學(xué)習(xí)后可以得到模型的輸出向量,即圖1 的第④部分。輸出向量經(jīng)過(guò)損失函數(shù)和真值比較,將結(jié)果反饋給第③部分。

Fig.1 BERT model architecture圖1 BERT模型結(jié)構(gòu)

BERT 模型相較于傳統(tǒng)深度學(xué)習(xí)模型實(shí)現(xiàn)了從淺層雙向模型到深度雙向模型的突破性改變。傳統(tǒng)語(yǔ)言模型進(jìn)行訓(xùn)練時(shí)分別通過(guò)編碼前向和后向信息達(dá)到雙向,這種淺層連接效果遠(yuǎn)低于深度雙向模型。為使模型更好地學(xué)習(xí)前向和后向信息,BERT 模型提出了完型填空任務(wù)和下一句預(yù)測(cè)任務(wù),這兩項(xiàng)任務(wù)主要由12 層Transformer Encoder完成。在完型填空任務(wù)中,BERT 模型在向量表示部分會(huì)隨機(jī)遮蓋掉15%的字,然后根據(jù)上下文預(yù)測(cè)被遮蓋的字,被迫增加對(duì)上下文的記憶。為提高模型的遷移能力,BERT 模型會(huì)將80%被遮蓋的詞替換成[MASK]標(biāo)簽,10%用其他單詞隨機(jī)替換,10%保留原詞,使得模型在訓(xùn)練時(shí)需要關(guān)注到每個(gè)詞。為使模型能夠理解句子之間的聯(lián)系,BERT 模型增加了下一句預(yù)測(cè)任務(wù),使其具備抽象連續(xù)長(zhǎng)序列特征的能力,其中50%的數(shù)據(jù)存在先后關(guān)系,是真實(shí)的下一句;另外50%是從語(yǔ)料中隨機(jī)拼湊而來(lái),不具備先后關(guān)系,不是真正的下一句。同時(shí),BERT 模型可以在大量未標(biāo)記數(shù)據(jù)[20]上預(yù)先進(jìn)行訓(xùn)練,然后針對(duì)特定任務(wù)進(jìn)行微調(diào)得到最終結(jié)果。

3 數(shù)據(jù)預(yù)處理格式改進(jìn)

本文采用的文本數(shù)據(jù)均從網(wǎng)上下載而來(lái),不能直接使用,需要對(duì)其進(jìn)行清洗和預(yù)處理后才能送入BERT 模型。數(shù)據(jù)預(yù)處理是在數(shù)據(jù)轉(zhuǎn)化為輸入向量之前完成的,其不僅有利于模型訓(xùn)練和測(cè)試,還可以使其更好地學(xué)習(xí)古文的語(yǔ)義信息。

模型通常將每行數(shù)據(jù)作為一個(gè)單元進(jìn)行處理,一個(gè)處理單元包含的信息越多,模型獲得的信息也就越多。進(jìn)行斷句和標(biāo)點(diǎn)前需要對(duì)古文的每個(gè)字進(jìn)行分類。本文吸取前人經(jīng)驗(yàn),選擇較為簡(jiǎn)潔的二元標(biāo)簽組對(duì)數(shù)據(jù)集進(jìn)行標(biāo)記。二元標(biāo)簽組只能區(qū)分句子的開(kāi)頭和其他部分,開(kāi)頭用[B]標(biāo)簽標(biāo)記,其他部分用[I]標(biāo)簽標(biāo)記。現(xiàn)有古文標(biāo)點(diǎn)數(shù)據(jù)集中的標(biāo)點(diǎn)較為雜亂,包含很多特殊的標(biāo)點(diǎn)符號(hào),且數(shù)量較少,使得模型不易學(xué)習(xí)。為此,本文選取7 個(gè)常用標(biāo)點(diǎn)符號(hào)進(jìn)行學(xué)習(xí),其他符號(hào)省略。7 個(gè)常用標(biāo)點(diǎn)符號(hào)分別為逗號(hào)(,)、句號(hào)(。)、問(wèn)號(hào)(?)、感嘆號(hào)(!)、冒號(hào)(:)、分號(hào)(;)、頓號(hào)(、),對(duì)應(yīng)的標(biāo)點(diǎn)集為{(,),(。),(?),(!),(:),(;),(、)}。結(jié)合對(duì)開(kāi)頭和其他部分的標(biāo)記,標(biāo)點(diǎn)對(duì)應(yīng)的分類標(biāo)簽分別為{[B_,],[I_,],[B_。],[I_。],[B_?],[I_?],[B_!],[I_!],[B_:],[I_:],[B_;],[I_;],[B_、],[I_、]}。

用于古文信息處理的深度學(xué)習(xí)模型通常按照標(biāo)點(diǎn)符號(hào)分行進(jìn)行數(shù)據(jù)預(yù)處理,將該種方法以PreA 表示。如表1所示,PreA 只要遇到標(biāo)點(diǎn)便進(jìn)行分行,例如“已上五符,書投酒中,傾火穴傾符酒,咒曰:奔盧奔盧陀禹,念三徧”依據(jù)標(biāo)點(diǎn)符號(hào)可分成6 行,每行只有1 個(gè)標(biāo)點(diǎn)符號(hào)。此外,本文還設(shè)計(jì)了新的預(yù)處理方法,即按照段落分行,該種方法以PreB 表示。如表2 所示,“已上五符,書投酒中,傾火穴傾符酒,咒曰:奔盧奔盧陀禹,念三徧”依據(jù)段落進(jìn)行分行后只能處于一行,不能進(jìn)行換行。

PreA 使得模型每次只學(xué)習(xí)1 個(gè)標(biāo)點(diǎn)符號(hào)及其前面的文本,不能很好地學(xué)習(xí)上下文之間的關(guān)聯(lián),獲取到的文本語(yǔ)義和關(guān)聯(lián)信息較少。PreB 不僅使模型學(xué)習(xí)到上下文信息,還可獲得文本語(yǔ)義和一些關(guān)聯(lián)信息。

Table 1 Data preprocessing in the form of punctuation branch(PreA)表1 以標(biāo)點(diǎn)分行為格式的數(shù)據(jù)預(yù)處理(PreA)

Table 2 Data preprocessing in the format of paragraphs and branches(PreB)表2 以段落分行為格式的數(shù)據(jù)預(yù)處理(PreB)

4 基于深度學(xué)習(xí)模型的古文自動(dòng)標(biāo)點(diǎn)模型

本文進(jìn)行對(duì)比實(shí)驗(yàn)使用的5 種深度學(xué)習(xí)模型結(jié)構(gòu)如圖2 所示,其輸入均為文本,輸出均為向量。Dropout 機(jī)制能夠提高模型性能,有效防止過(guò)擬合,因此本文在所有模型中均添加了Dropout機(jī)制[21]。

BiLSTM+CRF 模型結(jié)構(gòu)如圖2 中①所示,其將輸入送入BiLSTM 層中,再將BiLSTM 的輸出送入CRF 層中,直接使用CRF 的損失函數(shù),從而找出最有可能的標(biāo)簽。BERT+微調(diào)模型結(jié)構(gòu)如圖2 中②所示,其將BERT 模型的輸出傳入一個(gè)全連接層得到每個(gè)標(biāo)點(diǎn)標(biāo)簽的可能性,然后送入Softmax 層,Softmax 層再將全連接層輸出的可能性全部映射到(0,1)區(qū)間上,使映射后的所有值累計(jì)和為1,最后選取映射后值最大的結(jié)點(diǎn),從而找到最有可能的標(biāo)點(diǎn)標(biāo)簽。BERT+CNN 模型結(jié)構(gòu)如圖2 中③所示,其引入CNN 模型,將BERT 的輸出直接送入到100 個(gè)寬度為3 的卷積核中進(jìn)行再次學(xué)習(xí),得到的輸出傳入全連接層得到每個(gè)標(biāo)點(diǎn)標(biāo)簽的可能性,再傳入Softmax 層,以找到最有可能的標(biāo)點(diǎn)標(biāo)簽。BERT+CRF 模型結(jié)構(gòu)如圖2 中④所示,其在BERT 中引入CRF 模型,將BERT 的輸出直接送入CRF 層中。該模型舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層,直接使用CRF 的損失函數(shù),從而找出最有可能的標(biāo)簽。CRF層能進(jìn)一步提高模型預(yù)測(cè)準(zhǔn)確率,學(xué)習(xí)標(biāo)點(diǎn)標(biāo)記之間的聯(lián)系,規(guī)范預(yù)測(cè)結(jié)果。本文模型BERT+BiLSTM+CRF 結(jié)構(gòu)如圖2 中⑤所示,其將BERT 的輸出直接送入BiLSTM 層,再將BiLSTM 的輸出送入CRF 層中。該模型亦舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層,直接使用CRF 的損失函數(shù),以找出最有可能的標(biāo)簽。BiLSTM 和CRF 層相結(jié)合能達(dá)到互補(bǔ)的效果,既能夠?qū)W習(xí)上下文之間的關(guān)聯(lián)信息,又可以學(xué)習(xí)標(biāo)點(diǎn)標(biāo)記之間的聯(lián)系。

Fig.2 Structure of automatic punctuation models for ancient Chinese based on deep learning圖2 基于深度學(xué)習(xí)模型的古文自動(dòng)標(biāo)點(diǎn)結(jié)構(gòu)

5 實(shí)驗(yàn)結(jié)果與分析

5.1 數(shù)據(jù)集

由于沒(méi)有開(kāi)源的處理好的古文標(biāo)點(diǎn)數(shù)據(jù)集,本文從殆知閣(http://www.daizhige.org/)下載古文,并進(jìn)行數(shù)據(jù)清洗和整理。殆知閣中包括易藏、儒藏、道藏、佛藏、子藏、史藏、詩(shī)藏、易藏和藝藏多個(gè)領(lǐng)域古文,但文本并沒(méi)有全部進(jìn)行斷句和標(biāo)點(diǎn),且不同類別文本的標(biāo)點(diǎn)效果也不同。本文采用標(biāo)點(diǎn)質(zhì)量較好的道藏作為訓(xùn)練集和測(cè)試集。為進(jìn)一步測(cè)試模型和預(yù)處理方法PreB 的性能,本文還選取了史藏的部分內(nèi)容作為測(cè)試集,史藏測(cè)試集的大小與道藏測(cè)試集類似。本文所有訓(xùn)練集和測(cè)試集均無(wú)重復(fù)內(nèi)容,所有測(cè)試集均未參與預(yù)訓(xùn)練任務(wù)。具體標(biāo)點(diǎn)訓(xùn)練集和測(cè)試集規(guī)模大小如表3所示。

Table 3 Punctuation training and test set size表3 標(biāo)點(diǎn)訓(xùn)練集與測(cè)試集規(guī)模

5.2 實(shí)驗(yàn)配置

硬件環(huán)境:64 位Ubuntu18.04 系統(tǒng),Intel Silver 4210@2.10GHz40 處理器,128GB內(nèi)存,GeForce RTX 2080 Ti 顯卡。軟件環(huán)境:Python3.6,TensorFlow1.14.0。

以BERT+微調(diào)模型作為基線模型,采用12 層Transformer 模型,hidden_size 設(shè)為768,num_attention_heads 設(shè)為12。按標(biāo)點(diǎn)分行的數(shù)據(jù)集最大序列長(zhǎng)度為64,按段落分行的數(shù)據(jù)集最大序列長(zhǎng)度為512。對(duì)于其他4 個(gè)模型,為了特征抽取,CNN 選取100 個(gè)寬度為3 的卷積核,CRF 層使用默認(rèn)設(shè)置,BiLSTM 使用的lstm_size 為768。

5.3 評(píng)價(jià)標(biāo)準(zhǔn)

使用準(zhǔn)確率(P)、召回率(R)和調(diào)和平均值F1 作為模型評(píng)價(jià)指標(biāo)。由于標(biāo)點(diǎn)標(biāo)簽有多個(gè),并且每個(gè)標(biāo)簽的學(xué)習(xí)結(jié)果不同,其中關(guān)于逗號(hào)(,)和句號(hào)(。)的數(shù)據(jù)集較多,學(xué)習(xí)效果優(yōu)于其他標(biāo)點(diǎn)符號(hào)。因此,考慮到標(biāo)點(diǎn)標(biāo)簽的不平衡性,采用微平均(micro)對(duì)模型進(jìn)行評(píng)價(jià),該指標(biāo)適用于數(shù)據(jù)分布不平衡的情況[11],具體評(píng)價(jià)公式為:

式中,TP為標(biāo)點(diǎn)標(biāo)簽預(yù)測(cè)正確的數(shù)量,F(xiàn)P為標(biāo)點(diǎn)標(biāo)簽預(yù)測(cè)錯(cuò)誤的數(shù)量,F(xiàn)N為標(biāo)點(diǎn)標(biāo)簽沒(méi)有被預(yù)測(cè)出的數(shù)量。

5.4 實(shí)驗(yàn)結(jié)果

標(biāo)點(diǎn)質(zhì)量較高的道藏?cái)?shù)據(jù)集按PreA 方法進(jìn)行數(shù)據(jù)預(yù)處理,將處理好的數(shù)據(jù)送入模型,得到的實(shí)驗(yàn)結(jié)果如表4所示。為測(cè)試模型的泛化能力,本文還選取了與道藏測(cè)試集大小相似的史藏?cái)?shù)據(jù)集,同樣按PreA 方法進(jìn)行測(cè)試,得到的實(shí)驗(yàn)結(jié)果如表5所示。

Table 4 Results of Taoist sutra dataset(preprocessing method:PreA)表4 道藏?cái)?shù)據(jù)集測(cè)試結(jié)果(預(yù)處理方法:PreA)

Table 5 Results of history sutra dataset(preprocessing method:PreA)表5 史藏?cái)?shù)據(jù)集測(cè)試結(jié)果(預(yù)處理方法:PreA)

由表4 可知,BERT+BiLSTM+CRF 模型在道藏測(cè)試集上的測(cè)試結(jié)果最優(yōu),F(xiàn)1 值達(dá)到77.46%;BiLSTM+CRF 模型在道藏測(cè)試集上的測(cè)試結(jié)果最差,F(xiàn)1 值僅為58.25%。可以看出,在BiLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠提高準(zhǔn)確率。由表5 可知,BERT+BiLSTM+CRF 模型在史藏測(cè)試集上的測(cè)試結(jié)果最優(yōu),F(xiàn)1 值達(dá)到63.95%;BiLSTM+CRF 模型在史藏測(cè)試集上的測(cè)試結(jié)果最差,F(xiàn)1 值僅為52.81%。可以看出,在BiLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠改善泛化能力。

此外,本文還嘗試采用PreB 方法進(jìn)行數(shù)據(jù)預(yù)處理,以期模型能夠更好地學(xué)習(xí)文本的語(yǔ)義信息。采用PreB 方法預(yù)處理標(biāo)點(diǎn)質(zhì)量較高的道藏?cái)?shù)據(jù)集,結(jié)果如表6 所示。為了進(jìn)一步考察按照PreB 方法進(jìn)行數(shù)據(jù)預(yù)處理后訓(xùn)練出的模型的泛化性,本文還選取了與道藏?cái)?shù)據(jù)集大小相似的史藏?cái)?shù)據(jù)集進(jìn)行測(cè)試,結(jié)果如表7所示。

由表6 可知,BERT+微調(diào)模型在道藏測(cè)試集上的測(cè)試結(jié)果最優(yōu),F(xiàn)1 值達(dá)到85.46%;BiLSTM+CRF 模型在道藏測(cè)試集上的測(cè)試結(jié)果最差,F(xiàn)1 值僅為77.97%。由表7 可知,BERT+CRF 模型在史藏測(cè)試集上的測(cè)試結(jié)果最優(yōu),F(xiàn)1 值達(dá)到78.56%;BiLSTM+CRF 模型在史藏測(cè)試集上的測(cè)試結(jié)果最差,F(xiàn)1 值僅為70.14%。對(duì)比表4 和表6 結(jié)果可以發(fā)現(xiàn),使用PreB 方法進(jìn)行數(shù)據(jù)預(yù)處理得到的結(jié)果優(yōu)于使用PreA方法的結(jié)果,最高F1 值提升了8%左右,說(shuō)明使用PreB 方式進(jìn)行數(shù)據(jù)預(yù)處理可使模型更好地學(xué)習(xí)文本信息及其內(nèi)在聯(lián)系。對(duì)比表5 和表7 結(jié)果可以發(fā)現(xiàn),使用PreB 方法進(jìn)行數(shù)據(jù)預(yù)處理后模型的泛化效果優(yōu)于使用PreA 方法,最高F1值提高了14%左右。

Table 6 Results of Taoist sutra dataset(preprocessing method:PreB)表6 道藏?cái)?shù)據(jù)集測(cè)試結(jié)果(預(yù)處理方法:PreB)

Table 7 Results of history sutra dataset(preprocessing method:PreB)表7 史藏?cái)?shù)據(jù)集測(cè)試結(jié)果(預(yù)處理方法:PreB)

5.5 案例應(yīng)用

從道藏?cái)?shù)據(jù)集中選取兩個(gè)標(biāo)點(diǎn)案例進(jìn)行預(yù)測(cè),預(yù)測(cè)文本與訓(xùn)練語(yǔ)料無(wú)任何關(guān)系。采用不同數(shù)據(jù)預(yù)處理方式訓(xùn)練得到的模型進(jìn)行標(biāo)點(diǎn),標(biāo)點(diǎn)標(biāo)錯(cuò)的位置采用▲標(biāo)記。案例1標(biāo)點(diǎn)結(jié)果如表8所示,案例2標(biāo)點(diǎn)結(jié)果如表9所示。

Table 8 Prediction results of Taoist sutra dataset punctuation case 1表8 道藏?cái)?shù)據(jù)集標(biāo)點(diǎn)案例1預(yù)測(cè)結(jié)果

Table 9 Prediction results of Taoist sutra dataset punctuation case 2表9 道藏?cái)?shù)據(jù)集標(biāo)點(diǎn)案例2預(yù)測(cè)結(jié)果

由表8 可知,使用PreB 方法進(jìn)行訓(xùn)練和預(yù)測(cè)的結(jié)果優(yōu)于PreA。由表9 可知,相較于BERT+CNN、BERT+CRF 和BERT+BiLSTM+CRF 模型,BERT+微調(diào)模型對(duì)于數(shù)據(jù)量較少的標(biāo)點(diǎn)符號(hào)預(yù)測(cè)效果較差,例如頓號(hào)(、)。然而,BERT+BiLSTM+CRF 模型在長(zhǎng)文本數(shù)據(jù)的學(xué)習(xí)上相較于BERT+微調(diào)模型并沒(méi)有表現(xiàn)出更好的效果,反而會(huì)影響數(shù)據(jù)量較多的標(biāo)點(diǎn)符號(hào)學(xué)習(xí)。在日常生活中需要使用到很多標(biāo)點(diǎn),有些不經(jīng)常被使用,數(shù)據(jù)量較少。后續(xù)如果引入更多類型的標(biāo)點(diǎn)符號(hào),BERT+BiLSTM+CRF 模型可能會(huì)取得更好的標(biāo)記效果。

6 結(jié)語(yǔ)

本文在BERT 模型的基礎(chǔ)上加入BiLSTM+CRF 模型學(xué)習(xí)古籍文本語(yǔ)義信息與標(biāo)點(diǎn)標(biāo)簽的規(guī)范信息,同時(shí)提出按段落分行的數(shù)據(jù)預(yù)處理方法,使得一個(gè)數(shù)據(jù)處理單元能包含更多信息,模型能夠更好地學(xué)習(xí)到文本的語(yǔ)義和上下文關(guān)聯(lián)等信息。雖然使用按段落分行的數(shù)據(jù)預(yù)處理方法會(huì)使BERT+BiLSTM+CRF 模型的訓(xùn)練結(jié)果略遜于BERT+微調(diào)模型,但通過(guò)應(yīng)用案例可以發(fā)現(xiàn),在一些標(biāo)簽數(shù)量較少的標(biāo)點(diǎn)符號(hào)中,BERT+BiLSTM+CRF 模型的學(xué)習(xí)效果更好。后續(xù)可進(jìn)一步增加古文常用的標(biāo)點(diǎn)標(biāo)簽數(shù)量,以驗(yàn)證BERT+BiLSTM+CRF 模型的性能。同時(shí),也可以進(jìn)一步增加標(biāo)點(diǎn)質(zhì)量較差的數(shù)據(jù)集,以提高模型的泛化性能。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 色悠久久综合| 国产精品自在在线午夜区app| 色国产视频| 久热re国产手机在线观看| 国产精品天干天干在线观看| 亚洲无码不卡网| V一区无码内射国产| 色窝窝免费一区二区三区| 精品无码一区二区三区电影| 国产精品人人做人人爽人人添| 国产黑丝一区| 国产人人干| 国产成人欧美| 久久久久无码精品| 亚洲国产第一区二区香蕉| 午夜人性色福利无码视频在线观看| 天堂在线www网亚洲| 538国产视频| 99色亚洲国产精品11p| 国产经典免费播放视频| 九九九久久国产精品| 欧美一级高清视频在线播放| 免费一级大毛片a一观看不卡| 狠狠色噜噜狠狠狠狠奇米777 | www.av男人.com| 九九热这里只有国产精品| 911亚洲精品| 美女被躁出白浆视频播放| 97视频在线精品国自产拍| 欧美爱爱网| 五月婷婷亚洲综合| 亚国产欧美在线人成| 亚洲成人高清无码| 亚洲天堂视频在线观看免费| 999精品色在线观看| 一级毛片无毒不卡直接观看| 不卡视频国产| 国产精品视频a| 国产午夜精品一区二区三| 四虎综合网| 丝袜高跟美脚国产1区| 日本免费福利视频| 亚洲乱强伦| 国产1区2区在线观看| 麻豆精品在线视频| 国产精品福利导航| 亚洲AⅤ无码国产精品| 99在线观看视频免费| 色偷偷综合网| 国产精品19p| 国产午夜无码片在线观看网站 | 欧美在线精品怡红院| 玩两个丰满老熟女久久网| 在线五月婷婷| 国产一区二区视频在线| 欧美三級片黃色三級片黃色1| 性喷潮久久久久久久久| 国产精品丝袜视频| 久久综合丝袜长腿丝袜| 国产视频一区二区在线观看| 欧美日韩另类国产| 久久人搡人人玩人妻精品一| 91无码人妻精品一区二区蜜桃| 亚洲制服丝袜第一页| 午夜视频在线观看区二区| 国产精品刺激对白在线| 国产乱肥老妇精品视频| 日韩无码黄色| 免费无遮挡AV| 中日韩一区二区三区中文免费视频| 久久成人18免费| 久久精品国产一区二区小说| 色爽网免费视频| 中国国产高清免费AV片| 青青久在线视频免费观看| 一级毛片不卡片免费观看| 日本成人不卡视频| 国产精品欧美激情| 亚洲天堂色色人体| 欧美天堂在线| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美怡红院视频一区二区三区|