基于BERT+BiLSTM+CRF模型與新預(yù)處理方法的古籍自動標(biāo)點

2022-09-22 05:59:38王瑤，顧磊

軟件導(dǎo)刊 2022年9期

關(guān)鍵詞：文本模型

王瑤，顧磊

（南京郵電大學(xué)計算機學(xué)院軟件學(xué)院網(wǎng)絡(luò)空間安全學(xué)院，江蘇南京 210023）

0 引言

中華文明源遠流長，流傳下很多古籍文本，涵蓋了政治、歷史、哲學(xué)、文學(xué)、醫(yī)學(xué)等多方面內(nèi)容。通過對古籍文本進行整理和學(xué)習(xí)，現(xiàn)代人能夠了解并學(xué)習(xí)古人的智慧，更加準(zhǔn)確地認識歷史。中文古籍文本一般不添加標(biāo)點符號［1］。韓愈在《師說》中云：“彼童子之師，授之書而習(xí)其句讀者?！北闶钦f古代孩子不僅要學(xué)習(xí)字詞，還要學(xué)習(xí)斷句?，F(xiàn)代人習(xí)慣在寫作過程中加入標(biāo)點符號幫助理解語義，在閱讀古籍文本時便會遇到諸多困難。因此，對古籍文本進行斷句和標(biāo)點是人們學(xué)習(xí)和理解歷史文化的基礎(chǔ)環(huán)節(jié)［2］。

1 相關(guān)研究

傳統(tǒng)的古文斷句和標(biāo)點方法主要分為基于規(guī)則的方法和基于統(tǒng)計的方法兩種。例如，黃建年等［3］采用基于規(guī)則的方法對農(nóng)業(yè)古籍文本進行斷句和標(biāo)點，但需要語言專家針對目標(biāo)文本制定復(fù)雜的規(guī)則，不僅耗費大量人力物力，還需要不斷修改和完善規(guī)則，且僅適用于目標(biāo)文本，移植性很差。基于規(guī)則的方法存在較多不足，研究人員開始嘗試采用基于統(tǒng)計的方法進行古文斷句和標(biāo)點。例如，陳天瑩等［4］提出古文句子切分算法，通過n-gram 提取上下文信息；黃瀚萱［5］采用字標(biāo)注的形式，通過條件隨機場模型（Conditional Random Field，CRF）進行古文斷句，性能優(yōu)于隱馬爾可夫模型（Hidden Markov Model，HMM）模型；張開旭等［6］將古文斷句問題看作是一個序列標(biāo)注問題，將CRF模型應(yīng)用于古文自動斷句和標(biāo)點任務(wù)中；Huang 等［7］將雙向長短時記憶網(wǎng)絡(luò)（Bi-directional Long-Short Term Memory，BiLSTM）+CRF 模型應(yīng)用于自然語言處理的基準(zhǔn)序列標(biāo)記數(shù)據(jù)集工作中，發(fā)現(xiàn)該模型可有效利用上下文內(nèi)容。然而，這些模型對連續(xù)文本的內(nèi)在聯(lián)系和語境信息學(xué)習(xí)并不充分，雖然提高了自動斷句和標(biāo)點性能，但離實際應(yīng)用還有很大距離。

隨著自然語言處理技術(shù)的發(fā)展，研究人員嘗試將基于深度學(xué)習(xí)的方法應(yīng)用于古籍文本的處理中，主要應(yīng)用在斷句方面。例如，Wang 等［8］采用神經(jīng)網(wǎng)絡(luò)語言模型（Neural Network Language Model，NNLM）進行古文斷句實驗，得到了與CRF 模型相媲美的性能；王博立等［9］采用基于GRU（Gated Recurrent unit）的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）進行古文斷句，取得比傳統(tǒng)方法更高的F1 值；HAN 等［10］提出一種基于字根嵌入的BiLSTM+CRF 模型進行古文自動斷句，該模型可更好地學(xué)習(xí)連續(xù)文本的內(nèi)在聯(lián)系和語境信息；俞敬松等［11］將深層語言模型BERT（Bidirectional Encoder Representation from Transformers）用于古文斷句，采用二元標(biāo)記法在大規(guī)模語料庫上進行訓(xùn)練，整體斷句正確率達90%左右；胡韌奮等［12］在BERT 模型的基礎(chǔ)上加入卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）模型和CRF 模型進行斷句，分別在詩、詞和古文3 種不同數(shù)據(jù)集上進行訓(xùn)練和測試，結(jié)果較BERT+微調(diào)模型性能有所提升。

然而，相較于斷句，對古籍文本進行標(biāo)點面臨著更大困難。傳統(tǒng)的機器學(xué)習(xí)和深度學(xué)習(xí)方法大都基于監(jiān)督學(xué)習(xí)設(shè)計，現(xiàn)代標(biāo)點符號的體系結(jié)構(gòu)并不能完全適用于古文。為此，本文將深層語言模型BERT 與BiLSTM+CRF 相結(jié)合用于古籍自動標(biāo)點，同時對文本數(shù)據(jù)進行以段落分行為格式的預(yù)處理，與以標(biāo)點分行為格式的預(yù)處理方法相比，可使模型更好地學(xué)習(xí)古文的語義和上下文之間的聯(lián)系。然后將本文模型與BiLSTM+CRF、BERT+CNN、BERT+CRF、BERT+微調(diào)等已應(yīng)用于現(xiàn)代文處理和古文斷句的深度學(xué)習(xí)模型進行性能比較。

2 用于文本處理的基本深度學(xué)習(xí)模型

2.1 BiLSTM 模型

傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型中，輸入的信息是沒有順序的，但在自然語言處理領(lǐng)域中經(jīng)常需要將詞匯映射成詞向量，然后輸入到神經(jīng)網(wǎng)絡(luò)。單詞不同的排列順序可能會導(dǎo)致語句意義的天差地別。為解決長距離句子信息的捕獲問題，Zaremba 等［13］提出了RNN 模型，但該模型會帶來梯度消失和梯度爆炸的問題。為解決該問題，Hochreiter等［14］提出長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）模型，該模型的整體邏輯與RNN 類似，都會經(jīng)過一個閉合的隱藏中間單元，但該模型引入了3 個門控單元解決梯度消失和爆炸問題。LSTM 模型通過訓(xùn)練過程可以學(xué)到記憶哪些信息和遺忘哪些信息，因此可以很好地捕捉較長距離的依賴關(guān)系，但其只能編碼從前到后的信息，并不能獲取當(dāng)前位置后面的信息。為解決這個問題，Dyer等［15］在LSTM 模型的基礎(chǔ)上提出BiLSTM 模型，其由前向LSTM和后向LSTM 組合而成，在自然語言處理任務(wù)中常被用于建模上下文信息。該模型既能編碼從前向后的信息，也能編碼從后向前的信息，可以更好地捕捉雙向的語義依賴。

2.2 CRF模型

CRF 是自然語言處理領(lǐng)域中的基礎(chǔ)模型，廣泛應(yīng)用于分詞、命名實體識別和詞性標(biāo)注等場景。CRF 是一個無向概率圖模型，通過建立概率模型分割和標(biāo)記序列數(shù)據(jù)［16］。CRF 將條件模型的優(yōu)點與隨機場模型的全局歸一化相結(jié)合，可獲得全局最優(yōu)結(jié)果。由于全局訓(xùn)練比較復(fù)雜，該模型僅訓(xùn)練正確選擇相鄰標(biāo)簽情況下的單個標(biāo)簽決策，最大程度地減少了誤差。

2.3 BERT模型

2018 年，Devlin 等［17］提出基于Transformer 的預(yù)訓(xùn)練語言模型BERT。與傳統(tǒng)語言模型不同，BERT 模型不是使用從左到右或從右到左的語言模型進行預(yù)訓(xùn)練，而是使用Taylor 等［18］提出的完型填空程序和下一句預(yù)測任務(wù)進行預(yù)訓(xùn)練，通過這兩個任務(wù)可以分別捕捉到詞語和句子級別的表示，從而實現(xiàn)真正意義上的雙向。

BERT 模型結(jié)構(gòu)如圖1 所示［19］。模型輸入為文本，位于圖1 的第①部分。輸入文本后，需要對文本進行向量表示，具體操作流程為圖1 的第②部分。模型的輸入向量（Input Embeddings，IE）除了從字向量表中查詢得到的字向量（Token Embeddings，TE）外，還加入了文本向量（Segment Embeddings，SE）和位置向量（Position Embeddings，PE）。SE 用于刻畫文本的全局語義信息，并且與字的語義信息相融合；PE 用于區(qū)分不同位置的字所攜帶的語義信息之間的差異。模型最終向量表示為：

輸入向量經(jīng)過12 層的Transformer Encoder 進行學(xué)習(xí)，即圖1 的第③部分。Transformer Encoder 的結(jié)構(gòu)位于圖1右側(cè)，圖中Nx=6 表示由6 個相同的層組成，每層由一個多頭注意力機制（Multi-Head Attention）和層歸一化（Add &Norm）加上一個前饋網(wǎng)絡(luò)（Feed Forward）和層歸一化（Add&Norm）組合而成，且多頭注意力機制和前饋網(wǎng)絡(luò)均有各自的殘差網(wǎng)絡(luò)（Residual Connection）。多頭注意力機制是將注意力機制操作多遍，將每次經(jīng)過注意力機制學(xué)習(xí)得到的結(jié)果組合得到最終輸出。注意力機制有Query、Key 和Value 3 個向量表示，其中Query 向量由目標(biāo)字線性轉(zhuǎn)換得到，Key 向量由上下文各字線性轉(zhuǎn)換得到，Value 由目標(biāo)字和上下文各字的原始向量表示得到。注意力機制首先通過計算Query 和Key 的相似度作為權(quán)重，然后加權(quán)融合目標(biāo)字和上下文各字的Value 向量作為注意力機制的輸出。注意力機制可以區(qū)分輸入的不同部分對輸出的影響，多頭注意力機制有助于幫助網(wǎng)絡(luò)捕捉到更豐富的特征和信息。前饋網(wǎng)絡(luò)將經(jīng)過注意力機制層后輸出的多個向量分別輸入到一個全連接層中。殘差連接將輸入與輸出相加，可有效避免在反向傳播過程中梯度連乘導(dǎo)致的梯度消失問題。層歸一化將輸入轉(zhuǎn)化為均值為0、方差為1 的數(shù)據(jù)，以減少偏差，防止梯度消失和爆炸。最終，經(jīng)過12 層Transformer Encoder 的學(xué)習(xí)后可以得到模型的輸出向量，即圖1 的第④部分。輸出向量經(jīng)過損失函數(shù)和真值比較，將結(jié)果反饋給第③部分。

Fig.1 BERT model architecture圖1 BERT模型結(jié)構(gòu)

BERT 模型相較于傳統(tǒng)深度學(xué)習(xí)模型實現(xiàn)了從淺層雙向模型到深度雙向模型的突破性改變。傳統(tǒng)語言模型進行訓(xùn)練時分別通過編碼前向和后向信息達到雙向，這種淺層連接效果遠低于深度雙向模型。為使模型更好地學(xué)習(xí)前向和后向信息，BERT 模型提出了完型填空任務(wù)和下一句預(yù)測任務(wù)，這兩項任務(wù)主要由12 層Transformer Encoder完成。在完型填空任務(wù)中，BERT 模型在向量表示部分會隨機遮蓋掉15%的字，然后根據(jù)上下文預(yù)測被遮蓋的字，被迫增加對上下文的記憶。為提高模型的遷移能力，BERT 模型會將80%被遮蓋的詞替換成［MASK］標(biāo)簽，10%用其他單詞隨機替換，10%保留原詞，使得模型在訓(xùn)練時需要關(guān)注到每個詞。為使模型能夠理解句子之間的聯(lián)系，BERT 模型增加了下一句預(yù)測任務(wù)，使其具備抽象連續(xù)長序列特征的能力，其中50%的數(shù)據(jù)存在先后關(guān)系，是真實的下一句；另外50%是從語料中隨機拼湊而來，不具備先后關(guān)系，不是真正的下一句。同時，BERT 模型可以在大量未標(biāo)記數(shù)據(jù)［20］上預(yù)先進行訓(xùn)練，然后針對特定任務(wù)進行微調(diào)得到最終結(jié)果。

3 數(shù)據(jù)預(yù)處理格式改進

本文采用的文本數(shù)據(jù)均從網(wǎng)上下載而來，不能直接使用，需要對其進行清洗和預(yù)處理后才能送入BERT 模型。數(shù)據(jù)預(yù)處理是在數(shù)據(jù)轉(zhuǎn)化為輸入向量之前完成的，其不僅有利于模型訓(xùn)練和測試，還可以使其更好地學(xué)習(xí)古文的語義信息。

模型通常將每行數(shù)據(jù)作為一個單元進行處理，一個處理單元包含的信息越多，模型獲得的信息也就越多。進行斷句和標(biāo)點前需要對古文的每個字進行分類。本文吸取前人經(jīng)驗，選擇較為簡潔的二元標(biāo)簽組對數(shù)據(jù)集進行標(biāo)記。二元標(biāo)簽組只能區(qū)分句子的開頭和其他部分，開頭用［B］標(biāo)簽標(biāo)記，其他部分用［I］標(biāo)簽標(biāo)記。現(xiàn)有古文標(biāo)點數(shù)據(jù)集中的標(biāo)點較為雜亂，包含很多特殊的標(biāo)點符號，且數(shù)量較少，使得模型不易學(xué)習(xí)。為此，本文選取7 個常用標(biāo)點符號進行學(xué)習(xí)，其他符號省略。7 個常用標(biāo)點符號分別為逗號（，）、句號（。）、問號（？）、感嘆號（?。⒚疤枺ǎ海⒎痔枺?；）、頓號（、），對應(yīng)的標(biāo)點集為｛（，），（。），（？），（?。?，（：），（；），（、）｝。結(jié)合對開頭和其他部分的標(biāo)記，標(biāo)點對應(yīng)的分類標(biāo)簽分別為｛［B_，］，［I_，］，［B_。］，［I_。］，［B_？］，［I_？］，［B_?。荩跧_?。荩跙_：］，［I_：］，［B_；］，［I_；］，［B_、］，［I_、］｝。

用于古文信息處理的深度學(xué)習(xí)模型通常按照標(biāo)點符號分行進行數(shù)據(jù)預(yù)處理，將該種方法以PreA 表示。如表1所示，PreA 只要遇到標(biāo)點便進行分行，例如“已上五符，書投酒中，傾火穴傾符酒，咒曰：奔盧奔盧陀禹，念三徧”依據(jù)標(biāo)點符號可分成6 行，每行只有1 個標(biāo)點符號。此外，本文還設(shè)計了新的預(yù)處理方法，即按照段落分行，該種方法以PreB 表示。如表2 所示，“已上五符，書投酒中，傾火穴傾符酒，咒曰：奔盧奔盧陀禹，念三徧”依據(jù)段落進行分行后只能處于一行，不能進行換行。

PreA 使得模型每次只學(xué)習(xí)1 個標(biāo)點符號及其前面的文本，不能很好地學(xué)習(xí)上下文之間的關(guān)聯(lián)，獲取到的文本語義和關(guān)聯(lián)信息較少。PreB 不僅使模型學(xué)習(xí)到上下文信息，還可獲得文本語義和一些關(guān)聯(lián)信息。

Table 1 Data preprocessing in the form of punctuation branch（PreA）表1 以標(biāo)點分行為格式的數(shù)據(jù)預(yù)處理（PreA）

Table 2 Data preprocessing in the format of paragraphs and branches（PreB）表2 以段落分行為格式的數(shù)據(jù)預(yù)處理（PreB）

4 基于深度學(xué)習(xí)模型的古文自動標(biāo)點模型

本文進行對比實驗使用的5 種深度學(xué)習(xí)模型結(jié)構(gòu)如圖2 所示，其輸入均為文本，輸出均為向量。Dropout 機制能夠提高模型性能，有效防止過擬合，因此本文在所有模型中均添加了Dropout機制［21］。

BiLSTM+CRF 模型結(jié)構(gòu)如圖2 中①所示，其將輸入送入BiLSTM 層中，再將BiLSTM 的輸出送入CRF 層中，直接使用CRF 的損失函數(shù)，從而找出最有可能的標(biāo)簽。BERT+微調(diào)模型結(jié)構(gòu)如圖2 中②所示，其將BERT 模型的輸出傳入一個全連接層得到每個標(biāo)點標(biāo)簽的可能性，然后送入Softmax 層，Softmax 層再將全連接層輸出的可能性全部映射到（0，1）區(qū)間上，使映射后的所有值累計和為1，最后選取映射后值最大的結(jié)點，從而找到最有可能的標(biāo)點標(biāo)簽。BERT+CNN 模型結(jié)構(gòu)如圖2 中③所示，其引入CNN 模型，將BERT 的輸出直接送入到100 個寬度為3 的卷積核中進行再次學(xué)習(xí)，得到的輸出傳入全連接層得到每個標(biāo)點標(biāo)簽的可能性，再傳入Softmax 層，以找到最有可能的標(biāo)點標(biāo)簽。BERT+CRF 模型結(jié)構(gòu)如圖2 中④所示，其在BERT 中引入CRF 模型，將BERT 的輸出直接送入CRF 層中。該模型舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層，直接使用CRF 的損失函數(shù)，從而找出最有可能的標(biāo)簽。CRF層能進一步提高模型預(yù)測準(zhǔn)確率，學(xué)習(xí)標(biāo)點標(biāo)記之間的聯(lián)系，規(guī)范預(yù)測結(jié)果。本文模型BERT+BiLSTM+CRF 結(jié)構(gòu)如圖2 中⑤所示，其將BERT 的輸出直接送入BiLSTM 層，再將BiLSTM 的輸出送入CRF 層中。該模型亦舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層，直接使用CRF 的損失函數(shù)，以找出最有可能的標(biāo)簽。BiLSTM 和CRF 層相結(jié)合能達到互補的效果，既能夠?qū)W習(xí)上下文之間的關(guān)聯(lián)信息，又可以學(xué)習(xí)標(biāo)點標(biāo)記之間的聯(lián)系。

Fig.2 Structure of automatic punctuation models for ancient Chinese based on deep learning圖2 基于深度學(xué)習(xí)模型的古文自動標(biāo)點結(jié)構(gòu)

5 實驗結(jié)果與分析

5.1 數(shù)據(jù)集

由于沒有開源的處理好的古文標(biāo)點數(shù)據(jù)集，本文從殆知閣（http：//www.daizhige.org/）下載古文，并進行數(shù)據(jù)清洗和整理。殆知閣中包括易藏、儒藏、道藏、佛藏、子藏、史藏、詩藏、易藏和藝藏多個領(lǐng)域古文，但文本并沒有全部進行斷句和標(biāo)點，且不同類別文本的標(biāo)點效果也不同。本文采用標(biāo)點質(zhì)量較好的道藏作為訓(xùn)練集和測試集。為進一步測試模型和預(yù)處理方法PreB 的性能，本文還選取了史藏的部分內(nèi)容作為測試集，史藏測試集的大小與道藏測試集類似。本文所有訓(xùn)練集和測試集均無重復(fù)內(nèi)容，所有測試集均未參與預(yù)訓(xùn)練任務(wù)。具體標(biāo)點訓(xùn)練集和測試集規(guī)模大小如表3所示。

Table 3 Punctuation training and test set size表3 標(biāo)點訓(xùn)練集與測試集規(guī)模

5.2 實驗配置

硬件環(huán)境：64 位Ubuntu18.04 系統(tǒng)，Intel Silver 4210@2.10GHz40 處理器，128GB內(nèi)存，GeForce RTX 2080 Ti 顯卡。軟件環(huán)境：Python3.6，TensorFlow1.14.0。

以BERT+微調(diào)模型作為基線模型，采用12 層Transformer 模型，hidden_size 設(shè)為768，num_attention_heads 設(shè)為12。按標(biāo)點分行的數(shù)據(jù)集最大序列長度為64，按段落分行的數(shù)據(jù)集最大序列長度為512。對于其他4 個模型，為了特征抽取，CNN 選取100 個寬度為3 的卷積核，CRF 層使用默認設(shè)置，BiLSTM 使用的lstm_size 為768。

5.3 評價標(biāo)準(zhǔn)

使用準(zhǔn)確率（P）、召回率（R）和調(diào)和平均值F1 作為模型評價指標(biāo)。由于標(biāo)點標(biāo)簽有多個，并且每個標(biāo)簽的學(xué)習(xí)結(jié)果不同，其中關(guān)于逗號（，）和句號（。）的數(shù)據(jù)集較多，學(xué)習(xí)效果優(yōu)于其他標(biāo)點符號。因此，考慮到標(biāo)點標(biāo)簽的不平衡性，采用微平均（micro）對模型進行評價，該指標(biāo)適用于數(shù)據(jù)分布不平衡的情況［11］，具體評價公式為：

式中，TP為標(biāo)點標(biāo)簽預(yù)測正確的數(shù)量，F(xiàn)P為標(biāo)點標(biāo)簽預(yù)測錯誤的數(shù)量，F(xiàn)N為標(biāo)點標(biāo)簽沒有被預(yù)測出的數(shù)量。

5.4 實驗結(jié)果

標(biāo)點質(zhì)量較高的道藏數(shù)據(jù)集按PreA 方法進行數(shù)據(jù)預(yù)處理，將處理好的數(shù)據(jù)送入模型，得到的實驗結(jié)果如表4所示。為測試模型的泛化能力，本文還選取了與道藏測試集大小相似的史藏數(shù)據(jù)集，同樣按PreA 方法進行測試，得到的實驗結(jié)果如表5所示。

Table 4 Results of Taoist sutra dataset（preprocessing method：PreA）表4 道藏數(shù)據(jù)集測試結(jié)果（預(yù)處理方法：PreA）

Table 5 Results of history sutra dataset（preprocessing method：PreA）表5 史藏數(shù)據(jù)集測試結(jié)果（預(yù)處理方法：PreA）

由表4 可知，BERT+BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最優(yōu)，F(xiàn)1 值達到77.46%；BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最差，F(xiàn)1 值僅為58.25%?？梢钥闯?，在BiLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠提高準(zhǔn)確率。由表5 可知，BERT+BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最優(yōu)，F(xiàn)1 值達到63.95%；BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最差，F(xiàn)1 值僅為52.81%?？梢钥闯?，在BiLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠改善泛化能力。

此外，本文還嘗試采用PreB 方法進行數(shù)據(jù)預(yù)處理，以期模型能夠更好地學(xué)習(xí)文本的語義信息。采用PreB 方法預(yù)處理標(biāo)點質(zhì)量較高的道藏數(shù)據(jù)集，結(jié)果如表6 所示。為了進一步考察按照PreB 方法進行數(shù)據(jù)預(yù)處理后訓(xùn)練出的模型的泛化性，本文還選取了與道藏數(shù)據(jù)集大小相似的史藏數(shù)據(jù)集進行測試，結(jié)果如表7所示。

由表6 可知，BERT+微調(diào)模型在道藏測試集上的測試結(jié)果最優(yōu)，F(xiàn)1 值達到85.46%；BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最差，F(xiàn)1 值僅為77.97%。由表7 可知，BERT+CRF 模型在史藏測試集上的測試結(jié)果最優(yōu)，F(xiàn)1 值達到78.56%；BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最差，F(xiàn)1 值僅為70.14%。對比表4 和表6 結(jié)果可以發(fā)現(xiàn)，使用PreB 方法進行數(shù)據(jù)預(yù)處理得到的結(jié)果優(yōu)于使用PreA方法的結(jié)果，最高F1 值提升了8%左右，說明使用PreB 方式進行數(shù)據(jù)預(yù)處理可使模型更好地學(xué)習(xí)文本信息及其內(nèi)在聯(lián)系。對比表5 和表7 結(jié)果可以發(fā)現(xiàn)，使用PreB 方法進行數(shù)據(jù)預(yù)處理后模型的泛化效果優(yōu)于使用PreA 方法，最高F1值提高了14%左右。

Table 6 Results of Taoist sutra dataset（preprocessing method：PreB）表6 道藏數(shù)據(jù)集測試結(jié)果（預(yù)處理方法：PreB）

Table 7 Results of history sutra dataset（preprocessing method：PreB）表7 史藏數(shù)據(jù)集測試結(jié)果（預(yù)處理方法：PreB）

5.5 案例應(yīng)用

從道藏數(shù)據(jù)集中選取兩個標(biāo)點案例進行預(yù)測，預(yù)測文本與訓(xùn)練語料無任何關(guān)系。采用不同數(shù)據(jù)預(yù)處理方式訓(xùn)練得到的模型進行標(biāo)點，標(biāo)點標(biāo)錯的位置采用▲標(biāo)記。案例1標(biāo)點結(jié)果如表8所示，案例2標(biāo)點結(jié)果如表9所示。

Table 8 Prediction results of Taoist sutra dataset punctuation case 1表8 道藏數(shù)據(jù)集標(biāo)點案例1預(yù)測結(jié)果

Table 9 Prediction results of Taoist sutra dataset punctuation case 2表9 道藏數(shù)據(jù)集標(biāo)點案例2預(yù)測結(jié)果

由表8 可知，使用PreB 方法進行訓(xùn)練和預(yù)測的結(jié)果優(yōu)于PreA。由表9 可知，相較于BERT+CNN、BERT+CRF 和BERT+BiLSTM+CRF 模型，BERT+微調(diào)模型對于數(shù)據(jù)量較少的標(biāo)點符號預(yù)測效果較差，例如頓號（、）。然而，BERT+BiLSTM+CRF 模型在長文本數(shù)據(jù)的學(xué)習(xí)上相較于BERT+微調(diào)模型并沒有表現(xiàn)出更好的效果，反而會影響數(shù)據(jù)量較多的標(biāo)點符號學(xué)習(xí)。在日常生活中需要使用到很多標(biāo)點，有些不經(jīng)常被使用，數(shù)據(jù)量較少。后續(xù)如果引入更多類型的標(biāo)點符號，BERT+BiLSTM+CRF 模型可能會取得更好的標(biāo)記效果。

6 結(jié)語

本文在BERT 模型的基礎(chǔ)上加入BiLSTM+CRF 模型學(xué)習(xí)古籍文本語義信息與標(biāo)點標(biāo)簽的規(guī)范信息，同時提出按段落分行的數(shù)據(jù)預(yù)處理方法，使得一個數(shù)據(jù)處理單元能包含更多信息，模型能夠更好地學(xué)習(xí)到文本的語義和上下文關(guān)聯(lián)等信息。雖然使用按段落分行的數(shù)據(jù)預(yù)處理方法會使BERT+BiLSTM+CRF 模型的訓(xùn)練結(jié)果略遜于BERT+微調(diào)模型，但通過應(yīng)用案例可以發(fā)現(xiàn)，在一些標(biāo)簽數(shù)量較少的標(biāo)點符號中，BERT+BiLSTM+CRF 模型的學(xué)習(xí)效果更好。后續(xù)可進一步增加古文常用的標(biāo)點標(biāo)簽數(shù)量，以驗證BERT+BiLSTM+CRF 模型的性能。同時，也可以進一步增加標(biāo)點質(zhì)量較差的數(shù)據(jù)集，以提高模型的泛化性能。