基于Soft-Masked BERT的新聞文本糾錯(cuò)研究

2022-05-30 04:29:44史健婷吳林皓張英濤

計(jì)算機(jī)技術(shù)與發(fā)展 2022年5期

關(guān)鍵詞：文本模型

史健婷，吳林皓，張英濤，常亮

(1.黑龍江科技大學(xué)，黑龍江哈爾濱 150022;2.哈爾濱工業(yè)大學(xué)，黑龍江哈爾濱 150000)

1 研究背景

當(dāng)今的時(shí)代是一個(gè)信息爆炸的時(shí)代，在社交網(wǎng)絡(luò)、智能互聯(lián)設(shè)備等的共同推動(dòng)作用下，網(wǎng)絡(luò)數(shù)據(jù)以指數(shù)倍增長(zhǎng)。據(jù)不完全統(tǒng)計(jì)，2014年，互聯(lián)網(wǎng)用戶達(dá)24億。2016年，用戶量增長(zhǎng)到34億，2017年用戶量達(dá)37億。截至2019年6月，已有超過(guò)44億互聯(lián)網(wǎng)用戶。在短短五年內(nèi)，互聯(lián)網(wǎng)用戶增加了83%，每個(gè)用戶每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù)，互聯(lián)網(wǎng)個(gè)體用戶已然成為獨(dú)立的數(shù)字信息生產(chǎn)者，而在數(shù)據(jù)流通過(guò)程中，電子文本信息占據(jù)了相當(dāng)大的比重，社交評(píng)論、即時(shí)通訊、電子讀物、網(wǎng)站專欄、電子出版等內(nèi)容共同組成了體量龐大的文本模塊。

在互聯(lián)網(wǎng)時(shí)代的新聞宣傳領(lǐng)域，每天都會(huì)產(chǎn)生大量的文本稿件，對(duì)文本初稿的校對(duì)是一項(xiàng)體量巨大的工作，僅僅依靠人工進(jìn)行校正成本極高，效率低下。中文錯(cuò)別字偵測(cè)技術(shù)可以應(yīng)用在教育及出版等許多領(lǐng)域。相比于英文糾錯(cuò)過(guò)程，中文糾錯(cuò)技術(shù)更具有挑戰(zhàn)性，包含語(yǔ)法錯(cuò)誤、拼寫(xiě)錯(cuò)誤、搭配錯(cuò)誤、語(yǔ)境錯(cuò)誤等多種情況。雖然近期許多研究提出了一些能提高效能的模型，但這些模型卻存在誤報(bào)率偏高的缺點(diǎn)[1]。因此，尋找一種全新的方法來(lái)對(duì)新聞初稿進(jìn)行自動(dòng)校正具有十分重要的現(xiàn)實(shí)意義。通過(guò)計(jì)算機(jī)對(duì)新聞初稿進(jìn)行審閱可以極大地提高校稿效率，大大減少人力成本與時(shí)間成本，如果進(jìn)一步利用特定新聞?lì)I(lǐng)域語(yǔ)料集的深度學(xué)習(xí)模型，完成個(gè)性化定制，那么在該領(lǐng)域的糾錯(cuò)過(guò)程中可以取得更好的效果。

2 研究方法

早在2003年，駱衛(wèi)華等人就提出中文文本自動(dòng)校對(duì)的研究還處在摸索階段。其方法多為字、詞級(jí)別上的統(tǒng)計(jì)方法和基于規(guī)則的短語(yǔ)結(jié)構(gòu)文法，其團(tuán)隊(duì)發(fā)現(xiàn)中文文本自動(dòng)校對(duì)的研究集中在詞級(jí)和句法查錯(cuò)兩方面，其中語(yǔ)義級(jí)查錯(cuò)仍是薄弱環(huán)節(jié)[2]；Vaswani A等人[3]在研究中提到BERT使用了Transformer作為算法的主要框架，通過(guò)雙向Transformer結(jié)構(gòu)使得網(wǎng)絡(luò)能更加徹底地捕捉到語(yǔ)句中的雙向關(guān)系，從而將上下文語(yǔ)境聯(lián)系起來(lái)，使模型在質(zhì)量上更優(yōu)越，更具可并行性，同時(shí)需要更少的訓(xùn)練時(shí)間(如圖1所示)。

Wilson L Taylor[4]研究了Mask Language Model(MLM)和Next Sentence Prediction(NSP)的多任務(wù)訓(xùn)練目標(biāo)，隔離實(shí)驗(yàn)表明NSP對(duì)于提取句間關(guān)系是有效的；Gu S等人[5]使用Seq2seq模型對(duì)中文文本進(jìn)行校正，將文本校正器視為一個(gè)序列學(xué)習(xí)問(wèn)題，利用偏解碼的方法來(lái)提高模型的雙語(yǔ)評(píng)估替代研究分?jǐn)?shù)；Gehring J等人[6]就基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列(convolution sequence to sequence，ConvS2S)模型進(jìn)行了討論，通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)將輸入序列映射成可變長(zhǎng)度的輸出序列，所有元素的計(jì)算可以在訓(xùn)練期間完全并行化，以更好地利用GPU硬件；Wang H等人[7]將語(yǔ)法錯(cuò)誤糾正(GEC)視為一個(gè)序列到序列的任務(wù)，使用Bert的Pre-train模型對(duì)漢語(yǔ)語(yǔ)法進(jìn)行糾正，證明了基于BERT的預(yù)訓(xùn)練模型在中國(guó)GEC任務(wù)中的有效性。Google AI團(tuán)隊(duì)?wèi){借強(qiáng)大的算力訓(xùn)練超大規(guī)模的數(shù)據(jù)，使BERT的效果達(dá)到全新高度，用戶通過(guò)使用開(kāi)源的BERT模型，可以將其作為Word2Vec的轉(zhuǎn)換矩陣并應(yīng)用到個(gè)人下游任務(wù)中。BERT的應(yīng)用證明層數(shù)較深的模型可以顯著提高NLP任務(wù)中的準(zhǔn)確率，且該模型可以通過(guò)無(wú)標(biāo)記數(shù)據(jù)集中預(yù)訓(xùn)練得到。

圖1 Transformer原理圖

目前出現(xiàn)了大量使用BERT來(lái)在NLP各個(gè)領(lǐng)域進(jìn)行直接應(yīng)用的工作，方法都很簡(jiǎn)單直接，效果總體而言比較好，比如問(wèn)答系統(tǒng)、搜索與信息檢索、對(duì)話系統(tǒng)、文本抽取、數(shù)據(jù)增強(qiáng)、文本分類、序列標(biāo)注等等[8]。與RNN不同，BERT計(jì)算當(dāng)前詞匯特征并不需要依賴前文計(jì)算數(shù)據(jù)，不需要受時(shí)序問(wèn)題的制約，而是同時(shí)利用上下文信息運(yùn)算，通過(guò)矩陣的模式快速獲取每句話的token特征。Tan M等人為解決正式文件編寫(xiě)過(guò)程中拼寫(xiě)錯(cuò)誤造成的字符串錯(cuò)誤比例過(guò)高的問(wèn)題，提出了一種基于BERT結(jié)構(gòu)轉(zhuǎn)換的字符語(yǔ)音BERT模型，通過(guò)使用BiLSTM網(wǎng)絡(luò)檢測(cè)錯(cuò)誤字符的位置，然后將錯(cuò)誤位置的拼音先驗(yàn)知識(shí)加入到BERT網(wǎng)絡(luò)中，從而實(shí)現(xiàn)端到端的拼寫(xiě)錯(cuò)誤檢測(cè)和糾正[9]；Cao Y等人基于BERT模型、雙向長(zhǎng)期短期記憶(BiLSTM)和條件隨機(jī)字段(CRF)設(shè)計(jì)并實(shí)現(xiàn)了具有得分功能門的錯(cuò)誤診斷器(BSGED)模型，該模型用較少的先驗(yàn)特征獲得了較好的結(jié)果，大大減少了特征工程的工作量，同時(shí)保留了特征項(xiàng)之間的偏序關(guān)系，大大減少了模型訓(xùn)練參數(shù)的數(shù)量[10]；Wu S H等人通過(guò)使用條件隨機(jī)場(chǎng)(CRF)和BERT模型深度學(xué)習(xí)方法的組合在NLPTEA-2020 CGED共享任務(wù)中的中文語(yǔ)法錯(cuò)誤診斷系統(tǒng)評(píng)估中取得了更好的效果[11-12]。

傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法通過(guò)維護(hù)一個(gè)中文語(yǔ)料詞庫(kù)和一個(gè)詞語(yǔ)編輯距離庫(kù)，利用注音機(jī)制對(duì)文本進(jìn)行讀音糾錯(cuò)并根據(jù)詞庫(kù)中的詞匯及頻率進(jìn)行替換[13]。然而，傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法需要維護(hù)和更新容量巨大的詞庫(kù)，并且要通過(guò)不斷對(duì)詞庫(kù)進(jìn)行人工擴(kuò)充來(lái)解決未登錄詞的問(wèn)題，人力成本高，維護(hù)成本高，同時(shí)僅僅根據(jù)拼音機(jī)制進(jìn)行檢錯(cuò)糾錯(cuò)準(zhǔn)確率較低，會(huì)出現(xiàn)相當(dāng)一部分文本無(wú)法識(shí)別和糾正的情況。N-gram模型將文本里面的內(nèi)容以字節(jié)為單位生成大小為N的滑動(dòng)窗口，形成了長(zhǎng)度為N的字節(jié)片段序列，通過(guò)統(tǒng)計(jì)gram的出現(xiàn)頻度，按設(shè)定的閾值進(jìn)行過(guò)濾，生成關(guān)鍵gram的向量特征空間，每種gram代表一個(gè)特征向量維度。其包含當(dāng)前詞以及當(dāng)前詞之前的N-1個(gè)詞所提供的全部信息，從而對(duì)一個(gè)句子中的各個(gè)詞進(jìn)行約束，但是無(wú)法解決遠(yuǎn)距離詞問(wèn)題以及數(shù)據(jù)稀疏問(wèn)題；基于卷積的seq2seq模型通過(guò)引入Stacking conv來(lái)捕捉長(zhǎng)距離的信息，通過(guò)編解碼的方法來(lái)提高模型的雙語(yǔ)評(píng)估替代研究分?jǐn)?shù)，采用了更合理的令牌方案，增強(qiáng)了糾錯(cuò)機(jī)制的魯棒性，但是BLEU的指標(biāo)會(huì)隨著句子長(zhǎng)度的增長(zhǎng)而逐漸降低。

Google的BERT模型使用大量未標(biāo)記語(yǔ)料集進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練，之后再使用標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)，進(jìn)而從給定句子的各個(gè)位置的候選列表中預(yù)測(cè)可能性最大的字符進(jìn)行糾正替換，因此BERT模型自身具有了一定程度的獲取語(yǔ)言、理解知識(shí)的特性[14]。在特征提取器的使用過(guò)程中，Transformer僅僅使用了self-attention機(jī)制，并沒(méi)有選擇使用RNN與CNN，同時(shí)結(jié)合使用殘差連接來(lái)解決梯度消失問(wèn)題，使其方便構(gòu)建更深層的網(wǎng)絡(luò)結(jié)構(gòu)，即BERT通過(guò)構(gòu)建更多層深度Transformer來(lái)大幅提高模型性能。通過(guò)添加前饋網(wǎng)絡(luò)來(lái)提高模型的非線性能力，同時(shí)利用多頭注意力機(jī)制從更多角度全面提取信息。利用BERT模型從候選詞列表中選擇字符對(duì)句子的各位置錯(cuò)別字進(jìn)行糾正，因此成為了界業(yè)的常用方法之一，但由于BERT初始模型是通過(guò)Mask掩碼語(yǔ)言建模對(duì)語(yǔ)料進(jìn)行預(yù)訓(xùn)練，使得BERT缺乏足夠的能力去檢測(cè)句子的每個(gè)位置是否都有誤差，進(jìn)而使得僅使用BERT模型的中文糾錯(cuò)Baseline過(guò)于粗暴，很容易造成高誤判率。

基于上述情況，文中使用一種全新的中文文本糾錯(cuò)模型理論：Soft-Masked BERT，該模型將中文文本的檢錯(cuò)過(guò)程與糾錯(cuò)過(guò)程分離，糾正網(wǎng)絡(luò)的輸入來(lái)自于檢測(cè)網(wǎng)絡(luò)輸出。文中旨在Soft-Masked BERT基礎(chǔ)上進(jìn)行改進(jìn)應(yīng)用，使用“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”新聞稿件中10 000條文本序列(HIT News Site)作為初始語(yǔ)料進(jìn)行訓(xùn)練，以對(duì)該新聞網(wǎng)的相關(guān)稿件進(jìn)行中文文本校對(duì)。

3 Soft-Masked Bert算法

Soft-Masked模型主體分為兩部分：檢錯(cuò)網(wǎng)絡(luò)與糾錯(cuò)網(wǎng)絡(luò)，兩個(gè)網(wǎng)絡(luò)之間通過(guò)Soft-Masked技術(shù)連接成一個(gè)整體，錯(cuò)誤檢測(cè)網(wǎng)絡(luò)(Detection Network)的輸出信息即為BERT校正網(wǎng)絡(luò)(Correction Network)的輸入信息(如圖2所示)。其中Detection Network是一個(gè)雙向的GRU(Gate Recurrent Unit)網(wǎng)絡(luò)，即雙向的門控循環(huán)單元，功能是預(yù)測(cè)字符在各個(gè)位置上發(fā)生錯(cuò)誤的概率，Correction Network是基于BERT的校正網(wǎng)絡(luò)，對(duì)檢錯(cuò)成功的位置上的字符進(jìn)行糾正與替換。

圖2 Soft-Masked網(wǎng)絡(luò)結(jié)構(gòu)

GRU常用來(lái)解決傳統(tǒng)RNN網(wǎng)絡(luò)在反向傳播期間出現(xiàn)的梯度消失問(wèn)題，從而避免短期記憶現(xiàn)象的出現(xiàn)(如圖3所示)[15]。GRU利用門(Gate)的內(nèi)部機(jī)制來(lái)調(diào)節(jié)單元之間傳輸?shù)男畔⒘鳎袛嗪畏N數(shù)據(jù)需要保留，何種數(shù)據(jù)需要舍棄，從而將較早時(shí)間步中的相關(guān)信息傳遞到較晚時(shí)間步的長(zhǎng)序列中進(jìn)行預(yù)測(cè)。GRU利用隱藏態(tài)傳遞消息，核心結(jié)構(gòu)是重置門(Reset Gate)和更新門(Update Gate)，Reset Gate決定對(duì)過(guò)去信息的遺忘部分，Update Gate決定當(dāng)前時(shí)間步里需要舍棄哪些信息以及需要添加哪些信息。

圖3 GRU結(jié)構(gòu)

對(duì)于檢測(cè)網(wǎng)絡(luò)中的雙向GRU網(wǎng)絡(luò)序列的每個(gè)字符，錯(cuò)誤概率的定義為：

(1)

其隱藏狀態(tài)被定義為：

(2)

(3)

(4)

將前后兩個(gè)部分的embedding進(jìn)行相加形成e-mask機(jī)制，經(jīng)以下公式：

(5)

對(duì)于糾錯(cuò)網(wǎng)絡(luò)序列的每個(gè)字符，糾錯(cuò)概率定義為：

(6)

在錯(cuò)誤檢測(cè)和錯(cuò)誤糾正過(guò)程中對(duì)應(yīng)兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù)：

(7)

(8)

將兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù)線性結(jié)合即得到總體學(xué)習(xí)目標(biāo)：

(9)

參數(shù)pi即當(dāng)前位置字符是錯(cuò)別字的概率，利用該概率值pi對(duì)該位置的字符嵌入進(jìn)行Soft-Masked處理，pi越接近1，該字被認(rèn)為是錯(cuò)別字的可能性就越大，反之pi的值越接近0，此時(shí)完成了Soft-Masked模型中的檢錯(cuò)部分。

4 數(shù)據(jù)處理與實(shí)驗(yàn)設(shè)置

4.1 實(shí)驗(yàn)數(shù)據(jù)介紹

網(wǎng)絡(luò)輸入的初始語(yǔ)料對(duì)于模型的應(yīng)用領(lǐng)域與最終效果極為重要，文中使用的語(yǔ)料來(lái)自于“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”公開(kāi)新聞稿，涉及的內(nèi)容板塊包括 “學(xué)校要聞”、“綜合新聞”、“媒體看工大”、“哈工大報(bào)”四個(gè)部分。

通過(guò)對(duì)該網(wǎng)站的四個(gè)板塊原始的文本內(nèi)容進(jìn)行抓取，形成自建的公開(kāi)小型數(shù)據(jù)集(HIT News Site)作為原始語(yǔ)料，通過(guò)使用jieba分詞庫(kù)與hit_stopwords停用詞表將原始語(yǔ)料進(jìn)行詞語(yǔ)詞頻的分詞處理，形成可用于深度網(wǎng)絡(luò)訓(xùn)練的詞典。再將原始語(yǔ)料以標(biāo)點(diǎn)符號(hào)為間斷分成短句形式，將無(wú)關(guān)信息刪除后統(tǒng)一規(guī)整，形成10 000個(gè)文本序列作為深度網(wǎng)絡(luò)訓(xùn)練的真實(shí)輸入語(yǔ)料。

使用自建數(shù)據(jù)集可以實(shí)現(xiàn)語(yǔ)料集的定制化，與通用公開(kāi)數(shù)據(jù)集相比有獨(dú)特的優(yōu)勢(shì)，可以相對(duì)精確地檢測(cè)模型在特定領(lǐng)域的性能表現(xiàn)，如在Hit News Site數(shù)據(jù)集中的特定詞“哈工大”、“劉永坦院士”、“永瑞基金”等，可以視為檢錯(cuò)和糾錯(cuò)過(guò)程中獨(dú)特標(biāo)志詞。

4.2 數(shù)據(jù)集預(yù)處理

Soft-Masked Bert的模型需要將初始語(yǔ)料處理為“完全對(duì)齊語(yǔ)料”，即通過(guò)“錯(cuò)字-正字”的映射陣列來(lái)檢測(cè)糾錯(cuò)的可靠性，同時(shí)，在對(duì)文本進(jìn)行糾正測(cè)試時(shí)需要聯(lián)系上下文文本信息環(huán)境，因此模型整體對(duì)訓(xùn)練語(yǔ)料的預(yù)處理程度依賴很大。

文中對(duì)初始語(yǔ)料進(jìn)行“掩蓋”處理，將總文本集劃分成為訓(xùn)練集與測(cè)試集，生成“錯(cuò)字-正字”的映射對(duì)，用于實(shí)驗(yàn)結(jié)果的測(cè)試。其中錯(cuò)誤序列的生成過(guò)程包括對(duì)文本語(yǔ)句中的字級(jí)進(jìn)行替改、刪除、增添的隨機(jī)造錯(cuò)，以模擬現(xiàn)實(shí)文本糾錯(cuò)過(guò)程中可能出現(xiàn)的各種情況。在預(yù)訓(xùn)練過(guò)程中，通過(guò)維護(hù)一個(gè)包括隨機(jī)同音字、生僻字以及隨機(jī)字符的“混淆表”文本文件，配合隨機(jī)數(shù)算法用以生成“錯(cuò)字-正字”映射中的“錯(cuò)字”部分(如圖4所示)。

圖4 “錯(cuò)字-正字”映射

由圖4可知，在替改方法中將正字“館”字替改成了錯(cuò)字“蟀”，在刪除方法中將“開(kāi)放”中的“開(kāi)”字刪掉，在增添方法中在句尾添加了生僻字“紘”，以此方法來(lái)隨機(jī)生成所有測(cè)試集(如圖5所示)。

圖5 測(cè)試集

最終在總文本的預(yù)處理過(guò)程中生915個(gè)“錯(cuò)字-正字”文本對(duì)作為測(cè)試集陣列，用于模型訓(xùn)練完成后的測(cè)試使用，充分保證了實(shí)驗(yàn)的隨機(jī)性與可靠性，避免數(shù)據(jù)泄露現(xiàn)象出現(xiàn)干擾實(shí)驗(yàn)結(jié)果。

4.3 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中將MLM學(xué)習(xí)率(MLMLearningRate)設(shè)為1e-4，Batchsize設(shè)為16，輸入句長(zhǎng)設(shè)為512，掩蓋率(MaskRate)設(shè)為0.15，測(cè)試文本句經(jīng)過(guò)embedding之后的隱藏層維度為768，自注意力頭尺寸設(shè)為12，中位尺寸為3 072，經(jīng)過(guò)Bert的embedding機(jī)制將原始文本轉(zhuǎn)化為“token_embedding+position_embedding+segment_embedding”的詞向量，此時(shí)向量的維度是(16，512，768)，將該向量輸入到Detection Network的雙向GRU中，得到新維度(16，512，1 536)，在網(wǎng)絡(luò)連接部分接入全接連層(1 536，768)將維度恢復(fù)為初始的(16，512，768)，在訓(xùn)練中連續(xù)進(jìn)行16個(gè)Epoch，得到最終的訓(xùn)練模型。

4.4 實(shí)驗(yàn)結(jié)果與分析

在訓(xùn)練過(guò)程中采用16次迭代訓(xùn)練(EP0—EP15)，得到訓(xùn)練過(guò)程中的糾錯(cuò)率與損失率Mask Loss，以迭代次數(shù)epoches為橫軸，以訓(xùn)練時(shí)損失率Train_mask loss為縱軸，繪制出訓(xùn)練過(guò)程Loss收斂曲線(如圖6所示)。

圖6 Mask Loss曲線

由曲線可知，隨著迭代訓(xùn)練的進(jìn)行，數(shù)據(jù)擬合度不斷提高，各參數(shù)變化趨于穩(wěn)定，損失值逐漸走低，最終穩(wěn)定在0.19，模型訓(xùn)練效果較為理想。

與之前的研究工作相似，文中采用了準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)以及F1-Score(F1分?jǐn)?shù))4個(gè)數(shù)值作為評(píng)價(jià)指標(biāo)，來(lái)評(píng)估文中模型的糾錯(cuò)性能。

在使用Bert模型進(jìn)行對(duì)比實(shí)驗(yàn)時(shí)，微調(diào)過(guò)程保留默認(rèn)超參數(shù)，保持學(xué)習(xí)率為2e-5，輸出對(duì)比結(jié)果(如表1所示)。

結(jié)合表1的對(duì)比數(shù)據(jù)可以看出，完全不進(jìn)行微調(diào)的BERT-Pretrain(BERT預(yù)訓(xùn)練)過(guò)于泛化，無(wú)法適應(yīng)精確領(lǐng)域中的特定學(xué)習(xí)任務(wù)，缺乏足夠的有監(jiān)督數(shù)據(jù)，故其糾錯(cuò)性能非常差，在實(shí)際工作中幾乎無(wú)法正常使用；BERT進(jìn)行微調(diào)后的BERT-Finetune由于其自身有大規(guī)模無(wú)標(biāo)記語(yǔ)料的預(yù)訓(xùn)練作為基礎(chǔ)，因此具有一定的語(yǔ)言理解能力，在準(zhǔn)確率上可以達(dá)到70.5%；經(jīng)對(duì)比，Soft-Masked模型在HIT News Site數(shù)據(jù)集上的整體性能表現(xiàn)優(yōu)于BERT-Finetune，準(zhǔn)確率提高0.6個(gè)百分點(diǎn)，精確率提高1.3個(gè)百分點(diǎn)，召回率提高1.5個(gè)百分點(diǎn)，F(xiàn)1分?jǐn)?shù)提高1.4個(gè)百分點(diǎn)，效果良好。

表1 模型表現(xiàn)對(duì)比 %

與此同時(shí)，在研究中也發(fā)現(xiàn)了一些影響進(jìn)一步提升實(shí)驗(yàn)準(zhǔn)確率的因素。文中模型的糾錯(cuò)部分使用的是一個(gè)基于BERT的序列多分類標(biāo)記模型，相較于RNN與LSTM，BERT可以一次性讀取整體文本序列，提取多個(gè)層次的文本信息，更加全面地詮釋文本語(yǔ)義，通過(guò)注意力機(jī)制，并行計(jì)算每個(gè)位置相對(duì)另一個(gè)位置的權(quán)重，如果計(jì)算資源充足，訓(xùn)練速度會(huì)比LSTM快許多，同時(shí)由于使用海量無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，模型效果更優(yōu)，但是由于BERT預(yù)訓(xùn)練模型本身規(guī)模較大，參數(shù)極多，在訓(xùn)練集體量較小的時(shí)候，容易發(fā)生過(guò)擬合，影響實(shí)驗(yàn)進(jìn)程與最終準(zhǔn)確率。BERT的部分mask字符，在下游的Finetune任務(wù)可能并不會(huì)再次出現(xiàn)，使得前后文本失去平衡，信息不匹配。尤其是針對(duì)兩個(gè)及以上連續(xù)單字組成的詞匯，隨機(jī)mask掩蓋會(huì)割裂連續(xù)字之間的相關(guān)性，致使模型難以學(xué)習(xí)到詞的語(yǔ)義信息。對(duì)于文本中的詞匯，BERT會(huì)將其分成詞片，在隨機(jī)mask的過(guò)程中，如果被mask的詞片處于文本中間位置，會(huì)使該詞匯失去與上下文的語(yǔ)義同步，導(dǎo)致最終的預(yù)測(cè)與上下文失去關(guān)聯(lián)，偶然性加大。在NLP的糾錯(cuò)領(lǐng)域中，現(xiàn)有技術(shù)已經(jīng)可以解決大部分的文本拼寫(xiě)錯(cuò)誤，但是對(duì)于部分需要常識(shí)背景(world-knowledge)的文本糾錯(cuò)問(wèn)題，例如同音異義詞問(wèn)題(如圖7所示)時(shí)效果會(huì)不盡人意，必須利用一定程度的背景知識(shí)，模擬真人對(duì)該類問(wèn)題進(jìn)行推理和分析，這也正是當(dāng)前NLP糾錯(cuò)研究中的難點(diǎn)。

在某些強(qiáng)調(diào)實(shí)時(shí)性的糾錯(cuò)場(chǎng)景中，對(duì)模型的硬件以及實(shí)效性都要求較高，需要對(duì)糾錯(cuò)的時(shí)延有較為嚴(yán)格的限制，容易導(dǎo)致規(guī)模龐大的字典庫(kù)以及結(jié)構(gòu)過(guò)于復(fù)雜的精密模型無(wú)法廣泛適用。另外，文中模型的語(yǔ)料集局限于完全對(duì)齊文本，這給模型的推廣使用帶來(lái)了不便。Zheng L等人近來(lái)提出了一種可以同時(shí)處理對(duì)齊文本和不對(duì)齊文本的校正框架[16]，可以更好地啟發(fā)下一步研究。使用文中模型得到的糾錯(cuò)結(jié)果如圖8所示。

圖7 同音異義詞

圖8 糾錯(cuò)結(jié)果

5 結(jié)束語(yǔ)

文中使用了BERT模型的改進(jìn)模型Soft-Masked BERT對(duì)中文文本進(jìn)行糾錯(cuò)檢測(cè)，將原本的單向糾錯(cuò)過(guò)程分成了檢測(cè)網(wǎng)絡(luò)和校正網(wǎng)絡(luò)兩部分雙向執(zhí)行，對(duì)稿件文本中可能出錯(cuò)的字符進(jìn)行Soft屏蔽，將檢測(cè)網(wǎng)絡(luò)的輸出作為基于BERT的校正網(wǎng)絡(luò)的新的輸入，從而對(duì)可能存在錯(cuò)誤的字符進(jìn)行定位與校正。文中以“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”(HIT News Site)的文稿作為數(shù)據(jù)集，最終的糾錯(cuò)準(zhǔn)確率達(dá)到71.1%，相比BERT-Finetune模型提高0.6個(gè)百分點(diǎn)，效果良好。但是，Soft-Masked BERT模型的語(yǔ)料集必須是完全對(duì)齊文本，需要通過(guò)使用“錯(cuò)字-正字”序列來(lái)檢測(cè)性能，在特定閾值下可能會(huì)出現(xiàn)只能定位無(wú)法糾正的問(wèn)題。在未來(lái)的研究中，將Soft-Masked BERT與現(xiàn)實(shí)應(yīng)用聯(lián)系起來(lái)，仍是一個(gè)值得探索的課題。