999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Soft-Masked BERT的新聞文本糾錯(cuò)研究

2022-05-30 04:29:44史健婷吳林皓張英濤
關(guān)鍵詞:文本模型

史健婷,吳林皓,張英濤,常 亮

(1.黑龍江科技大學(xué),黑龍江 哈爾濱 150022;2.哈爾濱工業(yè)大學(xué),黑龍江 哈爾濱 150000)

1 研究背景

當(dāng)今的時(shí)代是一個(gè)信息爆炸的時(shí)代,在社交網(wǎng)絡(luò)、智能互聯(lián)設(shè)備等的共同推動(dòng)作用下,網(wǎng)絡(luò)數(shù)據(jù)以指數(shù)倍增長(zhǎng)。據(jù)不完全統(tǒng)計(jì),2014年,互聯(lián)網(wǎng)用戶達(dá)24億。2016年,用戶量增長(zhǎng)到34億,2017年用戶量達(dá)37億。截至2019年6月,已有超過(guò)44億互聯(lián)網(wǎng)用戶。在短短五年內(nèi),互聯(lián)網(wǎng)用戶增加了83%,每個(gè)用戶每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),互聯(lián)網(wǎng)個(gè)體用戶已然成為獨(dú)立的數(shù)字信息生產(chǎn)者,而在數(shù)據(jù)流通過(guò)程中,電子文本信息占據(jù)了相當(dāng)大的比重,社交評(píng)論、即時(shí)通訊、電子讀物、網(wǎng)站專欄、電子出版等內(nèi)容共同組成了體量龐大的文本模塊。

在互聯(lián)網(wǎng)時(shí)代的新聞宣傳領(lǐng)域,每天都會(huì)產(chǎn)生大量的文本稿件,對(duì)文本初稿的校對(duì)是一項(xiàng)體量巨大的工作,僅僅依靠人工進(jìn)行校正成本極高,效率低下。中文錯(cuò)別字偵測(cè)技術(shù)可以應(yīng)用在教育及出版等許多領(lǐng)域。相比于英文糾錯(cuò)過(guò)程,中文糾錯(cuò)技術(shù)更具有挑戰(zhàn)性,包含語(yǔ)法錯(cuò)誤、拼寫(xiě)錯(cuò)誤、搭配錯(cuò)誤、語(yǔ)境錯(cuò)誤等多種情況。雖然近期許多研究提出了一些能提高效能的模型,但這些模型卻存在誤報(bào)率偏高的缺點(diǎn)[1]。因此,尋找一種全新的方法來(lái)對(duì)新聞初稿進(jìn)行自動(dòng)校正具有十分重要的現(xiàn)實(shí)意義。通過(guò)計(jì)算機(jī)對(duì)新聞初稿進(jìn)行審閱可以極大地提高校稿效率,大大減少人力成本與時(shí)間成本,如果進(jìn)一步利用特定新聞?lì)I(lǐng)域語(yǔ)料集的深度學(xué)習(xí)模型,完成個(gè)性化定制,那么在該領(lǐng)域的糾錯(cuò)過(guò)程中可以取得更好的效果。

2 研究方法

早在2003年,駱衛(wèi)華等人就提出中文文本自動(dòng)校對(duì)的研究還處在摸索階段。其方法多為字、詞級(jí)別上的統(tǒng)計(jì)方法和基于規(guī)則的短語(yǔ)結(jié)構(gòu)文法,其團(tuán)隊(duì)發(fā)現(xiàn)中文文本自動(dòng)校對(duì)的研究集中在詞級(jí)和句法查錯(cuò)兩方面,其中語(yǔ)義級(jí)查錯(cuò)仍是薄弱環(huán)節(jié)[2];Vaswani A等人[3]在研究中提到BERT使用了Transformer作為算法的主要框架,通過(guò)雙向Transformer結(jié)構(gòu)使得網(wǎng)絡(luò)能更加徹底地捕捉到語(yǔ)句中的雙向關(guān)系,從而將上下文語(yǔ)境聯(lián)系起來(lái),使模型在質(zhì)量上更優(yōu)越,更具可并行性,同時(shí)需要更少的訓(xùn)練時(shí)間(如圖1所示)。

Wilson L Taylor[4]研究了Mask Language Model(MLM)和Next Sentence Prediction(NSP)的多任務(wù)訓(xùn)練目標(biāo),隔離實(shí)驗(yàn)表明NSP對(duì)于提取句間關(guān)系是有效的;Gu S等人[5]使用Seq2seq模型對(duì)中文文本進(jìn)行校正,將文本校正器視為一個(gè)序列學(xué)習(xí)問(wèn)題,利用偏解碼的方法來(lái)提高模型的雙語(yǔ)評(píng)估替代研究分?jǐn)?shù);Gehring J等人[6]就基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列(convolution sequence to sequence,ConvS2S)模型進(jìn)行了討論,通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)將輸入序列映射成可變長(zhǎng)度的輸出序列,所有元素的計(jì)算可以在訓(xùn)練期間完全并行化,以更好地利用GPU硬件;Wang H等人[7]將語(yǔ)法錯(cuò)誤糾正(GEC)視為一個(gè)序列到序列的任務(wù),使用Bert的Pre-train模型對(duì)漢語(yǔ)語(yǔ)法進(jìn)行糾正,證明了基于BERT的預(yù)訓(xùn)練模型在中國(guó)GEC任務(wù)中的有效性。Google AI團(tuán)隊(duì)?wèi){借強(qiáng)大的算力訓(xùn)練超大規(guī)模的數(shù)據(jù),使BERT的效果達(dá)到全新高度,用戶通過(guò)使用開(kāi)源的BERT模型,可以將其作為Word2Vec的轉(zhuǎn)換矩陣并應(yīng)用到個(gè)人下游任務(wù)中。BERT的應(yīng)用證明層數(shù)較深的模型可以顯著提高NLP任務(wù)中的準(zhǔn)確率,且該模型可以通過(guò)無(wú)標(biāo)記數(shù)據(jù)集中預(yù)訓(xùn)練得到。

圖1 Transformer原理圖

目前出現(xiàn)了大量使用BERT來(lái)在NLP各個(gè)領(lǐng)域進(jìn)行直接應(yīng)用的工作,方法都很簡(jiǎn)單直接,效果總體而言比較好,比如問(wèn)答系統(tǒng)、搜索與信息檢索、對(duì)話系統(tǒng)、文本抽取、數(shù)據(jù)增強(qiáng)、文本分類、序列標(biāo)注等等[8]。與RNN不同,BERT計(jì)算當(dāng)前詞匯特征并不需要依賴前文計(jì)算數(shù)據(jù),不需要受時(shí)序問(wèn)題的制約,而是同時(shí)利用上下文信息運(yùn)算,通過(guò)矩陣的模式快速獲取每句話的token特征。Tan M等人為解決正式文件編寫(xiě)過(guò)程中拼寫(xiě)錯(cuò)誤造成的字符串錯(cuò)誤比例過(guò)高的問(wèn)題,提出了一種基于BERT結(jié)構(gòu)轉(zhuǎn)換的字符語(yǔ)音BERT模型,通過(guò)使用BiLSTM網(wǎng)絡(luò)檢測(cè)錯(cuò)誤字符的位置,然后將錯(cuò)誤位置的拼音先驗(yàn)知識(shí)加入到BERT網(wǎng)絡(luò)中,從而實(shí)現(xiàn)端到端的拼寫(xiě)錯(cuò)誤檢測(cè)和糾正[9];Cao Y等人基于BERT模型、雙向長(zhǎng)期短期記憶(BiLSTM)和條件隨機(jī)字段(CRF)設(shè)計(jì)并實(shí)現(xiàn)了具有得分功能門的錯(cuò)誤診斷器(BSGED)模型,該模型用較少的先驗(yàn)特征獲得了較好的結(jié)果,大大減少了特征工程的工作量,同時(shí)保留了特征項(xiàng)之間的偏序關(guān)系,大大減少了模型訓(xùn)練參數(shù)的數(shù)量[10];Wu S H等人通過(guò)使用條件隨機(jī)場(chǎng)(CRF)和BERT模型深度學(xué)習(xí)方法的組合在NLPTEA-2020 CGED共享任務(wù)中的中文語(yǔ)法錯(cuò)誤診斷系統(tǒng)評(píng)估中取得了更好的效果[11-12]。

傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法通過(guò)維護(hù)一個(gè)中文語(yǔ)料詞庫(kù)和一個(gè)詞語(yǔ)編輯距離庫(kù),利用注音機(jī)制對(duì)文本進(jìn)行讀音糾錯(cuò)并根據(jù)詞庫(kù)中的詞匯及頻率進(jìn)行替換[13]。然而,傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法需要維護(hù)和更新容量巨大的詞庫(kù),并且要通過(guò)不斷對(duì)詞庫(kù)進(jìn)行人工擴(kuò)充來(lái)解決未登錄詞的問(wèn)題,人力成本高,維護(hù)成本高,同時(shí)僅僅根據(jù)拼音機(jī)制進(jìn)行檢錯(cuò)糾錯(cuò)準(zhǔn)確率較低,會(huì)出現(xiàn)相當(dāng)一部分文本無(wú)法識(shí)別和糾正的情況。N-gram模型將文本里面的內(nèi)容以字節(jié)為單位生成大小為N的滑動(dòng)窗口,形成了長(zhǎng)度為N的字節(jié)片段序列,通過(guò)統(tǒng)計(jì)gram的出現(xiàn)頻度,按設(shè)定的閾值進(jìn)行過(guò)濾,生成關(guān)鍵gram的向量特征空間,每種gram代表一個(gè)特征向量維度。其包含當(dāng)前詞以及當(dāng)前詞之前的N-1個(gè)詞所提供的全部信息,從而對(duì)一個(gè)句子中的各個(gè)詞進(jìn)行約束,但是無(wú)法解決遠(yuǎn)距離詞問(wèn)題以及數(shù)據(jù)稀疏問(wèn)題;基于卷積的seq2seq模型通過(guò)引入Stacking conv來(lái)捕捉長(zhǎng)距離的信息,通過(guò)編解碼的方法來(lái)提高模型的雙語(yǔ)評(píng)估替代研究分?jǐn)?shù),采用了更合理的令牌方案,增強(qiáng)了糾錯(cuò)機(jī)制的魯棒性,但是BLEU的指標(biāo)會(huì)隨著句子長(zhǎng)度的增長(zhǎng)而逐漸降低。

Google的BERT模型使用大量未標(biāo)記語(yǔ)料集進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,之后再使用標(biāo)記數(shù)據(jù)進(jìn)行微調(diào),進(jìn)而從給定句子的各個(gè)位置的候選列表中預(yù)測(cè)可能性最大的字符進(jìn)行糾正替換,因此BERT模型自身具有了一定程度的獲取語(yǔ)言、理解知識(shí)的特性[14]。在特征提取器的使用過(guò)程中,Transformer僅僅使用了self-attention機(jī)制,并沒(méi)有選擇使用RNN與CNN,同時(shí)結(jié)合使用殘差連接來(lái)解決梯度消失問(wèn)題,使其方便構(gòu)建更深層的網(wǎng)絡(luò)結(jié)構(gòu),即BERT通過(guò)構(gòu)建更多層深度Transformer來(lái)大幅提高模型性能。通過(guò)添加前饋網(wǎng)絡(luò)來(lái)提高模型的非線性能力,同時(shí)利用多頭注意力機(jī)制從更多角度全面提取信息。利用BERT模型從候選詞列表中選擇字符對(duì)句子的各位置錯(cuò)別字進(jìn)行糾正,因此成為了界業(yè)的常用方法之一,但由于BERT初始模型是通過(guò)Mask掩碼語(yǔ)言建模對(duì)語(yǔ)料進(jìn)行預(yù)訓(xùn)練,使得BERT缺乏足夠的能力去檢測(cè)句子的每個(gè)位置是否都有誤差,進(jìn)而使得僅使用BERT模型的中文糾錯(cuò)Baseline過(guò)于粗暴,很容易造成高誤判率。

基于上述情況,文中使用一種全新的中文文本糾錯(cuò)模型理論:Soft-Masked BERT,該模型將中文文本的檢錯(cuò)過(guò)程與糾錯(cuò)過(guò)程分離,糾正網(wǎng)絡(luò)的輸入來(lái)自于檢測(cè)網(wǎng)絡(luò)輸出。文中旨在Soft-Masked BERT基礎(chǔ)上進(jìn)行改進(jìn)應(yīng)用,使用“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”新聞稿件中10 000條文本序列(HIT News Site)作為初始語(yǔ)料進(jìn)行訓(xùn)練,以對(duì)該新聞網(wǎng)的相關(guān)稿件進(jìn)行中文文本校對(duì)。

3 Soft-Masked Bert算法

Soft-Masked模型主體分為兩部分:檢錯(cuò)網(wǎng)絡(luò)與糾錯(cuò)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)之間通過(guò)Soft-Masked技術(shù)連接成一個(gè)整體,錯(cuò)誤檢測(cè)網(wǎng)絡(luò)(Detection Network)的輸出信息即為BERT校正網(wǎng)絡(luò)(Correction Network)的輸入信息(如圖2所示)。其中Detection Network是一個(gè)雙向的GRU(Gate Recurrent Unit)網(wǎng)絡(luò),即雙向的門控循環(huán)單元,功能是預(yù)測(cè)字符在各個(gè)位置上發(fā)生錯(cuò)誤的概率,Correction Network是基于BERT的校正網(wǎng)絡(luò),對(duì)檢錯(cuò)成功的位置上的字符進(jìn)行糾正與替換。

圖2 Soft-Masked網(wǎng)絡(luò)結(jié)構(gòu)

GRU常用來(lái)解決傳統(tǒng)RNN網(wǎng)絡(luò)在反向傳播期間出現(xiàn)的梯度消失問(wèn)題,從而避免短期記憶現(xiàn)象的出現(xiàn)(如圖3所示)[15]。GRU利用門(Gate)的內(nèi)部機(jī)制來(lái)調(diào)節(jié)單元之間傳輸?shù)男畔⒘鳎袛嗪畏N數(shù)據(jù)需要保留,何種數(shù)據(jù)需要舍棄,從而將較早時(shí)間步中的相關(guān)信息傳遞到較晚時(shí)間步的長(zhǎng)序列中進(jìn)行預(yù)測(cè)。GRU利用隱藏態(tài)傳遞消息,核心結(jié)構(gòu)是重置門(Reset Gate)和更新門(Update Gate),Reset Gate決定對(duì)過(guò)去信息的遺忘部分,Update Gate決定當(dāng)前時(shí)間步里需要舍棄哪些信息以及需要添加哪些信息。

圖3 GRU結(jié)構(gòu)

對(duì)于檢測(cè)網(wǎng)絡(luò)中的雙向GRU網(wǎng)絡(luò)序列的每個(gè)字符,錯(cuò)誤概率的定義為:

(1)

其隱藏狀態(tài)被定義為:

(2)

(3)

(4)

將前后兩個(gè)部分的embedding進(jìn)行相加形成e-mask機(jī)制,經(jīng)以下公式:

(5)

對(duì)于糾錯(cuò)網(wǎng)絡(luò)序列的每個(gè)字符,糾錯(cuò)概率定義為:

(6)

在錯(cuò)誤檢測(cè)和錯(cuò)誤糾正過(guò)程中對(duì)應(yīng)兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù):

(7)

(8)

將兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù)線性結(jié)合即得到總體學(xué)習(xí)目標(biāo):

(9)

參數(shù)pi即當(dāng)前位置字符是錯(cuò)別字的概率,利用該概率值pi對(duì)該位置的字符嵌入進(jìn)行Soft-Masked處理,pi越接近1,該字被認(rèn)為是錯(cuò)別字的可能性就越大,反之pi的值越接近0,此時(shí)完成了Soft-Masked模型中的檢錯(cuò)部分。

4 數(shù)據(jù)處理與實(shí)驗(yàn)設(shè)置

4.1 實(shí)驗(yàn)數(shù)據(jù)介紹

網(wǎng)絡(luò)輸入的初始語(yǔ)料對(duì)于模型的應(yīng)用領(lǐng)域與最終效果極為重要,文中使用的語(yǔ)料來(lái)自于“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”公開(kāi)新聞稿,涉及的內(nèi)容板塊包括 “學(xué)校要聞”、“綜合新聞”、“媒體看工大”、“哈工大報(bào)”四個(gè)部分。

通過(guò)對(duì)該網(wǎng)站的四個(gè)板塊原始的文本內(nèi)容進(jìn)行抓取,形成自建的公開(kāi)小型數(shù)據(jù)集(HIT News Site)作為原始語(yǔ)料,通過(guò)使用jieba分詞庫(kù)與hit_stopwords停用詞表將原始語(yǔ)料進(jìn)行詞語(yǔ)詞頻的分詞處理,形成可用于深度網(wǎng)絡(luò)訓(xùn)練的詞典。再將原始語(yǔ)料以標(biāo)點(diǎn)符號(hào)為間斷分成短句形式,將無(wú)關(guān)信息刪除后統(tǒng)一規(guī)整,形成10 000個(gè)文本序列作為深度網(wǎng)絡(luò)訓(xùn)練的真實(shí)輸入語(yǔ)料。

使用自建數(shù)據(jù)集可以實(shí)現(xiàn)語(yǔ)料集的定制化,與通用公開(kāi)數(shù)據(jù)集相比有獨(dú)特的優(yōu)勢(shì),可以相對(duì)精確地檢測(cè)模型在特定領(lǐng)域的性能表現(xiàn),如在Hit News Site數(shù)據(jù)集中的特定詞“哈工大”、“劉永坦院士”、“永瑞基金”等,可以視為檢錯(cuò)和糾錯(cuò)過(guò)程中獨(dú)特標(biāo)志詞。

4.2 數(shù)據(jù)集預(yù)處理

Soft-Masked Bert的模型需要將初始語(yǔ)料處理為“完全對(duì)齊語(yǔ)料”,即通過(guò)“錯(cuò)字-正字”的映射陣列來(lái)檢測(cè)糾錯(cuò)的可靠性,同時(shí),在對(duì)文本進(jìn)行糾正測(cè)試時(shí)需要聯(lián)系上下文文本信息環(huán)境,因此模型整體對(duì)訓(xùn)練語(yǔ)料的預(yù)處理程度依賴很大。

文中對(duì)初始語(yǔ)料進(jìn)行“掩蓋”處理,將總文本集劃分成為訓(xùn)練集與測(cè)試集,生成“錯(cuò)字-正字”的映射對(duì),用于實(shí)驗(yàn)結(jié)果的測(cè)試。其中錯(cuò)誤序列的生成過(guò)程包括對(duì)文本語(yǔ)句中的字級(jí)進(jìn)行替改、刪除、增添的隨機(jī)造錯(cuò),以模擬現(xiàn)實(shí)文本糾錯(cuò)過(guò)程中可能出現(xiàn)的各種情況。在預(yù)訓(xùn)練過(guò)程中,通過(guò)維護(hù)一個(gè)包括隨機(jī)同音字、生僻字以及隨機(jī)字符的“混淆表”文本文件,配合隨機(jī)數(shù)算法用以生成“錯(cuò)字-正字”映射中的“錯(cuò)字”部分(如圖4所示)。

圖4 “錯(cuò)字-正字”映射

由圖4可知,在替改方法中將正字“館”字替改成了錯(cuò)字“蟀”,在刪除方法中將“開(kāi)放”中的“開(kāi)”字刪掉,在增添方法中在句尾添加了生僻字“紘”,以此方法來(lái)隨機(jī)生成所有測(cè)試集(如圖5所示)。

圖5 測(cè)試集

最終在總文本的預(yù)處理過(guò)程中生915個(gè)“錯(cuò)字-正字”文本對(duì)作為測(cè)試集陣列,用于模型訓(xùn)練完成后的測(cè)試使用,充分保證了實(shí)驗(yàn)的隨機(jī)性與可靠性,避免數(shù)據(jù)泄露現(xiàn)象出現(xiàn)干擾實(shí)驗(yàn)結(jié)果。

4.3 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中將MLM學(xué)習(xí)率(MLMLearningRate)設(shè)為1e-4,Batchsize設(shè)為16,輸入句長(zhǎng)設(shè)為512,掩蓋率(MaskRate)設(shè)為0.15,測(cè)試文本句經(jīng)過(guò)embedding之后的隱藏層維度為768,自注意力頭尺寸設(shè)為12,中位尺寸為3 072,經(jīng)過(guò)Bert的embedding機(jī)制將原始文本轉(zhuǎn)化為“token_embedding+position_embedding+segment_embedding”的詞向量,此時(shí)向量的維度是(16,512,768),將該向量輸入到Detection Network的雙向GRU中,得到新維度(16,512,1 536),在網(wǎng)絡(luò)連接部分接入全接連層(1 536,768)將維度恢復(fù)為初始的(16,512,768),在訓(xùn)練中連續(xù)進(jìn)行16個(gè)Epoch,得到最終的訓(xùn)練模型。

4.4 實(shí)驗(yàn)結(jié)果與分析

在訓(xùn)練過(guò)程中采用16次迭代訓(xùn)練(EP0—EP15),得到訓(xùn)練過(guò)程中的糾錯(cuò)率與損失率Mask Loss,以迭代次數(shù)epoches為橫軸,以訓(xùn)練時(shí)損失率Train_mask loss為縱軸,繪制出訓(xùn)練過(guò)程Loss收斂曲線(如圖6所示)。

圖6 Mask Loss曲線

由曲線可知,隨著迭代訓(xùn)練的進(jìn)行,數(shù)據(jù)擬合度不斷提高,各參數(shù)變化趨于穩(wěn)定,損失值逐漸走低,最終穩(wěn)定在0.19,模型訓(xùn)練效果較為理想。

與之前的研究工作相似,文中采用了準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)以及F1-Score(F1分?jǐn)?shù))4個(gè)數(shù)值作為評(píng)價(jià)指標(biāo),來(lái)評(píng)估文中模型的糾錯(cuò)性能。

在使用Bert模型進(jìn)行對(duì)比實(shí)驗(yàn)時(shí),微調(diào)過(guò)程保留默認(rèn)超參數(shù),保持學(xué)習(xí)率為2e-5,輸出對(duì)比結(jié)果(如表1所示)。

結(jié)合表1的對(duì)比數(shù)據(jù)可以看出,完全不進(jìn)行微調(diào)的BERT-Pretrain(BERT預(yù)訓(xùn)練)過(guò)于泛化,無(wú)法適應(yīng)精確領(lǐng)域中的特定學(xué)習(xí)任務(wù),缺乏足夠的有監(jiān)督數(shù)據(jù),故其糾錯(cuò)性能非常差,在實(shí)際工作中幾乎無(wú)法正常使用;BERT進(jìn)行微調(diào)后的BERT-Finetune由于其自身有大規(guī)模無(wú)標(biāo)記語(yǔ)料的預(yù)訓(xùn)練作為基礎(chǔ),因此具有一定的語(yǔ)言理解能力,在準(zhǔn)確率上可以達(dá)到70.5%;經(jīng)對(duì)比,Soft-Masked模型在HIT News Site數(shù)據(jù)集上的整體性能表現(xiàn)優(yōu)于BERT-Finetune,準(zhǔn)確率提高0.6個(gè)百分點(diǎn),精確率提高1.3個(gè)百分點(diǎn),召回率提高1.5個(gè)百分點(diǎn),F(xiàn)1分?jǐn)?shù)提高1.4個(gè)百分點(diǎn),效果良好。

表1 模型表現(xiàn)對(duì)比 %

與此同時(shí),在研究中也發(fā)現(xiàn)了一些影響進(jìn)一步提升實(shí)驗(yàn)準(zhǔn)確率的因素。文中模型的糾錯(cuò)部分使用的是一個(gè)基于BERT的序列多分類標(biāo)記模型,相較于RNN與LSTM,BERT可以一次性讀取整體文本序列,提取多個(gè)層次的文本信息,更加全面地詮釋文本語(yǔ)義,通過(guò)注意力機(jī)制,并行計(jì)算每個(gè)位置相對(duì)另一個(gè)位置的權(quán)重,如果計(jì)算資源充足,訓(xùn)練速度會(huì)比LSTM快許多,同時(shí)由于使用海量無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型效果更優(yōu),但是由于BERT預(yù)訓(xùn)練模型本身規(guī)模較大,參數(shù)極多,在訓(xùn)練集體量較小的時(shí)候,容易發(fā)生過(guò)擬合,影響實(shí)驗(yàn)進(jìn)程與最終準(zhǔn)確率。BERT的部分mask字符,在下游的Finetune任務(wù)可能并不會(huì)再次出現(xiàn),使得前后文本失去平衡,信息不匹配。尤其是針對(duì)兩個(gè)及以上連續(xù)單字組成的詞匯,隨機(jī)mask掩蓋會(huì)割裂連續(xù)字之間的相關(guān)性,致使模型難以學(xué)習(xí)到詞的語(yǔ)義信息。對(duì)于文本中的詞匯,BERT會(huì)將其分成詞片,在隨機(jī)mask的過(guò)程中,如果被mask的詞片處于文本中間位置,會(huì)使該詞匯失去與上下文的語(yǔ)義同步,導(dǎo)致最終的預(yù)測(cè)與上下文失去關(guān)聯(lián),偶然性加大。在NLP的糾錯(cuò)領(lǐng)域中,現(xiàn)有技術(shù)已經(jīng)可以解決大部分的文本拼寫(xiě)錯(cuò)誤,但是對(duì)于部分需要常識(shí)背景(world-knowledge)的文本糾錯(cuò)問(wèn)題,例如同音異義詞問(wèn)題(如圖7所示)時(shí)效果會(huì)不盡人意,必須利用一定程度的背景知識(shí),模擬真人對(duì)該類問(wèn)題進(jìn)行推理和分析,這也正是當(dāng)前NLP糾錯(cuò)研究中的難點(diǎn)。

在某些強(qiáng)調(diào)實(shí)時(shí)性的糾錯(cuò)場(chǎng)景中,對(duì)模型的硬件以及實(shí)效性都要求較高,需要對(duì)糾錯(cuò)的時(shí)延有較為嚴(yán)格的限制,容易導(dǎo)致規(guī)模龐大的字典庫(kù)以及結(jié)構(gòu)過(guò)于復(fù)雜的精密模型無(wú)法廣泛適用。另外,文中模型的語(yǔ)料集局限于完全對(duì)齊文本,這給模型的推廣使用帶來(lái)了不便。Zheng L等人近來(lái)提出了一種可以同時(shí)處理對(duì)齊文本和不對(duì)齊文本的校正框架[16],可以更好地啟發(fā)下一步研究。使用文中模型得到的糾錯(cuò)結(jié)果如圖8所示。

圖7 同音異義詞

圖8 糾錯(cuò)結(jié)果

5 結(jié)束語(yǔ)

文中使用了BERT模型的改進(jìn)模型Soft-Masked BERT對(duì)中文文本進(jìn)行糾錯(cuò)檢測(cè),將原本的單向糾錯(cuò)過(guò)程分成了檢測(cè)網(wǎng)絡(luò)和校正網(wǎng)絡(luò)兩部分雙向執(zhí)行,對(duì)稿件文本中可能出錯(cuò)的字符進(jìn)行Soft屏蔽,將檢測(cè)網(wǎng)絡(luò)的輸出作為基于BERT的校正網(wǎng)絡(luò)的新的輸入,從而對(duì)可能存在錯(cuò)誤的字符進(jìn)行定位與校正。文中以“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”(HIT News Site)的文稿作為數(shù)據(jù)集,最終的糾錯(cuò)準(zhǔn)確率達(dá)到71.1%,相比BERT-Finetune模型提高0.6個(gè)百分點(diǎn),效果良好。但是,Soft-Masked BERT模型的語(yǔ)料集必須是完全對(duì)齊文本,需要通過(guò)使用“錯(cuò)字-正字”序列來(lái)檢測(cè)性能,在特定閾值下可能會(huì)出現(xiàn)只能定位無(wú)法糾正的問(wèn)題。在未來(lái)的研究中,將Soft-Masked BERT與現(xiàn)實(shí)應(yīng)用聯(lián)系起來(lái),仍是一個(gè)值得探索的課題。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲欧美一区二区三区蜜芽| 免费一级毛片| 亚洲一级无毛片无码在线免费视频 | 欧美中文字幕第一页线路一| 中文字幕波多野不卡一区| 国产无码网站在线观看| 国产精品亚洲精品爽爽| 亚洲av无码牛牛影视在线二区| 在线永久免费观看的毛片| 亚洲天堂网2014| 欧美日韩另类在线| 亚洲最大福利网站| 国产精品熟女亚洲AV麻豆| 亚洲精品国产首次亮相| 久久天天躁夜夜躁狠狠| 看av免费毛片手机播放| 伊人色天堂| 日韩无码视频网站| 福利小视频在线播放| 亚洲第一成人在线| 日韩美毛片| 免费aa毛片| 欧美日韩国产成人高清视频| 亚洲无码电影| 成人韩免费网站| 97se亚洲综合在线韩国专区福利| 99视频精品全国免费品| 国产精品护士| 一本色道久久88| 欧美国产菊爆免费观看| 国产精品13页| 狠狠亚洲婷婷综合色香| 亚洲男人天堂网址| 高清欧美性猛交XXXX黑人猛交| 亚洲男女在线| 一区二区三区高清视频国产女人| 久久永久免费人妻精品| 五月婷婷综合网| 亚洲天堂成人在线观看| 国产精品福利导航| 欧美精品在线观看视频| 欧美日韩综合网| 中国特黄美女一级视频| 亚洲啪啪网| 国产日韩AV高潮在线| 91在线国内在线播放老师| 全色黄大色大片免费久久老太| 一区二区三区四区精品视频| 成人欧美日韩| 亚洲精品第一页不卡| 中文无码日韩精品| 国产欧美日本在线观看| 亚洲网综合| 久久精品日日躁夜夜躁欧美| 国产成人综合在线观看| 国产国产人成免费视频77777| 日韩在线影院| 久夜色精品国产噜噜| 午夜限制老子影院888| 18禁色诱爆乳网站| av一区二区人妻无码| 国产精品人莉莉成在线播放| 2020国产精品视频| 日本精品视频一区二区| 国产高清在线观看91精品| 国产欧美精品午夜在线播放| 国产高清在线观看91精品| 99这里只有精品在线| 四虎永久在线精品影院| 99精品热视频这里只有精品7| 国产伦片中文免费观看| 国产无码高清视频不卡| 青草视频在线观看国产| 中文字幕乱码中文乱码51精品| 日韩精品免费一线在线观看 | 大乳丰满人妻中文字幕日本| 国产欧美日本在线观看| 波多野结衣的av一区二区三区| 97超碰精品成人国产| 亚洲精品片911| AV色爱天堂网| 亚洲a级毛片|