999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向規范性文件的基于BERT的文本糾錯模型

2022-06-07 06:14:52汪蘇琪王明文曾雪強
山西大學學報(自然科學版) 2022年2期
關鍵詞:規范性文本模型

汪蘇琪,王明文,曾雪強

(江西師范大學 計算機信息工程學院,江西 南昌 330022)

0 引言

行政規范性文件是各級機關、團體、組織制發的各類文件中最主要的一類,因其內容具有約束和規范人們行為的性質,故名稱為規范性文件。它具有數量大、權威性強等特點,這類文件的文本往往是需要反復審核之后才能發表的,劣質的行政規范性文件會侵犯公民、法人和其他組織的合法權益,更會極大地損害當地政府公信力。因此,輔助有關工作人員對行政規范性文件進行文本糾錯就具有了現實意義。

在中文文本糾錯任務領域,易蓉湘等[1]提出了中文基于規則的查錯方法,對錯誤的中文文本進行歸納,得到錯誤規則的模板,積累了這些規則之后,再將可能的錯誤句子與模板進行對比,檢索出錯誤詞。該查錯方法的準確率較高,但是由于錯誤規則模板不可能面面俱到,其他不符合錯誤規則模板的錯誤無法檢錯,因此召回率很低。張仰森等[2]選擇以規則和統計相結合的方式對政治新聞的文本進行糾錯,首先得到一個以政治語言為特征的錯誤規則模板,再結合規則與統計的方法實現文本糾錯。卓利艷[3]的中文文本自動校對系統使用的方法是條件隨機場和N-gram[4]模型,將文本進行錯誤類型分類,最后再以規則、統計的方式進行糾錯。

近年來,已有的文本糾錯研究工作大部分以 seq2seq[5](Sequence to Sequence,序列到序列的模型)模型框架為基礎,進行文本糾錯。他們把文本糾錯任務當作機器翻譯任務來處理,它的主要思路是把文本糾錯問題看成同一類語言的翻譯問題,即把錯誤文本翻譯為正確文本,主要實現方法是基于注意力機制的Encoder-Decoder模型。 Fu等[6]采用的基于注意力機制的 Transformer和 Zhou等[7]采用的基于 BiLSTM[8](Bidirectional Long Short-Term Memory,雙向長短期記憶網絡)和Attention[9]機制的神經翻譯模型都在2018年NLP&CC比賽的中文語法糾錯比賽中取得了很好的成績。薛鑫[10]采用了統計機器翻譯和神經網絡機器翻譯相結合 的 方 法 ,以 RNN[11](Recurrent Neural Network,循環神經網絡)和N-gram語言模型選取候選詞。黃改娟等[12]模擬人類閱讀過程提出了一種基于動態文本窗口的糾錯方法,葉俊民等[13]將檢錯和糾錯兩個階段作為一個整體,提出了一種基于層次化修正框架的文本糾錯模型,提高了模型的解碼速度。

隨著文本糾錯任務的應用越來越廣泛,研究者對于各類不同的應用場景提出了有針對性的文本糾錯方法。陳翔等[14]在文本數字化工作中以頻率統計樹構建查錯模型,提出了規則與統計結合的自動糾錯方法。韓彥昭等[15]針對微博文本中諧音詞比重較大的特點使用條件隨機場模型進行了文本的詞性標注,用貝葉斯方法計算諧音詞的原生詞候選進行微博文本的糾錯。

雖然已有的文本糾錯工作取得了一定的效果,但目前還缺少專門針對行政規范性文件的文本糾錯任務的算法,不利于有關工作人員更加高效地開展工作。因此,針對有關工作人員在對行政規范性文件的寫作過程中的檢查錯誤、糾正錯誤、文本校對等環節,本文根據上述研究中存在的問題,提出了一個面向規范性文件的基于 BERT[16](Bidirectional Encoder Representations from Transformers,一種經典的自然語言處理領域的預訓練方法)的文本糾錯模型。該方法能夠用計算機自動分析文本中的語義信息,并且針對文本中常見的冗余、缺失、錯序、錯字等錯誤[17]進行糾正,幫助工作人員及時發現錯誤并改正,減輕司法人員的負擔,提高他們的效率。

1 模型

本文提出了基于BERT的規范性文件糾錯模型,將中文文本的糾錯過程拆成兩個階段,分別為檢錯階段和糾錯階段。

1.1 檢錯階段

檢錯階段使用的是基于BERT-BiLSTMCRF(Conditional Random Field,條件隨機場)的序列標注模型以及命名實體識別方法過濾實體部分,在該階段,模型可以標注出句子中文本錯誤的位置。糾錯階段分四種錯誤類型分別建模,其中冗余類錯誤的糾正是通過刪除冗余部分來完成的;錯序類錯誤的糾正是通過顛倒錯序位置順序來完成的;缺失類錯誤是通過BERT掩碼語言模型預測缺失部分來完成的;錯字類錯誤是通過BERT掩碼語言模型和混淆詞匹配相結合的方法來完成的,借此四個模型完成糾錯功能。

1.1.1 基于BERT-BiLSTM-CRF的序列標注模型

基于BERT-BiLSTM-CRF的序列標注模型分為BERT層、BiLSTM層和CRF層共三層,一個待檢測的文本序列通過該模型之后,可以判斷該文本序列是否有誤及有誤時的錯誤類型。

(1)BERT層

對于一個待檢測的中文文本序列,將其表示為 W={w1,w2,w3,…,wn}。那么這個輸入序列對應到BERT模型中,就會分別生成token embedding、segment embedding和 position embedding三個詞嵌入(分別為字符向量、句子向量和位置向量),將這三個詞嵌入組合起來就成了BERT 的 輸 入 序 列 X={x1,x2,x3,…,xn},這 個輸入序列包含每個token的字符信息、句子信息以及它們的位置信息。與其他的語言模型相比較,BERT預訓練語言模型可以對詞前后兩側的信息進行充分的利用,以此得到更佳的詞分布表征式。

(2)BiLSTM層

中文文本糾錯的結果在一定程度上受到上下文信息的影響,因此希望模型在序列中加入上下文信息。對于BERT的輸入序列X={x1,x2,x3,…,xn},將它分別加入兩個 LSTM 模型中。第一個LSTM是正向流動的,每一個token的隱藏狀態與上一個token的隱藏狀態和本token的值有關,也就是得到的隱層序列H={h1,h2,h3,…,hn}中,hi的值由 hi-1的值和 xi的值計算得到,隱層序列H包含了前向token的信息。第二個LSTM與第一個LSTM形式相同,只是從前向變成了后向輸入,因此隱層序列H′={h′1,h′2,h′3,…,h′n}中 ,h′i的 值 由 h′i+1的值和xi的 值計算得到,隱層序列H′包含了后向token的信息。將前向隱層序列H和后向隱層序列H′直接拼接在一起,就得到了同時包含前向信息和后向信息的 一 個 序 列 Y={y1,y2,y3,…,yn},其 中 yi=[hi,h′i]。BiLSTM 層最終的輸出由包含過去的信息和包含將來的信息兩部分共同組成。

(3)CRF層

CRF專注于解決序列標注難題,混合了隱馬爾可夫模型和最大熵馬爾可夫模型的優勢,以此來應對序列標注問題中的標注誤差難題。這個模型的學習和預測是以樣本特征生成的,它可以根據設置的特征模板進行特征選取,再把特征權重優化,以此得到最優結果。

CRF層的輸入是經過BERT層和BiLSTM層訓練后得到的序列 Y={y1,y2,y3,…,yn},對于這個輸入序列,條件隨機場遵從訓練模型形成與之相匹配的標簽序列L,且每個標簽L都從一個指定的標簽集中選取。

在本文的中文文本糾錯任務中,相鄰文字之間的標記信息是至關重要的,因此在模型中加入了CRF層來捕捉這種關系。參考常見的序列標注過程,將CRF層放置在神經網絡架構的最后一層,把BiLSTM層的輸出作為序列輸入進行處理,對每個字符進行分別標注,圖1中,“O”為正確字符的標注,“W”為錯誤字符的標注。基于BERT-BiLSTM-CRF的序列標注模型的流程圖如圖1所示。

圖1 BERT-BiLSTM-CRF流程圖Fig.1 Flow chart of BERT-BiLSTM-CRF model

1.1.2 實體過濾器

在行政規范性文件中,包含大量的實體,這些實體內容包括人名、地名、機構名、日期等,這些實體往往沒有什么規律且包含了豐富的語義信息,是文本中至關重要的語義單位。BERT-BiLSTMCRF模型在進行錯誤檢查時,很容易把這些實體識別為錯誤的情況。因此,本文希望用命名實體識別[18]方法把文本中的實體找出來并進行特殊處理,降低系統誤判人名、地名等信息為錯誤的可能性。

本文用BERT-BiLSTM-CRF模型為句子標注出文本的錯誤標簽,用訓練好的命名實體識別模型為該句子標注出文本的實體標簽。判別錯誤標簽是否是實體標簽的一部分,如果是的話,和實體集匹配對比,匹配到相同的實體,則取消這個錯誤標簽,沒有匹配到相同的實體則保持標簽不變。如果不是實體的一部分,則直接進入下一階段。實體過濾器流程圖如圖2所示。

圖2 實體過濾器流程圖Fig.2 Flow chart of entity filter

1.2 糾錯階段

序列標注模型預測出句子每個字所對應的標簽以后,我們可以根據這些標簽進行糾錯處理。針對冗余、缺失、錯序、錯字等4種不同的標簽,本文提出了4種不同的解決方案。

(1)對于冗余類錯誤,我們在檢錯階段標記出錯誤位置,并刪除了冗余部分。

(2)對于錯序類錯誤,我們在檢錯階段標記出錯誤位置,將標記為錯序的部分順序顛倒回來。

(3)對于缺失類錯誤,我們在缺失部分加上一個“[mask]”掩碼標簽,即原序列改為“聽證程[mask]按照”。我們將這個包含掩碼標簽的句子輸入到BERT的掩碼語言模型中,用這個掩碼模型預測“[mask]”的內容。取若干個預測到的詞為結果替換“[mask]”,補充到句子中,這樣得到若干個候選句子,從這幾個詞中選擇最有可能的詞作為結果輸出。

(4)對于錯字類錯誤,我們把錯字部分替換成了“[mask]”掩碼標簽,即“被征求[mask]見的部門”。首先,使用BERT掩碼語言模型預測“[mask]”的內容,取若干個預測到的詞為結果替換“[mask]”,補充到句子中,這樣得到若干個候選句子。其次,如果句子標注為“W”的詞X出現在混淆集[19]中,則進行混淆詞替換糾錯處理,將混淆集中的混淆詞進行逐一替換,然后再通過模型對替換后的句子進行標注,計算替換后的詞被標注為“W”的概率,取其中混淆集中最小概率值的混淆詞記為Xj,如果P(X)-P(Xj)>β(β為閾值),Xj為正確的預測詞,同樣選取若干個預測詞組成預測句子。最后,綜合兩個方法選取出的預測句子,選取出可能性最大的預測句子作為結果輸出。糾錯階段的流程圖如圖3所示。

圖3 糾錯階段流程圖Fig.3 Flow chart of error correction stage

2 實驗

2.1 實驗數據及標注

本文的數據集來源于某市提供的審核文件集,文件集主要涉及某市各類《實施方案》《通告》《報告書》《實施意見》等各類行政規范性文件,每一份文件包含若干個細則,一共有106個審核文件。經過提取、統一格式、分句、篩除無用數據等方式預處理之后,以句號為分隔符將長段落分割,最終獲得了9 176個句子,這些句子總共包含419 535個字符,最長的長度為502,句子的平均長度為47。

為了生成冗余、缺失、錯序、錯字等4類錯誤句子,我們分這4種情況把9 176個句子分別改造為符合其中一種錯誤的句子。冗余錯誤類數據的構造方式是在句子序列中隨機選取一個漢字字符并重寫一次這個字符接在后面,標記字符的位置并將錯誤類型標為“R”;缺失錯誤類數據的構造方式是在句子序列中隨機選取一個漢字字符并刪去這個字符,標記字符的前項和后項并將錯誤類型標注為“M”;錯序錯誤類數據的構造方式是在句子序列中隨機選取兩個相鄰的字符調換順序,標記這兩個字符并將錯誤類型標為“N”;錯字錯誤類數據的構造方式是在句子序列中隨機選取一個漢字字符,選中的字符有50%的可能替換為該詞混淆集中的同音、相似字形的字符,另50%的可能是隨機替換成其他字符,標記這個字符并將錯誤類型標為“S”。以此得到的數據集,其數據格式如圖4所示。

圖4 行政規范性糾錯文本數據集數據樣例Fig.4 Data sample of administrative normative error correction text

最后得到一個基于行政規范性文件的文本糾錯數據集,它包含36 704條數據,選取其中的80%作為訓練集,另外20%作為測試集。在測試集中還加入了相同數量的正確句子,作為測試時的正例。

完成數據集的構建之后,根據任務需要對數據集的每條數據進行序列的標注,標注規則如表1所示。

表1 數據標注規則Table 1 Rules for data labeling

2.2 實驗結果與分析

Pycorrector是一個在Github上開源的中文文本糾錯工具,它常用于音似、形似錯字(或變體字)的糾正,可用于中文拼音,筆畫輸入法的錯誤糾正,它的開發語言是python3。Pycorrector實現了一些通用的糾錯方法,該工具適合用于作為中文文本糾錯的基線模型。在本次實驗中構建的數據集下,將本文基于BERT的規范性文件糾錯模型與Github上經典的開源中文文本糾錯項目Pycorrector作為比較,把檢錯和糾錯兩個階段分別進行對比。

檢錯階段如表2所示。本文構建的基于BERT的規范性文件糾錯模型在精確率、召回率和F1值上均有較大的提升。相比于Pycorrector的檢錯模型,精確率上提升了3.37%,召回率上提升了4.17%,F1值提升了4.04%。說明本文構建的糾錯模型在行政規范性文件構建的數據集上擁有比Pycorrector的檢錯模型更好的結果。

表2 檢錯模型對比表Table 2 Comparison of error detection models

糾錯階段如表3所示。本文構建的基于BERT的規范性文件糾錯模型在糾錯階段的精確率、召回率與F1值也有很大的提升,相比于Pycorrector的糾錯模型,精確率提升了4.71%,召回率上也提升了9.92%,F1值提升了9.48%。

表3 糾錯模型對比表Table 3 Comparison of error correction models

通過實驗結果我們容易得知,本文提出的新模型相較于經典的Pycorrector在模型的效果上更勝一籌,實證表明,在檢錯階段,使用了BERT-BiLSTM-CRF的序列標注模型和命名實體識別方法進行實體標注的新檢錯模型,相較于以統計語言模型為主的Pycorrector檢錯模型的效果有了更大的提升。而在糾錯階段,與使用了BERT掩碼語言模型和混淆集匹配方法相組合的新糾錯模型相比較,Pycorrector的糾錯模型也有所不如。

3 結論

本文提出了一個基于BERT的規范性文件糾錯模型,這個模型在我們構建的基于行政規范性文件的文本糾錯任務的數據集上取得了較好的效果,實驗結果表明它能很大程度上輔助司法工作人員對行政規范性文件審核,提高工作效率。此外,對于下一步工作,本文提出了一些改進的思路:我國的行政規范性文件中經常會出現縮略詞來精煉地表達意思,這類縮略詞很容易被系統誤判,可以考慮針對這種特殊現象給出一個特定的解決方法;本文模型因為對錯誤類型的細化而取得了更好的效果,可以針對其中的效果不夠好的錯字類型進行進一步細分以提升錯字類的準確度。

猜你喜歡
規范性文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
自然資源部第三批已廢止或者失效的規范性文件目錄
礦產勘查(2020年7期)2020-01-06 02:03:17
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
作為非規范性學科的法教義學
法律方法(2018年3期)2018-10-10 03:20:38
我國知識產權判例的規范性探討
知識產權(2016年1期)2016-12-01 06:56:38
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 狠狠色综合网| 五月婷婷亚洲综合| 99ri精品视频在线观看播放| 国产乱子伦视频在线播放| 风韵丰满熟妇啪啪区老熟熟女| 亚洲资源站av无码网址| 欧美激情二区三区| 在线观看国产精品日本不卡网| 国产福利免费在线观看| 免费毛片视频| 亚洲国产午夜精华无码福利| 2020国产精品视频| 国产成人亚洲精品无码电影| 91偷拍一区| 九色免费视频| 91色老久久精品偷偷蜜臀| 91久久国产综合精品| 免费AV在线播放观看18禁强制| 国产亚洲视频免费播放| 一本久道久久综合多人| 日本一区二区三区精品AⅤ| 综合久久久久久久综合网| 香蕉精品在线| 97在线观看视频免费| 久久www视频| 色呦呦手机在线精品| 日韩无码真实干出血视频| 亚洲一区二区三区香蕉| 黑人巨大精品欧美一区二区区| 亚洲人成网站色7799在线播放| 日日碰狠狠添天天爽| 毛片最新网址| 成人日韩欧美| 一级毛片无毒不卡直接观看| 国产无码在线调教| 伊人天堂网| 亚洲av无码牛牛影视在线二区| 国产精品开放后亚洲| 色噜噜狠狠狠综合曰曰曰| 99re热精品视频中文字幕不卡| 激情综合网址| 综合人妻久久一区二区精品 | 亚洲福利一区二区三区| 色网站在线免费观看| 国产成人无码AV在线播放动漫| 538国产在线| 亚洲码在线中文在线观看| 国产无码制服丝袜| 天堂中文在线资源| 亚洲国产看片基地久久1024| www亚洲天堂| 成人av专区精品无码国产| 呦系列视频一区二区三区| 久久久久久久久18禁秘| 亚洲无码视频图片| 中文毛片无遮挡播放免费| 成人午夜久久| 五月激情婷婷综合| 亚洲色图综合在线| 亚洲香蕉伊综合在人在线| 在线观看免费黄色网址| 高潮毛片免费观看| 欧美一级爱操视频| 亚洲三级成人| 亚洲精品国产综合99| 成人福利一区二区视频在线| 亚洲第一极品精品无码| 久久久久无码精品| 国产免费a级片| 国产91九色在线播放| 亚洲中文久久精品无玛| 免费国产福利| 99激情网| 欧美日韩免费| 99在线观看国产| 欧美午夜一区| h视频在线播放| 伊人久久精品亚洲午夜| 久久青草免费91观看| 激情亚洲天堂| 免费一级无码在线网站| 91综合色区亚洲熟妇p|