999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向油田領域的中文真詞錯誤自動校對方法研究

2021-04-09 05:46:57王輝Marius.Petrescu潘俊輝王浩暢張強張巖
計算技術與自動化 2021年1期

王輝 Marius. Petrescu 潘俊輝  王浩暢 張強 張巖

摘 要:中文真詞錯誤自動校對是自然語言理解的一項重要的基礎研究課題,油田數字化過程中利用圖像識別及人工錄入產生的中文真詞錯誤會直接影響后期數據綜合分析準確度。對中文真詞錯誤成因和統計語言模型進行分析,提出一種面向油田領域的中文真詞錯誤自動校對方法。該方法首先構建通用領域和油田領域混淆集,再引入同義詞集豐富知識庫,對語料分詞后,綜合統計分析目標詞與混淆詞、周邊詞的同義詞之間關系,自動校對真詞錯誤。實驗表明, 提出的方法能有效校對油田領域的中文真詞錯誤。

關鍵詞:真詞錯誤; N-gram; 文本自動校對; 知識庫構建

中圖分類號:TP391????? 文獻標識碼:A

Research on Chinese Real-word Error

Automatic Proofreading For Oilfield

WANG Hui1,Marius. Petrescu2,PAN Jun-hui1,WANG Hao-chang1,ZHANG Qiang1,ZHANG Yan1

(1.Department of Computer and Information Technology, Northeast Petroleum University, Daqing,

Heilongjiang 163318, China; 2. Petroleum-Gas University of Ploiesti, Ploiesti 100680, Romania)

Abstract:Automatic proofreading of Chinese real-word errors is an important and basic research issus in NLP, in the process of oil field digitization, Chinese real-word errors generated by image recognition and manual input, which will directly affect the accuracy of later data comprehensive analysis. This paper analyzes the cause of Chinese real-word errors and statistical language models, and proposes an automatic proofreading method of Chinese real-word errors for oilfield. First the confusion sets of general domain and oilfield domain are constructed, then the knowledge base is enriched by adding synonyms set. After word segmentation, the relationship between target word and synonyms words of confosed words and peripheral words was analyzed by comprehensive statistics, real-word errors are automatically checked. Experimental results show that the method proposed? can effectively proofread Chinese real-word errors in oilfield.

Key words:real-word error; N-gram; text automatic proofreading; knowledge base construction

教育部、國家語委印發的《國家中長期語言文字事業改革和發展規劃綱要(2012-2020年)》[1]中提出必須強化國家通用語言文字規范意識,加強語言文字規范標準建設,進一步提高信息化水平。一直以來,中文文本自動校對都是自然語言處理的一個重點研究課題。隨著油田數字化的迅猛發展和推廣實施,油田數據質量問題逐漸凸顯,直接決定著綜合分析實際生產狀態、后期的應用拓展及戰略決策的優劣。因此,中文文本錯誤的校對技術對油田數字化的容錯性,以及數據質量的提高有著非常重要的意義。

首先構建了油田領域真詞錯誤混淆集知識庫,增加了同義詞集,利用NLPIR分詞系統對文本進行分詞處理,在統計語言模型基礎上,提出一種基于局部特征的同義詞泛化N-gram模型,應用于油田特定領域的中文真詞錯誤自動校對。

1 相關工作

1.1 油田領域數據質量控制概況

為解決油田數據質量問題,各油田紛紛研發了各自獨有的數據質量評估系統,數據規范性逐漸成為關鍵的評價指標[2]。油田數據可分為數值數據與文字數據。數值數據來源于各類數據采集設備,主要通過質量規則庫中預先定義的業務規則監督和管理,近年來各油田已取得顯著成效[3]。文字數據來源于人工錄入或陳舊圖紙圖像識別入庫,不可避免會產生錯錄,如“自然伽馬曲線”誤錄成“自然伽瑪曲線”,平臺自動處理時將無法提取到某井自然伽馬曲線數據,導致測井數據的假缺失,目前以采用數據反饋和人工校正核對處理方式居多,嚴重影響后期綜合分析的準確率和數字化平臺自動處理水平。

1.2 中文文本錯誤概述

中文文本錯誤可分為非詞錯誤和真詞錯誤。非詞錯誤,指該詞不在詞典中,如“小層深度”錯寫成“小曾深度”,“小曾”不在詞典中。真詞錯誤,指錯詞仍在詞典中,如“自然伽馬曲線”錯寫成“自然伽瑪曲線”, “伽馬”與“伽瑪”都在詞典中。然而這些常見用語是油田專業術語,在傳統詞典和語料庫中出現頻率非常低。

英文文本自動校對研究起源于上個世紀六十年代,針對其拼寫特點,在真詞錯誤自動校對中用到了統計方法[4]、語言學方法[5]、深度學習方法[6]和混合方法等。中文真詞錯誤校正研究在上個世紀九十年代才開始起步。2012年,吳林等利用多層級基于知識庫的查錯模型,提升了語法和語義查錯效果[7]。2013年,劉亮亮等通過對合并的散串聚類及對其語境的統計分析,提出一種自動獲取錯別字方法[8]。2017年,薛鑫將統計機器翻譯和神經網絡機器翻譯相結合,展開近音錯別字研究,選取候選句中最佳正字句[9]。

1.3 分詞技術

中文撰寫方式不同于英文,詞與詞之間沒有明顯分隔符,在處理自然語言之前,必須先進行分詞處理。國內幾所知名大學和科研機構相繼研發了各自實用的分詞系統,主要采用基于詞典的分詞方法、基于統計的分詞方法和基于理解的分詞方法[10]。中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),在分詞精確度和分詞速度上都占據明顯優勢,堪稱效果最佳的開源分詞系統,主要功能包括中文分詞、詞頻統計、新詞識別及關鍵詞提取等,并從2009年調整命名為NLPIR分詞系統。

1.4 統計語言模型

隨著自然語言理解技術的發展,在傳統的語言模型中,統計語言模型(Statistical Language Model)被廣泛應用于機器翻譯、語音識別和拼寫糾錯等領域[11]。常用的統計語言模型有貝葉斯分類、貝葉斯混合方法、互信息及N-gram模型等。

最常用的識別真詞錯誤的是基于概率統計的N-gram統計語言模型,選擇高概率序列為糾錯建議候選列表。N-gram模型不需要依賴混淆集,模型大小隨著訓練語料大小成指數增長,但卻需要面對數據稀疏問題,一般常采用2-gram或3-gram。

2 知識庫構建

提出的面向油田領域的中文真詞錯誤自動校對方法,側重于結合混淆集和同義詞集知識庫。其中,混淆集除了含有通用的中文真詞混淆集外,必須用到含有油田領域術語在內的中文真詞混淆集,故需構建特定領域中文真詞混淆集。

2.1 通用領域中文真詞混淆集構建

對于通用領域的中文真詞混淆集構建,近年來已有學者深入研究。利用張仰森由音似、形似、義似漢字構建的混淆集[12]和漢語詞典,采用施恒利提出的漢字種子混淆集構建方法構造通用領域中文真詞混淆集[13],篩選出500組通用混淆集數據,如表1所示。

2.2 油田領域中文真詞混淆集構建

在缺乏油田領域真詞混淆集前提下,利用劉希圣等主編的《石油技術辭典》,整理現有語料真詞錯誤,采用張俊祺提出的結合依存句法分析方法構建油田領域中文真詞混淆集[14],因特定領域語料規模有限,選取全部的632組油田領域混淆集數據,如表2所示。

2.3 同義詞集合構建

參照梅家駒等編著的《同義詞詞林》[15]構建同義詞集合,最終篩選了500組同義詞集,如表3所示。

3 基于局部特征的同義詞泛化N-gram模型

3.1 基于局部特征的N-gram模型

N-gram模型以馬爾可夫模型為基礎,統計鄰接詞共現頻次,以反映句子中是否存在真詞錯誤。對句子分詞S=w1,…,wi,…,wm,統計同音詞的左鄰接二元、右鄰接二元、左鄰接三元和右鄰接三元共現頻次,分別計算2-gram和3-gram,采用極大似然估計計算N-gram概率,則在wi-1,wi+1出現的條件下,當count(wi-1wi)≠0時,wi出現的左右鄰接二元概率定義為:

PL(wiwi-1)=count(wi-1wi)count(wi-1)(1)

PR(wiwi+1)=count(wiwi+1)count(wi+1)(2)

式中,count(wi-1wi),count(wi-1),count(wiwi+1),count(wi+1)分別為wi-1wi,wi-1,wiwi+1,wi+1出現的頻次。PL(wiwi-1)表示wi與wi-1同時出現的概率,PR(wiwi+1)表示wi與wi+1同時出現的概率。同理,wi出現的左右鄰接三元概率定義為:

PL(wiwi-2wi-1)=count(wi-2wi-1wi)count(wi-2wi-1)(3)

PR(wiwi+2wi+1)=count(wiwi+1wi+2)count(wi+1wi+2) (4)

式中,count(wi-2wi-1wi),count(wi-2wi-1),count(wi+1wi+2),count(wiwi+1wi+2)分別為wi-2wi-1wi, wi-2wi-1, wi+1wi+2,wiwi+1wi+2出現的頻次。PL(wiwi-2wi-1)表示wi與wi-2wi-1同時出現的概率,PR(wiwi+1wi+2)表示wi與wi+1wi+2同時出現的概率。則基于局部特征的N-gram概率可記為:

P1(wi)=αLPL(wiwi-1)+αRPR(wiwi+1)+

α′LPL(wi|wi-2wi-1)+α′RPR(wi|wi+2wi+1) (5)

式中,αL+αR+α′L+α′R=1

3.2 基于局部特征的同義詞泛化N-gram模型

運用N-gram模型進行評估時,不可避免會遇到數據稀疏問題,一般采用加法平滑、Good-Turing平滑、Kata平滑等數據平滑技術來解決。針對這個問題,顧德之[16]提出同義詞泛化極大三元概率的概念,在此基礎上,對模型繼續改進,提出一種基于局部特征的同義詞泛化N-gram模型,利用改進的二元和三元概率,綜合考慮詞與混淆詞、周邊詞的同義詞之間關系。wi出現的左右鄰接二元概率、三元概率重新定義為:

PL(wiwi-1)=max count(u1wi)count(u1)(6)

PR(wiwi+1)=max count(wiu′1)count(u′1)(7)

PL(wiwi-2wi-1)=max count(u2u1wi)count(u2u1)(8)

PR(wiwi+2wi+1)=max count(wiu′1u′2)count(u′1u′2)(9)

式中,u1屬于wi-1的同義詞集合,u′1屬于wi+1的同義詞集合,u2屬于wi-2的同義詞集合,u2屬于wi+2的同義詞集合。將公式6、7、8、9代入公式5,得出基于局部特征的同義詞泛化N-gram概率。

本文認為所得到最高概率數值的就是正確的詞,將其與句中原詞對比,若不同則將其替換。

4 實驗結果與分析

4.1 實驗數據獲取及預處理

從已通過OCR識別或者人工方式錄入數據的油田數據庫中,隨機抽取300個句子(不區分長句、短句),人工標記錯誤。同時,為了豐富實驗數據,利用將目標詞隨機替換成混淆集或同義詞集中詞語方式自動生成200個錯句。

實驗中,隨機抽取350個句子作為訓練集,剩余150個句子作為測試集。最后,采用NLPIR分詞系統對文本進行分詞預處理。

4.2 評價指標

采用文本校對問題常用的部分性能評價指標,主要有召回率(Recall),精確率(Precision),標準測度F(F_meature),如下所示。

Recall=xz? (10)

Precision=xy? (11)

F_meature=2×Precision×RecallPrecision+Recall(12)

x代表正確校對的錯誤數量,y代表檢測到的錯誤數量,z代表所有實際錯誤數量。F_meature為標準測度,綜合考慮了Precision和Recall影響。

4.3 實驗結果對比分析

為驗證本文提出的方法,對普通2-gram模型、左右鄰接2-gram模型、普通3-gram模型、左右鄰接3-gram模型、基于局部特征的N-gram模型、基于局部特征的同義詞泛化N-gram模型分別進行實驗。在本文中,認為左右鄰接二元與三元概率同等重要,αL、αR、α′L、α′R均取0.25。將其分別應用于通用領域和油田領域結合的混淆集,得到的實驗結果對比如表4所示。

普通3-gram比普通2-gram召回率明顯提高了10個百分點,標準測度略有提升,但精確率略有下降。主要是3-gram有很大的幾率會造成數據稀疏;左右鄰接N-gram各項指標都比普通N-gram效果好很多,其中當N分別取2和3時,實驗結果精確率和標準測度相差不大,左右鄰接3-gram的召回率比N取2時效果略好,但卻比普通3-gram召回率略低。由于基于局部特征的N-gram模型綜合考慮了左右鄰接2-gram和左右鄰接3-gram,召回率與精確率明顯提升很多,標準測度與左右鄰接3-gram相差無幾。所提出的基于局部特征的同義詞泛化N-gram模型,在中文混淆集中加入了同義詞集,使得各項實驗指標明顯提高。

5 結 論

將通用領域中文錯誤混淆集和構建的油田領域中文錯誤混淆集相結合,再引入同義詞集,以基于局部特征的N-gram統計語言模型為基礎,構建一種針對油田領域的中文真詞錯誤自動校對方法。實驗結果表明,相比采用普通N-gram、左右鄰接N-gram以及基于局部特征的N-gram,本文提出的校對方法效果最佳,各項指標都有明顯提升。下一步將完善油田領域混淆集,研究多字錯誤、少字錯誤校對方法,提升校對準確率。

參考文獻

[1] 教育部語用司.《國家中長期語言文字事業改革和發展規劃綱要(2012-2020年)》[J].語文建設,2013,(28):163.

[2] 許立偉.油田開發數據質量的流程化控制研究[J].中國石油和化工標準與質量,2014,34(6):239.

[3] 王浩毅,何小斌,黎恒.油田數字化的發展研究[J].現代工業經濟和信息化,2016,6(17):86-87.

[4] SHARMA S,GUPTA S.A correction model for real-word errors[J]. Procedia Computer Science,2015,70:99-106.

[5] 張帆,王敏.基于深度學習的醫療命名實體識別[J].計算技術與自動化,2017,36(1):123-127.

[6] ZHOU J,LI C,LIU H,et al.Chinese grammatical error correction using statistical and neural models[C].7th CCF International Conference,NLPCC 2018:Natural Language Processing and Chinese Computing:117-128.

[7] 吳林,張仰森.基于知識庫的多層級中文文本查錯推理模型[J].計算機工程,2012,38(20):21-25.

[8] 劉亮亮,王石,王東升,等.領域問答系統中的文本錯誤自動發現方法[J].中文信息學報,2013,27(3):77- 83.

[9] 薛鑫.基于機器翻譯模型的漢語近音錯別字校對方法研究[D].哈爾濱:黑龍江大學,2017.

[10]張俊飛,畢志升,王靜,等.基于BLSTM-CRF中文領域命名實體識別框架設計[J].計算技術與自動化,2019,38(3):117-121.

[11]潘俊,吳宗大.詞匯表示學習研究進展[J].情報學報,2019,38(11):1222-1240.

[12]張仰森,曹元大,俞士汶.基于規則與統計相結合的中文文本自動查錯模型與算法[J].中文信息學報,2006,20(4):1-7.

[13]施恒利,劉亮亮,王石,等.漢字種子混淆集的構建方法研究[J].計算機科學,2014,41(08):229 -232.

[14]張俊祺.面向領域的語音轉換后文本糾錯研究[D].廣州:華南理工大學,2019.

[15]梅家駒,竺一鳴,高蘊琦,等.《同義詞詞林》[M].上海:上海辭書出版社,1983.

[16]顧德之.中文真詞錯誤自動校對方法研究[D].鎮江:江蘇科技大學,2017.

主站蜘蛛池模板: 成人福利在线免费观看| 欧美精品在线看| 亚洲欧美日韩视频一区| 久久综合九九亚洲一区| 在线人成精品免费视频| 一本一道波多野结衣av黑人在线| 四虎亚洲精品| 91精品专区国产盗摄| 色哟哟国产精品| 久久精品视频一| 色久综合在线| 国产va免费精品观看| 国产一区二区视频在线| 国产拍在线| 国产噜噜在线视频观看| 在线观看视频99| 成人福利在线视频| 国产精品尤物铁牛tv| 国产青青草视频| 日本www在线视频| 97狠狠操| 中文字幕一区二区人妻电影| 亚洲精品无码高潮喷水A| 九九热精品免费视频| 国产精品亚洲精品爽爽| 日本午夜网站| 国产高清在线丝袜精品一区| 国产精品福利尤物youwu| 99re热精品视频国产免费| 国产无遮挡猛进猛出免费软件| 国产又粗又猛又爽| 婷婷午夜天| 国产人碰人摸人爱免费视频| 久久精品娱乐亚洲领先| 伊人91在线| 99热这里只有精品国产99| 国产成人高清亚洲一区久久| 67194亚洲无码| 欧美无专区| 超碰精品无码一区二区| 国产第一页第二页| 亚洲欧美日韩视频一区| 欧美成a人片在线观看| 全部毛片免费看| 精品国产毛片| 亚洲人成人无码www| 国产精品制服| 亚洲精品无码AV电影在线播放| 亚洲无码四虎黄色网站| 亚洲一级毛片| 国模沟沟一区二区三区| 91久久精品国产| a级毛片在线免费观看| 99久久精品免费看国产免费软件| 免费一级毛片不卡在线播放 | 色悠久久久| 中文无码日韩精品| 99久久无色码中文字幕| 亚洲一区黄色| 又粗又硬又大又爽免费视频播放| 色九九视频| 国产美女主播一级成人毛片| 无码免费视频| 亚洲香蕉在线| 精品欧美日韩国产日漫一区不卡| 九九热精品免费视频| 免费在线不卡视频| 97综合久久| 91www在线观看| 成人在线综合| 97综合久久| 久久频这里精品99香蕉久网址| 亚洲欧洲综合| 日本五区在线不卡精品| 农村乱人伦一区二区| 国内精品久久久久鸭| 亚洲成人动漫在线观看| 97久久超碰极品视觉盛宴| 亚洲国产欧美自拍| 国产91久久久久久| 日韩在线播放中文字幕| 国产在线一区视频|