999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的文本自動校對系統及實驗結果分析

2023-03-30 07:30:18王燕鳳
科學技術創新 2023年5期
關鍵詞:語義文本系統

王燕鳳

(西北民族大學,甘肅 蘭州)

隨著“互聯網+”時代的到來,數字辦公成為主流,數字圖書也越來越多,在這一背景下文本自動校對的需求越來越迫切,中文文本自動校對逐漸成為熱門研究課題。目前常用的文本自動校對系統大多存在算法復雜、工作量大、耗費時間多等弊端,實用性較差。本研究設計了一種基于自然語言處理的文本自動校對系統,并對其應用效果進行了實驗分析。

1 基于自然語言處理的文本自動校對系統

1.1 字詞校對

1.1.1 語料庫的構建

該系統字詞校對功能的實現方式是檢查相鄰的字與字之間、字與詞之間、詞與詞之間是否存在錯誤。本研究統計了2020 年1-12 月份《人民日報》中的文章,共計377 萬字,整理成一個18.5 M的語料庫。通過分詞和詞性標注處理,從字詞組合特點、詞性等方面綜合分析系統進行自動化文本校對處理時的規律特點。實際上,使用大數據技術進行數據自動分析、整合,建立語料庫后,應定期根據人們用詞習慣來更新語料庫的內容,提升自動校對的準確度。

1.1.2 基于接續關系的查錯

本研究根據字詞間的二元接續關系檢查目標字串附近字詞的相鄰關系。假設有一個字串為A1A2…Ai-1AiAi+1…An,如果需要判斷Ai(這里Ai為單個漢字或詞語)與相連字詞間的關系,根據語言學中的”二元模型”理論,只需要檢查Ai-1和Ai,以及Ai和Ai+1的關系即可。在一個包含了海量字詞的語料庫中,假設從Ai-1到Ai的轉移概率為P(Ai/Ai-1),并且P 滿足一定的閾值限定,則認為Ai-1和Ai存在二元接續關系。在文本自動校對系統的應用中,要想判斷Ai是否出錯,可以先判斷Ai-1和Ai是否接續。如果接續,則Ai沒有出現錯誤,完成本次查錯;如果不接續,還需要繼續判斷Ai和Ai+1是否接續。如果兩者也不接續,可以認定Ai出現錯誤[1]。

1.2 語法成分的查錯算法

基于語法成分的查錯策略如下:首先利用規則庫中的規則處理被檢查的句子,成功識別出該句子中的主語、謂語等成分塊;然后按照“從下往上”的順序,依次進行短語、短句的結構糾錯校對。此時,斷句所使用的標點符號、空格,都可能影響自動校對系統的準確性,需要引起重視。文本自動校對系統在語法查錯時,需要提前進行句子的預處理,進行相關短句的串聯和捆綁,從而起到提高識別精度、保證分析結果正確的效果[2]。對于句子中的不同成分(如主語、謂語、賓語、補語等),采取的識別和檢查策略各有不同,這里以謂語為例,識別和檢查算法如下:

1.3 語義校對

1.3.1 建立依存關系

本系統采用基于實例的語義查錯,具體方法為:確定待校對的句子后,首先對該句子的組成結構展開分析。收集網絡系統中相關的句子案例,組成一個集合n。分別計算集合n 中每一個實例與待校對句子的相似度,并挑選出相似度最高的實例i。將i 與待校對句子進行對比,即可得出查錯結果。該方法雖然操作起來比較簡單,但是由于集合n 中的實例數量較多,語義相似度計算的工作量大。為了減輕相似度計算的工作量,本研究提出了一種基于依存關系的解決辦法。根據語義依存語法,詞之間的關系是有方向的,根據兩者之間方向的不同,可以建立起支配與被支配的關系,這種關系就是依存關系。其中,支配詞又叫做中心詞,可以表現它所在短語的主要語法、語義特征[3]。

1.3.2 句子相似度計算

語義相似度計算是語義查錯的關鍵,利用依存關系進行相似度計算時,只需要考慮那些有效搭配(全句核心詞和直接依存于其有效詞組成的搭配)之間的相似程度。通常情況下,句子中的有效詞主要是動詞、名詞和形容詞。現在以2 個例句為例,介紹計算方法。

例句1:事發后,傷員被及時送往就近醫院救治。

例句2:晚上七時左右,所有傷員被送到了醫院。

根據語義依存關系構建兩個例句的依存樹,見圖1。

根據圖1 可知,在例句1 中,“送往”是關鍵詞,搭配結構是:送往__傷員、送往__醫院、送往__救治;例句2 中,“送到”是關鍵詞,搭配結構是:送到__傷員、送到__醫院。這樣一來,只需要計算兩者之間的相似程度即可,從而簡化了相似度計算的工作量,并且對提高校對結果的精確度也有一定幫助。相似度計算公式為:

圖1 例句1 和例句2 的依存樹

結合表1 的權重定義,例句1 和例句2 的相似度為:

表1 搭配匹配權重的設計

根據相似度結果,將待檢測句子與相似度最高的句子進行對比,即可判斷是否存在語義錯誤,從而完成語義校對。

1.4 文本校對

1.4.1 構造易混淆詞典

不同于上文介紹的字詞查錯和語法查錯,文本自動校對分為2 方面的內容,即查錯和糾錯。糾錯是根據查找出來的錯誤,提出相應的改正策略。針對常規糾錯方法存在的弊端,本研究在設計文本自動校對系統的糾錯模塊時,吸取了上述方法各自的優勢,提出了一種新的糾錯方法。首先,綜合考慮了中文文本中常見錯誤的類型,以及每種錯誤的特征,完成有關詞典內容的收集,作為系統自動識別錯誤用詞的參照物。一旦發現文本錯誤,應結合同現概率表,選出一些可替換的詞匯作為糾錯建議。如果無法產生糾錯建議,則采用人工添加的方式,將糾錯建議和對應的錯誤字串一同添加到易混淆詞典中,使得易混淆詞典具備了自學能力。這樣就可以不斷的豐富詞庫中的易混淆詞,從而讓文本自動校對系統的糾錯能力得到持續提升[4]。易混淆詞典的自學習原理見圖2。

圖2 易混淆詞典的自學習原理

1.4.2 糾錯算法編程

現階段,文本自動校對系統可以對一些字詞級錯誤給出相應的糾錯建議,但是對于語法錯誤、語義錯誤則很難給出準確的糾錯建議。因此,本研究使用了糾錯產生算法對除字詞級錯誤以外的其他錯誤類型進行糾錯。以例句3“我們認為可疑延長時間。”為例,“可疑延長”是文本自動校對系統查找出的錯誤字。糾錯產生算法的編程思路如下:

2 文本自動校對系統的搭建與實驗

2.1 系統的文本自動校對流程

本研究設計的文本自動校對系統由校對預處理模塊、查錯模塊(包括字詞級查錯、語法級查錯、語義級查錯3 部分)和校對糾錯模塊組成。其功能實現流程為:

步驟1:輸入或打開一個文本,按照順序讀入單句,并進行文本的預處理。采取雙向模式匹配法,依托預選設定好的詞庫,識別漢字文本的組成結構,確定詞組的詞性。

步驟2:構造字頻向量、二元詞性同現頻率表,得到查錯知識庫。利用該系統的查錯模塊,識別詞組之間的連接順序、連接方式是否存在錯誤,完成基礎糾錯任務。另外,通過對句子中成分是否完整進行分析,精準識別語法錯誤,這需要選用依存文法對語義錯誤進行查錯。

步驟3:借助于易混淆詞典、同現概率表,對上一步中查找出來的錯誤進行定位,并生產相應的糾錯建議,完成糾錯。

步驟4:糾錯完畢后,執行一個判斷程序“文本處理是否結束?”如果有未處理的文本,則返回步驟1,繼續讀入尚未處理的文本,并重復上述步驟;如果文本處理完畢,則由系統自動生成語料文本,并在人機交互界面上顯示處理結果,文本自動校對程序結束[5]。

2.2 實驗內容

從某雜志的127 篇文章中,挑選出185 個正確句子,以及180 個存在錯誤的句子,其中有50 個字詞級錯誤句子、110 個語法級錯誤句子和20 個語義級錯誤句子。部分病句如下:

(1)他是本地一家知名企業的總載。(“載”為錯別字,應為“裁”)

(2)本縣蘋果的品種非常多,這里無法一一例舉。(“例舉”應為“列舉”)

(3)德國總理授予法院獲得簽發“禁止未成年人進入酒吧證”的權力。(多字,應刪除“獲得”)

將其放到同一個文本中,輸入本研究設計的文本自動校對系統。為保證系統校對結果的客觀性和直觀性,本次實驗中引入了以下參數:

(1)召回率=正確發現句子數/實際錯誤句子數×100%。

(2)誤報率=(發現錯誤句子數- 正確發現句子數)/ 發現錯誤句子數×100%。

(3)查準率=1- 誤報率。

2.3 實驗結果

文本自動校對結果見表2。

表2 測試結果

結合表2 數據可知,本研究設計的文本自動校對系統具有較高的召回率和查準率,基本上能夠維持在70%以上。其中,該系統對于文本中語法級錯誤句子的召回率和查準率最高,分別達到了89.1%、89.2%。

3 結論

本研究設計的文本自動校對系統可以實現字詞查錯、語法查錯、語義查錯,并且能夠對查找出來的文本錯誤,提出相應的糾正建議。從實驗結果來看,該系統對常見文本錯誤的查準率和召回率均達到了70%以上,表明本研究設計的文本自動校對系統可以快速、準確地完成對目標文本的錯誤查找。下一步,還需要繼續擴充語料庫,并且不斷優化語料庫的語言規律,從而使文本自動校對系統更廣泛地適用于不同領域、不同風格的文章。

猜你喜歡
語義文本系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产精品久久久久久搜索| 亚洲人成网7777777国产| 伊在人亚洲香蕉精品播放| 免费观看精品视频999| 成人一区在线| 国产精品免费福利久久播放| 国内熟女少妇一线天| 四虎AV麻豆| 亚洲无码一区在线观看| 久久精品只有这里有| 伊人成人在线| 国产日韩欧美成人| 亚洲国产成人麻豆精品| 欧美一级在线播放| 91啪在线| 中文无码精品A∨在线观看不卡| 欧美日本在线观看| 欧美中文字幕无线码视频| 亚洲欧美在线综合图区| 青青青国产视频手机| 91精品亚洲| 成人小视频在线观看免费| 国产欧美日韩专区发布| 国产毛片基地| 国产精品成人不卡在线观看| m男亚洲一区中文字幕| 日本亚洲成高清一区二区三区| 最近最新中文字幕免费的一页| 国产小视频a在线观看| 一级毛片在线播放| 国产特一级毛片| jizz在线免费播放| 国产av无码日韩av无码网站| 亚洲欧美成人在线视频| 亚洲二区视频| 91精品专区国产盗摄| 波多野结衣无码视频在线观看| 五月婷婷激情四射| 热久久这里是精品6免费观看| 黄色网在线| 久久精品这里只有精99品| 青青极品在线| 亚洲一区二区精品无码久久久| 国产美女在线观看| 91在线中文| 中文字幕亚洲专区第19页| 国产午夜人做人免费视频中文 | 免费在线观看av| 日韩国产无码一区| 国产在线高清一级毛片| 自偷自拍三级全三级视频 | 97久久免费视频| 免费无码AV片在线观看国产| 亚洲成人一区二区| 国产成人无码久久久久毛片| 动漫精品中文字幕无码| 成人小视频在线观看免费| 一本大道香蕉久中文在线播放 | 啊嗯不日本网站| 日韩精品成人网页视频在线| 国产第三区| 精品国产福利在线| AV无码国产在线看岛国岛| 国产91麻豆免费观看| 五月天久久综合国产一区二区| 国产精品女人呻吟在线观看| 国产尤物视频网址导航| 97se亚洲综合在线| 亚洲性影院| 亚洲成aⅴ人片在线影院八| 中文字幕免费在线视频| 国产va在线观看| aaa国产一级毛片| 日本少妇又色又爽又高潮| 国产综合色在线视频播放线视| 国产精品久久精品| 国产午夜人做人免费视频| 国产91在线免费视频| 成人永久免费A∨一级在线播放| 亚洲高清中文字幕| 精品第一国产综合精品Aⅴ| 欧洲亚洲一区|