999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語料庫的中文自動查錯綜述

2009-08-31 07:45:16蘇炳均
中國經貿導刊 2009年13期
關鍵詞:文本方法模型

蘇炳均

一、引言

隨著計算機的逐步普及和廣泛應用,電子文本逐漸成為人們傳遞信息、記載重要文件和數據的主要手段之一。而使用計算機進行文字錄入編輯,不可避免地會出現一些文字錯誤,例如丟字、多字、別字、英文單詞的拼寫錯誤等等。在出版業,校對(proofread)工作是出版前審核把關的重要環節。而且目前大多采用人工校對的方法,校對工作單調,勞動強度大,效率低,人工校對越來越成為印刷出版自動化的瓶頸。

中文自動校對包含自動查錯和自動糾錯兩個環節。前者是指利用統計或規則的方法發現輸入文本中的錯誤;后者是指為自動查錯時偵測出的錯誤字符串提供修改建議,輔助用戶改正錯誤。本文主要研究了基于統計的字詞級的查錯方法,并提出了改進的方向。

二、中文文本錯誤分析

中文文本的錄入錯誤主要有如下幾種:

詞錯:即中文詞的輸入錯誤,將詞中的某字錯錄為另一字。中文詞分為一字詞、二字詞、…七字詞。經大量的實際文本錯誤分析發現,這類錯誤主要表現為一字詞錯、二字詞錯和多字詞錯。對于單字詞錯,主要使用規則的方法解決;對于多字詞錯,主要使用詞的模糊匹配技術來校正。

多字錯:即輸入了多余的漢字。這種錯誤有時表現為該多字與其前或后的字字形相同或字音相同。例如:“我們的社會會是一個法律的社會”,輸入了多余的字“會”。這種錯誤可先用語法分析查出,然后再針對錯誤類型進行校錯。

少字錯:即輸入中漏掉了一個或幾個字。這種錯誤主要表現為缺少了單字詞或一字詞。例如:將“法律上完全平等”錯錄為“法律完全平等”。這種錯誤可用語法分析的方法查出。

數字錯:錄入文稿中常見數字錯表現為阿拉伯數字錯。這種錯誤可歸納為二類:①對應位置數字錯,如“256”錯錄為“257”;②漏數字,如“43214”錯錄為“4214”。這類錯誤是自動校錯系統無法解決的錯誤之一,只能通過與原文對照解決。

英文字母錯誤:錄入文本中常常夾雜著英文。由此發生的錯誤有如下三類:①少字母,如“student”錯錄為“studnt”;②多字母,如“happy”錯錄為“haappy”;③字母錯,如“of”錄入為“od”T這類錯誤可通過詞匹配和音節片斷的矯正技術來解決。

很難解決的錯誤:這種錯誤表現為錯誤語句合乎語法,并且,如果是多字詞錯,則結果也成詞。例如:“擴大利用外資人才外貿易”,“人才”應為“和對”;“年利潤為一百多元人民幣”,“元”應為萬”。

三、中文自動校對的研究狀況

目前的中文自動校對方法多是字、詞級別上的統計方法,它們使用的語言模型比較簡單,利用的語言學知識也不豐富。一方面,中文自動校對方法的性能指標有待提高。另一方面,迄今為止還沒有找到一種理論來解決自動校對中的偵錯和糾錯兩個基本過程。

自然語言處理的兩類方法:基于規則的方法和基于統計的方法。規則方法最常見的是以一定的形式文法系統來表述自然語言中大小成分間的組合規則;統計方法則以各種統計數據來顯示語言成分間的組合可能性。在實際操作上前者的知識來自專家的內省,后者則是由計算機從真實語料中統計得來。

四、自動查錯的研究狀況

總的來說,目前文本校對的理論和技術都不太成熟,但比較一致的看法是,自動查錯和糾錯應該在詞法、語法和語義3個層次上進行。本文主要研究的是在詞法一級進行的自動差錯。

(一)分詞

在進行文本內容分析之前,首先要對文本進行預處理。也就是對文本進行詞的切分,從文本中抽取詞匯,即將字串變成詞串。這種預處理叫做分詞,其目的在于提高確定性。分詞是文本自動校對的第一步,占有很重要的地位,是后續語法、語義分析研究的基礎。分詞的正確率的高低直接影響到校對系統校對質量的高低。

最大概率法分詞是一種比較典型基于統計的分詞方法。其基本思想是:(1)一個待切分的漢字串可能包含多種分詞結果;(2)將其中概率最大的那個作為該漢字串的分詞結果。例如:“有意見分歧”這個漢字串,有兩種可能的分詞結果。Wl:有/意見/分歧和W2:有意,見/分歧。按照最大概率法的思想,就是要比較P(W1)和P(W2),概論更大的詞串作為分詞的結果。

計算詞串w(W1,W2,…,Wn)的概率P(w),最簡單的做法是把詞串w中的各個詞看作互不相干的獨立事件,以每個候選詞的概率來求得整個詞串的概率。這種模型又稱為一元模型(1 gram)。公式如下:

P(W)=P(W1,W2,…,Wn)=P(W1)*P(W2)*…*P(Wn)(公式1)

而任何一個詞Wi的概率由它在已有語料庫中出現的頻率來近似估計,即:

P(Wi):Wi在語料庫中的出現次數n/語料庫中的總詞數N(公式2)

根據公式(1)和公式(2),就可以計算出每個詞串的概率,進而把概率值最大的那個作為分詞結果。

上述一元模型(1 gram)是把各個詞簡單的看作毫不相關。如果考慮相鄰兩個詞的同現概率,就是二元模型(2一gram),相應地,如果考慮連續三個詞的-同現概率,就是三元模型(3 gram),依次直到n元模型(n-gram)。

(二)N元查錯模型

早期的基于統計的查錯對方法主要使用N元查錯模型。英文中通常使用的N元模型主要有詞和詞性的二元、三元模型,中文里主要有漢字的二元、三元模型。

以詞的三元模型為例,設句子(詞串)s=W1 W2...Wn,其中Wi是詞。當試圖判斷Wi是否有錯時,就是要看不等式P(WilWi-2Wi-1)

其中freq表示詞串在語料庫中出現的次數,實際使用中通常要通過平滑(折扣或插值)或聚類(詞群,詞間字模型)等方法解決數據稀疏的問題。一個簡單的插值公式如下:

P(WiI Wi-2Wi-I)=axPr(Wil Wi-2Wi-1)+bxPr((Wil Wi-1))+cXPr(Wi)

其中,0

(三)存在的問題和改進方向

分詞處理存在的主要問題:

1、歧義問題

通過句式搭配把詞安排好以后,有一些漢字串可以有兩種及兩種以上的解釋,這稱為歧義現象。而且,在多種解釋中,用最大概率法得到的概率最大的詞串有可能是錯誤的解釋。2、未登錄詞處理對計算機分詞而言,未登錄詞指的是詞典中沒有收錄的詞。盡管這部分詞的比例小,但如果不加處理就會導致為數可觀的分詞錯誤,使后續的語法、語義分析受影響,查錯和改錯不準確。

3、平滑技術研究

研究自然語言模型的各種平滑技術、融入詞義相似和聚類知識,利用訓練語料庫進行試驗,研究出比較高效的插值公式,使得查錯的召回率和準確率都能有所提高。

五、結束語

本文介紹了基于統計的詞級的查錯技術,分析了存在的問題,并提出了改進方向。如何通過對語法、語義的深入分析以改進差錯技術的研究還有待于深入進行。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 美女视频黄频a免费高清不卡| 亚洲综合网在线观看| 免费国产好深啊好涨好硬视频| 亚洲妓女综合网995久久| 欧美精品另类| 高h视频在线| 国产成人精品视频一区视频二区| 亚洲成在人线av品善网好看| 日本精品视频一区二区| 51国产偷自视频区视频手机观看| 国产麻豆aⅴ精品无码| 欧洲极品无码一区二区三区| 亚洲高清无码久久久| 91成人精品视频| 国产69囗曝护士吞精在线视频| 天天爽免费视频| 91成人在线免费观看| 91日本在线观看亚洲精品| 日韩福利在线观看| 亚洲a免费| 欧美在线精品怡红院| 日本一本正道综合久久dvd| 91精品国产91久无码网站| 97se亚洲综合| 2019年国产精品自拍不卡| 欧美综合成人| 白浆免费视频国产精品视频| 欧美中文一区| 玖玖免费视频在线观看| 国产精品嫩草影院视频| 亚洲日本www| 久久久久久午夜精品| 激情无码字幕综合| 国产区福利小视频在线观看尤物| 国产精品无码久久久久久| 亚洲无码在线午夜电影| 色窝窝免费一区二区三区| 久久国产精品影院| 国产精品毛片一区视频播| 欧美无专区| 免费一看一级毛片| 亚洲最猛黑人xxxx黑人猛交| 天天综合网在线| 任我操在线视频| 国产91九色在线播放| 第一区免费在线观看| 亚洲国产日韩欧美在线| 免费人成在线观看视频色| 欧美性猛交一区二区三区| 国产精品无码AⅤ在线观看播放| 亚洲国产一区在线观看| 天天干伊人| 日本一区高清| 2021精品国产自在现线看| 色老头综合网| 亚洲天堂视频网站| 日本午夜三级| 亚洲色图欧美| 亚洲熟妇AV日韩熟妇在线| 亚洲A∨无码精品午夜在线观看| 国产乱人免费视频| 特黄日韩免费一区二区三区| 日本a级免费| 亚洲综合二区| 狠狠干综合| 一级做a爰片久久免费| 91精品啪在线观看国产| 大香伊人久久| 欧美精品色视频| 国产国产人成免费视频77777| 精品少妇人妻无码久久| 呦女亚洲一区精品| 国产久操视频| 午夜免费小视频| 国产尤物视频在线| 亚洲色图综合在线| 中文字幕无码电影| 少妇人妻无码首页| 精品黑人一区二区三区| 国产精品蜜臀| 国产青榴视频在线观看网站| 在线观看亚洲天堂|