999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向文本數字化的自動糾錯方法

2008-01-01 00:00:00徐平先張玉志
計算機應用研究 2008年5期

摘要:為了提高文本數字化系統的質量,針對該系統的錯誤特點,采用頻率統計樹構建查錯模型,結合切分信息進行標點糾錯,通過表形碼和緩存集給出糾錯建議,提出了規則與統計結合的自動糾錯方法。實驗結果表明,該方法召回率為84.65%,準確率為78.89%,誤判率為9.07%,能夠滿足數字化系統需求。

關鍵詞:自動糾錯; 文本數字化; 頻率統計樹; 切分信息; 表形碼

中圖分類號:TP391.1文獻標志碼:A

文章編號:1001-3695(2008)05-1434-03

文本數字化系統包括圖像掃描、版式分析、行字切分、圖像分析、切分集成、OCR識別、文本糾錯、質量判別等幾個環節。其中文本糾錯環節對于提高識別準確率,降低最終成品的錯誤率,達到客戶需求具有重要的意義。傳統的糾錯方法主要是依賴人工校對,費時費力。雖然也有產品化的校對軟件,但這些軟件的適應性和糾錯率均有較大的局限性。對于大規模的文本數字化項目而言,因其范圍廣、數量龐大,且素材個體差異較大,若能進行計算機自動糾錯,則可以滿足高效率與高質量的要求,同時穩定性和靈活性也有所保障。

國外對英文文本糾錯技術的研究開始較早,目前主要有誤拼字典法、骨架鍵法[1]等;國內對中文文本糾錯技術的研究從20世紀90年代開始,多采用統計與規則相結合的方法。張仰森等人對文本分詞并尋找散串,使用字、詞、詞性的二元或三元模型查錯[2],構建拼音、五筆等外碼相近字的混淆詞典,采用最大熵方法進行糾錯排歧[3]。駱衛華、龔小謹等人結合模式匹配和分析句型成分的方法進行語法錯誤檢查[4],并綜合使用基于實例、基于統計和基于規則的搭配關系進行語義查錯[5]。張磊等人綜合使用鄰接詞、詞性的三元接續關系、上下文語義類、詞內鄰接漢字四種特征模板,提出了基于特征的中文校對方法[6]。上面提到的方法均是非受限的糾錯方法。中文自動糾錯技術由于漢字自身特點及漢語語法和語義計算機表示的不完善,還沒有令人滿意的通用方法。針對不同的糾錯環境采用特定的方法,往往能夠大幅度提高糾錯準確率。基于此,本文對文本數字化系統的錯誤進行分析,利用切分信息和表形碼,結合工程經驗和頻率統計樹,提出一種有針對性的自動糾錯方法。

1問題分析

1.1錯誤分析

文本數字化系統中的錯誤有其獨有的特點。進行數字化的源文本,往往是經過多次校對的報刊、雜志等,其本身正確率較高。而數字化生成文件的質量則受版式分析、字詞切分和OCR等各個環節的影響,且原文版面污染以及印刷質量差也會降低其正確率。

對某項目中一份待校文本進行錯誤分析,該文本共含字數8 424個。其中包含錯誤435處,類型分析如下(表1):

a) 標點錯誤共238個。其中:“,”誤識為“’”多次出現;另外還有“,”誤識為“于”或“夕”,“。”誤識為“o”,“(”誤識為“《”等。

b) 形近字錯誤共156個,如“即”誤識為“郎”,“句”誤識為“旬”,“人”誤識為“入”。

c) 切分造成的錯誤23個,如“品”誤識為“口凹”。

d) 雜點造成的錯誤13個,如多出“.”或“。”等標點。

e) 其他錯誤5個。

1.2輸入/輸出

傳統的自動糾錯方法一般是輸入待校文本,輸出經過糾錯處理的成品文件。本文中的糾錯方法將字切分模塊提供的idd信息作為附加輸入,用于進行標點糾錯。Idd信息保存的是切分后單字的相關特征,如它所屬的行號、字號、字寬、字高、行高等。本方法輸出的成品文件根據不同的客戶需求,可以帶有一定的備選字。此外還輸出糾錯記錄文件chg。

1.3性能評價

糾錯方法的性能采用召回率(recall)、準確率(precision)和誤判率(1)三個指標來評價;文本整體質量采用錯誤率(error)來評價;文本質量改進率(improve)則用糾錯前后錯誤的比值來衡量。分別用eall、esuc、efail、e1、efixed表示待校文本錯誤數、成功糾錯數、失敗糾錯數、誤判數、糾錯總數,則有efixed=esuc+efail+e1。

2.1必對詞集、必錯詞集與經驗糾錯

通過長期糾錯經驗積累,得到必錯詞集和必對詞集兩個集合。必錯詞集是錯誤字組(以下稱必錯詞)到對應的正確詞(以下稱替換詞)的映射。它有以下特點:

a)必錯詞本身不能成詞,一般為三個字以上的詞組,只要在糾錯文本出現,可以直接利用替換詞糾錯(非法例子:“人口”替換“入口”;合法例子:“深圳特區”替換“深玔特區”);

b)替換沒有歧義,不能出現同一個必錯詞對應多個替換詞的情況,反之則可以;

c)必錯詞不能是對應替換詞的子串。

必對詞集是正確詞的集合,主要為四個字及以上具有較強耦合性的固定搭配,主要包括國內外地名、人名、成語、歇后語、流行新詞等。

在經驗糾錯的過程中,采用逆向最大匹配法(reverse maximum matching,RMM)查找待校文本。對于出現的必錯詞直接用對應替換詞替換;對于出現的必對詞則進行標定,后續步驟不對其進行查錯。

2.2 Idd信息與標點糾錯

Idd保存了文本中字符OCR相關信息。其數據結構定義如下:

typedef struct iddtype{

WORD line_ystart; //該漢字圖像行起始絕對坐標值

WORD line_height; //該行高

WORD ch_flag; //標志字節

WORD ch_y0; //單字在掃描圖像中的Y坐標(絕對值)

WORD ch_x0; //單字在掃描圖像中的X坐標(絕對值)

WORD ch_height; //單字高度

WORD ch_width; //單字寬度

LONG offset; //單字圖像在圖像文件中的地址指針

};

通過比較單個字符idd信息與其所在行所有字符的平均idd信息可以判斷該字符的形狀(扁橫、扁豎、小四方等)與位置(正中、偏上、偏下)。而對于每一種標點,均有其對應混淆集,該標點易被誤識為混淆集中的元素。這些元素可能為數字、漢字或英文字母等,如“。”對應“o”“0”“口”;“!”對應“1”和“i”“I”等。通過當前字符的形狀特征與其所在的標點混淆集,可給出對應的糾錯建議。例如,對于待校文本中某行出現“夕”,檢查其idd信息,有

ch_height<1/6 ave_height(7)

ch_width<1/6 ave_height(8)

ch_y0<1/2 ave_y0(9)

其中:ave_height、ave_width分別為該行字的平均高度和寬度;ave_y0為該行的平均y坐標。

由此知道該字符字型特征為小四方(明顯小于同行其他漢字),且處于偏下位置,符合“,”的idd特征;又因“夕”處于“,”混淆集中,故給出相應糾錯建議“夕”->“,”。

在標點糾錯過程中,利用棧來記錄成對標點匹配情況。根據語法規則,不同標點有不同的查找限界符。若出現不匹配,則在該限界符范圍內查找符合缺失標點idd特征,且處于對應混淆集中的漢字,并給出糾錯建議。例如:棧頂有“(”出現,在對應限界符內出現不成對“》”,其符合前者的idd特征,且在其混淆集中,因此加入糾錯建議“》”->“)”。

2.3頻率統計樹與散字定位

散字是指與上下文聯系緊密程度較弱的字。本文通過大規模語料得到的頻率統計樹計算當前字在上下文環境下出現的條件概率。若其小于某個閾值,則可判斷其為散字。

對字典中的每個字X統計其向前和向后的連續兩個字,分別保存在XL.wdb(上統計樹)與XR.wdb(下統計樹)中。為了便于處理,在建樹過程中對一個或多個連續出現的數字統一用全角的“1”表示;對一個或多個連續出現的英文字母則統一用全角的“A”表示;對于各種句子分隔符統一用全角的“。”表示。例如:對于當前字“現”,其實驗樣本生成的右統計樹中部分結果為

代225已816

的41化21人9將13

由此不僅可以得到相鄰兩個字共現次數,如“現代”225次,“現已”816次;還可以得到相鄰三個字共現次數,如“現代的”41次,“現代化”21次,“現已將”13次。利用共現次數與單字統計次數可以求出條件概率與單字概率,從而有:

其中:p(wi)是該字在語料中出現的概率;p0=1/R(R是字典中的字數);∑3j=0λj=1,且各權值可以通過BaumWelch算法獲得。因為生成的頻率統計樹規模較大,為減少頻繁的磁盤讀寫,本文采用面向字而非待校文本的查錯方法。每次處理字典中的一個字,從磁盤讀進對應頻率統計樹,掃描整個文本,在該字所有出現位置計算條件概率,判斷該次出現是否為散字。若是則由2.4節的步驟給出建議,然后處理下一個字。

2.4糾錯建議生成

對于2.3節中定位的散字,自動產生糾錯建議,其來源主要分為兩部分,即糾錯緩存集和表形碼形近字。2.4.1糾錯緩存集

由1.1節中的錯誤分析可知,同一文本中相同錯誤可能會反復出現。對于相同批次的待校文本,因其印刷版式和質量以及版面污染的程度等因素均具有相似性,其錯誤也同樣具有重復性。由此設置糾錯緩存集,記錄最近的糾錯記錄,即錯誤字及其上下文環境到其替換字的映射。生成糾錯建議時,在緩存集中查找當前字對應的糾錯記錄,并按優先級高低依次加入完全匹配、上文或下文匹配的糾錯模式。

2.4.2表形碼與形近字

漢字是一種象形文字,文本數字化產生的錯誤中形近字錯誤也占較大部分。計算機中用于表示漢字的內碼,并不能直接反映其形狀特征,如GB2312中的一級字按拼音排序,而GBK和Unicode中,漢字排序更無簡單規律可言。因此判斷漢字之間的形狀相似程度,不能簡單地計算其內碼距離。

本方法采用表形碼來判斷形近字。表形碼是形碼的一種,它將漢字系統拆分為369個部件,具有相似特性的部件對應相同字母,每個漢字拆分得到的各部件對應字母組合成表形碼,碼長為3或4。相比將漢字拆分成字根,表形碼拆分后的部件更完整地保留了漢字的局部形狀特征,部件組合更清晰地反映了整體結構特征,因而在形近字判別中能起到更好的效果。

設兩個字的編碼分別為A1A2…An和B1B2…Bn(3≤n≤4),則其編碼距離可以用如下公式表示:

提取Windows 98系統自帶的表形碼文件Winbx.mb,將其生成碼表文件。對2.3節定位散字,在碼表文件中查詢其對應表形碼,在糾錯建議集中依次加入具有相同編碼的字,以及僅有一位編碼不同,且編碼距離最小的前10個字。

2.5錯誤校正

對2.4節給出的糾錯建議,按式(12)計算得到的概率高低進行排序。根據項目需求,可以選取概率最高的前三個糾錯建議作為備選字一并寫入成品文件,并在chg文件中記錄,同時將該結果加入糾錯緩存集。

3實驗結果

為了檢驗本文的自動糾錯方法,選取含有658處錯誤,共17 170字的文本進行測試。該方法共給出706處糾錯建議。其中557處前三項糾錯建議正確,356處第一項建議正確,出現誤判64次,準確率為78.89%,召回率為84.65%,誤判率為9.07%,最終成品正確率為99.04%,達到項目要求。具體分析如表3所示。

分析可知經驗糾錯和idd糾錯占糾錯總數的較大部分,而必對/必錯詞集以及標點混淆集均較多地依賴項目經驗積累,對這些集合需不斷補充完善。另外,對于切分錯誤、版面雜點造成的多字錯誤,糾正率需進一步提高。

4結束語

本文提出的針對文本數字化系統效果自動糾錯方法,經初步實驗,召回率和準確率較高,糾錯效果較好,滿足工程需求。今后的工作將對中英數混排切分錯誤以及雜點多字錯誤的糾錯進行進一步研究。

參考文獻:

[1]POLLOCK J J A Z. Automatic spelling correction in scientific and scholarly text [J].Communication of ACM, 1984, 27(4):358-368.

[2]張仰森,曹元大,俞士汶. 基于規則與統計相結合的中文文本自動查錯模型與算法[J].中文信息學報,2006,20(4):1-7.

[3]張仰森,曹元大,徐波. 基于統計的糾錯建議給出算法及其實現[J].計算機工程,2004,30(11):106-109.

[4]龔小謹,羅振聲,駱衛華. 中文文本自動校對中的語法錯誤檢查[J].計算機工程與應用,2003,39(8):98-100.

[5]駱衛華,羅振聲,龔小謹. 中文文本自動校對的語義級查錯研究[J].計算機工程與應用,2003,39(12):115-118.

[6]張磊,周明,黃昌寧,等. 中文文本自動校對[J].語言文字應用,2001,15(1):19-26.

[7]張仰森,俞士汶. 文本自動校對技術研究綜述[J].計算機應用研究,2006,23(6):8-12.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 国产女人爽到高潮的免费视频| 久久永久视频| a级毛片免费看| 久久毛片免费基地| 91丝袜美腿高跟国产极品老师| 熟妇无码人妻| 国产亚洲精久久久久久无码AV| 99re精彩视频| 色首页AV在线| 99re精彩视频| 欧美日韩激情在线| 日韩免费毛片| 亚洲乱码视频| 精品人妻一区二区三区蜜桃AⅤ| 99手机在线视频| 91网址在线播放| 色欲色欲久久综合网| 99热这里只有免费国产精品| 国产美女无遮挡免费视频网站 | 激情午夜婷婷| 老熟妇喷水一区二区三区| 97色婷婷成人综合在线观看| 免费福利视频网站| 一级毛片高清| 久久综合色天堂av| 亚洲无码高清一区二区| 中文字幕在线看| 婷婷六月综合网| 亚洲不卡无码av中文字幕| 精品福利一区二区免费视频| 久久久久久久97| 欧美区一区| 日韩在线成年视频人网站观看| 欧美乱妇高清无乱码免费| 中文字幕免费在线视频| 欧美日韩成人在线观看 | 91免费在线看| 欧洲成人在线观看| 人妻少妇乱子伦精品无码专区毛片| www.av男人.com| 爽爽影院十八禁在线观看| 日本高清免费不卡视频| 国产成人在线小视频| a天堂视频在线| 亚洲第一成网站| 999精品在线视频| 久久久成年黄色视频| 欧美一级在线播放| 91九色最新地址| 色天天综合| 视频二区国产精品职场同事| 无码内射在线| 亚洲国产欧美目韩成人综合| 第九色区aⅴ天堂久久香| 91在线视频福利| 久久96热在精品国产高清| 欧美成人看片一区二区三区| 乱人伦中文视频在线观看免费| 日本欧美成人免费| 欧美精品亚洲日韩a| 国产成人精品无码一区二 | 视频一区亚洲| www.精品视频| 欧洲在线免费视频| 一级香蕉人体视频| 亚洲欧美天堂网| 久青草国产高清在线视频| 亚洲视频在线青青| 久久久久免费精品国产| 在线播放精品一区二区啪视频| 国产亚洲视频免费播放| 久久综合亚洲色一区二区三区| 中文字幕在线视频免费| 国产精品视屏| 伦伦影院精品一区| 亚洲综合久久成人AV| 波多野一区| jizz亚洲高清在线观看| 国产爽妇精品| 亚洲日韩Av中文字幕无码| 色综合五月婷婷| 亚洲Aⅴ无码专区在线观看q|