999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于字符群體特征的圖文分離算法研究

2007-12-31 00:00:00宋曉宇崔明霞王永會
計算機應用研究 2007年8期

摘要:為了正確分離圖文,提出一種基于字符群體特征的圖文分離算法。該方法以直線識別得到的短直線為基礎,對連通域進行限制長度的外輪廓提取;通過大小和密度判據撿出候選字符,并以字符串形式出現的群體特征吸收漏識的字符和符號,實現包含標注字符、標題欄及明細欄字符等各類字符與圖形位圖的分離。結果表明:該算法提高了字符特別是難檢字符及符號判定的可靠性,保持了字符串的完整性,具有適應性強、效果好的特點。

關鍵詞:圖文分離; 工程圖紙; 矢量化; 群體特征; 輪廓提取

中圖分類號:TP391.41文獻標志碼:A

文章編號:1001-3695(2007)08-0242-04

在工程圖紙矢量化中,圖文分離是工程圖紙智能化輸入系統的重要組成部分。由于文字與圖形的特征不同,普遍認為需要分別采用各自的方式進行識別。實現文字/圖形的分離存在多種策略,分離策略的選擇在很大程度上影響著分離算法的復雜性和可靠性。在目前的圖文分離算法中,如一種新的字符提取和組合算法[1],工程圖標注字符的提取與識別[2]僅利用字符通常較小的特征,設定連通域大小閾值對文字和圖形位圖進行分離。由于該類算法使用單一判據確定字符,將虛線、點劃線及一些小圖元等錯誤地認定為字符。而字符粘連及字線相交的分離與識別方法[3]通過連通域大小閾值對文字初步判定后,又利用某些數字特征如密度、質心、扁度等對連通域進行進一步認定。該類算法會較前類算法的精確度高,但對于一些沒有明顯字符特征的字符如“1”“i”“l”“I”等,幾乎無法判定。針對此類難檢字符,文獻[4]通過計算字符連通域的某些參數如包圍盒的長寬比、線寬、斜率進行判定。這種方法的不足是對線寬、斜率計算的準確度要求較高且敏感,易受噪聲影響。文獻[5]則將如虛線、點劃線及其他小圖元等小組件專門劃分為一組,根據它們緊密矩形的密度和長寬比等進行再次判定,該方法對參數閾值的要求也比較高。

通常,文字/圖形的分離策略根據先后順序分為三種,即識別字符留下圖形型、識別圖形留下文字型和分別識別字符與圖形型。上述三種方法割裂了各種圖素在識別過程中相互制約,但也相互依賴的關系。本文提出以直線識別得到的短矢量為字符識別的基礎,使誤識的短直線成為文字識別的前處理過程;通過對短直線所在的連通域使用限制長度的外輪廓提取,識別出候選字符;利用字符的群體特征,將漏識字符和符號吸收進字符串候選集并進一步過濾和完善,實現包含標注字符、標題欄及明細欄字符等各類字符與圖形位圖的分離。特別指出,本文依據工程圖紙字符較純文本字符具有密度高、集中和字串性等群體特征,對難檢字符處理時不需要額外設定參數,且實驗證明有高的識別率和可靠性。

1工程圖紙中字符位圖的特征分析

1.1相關概念

這里,假設工程圖紙是黑白二值圖,并且背景色是白色,圖形及文字等是黑色。

1)連通域由相互連通的黑像素組成的區域。

2)包圍盒指連通域的最小外接矩形,且矩形的兩條邊分別與兩條坐標軸x、y平行。文中字符串候選集的包圍盒是指包含字符串候選集中所有候選字符包圍盒的包圍盒。

3)輪廓基于連通域邊界上相鄰像素的連通性,沿區域邊界走一圈回到起始點得到的一段封閉曲線。這里的限制長度輪廓指從起始邊界點開始沿區域邊界跟蹤,當連通域總邊界長度≤某閾值T時,得到一個完整邊界曲線;否則,得到邊界長度等于閾值T的非完整邊界曲線。

4)輪廓鏈碼對邊界點的一種編碼表示方法。這里的輪廓鏈碼特指用freeman的四連通鏈碼法進行輪廓跟蹤得到的數據表示。

5)鏈碼長度鏈碼中記錄的邊界點個數。設X為一個區域邊界的鏈碼,用|X|表示X的鏈碼長度。

1.2字符位圖與字符群體特征

工程圖紙是機械、建筑或電路等設計意圖的有力且清晰的表達方式。其中文字給出了標題性、應用性說明和圖形在數量上的精確表示。與純文本文檔的字符相比,工程圖紙中的字符較圖形具有更為明顯的高密度、集中和多字符鄰近出現的群體特征。特征表現為:

a)字符的圖線較線條的圖線短,文字位圖較小。

b)字符通常是以字符串形式出現的,但字符串方向多樣。

c)不同字符串之間在字體與字號上有較大差異。

d)一般情況下,一個文字位圖連通域對應于一個字符,但也有多個連通域對應一個字符的位圖。

e)字符通常以字符串或多個相鄰字符串組成的字符塊形式出現,體現了字符群體特征。

2基于字符群體特征的圖文分離算法

利用工程圖紙中字符的連通域小、密度高和字符群體特征,以直線識別出的短直線為起點,對短直線進行限制輪廓長度的邊界跟蹤,并判定其連通域包圍盒的密度和長寬比,選出候選字符;然后使用距離判據將候選字符組合成字符串候選集;最后以各個字符串候選集為基礎,對候選字符提取階段漏識的字符和符號進行補充吸收和完善,實現工程圖紙中圖形與文字的分離。

整體算法工作流程如圖1所示。

整個算法包括四個模塊:模塊A實現候選字符的提取;模塊B實現字符串候選集的認定;模塊C實現字符串候選集的補充;模塊D實現字符串候選集的完善。

3算法實現

3.1候選字符的提取

通過對工程圖中直線的識別,將直線識別成對應的矢量直線,弧(圓弧)、文字筆畫等非直線圖素識別成矢量短直線,由此得到包含所有檢測出線條的圖線庫。

字符和部分字字粘連的字符的撿出。設定短直線的長度閾值得到候選筆畫集,對每個候選筆畫進行限制輪廓長度的跟蹤,對得到的完整連通域進行包圍盒的密度和長寬比判定,確定是否送入候選字符的集合中。通過上述過程得到的連通域絕大多數為字符所在的連通域,也包括字字粘連的連通域(當字字粘連后的輪廓長度仍小于Tcon時)。

3.2字符串候選集的認定

根據工程圖紙中以字符串形式出現的群體特征,組成字符串的字符在距離上是接近的。設定字符間距閾值,并將字符間距小于閾值的字符送入同一個字符串候選集中。工程圖紙上的字符字體、字型差別很大,使用相同的字符距離閾值很難適應不同的情況。本文采用自動計算并設定距離閾值的方式,令字符間距閾值Tdistofchars=當前字符串候選集中所有候選字符包圍盒的長邊(包括長度、寬度)的最大值。

3.3字符串候選集的補充

3.3.1未被吸收的字符

在提取候選字符時,對連通域進行了較嚴格的檢查。這將導致部分應屬于字符串的連通域沒有在字符串候選集中。通常包括符號、字符的某部分和不符合候選字符條件的字符,如圖2所示。

3.3.2吸收在字符串候選集包圍盒tsBox中的字符

AbsorbCharInBox的描述如下:

3.3.3吸收字符串候選集包圍盒外鄰近區域的字符

ExtendStrings算法描述如下:

輸入字符串候選集包圍盒tsBox

輸出字符串候選集

a)臨時變量curBox=tsBox,并將curBox向右延展一個字符的寬度,向下延展一個字符的高度,確定為當前搜索區域。

b)進行正向延展搜索。執行AbsorbCharInBox(curBox)操作。If無新的連通域被加入到字符串候選集中,then轉c),else轉a)。

c)進行反向延展搜索,操作類似于正向延展。

d)進行輪廓的邊界標記。因為在對未標記的黑像素點進行處理時,會將內部點映射成邊界點,可檢測出此連通域是否已被檢測過。

3.4字符串候選集的完善

統計候選字符連通域的大小,計算字符閾值即字符包圍盒可能的最大值與最小值(包括對矩形長和寬的統計),采用文獻[3]中的方法。

根據所得到的字符閾值,對僅包含單個候選字符的字符串候選集進行再次判定。選擇對特定字符串候選集而非所有的字符串候選集進行再處理的原因有:只要字符串中有一個字符能符合嚴格的字符條件,則此字符串一定會被保留下來;若某字符串中所有的字符都不符合嚴格的字符條件,也會因為它們的群體性而被保留下來。這樣,也會降低字符閾值的敏感性,不會導致字符串中的很多不符合字符僅因字符閾值而被舍棄。

4應用實例

本文提出的算法應用到工程圖紙智能輸入系統EDIS中,是繼直線矢量化后的一個重要模塊。該模塊針對工程圖紙中的標注字符、標題欄及明細欄文字與圖形的分離。該系統在Windows XP上用Visual C++6.0實現。圖3是某機械圖紙光柵圖形及應用該系統后的矢量圖形。

4.1實例分析

此工程圖的大小為7 296×4 903。具體的文字特點為:包含多種小符號;包含多個難識別的字符,如“1”“I”“i”等;包含虛線、短劃線、小圖元較多。圖4是三組放大區域的識別對比圖(每組中,左側為光柵圖形,右側為矢量圖形)。

圖4(a)是圖上部最中間的部件。其中心區的孤立小圖元共有18個,有8個被誤識為字符。以(1區)為例分析。因為在字符候選階段有兩個小圖元同時滿足了長度閾值限定、包圍盒的密度及長寬比限定并被認定組成字符串,所以即使后期進行字符串候選集的完善也無法剔除。(b)是圖右下部機尾部分,其包含的短線較多,包括點劃線、虛線,在識別中也會有少量孤立區域滿足候選字符條件,但在字符串候選集的完善階段由于最小的字符閾值設定通常大于線條的平均寬度而被舍棄。此區域沒有誤判。(c)是圖左下部文字標注集中區,其包含較多的小符號、字符的部分及難辨字符如“1”“I”“i”等。在進行字符串候選集的補充時,將此類字符吸收進字符串。此區域沒有誤判。

表1中給出五張工程圖紙圖文分離的統計清單。其中編號為1的圖紙為圖3實例,雖然文字特征復雜,但文字完整,與圖形的粘連少,所以仍界定為質量好的圖紙;編號為2的圖紙文字集中性表現更為突出,且文字完整;編號為3和4的圖紙噪聲多、字符粘連及小圖元情況復雜,圖中有11個特別大的標題字符沒有被分離出來。

4.2實驗討論

對數據分析的結果表明字符輪廓閾值的設定是不敏感的,設定值只要合理,可以足夠大。因為在后繼處理中還要經過字符串群體性驗證和字符閾值的過濾字符被誤判的可能性

小,僅會部分地影響工作效率。字符大小閾值也不敏感。由于有字符串群體性驗證的限制,字符串中有字符不符合字符閾值也不會被舍棄,即使字符串中所有字符都不滿足閾值也會保留下來。

c)在字符間距閾值設定時,假設字符間距不大于當前字符串候選集中最大字符的包圍盒長邊值(包括長度、寬度),此間距閾值是隨字符串候選集的情況變化的。

實驗結果表明,本算法對工程圖紙的圖文分離有良好的效果,可以作為直線識別的后處理及字符識別的前處理過程,并具有字符提取準確率高、誤識少等優點,對進一步的文字識別提供了較準確的文字位圖依據。

5結束語

本文提出了一種基于字符群體特征的圖文分離算法。它的優點是以矢量短直線作為字符識別的起點,無須對整張工程圖重新掃描,工作量小,并在一定程度上增強了抗噪性。在根據連通域大小判據選定候選字符后,利用字符的群體特征,進一步吸收了那些字符特征不太明顯的字符;同時將符號一起提取出來,保持了字符串的完整性。在整個圖文分離過程中,大多數參數采用了與具體字符串相結合的自動閾值設定方法,使該算法更能適應文字的大小、字型變化較大的數據環境復雜的情況。

參考文獻:

[1]李偉青,彭群生.一種新的字符提取和組合算法[J].工程圖學學報,1997(2-3):38-45.

[2]高靜波,唐龍,劉文印,等.工程圖標注字符的提取與識別[J].計算機學報,1997,20(7):623-629.

[3]鄒榮金,蔡士杰,張福炎,等.字符粘連及字線相交的分離與識別的方法[J].軟件學報,1999,10(3):241-247.[4]TOMBRE K, TABBONE S, PLISSIER L, et al. Text/graphics separation revisited [C]//Proc of the 5th IAPR International Workshop on Document Analysis Systems. Princeton: SpringerVerlag, 2002:200-211.

[5]CAO Ruini, TAN C L. Text/graphics separation in maps [C]//Proc of the 4th IAPR International Workshop on Graphics Recognition.Kingston:[s.n.], 2001:245-254.

注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 中文字幕2区| 国产成人精品三级| 亚洲综合久久成人AV| 精品国产91爱| 国产美女精品一区二区| 蜜臀av性久久久久蜜臀aⅴ麻豆| 日韩精品视频久久| 日本一区二区不卡视频| 国产超碰一区二区三区| 成人中文字幕在线| 国内自拍久第一页| 无码粉嫩虎白一线天在线观看| 亚洲欧美日韩中文字幕一区二区三区| 国产精品亚洲五月天高清| 久久精品aⅴ无码中文字幕| 在线国产毛片手机小视频| 免费啪啪网址| 久久99精品久久久久纯品| 亚洲欧洲日韩国产综合在线二区| 国产在线麻豆波多野结衣| 天天躁夜夜躁狠狠躁躁88| 国产香蕉在线| 2024av在线无码中文最新| 亚洲性日韩精品一区二区| 色偷偷av男人的天堂不卡| 在线免费无码视频| 在线观看国产小视频| 亚洲国产天堂在线观看| 九九视频在线免费观看| 亚洲h视频在线| 无码在线激情片| 久久中文字幕2021精品| 精品国产成人a在线观看| 国产成在线观看免费视频| 久久久亚洲色| 99精品在线看| 99久久亚洲综合精品TS| 综合网久久| 亚洲日韩精品欧美中文字幕 | 91精品国产91久无码网站| 亚洲欧洲AV一区二区三区| 色综合中文| 精品视频91| 秋霞午夜国产精品成人片| 国产三级精品三级在线观看| 欧美精品不卡| 国产精品流白浆在线观看| 国产精品亚洲五月天高清| 99久久人妻精品免费二区| 欧美三级日韩三级| 欧美一区二区福利视频| 婷婷开心中文字幕| 久久永久精品免费视频| 亚洲女同一区二区| 99视频全部免费| 91久草视频| 国产成+人+综合+亚洲欧美| 国产精品综合色区在线观看| 亚洲午夜福利精品无码| 97国产在线观看| 精品国产免费观看| 国产色爱av资源综合区| 国产午夜精品鲁丝片| 高清免费毛片| 国产一级毛片yw| 亚洲综合片| 国产专区综合另类日韩一区 | 免费高清a毛片| 亚洲欧洲自拍拍偷午夜色无码| 毛片大全免费观看| 免费人成网站在线观看欧美| 男女猛烈无遮挡午夜视频| 乱系列中文字幕在线视频| 日韩无码视频专区| 9丨情侣偷在线精品国产| 91区国产福利在线观看午夜| 亚洲制服丝袜第一页| 午夜福利网址| 久久中文电影| 欧美精品不卡| 97视频在线精品国自产拍| 无码福利日韩神码福利片|