999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

印刷體維文切分算法的改進——基于像素積分投影法和連通域搜索法

2014-04-21 12:24:50李亞男陳興文
大連民族大學學報 2014年3期
關鍵詞:單詞文本方法

李亞男,陳興文,張 丹

(大連民族學院,計算機科學與工程學院,遼寧大連116605)

相對已經達到國際較先進水平的印刷體漢字、英文識別技術,印刷體維文文字識別技術還處于初步階段[1]。印刷體維文識別技術中,維文的準確切分起著至關重要的作用,好的切分效果可以大大提高最終的識別率。像素積分投影法是目前常用的維文切分方法[2-3],但在進行單詞切分時,該方法不能很好的處理單詞切分時相鄰連體段在水平方向的覆蓋情況,在進行字母切分時,該方法存在過切分和漏切分現象。針對上述情況,提出將像素積分投影法與連通域搜索法相結合的方法對維文進行行切分和單詞切分,以減少單詞的誤切分,并對字母切分部分的像素積分投影法進行改進,僅對位于基線上方的部分進行垂直投影,提高了字母切分的正確率。

1 印刷體維文切分流程及算法分析

維吾爾文的構成特點和書寫特點都比較特殊,如維吾爾文字母之間前后粘連形成連體段,相鄰連體段在水平方向會有覆蓋的情況,字形的寬高不統一,詞匯中字母之間沒有明顯的界限等,如圖1。使得維文單詞切分與字母切分成為維文識別技術中的難點[4-5]。

圖1 維文字符

印刷體維文切分過程:首先對維文文本進行行切分,然后對得到的每一行進行單詞切分,最后對每個單詞進行字母切分。行切分相對簡單易行,單詞切分和字母切分則有一定的難度。

對印刷體維文切分,目前最常用的切分方法是像素積分投影法,該方法可以很好的對維文文本行進行有效切分。但是像素積分投影法進行單詞切分時不能處理相鄰連體段在水平方向覆蓋的情況,容易出現漏切分的現象,進行字母切分時也存在一定的問題:Amin把列投影值小于平均列投影值的位置作為候選字母連接部分,然后相鄰投影峰值的距離以及大小關系去除部分不合理候選切分位置,但是這種方法需要預知字符的寬度;哈力木拉提取兩個峰值中間小于平均投影的位置作為字符的切分點,該方法存在過切分或漏切分的情況,并且受到字符附加部分的影響。

2 印刷體維文切分方法設計

2.1 行切分方法實現

對印刷體維文文字圖像進行預處理之后得到的是一個整體的二值化圖片文檔,對文字部分和空白間隙部分進行像素積分投影[3-5],空白間隙部分投影理論值為0(可能有噪聲的存在,實際上不一定為0),而文字行的水平積分投影不為0。因此可以逐行掃描每個像素點,求出各行的水平積分投影,將整篇文檔的每一行切分開。一幅文本圖象定義

式中 i:行數,i=1,2,…,m;j:列數,j=1,2,…,n。

各行水平積分投影公式為

一行文本的范圍通過計算圖象的水平投影確定。對經過預處理后尚未切分的文本按照從下往上的順序進行逐行像素搜索[3]:若第i行滿足(H(i)>q)∩(H(i+1)>q)∩..∩(H(i+m-1)>q),則將像素行i作為文本行的下界;若第i行滿足(H(i)<r)∩(H(i+1)<r)∩…∩(H(i+n-1)<r),則將像素行i作為文本行的上界。參數p、q、m、n、r均為根據預處理去噪效果和實驗情況得到的常數,其中 n=3,m=5,r=2,p=2,q=2,此數據作為參考,具體數據需根據實驗情況而定。像素積分投影法簡單易行,可以很好的對維文文本行進行有效切分。

2.2 單詞切分方法實現

像素積分投影法進行單詞切分時不能處理相鄰連體段在水平方向覆蓋的情況,容易出現漏切分的現象。對字符研究發現,字符的根本特性在于其連通性[1,6],盡管維文單詞會出現相鄰連體段在水平方向覆蓋、傾斜、以及變形等情況,如圖2。但是每個單詞的連通性是不會改變的,因此可采用連通域搜索法來實現單詞切分。該方法可以充分利用字符的連通特性,較好地解決相鄰連體段在水平方向覆蓋的問題,提高維文單詞切分的正確率。

圖2 水平方向有重疊的單詞

利用遞歸式區域生長算法確定各連通域,找出連通域后,做出各個連通域的外接矩形[1]。由于32個維文字母中有20個字母包含附加筆畫,附加筆畫部分與字母主體部分上、下不粘連,因此一個維文字母可能包含多個連通域,所以還需要對連通域進行合并,規則為:搜索每個連通域A最近的連通域B,如果B在A的上方或者下方,則視A和B是同一個字母的主體部分和附加部分,否則將B單獨看作一個字母。

運用垂直投影法得到的單詞切分結果如圖3,運用連通域搜索法得到的單詞切分結果如圖4。當單詞上下重疊時(箭頭處),垂直投影法并不能將其很好的切分開,而連通域搜索法則可以。

圖3 垂直投影法單詞切分結果

圖4 連通域搜索法單詞切分結果

2.3 字母切分方法改進

文獻[5]對字母進行切分時,首先對輸入的單詞進行垂直積分投影,取有空隙的位置進行切分,得到獨立的字母和連體段,如圖5,然后找到一段投影值為0的連續空白位置(該位置兩邊的投影值大于0),取其中間位置作為候選切分點,最終實現字母切分。

圖5 單詞中的連體段

該方法需要預知字符寬度,容易出現漏切和過切的現象,并不普適。因此對這一部分進行改進,算法如下:

(1)對輸入的單詞進行垂直積分投影,投影后取有空隙的位置進行切分。垂直積分投影公式為

(2)確定基線區域高度及位置。提取文字行中的所有豎直黑像素游程后統計不同長度游程的數目,具有最多數目游程的游程長度就是基線的高度Hb,H是文字行的高度,P是文字行的水平投影結果,E1和E2分別表示基線的上邊界和下邊界。在文字行無傾斜的情況下,行的基線位置可以根據式(4)得到,即文字行的基線就是高度為Hb,最大水平投影值最大的帶狀區域。

(3)提取出位于基線上方的維文部分,即提取出位于基線上邊界E1與文本行上邊界H1之間的字符部分,如圖6。對基線上方部分進行垂直投影,找到一段投影值為0的連續空白位置,該位置兩邊的投影值大于0,取空白位置的中間位置作為候選切分點,如圖7。

圖6 提取連體段位于基線上方部分

圖7 對基線上方部分進行垂直投影

(4)閾值判定法去除誤切分。閾值T的定義為[4]:連體段的行高度H與連續空白間隙的寬度W做比的均值取整作為T,當T過大時,所切分的位置就比較高,可能造成誤切分,當T過小時,使連體字母不能被切開。閾值T根據實際實驗的訓練數據得出,本文取T=16進行判定。

采用未改進的投影法字母切分結果如圖8,黑色箭頭處存在漏切分現象,采用改進后的投影法字母切分結果如圖9。對比可見,改進后的方法對去除字母誤切分有很好的效果,提高了字母切分的正確率。

圖8 未改進的投影法字母切分結果

圖9 改進后的投影法字母切分結果

3 系統環境與識別結果

設計的印刷體維文識別系統是在Windows 7平臺下,以VC 6.0和Matlab 2012為開發環境。

打開的原始印刷體維文文本圖片如圖10。

圖10 原始印刷體維文文本圖片

原始維文文本圖片的最終識別結果如圖11。由結果可見,采用改進的維文切分方法,可以達到較好的識別效果。

4 結語

討論了如何對掃描輸入的二值化維文文本圖象進行行切分、單詞切分、字母切分。通過分析研究不同字符切分方法的優缺點,結合維文自身的書寫特點與結構特點,提出采用像素積分投影法和連通域搜索法相結合對印刷體維文進行行切分和單詞切分,該方法較好的解決了像素積分投影法不能處理相鄰連體段在水平方向覆蓋的問題。在字母切分部分,改進了文獻[5]中字母切分部分的投影法,改進后的方法不需要預知字符寬度,基本不存在漏切分現象,提高了字母切分的正確率。提出的維文切分方法能夠較好地應用在印刷體維文識別系統中的切分部分。

圖11 最終識別結果

[1]尹芳,王衛兵,陳德運.印刷體英文文檔識別系統的設計與實現[J].哈爾濱理工大學學報,2008,13(6):9-12.

[2]萬金娥,袁保社,李曉,等.一種改進的印刷體維吾爾文投影切分方法[J].計算機工程,2013,39(4):263-266.

[3]董國君.印刷體俄文文字識別研究[D].烏魯木齊:新疆大學,2009.

[4]袁保社,吾守爾·斯拉木.一種手寫維吾爾文字母識別算法[J].計算機工程,2010,36(2):186-188.

[5]李曉,袁保社,陳卿,等.基于像素積分投影的印刷體維文字母切分方法[J].計算機技術與發展,2012,22(4):41-44.

[6]靳簡明,丁曉青,彭良瑞,等.印刷維吾爾文本切割[J].中文信息學報,2005,18(5):76-83.

猜你喜歡
單詞文本方法
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
主站蜘蛛池模板: 欧美一级大片在线观看| 色老头综合网| 伊人久久大线影院首页| 热久久这里是精品6免费观看| 亚洲精品综合一二三区在线| 热99精品视频| 亚洲色图欧美| 国产午夜一级毛片| 国产嫖妓91东北老熟女久久一| 国产AV毛片| 亚洲国产综合第一精品小说| 人与鲁专区| 久久久91人妻无码精品蜜桃HD | 综合色88| 欧美在线精品一区二区三区| 国产在线视频福利资源站| 精品久久久无码专区中文字幕| 狠狠综合久久久久综| 成人福利一区二区视频在线| 色综合久久综合网| 国产午夜福利亚洲第一| 一级爆乳无码av| 99久久国产综合精品2023| 中文成人在线| 国产不卡在线看| 国产一级二级在线观看| 精品国产黑色丝袜高跟鞋| 亚洲国产精品日韩av专区| 欧美成人综合在线| 久久久久国产一区二区| 在线观看国产精品一区| 欧美一区福利| 国产成人精品免费视频大全五级| 18禁高潮出水呻吟娇喘蜜芽| 好吊色妇女免费视频免费| 成人久久18免费网站| 一级片免费网站| 国产精品入口麻豆| 国产美女免费| 伊人久久福利中文字幕| 无码专区第一页| 日韩欧美中文| 午夜不卡视频| 久久香蕉国产线看精品| 77777亚洲午夜久久多人| 另类重口100页在线播放| 午夜欧美理论2019理论| 久久精品只有这里有| 亚洲成人一区在线| 亚洲人人视频| 18黑白丝水手服自慰喷水网站| 91精品久久久无码中文字幕vr| 午夜福利网址| 国产日本欧美亚洲精品视| 亚洲欧美人成电影在线观看| 老司国产精品视频| 中文字幕在线观看日本| 婷婷六月在线| 日韩第八页| 无码久看视频| 99热这里只有精品在线播放| 色欲不卡无码一区二区| 亚洲中字无码AV电影在线观看| 久久精品亚洲中文字幕乱码| 亚洲精品午夜天堂网页| 精品国产福利在线| 亚洲天堂在线视频| 99热最新网址| 麻豆精品在线播放| 综合人妻久久一区二区精品 | 一本色道久久88亚洲综合| 全部免费特黄特色大片视频| 在线色国产| 在线毛片网站| 国产精品短篇二区| 日韩福利在线视频| 色综合婷婷| 精品伊人久久久大香线蕉欧美 | 国产极品美女在线播放| 亚洲国产欧洲精品路线久久| 天堂亚洲网| 亚洲人妖在线|