999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BP網(wǎng)絡的木刻藏文經(jīng)書文字識別研究*

2012-07-25 03:19:00趙棟材
微處理機 2012年5期
關鍵詞:特征提取

趙棟材

(西藏大學藏文信息技術研究中心,拉薩850000)

1 引言

藏文自公元7世紀創(chuàng)制以來,迄今已有一千三百多年的歷史,目前仍是記錄書寫藏語的文字系統(tǒng)。無論作為傳承藏民族傳統(tǒng)文化的主要工具,還是作為我國藏族地區(qū)傳播現(xiàn)代科技知識的主要工具,有其獨特的人類文化價值,在藏族地區(qū)所發(fā)揮的巨大作用是不可估量的。千年來記載了各類歷史記載、佛教經(jīng)典編譯,以及各種民間神話傳說等。浩如煙海的藏文文獻內(nèi)容廣泛,是我國除漢文之外,歷史最悠久、文獻最豐富的語言文化遺產(chǎn)。正是由于這樣的原因,歷史文化遺產(chǎn)的數(shù)字化,迫在眉睫。通過手工錄入去保留這些文化遺產(chǎn)幾乎是不可能的,而文字識別技術正是最好的選擇。

大量的藏文經(jīng)典主要以裝幀的形式,一般文獻呈現(xiàn)長條體,橫向是書的寬度,縱向是書的高度,書頁以活頁方式構成,如圖1所示。誦經(jīng)閱讀時,縱向往上翻起。

木刻藏文經(jīng)書是雕刻的文字,在不同模板上樣式相同,書寫規(guī)則與標準藏文字完全相同,書寫方向是從左向右,采用縱向疊加的輔音加上元音進行組合。但是木刻藏文經(jīng)書大多為人工篆刻,人為因素干擾嚴重(見圖2),再通過特殊的藏紙印刷,加上油墨的干擾,導致木刻藏文經(jīng)書文中出現(xiàn)字符間粘連、斷裂、遮擋現(xiàn)象,為識別帶來極大的困難。

由于木刻藏文經(jīng)書的特殊性,僅依靠字符切分、特征提取等方法已不能滿足對木刻藏文經(jīng)書的識別需要。通過研究發(fā)現(xiàn),增加基于BP網(wǎng)絡的訓練方法,有助于提高木刻藏文經(jīng)書的文字識別正確率。

圖1 木刻經(jīng)文樣式

圖2 干擾嚴重的經(jīng)文字

2 BP網(wǎng)絡算法描述

2.1 木刻經(jīng)文文字識別的系統(tǒng)流程

木刻經(jīng)文文字識別的整體設計流程為如圖3所示。

圖3 木刻藏文經(jīng)書文字識別流程

整體識別中主要算法有二值化、去除噪音、切分、歸一化、特征提取、人工神經(jīng)網(wǎng)絡算法。特征提取與人工神經(jīng)網(wǎng)絡訓練相同,區(qū)別在于:

(1)當識別結果與用戶實際選擇的結果不同時,調(diào)用人工神經(jīng)網(wǎng)絡算法,進行訓練,收斂結果,然后修正保存的數(shù)據(jù),以實現(xiàn)下步識別再遇到這個經(jīng)文單元時,能夠正確識別,提高識別率。

(2)識別處理采用一種加權誤差均衡距離,定義兩個特征矢量X,Y的距離函數(shù)為:

σ是方差,ε為10,α為8。序列中距離f最小的結果為最后識別出的結果字符。

2.2 BP網(wǎng)絡訓練

木刻經(jīng)文樣式、種類繁多,在進行特征提取過程中會對同一個字在不同印版的經(jīng)書中提取不同的樣本,這樣每個經(jīng)文字就對應了不同的經(jīng)文樣本,如圖4所示兩個一樣的經(jīng)文字,但其樣式不同。

圖4 2個木刻藏文樣本字

在采用彈性網(wǎng)格特征提取后,每個樣本形成了308維的特征數(shù)據(jù),共計308×2=616維數(shù)據(jù),如果全部保存并參與運算,則會導致整體識別的運算效率大大降低,也不能真正應用到實際識別過程中。這樣就需要一套訓練算法對這些數(shù)據(jù)進行訓練,整合所有樣本,獲取多種樣本共性的數(shù)據(jù),更好的提高系統(tǒng)的魯棒性。本項目通過研究各種參考資料,最后確定采用基于人工神經(jīng)網(wǎng)絡的改進的BP算法對整個樣本進行訓練,以便得出魯棒性更強的、服務于識別的矢量數(shù)據(jù)。

人工神經(jīng)網(wǎng)絡具有良好的容錯能力和自我學習能力,較傳統(tǒng)識別技術有一定的優(yōu)勢,對于干擾復雜、識別難度大的經(jīng)文識別系統(tǒng),其應用會有效提高識別率和識別效率。

BP算法是神經(jīng)網(wǎng)絡技術中的典型算法,即向前計算-誤差反向傳播算法,采用廣義的δ學習規(guī)則,是一種有導師的學習算法。其工作過程分兩個階段:

第一階段正向傳播階段,將樣本導入輸入層,計算權重,然后將信息傳到隱含層(可以多層)繼續(xù)計算輸出值和期望值,最后傳入輸出層。

第二階段反向傳播階段,將網(wǎng)絡的實際輸出與期望輸出相比較,如果誤差不滿足要求,將誤差向后傳播,即從輸出層到輸入層逐層求其誤差(實際上是等效誤差),然后相應地修改權值。

其算法的執(zhí)行如下:

設 X1,X2,...,Xn是神經(jīng)元的輸入,θi是 Xi的閥值,Wij是Xi的權系數(shù);Yi是Xi的輸出,f是激發(fā)函數(shù),e是誤差函數(shù);

(1)輸入一個樣本集,并進行編碼,同時給定理想的輸出信號Ti;

(2)設定權系數(shù)Wij,對各層的權系數(shù)置一個較小的非零隨機數(shù);

(3)計算各層的輸出;

對于任意節(jié)點j,輸出計算步驟為:

其中Uj是加權后的輸入與節(jié)點閾值的總和;θj是節(jié)點j的閾值;網(wǎng)絡中節(jié)點非線性的傳輸關系采用Sigmoid函數(shù)。

(4)求各層的學習誤差:

(5)誤差反向傳播,修正權值和閾值,從輸出節(jié)點開始逐步向前遞推,直到第一層,基于梯度下降法得:

至此樣本計算完成。BP算法雖然可以很精確地實現(xiàn)函數(shù)的逼近和模式的分類,但是從本質(zhì)上講,BP算法仍然是一種梯度算法,不可避免地存在一定問題,改變精度要求 ,將影響B(tài)P算法的計算次數(shù),降低運算效率,不同樣本有的收斂快,有的運算量大,不同學習速率也會影響運算效率等,因此在處理過程中需要對算法進行改進。

2.2.1 隱層單元數(shù)的選擇

隱層單元數(shù)目k是應用BP算法的關鍵因素之一,k過小不能很好的收斂,過大則降低運算效率,也會產(chǎn)生多余特征,減低容錯率。經(jīng)過試驗測試,BP算法隱層設定為兩個隱層,隱層單元數(shù)采用兩種數(shù)據(jù)處理,先取較大的k訓練,然后取較小k,比對后去掉不起作用的隱層單元,具體表達式為:

2.2.2 平滑更新權值

系統(tǒng)經(jīng)過訓練之后,得到新的經(jīng)文單元數(shù)據(jù),數(shù)據(jù)格式為:

保存所有單元數(shù)據(jù),用于為識別系統(tǒng)提供數(shù)據(jù)基礎。

經(jīng)文字的神經(jīng)網(wǎng)絡訓練效果如圖5,其下方數(shù)據(jù)圖6為其對應藏經(jīng)文字的特征提取數(shù)據(jù)中的288維網(wǎng)格數(shù)據(jù)。圖7為提取后與原數(shù)據(jù)進行神經(jīng)網(wǎng)絡訓練后更新的288維網(wǎng)格數(shù)據(jù)。

3 實驗結果

木刻藏文經(jīng)書文字識別界面如圖8所示。實驗共收集經(jīng)書單個單元樣本1643個,訓練1643,通過批量樣本測試程序測試,正常干擾情況下識別率為92.45%,嚴重干擾情況下識別率71.23%。

4 結束語

在字符切分、特征提取等文字識別方法基礎上,提出基于BP網(wǎng)絡訓練方法的木刻藏文經(jīng)書文字識別解決方案,基本實現(xiàn)了普通干擾情況下木刻經(jīng)文識別率90%以上。當然,木刻經(jīng)文由于干擾嚴重、印版斷裂、字符粘連等情況導致識別難度特別大,現(xiàn)有的國際國內(nèi)相關產(chǎn)品和資料都沒有很好的方法予以解決,需要進一步的研究和試驗,以更好的提高木刻藏文經(jīng)書的文字識別率。

[1] 范立南,韓曉微.圖像處理與模式識別[M].北京:科學出版社,2007.

[2] 吳佑壽,丁曉青.漢字識別-原理方法與實現(xiàn)[M].北京:高等教育出版社,1993.

[3] 李弼程,邵美珍,黃潔.模式識別原理與應用[M].西安:西安電子科技大學出版社,2008.

[4] 王勇,鄭輝,胡德文.圖像和視頻中的文字獲取技術[J].中國圖像圖形學報,2004,9(5):532-538.

[5] 馮宇平,戴明.一種基于角點特征的圖像拼接融合算法[J].微電子與計算機,2009,26(7):21-28.

[6] 普次仁.多種印刷字體藏文字符的特征提取方法研究[J].西藏大學學報,2008,23(1):25-28.

[7] 王維蘭.藏文基本字符識別算法研究[J].西北民族學院學報,1999,20(3):20-23.

[8] 王浩軍,趙南元,鄧鋼鐵.藏文識別的預處理[J].計算機工程,2001,27(9):93-96.

[9] 王維蘭,丁曉青,祁坤鈺.藏文識別中相似字丁的區(qū)分研究[J].中文信息學報,2002,16(4):60-65.

[10] 李永忠,王玉雷,劉真真.藏文印刷體字符識別技術研究[J].南京大學學報,2012,48(1):55-62.

[11] Ngodrup,ZHAO Dong cai.Research on wooden blocked Tibetan character segmentation based on drop penetration algorithm[C].CCPR 2010 Proceedings.IEEE Computer Society.2010:84-88.

[12] Ngodrup,ZHAO Dong cai,Putsren,Daluosanglangjie,LIU Fang,Bianbawangdui.Study on printed Tibetan character recognition[C].AICI 2010 Proceedings.IEEE Computer Society.2010:280-285.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 91人妻在线视频| 在线视频97| 国产毛片片精品天天看视频| 国产成人永久免费视频| 青青青伊人色综合久久| 干中文字幕| 97国内精品久久久久不卡| 午夜视频日本| 国产亚洲精久久久久久久91| 亚洲一区波多野结衣二区三区| www亚洲天堂| 99在线国产| 丁香婷婷综合激情| 丁香婷婷久久| 国产一区二区三区在线观看视频 | 成人一区在线| 久久黄色一级视频| 自偷自拍三级全三级视频| 国模粉嫩小泬视频在线观看| 色综合五月| 91精品免费久久久| 九九香蕉视频| 欧美精品成人| 高潮毛片免费观看| 国产人碰人摸人爱免费视频| 97人人模人人爽人人喊小说| 人妻无码一区二区视频| 高清无码一本到东京热| 中文字幕有乳无码| 日本影院一区| 国产69精品久久久久孕妇大杂乱 | 丰满的少妇人妻无码区| 久久精品国产91久久综合麻豆自制| 色噜噜狠狠色综合网图区| 国产毛片片精品天天看视频| 91久久天天躁狠狠躁夜夜| 亚洲无码视频喷水| 久久伊人久久亚洲综合| 日韩美毛片| 日韩欧美在线观看| 日韩精品高清自在线| 国内精品视频区在线2021| 国产在线观看成人91| 国产在线观看91精品亚瑟| 欧美亚洲日韩中文| 国产成人资源| 久久免费成人| 青青草原国产一区二区| 高清无码手机在线观看| 国产亚洲高清在线精品99| 国产制服丝袜无码视频| 精品亚洲国产成人AV| 97成人在线视频| 亚洲中文字幕23页在线| 免费无码AV片在线观看国产| 99re经典视频在线| 久久96热在精品国产高清| 国产丝袜无码一区二区视频| 四虎综合网| 色噜噜中文网| 91成人免费观看| 欧美日韩国产成人在线观看| 免费毛片a| 丁香综合在线| 国产精品部在线观看| 婷婷综合在线观看丁香| 国产精品视频导航| 亚洲一区精品视频在线| www.国产福利| 干中文字幕| 国产精品污视频| 九九视频在线免费观看| 精品国产美女福到在线不卡f| 国产精品成人一区二区| 在线免费看片a| 99九九成人免费视频精品| 国产精品短篇二区| 激情亚洲天堂| 欧美视频在线第一页| 国产高清在线精品一区二区三区 | 最新精品久久精品| 国产精品所毛片视频|