劉立滿 楊勝衛 王若男



摘要:光學符號識別在電子設備上已經有廣大的應用。本文對圖像數據的分析,選取圖像特征,圖像字符識別進行了討論,最后對模型進行評價和優化。
針對問題二,首先利用去掉變化小的特征法,對字符在矩形區域的水平位置與豎直位置的數據做取值預處理,得到字符在矩形區域的水平位置與豎直位置的選取區間,從而確定判斷識別字符的位相特征;然后再利用線性回歸與正則化,以字符所在矩形區域的寬度與高度的數據,通過矩陣X和Y進行線性回歸,得到壓縮因子的有效自由度。
關鍵詞:去掉變化小的特征;線性回歸與正則化;K-L變化特征提取識別模型;模糊綜合評價模型
一、問題的重述
分析所給圖像數據集,為例能夠準確判斷識別每個字符,需要選取哪些恰當的特征。
二、模型假設
1.假設樣本的所有數據記錄無誤,無特殊因素對樣本數據記錄產生影響
2.假設光學機器操作對字符識別不產生影響
3.假設燈光、定位和對象的位置對圖像數據沒有影響
4.假設在特定時間類,字符的暗、亮模式與形狀不發生改變
三、模型的建立與求解
3.1圖像識別特征的選取
特征選擇需要處理兩個問題[6],一是確定選擇識別算法,在一定的時間內,以最小的時間代價找出最能描述類別的特征組合;二是確立評價標準,權衡特征組合的效率,獲取特征操作的停止條件。所以,分為兩個步驟獲取字符特征,首先得到特征子集,然后對特征子集進行評估,如果特征達到停止條件,則操作完成,否則重復前面兩步到停止條件滿足為止。
3.1.1去掉取值變化小的特征
圖像數據集中,字符在矩形區域的水平位置的
這里對水平位置的橫向坐標做去掉取值變化小的處理:
即對集合(x1, x2, x3…x20000)做出去掉取值變化小的操作,以區間,即區間(2.11,5.93)作為字符在矩形區域的水平位置的選取區間。把在選取區間外的字符去掉。
同樣在圖像數據集中,字符在矩形區域的豎直位置的
這里對豎直位置的縱向坐標做去掉取值變化小的處理:
集合(x1, x2, x3…x20000),以區間即區間(3.73,10.33)作為字符在矩形區域的豎直位置的選取區間。將在豎直選取區間外的字符去掉。
綜上,依據去掉取值變化最小特征的數據處理,確定字符在矩形區域的水平位置與豎直位置,從而確定字符在矩形區域的位相特征。
3.1.2線性回歸和正則化
正則化是構造風險最小化方法,在經驗風險的基礎上加上正則化。正則化是一種類似模型復雜度的單調遞增函數[7]。
幾何意義:正交投影
故:
字符所在矩形區域的寬度X=(x1, x2, x3…x20000)T
字符所在矩形區域的高度Y=(y1, y2, y3…y20000)T
參考文獻:
[1]張世輝.漢字圖像預處理算法的研究及實現[J].微機發展,2003 (04):53-55+58.
[2]關石菡.數理統計在數據分析中的應用研究[J].林區教學,2011 (06):87-88.
[3]吳瀚.對于使用Adaptive Lp正則化的線性回歸問題在高維情況下漸近性質的討論[D].復旦大學,2014.