任昭 孫海冰 彭淑芹


摘 要: 本文針對光學符號識別問題,對數據進性分類統計處理,建立歐幾里得相似度模型,ROC模型評判法對模型進行檢驗,同一坐標對應若干個字符,所以考慮坐標所對應的數字是坐標域,分析不同位置統一字母的數據存在可能性差異,同一字符在同一位置區域的數據具有較高的相似性,篩選同一區域的若干字符,再通過其余特征屬性建立模型可以識別相關字符。接著觀察待測字符的數字信息中的位置信息,找到與待測字符相同的位置區域,建立歐幾里得相似度模型,將篩選出的屬性與待測字符的相應屬性的數據通過歐幾里得相似度計算公式進行計算,得到多組歐幾里得距離(距離越小,相似度越高),選擇不同的閾值,計算低于閾值的字符頻數,最終選擇頻數最大的字符作為識別結果。
關鍵詞:歐幾里得距離 ;相似度;ROC模型誤差檢驗
[abstract]Problem based on optical character recognition, the data into classification statistical processing, Euclidean similarity model is set up, the ROC model test evaluation method on the model, the same coordinates corresponding to several characters, so consider the coordinates of the figures are coordinates domain, analysis unified data possible differences, different position data of the same characters in the same location area has high similarity, screening of several of the characters of the same area again through the rest of the attributes set up model can identify the related characters. Then watch for the character of digital information, location information in finding and characters of the same location area under test, Euclidean similarity model is set up, will select attributes and characters of the corresponding property of the under test data by Euclidean similarity calculation formula to calculate, get more groups of Euclidean distance (the smaller the distance, the higher the similarity), choose a different threshold, the calculation of characters is lower than the threshold frequency, frequency of maximum character is chosen as the final recognition result.
[Key words]:? euclidean distance? similarity? ROC model error test
一、問題分析及模型建立
1.1 問題分析
通過分析字符的特征屬性知,字符所在矩形區域的水平豎直位置和高寬度是描述字符所在位置和大小的,其余則是表述字符本身具體形狀的特征屬性,用于識別字符。將屬性分為兩類,位置屬性和特征屬性。
觀察每一個字母的若干數據,再按照水平位置和豎直位置分類,發現同一類字符在不同位置區域的偽屬性值存在可能性差異,同一類字符在同一未知區域的偽屬性值具有高度相似性;在檢測字符時,可以考慮先從位置坐標出發,先尋找坐標相同或者相近的區域,再進行識別。
1.2對屬性進行分類
字符所在矩形區域的水平位置和豎直位置與其矩形區域的高度和寬度是確定字符所在位置和大小的屬性。矩形區域的黑色像素數等屬性表示字符本身的具體形狀,用于識別字符。
表示字符所在矩形位置大小的特征屬性有四個,表示字符矩形區域的特征屬性的有12個。相關數據表面發現這些數據都具有幾乎相同的屬性域________________。
字符的特征屬性:
i.從識別字符本身形狀出發,考慮后面12個屬性區域,求出每個字符的不同屬性在每個屬性值區域(0-15之間)的頻數,通過計算每一幅圖偽屬性值的極差,判斷波動差別比較大的屬性。本文還選擇提取每一個字母的平均偽屬性值,繪制平均偽屬性值圖像,觀察不同字符平均偽屬性值的走勢也具有一定辨識度,兩種方法結合選擇出最具有辨識度的屬性。
ii.計算出12幅圖的極差(12個極差),在第一種方式中選擇極差大的前10個屬性,作為暫時確定的恰當的特征。再計算第二種方法的12幅圖的極差(12個極差),選擇前10個極差大的屬性,作為第二種方法暫時的恰當特征屬性。
1.3 模型建立
1.3.1 基本思路
對于識別字符而言,首先進行數據預處理,然后對圖片進行分割。對圖像數據進行訓練和識別,本文選取每個區域內任意70%的數據進行識別字符,剩余30%數據進行檢驗。
1.3.2歐幾里得相似度距離公式
其中一個區域為例子做解釋說明,假設選擇剩下百分之三十的數據的其中一個數據,先觀察該數據的位置信息,提取同區域字符,在進行相似度計算,在同區域中尋找最好的相似度對應的字符作為最終識別字符。
二、結果及結果分析
ii. 將計算出來的所有數值進行比較,在小于該閾值的范圍中頻數最多的字母,得到的字母即為識別結果。計算得到的預測正確率為92.3%。
三、模型的改進與推廣
3.1 模型評價
3.1.1 模型的優點
1、先將圖像進行分區,計算不同特征屬性的不同字母的最大頻數下的為屬性值和平均偽屬性值,使得模型的可視化界面形象逼真。
2、歐幾里得算法計算方便,分區后結合實際分析,使得模型更貼近實際,通用性好,推廣性強。
3、篩選出的70%的訓練數據和30%檢驗數具有隨機性,可以較好反映數據信息。
3.1.2 模型的缺點
1、影響精確度的因素較多,不能全面考慮,結果與實際有一定偏差。
2、光學數據集在收集過程中由于其他未考慮因素導致識別準確,例如,儀器誤差,環境因素等,結果又偏差。
3.2 模型優化
對每個屬性根據其重要性賦予權重,加權之后的歐幾里得距離可以表示為:
對于識別字符,各個屬性對精確度的影響程度可用層次分析法和熵權法進行量化,算出的歐幾里得距離更具有實際意義,能夠反映各個變量在數據中的不同作用,從而使模型到達優化的目的。
參考文獻:
[1] 盧暢暢,寧少文,唐德昌.光學字符識別技術(OCR)的研究于應用[J].中國戰略新興產業,2018(28):1-3.
[2] 肖堅.基于學習的OCR字符識別[J].計算機時代,2018(07):48-51.
[3] 田學東. 光學公式識別技術研究[D].河北大學,2007.