張楊
摘要:一般來說,傳統的文字識別算法提取存在著識別困難,提取特征難的問題。對此,本文研究一種基于深度學習的字符識別方法。在實際應用過程中,首先,通過OSTU能夠對文字區域進行全面的提取。而后,借助投影統計法,對單個文字圖片進行切割。切割完成后,能夠對神經網絡層的變化情況以及神經元數量進行識別。從而對網絡模型進行分析。通過研究能夠發現,基于深度學習的字符識別能夠有效提升模型識別的正確率,經過優化后的卷積神經網絡識別正確率能夠達到99.98%。具有良好的應用效果。
關鍵詞:深度學習;光學字符識別;卷積神經網絡
中圖分類號:TP391.41;TP18文獻標識碼:A文章編號:1672-9129(2020)07-0126-01
Abstract:In general, the traditional text recognition algorithm is difficult to extract the recognition, the extraction of features is difficult. In this paper, a character recognition method based on deep learning is studied. In practice, first of all, the text area can be fully extracted by OSTU. Then, with the help of projection statistics, a single text image is cut. After cutting, the changes of the neural network layer and the number of neurons can be identified. Then the network model is analyzed. Through the research, it can be found that the character recognition based on deep learning can effectively improve the accuracy of model recognition, and the optimized convolutional neural network recognition accuracy can reach 99.98%. It has good application effect.
Key words:deep learning;Optical character recognition;Convolutional neural network
1引言
隨著網絡信息化的迅速發展,傳統的文字識別算法已經逐漸被時代淘汰。由于文字識別算法在實際應用中存在特征提取難的問題。由此,為了能夠進一步提升字符識別的效率,本文研究一種基于深度學習的字符識別方法。借助神經網絡層,可以對神經元數量進行識別。并且能夠對優化過后的網絡模型進行全面的分析。基于深度學習的字符識別模型識別率更高,準確率更佳,能夠應用到多個領域,具有良好的應用效果。
2網絡結構與優化策略
2.1 網絡優化策略。深度學習作為當代人工智能的一個分支,也是機器學習的衍生部分。深度學習不僅能夠實現任務學習,還能夠對學習對象的特征、特質等進行模仿。而且能夠對學習對象的簡單特征進行提取,從而捕捉到更加復雜的特征,展開學習。通過展開網絡結構優化,能夠彌補其中存在的問題。本文中通過英語多層神經網絡,可以解決運算異常等問題。神經網絡一般采取多層結構。其中,搭建神經網絡的輸入層也是神經網絡的第一層,沒個神經層中的神經元都有一個與之對應的取值。同層節點之間相互保持獨立,并不存在關聯性。依照神經層同層的傳遞方向,與后一層的節點進行連接,最終達到輸出層。也就是神經層的最后一層。通常情況下,神經層的傳遞都是按照統一的方向性進行的,并且在傳遞的過程中只能夠支持單項的路徑傳遞,傳遞的過程不可逆。隱藏層分布在輸入/輸出層之間。在整個網絡中,全部的神經元都具有同樣的特征,并且結構完全相同。
2.2 參數取值以及學習率的控制。在網絡優化過程中,還需針對網絡的參數取值進行合理的選擇[1]。本文中所進行的網絡優化策略中,主要結合BP算法以及梯度下降法,對網絡中的參數進行選取。在應用神經網絡的過程中,通過參數調優,能夠有效提升神經網絡的學習效果,并且能夠提升網絡的優化率,將會對神經網絡的識別性能的優劣產生直接的影響。參數調優作為其中最為關鍵的步驟,采取梯度下降法,可以對神經網絡的識別性能進行優化處理。通過將單一的參數進行迭代,使之更新到最優值,可以更加有效的確認參數取值。與此同時,借助反向傳播算法,與用梯度下降算法相結合,可以有效地提升參數取值的整體質量。通過學習率控制參數更新的幅度,能夠保證參數的更新始終維持在一個較為平和的水平范圍內。學習率作為控制神經網絡最為關鍵的部分,也是神經網絡的超級參數。在對學習率進行控制時,應先設置初始學習率,避免由于學習率過大或者過小,造成參數的浮動范圍變大,參數的取值不合理等情況出現。
3識別實驗結果比對
3.1 基于模版的方法kNN。為了能夠對本文總所提到的算法識別性能進行驗證,展開識別實驗,并且對最終的實驗結果進行分析。首先,根據切割算法及歸一化處理能夠得到,在應用切割算法過程中,在規定的大小區域中,通過切割所得到的字符相對較為固定。因此,借助模板匹配法結合kNN算法,對其進行識別。眾所周知,kNN算法也被稱作最近鄰法。由于每個字符的取值不同,因此選取一定數值并且具有代表性的字符,通過對這些不同相態的字符進行集合,將之看成是一個標準的模板[2-3]。在進行圖片識別工作時,借助圖片的像素點作為檢測對象,針對模板內部的全部圖片,對其像素點進行計算,得到像素點的灰度差值。將計算過后的模板與圖片的灰度差值進行處理,求出像素差值絕對之和選取5張模版,與待識別圖片像素差值絕對值之和最小的圖片展開統計,并且對圖片進行歸類。最終可以根據排序的結果,作為判斷的依據。
3.2 卷積神經網絡。卷積神經網絡在近幾年得到了較為迅猛的發展,此種神經網絡也是一種深度前饋人工神經網絡。在實際應用過程中,具有無可替代的優勢。首先,選擇應用卷積神經網絡,借助神經網絡中特有的卷積層,能夠將不同神經層的輸入/出進行連接。下一層的輸出層可以與上一層的輸入層進行連接。與此同時,借助權值共享,能夠刪減掉不必要的網絡參數量。這樣一來,就減少了網絡的冗余。卷積神經網絡架構包括輸入層、全連接層以及卷積層。其中輸入層中包含卷積層以及池化層。在神經網絡運行過程中,往往需要經過多次的卷積層、池化層處理,卷積神經網絡在輸出前通常會經過全連接層。本次實驗中為了能夠更好的對神經網絡的字符識別進行研究,選用了8層的卷積網絡,其中包含3個池化層以及2個卷積層。
3.3 實驗結果以及分析。通過展開深度學習的字符識別實驗,能夠看出,借助神經網絡自動學習,能夠有效提升字符識別的效率。并且借助深度學習的特性,避免了以往字符識別檢測提取過程的繁瑣。通過分析實驗結果,能夠看出,使用神經網絡識別識別正確率更高,識別速度更快,具有良好的應用前景。
4結論
綜上所述,深度學習作為人工智能的一個分支,在計算機技術發展日益加快的今天,具有重要意義、對此,本文主要研究一種基于深度學習的字符識別方法,并且展開了相關的實驗。通過分析實驗結果能夠看出,基于深度學習的字符識別方法識別效果更佳,正確率更高。
參考文獻:
[1]王光軍. 基于神經網絡的自然場景中的字符識別算法的研究與實現[D].電子科技大學,2020.
[2]李穎. 基于BERT-DPCNN的垃圾彈幕識別改進及應用[D].上海師范大學,2020.
[3]陳澤瀛.一種基于自適應非極大值抑制的文本檢測算法[J].數字技術與應用,2020,38(03):117-120.