999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GoogLeNet卷積神經網絡的農業書籍文字識別*

2021-03-22 02:21:42陳飛昕陳振國張超偉李浩欣丁煒妮
智慧農業導刊 2021年1期

陳飛昕,陳振國,張超偉,李浩欣,丁煒妮

(廣東技術師范大學 機電學院,廣東 廣州 510635)

信息化是現代農業發展的一個重要方向,如何高效率地將傳統紙質農業書籍轉換為電子信息,成為農業信息化中的重要課題之一。當今世界計算機技術、人工智能技術[1]得到快速且蓬勃的發展,人們處理文字信息的頻率也迅速提高,文字識別技術已經成為信息采集的重要方式之一。

漢字識別是一種使用相關算法及軟件來提取漢字的特征,實現圖像與漢字的關聯[2],并與機器內預存特征進行匹配識別,將漢字圖像自動轉換成某種代碼的一種技術。隨著深度學習的崛起[3],數據成為推動深度學習技術發展的巨大助力,基于卷積神經網絡的方法是現在主要研究的方法。柴偉佳,王連明[4]提出了以7層神經網絡(其中3層為卷積層)對漢字字符進行識別。潘煒深等[5]則在卷積神經網絡的基礎上添加了基于多尺度滑動窗的方法提取文字的梯度直方圖特征對漢字字符進行識別。王蕾等[6]提出一個用于特征提取的分塊獲勝序列模型,采用按行分塊原則進行分塊,多個獲勝神經元有序組合的方式表征特征,模型的輸出層為二維方形結構,增加了輸出層神經元可以表示的類別數。代賀等[7]改進了卷積神經網絡結構刪減了部分全連接等并推導了前向和反向傳插算法。與傳統的神經網絡相比,網絡結構得到了有效簡化,響應速度快,識別率也得到了提高,具有良好的魯棒性和泛化性。但是由于書寫風格的不同,會導致識別錯誤的情況。武子毅等[8]提出了基于集成注意力層的模型,將注意力放在圖像的某個部位,對目標區域賦予更高的權重,注意力圖與圖像進行濾波處理,將AlexNet網絡與注意力圖進行了融合,增加了漢字圖像重點區域的權重,有效彌補了神經網絡丟失微小特征的不足,但是運算復雜度較高。

本文基于Matlab開發環境針對農業書籍研究了適用于復雜版面的文字識別技術,實現了圖像信息的獲取,進行圖像預處理,包括版面分析與提取預處理以及文字與處理,將處理后的文字圖像進行卷積神經網絡識別,卷積神經網絡的訓練需要大量的樣本,因此本文在卷積訓練之前進行了樣本數據庫擴增。卷積當中采用了能夠避免Dead ReLU問題的Leaky ReLU激活函數進行卷積運算,大大減少了計算時間。本文搭建了GoogLeNet網絡訓練結構并進行了實驗測試,結果表明:在該訓練網絡下,文字識別具有較高準確率。

1 復雜版面的分析與處理

1.1 圖像預處理

輸入圖像第一步需要進行圖像預處理,先對圖像進行灰度化、二值化處理,經過灰度化、圖像閾值二值化處理后,進行拉普拉斯算子邊緣化處理,最后通過圖像膨脹、腐蝕運算、圖像頂帽運算完成圖像的預處理。其中,運用拉普拉斯算子進行的邊緣處理能更好地凸顯字體的細節,為提高后續神經網絡訓練奠定了基礎。拉普拉斯算子是一種較為簡單的圖像處理算子,旋轉不變性是它最突出的特點。對于一個二維圖像函數,拉普拉斯變換為各向同性的二階導數,定義為:

圖1表示了灰度值存在的“跳躍”邊緣,通過一階微分求導,可以更加清晰地表示邊緣“跳躍”的存在(峰值),如圖2所示;而在邊緣部分使用二階求導會出現如圖3所示情況,即在一階導數的極值位置,二階導數為0,但正因此本文利用該特點來作為檢測圖像邊緣的方法。在研究過程中發現二階導數的0值不僅僅出現在邊緣,它們也可能出現在無意義的位置,但運用均值濾波可以過濾消除掉這些點。

圖1 灰度值“跳躍”示意圖

圖2 求導后邊緣的“峰值”示意圖

圖3 二階導數位置為0示意圖

為了更適用于數字圖像表達,將該方程表示為離散形式:

在經過一系列的文字圖像預處理之后,得到理想效果(如圖4所示),為后續進行神經網絡訓練奠定基礎。

圖4 文字圖像預處理前后對比

1.2 版面分析與提取

版面分析的常用方法有自頂向下[2]、自底向上、非層次性或混合型等。自底向上的方法比較擅長獲取文檔圖像的完整信息,對處理復雜版面的文檔圖像較為擅長,因此本文采用了自底向上的版面分析方法。自底向上版面分析方法首要的目的是獲得最底層的版面信息,通過搜索文檔圖像的連通域來實現,獲得底層信息后再通過某些約束條件將具有相同屬性的連通域合并起來,可以獲得整個文檔圖像的版面分析結果。整個版面分析方法最終能成功提取完整的版面信息,為后續的字符歸類切分和字符識別奠定了基礎。

基于Matlab復雜版面識別軟件模塊首先把預處理后的文檔圖像進行連通域搜索和初步的合并;提取較小和較大的特殊連通區域[9],其中,較小的連通區域作為噪聲點去除,較大的連通區域看作表格或圖像,再做進一步處理;剩余的連通區域為文本連通域,對其進行行、列合并使其逐步合并為文本區域,最后將識別結果再發送至版面呈現系統,便能實現文章的區分以及圖像歸類到相應文章(如圖5所示)。

圖5 版面分析原理圖

2 基于卷積神經網絡的文字圖像識別

2.1 卷積神經網絡的原理

圖像識別就是對進行預處理后的圖像運用算法進行識別的任務。基于結構模式識別和模板匹配識別是傳統的文字識別算法中比較流行的兩種算法。傳統識別算法對于字符的識別存在一些缺陷,需要考慮字符的紋理特征等因素。因此本項目采用卷積神經網絡的識別算法進行識別。本文構建了一個包括圖像輸入層、卷積層、激活函數層、最大池化層、全連接層、分類層等的卷積神經網絡,用大量樣本進行訓練后,將該網絡用來進行圖像識別(如圖6所示)。

圖6 卷積神經網絡各個層次的連接

除此之外,為了使算法識別速率更快,有效提高對于特殊字符以及復雜文字的識別準確率,本文還針對該識別算法,進行了三種改進優化方式。

(1)樣本擴增,本文采用了波紋扭曲結合平移[4]、旋轉、尺度縮放的數據擴增方法(如圖7所示)。

圖7 樣本擴增

(2)加入BN層,從而提升訓練速度和精度。

(3)采用Adam和傳統SGD方法相結合的訓練方法[4],本文將采用Adam方法自適應調整學習率,避免手工調參,使網絡快速收斂,使用SGD方法以極小的學習率在訓練好的模型上進一步精調,最終達到最優的分類效果。

2.2 Leaky ReLU激活函數

激活函數在一個感知器中起著重要作用,為了增強網絡的學習能力,使用的激活函數往往是一個連續且可導的非線性函數。同時為了使得訓練的效率和穩定性不受到影響,激活函數的導函數的值域要合理地控制在一個合適的區間內,不能過大或過小。常見的激活函數有:sigmoid函數、logistic函數、tanh函數、reLU函數等。ReLU函數有“降低計算量”“解決梯度消失問題”“緩解過擬合問題”這三個重要的特點,但是,在實際使用過程中,會出現Dead ReLU Problem,指的是某些神經元可能永遠不會被激活,導致相應的參數永遠不能被更新。為了解決ReLU函數的這些問題,本文采用Leaky ReLU激活函數。該函數輸出對負值輸入有很小的坡度。由于導數總是不為零,這能減少靜默神經元的出現,允許基于梯度的學習,解決了ReLU函數進入負區間后,導致神經元不學習的問題。Leaky ReLU激活函數的數學表達式為:

從圖8中可以看出,Leaky Relu激活函數很好解決了Relu函數的靜默神經元過多問題,使得神經網絡的訓練更加高效以及準確。

圖8 Relu激活函數與Leaky Relu激活函數處理效果對比

2.3 隨機梯度下降算法

為使神經網絡的誤差盡量小,損失函數要取到最小值,這個過程可以近似看作求取損失函數最優解的過程。對損失函數最小值的尋找方向一定是其下降幅度最大的方向,即損失函數初始點位處梯度向量的方向。在訓練輪數進行不斷迭代的過程中應用隨機梯度下降法,得出最小化的損失函數以及訓練模型的參數值,反向調整卷積核的輸入權值[10]。隨機梯度下降算法的相關計算公式如式(3)-(5)所示,公式的參數意義如表1所示。

表1 隨機梯度下降算法公式參數的含義

2.4 搭建GoogLeNet網絡進行訓練

該模型的創新在于使用Inception結構,這是一種網中網的結構,即原來的結點也是一個網絡。Inception一直在不斷發展,目前已經發展到V2、V3、V4。其中1×1卷積主要用來降維,用了InceptionV1之后整個網絡結構的寬度和深度都可擴大,能夠帶來2~3倍的性能提升。但是,如果只是單純的堆疊網絡,雖然可以提高文字識別的準確率,但是會導致計算效率的下降,而InceptionV2使用Batch Normalization,加快模型訓練速度;使用兩個3×3的卷積代替5×5的大卷積,降低了參數數量并減輕了過擬合;增大學習速率并加快學習衰減速度以適用BN規范化后的數據;去除Dropout并減輕L2正則化;更徹底地對訓練樣本進行打亂;減少數據增強過程中對數據的光學畸變,因為BN訓練更快,每個樣本被訓練的次數更少,因此更真實的樣本對訓練更有幫助。因此本文采用Inception V2結構,Inception V2的結構如圖9所示。

圖9 Inception V2結構圖

本文使用2個連續的3×3的卷積核組成小網絡來代替單個size=5的卷積層(如圖10),這樣的方案不會導致表達缺失,因此,采用Inception V2結構是文字識別的比較好的一種方案。

圖10 用3×3卷積核代替5×5卷積核

2.5 實驗結果分析

設置初始學習率為0.01,權重衰減為0.0001,迭代次數為51次。在訓練過程中,使用交叉嫡作為損失函數,反向傳播通過隨機梯度下降算法調整下一輪迭代的卷積層權值,保存模型在此過程中性能最好的參數權重。

通過訓練驗證,本文構建的GoogLeNet模型識別準確率如圖11所示。

圖11 GoogLeNet模型識別準確率示意圖

從圖中可以看出訓練剛開始時識別準確率提高得很快,且驗證數據集與訓練數據集同步上升,隨著迭代次數加深,準確率逐漸趨近于98%,由此可以得出:模型訓練結果較為理想。

3 結束語

本文針對農業書籍探索了基于卷積神經網絡的文字識別的方法,通過對輸入文檔的圖像預處理、版面分析與提取等處理方法,為計算機更好地識別采集到的文檔圖像提供了良好的條件,基于GoogLeNet構建了深度學習神經網絡,利用該網絡對處理后的文檔圖像進行了識別。實驗表明,GoogLeNet網絡具備高效率、高準確率識別的優勢,為農業書籍的識別提供了技術參考。

主站蜘蛛池模板: 午夜国产不卡在线观看视频| 亚洲人成色在线观看| 视频在线观看一区二区| 久久久久中文字幕精品视频| 国产手机在线ΑⅤ片无码观看| 国产亚洲精品自在线| 欧美国产精品拍自| 青青操国产| 国产在线日本| 40岁成熟女人牲交片免费| 亚洲无码高清一区二区| 色哟哟精品无码网站在线播放视频| 99999久久久久久亚洲| 色综合网址| 正在播放久久| 日韩区欧美区| 国内精品一区二区在线观看| 国产麻豆91网在线看| 国产欧美日韩va| 人妻少妇乱子伦精品无码专区毛片| 67194在线午夜亚洲| 国产在线啪| www.99精品视频在线播放| 97成人在线视频| 国产杨幂丝袜av在线播放| 无码AV日韩一二三区| 国产精品亚洲天堂| www.精品国产| JIZZ亚洲国产| 国产h视频在线观看视频| 美女国产在线| 国产成人8x视频一区二区| 毛片免费观看视频| 国产精品丝袜在线| 99在线观看精品视频| 日本亚洲国产一区二区三区| 综合社区亚洲熟妇p| 成人在线不卡视频| 在线看片免费人成视久网下载| 欧美伊人色综合久久天天| 亚洲色大成网站www国产| 亚洲侵犯无码网址在线观看| 乱系列中文字幕在线视频| 免费一级大毛片a一观看不卡| 欧美日韩国产精品综合 | 久久精品只有这里有| 欧美国产日韩在线| 亚洲精品日产精品乱码不卡| 欧美日在线观看| 国产又色又爽又黄| 国产精品第一区| 91国内在线观看| 99久久性生片| 久久女人网| 99尹人香蕉国产免费天天拍| 2021国产精品自产拍在线观看 | 成人在线观看不卡| 综合网天天| 欧美午夜视频| 91色老久久精品偷偷蜜臀| 高清国产va日韩亚洲免费午夜电影| 国产内射一区亚洲| 欧洲免费精品视频在线| 日本不卡在线视频| 欧美成a人片在线观看| 99九九成人免费视频精品| 亚洲日韩高清在线亚洲专区| 亚洲一级毛片| 亚洲国产综合精品中文第一| 99久久精品久久久久久婷婷| 亚洲男女天堂| 亚洲成a人片77777在线播放| 老司机久久99久久精品播放| 黄色网页在线播放| 无码AV动漫| 亚洲欧美不卡视频| 美女视频黄又黄又免费高清| 鲁鲁鲁爽爽爽在线视频观看| 久99久热只有精品国产15| 乱人伦视频中文字幕在线| 日韩中文无码av超清 | 久久亚洲国产最新网站|