999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進IE-AlexNet的少數民族文字圖像識別方法*

2022-11-10 06:39:52楊秀璋周既松陳登建劉建義宋籍文
計算機時代 2022年11期
關鍵詞:實驗模型

楊秀璋,周既松,武 帥,2,陳登建,劉建義,宋籍文

(1.貴州財經大學信息學院,貴州 貴陽 550025;2.漣水縣財政局;3.貴州高速公路集團有限公司)

0 引言

隨著文本信息數字化程度不斷提升,模式識別技術被廣泛運用于檔案信息化應用中[1]。部分檔案由于以手寫體為主,需要對其進行手寫體字符識別(Optical Character Recognition,簡稱OCR),以獲取較為準確的文字信息[2]。整個過程主要包括圖像預處理、特征提取和分類器分類,其中特征提取最為關鍵。傳統手寫體字符識別方法在提取目標書寫體圖像信息時,能較好地提取手寫體空間、字體輪廓信息,但對復雜環境下手寫體圖像的處理存在準確率低和識別效果不佳的現象[3]。此外,當前少數民族古文字研究集中于藝術考究和字形釋義,缺乏利用深度學習技術自動化識別文字,且古文字主要通過古籍、雕刻、木刻或碑刻存在,存在大量噪聲,數字化讀取困難[3]。針對上述情況,本文提出一種改進IE-AlexNet 神經網絡的少數民族文字圖像識別方法,一定程度上提升了對復雜環境下手寫體圖像的關鍵特征提取效果,提高模型整體分類效果。該方法有較好的魯棒性和準確性。

1 相關研究現狀

現階段,手寫體字符識別的研究主要集中于對中文和英文手寫體文字的識別,但針對少數民族古文字手寫體識別研究相對較少。傳統手寫體字符識別方法在識別少數民族古文字手寫體時,由于其手寫體字型變化,數字化識別效果欠佳。因此,如何運用計算機視覺技術和檔案數字化方法構建一個能夠智能化準確識別少數民族古文字的模型,一定程度上對提高少數民族檔案數字化建設起到積極作用,具有較高的研究意義,是研究者們迫切需要解決的問題。

熱依曼·吐爾遜等[4]融合高斯模型和隱馬爾可夫模型,設計了一種維吾爾語聯機手寫體識別系統,利用高斯模型模擬維吾爾語整詞的靜態特征和隱馬爾科夫模型模擬書寫筆跡的動態特征。王曉娟等[5]針對數字手寫體圖像區域進行歸一化處理,提出一種基于BP神經網絡的圖像識別方法。楊秀璋等[6]針對水族古文字傳承以刺繡、碑刻、木刻等為主,文字清晰度不高,數字化讀取困難的現象,提出一種基于自適應圖像增強和區域檢測的水族文字提取與分割算法。姜文等[7]針對手寫體維吾爾文字字符識別過程中的特征提取環節,提出一種基于方向線素特征的手寫體維吾爾文單字字符筆跡特征的KNN分類識別算法。楊秀璋等[8]考慮到古文字的字形變化特點,提出一種改進卷積神經網絡的阿拉伯文字圖像識別方法。

此外,深度學習技術的不斷成熟,為手寫體字符識別提供了新的解決思路。本文在AlexNet 神經網絡的基礎上融合圖像增強技術,一定程度上提升了對阿拉伯文字手寫體關鍵特征的提取效果,提高了模型整體分類效果。將本文方法運用于手寫體阿拉伯文字的識別,可以一定程度上拓寬手寫體文字識別的研究范疇,同時也為本研究團隊后期對水族文字識別提供理論基礎,給少數民族數字化檔案建設提供實際應用的可能性,這是我們研究的意義所在。

2 系統設計

本文提出一種融合自適應圖像增強和深度學習的IE-AlexNet(Image Enhancement AlexNet)模型,并對復雜環境下的阿拉伯文字圖像數據集進行實驗,模型設計的研究內容如下。

2.1 總體框架

本文設計并實現了IE-AlexNet 模型,其總體框架如圖1所示。具體實現步驟如下。

圖1 復雜環境下少數民族文字圖像識別的總體框架

⑴模擬現實場景采集并構造阿拉伯文字圖像數據集,并將其隨機劃分為訓練集和測試集。

⑵計算場景系數,構建自適應圖像增強得算法實現去噪,增強圖像質量,共包括形態學去噪(閉運算)、灰度伽馬變換、灰度對數變換、直方圖均衡化、ACE算法去霧和暗通道先驗去霧六種算法。

⑶對所有圖像進行預處理,包括圖像向量表征、標準化處理、形狀修改和編碼轉換等。

⑷構建IE-AlexNet模型該模型包括5層卷積層、3層池化層和3個全連接層,并優化模型超參數。

⑸通過構建Softmax 分類器實現阿拉伯文字圖像識別,對比少數民族文字識別的性能。

2.2 AlexNet模型

AlexNet 神經網絡是由Alex Krizhevsky 等人[9]于2012 年提出的首個應用于圖像分類的深層卷積神經網絡,并在當年舉辦的ImageNet Large Scale Visual Recognition Competition(簡稱ILSVC)比賽中以15.3%的top-5測試錯誤率獲得了分類任務的冠軍,其網絡結構詳如圖2所示。該網絡由五個卷積層和三個全連接層組成。卷積層用于提取特征,池化層用于實現特征降維,激活函數用于獲取非線性特征,全連接層起到分類作用。輸入圖像經過卷積層特征提取和全連接層分類操作之后,輸入到具有1000 個節點的Softmax分類器中實現圖像分類。

圖2 AlexNet模型結構

2.3 自適應圖像增強

在真實場景中,少數民族文字圖像通常存在于古籍、木雕或碑刻中,因此存在大量的噪聲,導致傳統圖像識別方法效果不理性。本文結合真實場景噪聲特點(含文字噪聲、全局噪聲、年代噪聲、亮度噪聲和光照影響),設計了一種自適應圖像增強的算法。該算法通過計算場景系數,針對不同場景構建對應的閾值,再開展相應的圖像增強處理,包括形態學、灰度伽馬變換、灰度對數變換、直方圖均衡化、自動色彩均衡(Automatic Color Equalization,簡稱ACE)算法[10]和暗通道先驗(Dark Channel Prior,簡稱DCP)去霧算法[11]。

圖3詳細展示了四種場景下的阿拉伯文字圖像處理效果。圖3(a)存在字內噪聲,圖3(e)利用形態學閉運算有效去噪;圖3(b)存在全局噪聲,通常存在于雕刻和木刻的掃描圖像,圖3(f)利用ACE 算法有效消除中心文字的內部噪聲;圖3(c)屬于年代噪聲,年代久遠的古籍會導致字體不清晰,圖3(g)是圖像增強方法消除噪聲的效果;圖3(d)是亮度或光線、過曝導致的噪聲,圖3(h)利用暗通道先驗去霧處理的效果圖。

圖3 復雜環境下自適應圖像增強算法處理的效果圖

3 實驗評估

本文進行了詳細的對比分析,利用Keras和Sklearn構建模型。實驗環境為Windows 10 操作系統,處理器為Inter(R) Core i7-8700K,GPU 為GTX 1080Ti,內存為64GB。

3.1 數據集和模型參數

數據集是來自Kaggle 的阿拉伯字母手寫圖像,并結合真實場景模擬噪聲,最終生成如表1 所示的數據集。其中,訓練集共計13440幅字符圖像,測試集共計3360 幅字符圖像,涉及28 類阿拉伯文字。同時,按照10%的比例進行噪聲混淆。每幅圖像大小為32×32,并經過圖像預處理修改為統一大小。

表1 阿拉伯手寫文字數據集

為更好地評估IE-AlexNet 模型,本文所有實驗在相同的數據集及場景下實現。此外,為避免某些異常實驗結果的影響,本文最終的實驗結果為十次結果的平均值。

構建的AlexNet 模型的超參數如表2 所示,包括層類、核尺寸、通道數和函數。AlexNet 共包括5 個卷積層、3 個池化層和3 個全連接層,并且本文添加BN和Dropout函數,防止出現過擬合現象。

表2 模型超參數

3.2 評價指標

實驗評估指標為精確率(Precision)、召回率(Recall)、F1值(F1-score)和準確率(Accuracy),它們是經典的分類評估指標,其計算過程如公式⑴~公式⑷所示。

3.3 實驗對比分析

本文與經典機器學習、現有深度學習進行了詳細的對比實驗,實驗結果如表3 所示。其中,本文IEAlexNet 模型的精確率為0.9564,召回率為0.9554,F1值為0.9559,準確率為0.9553,均優于現有方法。

表3 各模型少數民族文字識別實驗結果對比

此外,本文方法的F1值比機器學習中表現最好的SVM 模型提升27.32%,比單層CNN 和雙層CNN 模型提升3.49%和3.13%,比TextCNN 模型提升0.87%,比文獻[8]方法提升0.29%。該實驗充分說明本文構建的IE-AlexNet 能較好地識別阿拉伯文字圖像,并應用于復雜場景下的少數民族古文字識別領域。

同時,本文對比了28 種阿拉伯字母的識別效果,其對應字母、類別和F1值如表4 所示。表現最好的阿拉伯文字包括第0 類、第1 類、第4 類、第11 類和第22類,其F1值分別為0.9917、0.9916、0.9876、0.9789、0.9746,這些文字相對于其他文字特點更明顯,更容易被IE-AlexNet 識別。而具有相似的文字識別效果相對較差,比如第10類和第9類,第7類和第8類,第2類和第3類等。

表4 IE-AlexNet模型識別各類阿拉伯文字的實驗結果

圖4 展示了28 種阿拉伯字母的識別結果對應的混淆矩陣,藍色對角線表示正確識別類別,紅色區域是誤報或漏報數量。

圖4 IE-AlexNet模型識別結果的混淆矩陣

3.4 圖像增強及模型性能比較

為突出本文模型自適應圖像增強的效果以及性能,本文分別進行了對比實驗。表5 展示了五種經典模型是否使用圖像增強優化的前后效果。其中,使用自適應圖像增強算法后,KNN 模型的F1值提升14.46%,RF 模型的F1值提升13.59%,單層CNN 模型的F1值提升11.97%,文獻[8]模型的F1值提升3.80%,本文AlexNet 模型的F1值提升3.49%。該實驗充分說明本文方法能有效實現不同場景的圖像增強,去除少數民族文字圖像的噪聲,具有更強的魯棒性和準確率,并能有效識別阿拉伯文字或其他少數民族古文字,具有一定的應用前景和實用價值。

表5 各模型遷移場景的情感分析實驗結果對比

最后,本文對比了深度學習模型的訓練誤差隨Epoch 下降曲線,如圖5 所示。其中,IE-AlexNet 模型能以更快的速度下降并擬合,最終趨于0.1822 為主。相較于其他模型,本文針對該數據集的圖像識別效果更佳,性能更好。

圖5 實驗誤差變化曲線

4 結束語

傳統圖像識別方法較難識別少數民族文字,而且古文字主要以古籍、雕刻、木刻或碑刻而存在,利用深度學習技術自動化識別,存在大量噪聲,數字化讀取困難。

本文提出一種融合自適應圖像增強的深度學習IE-AlexNet 模型,旨在識別復雜場景下的阿拉伯文字圖像。實驗結果表明,本文方法能有效識別阿拉伯文字圖像,并去除噪聲,其F1值為0.9559,準確率為0.9553,IE-AlexNet 的F1值比機器學習中表現最好的SVM 模型提升27.32%,比單層CNN 和雙層CNN 模型提升3.49%和3.13%,比TextCNN 模型提升0.87%,比文獻[8]方法提升0.29%。

該實驗充分說明了本文構建的IE-AlexNet能較好地識別阿拉伯文字圖像,其應用于復雜場景下的少數民族古文字識別領域,有較好的魯棒性和準確率,有一定的應用前景和實用價值。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产经典免费播放视频| 亚洲成人福利网站| 欧美.成人.综合在线| 欧美国产日韩在线| 国产精品吹潮在线观看中文| 亚洲 成人国产| 亚洲大学生视频在线播放| 97超爽成人免费视频在线播放| 免费99精品国产自在现线| 亚洲美女一级毛片| 国产在线观看99| 欧美激情视频二区| 18禁不卡免费网站| 嫩草在线视频| 色综合手机在线| 欧美精品v日韩精品v国产精品| 波多野结衣中文字幕一区二区| 热99精品视频| 成人毛片免费观看| 国产精品嫩草影院视频| 午夜福利无码一区二区| 国产爽歪歪免费视频在线观看| 色欲综合久久中文字幕网| 无码福利日韩神码福利片| 国产美女在线观看| 国产精品自在在线午夜区app| 欧美精品高清| 欧美精品黑人粗大| 少妇人妻无码首页| 国产精品综合久久久| 国产精品第一区在线观看| 国产人人干| 久久亚洲天堂| 亚洲AV无码不卡无码| 国语少妇高潮| 色婷婷亚洲综合五月| 亚洲永久色| 夜精品a一区二区三区| 日韩大乳视频中文字幕| 凹凸国产分类在线观看| 午夜国产在线观看| 男人天堂亚洲天堂| 亚洲精品在线91| 国产三级国产精品国产普男人| 亚洲天堂精品在线| 美女被操91视频| 亚洲第一视频网站| 国产成人久久777777| 国产精品hd在线播放| 91网址在线播放| 色婷婷综合激情视频免费看| 在线不卡免费视频| 亚洲天堂久久久| 欧美日韩亚洲国产主播第一区| 欧美一级高清片久久99| 鲁鲁鲁爽爽爽在线视频观看| 日韩欧美国产三级| 久久成人18免费| 亚洲三级影院| 91免费国产高清观看| 精品国产Av电影无码久久久| 色婷婷亚洲十月十月色天| 国产在线专区| 久久青草视频| 人妻91无码色偷偷色噜噜噜| 国产真实乱子伦视频播放| 中文一级毛片| 精品国产成人三级在线观看| 免费一级毛片在线观看| 综合网久久| 天堂在线亚洲| 日韩一级毛一欧美一国产| 国产精品毛片一区| 人妻精品全国免费视频| 2020极品精品国产 | 日韩一区二区三免费高清| 88av在线播放| 伊人久热这里只有精品视频99| 国产一级小视频| 久久综合伊人77777| 中文字幕日韩视频欧美一区| 久久久久免费看成人影片 |