沈沖


關(guān)鍵詞:人工智能;深度學(xué)習(xí);文字;識別;神經(jīng)網(wǎng)絡(luò)
隨著信息技術(shù)發(fā)展,以圖像為主的多媒體信息迅速成為了重要的消息傳播手段。而準(zhǔn)確有效地提取圖片中的信息能有助于社會在工業(yè)自動化、機器人導(dǎo)航、人機交互、多媒體檢索領(lǐng)域獲得長遠發(fā)展。目前文字識別已經(jīng)成為智能機器深度學(xué)習(xí)的重要內(nèi)容,具有一定的研究價值。基于此,本文將對基于人工智能機器學(xué)習(xí)的文字識別技術(shù)為論點,對現(xiàn)有的文字識別技術(shù)進行研究,以期能為同行產(chǎn)生幾點借鑒意義。
一、傳統(tǒng)文字識別技術(shù)與現(xiàn)代文字識別技術(shù)的特點研究
傳統(tǒng)的文字識別技術(shù)有筆輸入、專用OCR、手寫體OCR、印刷體OCR四類[1]。現(xiàn)代文字識別技術(shù)依靠Matlab技術(shù)實現(xiàn),大致應(yīng)用步驟為調(diào)取原始圖像、處理圖像獲得灰度圖像、圖像二值處理,調(diào)動計算函數(shù),輸出目標(biāo)文字。
二、現(xiàn)有文字識別技術(shù)仍存在的問題
(一)網(wǎng)絡(luò)文字圖片標(biāo)注成本高,訓(xùn)練數(shù)據(jù)集小
人工智能機器學(xué)習(xí)功能需要在復(fù)雜模型的監(jiān)督訓(xùn)練下開展,因此,需要以海量數(shù)據(jù)集作為學(xué)習(xí)初始支持。針對網(wǎng)絡(luò)圖片中的文字,進行深度學(xué)習(xí)前,要對圖片中的所有字符串進行標(biāo)注,并需要對某個區(qū)域內(nèi)是否包含文字進行檢測。相較于一般的物體識別任務(wù),網(wǎng)絡(luò)圖片文字識別所花費的任務(wù)成本更高。但從當(dāng)前來看,現(xiàn)開放的有關(guān)文字識別技術(shù)開放性源代碼數(shù)據(jù)集較少,圖片數(shù)量也較少,故開展深度學(xué)習(xí)的前期支持?jǐn)?shù)據(jù)不足。
(二)序列建模常用的循環(huán)網(wǎng)絡(luò)無法并行計算
當(dāng)前文字序列識別的常用技術(shù)為依靠卷積循環(huán)神經(jīng)網(wǎng)絡(luò),技術(shù)支撐主體為LSTM技術(shù)。雖然該技術(shù)序列建模能力較為優(yōu)秀,但在建模過長的文字序列時,信息發(fā)出與收到反饋的用時較長,有可能增加系統(tǒng)深度學(xué)習(xí)的最終用時,進而對模型的識別效率造成影響。
(三)復(fù)雜場景圖片文字識別準(zhǔn)確率不足
現(xiàn)有的文字識別模型大多依靠普通的單層卷積網(wǎng)絡(luò),針對背景較為簡單的文字進行識別時,準(zhǔn)確率較高。但當(dāng)識別復(fù)雜場景文字時,需要加深提取模塊層數(shù),從而出現(xiàn)梯度發(fā)散問題,最終導(dǎo)致機器學(xué)習(xí)內(nèi)容不足的現(xiàn)象。
三、基于人工智能機器學(xué)習(xí)的文字識別技術(shù)分析
(一)分類器識別
基于深度學(xué)習(xí)的文字識別工作開展前,首先要對文字識別的分類器進行識別。以BP神經(jīng)網(wǎng)絡(luò)分類器為例,其學(xué)習(xí)訓(xùn)練步驟如下:輸入模式順傳播→輸出誤差逆?zhèn)鞑ァh(huán)記憶訓(xùn)練→學(xué)習(xí)結(jié)果判別。在應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類器前,首先需構(gòu)建神經(jīng)網(wǎng)絡(luò),設(shè)計代表3大不同數(shù)據(jù)的通道。采用net函數(shù)構(gòu)建神經(jīng)網(wǎng)絡(luò),則可將3大數(shù)據(jù)通道用net1、net2及net3、表示,每一通道內(nèi)包含的數(shù)據(jù)數(shù)量分別為64與128、24與48、60與128,每一個數(shù)量分別代表一個節(jié)點。滿足上述技術(shù)支持后即可對神經(jīng)網(wǎng)絡(luò)進行初始化。當(dāng)前最常用的初始化方式為Initnw,每一次運行都能將數(shù)據(jù)運行時的權(quán)值及偏移量合理的初始,在后續(xù)進行單個文字的識別時,數(shù)據(jù)的輸入能更加便捷,同時也能減少神經(jīng)元網(wǎng)絡(luò)節(jié)點的冗余[2]。
(二)規(guī)則文字識別相關(guān)技術(shù)
(1)卷積神經(jīng)網(wǎng)絡(luò)法:該結(jié)構(gòu)屬于前饋型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類型,對規(guī)則文字類型具有較高的文字識別靈敏度。即使針對已經(jīng)經(jīng)過平移或旋轉(zhuǎn)變換后的圖片,也可利用該技術(shù)較為靈敏地識別出。該技術(shù)文字識別步驟如下:輸入→預(yù)處理→識別→識別后處理四大流程。各流程中所包含的數(shù)據(jù)層級也有所差別,現(xiàn)將具體內(nèi)容介紹如下:①輸入層。截取需要處理后的單字圖像,并轉(zhuǎn)換為64*64像素的灰度文字圖片,調(diào)整文字為白色,調(diào)整背景為黑色,如此處理以避免無關(guān)因素對文字識別的影響。
②隱藏層。共包含三個池化層與三個卷積層,卷積層與乳化層交替構(gòu)成,處理數(shù)據(jù)。a、卷積層1:計算第一層卷積尺寸,以64*64像素文字處理為例,最終輸出卷積尺寸詳見表1;b、池化層1:對第一卷積層輸出的圖像進行最大池化運算處理。并計算出第一次池化結(jié)果。以60*60像素文字處理為例,最終輸出的池化尺寸詳見表2;c、卷積層2:采用5*5的卷積(共計128)個,對池化層1輸出的圖像再次進行卷積運算:d、池化層2:采用2*2的池化器對卷積層2輸出的圖像進行池化最高值運算:e、卷積層3:采用4*4的卷積對圖像進行卷積運算;f、池化層3:采用2*2的(256個)池化器對卷積層圖像進行池化最高運算[3]。
③全連接層:對隱藏層所輸出的參數(shù)進行處理,并由系統(tǒng)對神經(jīng)元的興奮度進行計算。可按照如下函數(shù)帶入?yún)?shù),激活函數(shù)公式,最終輸出神經(jīng)元興奮度數(shù)值,神經(jīng)元激活函數(shù)公式為:
④輸出層:神經(jīng)元函數(shù)激活后,最終輸出層得到3755個節(jié)點,每一個節(jié)點分別對應(yīng)一個漢字。根據(jù)步驟三中所計算出的興奮度值,最終輸出所識別漢字。
(1)FRAEN技術(shù):該網(wǎng)絡(luò)能夠識別自然場景下拉伸或縮放的文字。技術(shù)核心架構(gòu)由AEN識別網(wǎng)絡(luò)與FEN靈活矯正網(wǎng)絡(luò)所構(gòu)成。在識別不規(guī)則文字時。FRN對圖片中的文字進行識別并予以矯正,矯正至文字處于水平狀態(tài);隨后AEN將矯正后的圖像輸入至AEN網(wǎng)絡(luò)中,利用規(guī)則文字識別相關(guān)技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)算法進行文字識別,隨后輸出預(yù)測的單詞。其中FRN技術(shù)為本節(jié)內(nèi)容研究的重點。FRN技術(shù)為常用的文字矯正方法,但應(yīng)用時對文字變形度的要求較為局限,僅包括平移、縮放、旋轉(zhuǎn)等。因此,當(dāng)前的文字識別技術(shù)為增強對變形文字的矯正能力,引入了CNN文字矯正加強網(wǎng)絡(luò),增強文字的矯正效果[4]。傳統(tǒng)的FRN處理技術(shù)易產(chǎn)生圖像解碼過程中的噪點,故可在矯正前,在程序內(nèi)輸入最大池化層減少或避免噪點產(chǎn)生。FRN矯正不規(guī)則文字的結(jié)果詳見圖1。將矯正后的文字圖片輸入至卷積神經(jīng)網(wǎng)絡(luò)中,進行規(guī)則文字處理流程,即可完成文字的識別。
漢字屬于詞素音節(jié)類型文字,英文屬于表音文字。漢字的個數(shù)要遠遠多于英文字母的個數(shù)。對于中文文字的識別而言,文字識別時需構(gòu)建大量的圖像,這導(dǎo)致了中文文字識別時的錯誤自檢率要遠高于英文字母。關(guān)于如何提升中文文字識別能力,筆者從分類器的選擇上提出了改進建議有條件的最好選擇包含所有字符的分類器,同時在其應(yīng)用時,應(yīng)對字符不同進行合理分類[5]。此過程中需對分類器進行訓(xùn)練,前期以小組文字選擇的方式,將具有這一特征的文字類型進行整合,以便分類器更好的識別這一特征的字符。經(jīng)過不斷地深入學(xué)習(xí),在識別文字時,系統(tǒng)將會在分類器中選出與所檢測文字相似特征最多的字符。在對機器進行日常訓(xùn)練的過程中,采用文字交叉驗證方式,使機器不斷搜集到有關(guān)文字特征的共性,對文字識別準(zhǔn)確度的提升有顯著成效[6]。
結(jié)束語:
現(xiàn)如今,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能文字識別領(lǐng)域的重要組成模塊,為當(dāng)前文字識別的最常用手段。在未來,文字識別領(lǐng)域?qū)⑾蛑鴮鼍胺抢∥淖值臋z測與識別、多語言混合的端到端文字識別、曲線型文字的檢測與識別、文字圖像的自動生成及提高算法的性能角度發(fā)展。隨著科學(xué)社會的發(fā)展,文字識別技術(shù)將被更多的應(yīng)用到虛擬現(xiàn)實、教育、車牌識別、無人駕駛等諸多領(lǐng)域,成為未來科學(xué)研究的主流。
參考文獻:
[1] 馮琬婷. 基于文字識別視角分析人工智能機器學(xué)習(xí)中的文字識別方法[J]. 電子技術(shù)與軟件工程,2019,8(13):253.
[2] 張龍坤,何舟橋,萬武南. 基于機器學(xué)習(xí)的截圖識別翻譯應(yīng)用研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020,5(8):54-56.
[3] 劉維維. 人工智能技術(shù)在移動終端自動化測試中的應(yīng)用[J]. 軟件導(dǎo)刊,2021,20(2):59-62.
[4] 劉子俊,王廷凰. 基于AR文字識別技術(shù)實現(xiàn)二次設(shè)備定值修改[J]. 自動化與儀器儀表,2019,6(2):161-164.
[5] 王祥旭,潘偉,張瓊,等. 人工智能輔助惡性腫瘤診斷的應(yīng)用進展[J]. 腫瘤防治研究,2020,47(10):788-792.
[6] 高強,靳其兵,程勇. 基于卷積神經(jīng)網(wǎng)絡(luò)探討深度學(xué)習(xí)算法與應(yīng)用[J]. 電腦知識與技術(shù),2020,5(13):169-170.