999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)YOLOv5s的離線手寫數(shù)學(xué)符號(hào)識(shí)別

2022-07-03 04:39:14方洪波陳忠輝黃以衛(wèi)張文勇謝本亮
圖學(xué)學(xué)報(bào) 2022年3期
關(guān)鍵詞:符號(hào)特征實(shí)驗(yàn)

方洪波,萬 廣,2,陳忠輝,黃以衛(wèi),張文勇,謝本亮,2

基于改進(jìn)YOLOv5s的離線手寫數(shù)學(xué)符號(hào)識(shí)別

方洪波1,萬 廣1,2,陳忠輝1,黃以衛(wèi)3,張文勇4,謝本亮1,2

(1. 貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng) 550025;2. 教育部半導(dǎo)體功率器件可靠性工程中心,貴州 貴陽(yáng) 550025;3. 貴州財(cái)經(jīng)大學(xué)西部現(xiàn)代化研究中心,貴州 貴陽(yáng) 550025;4. 貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025)

離線數(shù)學(xué)符號(hào)識(shí)別是離線數(shù)學(xué)表達(dá)式識(shí)別的前提。針對(duì)現(xiàn)有離線符號(hào)識(shí)別方法只是單純的對(duì)符號(hào)進(jìn)行識(shí)別,對(duì)離線表達(dá)式識(shí)別的其他環(huán)節(jié)未有任何幫助,反而會(huì)限制表達(dá)式識(shí)別,提出一種改進(jìn)YOLOv5s的離線符號(hào)識(shí)別方法。首先,根據(jù)符號(hào)圖像小的特點(diǎn),用生成對(duì)抗網(wǎng)絡(luò)(GAN)進(jìn)行數(shù)據(jù)增強(qiáng);其次,從符號(hào)類別的角度分析,在YOLOv5s模型中引入空間注意力機(jī)制,利用全局最大值和全局平均值池化,擴(kuò)大類別間的差異特征;最后,從符號(hào)自身角度分析,引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)對(duì)符號(hào)特征矩陣進(jìn)行處理,使符號(hào)特征具有上下相關(guān)聯(lián)的信息。實(shí)驗(yàn)結(jié)果表明:改進(jìn)后的YOLOv5s取得較好離線符號(hào)識(shí)別效果,有92.47%的識(shí)別率,與其他方法進(jìn)行對(duì)比,證明了其有效性和穩(wěn)健性。同時(shí),能有效避免離線數(shù)學(xué)表達(dá)式識(shí)別中錯(cuò)誤累積的問題,且能為表達(dá)式的結(jié)構(gòu)分析提供有效依據(jù)。

離線手寫數(shù)學(xué)符號(hào)識(shí)別;數(shù)據(jù)增強(qiáng);生成對(duì)抗網(wǎng)絡(luò);空間注意力機(jī)制;雙向長(zhǎng)短期記憶網(wǎng)絡(luò)

隨著電子設(shè)備的廣泛應(yīng)用及人們學(xué)習(xí)習(xí)慣的改變,數(shù)學(xué)表達(dá)式識(shí)別(mathematical expression recognition,MER)成為人們關(guān)注的熱門話題。MER可以分為符號(hào)分割、符號(hào)識(shí)別和結(jié)構(gòu)分析3個(gè)環(huán)節(jié)[1]。符號(hào)識(shí)別是MER不可缺少的部分,研究始于幾十年前,但當(dāng)時(shí)提取圖像特征的能力不強(qiáng),以至MER發(fā)展受限。為推動(dòng)MER的發(fā)展,國(guó)際文檔分析與識(shí)別會(huì)議(International Conference on Document Analysis and Recognition,ICDAR)在2011年開始引入數(shù)學(xué)表達(dá)式識(shí)別競(jìng)賽(Competition on Recognition of Handwritten Mathematical Expressions and Typeset Formula Detection,CROHME),為MER和數(shù)學(xué)符識(shí)別提供了公共數(shù)據(jù)集。CROHME數(shù)據(jù)集以在線形式表示,可通過程序?qū)⒃诰€數(shù)據(jù)轉(zhuǎn)為離線數(shù)據(jù),但會(huì)失去一些特征信息,如符號(hào)筆畫時(shí)序特征,這是離線符號(hào)識(shí)別率低于在線的主要原因。

符號(hào)識(shí)別的關(guān)鍵是符號(hào)特征信息的提取,提取到的特征信息越豐富,識(shí)別率越高。MyScript[2]從在線符號(hào)的軌跡中提取動(dòng)態(tài)信息,如方向和曲率,基于投影和直方圖的方法提取靜態(tài)特征,通過深度多層感知機(jī)(multilayer perceptron,MLP)和循環(huán)神經(jīng)網(wǎng)絡(luò)處理,識(shí)別率為92.81%。以上2種方法均通過人為設(shè)定的方式提取特征,其過程復(fù)雜,提取到的信息也有限。方定邦[3]提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)識(shí)別方法,用CNN自動(dòng)提取符號(hào)在線和離線特征,符號(hào)特征提取更充分且簡(jiǎn)化了特征提取的過程,在CROHME2016上的識(shí)別率為92.92%。

現(xiàn)有離線符號(hào)識(shí)別已取得較高識(shí)別率,把現(xiàn)有方法應(yīng)用到離線MER (offline MER,OMER)中效果并不好,根本原因是OMER存在錯(cuò)誤累積的問題,即符號(hào)分割錯(cuò)誤會(huì)導(dǎo)致符號(hào)識(shí)別和結(jié)構(gòu)分析錯(cuò)誤,最終導(dǎo)致表達(dá)式識(shí)別錯(cuò)誤。現(xiàn)有離線符號(hào)識(shí)別方法僅僅停留在符號(hào)識(shí)別環(huán)節(jié),忽視了離線符號(hào)識(shí)別最終目的是OMER,未對(duì)其另外2個(gè)環(huán)節(jié)起到改善和促進(jìn)的作用。基于以上研究,本文提出一種能將OMER 3個(gè)環(huán)節(jié)聯(lián)系起來的符號(hào)識(shí)別方法,可將符號(hào)識(shí)別結(jié)果反饋到符號(hào)分割,從而有效避免OMER錯(cuò)誤累積,還能為結(jié)構(gòu)分析提供依據(jù)。該方法以目標(biāo)檢測(cè)模型YOLOv5s為基礎(chǔ),用空間注意力機(jī)制將符號(hào)類別間的差異特征放大,最后用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)使符號(hào)自身的特征具有關(guān)聯(lián)性。

1 相關(guān)工作

1.1 制定方案

解決錯(cuò)誤累積最好的方法是解決錯(cuò)誤源頭,OMER錯(cuò)誤累積的根源是符號(hào)分割錯(cuò)誤,符號(hào)分割的目的是符號(hào)識(shí)別和結(jié)構(gòu)分析,在不對(duì)表達(dá)式進(jìn)行具體分割的情況下得到符號(hào)識(shí)別結(jié)果和結(jié)構(gòu)分析依據(jù)就能避免錯(cuò)誤累積。受行人檢測(cè)的啟發(fā),對(duì)圖像中目標(biāo)進(jìn)行識(shí)別不需要將其從背景中完美分割出來,只需通過變化和移動(dòng)推薦框,對(duì)推薦框進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果及對(duì)應(yīng)的置信度確定預(yù)測(cè)框,從而得到圖像中的目標(biāo)種類和空間位置信息。將該思想遷移到符號(hào)識(shí)別上,通過變化和移動(dòng)推薦框,對(duì)其符號(hào)進(jìn)行識(shí)別,識(shí)別結(jié)果對(duì)推薦框有反饋?zhàn)饔茫瑫r(shí)建議尋找置信度更高的推薦框,直至遍歷整個(gè)圖像,選出置信度最高的推薦框。此外,最佳推薦框是以中心點(diǎn)、長(zhǎng)和寬的形式表示,包含了符號(hào)大小和空間位置,為結(jié)構(gòu)分析提供了依據(jù)。用尋找最佳推薦框的方式代替符號(hào)具體分割,能有效避免錯(cuò)誤累積且能給出符號(hào)位置信息,這極大促進(jìn)了OMER的發(fā)展,故本文采用目標(biāo)檢測(cè)效果較好的YOLOv5s模型進(jìn)行離線符號(hào)識(shí)別研究。

1.2 獲取離線符號(hào)數(shù)據(jù)集

目前公開的符號(hào)數(shù)據(jù)集有HASYv2和CROHME。HASYv2是在線數(shù)據(jù)集HWRT轉(zhuǎn)化來的離線數(shù)據(jù)集,HWRT是由瀏覽器搜索界面收集而來,有369個(gè)種類,包含大部分CROHME類別,但沒有由這些符號(hào)組成的數(shù)學(xué)表達(dá)式,且含有很多非數(shù)學(xué)表達(dá)式的符號(hào),如“ü”“田”和“☆”等符號(hào)。CROHME符號(hào)數(shù)據(jù)集是從其表達(dá)式數(shù)據(jù)集中得來,對(duì)表達(dá)式識(shí)別更有意義,故本文采用CROHME符號(hào)數(shù)據(jù)集進(jìn)行研究。

圖1 左括號(hào)“ ( ”的inkml文件形式

圖2 左括號(hào)“ ( ”的圖像形式

通過inkml文件得到符號(hào)的類別,對(duì)保存的圖像進(jìn)行水平和垂直方向上的投影,并得到圖像符號(hào)的長(zhǎng)和寬,通過計(jì)算得到中心點(diǎn)坐標(biāo),即完成圖像標(biāo)簽的制作。

1.3 數(shù)據(jù)增強(qiáng)

圖3 CROHME的符號(hào)數(shù)目分布情況

由圖3可知,CROHME符號(hào)數(shù)據(jù)集類別間的數(shù)量相差較大,直接使用Mosaic操作會(huì)擴(kuò)大類別間數(shù)量差異,降低模型的泛化能力。本文對(duì)數(shù)量低于5 000的類別進(jìn)行增強(qiáng),對(duì)高于5 000的類別進(jìn)行隨機(jī)篩選,使各類別數(shù)量均為5 000。

生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)在小圖像數(shù)據(jù)增強(qiáng)方面有很好效果[8],能根據(jù)圖像特征快速生成與原圖像有相同特征卻不等同于原圖像的圖像。GAN包含判別網(wǎng)絡(luò)和生成網(wǎng)絡(luò),二者互為對(duì)抗目標(biāo),共同學(xué)習(xí),最佳的結(jié)果就是達(dá)到納什平衡狀態(tài),其結(jié)構(gòu)如圖4所示。

圖4 GAN結(jié)構(gòu)

圖4中判別器(Discriminant,D)由卷積網(wǎng)絡(luò)和softmax函數(shù)構(gòu)成,用來判別是生成符號(hào)圖像還是真實(shí)符號(hào)圖像。生成器(Generator,G)由反卷積網(wǎng)絡(luò)構(gòu)成,從隨機(jī)噪聲(Random noise)中生成與真實(shí)符號(hào)圖像相似的圖像。本文用訓(xùn)練好的G增強(qiáng)符號(hào)數(shù)據(jù)集,經(jīng)過隨機(jī)篩選和數(shù)據(jù)增強(qiáng)后的符號(hào)數(shù)據(jù)集有505 000個(gè)符號(hào)。

2 方 法

為解決錯(cuò)誤累積問題,本文用目標(biāo)檢測(cè)模型YOLOv5s對(duì)離線符號(hào)進(jìn)行檢測(cè)識(shí)別,為提升識(shí)別性能,從符號(hào)類別角度引入空間注意力,從符號(hào)自身角度引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò),以下是相關(guān)方法的介紹。

2.1 YOLOv5s模型介紹

YOLOv5s由輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、檢測(cè)頸(Neck)和預(yù)測(cè)層(Prediction) 4部分組成[9]。其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)很深,用殘差緩解梯度消失或爆炸問題,融合多層特征圖,通過上采樣與淺層特征進(jìn)行通道拼接,使淺層特征也具有深層特性信息,可以對(duì)不同尺度的目標(biāo)進(jìn)行檢測(cè),也可以實(shí)現(xiàn)對(duì)多個(gè)種類的預(yù)測(cè),且精度較高。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,Conv是卷積;C3是借鑒CSPNet[10]的思路來設(shè)計(jì)的結(jié)構(gòu),其目的是為了加強(qiáng)網(wǎng)絡(luò)特征融合的能力和減小計(jì)算量;SPP是空間金字塔池化,由Conv和Maxpool構(gòu)成;Concat是通道拼接。

圖5 YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)

2.2 空間注意力機(jī)制

從符號(hào)類別的角度進(jìn)行分析,可通過擴(kuò)大類別間的差異特征來提升識(shí)別率,池化層具有過濾特征的作用,使用不同池化層可擴(kuò)大差異特征。注意力機(jī)制[11]包含了不同的池化層,故引入注意力機(jī)制模塊來增強(qiáng)關(guān)鍵信息提取,抑制不相關(guān)的信息。注意力機(jī)制有2種,分別是通道注意力機(jī)制(channel attention module,CAM)和空間注意力機(jī)制(spatial attention module,SAM)。本文所用圖像數(shù)據(jù)均為白底黑字的符號(hào),不存在顏色通道上的差異,只存在空間上的不同,SAM是通過關(guān)注圖像中物體的位置及變化獲取關(guān)鍵信息,故只引入了SAM,其結(jié)構(gòu)如圖6所示,引入SAM的YOLOv5s簡(jiǎn)記為YOLOv5s_S,對(duì)應(yīng)3.2節(jié)中實(shí)驗(yàn)3的模型。

圖6 SAM網(wǎng)絡(luò)結(jié)構(gòu)

本文將圖5中Backbone部分C3的輸出作為SAM的輸入,通過全局最大值和平均值池化對(duì)通道進(jìn)行壓縮,利用卷積得到單通道,用Sigmoid激活函數(shù)歸一化權(quán)重信息,將權(quán)重與輸入特征對(duì)應(yīng)相乘后再相加,得到不同權(quán)重的特征信息,即過程為

2.3 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)

從符號(hào)自身角度進(jìn)行分析,將符號(hào)的特征矩陣每一行(每一列)看成是不同的個(gè)體,則可將符號(hào)看成是一系列個(gè)體的排列組合,從整體來看,其存在上下(左右)相關(guān)聯(lián)的信息,本文對(duì)這種信息能否提升識(shí)別率進(jìn)行研究,從而引入具有記憶功能的網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。

傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)能實(shí)現(xiàn)信息的短期保存,長(zhǎng)短記憶網(wǎng)絡(luò)(long short-term memory,LSTM)是RNN的改良版,信息保存的時(shí)間更長(zhǎng)。LSTM[12]包括輸入門、遺忘門和輸出門。輸入門輸入當(dāng)前時(shí)刻的信息,遺忘門決定輸入上一時(shí)刻的信息的多少,輸出門決定是否將當(dāng)前得到的綜合信息作為輸出信息,3個(gè)門通過遞歸的方式調(diào)整LSTM中各層的輸入輸出,以此來實(shí)現(xiàn)信息的長(zhǎng)期保存。LSTM的傳播過程為

雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BiLSTM)在單層LSTM上增加了一層結(jié)構(gòu)相同但方向相反的LSTM,如圖7所示,將2層LSTM的輸出融合,實(shí)現(xiàn)了特征信息的雙向傳播[13]。

圖7 BiLSTM的構(gòu)成

本文將Neck部分C3得到的特征圖的每一行通過BiLSTM,利用特征之間上下相關(guān)聯(lián)的信息,最后通過Prediction部分對(duì)符號(hào)進(jìn)行預(yù)測(cè)分類,BiLSTM在模型中的具體位置見圖8,引入BiLSTM的YOLOv5s簡(jiǎn)記為YOLOv5s_B,對(duì)應(yīng)3.2節(jié)中實(shí)驗(yàn)4的模型。

2.4 YOLOv5s_SB網(wǎng)絡(luò)結(jié)構(gòu)

從符號(hào)類別和自身角度綜合考慮,對(duì)同時(shí)引入SAM和BiLSTM能否提升識(shí)別率進(jìn)行了實(shí)驗(yàn),網(wǎng)絡(luò)簡(jiǎn)記為YOLOv5s_SB,對(duì)應(yīng)3.2節(jié)中實(shí)驗(yàn)5的模型,結(jié)構(gòu)如圖8所示,紅色加粗字體的是引入的SAM的位置,藍(lán)色加粗字體是引入BiLSTM的位置。

其中:r為標(biāo)注框中心點(diǎn)與回歸框中心點(diǎn)之間的歐幾里得距離;b為標(biāo)注中心點(diǎn);bgt為回歸中心點(diǎn);c為標(biāo)注框與回歸框最小外接矩形的對(duì)角線長(zhǎng)度;IOU是標(biāo)注框、回歸框的交集與標(biāo)注框、回歸框并集的比值。

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 實(shí)驗(yàn)參數(shù)與評(píng)價(jià)指標(biāo)

本文實(shí)驗(yàn)采用的配置為Intel(R) Core(TM) i5-10400F@2.90 GHz;操作系統(tǒng)為Ubuntu18.0;GPU為tesla V100S 32 GB。網(wǎng)絡(luò)模型基于Pytorch框架搭建,CUDA版本為11.0,python版本為3.8.8,pytorch版本為1.8.0,實(shí)驗(yàn)中batch size為120,epoch設(shè)置為100,動(dòng)量為0.937,初始學(xué)習(xí)率為0.01,衰減系數(shù)為0.000 5。

本文用4個(gè)評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)估,分別是識(shí)別率(Accuracy)、精確率(Precision)、召回率(Recall)和各類別AP的平均值(mean Average Precision),簡(jiǎn)記為A,P,R和mAP[16]即

其中,為輸入正樣本且輸出正樣本的樣本數(shù)量;為輸入正樣本且輸出負(fù)樣本的樣本數(shù)量;為輸入負(fù)樣本輸出正樣本的樣本數(shù)量;為輸入正樣本輸出負(fù)樣本的樣本數(shù)量;為樣本類別數(shù);是曲線下方的面積。

3.2 消融實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置及結(jié)果見表1,每個(gè)實(shí)驗(yàn)將對(duì)應(yīng)的數(shù)據(jù)集按8∶2的比例分成訓(xùn)練集和驗(yàn)證集進(jìn)行訓(xùn)練,用CROHME2016test進(jìn)行測(cè)試。直接反映研究情況的評(píng)價(jià)指標(biāo)是識(shí)別率A和mAP,P和R起到輔助的作用,用來評(píng)估模型的穩(wěn)定性,重點(diǎn)關(guān)注A和mAP的變化。

由表1中實(shí)驗(yàn)1和2的結(jié)果對(duì)比可知,通過GAN增強(qiáng)數(shù)據(jù)集后4個(gè)指標(biāo)均有提升,其中A提高8.54%,說明GAN完善了數(shù)據(jù)集,從一定程度上消除了數(shù)據(jù)集對(duì)模型的影響;實(shí)驗(yàn)3的A比實(shí)驗(yàn)2提高2%,說明在YOLOv5s模型中加入SAM可以提升模型離線符號(hào)識(shí)別率;實(shí)驗(yàn)4比實(shí)驗(yàn)2的A提高4.21%,說明YOLOv5s模型中加入BiLSTM也能提升A;實(shí)驗(yàn)5是將改進(jìn)點(diǎn)融合在一起,可以看到和實(shí)驗(yàn)1的A相比,實(shí)驗(yàn)5的A提高13.95%。實(shí)驗(yàn)1和實(shí)驗(yàn)5的A變化過程如圖9所示。

表1 實(shí)驗(yàn)設(shè)置及結(jié)果

注釋:“ü”表示使用與之對(duì)應(yīng)的最左側(cè)條件進(jìn)行實(shí)驗(yàn),“×”表示未使用,P,R,mAP及A表示實(shí)驗(yàn)的結(jié)果

圖9 實(shí)驗(yàn)1和實(shí)驗(yàn)5的識(shí)別率

由圖9可知,20個(gè)epoch之前,識(shí)別率上升較快,之后,上升較慢,最終趨于穩(wěn)定。在第3個(gè)epoch時(shí),實(shí)驗(yàn)5的識(shí)別率就開始高于實(shí)驗(yàn)1,之后也總是實(shí)驗(yàn)5高于實(shí)驗(yàn)1,說明實(shí)驗(yàn)5的模型性能優(yōu)于實(shí)驗(yàn)1。同時(shí),實(shí)驗(yàn)1和實(shí)驗(yàn)5訓(xùn)練中的P,R和mAP變化如圖10和圖11所示。

圖10 實(shí)驗(yàn)1的P,R和mAP的變化

由圖10和圖11可知,隨著迭代次數(shù)的增加,試驗(yàn)1和實(shí)驗(yàn)5的P和R2個(gè)指標(biāo)總是一個(gè)相對(duì)較高另一個(gè)相對(duì)較低,最終趨于穩(wěn)定后,實(shí)驗(yàn)5的P和R比實(shí)驗(yàn)1的高,mAP指標(biāo)總是介于P和R之間且穩(wěn)定,實(shí)驗(yàn)5的mAP高于實(shí)驗(yàn)1,說明實(shí)驗(yàn)5的模型性能優(yōu)于實(shí)驗(yàn)1。綜上所述,實(shí)驗(yàn)5的4個(gè)評(píng)價(jià)指標(biāo)均高于實(shí)驗(yàn)1,所以實(shí)驗(yàn)5的模型更優(yōu),說明本文在YOLOv5s基礎(chǔ)上針對(duì)符號(hào)識(shí)別的改進(jìn)取得了較好效果。

圖11 實(shí)驗(yàn)5的P,R和mAP的變化

3.3 測(cè)試結(jié)果與分析

部分符號(hào)識(shí)別結(jié)果如圖12所示,從圖12中可以看到每個(gè)推薦框上方有識(shí)別結(jié)果及對(duì)應(yīng)的置信度,有的符號(hào)會(huì)有多個(gè)推薦框從而有不同的結(jié)果,但可以根據(jù)置信度來選擇最可能的結(jié)果。以圖12中第一行第一列符號(hào)“i”為例,這個(gè)符號(hào)容易被分割成小數(shù)點(diǎn)和“2”,從而造成分割錯(cuò)誤,被識(shí)別成“2”的置信度為0.462 5,識(shí)別成“i”的置信度為0.862 8,實(shí)際上還有一個(gè)識(shí)別成小數(shù)點(diǎn)的置信度,但結(jié)合點(diǎn)所在位置得到的置信度較低,根據(jù)置信度最終得到識(shí)別結(jié)果是“i”。本文方法不是對(duì)固定分割好的符號(hào)進(jìn)行識(shí)別,是通過推薦框的靈活方式對(duì)符號(hào)識(shí)別,根據(jù)推薦框內(nèi)目標(biāo)特征得到識(shí)別結(jié)果,這對(duì)OMER來說具有重要意義。如圖12中的“cos”符號(hào),很容易分割成3個(gè)符號(hào),且很容易引起歧義的符號(hào),容易將“c”識(shí)別成“(”,將“o”識(shí)別成“O”或“0”,將“s”識(shí)別成“S”或“5”。本文方法對(duì)其識(shí)別可得到4個(gè)推薦框,選出置信度最大的推薦框,故可有效避免類似錯(cuò)誤。此外,推薦框還包含了符號(hào)的位置信息,能為OMER的結(jié)構(gòu)分析提供依據(jù)。

3.4 與其他方法對(duì)比

本文對(duì)符號(hào)識(shí)別方法進(jìn)行了調(diào)研,列出了一些比較經(jīng)典且具有較高識(shí)別率的模型,與其進(jìn)行了對(duì)比,見表2。

圖12 部分離線手寫數(shù)學(xué)符號(hào)識(shí)別結(jié)果展示

表2 YOLOv5s_SB與其他模型的對(duì)比

從表2中可以看出,CNN+判別特征的識(shí)別率為92.92%,是非常優(yōu)秀的在線符號(hào)識(shí)別方法,VGG-HMS是離線符號(hào)識(shí)別中的經(jīng)典方法,在僅使用離線特征的情況下達(dá)到92.42%的識(shí)別率。表中本文方法高于VGG-HMS的識(shí)別率,證明了本文方法對(duì)于離線符號(hào)識(shí)別的有效性。此外,VGG-HMS在CROHME2014test上的識(shí)別率為91.82%,本文的識(shí)別率為92.44%,同樣高于VGG-HMS,證明了本文方法的穩(wěn)定性。

4 結(jié)束語

本文以離線手寫數(shù)學(xué)符號(hào)為研究對(duì)象,從數(shù)學(xué)符號(hào)識(shí)別目的出發(fā),用目標(biāo)檢測(cè)模型YOLOv5s來有效避免OMER錯(cuò)誤累積問題,從符號(hào)類別和自身的角度分別引入SAM和BiLSTM提高符號(hào)識(shí)別率。實(shí)驗(yàn)結(jié)果表明,本文方法具有較高識(shí)別率,從符號(hào)識(shí)別角度來看提升有限,但具有較好前景,在OMER整個(gè)過程中,能有效避免錯(cuò)誤累積問題,為OMER提供結(jié)構(gòu)分析的依據(jù)。在未來研究中,本文框架結(jié)構(gòu)也能用于OMER,將每個(gè)符號(hào)的最佳結(jié)果看成個(gè)體,這些個(gè)體具有前后相關(guān)聯(lián)的特征,BiLSTM可以利用這些特征對(duì)符號(hào)識(shí)別結(jié)果進(jìn)行更正,如圖12中的“cos”符號(hào)一樣。因此,本文方法對(duì)OMER的貢獻(xiàn)度遠(yuǎn)遠(yuǎn)大于其他方法。

[1] 付鵬斌, 李建君, 楊惠榮. 基于粘連符號(hào)分割和多特征融合的手寫公式識(shí)別[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2021, 47(8): 842-853.

FU P B, LI J J, YANG H R. Handwritten formula recognition based on segmentation of adhesive symbols and multi-feature fusion[J]. Journal of Beijing University of Technology, 2021, 47(8): 842-853 (in Chinese).

[2] MOUCHèRE H, VIARD-GAUDIN C, ZANIBBI R, et al. ICFHR2016 CROHME: competition on recognition of online handwritten mathematical expressions[C]//The 15th International Conference on Frontiers in Handwriting Recognition. New York: IEEE Press, 2016: 607-612.

[3] 方定邦. 基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)學(xué)公式字符識(shí)別的算法研究[D]. 泉州: 華僑大學(xué), 2020.

FANG D B. Research on character Recognition algorithm of Handwriting Mathematical Formula Based on Convolutional Neural Network [D]. Quanzhou: Huaqiao University, 2020 (in Chinese).

[4] RAMADHAN I, PURNAMA B, FARABY S A. Convolutional neural networks applied to handwritten mathematical symbols classification[C]//The 4th International Conference on Information and Communication Technology. New York: IEEE Press, 2016: 1-4.

[5] DONG L F, LIU H C. Recognition of offline handwritten mathematical symbols using convolutional neural networks[C]//The 9th International Conference on Image and Graphics. Heidelberg: Springer, 2017: 149-161.

[6] MAHDAVI M, ZANIBBI R, MOUCHERE H, et al. ICDAR 2019 CROHME + TFD: competition on recognition of handwritten mathematical expressions and typeset formula detection[C]//2019 International Conference on Document Analysis and Recognition. New York: IEEE Press, 2019: 1533-1538.

[7] 張楷偉. 基于深度學(xué)習(xí)的Mosaic圖像復(fù)原和識(shí)別方法研究[D]. 西安: 西安電子科技大學(xué), 2019.

ZHANG K W. Mosaic image restoration and recognition research based on deep learning[D]. Xi’an: Xidian University, 2019 (in Chinese).

[8] 淦艷, 葉茂, 曾凡玉. 生成對(duì)抗網(wǎng)絡(luò)及其應(yīng)用研究綜述[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2020, 41(6): 1133-1139.

GAN Y, YE M, ZENG F Y. Review of research on generative adversarial networks and its application[J]. Journal of Chinese Computer Systems, 2020, 41(6): 1133-1139 (in Chinese).

[9] 談世磊, 別雄波, 盧功林, 等. 基于YOLOv5網(wǎng)絡(luò)模型的人員口罩佩戴實(shí)時(shí)檢測(cè)[J]. 激光雜志, 2021, 42(2): 147-150.

TAN S L, BIE X B, LU G L, et al. Real-time detection for mask-wearing of personnel based on YOLOv5 network model[J]. Laser Journal, 2021, 42(2): 147-150 (in Chinese).

[10] WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2020: 1571-1580.

[11] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//The 15th European Conference on Computer Vision. Cham: Springer, 2018: 3-19.

[12] 金樂. 基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的高壓輸電線路短路故障識(shí)別方法[J]. 內(nèi)蒙古電力技術(shù), 2021, 39(2): 66-72.

JIN L. Research on short circuit fault identification method of high-voltage transmission line based on Bi-directional long short-term memory[J]. Inner Mongolia Electric Power, 2021, 39(2): 66-72 (in Chinese).

[13] YUE W, ZHU C M, GAO Y S. BiLSTM Chinese Text Sentiment Analysis Based on Pre-attention[J]. World Scientific Research Journal, 2021, 7(6): 33-42.

[14] WU Y, JIANG J Y, HUANG Z M, et al. FPANet: Feature pyramid aggregation network for real-time semantic segmentation[J]. Applied Intelligence, 2022, 52: 3319-3336.

[15] 王書獻(xiàn), 張勝茂, 朱文斌, 等. 基于深度學(xué)習(xí)YOLOV5網(wǎng)絡(luò)模型的金槍魚延繩釣電子監(jiān)控系統(tǒng)目標(biāo)檢測(cè)應(yīng)用[J]. 大連海洋大學(xué)學(xué)報(bào), 2021, 36(5): 842-850.

WANG S X, ZHANG S M, ZHU W B, et al. Application of an electronic monitoring system for video target detection in tuna longline fishing based on YOLOV5deep learning model[J]. Journal of Dalian Ocean University, 2021, 36(5): 842-850 (in Chinese).

[16] 王莉, 何牧天, 徐碩, 等. 基于YOLOv5s網(wǎng)絡(luò)的垃圾分類和檢測(cè)[J]. 包裝工程, 2021, 42(8): 50-56.

WANG L, HE M T, XU S, et al. Garbage classification and detection based on YOLOv5s network[J]. Packaging Engineering, 2021, 42(8): 50-56 (in Chinese).

[17] MOUCHèRE H, VIARD-GAUDIN C, ZANIBBI R, et al. ICFHR 2014 competition on recognition of on-line handwritten mathematical expressions (CROHME 2014)[EB/OL]. [2021-07-03]. https://hal.archives-ouvertes.fr/ file/index/docid/1070712/filename/CROHME_ICFHR_2014.pdf.

[18] MOUCHèRE H, VIARD-GAUDIN C, ZANIBBI R, et al. ICFHR2016 CROHME: competition on recognition of online handwritten mathematical expressions[C]//The 15th International Conference on Frontiers in Handwriting Recognition. New York: IEEE Press, 2016: 607-612.

[19] DAI NGUYEN H, DUC LE A, NAKAGAWA M. Recognition of online handwritten math symbols using deep neural networks[J]. IEICE Transactions on Information and Systems, 2016, E99.D(12): 3110-3118.

[20] DAVILA K, LUDI S, ZANIBBI R. Using off-line features and synthetic data for on-line handwritten math symbol recognition[C]//The 14th International Conference on Frontiers in Handwriting Recognition. New York: IEEE Press, 2014: 323-328.

Offline handwriting mathematical symbol recognition based on improved YOLOv5s

FANG Hong-bo1, WAN Guang1,2, CHEN Zhong-hui1, HUANG Yi-wei3, ZHANG Wen-yong4, XIE Ben-liang1,2

(1. College of Big Data and Information Engineering, Guizhou University, Guiyang Guizhou 550025, China; 2. Semiconductor Power Device Reliability Engineering Center of Ministry of Education, Guiyang Guizhou 550025, China; 3. Western Modernization Research Center, Guizhou University of Finance and Economics, Guiyang Guizhou 550025, China; 4. College of Computer Science and Technology, Guizhou University, Guiyang Guizhou 550025, China)

Offline mathematical symbol recognition is the premise of offline mathematical expression recognition. The existing offline symbol recognition methods can only recognize symbols, but is of no help to other steps of offline expression recognition, even restricting expression recognition. Thus, an improved YOLOv5s offline symbol recognition method was proposed.Firstly, considering the small size of symbolic image, generative adversarial network (GAN) was employed to enhance the data. Secondly, from the point of view of symbolic categories, the spatial attention mechanism was introduced to YOLOv5s model, and the global maximum and global mean were pooled to enlarge the differences between categories. Finally, from the point of view of the symbol itself, the bidirectional long-short-term memory network (BiLSTM) was utilized to process the symbol feature matrix, so that the symbol feature could possess the upper and lower related information.Experimental results show that the improved YOLOv5s achieves better offline symbol recognition, with a recognition rate of 92.47%. Compared with other methods, the proposed method is effective and robust. At the same time, it can effectively avoid the problem of error accumulation in offline mathematical expression recognition and provide an effective basis for expression structure analysis.

offline handwriting mathematical symbol recognition; data enhancement; generative adversarial network; spatial attention mechanism; bidirectional long-short-term memory network

TP 391

10.11996/JG.j.2095-302X.2022030387

A

2095-302X(2022)03-0387-09

2021-09-27;

2021-12-17

27 September,2021;

17 December,2021

國(guó)家自然科學(xué)基金項(xiàng)目(61562009);國(guó)家重點(diǎn)研發(fā)計(jì)劃課題(2016YFD0201305-07);貴州大學(xué)人才引進(jìn)科研項(xiàng)目(貴大人基合字(2015)29號(hào));半導(dǎo)體功率器件教育部工程研究中心開放基金項(xiàng)目(ERCMEKFJJ2019-(06))

National Natural Science Foundation of China (61562009); National Key Research and Development Program of China (2016YFD0201305-07); Guizhou University Introduced Talent Research Project (2015-29); Open Fund Project in Semiconductor Power Device Reliability Engineering Center of Ministry of Education (ERCMEKFJJ2019-(06))

方洪波(1997-),男,碩士研究生。主要研究方向?yàn)樯疃葘W(xué)習(xí)、模式識(shí)別。E-mail:1583616027@qq.com

FANG Hong-bo (1997-), master student. His main research interests cover deep learning and pattern recognition. E-mail:1583616027@qq.com

謝本亮(1978-),男,副教授,博士。主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺。E-mail:blxie@gzu.edu.cn

XIE Ben-liang (1978-), associate professor, Ph.D. His main research interests cover machine learning and computer vision. E-mail:blxie@gzu.edu.cn

猜你喜歡
符號(hào)特征實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
學(xué)符號(hào),比多少
幼兒園(2021年6期)2021-07-28 07:42:14
如何表達(dá)“特征”
“+”“-”符號(hào)的由來
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
變符號(hào)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产另类视频| 2020久久国产综合精品swag| 黄片在线永久| 手机看片1024久久精品你懂的| 在线免费看黄的网站| 欧美国产成人在线| 伊伊人成亚洲综合人网7777| 久久久久久国产精品mv| 男女性午夜福利网站| 久久综合九色综合97婷婷| 看国产毛片| 国产最新无码专区在线| 免费va国产在线观看| 久青草国产高清在线视频| 亚洲第七页| 在线亚洲精品福利网址导航| 国产精品污视频| 免费一级毛片在线播放傲雪网| 香蕉99国内自产自拍视频| a毛片在线播放| a亚洲视频| 国内精品久久人妻无码大片高| 少妇露出福利视频| 91精品专区国产盗摄| 蜜桃臀无码内射一区二区三区| 亚洲精品欧美日本中文字幕| 国产午夜一级毛片| 久久国产亚洲偷自| 97久久精品人人| 97精品久久久大香线焦| 在线观看免费黄色网址| 欧美日本在线观看| 91破解版在线亚洲| 国产91全国探花系列在线播放| 香蕉色综合| 99国产精品国产| 91娇喘视频| 亚洲人成网站色7777| 久操线在视频在线观看| 成人av手机在线观看| 欧美激情首页| 国产h视频在线观看视频| 国内精品九九久久久精品| 青青草国产在线视频| 婷婷六月综合网| 小蝌蚪亚洲精品国产| 国产精品3p视频| 国产成人高清精品免费| 国产精品浪潮Av| 日韩资源站| 国产高清无码麻豆精品| 国产美女精品人人做人人爽| 尤物午夜福利视频| 久久狠狠色噜噜狠狠狠狠97视色| 色精品视频| 亚洲无码37.| 91毛片网| 中文字幕亚洲精品2页| 國產尤物AV尤物在線觀看| 国产精品尤物在线| 视频一区视频二区日韩专区 | 日韩在线观看网站| 97成人在线视频| 亚洲无码视频图片| 色妞www精品视频一级下载| 大学生久久香蕉国产线观看| 亚洲无限乱码| 国产国拍精品视频免费看| 久久久国产精品无码专区| 日韩欧美网址| 欧美综合激情| 美女国内精品自产拍在线播放| 成人福利免费在线观看| 91国内外精品自在线播放| 狠狠做深爱婷婷久久一区| 4虎影视国产在线观看精品| 日本爱爱精品一区二区| 高清免费毛片| 日韩精品一区二区三区免费| 久久国产成人精品国产成人亚洲| 欧美午夜视频| av尤物免费在线观看|