999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)的酒文獻(xiàn)關(guān)鍵詞自動(dòng)識(shí)別與標(biāo)注算法

2024-01-01 00:00:00張?zhí)?/span>童旭胡隆河楊強(qiáng)
宜賓學(xué)院學(xué)報(bào) 2024年6期
關(guān)鍵詞:深度學(xué)習(xí)

摘 要:關(guān)鍵詞自動(dòng)識(shí)別與標(biāo)注算法在酒類歷史文獻(xiàn)自動(dòng)分析和機(jī)器識(shí)別理解領(lǐng)域中有重要價(jià)值. 首先采用YOLOv7 網(wǎng)絡(luò)模型進(jìn)行酒文獻(xiàn)的文本框識(shí)別,接著引入CBAM 注意力機(jī)制獲得文本框位置、大小等特征,然后采用PaddleOCR 算法實(shí)現(xiàn)酒文獻(xiàn)的關(guān)鍵詞識(shí)別,最后應(yīng)用文字修補(bǔ)技術(shù)進(jìn)行優(yōu)化處理. 應(yīng)用該檢測(cè)算法設(shè)計(jì)的實(shí)驗(yàn)分析系統(tǒng)能高效處理海量酒文獻(xiàn)數(shù)據(jù),以90% 的識(shí)別率提取文獻(xiàn)中與酒類相關(guān)的文字信息,能有效克服酒文獻(xiàn)中存在的文字印刷模糊不完整、字體種類多樣的特殊情形,實(shí)驗(yàn)中取得了較好的識(shí)別標(biāo)注效果.

關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);文字識(shí)別;酒文獻(xiàn)

中圖分類號(hào):TP391

DOI: 10.19504/j.cnki.issn1671-5365.2024.06.05

在酒文獻(xiàn)整理與標(biāo)注分析研究中,由于文獻(xiàn)數(shù)量龐大,人工檢索和分析耗時(shí)耗力,因此采用人工智能和圖像分析技術(shù)進(jìn)行文獻(xiàn)分析[1]尤其迫切和重要. 命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理中的一項(xiàng)關(guān)鍵任務(wù),旨在從文本中識(shí)別和提取出具有特定意義的命名實(shí)體,如人名、地名、組織機(jī)構(gòu)名、時(shí)間、日期等. 條件隨機(jī)場(chǎng)模型(CRF)[2]是較為成熟的技術(shù)方案,但其通常需要手動(dòng)設(shè)計(jì)特征函數(shù)來(lái)描述輸入序列和標(biāo)記序列之間的關(guān)系[3-4]. 隨著深度學(xué)習(xí)技術(shù)和理論的發(fā)展[5-6],遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)神經(jīng)記憶網(wǎng)絡(luò)模型(LSTM)等應(yīng)用其中[7-10],有效提升了特征提取的效率. 雖然相關(guān)研究已經(jīng)探索了命名實(shí)體識(shí)別等技術(shù)在該領(lǐng)域的應(yīng)用,但在酒文獻(xiàn)處理上仍存在一些問(wèn)題. 具體而言,當(dāng)前的研究局限于特定領(lǐng)域,而酒文獻(xiàn)涉及多方面,需要更細(xì)致和全面的分析. 本文擬利用大數(shù)據(jù)技術(shù)收集和整理酒史文獻(xiàn)數(shù)據(jù),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建文獻(xiàn)識(shí)別模型,實(shí)現(xiàn)自動(dòng)化的酒文獻(xiàn)識(shí)別和處理,從而更全面地理解酒文獻(xiàn)中的內(nèi)容.

1 PaddleOCR算法及YOLOv7-tiny網(wǎng)絡(luò)模型

1.1 PaddleOCR 算法

PaddleOCR[11]基于PaddlePaddle 深度學(xué)習(xí)框架開(kāi)發(fā),提供了OCR 模型和工具,具有文字檢測(cè)、文字識(shí)別和布局分析等功能. PaddleOCR 是一種基于深度學(xué)習(xí)模型,識(shí)別精度較高,具備良好的魯棒性和泛化能力. PaddleOCR 預(yù)訓(xùn)練模型包括EAST、DB?Net、SAST、Rosetta、CRNN 等,能適用于不同的OCR 場(chǎng)景和需求. 由于白酒文獻(xiàn)中的文字布局復(fù)雜、字體多樣、字形多變,本文選擇對(duì)繁體字識(shí)別效果較好的PaddleOCR 字符識(shí)別模型.

1.2 YOLOv7-tiny 網(wǎng)絡(luò)模型

YOLOv7-tiny[12] 網(wǎng)絡(luò)模型主要由輸入端(In?put)、主干網(wǎng)絡(luò)(backbone)、頸部和頭部(Neckamp;Head)四個(gè)部分組成,YOLOv7-tiny結(jié)構(gòu)如圖1所示.

YOLOv7-tiny 模型輸入端部分采用Mosaic 數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算、自適應(yīng)圖片縮放等方式對(duì)輸入圖像進(jìn)行預(yù)處理. 主干網(wǎng)絡(luò)部分由數(shù)個(gè)CBL 模塊、MCB 層、MP 層共同組成,其中CBL 模塊由1 個(gè)卷積層、1 個(gè)BN 層和Leakyrelu 激活函數(shù)組成;MCB層由5 個(gè)CBL 模塊組成,它可以有效地學(xué)習(xí)和快速收斂;MP 層由3 個(gè)CBL 模塊和一個(gè)最大池化層組成,兩部分都對(duì)特征圖進(jìn)行下采樣和通道數(shù)改變,最后將其結(jié)果融合,增強(qiáng)了特征提取能力. 頸部部分采用SPPCSP、UP 和MCB 結(jié)構(gòu),SPPCSP 模塊有4 個(gè)CBL 模塊,通過(guò)最大池化來(lái)增大感受野,以適應(yīng)不同分辨率的圖像;UP 模塊通過(guò)最近鄰插值的方式來(lái)進(jìn)行上采樣. 頭部部分采用conv 和CBL 模塊,通過(guò)提取特征,分別輸出不同尺度大小的3 個(gè)預(yù)測(cè)結(jié)果.

2 本文算法及網(wǎng)絡(luò)模型改進(jìn)

2.1 改進(jìn)的PaddleOCR 算法

由于古代酒文獻(xiàn)布局復(fù)雜、字體古老、字形多變、印刷模糊,PaddleOCR 算法對(duì)于文本框的檢測(cè)效果較差,有大量的漏檢情況,進(jìn)而影響了文字識(shí)別效率. 由于YOLO 在目標(biāo)檢測(cè)中的優(yōu)秀表現(xiàn),故將PaddleOCR 文本框檢測(cè)部分替換為YOLO 網(wǎng)絡(luò)模型,再將根據(jù)檢測(cè)結(jié)果中得到的文本框輸入到Pad?dleOCR 中,實(shí)現(xiàn)文獻(xiàn)關(guān)鍵詞的識(shí)別與標(biāo)注.

2.2 改進(jìn)的YOLOv7 網(wǎng)絡(luò)模型

改進(jìn)算法采用YOLOv7-tiny 網(wǎng)絡(luò)模型對(duì)文本框進(jìn)行檢測(cè),為了使文本框的方向、位置、大小特征獲得更多關(guān)注,引入注意力機(jī)制CBAM[13](Convolu?tional Block Attention Module)以優(yōu)化性能. CBAM模塊主要由兩個(gè)子模塊組成:通道注意力模塊(Channel Attention Module)和空間注意力模塊(Spatial Attention Module),如圖2 所示.

設(shè)輸入特征圖像為F ∈ RC × H × W(C、H、W 分別為特征圖的通道數(shù)、高和寬),利用CBAM 注意力機(jī)制獲得一維通道注意力特征Mc(F ) ∈ RC × 1 × 1 和二維空間注意力特征Ms (F ) ∈ R1 × H × W,計(jì)算式如下:

F' = Mc (F ) ? F (1)

F '' = Mc (F' ) ? F' (2)

其中:?表示元素乘法,F(xiàn) '' 表示最終結(jié)果.

在通道注意力模塊中,將輸入特征圖F ∈ RC × H × W 分別經(jīng)過(guò)基于水平和垂直方向的全局最大池化操作和全局平均池化操作之后,得到兩個(gè)C × 1 × 1 的特征圖,然后通過(guò)一個(gè)兩層的MLP,第一層神經(jīng)元個(gè)數(shù)為C/r(r 為減少率),激活函數(shù)為Relu,第二層神經(jīng)元個(gè)數(shù)為C,兩層權(quán)重是共享的.之后將兩部分做逐元素求和,再通過(guò)激活函數(shù)(Sig?moid)生成通道注意力特征. 最后,將通道注意力特征與輸入特征進(jìn)行元素乘法,并將其結(jié)果作為空間注意力模塊的輸入,即:

Mc (F )= Sigmoid (MLP (AvgPool (F ))+MLP (MaxPool (F ))) (3)

其中:Mc (F ) ∈ RC × 1 × 1 表示通道特征,F(xiàn) 為輸入特征圖F ∈ RC × H × W.

空間注意力模塊能學(xué)習(xí)特征圖像中不同空間位置之間的相關(guān)性,并根據(jù)這些空間位置之間的相關(guān)性來(lái)分配不同的注意力權(quán)重. 將輸入的特征圖通過(guò)基于通道的全局最大池化操作和全局平均池化操作,基于通道的全局最大池化是對(duì)輸入特征圖在通道維度上進(jìn)行全局最大池化,這一步的目的是獲取每個(gè)空間位置上特征的最大值,以捕捉每個(gè)位置上的顯著特征,計(jì)算公式為Pmax = maxc Xcij,Xcij 表示特征圖X 在通道c、位置(i,j ) 處的值. 基于通道的全局平均池化是對(duì)輸入特征圖在通道維度上進(jìn)行全局平均池化. 這一步的目的是獲取每個(gè)空間位置上特征的平均值,以捕捉每個(gè)位置的整體信息. 計(jì)算公式為Pavg =1/CΣc = 1CXcij,分別得到兩個(gè)1 × H × W 的特征圖,將兩個(gè)特征圖作通道拼接,再經(jīng)過(guò)一個(gè)7×7 的卷積操作,得到一個(gè)1 × H × W 的特征圖,然后通過(guò)激活函數(shù)(Sigmoid)來(lái)生成空間注意力特征. 最后,將其與輸入特征圖進(jìn)行元素乘法運(yùn)算,最終得到在空間維度上關(guān)注重要特征的特征圖,計(jì)算式為:

Ms (F ) =Sigmoid ( f 7 × 7 (AvgPool (F );MaxPool (F ))) (4)

其中:Ms (F ) ∈ R1 × H × W 表示空間特征,f 7 × 7 表示一個(gè)大小為7×7 的卷積運(yùn)算,F(xiàn) 為輸入特征.

2.3 文字修補(bǔ)技術(shù)

古代酒文獻(xiàn)關(guān)鍵詞識(shí)別實(shí)驗(yàn)存在部分文字?jǐn)嚅_(kāi)的情況,嚴(yán)重影響文獻(xiàn)關(guān)鍵詞識(shí)別精度. 為了解決以上問(wèn)題,本文先使用膨脹(Dilation)、再使用腐蝕(Erosion)方法對(duì)文字修補(bǔ)技術(shù),以達(dá)到修復(fù)填補(bǔ)文字?jǐn)嚅_(kāi)的區(qū)域,進(jìn)而提升檢測(cè)效果. 在文本識(shí)別技術(shù)中,腐蝕和膨脹是一些基本的形態(tài)學(xué)操作,通常用于處理二值化圖像,其中文本區(qū)域被視為前景,背景為其他部分. 腐蝕和膨脹操作可以使用數(shù)學(xué)形式表示,其中結(jié)構(gòu)元素(kernel)通常用一個(gè)矩陣或二維數(shù)組表示.

膨脹操作使用結(jié)構(gòu)元素,在圖像中滑動(dòng)并將其放置在像素上. 如果結(jié)構(gòu)元素與文本區(qū)域有任何重疊,該像素就被標(biāo)記為前景. 主要作用是擴(kuò)展前景對(duì)象的邊界,填充空白區(qū)域,連接文本區(qū)域內(nèi)的斷裂部分. 膨脹操作有助于連接字符之間的空隙,填充筆畫(huà)之間的空白,使文本更加連貫. 如果圖像表示為二值矩陣I,結(jié)構(gòu)元素表示為矩陣K,膨脹操作Dilated (I,K )的數(shù)學(xué)表達(dá)如下:

Dilated(I,K ) (x,y ) = max(i,j ) ∈ KI (x + i,y + j ) (5)

其中:max 為取最大值操作,(x,y )表示當(dāng)前像素的坐標(biāo),(i,j ) 表示結(jié)構(gòu)元素的坐標(biāo). 該公式表示在位置(x,y ) 處,膨脹操作將圖像中與結(jié)構(gòu)元素K 重疊的部分的最大值作為輸出.

腐蝕操作通過(guò)在圖像中滑動(dòng)一個(gè)結(jié)構(gòu)元素(kernel)并將其放置在像素上,只有當(dāng)結(jié)構(gòu)元素完全覆蓋文本區(qū)域時(shí),該像素才被保留為前景,否則被置為背景. 主要作用是縮小或消除前景對(duì)象的邊界,去除小的細(xì)節(jié),使前景區(qū)域變得更加緊湊. 對(duì)于文本而言,腐蝕操作有助于消除細(xì)小的筆畫(huà)或連接線,使文本區(qū)域更加清晰. 腐蝕操作Eroded (I,K )的數(shù)學(xué)表達(dá)如下:

Eroded(I,K ) (x,y ) = min(i,j ) ∈ K I (x + i,y + j ) (6)

其中:min 為取最小值操作,(x,y )表示當(dāng)前像素的坐標(biāo),(i,j ) 表示結(jié)構(gòu)元素的坐標(biāo). 該公式表示在位置(x,y ) 處,腐蝕操作將圖像中與結(jié)構(gòu)元素K 重疊的部分的最小值作為輸出.

3 算法實(shí)現(xiàn)

首先引入YOLOv7-tiny 模型進(jìn)行文本框檢測(cè),接著采用膨脹和腐蝕方法對(duì)文字進(jìn)行修補(bǔ),最后采用的改進(jìn)的識(shí)別算法完成酒文獻(xiàn)的識(shí)別. 實(shí)現(xiàn)效果如圖3 所示,整體檢測(cè)識(shí)別算法具體實(shí)現(xiàn)步驟如下:

第一步:輸入初始圖像F.

第二步:對(duì)初始圖像F 利用YOLO 目標(biāo)檢測(cè)算法進(jìn)行文本框檢測(cè),并使用投影法[14]按列分割,從而得到文本框集合Φ: { Ni,i = 1,2,3… },其中Ni 表示第i 個(gè)文本框.

設(shè)M、N 分別分投影區(qū)域的水平和垂直像素點(diǎn)個(gè)數(shù),f (i,j )為像素點(diǎn)(i,j )處的灰度值,則投影法實(shí)現(xiàn)步驟如下:

(ⅰ)首先對(duì)圖像采用閾值法進(jìn)行二值化處理,由于需識(shí)別圖像顏色較為單一,T 可取128,計(jì)算如式(7)所示.

其中:V [ i ]表示縱軸垂直投影值,i 表示橫軸.

(ⅲ)利用平滑后的曲線,計(jì)算出波谷之間的平均距離作為參考值,將波谷所對(duì)應(yīng)的垂直線作為列分割線.

第三步:再次利用YOLO 目標(biāo)檢測(cè)算法將得到的文本框集合Φ 按行分割,得到單個(gè)文字框Ω:{ Mj,j = 1,2,3… },其中Mj 表示第j 個(gè)文字框.

第四步:利用文字修補(bǔ)技術(shù),先膨脹后腐蝕. 膨脹后結(jié)果為F1 = max(i,j ) ∈ Kernel{F (x + i,y + j )},腐蝕后結(jié)果為F2 = min(i,j ) ∈ Kernel{F } 1 (x + i,y + j ) ,其 中Kernel為操作核,(i,j )為坐標(biāo),Kernel大小為α × α,α為操作核大小參數(shù),根據(jù)文字大小調(diào)整.

第五步:利用PaddleOCR 文本識(shí)別算法對(duì)單個(gè)文字框集合Ω結(jié)合F2 進(jìn)行識(shí)別,輸出檢測(cè)結(jié)果文字集合Λ和識(shí)別結(jié)果圖像F'.

PaddleOCR 文本識(shí)別算法步驟如下:

步驟一:特征提取,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)輸入的序列進(jìn)行特征提取. 這一步通過(guò)一系列的卷積層和池化層來(lái)從輸入圖像中提取特征,并生成特征圖(Feature Map).

步驟二:循環(huán)層處理,將特征圖輸入到循環(huán)層中進(jìn)行處理. 在PaddleOCR 中,循環(huán)層由一個(gè)雙向LSTM(Long Short-Term Memory,長(zhǎng)短時(shí)記憶)循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成. LSTM 是一種特殊的RNN(Re?current Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))結(jié)構(gòu),能夠捕獲長(zhǎng)距離依賴關(guān)系. 在PaddleOCR 中,LSTM 使用了雙向結(jié)構(gòu),即同時(shí)使用過(guò)去和未來(lái)的信息,這有助于提高模型的性能和穩(wěn)定性.

步驟三:預(yù)測(cè)特征序列的標(biāo)簽分布,在循環(huán)層中,預(yù)測(cè)特征序列中的每一個(gè)特征向量的標(biāo)簽分布. 這一步通過(guò)將LSTM 網(wǎng)絡(luò)的輸出連接到一個(gè)全連接層和一個(gè)Softmax 函數(shù)來(lái)實(shí)現(xiàn),生成每個(gè)字符的概率分布.

步驟四:整合結(jié)果,最后,將LSTM 網(wǎng)絡(luò)預(yù)測(cè)的特征序列的結(jié)果進(jìn)行整合,轉(zhuǎn)換為最終輸出的結(jié)果. 在PaddleOCR 中,這一步通過(guò)轉(zhuǎn)錄層(Transcrip?tion Layer)完成,將LSTM 網(wǎng)絡(luò)的輸出轉(zhuǎn)換為最終的識(shí)別結(jié)果.

在PaddleOCR 中,文本識(shí)別的核心公式主要包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的處理以及全連接層和Softmax 函數(shù)的概率轉(zhuǎn)換. 這些公式是實(shí)現(xiàn)文本識(shí)別算法的關(guān)鍵部分,具體如下:

(ⅰ)卷積層:卷積層是用于特征提取的核心部分,通過(guò)在輸入圖像上應(yīng)用一系列的卷積核進(jìn)行卷積運(yùn)算,生成特征圖. 常用的卷積操作公式可以表示為: F (x,y ) =Σi = 1kwi × xi,y,其中F (x,y )表示在位置(x,y )的特征值,wi 表示第i 個(gè)卷積核的權(quán)重,xi,y 表示輸入圖像在位置(x,y )的特征值.

(ⅱ)循環(huán)層:循環(huán)層是用于處理序列數(shù)據(jù)的核心部分,通過(guò)定義一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)來(lái)捕捉序列數(shù)據(jù)的時(shí)序依賴關(guān)系. 在PaddleOCR 中,循環(huán)層使用了雙向LSTM 結(jié)構(gòu),其核心公式包括LSTM 單元的遞歸公式和輸出公式. LSTM 單元的遞歸公式可表示為:

[ ft,it,gt,ot ] =σ ( [Wxf xt + Whi ht - 1 + bf ] , [Wxi xt + Whi ht - 1 + bi ] ,[Wxg xt + Whg ht - 1 + bg ] , [Wxo xt + Who hp - 1 + bo ])

其中ft、it 、gt 、ot 分別表示遺忘門(mén)、輸入門(mén)、候選細(xì)胞狀態(tài)和輸出門(mén)的輸出,W 和b 分別表示權(quán)重和偏置項(xiàng),σ 表示激活函數(shù).

(ⅲ)全連接層和Softmax 函數(shù):全連接層用于將前一層的輸出轉(zhuǎn)換為固定長(zhǎng)度的向量,而Softmax 函數(shù)則用于將每個(gè)字符的概率轉(zhuǎn)換為概率分布. 全連接層的公式可以表示為:a = Wx + b,其中a 表示輸出向量,W 和b 分別表示權(quán)重和偏置項(xiàng),x 表示輸入向量. Softmax 函數(shù)的公式可以表示為:σ (x ) =ex/ex + ex + 1 + … + ex + N,其中σ (x ) 表示輸入向量x 經(jīng)過(guò)Softmax 函數(shù)后的概率分布.

4 實(shí)驗(yàn)分析

4.1 數(shù)據(jù)集介紹

數(shù)據(jù)集來(lái)源于中國(guó)酒史研究中心酒文獻(xiàn)數(shù)據(jù)庫(kù),包括《秋白詩(shī)集》《疇人傳》《諸子集成(論語(yǔ)正義)》《太平御覽》《中國(guó)文學(xué)》,數(shù)據(jù)集中含有隸書(shū)、楷書(shū)、繁體字等多種字體,皆為豎版排列,酒文獻(xiàn)數(shù)據(jù)豐富. 經(jīng)實(shí)驗(yàn)整理,選擇共計(jì)24 000 張作為初始圖像數(shù)據(jù)集. 選取其中一部分進(jìn)行文本框手工標(biāo)注,以此作為文本框檢測(cè)訓(xùn)練數(shù)據(jù)集,標(biāo)注如圖4 所示.

4.2 文本框單字分割

將通過(guò)投影法得到的各個(gè)列文本框,應(yīng)用YO?LOv7 算法框選出單個(gè)漢字,實(shí)現(xiàn)單個(gè)文字的分割,實(shí)驗(yàn)結(jié)果如圖5 所示. 對(duì)分割出的文字圖像進(jìn)行修補(bǔ),修補(bǔ)順序?yàn)橄扰蛎洝⒑蟾g,以提高部分受損文字的識(shí)別準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖6 所示,圖中從左至右依次為原圖、膨脹后、腐蝕后變化效果.對(duì)分割出的酒文獻(xiàn)漢字進(jìn)行文本識(shí)別,實(shí)驗(yàn)結(jié)果如圖7 所示.

4.3 評(píng)價(jià)指標(biāo)

為定量判斷分析本文獻(xiàn)的改進(jìn)算法對(duì)古代酒文獻(xiàn)文本框的檢測(cè)和關(guān)鍵字識(shí)別效果,本文采用以下評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型性能表現(xiàn),其中指標(biāo)包括精確率(Precision)、召回率(Recall)、平均精度均值(meanAverage Precision, mAP 值),計(jì)算如式9 所示.

式中:P 表示所有預(yù)測(cè)目標(biāo)中正確的比例,QTP 為正樣本被檢測(cè)正確的數(shù)量;QFP 為負(fù)樣本被檢測(cè)為正樣本的數(shù)量;QFN 為背景被錯(cuò)誤檢測(cè)為正樣本的數(shù)量;R 表示所有已標(biāo)注目標(biāo)中被正確檢測(cè)的比例;n 表示類別數(shù)量,SAP 表示以R 為橫軸、P 為縱軸形成的P -R 曲線的面積,該曲線反映了模型在不同置信度閾值下的性能. 平均精度是對(duì)這個(gè)曲線下面積的平均值. 在一個(gè)類別上,精度越高、召回越大,平均精度就越高. 對(duì)每個(gè)目標(biāo)類別計(jì)算出來(lái)的SAP 進(jìn)行取平均值,可以得到mAP 值(sˉmAP),用于評(píng)估目標(biāo)檢測(cè)模型的性能,特別是在處理多類別物體檢測(cè)任務(wù)時(shí),mAP 值越大表示模型性能越好.

在本文的實(shí)驗(yàn)分析中,將IoU 設(shè)為0.5 時(shí),計(jì)算每一類的所有圖片的SAP,把所有類別求平均,即可得到mAP@0.5. mAP@.5:.95 表示在不同IoU 閾值(從0.5 到0.95,步長(zhǎng)0.05,即0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均mAP 值.

4.4 實(shí)驗(yàn)結(jié)果分析

本文采用YOLO 網(wǎng)絡(luò)模型進(jìn)行文本框檢測(cè),在此基礎(chǔ)上增加注意力機(jī)制CBAM 進(jìn)行優(yōu)化,進(jìn)行消融實(shí)驗(yàn),結(jié)果如表1 所示.

表1 表明,引入的CBAM 方法在P、R、mAP@0.5、mAP@.5:.95 四個(gè)評(píng)價(jià)指標(biāo)上均有提升,分別提升了2%、2%、3.2%、3.7%,證實(shí)本文方法的有效性,提升了模型在文獻(xiàn)中文本框的檢測(cè)性能,在海量文獻(xiàn)識(shí)別任務(wù)中的文本框漏檢情況得到了較好的解決.

圖8 的曲線反映了改進(jìn)后的模型性能隨訓(xùn)練輪次增加,mAP@.5:. 95 值的變化趨勢(shì). 在0-50 輪,mAP@.5:.95 快速提高,表明該模型收斂速度較快,性能較好. 50-70 輪,緩慢增長(zhǎng),70-100 輪之后基本趨于穩(wěn)定,模型已經(jīng)達(dá)到收斂狀態(tài).

酒文獻(xiàn)漢字識(shí)別結(jié)果如圖9 所示.

5 小結(jié)

基于卷積神經(jīng)網(wǎng)絡(luò)的酒文獻(xiàn)關(guān)鍵詞識(shí)別與提取算法能夠更加快速地識(shí)別和分類各種類型的酒類文獻(xiàn),實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)提取和標(biāo)注,為酒文獻(xiàn)賦予標(biāo)簽,也為酒文獻(xiàn)的檢索和查詢提供更便捷的方法.本文借助深度學(xué)習(xí)與大數(shù)據(jù)技術(shù),旨在從海量歷史文獻(xiàn)資料中發(fā)現(xiàn)關(guān)鍵信息,并找到內(nèi)在聯(lián)系,揭示傳統(tǒng)文獻(xiàn)中隱藏的知識(shí)關(guān)系和發(fā)展趨勢(shì),以優(yōu)化傳統(tǒng)酒史文獻(xiàn)學(xué)研究和信息查找的路徑.

本項(xiàng)目的研究開(kāi)展,還將充分利用搜索引擎和網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在網(wǎng)絡(luò)上尋找酒史文獻(xiàn)資料,同時(shí)作為酒史研究數(shù)據(jù)庫(kù)不斷新增豐富,為將來(lái)可能的歷史研究提供支持. 利用數(shù)字化技術(shù)實(shí)現(xiàn)文獻(xiàn)的提取與分類研究,項(xiàng)目的開(kāi)展將在挖掘酒史文化數(shù)據(jù)方面具有潛在意義,能為酒史文化研究發(fā)現(xiàn)新知識(shí),提供新方法.

參考文獻(xiàn):

[1] GAO H, ERGU D, CAI Y, et al. A robust cross-ethnic digi?tal handwriting recognition method based on deep learning[J].Procedia Computer Science, 2022(199): 749-756. doi:10.1016/j.procs.2022.01.093.

[2] LAFFERTY J, MCCALLUM A, PEREIRA F C N. Condi?tional random fields: Probabilistic models for segmenting andlabeling sequence data[EB/OL]. (2001-06-28) [2023-01-27]. https://dl.acm.org/doi/10.5555/645530.655813.

[3] 黃水清,王東波,何琳. 基于先秦語(yǔ)料庫(kù)的古漢語(yǔ)地名自動(dòng)識(shí)別模型構(gòu)建研究[J]. 圖書(shū)情報(bào)工作,2015(12):135-140.

[4] 李娜. 面向方志類古籍的多類型命名實(shí)體聯(lián)合自動(dòng)識(shí)別模型構(gòu)建[J]. 圖書(shū)館論壇, 2021, 41(12):11.

[5] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Na?ture, 2015, 521(7553): 436-444.

[6] BENGIO Y, GOODFELLOW I, COURVILLE A. Deeplearning[M]. Cambridge, MA, USA: MIT Press, 2017.

[7] 謝韜. 基于古文學(xué)的命名實(shí)體識(shí)別的研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué),2018.

[8] 杜悅,王東波,江川,等. 數(shù)字人文下的典籍深度學(xué)習(xí)實(shí)體自動(dòng)識(shí)別模型構(gòu)建及應(yīng)用研究[J]. 圖書(shū)情報(bào)工作,2021,65(3):100-108.

[9] HOCHREITER S, SCHMIDHUBER J. Long short-termmemory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[10] GRAVES A, SCHMIDHUBER J. Framewise phoneme clas?sification with bidirectional LSTM and other neural networkarchitectures[J]. Neural Networks, 2005, 18(5-6): 602-610.

[11] LI C X, LIU W W, GUO R Y, et al. PP-OCRv3: More at?tempts for the improvement of ultra lightweight OCR system[EB/OL]. (2022-06-07) [2023-01-27]. ArXiv: abs/2206.03001.

[12] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YO?LOv7: Trainable bag-of-freebies sets new state-of-the-artfor real-time object detectors[EB/OL]. (2022-07-06)[2023-01-27]. arXiv:2207.02696.

[13] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutionalblock attention module[C]//Ferrari V, Hebert M, Sminchis?escu C, et al. Computer Vision – ECCV 2018. Springer,Cham, 2018. doi:10.1007/978-3-030-01234-2_1.

[14] 李治強(qiáng),楊強(qiáng). 基于時(shí)空分布特征的新聞字幕檢測(cè)改進(jìn)算法[J]. 廣播與電視技術(shù),2007,34(2):103-105.

【編校:王露】

基金項(xiàng)目:四川省哲學(xué)社會(huì)科學(xué)重點(diǎn)研究基地中國(guó)酒史研究中心開(kāi)放基金項(xiàng)目(ZGJS2021-03);四川省科技計(jì)劃重點(diǎn)研發(fā)項(xiàng)目(2021YFG0029)

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 国产精品成人免费视频99| 99精品在线看| 亚洲成人在线网| 久久午夜夜伦鲁鲁片无码免费| 国产精品高清国产三级囯产AV| 中文字幕久久精品波多野结| a毛片基地免费大全| 国产91在线|日本| 色悠久久久| 亚洲第一综合天堂另类专| 黄色一及毛片| 久久精品国产999大香线焦| 欧美影院久久| 国产精品视频久| jizz在线观看| 国产精品午夜福利麻豆| 久久人人爽人人爽人人片aV东京热 | 国产成+人+综合+亚洲欧美| 久久综合伊人77777| 美女一区二区在线观看| 中文无码精品a∨在线观看| 中文国产成人精品久久| 一级香蕉视频在线观看| 亚洲欧美自拍视频| 成人第一页| 欧美性爱精品一区二区三区| 国产高清国内精品福利| 国产一区二区影院| 亚洲黄色片免费看| 91一级片| 成人午夜视频网站| 国产在线观看99| 国产成人精品免费视频大全五级| av色爱 天堂网| 国产国语一级毛片| 午夜精品区| 日韩精品无码免费专网站| 成人在线第一页| 国产成人综合久久精品尤物| 国产91线观看| 国产精品爽爽va在线无码观看| 99视频全部免费| 激情无码字幕综合| 露脸一二三区国语对白| 伊人无码视屏| 久久久久人妻精品一区三寸蜜桃| 欧美a级在线| 在线看国产精品| 日韩A级毛片一区二区三区| 亚洲综合狠狠| 青青操国产视频| 91激情视频| 国产精品视频导航| 亚洲品质国产精品无码| 国产乱人伦精品一区二区| 欧美乱妇高清无乱码免费| 欧美日韩专区| 久久人人97超碰人人澡爱香蕉| 欧美一区二区人人喊爽| 成人毛片免费观看| 成人一级黄色毛片| 高清无码不卡视频| 婷婷六月激情综合一区| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产在线观看91精品| 国产爽歪歪免费视频在线观看| 亚洲色图欧美视频| 五月激情婷婷综合| 日韩中文精品亚洲第三区| 国产精品太粉嫩高中在线观看 | 日本国产精品| 欧美综合区自拍亚洲综合天堂| 国产黑丝一区| 国产91在线|中文| 欧美国产综合色视频| 欧洲av毛片| 波多野结衣视频一区二区| 欧美在线导航| 国产丝袜丝视频在线观看| 国产一区亚洲一区| 精品国产福利在线| 熟女视频91|