999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高階圖卷積推理網絡的任意形狀文本檢測

2024-01-18 16:52:54姜永峰
計算機工程與應用 2024年1期
關鍵詞:文本實驗檢測

劉 平,姜永峰,張 良

1.中國民航大學 電子信息與自動化學院,天津 300300

2.浙江省溫州市公安局 情報信息支隊,浙江 溫州 325000

通用場景文本檢測近些年來已經成為計算機視覺和文檔分析領域的一個熱門研究方向,在地圖導航、拍照翻譯、車牌識別以及無人駕駛等領域應用廣泛。相較于文檔文本,通用場景文本在字體、比例、排列和背景方面更加復雜多變,檢測難度更大。傳統的圖像文本檢測方法無法準確有效地解決通用場景文本檢測的問題,深度學習技術憑借其獨特的優勢成為通用場景文本檢測的主流方法。基于深度學習的場景文本檢測模型根據模型特點分為以下三類:基于回歸、基于分割和基于連通域的文本檢測方法。

基于回歸的通用場景文本檢測方法大部分都是在依賴錨框的目標檢測網絡的基礎上,結合文本檢測算法設計出適合通用場景文本檢測方向的網絡模型[1]。Liao等人[2]提出TextBoxes++模型,該模型主要使用四邊形文本框或具有特定傾斜角的文本框檢測任意方向的文本。以上檢測方法雖然在四邊形文本檢測方面取得了良好效果,但是在任意形狀文本檢測方面效果不理想。Jiang 等人[3]用自適應中心區域掩碼和其與全文區域間的擴展比率來表示任意形狀文本實例。ABCNet[4]和ABCNet v2[5]模型引入了貝塞爾曲線彎曲文本表示方法,解決基于回歸方法參數化復雜和魯棒性差的問題。TESTR模型[6]在Transformers檢測中加入邊框引導多邊形檢測過程。SwimTextSpotter 模型[7]用可學習的建議框代替RPN。

基于分割的通用場景文本檢測方法主要從語義分割中獲得靈感,分為分離文本區域和精細分割兩部分。Zhou 等人提出一種高效準確的文本檢測模型EAST[8],該模型不使用錨框機制和建議網絡,直接推斷候選文本的像素級四邊形。Deng 等人提出基于像素連接的PixelLink 模型[9],該模型的輸出分為像素分類和連接預測兩部分,只有分類任務沒有回歸任務,訓練更有效。Xu等人提出檢測不規則文本的模型TextField[10],該模型使用場向量解決基于分割方法中鄰近文本目標難以區分的問題。PGNet[11]模型應用PG-CTC損失來學習像素級字符分類特征圖,避免了應用字符級標注。Mask textspotter v3[12]模型使用SPN(分割建議網絡)代替RPN,有利于檢測極端高寬比和不規則的文本實例。DLD模型[13]使用一種低成本的低分辨率動態蒸餾框架,可以在精度和效率之間實現更好的平衡。基于分割的文本檢測方法的性能受到分割精度的強烈影響。

基于連通域的通用場景文本檢測方法大部分通過鏈接單個文本部分或字符生成最終文本。Shi等人提出使用文本段和鏈接關系的多向文本檢測模型SegLink[14],該模型可以很好地檢測出大尺度和小尺度文本。Feng等人提出TextDragon文本檢測模型[15],該模型使用一系列局部四邊形來定位局部區域,再根據它們的幾何關系對這些文本框進行分組。基于連通域的文本檢測方法通常對長文本或非四邊形文本具有魯棒性,這些方法的性能很大程度上依賴于分組或鏈接結果的魯棒性。基于CNN(convolutional neural network)的算法會受到局部算子的限制,從而不能直接捕獲遙遠分量區域之間的關系。DRRG 網絡(deep relational reasoning graph network)[16]引用GCN(graph convolutional network)推理網絡解決了CNN 方法受局部算子限制的問題,可直接捕獲遙遠文本組件之間的關系。

雖然DRRG 網絡通過使用GCN 提升了網絡性能,但是該模型并未針對長短不一的文本對文本組件進行合理應用。本文對高階圖卷積網絡進行了深入研究,在文本檢測網絡中融入了高階圖,對局部圖形構造模塊和關系推理網絡進行了優化。本文主要做出以下三點貢獻:

(1)設計了自適應高階圖方案。該方案結合文本長短不一的特點,在局部圖中合理地設置高階鄰居的階數和個數。該方案使得網絡更有效地推理組件間的關系,更加精準地連接組件,進而提升文本檢測網絡的平均精度。

(2)考慮人臉聚類與文本檢測不同,本文對一階鄰居進行了合理設置。在反向傳播和鏈接過程中,減少了無關組件的干擾。

(3)設計了高階圖卷積關系推理網絡。不同中心節點的子圖領域不同,每一階鄰居需要分配的權重不同。所以在關系推理網絡中改變圖卷積方式,且使用SE 聚合模塊為每個節點分配不同的聚合方案。該網絡可以更合理地利用高階鄰居節點的輔助信息。

1 相關工作

1.1 圖卷積網絡

機器學習問題的輸入可以用圖來表示。眾多研究者已經在圖結構數據卷積神經網絡的設計中投入了大量工作[17-21]。根據圖形數據卷積的定義,圖卷積網絡(GCN)分為光譜方法和空間方法。基于光譜的GCN[17-19]推廣了基于圖傅里葉變換的卷積,而基于空間的GCN[20-21]直接對圖節點及其鄰居執行手動定義的卷積。圖卷積網絡的發展也為目標檢測的領域注入新鮮血液,Chen等人[22]在Faster R-CNN 的基礎上加入兩個獨立圖網絡并分別用于捕獲全局語義信息和標簽局部信息及定位信息,Shu等人[23]使用GCN和GAT來提取對象與場景之間的語義關系。盧光曦[24]從多個方面探討了圖卷積網絡在目標檢測和識別領域的應用。圖卷積在目標檢測的應用也為文本檢測方法帶來新的啟發。

在本文中,一個圖由G=(P,ε)表示,P表示節點集且|P|=n,ε是邊集。X=[x1,x2,…,xp,…,xn]T定義為節點特征,其中xp∈Rm表示節點的m維特征向量。給定一個L層網絡,向量是節點p在第l層的狀態,且0 ≤l≤L

1.2 高階圖卷積網絡算法

高階圖卷積對多跳鄰域進行操作,為了推導出能夠同時利用圖上高階和低階鄰域信息的方法,需將WL算法(公式(1))推廣到一個具有高階邊和低階邊的新圖上,將節點狀態從一維向量推廣到m維向量,讓G原始圖和G′新圖兩個節點共用一個邊。為了引入邊的權值,將聚合方式更改為加權線性組合。使用多層感知機近似hash函數[25],如公式(2)所示。

EK(p)表示節點p的鄰居集,其中K表示一組節點最多可以跳躍的次數。wu,p表示節點u與節點p之間邊(u,p)的權重。hash 表示散列函數。下文是從公式(1)推廣到公式(2)的具體過程。

通過可學習權值的線性組合來組合所有的聚合結果,最后使用多層感知機從高階和低階鄰居中獲取信息。公式(4)表示圖G經過L層高階GCN的過程。

高階方案和廣義WL-1算法之間是等價的[25],即:

如公式(6)所示,將公式(5)代入公式(4)中即可導出公式(2):

高階圖卷積網絡具有學習結構感知特征的能力[25],更深層次的模型可以從遙遠的節點(高階鄰居)訪問更多的信息。

2 高階圖卷積關系推理網絡

2.1 網絡結構

本文提出兩階段(文本區域建議階段+文本區域生成階段)的高階圖卷積關系推理模型如圖1所示。骨干網絡提取特征,特征金字塔(feature pyramid networks,FPN)將特征融合后共享給文本建議網絡和高階局部圖,文本組件之間有了大致的鏈接后,再用自適應關系推理網絡進一步推理組件與相鄰組件間連接的深層可能性,最后建立鏈接并合并組件生成文本實例。與DRRG網絡[16]相似,文本建議網絡中的幾何特征和RRoI(rotation region of interest)[26]特征組成節點特征矩陣,鄰接矩陣由局部圖粗略建立鏈接信息生成。

圖1 高階圖卷積關系推理網絡整體框架圖Fig.1 Overall framework diagram of high-order graph convolution relation reasoning network

2.2 高階局部圖設計

本文用兩個節點之間的上下文信息計算文本組件之間鏈接的概率。一階鄰居節點在網絡中至關重要,訓練時只對其進行反向傳播,鏈接時只考慮中心節點與其鏈接的概率,測試時只對其進行分類。人臉聚類[27]中一階鄰居數量為8,細長的文本與人臉不同,僅鏈接左右的鄰居,所以本文改進一階鄰居的設置。

圖2中不同文本實例距離較近,同一顏色的文本組件為一個文本實例,從中挑選一個鄰居情況復雜的組件舉例說明。圖2中展示中心節點p和其8個最近的鄰居節點,1~8表示距離由近及遠,需要鏈接的點為1、2和4。理論上只要能鏈接到1和2就可以傳遞下去從而鏈接到整個文本實例,但是可能出現如圖3文組件密集和疏松相間等情況,從而導致文本實例鏈接中斷,所以一階鄰居個數擴充到5。對數據集中所有文本實例研究后,發現需要鏈接的左右兩邊最近文本組件必定在距離最近的5個組件中。綜上所述,將一階鄰居的個數設置為5。

圖2 一階鄰居示意圖Fig.2 First-order neighbors diagram

圖3 一階鄰居特殊情況Fig.3 Special case of first-order neighbors

雖然反向傳播過程不考慮高階鄰居節點,但是在關系推理網絡中遠處的鄰居節點不可或缺。高階鄰居可以提供中心節點p和鄰居之間的上下文局部結構的輔助信息。為了更有效地推理文本組件間的關系,本文設計了一種自適應的高階圖生成方案,可以為根據文本實例自身特點生成合適的高階鄰居方案。

數據集中文本長短不一,也就導致文本組件的數量不一,根據局部圖中文本組件的個數對鄰居節點進行設置。分別用公式(7)和公式(8)來確定鄰居的階數h以及kh(h階鄰居中距離每個h-1 階鄰居最近的鄰居數量),一階鄰居數固定為5,其中n表示節點(局部圖中文本組件)個數,Ceiling表示向上取整,h表示第幾階,Floor表示向下取整。n不大于25的短文本實例,直接設置階數h=2,且k1=5,k2=4;對于特長文本,不需要對所有的文本組件都進行訓練,否則會加入干擾信息且減緩網絡的收斂速度,用階數h來限制進行關系推理的鄰居總個數。

本文3.3節實驗中使用表示高階圖方案。一階鄰居是距離中心節點p最近的k1個鄰居節點。二階鄰居是距離每個一階鄰居距離最近的k2個鄰居之和(不考慮中心節點及一階鄰居節點)。以此類推,h階鄰居是距離每個h-1 階最近的kh個鄰居之和(不考慮中心節點及1到h-1 階鄰居節點)。

2.3 高階關系推理網絡

圖是非歐幾里德數據,不同節點之間存在異質性,因此固定組合方法會限制模型的靈活性。此外,對不同聚合之間的關系建模不當會帶來噪聲,損害網絡的性能。為了更好、更深地挖掘高階節點間的上下文信息,本文引入注意力機制,設計了一種高階圖卷積推理網絡,可以為每一階的節點獨立地生成一套聚合方案。

如圖4 所示,高階深度關系推理網絡以4 層級聯的GCN 為基礎,用SE(squeeze-and-excitation)聚合模塊[25]為特征矩陣重新分配權重,最后用激活函數ReLu6將不同層GCN相連。SENet中的SE塊可以通過顯式地建模信道之間的相互依賴關系,并根據這些信道之間的相互依賴關系生成每個信道的權重。在本文中,使用SE塊依據不同階鄰居間的依賴關系生成每階鄰居的權重。其中,圖卷積的方式改為逐階圖卷積,在進行逐階圖卷積時不需要學習權重,這樣方便為每一階鄰居分配權重。

圖4 高階關系推理網絡Fig.4 High-order relational reasoning network

圖5所示,以第一層GCN為例,介紹SE聚合模塊的實現過程。給定特征矩陣X和鄰接矩陣A,X先與權重W進行矩陣相乘得到矩陣Z,Z與A進行逐階圖卷積得到聚合結果Y。圖卷積是一次性聚合所有鄰居節點的特征信息,而逐階圖卷積則是將每階的鄰居分開聚合得到ak,再串聯每階的聚合結果得到Y。逐階圖卷積使用公式(9)[16]:

圖5 SE聚合模塊詳解圖Fig.5 Detailed explanation of SE-aggregation module

其中,δ表示激活函數ReLu6,W1,W2分別表示兩層感知機可訓練的權重,W1∈R(K+1)×(K+1)且W2∈R(K+1)×(K+1)。qp被用作組合所有聚合結果的權重。

其中,qp,i是qp中第i個元素,a′p是節點p當前層的特征聚合結果。SE模塊的輸出qp可以為高階圖中每一階的鄰居節點生成一個聚合權重矩陣。高階推理網絡有效利用了輔助信息,進而提高一階鄰居鏈接的準確性。

每層逐階圖卷積的時間復雜度(計算量)和空間復雜度(參數量)由公式(16)表示[19],其中ε是邊集,邊數是線性的,Ci表示輸入通道數,Co表示輸出通道數:

每個SE 聚合的時間復雜度和空間復雜度由公式(17)表示,H表示階數,r表示SE模塊的縮減率。

值得注意的是,SE 聚合模塊的引入意味著權重的增加,對于鄰居設置單一的原網絡性能提升較小,但對于本文提出高階圖卷積網絡而言,SE 聚合模塊可以配合不同長度的文本生成不同的權重,使得網絡更有效地挖掘深層次的上下文信息,預計使網絡的性能得到較為顯著的提升。

3 消融實驗

3.1 數據集

表1 中分別對本文所用3 個數據集從訓練圖片張數、測試圖片張數、數據集中包含文本實例類型和標注方式四個方面進行介紹。

表1 數據集介紹Table 1 Introduction to datasets

3.2 實驗環境和參數

本文中所有實驗使用的系統為Ubuntu16.04,中央處理器CPU為Intel?Xen?Silver 4110。使用PyTorch1.2.0框架搭建網絡模型,使用GPU(GTX 1080 Ti)搭配運算平臺CUDA 9.0訓練網絡。

本文訓練過程使用SynthText[28]數據集預訓練模型,訓練策略為mini-batch,epoch 設置為700,采用SGD 優化器,初始學習率為0.001,每迭代50 次后下降10%。Total-Text 和CTW-1500 數據集的批大小(batch_size)為4,ICDAR2015數據集的batch_size為6。

3.3 實驗步驟與結果分析

首先,本文為了證明8 個一階鄰居不合理,分別用7、6、5、4階鄰居進行替換實驗。本次實驗的骨干網絡為vgg16,使用數據集Total-Tex(t后文不做特殊說明,實驗中骨干網絡和數據集同本次實驗一樣)。表2為一階鄰居數量研究實驗,其中P、R和F1分別表示精度、召回率和平均精度(F1-measure)。鄰居設置都為2 階,且k2=4。k1=8 是原網絡中的設置。

表2 不同一階鄰居實驗Table 2 Experiments of different first-order neighbors 單位:%

在表2 中,k1=7 時,F1 的值最高,比原網絡提升了0.64 個百分點。但k1=6、5、4 時,F1 值反而降低,與2.2節局部圖中對一階鄰居的分析不符。出現此結果是因為,表2 中的實驗只考慮到了一階鄰居,忽略了鄰居總數,導致關系推理的輔助信息不夠。

2.2節所提出的高階圖方案是自適應的,是由文本實例的文本長短決定。為了證明本文所提高階圖方案的優勢,設計兩種固定的高階方案與之進行比較。第一種,鄰居階數和ki成反比。以5 階為例,鄰居設置為k-hop=[5,4,3,2,1]。第二種,除一階鄰居外,剩余階數的ki分別為3 和2,k-hop=[5,3,3,2,2]。表3 所示為高階方案的實驗結果,其中k-hop=[k1,k2,k3,k4,k5],第三種即本文方案,該實驗中限制最高階數是5階,k1=5。

表3 不同高階方案實驗Table 3 Experiments of different high-order schemes 單位:%

從表3中F1值的變化可得,第三種高階圖方案明顯優于第一種和第二種高階方案。第三種方案的F1值比表3中k1=7的F1值高0.36個百分點、比k1=5的F1值高1.59 個百分點,說明了輔助信息的重要性,也側面說明了設置k1=5的合理性。

表4 為高階圖卷積上在不同數據集上不同階數的實驗結果,其中h表示采用第三種高階方案時的最高階數,即2.2 節中的hmax。表4 中的實驗數據表明本文網絡在Total-Text 和CTW1500 數據集上hmax取值為5 的平均精度最高,在ICDAR2015 數據集上hmax取值為4的平均精度最高。此情況是因為ICDAR2015中小面積文本較多。為了進一步挖掘深層的輔助信息,在高階圖卷積方案的基礎上引入SE聚合模塊。

表4 不同階數實驗方案Table 4 Experiments schemes of different orders 單位:%

表5 中H-order 表示本文提出的高階圖卷積方案,H-order+SE表示在高階圖卷積方案的基礎上加入SE聚合模塊。實驗結果表明,SE 聚合模塊在高階推理網絡中發揮其優勢,使得網絡性能提升了0.37個百分點。同時,表5 中DRRG+SE 的F1 值較DRRG 網絡降低了1.6個百分點,驗證了2.3節提出的SE聚合模塊不適用原網絡的假設。表5 中參數量和計算量的結果是以輸入640×640像素圖片為前提得出的,SE聚合模塊的加入增加了精度的同時也增加了網絡復雜度。

表5 SE聚合模塊對比實驗Table 5 Comparison experiments of SE-aggregation module

SENet[29]在全連接層中設置縮減率r來限制模型復雜度,本文在不同數據集上討論了r對模型精度的影響。表6中數值為F1值,不同數據集對r的取值不同。

表6 不同r 值實驗Table 6 Experiments with different value of r

為了驗證自適應高階圖卷積推理網絡的普適性和有效性,本文分別在Total-Text、CTW1500和ICDAR2015數據集上進行與不同網絡模型的對比實驗。表6 中New Model 表示:實驗采用表3 中第三種高階方案,階數最高為5 階,并且引入SE 聚合模塊。ICDAR2015 該數據集上最高階數設置為4 階進行實驗。從表5 和表6 中F1 值可以得出,本文提出的方法在CTW1500、ICDAR2015 和Total-text 數據集上的平均精度相較于DRRG 網絡分別提高了1.05、1.26 和1.4 個百分點。本文方法在ICDAR2015和Total-text數據集中精度提升較多,在Total-text 數據集中優化效果最好,在CTW1500數據集上提升最小,可能因為CTW1500 數據的標注不統一[16]。

對表7 中實驗數據中不同模型在不同數據集中F1值進行比較。在Total-text數據集上,本文網絡的平均精度明顯其他網絡。在CTW1500 和ICDAR2015 數據集上,本文方法優于大部分網絡。證明了本文方法的優越性。圖6(a)、(b)、(c)分別為本文方法在ICDAR2015、CTW1500和Total-text數據集中的最終檢測結果圖。本文方法可以在復雜背景干擾下準確地檢測任意形狀的文本。

表7 本文模型與其他文本檢測模型的對比實驗Table 7 Comparative experiments between this model and other text detection models 單位:%

圖6 不同數據集上的檢測效果圖Fig.6 Detection effect on different datasets

4 結束語

針對通用場景下任意形狀文本檢測困難的問題,本文提出一種基于高階圖卷積推理的文本檢測方法,該方法主要對局部圖和推理網絡兩個部分進行優化。首先,局部圖中分別對高階鄰居和一階進行了合理的設置,高階鄰居方案可以讓關系推理網絡有效地從遙遠的組件獲得輔助信息,一階鄰居數量的降低使得網絡提高了工作效率。其次,在推理網絡中加入SE聚合模塊,可以為每個節點的每一階鄰居生成不同的權重。實驗結果表明,本文提出的自適應高階圖方案在不同的數據集上都展示出其優越性,高階圖卷積關系推理網絡有效地利用了輔助信息,進而提高了模型的平均精度。但是本文提出的網絡參數量和計算量偏大,所以下一步工作可以對該網絡進行輕量化,增加其實用性。

猜你喜歡
文本實驗檢測
記一次有趣的實驗
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 欧美国产日韩在线| 国产欧美日韩综合在线第一| 国产剧情一区二区| 无码精品一区二区久久久| 天天综合天天综合| 欧美福利在线观看| 最新亚洲人成无码网站欣赏网| 999国产精品永久免费视频精品久久 | 欧美成人手机在线观看网址| 欧美中出一区二区| 91精品免费高清在线| 美女亚洲一区| 成人精品视频一区二区在线| 中文字幕亚洲另类天堂| 亚洲精品动漫| 欧美亚洲国产视频| 精品欧美一区二区三区久久久| 五月天香蕉视频国产亚| 99久久精品国产麻豆婷婷| 日韩少妇激情一区二区| 国产91在线|日本| 精品国产欧美精品v| 香蕉网久久| 中文毛片无遮挡播放免费| 草草影院国产第一页| 国产精品白浆在线播放| 欧美69视频在线| 啪啪免费视频一区二区| 国产精品播放| 国产91精选在线观看| 欧美日本二区| 欧美一区二区福利视频| 四虎成人在线视频| 国产全黄a一级毛片| 一区二区影院| 日韩国产 在线| 国产日韩精品欧美一区灰| 国产无遮挡猛进猛出免费软件| a级毛片免费看| 一级毛片基地| 亚洲乱码精品久久久久..| 日本黄色a视频| 2021国产v亚洲v天堂无码| 无码精品国产dvd在线观看9久| 超碰色了色| 波多野结衣视频网站| 综合亚洲网| 中国国产一级毛片| 国产福利一区二区在线观看| 国产精品自在线拍国产电影| 在线无码av一区二区三区| 青草视频免费在线观看| www.国产福利| 免费Aⅴ片在线观看蜜芽Tⅴ | 亚洲天堂视频网站| 日韩欧美中文字幕在线精品| 久久久久亚洲精品无码网站| 欲色天天综合网| 国产午夜人做人免费视频中文| 1769国产精品视频免费观看| 国产精品偷伦视频免费观看国产 | 婷婷综合亚洲| 国产视频资源在线观看| 免费午夜无码18禁无码影院| 国产香蕉97碰碰视频VA碰碰看| 国产第八页| 91色爱欧美精品www| 九九精品在线观看| 黄色网站不卡无码| 国产精品分类视频分类一区| 国产久操视频| 欧美日韩福利| 青青青视频蜜桃一区二区| 久操线在视频在线观看| 999国内精品久久免费视频| 国产亚洲精品无码专| 国产毛片基地| 伊人久久青草青青综合| 日韩av电影一区二区三区四区| 精品视频在线一区| 国产第一福利影院| 国产精品福利导航|