999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer的圖像分類網絡MultiFormer

2022-12-31 00:00:00胡杰昌敏杰熊宗權徐博遠謝禮浩郭迪
計算機應用研究 2022年10期

摘要:為解決目前ViT模型無法改變輸入補丁大小且輸入補丁都是單一尺度信息的缺點,提出了一種基于Transformer的圖像分類網絡MultiFormer。MultiFormer通過AWS(attention with scale)模塊,將每階段不同尺度輸入小補丁嵌入為具有豐富語義信息的大補丁;通過GLA-P(global-local attention with patch)模塊交替捕獲局部和全局注意力,在嵌入的同時保留了細粒度和粗粒度特征。設計了MultiFormer-tiny、-small和-base三種不同變體的MultiFormer模型網絡,在ImageNet圖像分類實驗中top-1精度分別達到81.1%、82.2%和83.2%,后兩個模型對比同體量的卷積神經網絡ResNet-50和ResNet-101提升了3.1%和3.4%;對比同樣基于Transformer分類模型ViT,MultiFormer-base在參數和計算量遠小于ViT-Base/16模型且無須大量數據預訓練前提下提升2.1%。

關鍵詞:機器視覺; 深度學習; 圖像分類; 自注意力; Transformer

中圖分類號:TP391.41文獻標志碼:A文章編號:1001-3695(2022)10-050-3191-05

doi: 10.19734/j.issn.1001-3695.2022.03.0133

MultiFormer: image classification network based on Transformer

Hu Jiea,b,c, Chang Minjiea,b,c, Xiong Zongquana,b,c, Xu Boyuana,b,c, Xie Lihaoa,b,c, Guo Dia,b,c

(a.Hubei Key Laboratory of Advanced Technology for Automotive Components, b.Hubei Collaborative Innovation Center for Automotive Components Technology, c.Hubei Research Center for New Energy amp; Intelligent Connected Vehicle, Wuhan University of Technology, Wuhan 430070, China)

Abstract:

In order to solve the disadvantage that the ViT cannot change the input patch size and the input patches are all single-scale information, this paper proposed an image classification network based on Transformer called MultiFormer. MultiFormer embedded small patches with different scales of inputting at each stage into large patches with rich semantic information through the AWS module. And it captured local and global attention alternately through the GLA-P module, preserving both fine-grained and coarse-grained features during embedding. This paper designed MultiFormer-tiny, -small and -base networks of three different sizes to achieve 81.1%, 82.2% and 83.2% top-1 accuracy respectively in ImageNet image classification experiments, the latter two models improve by 3.1% and 3.4% compared to the same volume of convolutional neural networks ResNet-50 and ResNet-101. MultiFormer-base offers 2.1% improvement with far fewer parameters and computational effort than the ViT-Base/16 model, and without the need for extensive data pre-training.

Key words:machine vision; deep learning; image classification; self-attention; Transformer

0引言

圖像分類[1]、目標檢測[2]和語義分割[3]等計算機視覺任務由卷積神經網絡主導,自AlexNet[4]在ImageNet圖像分類挑戰中獲得冠軍之后,卷積神經網絡架構通過一系列設計變得更深、更密集且卷積形式更復雜[5~7]。ResNet[5]提出殘差網絡在加深網絡層數時解決梯度消失問題;DenceNet[6]引入了密集連接的拓撲結構將每個卷積塊與前一個卷積塊連接起來;VGG[8]通過疊加卷積核擴大感受野的方法加深網絡;GoogLeNet[9]通過構建密集的塊結構來近似最優的稀疏結構,在提高性能時不增加計算量; EfficientNet[10]證明了可以利用復合系數統一縮放模型所有維度,從而提高模型性能。另一方面,Transformer由于自注意力模塊具有捕捉長距離依賴[11]的能力被用于自然語言處理任務,許多研究人員受此啟發,嘗試探索Transformer結構在計算機視覺任務中的應用。文獻[12~15]已將自注意力模塊納入卷積神經網絡并用于圖像分類、目標檢測和語義分割等計算機視覺任務。

Vision Transformer(ViT)[16]由于不使用卷積神經網絡而通過圖像序列化將Transformer應用于圖像分類,所以迅速引入改進[17~20]并用于各種下游任務[21~24]。由于Transformer的自注意力模塊對整個輸入序列進行操作,處理自然圖像時把每一個像素點都看做一個標記,其長度會遠遠長于單詞序列,所以會比卷積操作產生更多的內存和計算成本。ViT采用折中策略將多個像素點嵌入圖像補丁(patch)作為一個標記(token)輸入自注意力模塊進行計算,但是計算復雜度仍然過高且要求輸入圖片只能是固定大小。對ViT的改進可以分為三類:

a)改進ViT設計本身。DeiT[19]引入了合適的訓練策略來擺脫大規模的預訓練并采用蒸餾的方式引導模型進行更好的學習;T2T-ViT[20]采用漸進式的方式將圖像結構化為圖片補丁并保留了局部結構信息,克服了ViT中簡單標記化的局限性;DynamicViT[23]利用Transformer標記是非結構化序列的特點,設計了一種標記稀疏化剪枝的方法,通過刪除信息量不大的標記降低計算量。

b)將卷積操作引入到ViT設計中。利用卷積進行位置編碼[17]或者使用卷積來替換Transformer中的線性投影層[25];CoAtNet[26]通過引入卷積神經網絡捕獲局部注意力來彌補局部特征。

c)設計新的主干網絡和自注意力模塊。PVT[21]設計了一個金字塔結構的主干網絡逐層對特征圖進行下采樣并使用了空間縮減注意力模塊來權衡模型效率和準確率;CAT[24]設計了一個跨塊自注意塊將序列補丁內的注意力和序列補丁間的注意力結合起來,從而使得局部信息和全局信息交互;Swin[22]提出將輸入特征圖劃分到不同固定大小的局部窗口中,通過在每個窗口內計算自注意力來降低計算成本;DPT[27]自適應地將圖像分割成不同位置和大小的像素塊,可以避免對語義信息的破壞,從而捕捉到完整且與對象相關的局部結構;FPT[28]能夠對特征圖跨空間和跨尺度的非局部特征進行編碼,且能整合到其他主干網絡用于其他下游任務。

這些工作仍然具有一定的局限性,它們將單一尺度的圖片補丁輸入自注意力模塊時會丟失許多語義信息,此時需要跨尺度注意力機制來建立它們之間的聯系,同時圖像分類任務需要粗粒度和細粒度特征之間的交互來捕獲目標信息。基于上述問題,本文主要工作如下:a)針對ViT模型輸入特征圖存在尺度單一的問題,提出多尺度嵌入模塊AWS(attention with scale),AWS模塊使用不同尺度的卷積核對圖片進行采樣,融合成具有人類視覺感受野的跨尺度注意力補丁輸入到下一個階段,使每一個階段的輸入都是多尺度圖片補丁;b)針對其他Transformer模型無法對像素塊長距離建模導致粗粒度特征丟失的問題,設計新的自注意力模塊GLA-P(global-local attention with patch),通過交替捕獲全局補丁和局部補丁聚合粗粒度和細粒度特征來彌補圖片補丁語義信息的不足,利用注意力打包操作,在不影響網絡性能的前提下減少計算量;c)設計了MultiFormer-tiny、-small和-base三個不同大小的模型,在公開數據集ImageNet、CIFAR10和CIFAR100上進行圖像分類實驗,結果表明MultiFormer在圖像分類實驗中優于其他同量級的對比網絡,并通過消融實驗驗證了各個模塊的有效性。

1模型框架

MultiFormer圖像分類網絡整體框架如圖1(a)所示,主干網絡參考PVT[21]設計為四階段金字塔結構,每個階段由AWS多尺度嵌入模塊和多個MultiFormer block順序組合而成;如圖1(b)所示,每個MultiFormer模塊由一個GLA-P自注意力模塊和一個多層感知機MLP組成,MLP使輸入數據非線性化并改變數據維度。

首先,輸入圖片通過AWS模塊生成多尺度特征圖并劃分為具有多尺度信息的圖片補丁,對除了stage1之外的輸出進行下采樣,將補丁數量減少為四分之一并把輸出維度擴大為兩倍形成金字塔結構。然后,把生成的多尺度補丁接入MultiFormer block中的GLA-P自注意力模塊,GAP(global attention with patch)和LAP(local attention with patch)即打包過的全局注意力和局部注意力交替出現形成GLA-P自注意力模塊,能夠同時聚合輸入圖像的全局特征和局部特征。最后,接一個單獨的視覺任務頭,如圖像分類頭(classification head),用于圖像分類任務。下面將詳細介紹各個模塊的原理及作用。

1.1AWS多尺度嵌入模塊

將圖像輸入自注意力模塊計算之前,需要將圖片的像素塊劃分為等大小的圖片補丁并序列化為二維矩陣形式來滿足輸入要求。如圖2中補丁patch劃分方式對比所示,ViT簡單地將圖片中相鄰的像素塊劃分為固定大小的補丁,使每個階段的補丁數量固定,從而方便嵌入絕對位置編碼輸入自注意力模塊計算。這種劃分方式會導致每個階段的自注意力計算量呈平方倍增長,并需要大量數據集進行預訓練且難以訓練到收斂。與ViT不同,AWS模塊先將圖片劃分成大小為4×4的小補丁,然后利用下采樣將小補丁合并為8×8和16×16的大補丁并將維度升為兩倍,通過減少補丁數量、擴大補丁維度和大小形成金字塔結構,不僅降低了計算復雜度,而且不必限制每個階段的補丁數量,解決了ViT必須輸入固定大小圖片的劣勢。

PVT[21]和Swin[22]在將輸入圖片劃分為等大小的補丁并序列化為二維矩陣時,由于忽視了輸入特征圖尺度對圖片補丁尺度的影響,使得劃分的補丁尺度單一并會丟失目標的多尺度語義信息,導致模型性能降低。本文設計的AWS模塊在生成圖片補丁之前會利用不同大小的卷積核對輸入圖片進行卷積操作,生成語義信息豐富的多尺度特征圖用于增強嵌入補丁的語義信息。如圖2所示,首先,AWS模塊接收一個H×W×3的RGB圖像作為輸入,使用三個不同大小的卷積核進行采樣,將采樣框的步幅保持一致,讓每個采樣框都有相同的中心和不同的尺度,其中stage1的AWS卷積核大小設置為2×2、4×4和8×8,后三個stage設置為2×2和4×4,步幅都設置為4×4,為了便于特征圖的融合將通道數都設置為D;然后,將通過不同尺度卷積核采樣得到的多尺度特征圖參考人眼視覺特征[29]融合成語義信息豐富的特征嵌入圖;最后,將stage1中劃分的4×4大小的補丁下采樣為8×8和16×16大小的補丁,并將維度擴大為兩倍形成金字塔結構。與其他Transformer網絡劃分的patch尺度對比如圖2右側所示,PVT和Swin將輸入圖片進行劃分時,粗糙地將原始特征圖劃分為圖片補丁,此時的補丁受特征圖尺度的限制只能關注到4×4像素塊里的特征信息,如果目標尺度不局限于4×4大小的像素塊之內,則模型會因為無法關注到圖片目標其他尺度內的語義信息而造成目標特征信息缺失;本文提出的AWS模塊通過多尺度卷積操作使得劃分的補丁能夠聚合特征圖中2×2、4×4和8×8多個尺度中像素塊的語義信息,從而生成特征信息豐富的補丁,在輸入后續模塊時能夠彌補Swin和PVT由于補丁多尺度特征導致的信息不足,從而提升模型性能。

1.2GLA-P自注意力模塊

通過AWS模塊生成多尺度補丁之后,需要將圖片補丁輸入圖1(a)MultiFormer模塊中的GLA-P自注意力模塊計算。如圖1(b)所示,由于在圖像分類任務中,網絡需要同時捕獲目標的細粒度和粗粒度特征,所以在MultiFormer 模塊中設計了GAP和LAP交替形成新的自注意力模塊GLA-P,從而能夠捕獲全局注意力和局部注意力來保留目標的粗粒度和細粒度特征。如圖3所示,輸入LAP和GAP的是經過AWS模塊嵌入的多尺度特征圖HO×WO×D,對于LAP,每4×4的相鄰像素塊被分組在一起形成local attention;對于GAP,同樣4×4數量但間隔為4的像素塊被分為一組形成global attention,不相鄰的像素塊由于廣泛分布,為生成的補丁提供了足夠的上下文信息,使得全局注意力變得更加有效。

與CoAtNet[26]中的GLA(global-local attention)通過卷積神經網絡捕獲局部特征,自注意力模塊捕獲全局特征不同,本文提出的GLA-P模塊通過對相鄰和相間隔的像素塊分別進行短距離和長距離建模而不依賴于卷積神經網絡來交替捕獲全局注意力和局部注意力。為了更直觀地觀察GLA-P自注意力模塊的作用方式,以MultiFormer-base為例,將訓練好的模型最后一層特征圖輸出的各個像素得分經過激活函數后,映射回原圖得到global-local attention自注意力可視化表述,如圖4所示。明亮部分為自注意力所關注的部位,說明本文自注意力模塊能有效捕獲圖像全局信息。

與其他Transformer模型的自注意力模塊對比如圖3所示。Swin將特征圖劃分為幾個不重疊的窗口并限制在每一個窗口內獨立執行自注意力操作,此外為了補償缺失的全局信息,提出了一種滑動窗口策略在不同窗口之間交換信息,不過Swin依然將自注意力計算局限在相鄰的像素塊之間,無法對生成的補丁進行長距離建模。本文提出的自注意力模塊通過global attention對廣泛分布的像素塊進行建模而生成具有上下文信息的補丁,與通過local attention對相鄰像素塊建模生成的補丁相結合,經過GLA-P形成的補丁同時保留輸入圖片的全局信息和局部信息,在自注意力計算后能夠同時關注目標的粗粒度和細粒度特征,從而能夠在圖像分類任務中表現出色。

實際上,為了盡可能保留原特征圖的語義信息,大補丁的分辨率會比較大(如stage1中經過GLA-P處理后的補丁大小為28×28),在序列化為二維數組時計算量依然會很大,因此本文設置了一個卷積打包方式來替代傳統編碼器中的多頭注意力(multi-head attention)[11],與MHA類似,接收查詢(query)、鍵(key)和值(value)并輸出一個改進的加強特征。細節表述如下:

patch(q,k,v,P=2,B)=attention(Q,K′,V′,B)(1)

Q=xq

K′=norm(reshape(conv(xk)))

V′=norm(reshape(conv(xv))) (2)

其中:x為輸入特征圖;q,k,v∈Euclid ExtraaBp(HW)×D為生成的對應維度的矩陣,本文在注意力每個頭部都添加一個可學習的相對位置偏差[30~32]B∈Euclid ExtraaBpdhead×(WH)×(WH/dhead/P);conv為對應的卷積操作,與patch(q,k,v,P=2)中P的大小有關,例如P=2,則卷積核大小為4,K′和V′的維度為Q′的四分之一;norm(·)為層歸一化[33];attention(·)為自注意力操作,計算為

attention(q,k,v)=softmax(qkΤdhead+B)v(3)

與Swin同時處理query、key和value不同,本文對鍵值對進行下采樣后能在不影響精度的情況下減少P倍計算量,經過attention patch打包操作后參數減少情況如表1所示。

同時由圖2可將MultiFormer計算細節描述為

zlO=GAP(LN(zl-1))+zl-1

zl=MLP(LN(zlO))+zlO

zl+1O=LAP(LN(zl))+zl

zl+1=MLP(LN(zl+1O))+zl+1O(4)

其中:zlO和zl表示MultiFormer塊中GAP和MLP模塊的輸出特征;zl+1O和zl表示LAP和MLP模塊的輸出特征。

1.3模型變體

遵循殘差網絡結構ResNet[5]的設計規則,本文構建了三個不同尺度大小的模型,分別稱為MultiFormer-tiny、-small和-base,它們的模型大小和計算復雜度為1∶1.5∶3,其中MultiFormer-tiny、-small和-base的計算量和計算參數分別與ResNet-18、ResNet-50以及ResNet-101相似,主要超參數設置如下:

MultiFormer-tiny:D=64,depth={1,1,8,6},heads={2,4,8,16}

MultiFormer-small:D=96,depth={2,2,6,2},heads={3,6,12,24}

MultiFormer-base:D=96,depth={2,2,12,2},heads={3,6,12,24}

其中:D為第一階段隱藏層的通道數;depth為每個stage包含的MultiFormer塊數;heads為多頭注意力的維度。在GLA-P模塊中將小補丁嵌入為大補丁時的大小為group_size={28,14,14,7},利用卷積將注意力打包時將patch設置為P={4,2,2,1},模型設計及詳細超參數設置如表2所示。

2實驗

用本文設計的MultiFormer圖像分類網絡在ImageNet-1K、CIFAR10和CIFAR100數據集上進行圖像分類實驗并與同量級且具代表性的卷積神經主干網絡ResNet[5]以及其他基于Transformer的主流模型進行對比,隨后進行充分的消融實驗驗證各個模塊的有效性。

2.1圖像分類實驗

ImageNet-1K數據集[34]包含來自1 000個類別的128萬張訓練圖片和5萬張驗證圖片,本文在訓練集上訓練模型,并用驗證集測試輸出top-1精確度(排名第一的類別與實際結果相符的準確率)。本文將圖像大小隨機裁剪為224×224,優化器選擇動量為0.9且衰減權重為0.05的余弦衰減AdamW優化器,批次(batch_size)設為128,初始學習率為0.001,所有模型都在4張2080Ti顯卡上從頭開始訓練300個epoch,實驗結果如表3所示。從表3結果可以看出,MultiFormer網絡模型在參數量和計算量相當的情況下明顯優于基于卷積神經網絡的ResNet系列,MultiFormer-tiny、-small和-base模型較ResNet-18、ResNet-50和ResNet-101模型分別提升12.6%、3.1%和3.4%;對比同樣基于Transformer的主流模型ViT和Swin,在參數和計算量遠小于ViT-base/16模型且無須大量數據預訓練前提下,MultiFormer-base提升2.1%,同時在參數量較Swin-S降低了10%的前提下提升0.2%,驗證了所本文模型的有效性。

圖5為MultiFormer網絡模型與卷積神經網絡ResNet以及其他基于Transformer工作的網絡模型對比。圖5(a)和(b)分別為模型參數和模型計算量與分類數據集top-1準確率的關系。可以看出,MultiFormer網絡模型在參數量和計算量相當的情況下全面優于其他模型。

隨機從ImageNet數據集中抽取圖片,輸入已加載訓練權重的MultiFormer、PVT和Swin網絡中進行推理,將四個階段所得到的特征圖相加并映射回原圖得到圖像分類實驗熱力圖如圖6所示。相較于PVT和Swin網絡,MultiFormer在處理單一尺度圖片時,由于自注意力模塊GAL-P能對上下文關系建模,所以能更加聚焦于目標的有效特征;在處理多尺度圖片時,由于AWS多尺度嵌入模塊能生成語義信息豐富的多尺度補丁,所以能有效關注目標的不同尺度信息及其輪廓信息。

使用CIFAR10和CIFAR100圖像分類數據集對MultiFormer網絡作進一步驗證。CIFAR10和CIFAR100分別包含10個和100個類別,兩個數據集都分別有5萬張訓練集和1萬張測試集,在訓練集上訓練模型,并用驗證集測試輸出top-1精確度。為了避免由于數據集較小而出現過擬合的情況,與ViT微調策略保持一致,將ImageNet分類實驗獲得的訓練權重分別加載到MultiFormer-tiny、-small和-base中并替換掉分類檢測頭,使用動量為0.9的SGD優化器進行模型微調,訓練批次和輪數設置為64和300輪,實驗結果如表4所示。

由表4可知,MultiFormer-base在參數量較EfficientNetV2-L降低了50%的前提下,CIFAR10和CIFAR100的top-1精度分別提高0.4%和1.7%,在參數量為ViT-H/16的十分之一時,CIFAR10和CIFAR100的top-1精度仍能分別提高0.3%和0.3%;MultiFormer-tiny和-small對比同體量模型LeViT-256和-384在CIFAR10上top-1精度分別提高1.0%和1.3%,進一步驗證了本文所提模型MultiFormer的有效性。

2.2消融實驗

為了驗證所設計的AWS和GLA-P模塊的有效性,本文基于MultiFormer-tiny模型在ImageNet圖像分類數據集上設計了如下對比實驗:

a)取消AWS多尺度嵌入模塊,改為單尺度嵌入,將stage-1中卷積核設為單個大小為4×4的卷積核,其他階段的下采樣設為單個大小為2×2的卷積核,結果如表5所示。AWS模塊幫助模型取得了很大的性能提升,top-1準確率相較于單尺度嵌入提升了0.6%。

b)用GLA-P模塊替換為Swin[22]、PVT[21]和CoAtNet[26]模型中的自注意力模塊,結果顯示精度分別提升0.3%、0.5%和0.8%,具體分析是因為Swin采用了滑動窗口的方式將自注意力限制在了局部范圍而忽略掉了全局注意力之間的聯系;PVT在處理自注意力特征時,對生成的鍵值對簡單下采樣而舍棄掉了細粒度語義信息;CoAtNet在主干網絡前兩個階段過度依賴卷積神經網絡提取特征會丟失部分全局信息,導致輸入圖片粗粒度特征的缺失而精度降低。以上實驗結果表明,交替捕獲局部注意力和全局注意力能有效提升模型性能。

實驗條件和超參數均與之前保持一致,訓練設備均為4張2080Ti顯卡,訓練輪數為300輪。

3結束語

本文提出了一種基于Transformer的圖像分類網絡MultiFormer,核心組成為AWS多尺度嵌入模塊和GLA-P自注意力模塊,實驗結果表明在參數和計算量相當的情況下,相對于卷積神經網絡和其他基于Transformer的工作有較大提升,證明了多尺度嵌入和交替捕獲局部注意力及全局注意力能明顯增強Transformer網絡中自注意力學習特征圖語義信息的能力,同時本文所設計的主干網絡能較好地提取特征圖的語義信息,有望成為計算機視覺任務通用主干網絡并用于其他下游任務。目前Transformer正在計算機視覺領域飛速發展并成為了一種趨勢,希望本文能對后續基于Transformer模型所進行的工作起到啟迪作用。

參考文獻:

[1]黃凱奇,任偉強,譚鐵牛. 圖像物體分類與檢測算法綜述 [J]. 計算機學報,2014,378(6): 1225-1240. (Huang Kaiqi,Ren Weiqiang,Tan Tieniu. A review on image object classification and detection [J]. Chinese Journal of Computers,2014,378(6): 1225-1240.)

[2]李旭冬,葉茂,李濤. 基于卷積神經網絡的目標檢測研究綜述 [J]. 計算機應用研究,2017,34(10): 2881-2886,2891. (Li Xu-dong,Ye Mao,Li Tao. Review of object detection based on convolutional neural networks [J]. Application Research of Computers,2017,34(10): 2881-2886,2891.)

[3]田萱,王亮,丁琪. 基于深度學習的圖像語義分割方法綜述 [J]. 軟件學報,2019,30(2): 440-468. (Tian Xuan,Wang Liang,Ding Qi. Review of image semantic segmentation based on deep learning [J]. Journal of Software,2019,30(2): 440-468.)

[4]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks [C]// Advances in Neural Information Processing Systems. 2012: 1097-1105.

[5]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016: 770-778.

[6]Huang Gao,Liu Zhuang,Van Der Maaten L,et al. Densely connected convolutional networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 4700-4708.

[7]Xie Saining,Girshick R,Dollár P,et al. Aggregated residual transformations for deep neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 1492-1500.

[8]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10) [2022-03-28]. https://arxiv. org/pdf/1409. 1556.

[9]Szegedy C,Liu Wei,Jia Yangqing,et al. Going deeper with convolutions [C]// Proc of IEEE conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2015: 1-9.

[10]Tan Mingxing,Le Q. EfficientNet: rethinking model scaling for con-volutional neural networks [C]// Proc of International Conference on Machine Learning. 2019: 6105-6114.

[11]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. 2017: 5998-6008.

[12]Wang Xiaolong,Girshick R,Gupta A,et al. Non-local neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 7794-7803.

[13]Zhao Hengshuang,Jia Jiaya,Koltun V. Exploring self-attention for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 10076-10085.

[14]Ramachandran P,Parmar N,Vaswani A,et al. Studying standalone self-attention in vision models [EB/OL]. (2019-06-13) [2022-03-28]. https://arxiv. org/pdf/1906. 05909.

[15]Carion N,Massa F,Synnaeve G,et al. End-to-end object detection with transformers [C]// Proc of European Conference on Computer Vision. 2020: 213-229.

[16]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. (2021-01-03) [2022-03-28]. https://arxiv. org/pdf/2010. 11929.

[17]Chu Xiangxiang,Tian Zhi,Zhang Bo,et al. Conditional positional encodings for vision transformers [EB/OL]. (2021-05-18) [2022-03-28]. https://arxiv. org/pdf/2102. 10882.

[18]Han Kai,Xiao An,Wu Enhua,et al. Transformer in transformer [EB/OL]. (2021-10-26) [2022-03-28]. https://arxiv. org/pdf/2103. 00112.

[19]Touvron H,Cord M,Douze M,et al. Training data-efficient image transformers amp; distillation through attention [C]// Proc of International Conference on Machine Learning. 2021: 10347-10357.

[20]Yuan Li,Chen Yunpeng,Wang Tao,et al. Tokens-to-Token ViT: training vision transformers from scratch on ImageNet [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway,NJ:IEEE Press,2021: 558-567.

[21]Wang Wenhai,Xie Enze,Li Xiang,et al. Pyramid vision Transformer: a versatile backbone for dense prediction without convolutions [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 568-578.

[22]Liu Ze,Lin Yutong,Cao Yue,et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 10012-10022.

[23]Rao Yongming,Zhao Wenliang,Liu Benlin,et al. DynamicViT: efficient vision transformers with dynamic token sparsification [EB/OL]. (2021-10-26) [2022-03-28]. https://arxiv. org/pdf/2106. 02034.

[24]Lin Hezheng,Cheng Xing,Wu Xiangyu,et al. CAT: cross attention in vision Transformer [EB/OL]. (2021-06-10) [2022-03-28]. https://arxiv. org/pdf/2106. 05786.

[25]Wu Haiping,Xiao Bin,Codella N,et al. CVT: introducing convolutions to vision transformers [C]// Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway,NJ:IEEE Press,2021: 22-31.

[26]Dai Zihang,Liu Hanxiao,Le Q V,et al. CoAtNet: marrying convolution and attention for all data sizes [C]// Advances in Neural Information Processing Systems. 2021: 3965-3977

[27]Chen Zhiyang,Zhu Yousong,Zhao Chaoyang,et al. DPT: deformable patch-based transformer for visual recognition [C]// Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021: 2899-2907.

[28]Zhang Dong,Zhang Hanwang,Tang Jinhui,et al. Feature pyramid Transformer [C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 323-339.

[29]Liu Songtao,Huang Di,Wang Yunhong. Receptive field block net for accurate and fast object detection [C]// Proc of European Conference on Computer Vision. Berlin: Springer,2018: 404-419.

[30]Bao Hangbo,Li Dong,Wei Furu,et al. UniLMv2: pseudo-masked language models for unified language model pre-training [C]// Proc of International Conference on Machine Learning. 2020: 642-652.

[31]Hu Han,Gu Jiayuan,Zhang Zheng,et al. Relation networks for object detection [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 3588-3597.

[32]Raffel C,Shazeer N,Roberts A,et al. Exploring the limits of transfer learning with a unified text-to-text transformer [J]. Journal of Machine Learning Research,2020,21(140): 1-67.

[33]Ba J L,Kiros J R,Hinton G E. Layer normalization [EB/OL]. (2016-07-21) [2022-03-28]. https://arxiv. org/pdf/1607. 06450.

[34]Deng Jia,Dong Wei,Socher R,et al. ImageNet: a large-scale hierarchical image database [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2009: 248-255.

[35]Graham B,El-Nouby A,Touvron H,et al. LeViT: a vision transformer in ConvNet’s clothing for faster inference [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 12259-12269.

收稿日期:2022-03-28;修回日期:2022-05-18基金項目:湖北省技術創新專項(2019AEA169);湖北省科技重大專項(2020AAA001)

作者簡介:胡杰(1984-),男(通信作者),湖南永州人,副教授,博導,博士,主要研究方向為智能網聯汽車、車聯網與大數據(auto_hj@163.com);昌敏杰(1999-),男,湖北荊州人,碩士研究生,主要研究方向為機器視覺;熊宗權(1995-),男,江蘇南京人,碩士研究生,主要研究方向為車道線檢測;徐博遠(1998-),男,湖北仙桃人,碩士研究生,主要研究方向為目標檢測;謝禮浩(1996-),男,江蘇徐州人,碩士研究生,主要研究方向為目標檢測;郭迪(1996-),男,湖南常德人,碩士研究生,主要研究方向為目標檢測.

主站蜘蛛池模板: 欧美一区日韩一区中文字幕页| 国产女人综合久久精品视| 18禁黄无遮挡网站| 亚洲最猛黑人xxxx黑人猛交| 美臀人妻中出中文字幕在线| 免费可以看的无遮挡av无码 | 内射人妻无码色AV天堂| 久久这里只精品热免费99| 人妻精品全国免费视频| 麻豆精品视频在线原创| 精品综合久久久久久97| 色婷婷综合激情视频免费看| 97se亚洲综合在线天天| 中文天堂在线视频| 色妞www精品视频一级下载| 欧美精品成人| 毛片视频网| 久久成人18免费| 视频在线观看一区二区| 亚洲男人天堂网址| a欧美在线| 手机成人午夜在线视频| 亚洲视频二| 国产成人精品午夜视频'| 中日韩欧亚无码视频| 国产福利一区二区在线观看| 国产自视频| 国产日韩AV高潮在线| 无码国产伊人| 亚洲aaa视频| 国模极品一区二区三区| 日韩福利在线观看| 国产精品夜夜嗨视频免费视频| a级毛片在线免费观看| 无码高潮喷水专区久久| 久久视精品| 在线播放国产一区| 日韩精品少妇无码受不了| 99热这里只有免费国产精品| 亚洲欧美自拍中文| 日本www色视频| 午夜福利在线观看入口| 国产91小视频| 五月婷婷伊人网| 精品久久综合1区2区3区激情| 国产人碰人摸人爱免费视频| 91口爆吞精国产对白第三集 | 久久a毛片| 亚洲最猛黑人xxxx黑人猛交| 久久天天躁夜夜躁狠狠| 国产一线在线| 无码国产偷倩在线播放老年人| 亚洲综合色婷婷中文字幕| 日本高清免费一本在线观看 | 成年人免费国产视频| 国产成人精品免费av| 黄色网站在线观看无码| 亚洲日韩Av中文字幕无码| 国产v欧美v日韩v综合精品| 美女免费黄网站| 999精品在线视频| 麻豆国产在线不卡一区二区| 女人毛片a级大学毛片免费| 日本妇乱子伦视频| 久久这里只有精品66| 99中文字幕亚洲一区二区| 欧美无专区| 99国产精品国产高清一区二区| 激情無極限的亚洲一区免费| 精品视频在线观看你懂的一区| 色噜噜狠狠色综合网图区| av一区二区三区在线观看 | 亚洲国产理论片在线播放| 亚洲一级毛片免费看| 国产亚洲现在一区二区中文| 不卡色老大久久综合网| 茄子视频毛片免费观看| 人妻无码AⅤ中文字| 日日摸夜夜爽无码| 亚洲精品不卡午夜精品| 日本一区二区不卡视频| 欧美高清国产|