曾凡鋒,王 祺
(1.北方工業大學,北京 100144;2.北方工業大學 信息學院,北京 100144)
最近,Transformer已成功用于許多自然語言處理(Natural Language Processing,NLP)任務,還用于圖像分類的核心計算機視覺任務。自注意力模型是Transformer中的一個標準工具,能在長序列中學習豐富的關聯特征層次,構成全局表示,但忽略了局部特征細節。盡管取得了顯著的成功,卷積運算和自注意力仍然有其不足之處。為了解決卷積神經網絡(Convolutional Neural Network,CNN)存在建立長距離依賴關系的問題,一種簡單的方法是將CNN中最后一層卷積用自注意力層來取代,學習數據中關鍵信息,使得模型能夠更加準確地判斷。目前已經有一些基于注意力的圖像檢索和基于視覺Transformer的圖像檢索,該文是將Transformer中的自注意力模塊融合到卷積神經網絡,提高圖像檢索的精度。
該文提出一種卷積與自注意力相融合的網絡結構,將基于CNN的局部特征與自注意力相融合,提取圖像特征,以增強圖像檢索效果。考慮到CNN和自注意力之間的特征錯位,將利用1×1卷積對齊通道尺寸,利用向下、向上采樣策略對齊特征分辨率,利用Layer Norm和Batch Norm模塊對特征進行正則化,這種融合過程可以極大增強局部特征的全局能力和全局表示的局部細節,以提高檢索精度。
綜上所述,該文的貢獻主要有以下兩點:
(1)將自注意力模塊與卷積模塊相融合應用于圖像檢索任務中,使各個特征與相鄰的局部特征進行交互,以改善基于CNN的圖像檢索方法中存在的問題。
(2)在自注意力與卷積連接處,設置一個單元消除它們之間失調的問題,更好地將局部特征與全局表示進行耦合。在保證特征提取能力的情況下,盡量減少模型的計算量,增加模型的魯棒性。
基于內容的圖像檢索(Content Based Image Retrieval,CBIR)方法通常利用CNN提取圖像特征,進而計算特征之間的相似度。由于CNN可以利用大量訓練數據學習到特征,大多數基于CNN的圖像檢索方法利用最后一層卷積層輸出的特征圖生成圖像特征進行檢索。在深度學習時代,CNN可以接收不同領域的特征的分層集合,但是,大多數CNN[1-4]擅長提取局部特征,難以獲取全局線索。
為了解決這個問題,一種解決方案是通過引入更深層次的體系結構或者更多的池化操作。擴張卷積方法增加了采樣步長,而變形卷積學習采樣位置。SENet[5]和GENet[6]提出使用全局平均池化層聚合全局上下文,然后重新加權特征通道,而CBAM[7]分別使用全局最大池化和全局平均池化在空間和通道維度上細化特征。
外國語學院在第二課堂育人體系建設方面統一規劃,圍繞社會的需求和人才培養目標設計第二課堂的具體內容,積極營造英語學習氛圍,開展外語第二課堂活動(英語綜合技能大賽、英語角、英文歌曲大賽、英文話劇大賽、“校長杯”英語演講大賽等),引導學生參加各類校園文化活動和社會實踐,發揮第二課堂的育人功能,培養學生的專業實踐技能和創新精神,切實提高學生的語言實際應用能力和創新能力。
在這里,介紹一下Transformer的自注意力的一般公式,如圖2(a)所示。自注意力模塊輸入的張量為X∈RC×H×W,其中C是通道數量。對于X,自注意力模塊通過以下公式計算,得到相應的新特征:
另一種解決方案是自注意力模型,它在NLP中捕獲長距離特征方面顯示出巨大的優勢。自注意力增強網絡[8]將卷積特征映射與自我注意特征映射串聯起來,增強卷積運算以捕捉遠程交互。BoTNet網絡[9]是一種簡單且功能強大的backbone,該架構將自注意力納入了多種計算機視覺任務,包括圖像分類、目標檢測和實例分割。通過僅在ResNet的最后三個bottleneck blocks中用全局自注意力替換空間卷積,并且不進行其他任何更改,同時還減少了參數,從而使延遲最小化。Conformer網絡[10]做了兩個分支,分別是卷積分支和Transformer分支,在并行的同時還互相補充。
2)以風力為動力來源的純機械式提水設備,由于只進行一次能量轉換,在當前離網牧區具有很強的競爭力。而以風電、光電為動力來源的電動提水設備,因采用儲能設施,按每兩年更換一次鉛酸蓄電池計,使用后期的投入加大,若無財政補貼,牧民用戶負擔加重。由此相比較,風力提水設備的性價比較高。
盡管取得了進展,但向CNN引入全局線索仍然存在缺點。對于第一種解決方案,更大的感受野需要更密集的池化操作。對于第二種解決方案,如果卷積運算沒有與自注意力機制正確的融合,很難獲取更細節的局部特征。
將人類與自然、當下與未來都包含在自身之內的“天下”觀是傳統儒家天下思想的現代形態,這種新的天下觀將賦予了人類新的情懷和使命,要求我們超越狹隘的自我,超越當下,以一種悲憫的憂患意識和智慧的理性自覺構筑起防范技術風險的“圍墻”,以“所有存在的善好與共生”為目的,承擔起人類因自己的行為而可能產生的道德責任。
自注意力源于NLP是一種特殊的注意機制。由于它能有效地捕捉長距離依賴性和適應性,因此在計算機視覺中發揮著越來越重要的作用。各種深度自注意力網絡[11-14]在不同的視覺任務上取得了比主流CNN更好的性能,顯出基于自注意力模型的巨大潛力。Vaswani等人為機器學習翻譯引入了Transformer架構[15],它完全依賴于自注意力和多層感知機(Multilayer Perceptron,MLP),它為幾個NLP任務提供了最先進的性能[16-17]。在計算機視覺領域,已經有幾次嘗試將各種形式的注意力與卷積融合,例如與卷積結合[18]或替代卷積[19],其他方法在卷積主干頂部利用Transformer進行檢測[20]。
從Transformer的自注意力中得到啟發,在各種NLP任務中不斷取得令人印象深刻的表現,在視覺場景中自注意力也被廣泛應用。
Transformer在自然語言處理以及最近的圖像分類方面成果顯著。IRT[23]提出了一種基于視覺Transformer的圖像檢索方法,與基于卷積的方法相比,視覺Transformer具有顯著的改進,在特定的對象檢索方面具有競爭力,尤其是在短矢量表示和低分辨率圖像的情況下。Transhash[24]提出了一個純粹的基于Transformer的圖像檢索框架。為了學習細粒度特征,在Transformer的基礎上創新了雙流特征學習,以學習有區別的全局和局部特征,此外,采用動態構造相似矩陣的貝葉斯學習方案來學習緊湊的二進制哈希碼,整個框架以端到端的方式進行聯合訓練。
上文提及的基于視覺Transformer的圖像檢索方法已經獲得了一定的圖像檢索效果,但Transformer的復雜度較高,計算量較大。
第三,服務與品牌管理。在中小零售企業電子商務商業運營模式建立和運行過程中,要想維持企業和客戶之間的關系,就要突出企業的競爭優勢,并且企業要在設計實際運行體系的過程中充分考量服務結構,提高品牌的社會市場辨識度,從而提升客戶的忠誠度,促進企業利潤的全面優化。
該文將Transformer中的自注意力應用在圖像檢索方法上,通過訓練模型結構,使得模型能夠提取到更加有效的特征圖。在卷積神經網絡的卷積層之后添加自注意力模塊。當圖像輸入到模型時,首先經過卷積得到局部特征,再將特征輸入到自注意力模塊中,自注意力模塊再對其特征獲取全局信息,得到一個新的特征圖,最后將新特征圖展平輸入到全連接層中,再對該特征進行相似度計算即可得到最終的檢索結果。所采用的網絡結構如圖1所示。

圖1 網絡結構
Dosovitskiy等人[21]提出的視覺Transformer模型是基于Transformer方法在圖像分類任務上匹配甚至超越最先進卷積模型的第一個例子。之后,進一步改進是Swin Transformer[22],引入CNN中常用層次化構建方式構建層次化Transformer,設置了窗口內的自注意力,可以減少計算復雜度,但限制了窗口之間的交互。大量的將之前運用在CNN網絡結構上的思路引入Transformer結構中,這是現在Transformer工作的一個思路。
(3)完善保險業服務體系建設。堅持高標準保險機構布局,保險機構應加大網點建設力度,密切關注恩施州經濟社會發展需求和地方特色,將與旅游業緊密相關的土特產,如茶葉、藥材、魔芋等納入保險范圍,建立特色產品的價格保險,促進產業發展,將保險資金投入到債券投資計劃、股權投資計劃,為恩施州旅游休閑產業、基礎設施建設提供資金支持。

(a)常規的自注意力模型

(b)改進的自注意力模型圖2 自注意力模型
Q=WQX
“狗日的,不要命啊,都給老子滾回去。”夏國忠的吼聲未落,剛才慌忙飛走的飛機又折了回來,幾顆炸彈扔在陣地上,轟隆隆一陣爆炸,幾個還沒來得及躲進防空洞的戰士被炸得身首分離,鮮血染紅了泥土。
內部控制制度是企業經營活動的有效保證,內部控制活動作用于企業的所有職能之中,因此,也是內部控制制度奠定了企業內部審計工作的基礎性內容。企業內部制度與內部審計制度是相互依存的,實施內部控制制度可以更好地幫助企業實現風險管理措施,降低風險的存活性。內部控制制度是內部審計工作的直接接觸對象,可以通過對內部審計的監督檢查,進而促進內控制度的完善,把企業的風險減到最低。也就是說,內部控制的整個步驟都要收到內部審計工作的配合,不管是高層領導者還是監督管理人員,都要做到對企業的風險進行良好的評估,以便強化自身的內控責任。
(1)
attention=V·A+K
(2)
其中,·表示矩陣乘法運算,該乘法運算描述了特征的注意程度,再對局部關系矩陣R進行歸一化,并對每個通道維度進行Softmax操作,Softmax輸出與V向量相乘,以突出圖像中重要的特征向量。自注意力模塊的輸出計算為:
(3)
其中,Q、K、V是自注意力模型三個可學習的組件,WQ、WK、WV分別為三個全連接層的參數。將K、Q之間做矩陣乘法運算得到局部關系R:
說真的,一個品牌的成功,因素肯定是多方面的,從品質到堅持,從外部環境到歷史的機遇,從優秀的團隊到強大的執行力,從策略到戰略……如果作為一個商業案例來分析,沒有個幾十頁,根本無法稍微深入點講清楚。但有時候,一些細節和側面也可見一斑。
R=Q·K
(4)
V=WVX
(5)
特征提取是圖像檢索的重要環節,每一種圖片經過訓練的模型提取,再進行特征匹配,所以好的網絡結構使得模型更加完善。自卷積神經網絡出現后,其表現就很優秀,可作為提高檢索識別的模型。該文將改進的自注意力和卷積相融合,遷移學習其網絡結構,由于卷積運算在局部特征提取方面具有優勢,但在捕獲全局表示(例如遠距離)時仍存在困難,然而自注意力結構能在長序列中學習豐富的關聯特征層次,構成全局表示,但忽略了局部特征細節,于是將二者有效融合在一起,所以使用的模型在卷積神經網絡上做出了以下改進。一是替換第一個7×7、步長為2的卷積,改為3×3、步長為4的卷積。二是在Stage4將改進的自注意力替代空間卷積。三是在CNN與自注意力連接處,設置一個單元消除它們之間失調的一個問題,更好地將局部特征與全局表示進行耦合。CNN與自注意力的特征維度是不一致的。CNN特征圖的維數為C×H×W(C、H、W分別為通道、高度和寬度),而自注意力的維數為(K+1)×E,其中K、1和E分別表示圖像路徑的數量、類別標記和嵌入維度。當CNN特征映射到自注意力時,使用1×1卷積進行下采樣來完成尺寸對齊。當自注意力特征映射到CNN時,使用1×1卷積進行上采樣來完成尺寸對齊。同時,使用Layer Norm和Batch Norm模塊對特征進行正則化。自注意力模型與卷積相融合如圖3所示。利用自注意力模型去捕獲全局的依賴以及利用卷積去提取局部的細節信息,然后將二者結合起來,得到泛化性更強的圖像特征。在保證特征提取能力的情況下,盡量減少模型的計算量,避免過擬合問題,增加模型的魯棒性。
首先通過3×3的卷積得到特征K值,將其與Q值進行拼接到兩個連續的1×1卷積,生成注意力矩陣:
A=Q+K
(6)
注意力矩陣A是每個空間位置的局部注意矩陣,而不是孤立的鍵值對。接下來,將注意力矩陣A與V值進行聚合,計算出的注意力特征與特征K值拼接起來,作為自注意力模塊的最終輸出:
earthquake. LIU Guo ZHANG You-yi ZHANG Shan-shan et al.(1)
K=WKX
(7)
對自注意力模型的改進,輸入特征X通過三個不同的權重矩陣進行線性變換轉化為Q、K、V,Q與K之間不做點積運算,將兩者做拼接的操作,再通過兩個1×1卷積做歸一化處理,與values做相關性操作,從values庫中去取相關性最大的那些位置的值,得到的特征值再與K值做一個殘差操作,移除傳統自注意力模型的最后一個Softmax層,借鑒了殘差網絡的設計,輸入的特征K值與后者輸出的注意力矩陣相融合,獲得最終的特征值。這樣改進可以減少計算量,增加上下文信息的學習,增強局部特征之間的聯系,剔除冗余的信息,增強視覺表征能力。
該文提出一種自注意力模型與卷積相融合的網絡結構應用于圖像檢索。該網絡的特點是將自注意力機制替代卷積層的最后一層,能夠充分獲取圖像的特征表達。這種融合過程可以極大增強局部特征的全局能力和全局特征的局部細節,以提高檢索精度。
Transformer中傳統的自注意力模型很好地將不同空間位置的特征進行交互,這取決于輸入本身。其中成對的K、Q特征都是獨立學習的,而不需要探索其間的聯系。這嚴重限制了視覺表征學習中二維特征圖的自我注意學習能力。為了緩解這個問題,對自注意力模塊進行改進,如圖2(b)所示,將K、Q特征進行了拼接操作,其出發點是充分利用K、Q特征之間的信息,有效促進自我注意學習,增強輸出聚合特征圖的代表能力。

圖3 自注意力與卷積相融合
該文使用了在圖像檢索領域應用廣泛的公開數據集CUB-200-2011和CARS196進行模型訓練和評估。數據集的部分圖像如圖4所示。

(a)CUB-200-2011數據集

(b)CARS196數據集圖4 部分數據集的圖像
CUB-200-2011數據集一共有11 788張鳥類圖像,包含200種鳥類類別,將該數據集分為兩個不相交集,每個類有100個類別用于訓練和測試。CARS196數據集一共有16 185張汽車圖像,包含196類汽車類子類。兩個數據集的相關信息見表1。

表1 數據集的相關信息
所有實驗通過Pytorch框架實現。在卷積神經網絡的卷積層之后添加自注意力模塊,將其作為主干。在訓練階段,輸入圖像進行數據增強,包括隨機裁剪、混類增強、隨機水平翻轉,使用損失函數為常用的交叉熵損失函數,Adam方法用于對模型進行優化,學習率為0.001,batchsize為32,訓練周期為100,將輸入圖像均歸一化到224×224尺寸。在所有實驗中,將模型預訓練好的網絡參數加載到網絡中,提取圖像特征,計算相似度進行對比,得到圖像檢索結果。
為了驗證自注意力模型的效果,將文中網絡與ResNet50網絡在兩個數據集上進行對比。將每個輸入圖像裁剪為224×224,并且僅僅執行標準的數據擴充(隨機裁剪和水平翻轉),沒有額外的調整。兩者不同之處是在S4階段增加了自注意力模型與卷積融合,迭代次數100,學習率0.001,batchsize為32。訓練過程中驗證集的準確率如圖5所示。與ResNet50網絡相比,文中網絡在CARS196數據集和CUB-200-2011數據集上準確率都有所提高。然而,這種改進確實增加了計算量,將自注意力模型與卷積相融合的方式提取圖像特征,相比純卷積的模型準確率有所提高,為后面的檢索提供了更有效的圖像特征。

(a)CUB200-2011數據集

(b)CARS196數據集圖5 訓練過程中準確率變化
在圖6中可視化了最后一層的特征熱力圖。從熱力圖中可以看出,前期卷積提供了精細的局部特征,最后一層融合自注意力模型增強了長距離特征的依賴性,同時也保留了重要的詳細局部特征。背景特征被明顯抑制,注意區域更完整,這意味著學習特征表示更具有辨別能力。

圖6 特征熱力圖
在CUB-200-2011及CARS196數據集上將所提方法與目前表現較好的圖像檢索方法進行比較,根據Recall@K評價指標評估檢索性能。所提方法與其他方法在數據集上的精度對比見表2、表3。為了公平比較,所有方法用于檢索的圖像特征都是512維。在CUB-200-2011及CARS196數據集上,所提方法對K的所有值都有所提升。將自注意力模型和卷積相融合提取的特征對于檢索性能有所提升,因此,利用所提方法可以找出相似度比較高的圖像。
紅色文化是馬克思主義指導下的先進的精神文化。它形成于歷史進程中的革命斗爭時期,并在社會主義建設時期賦予新的內容而發展起來。它始終存在于民族文化和民族精神之中,成為共產黨人永恒的精神信仰,并已成為當代中國先進文化的重要內容。中國社會變革中存在的獨有的紅色文化,決定了紅色文化是馬克思主義大眾化和馬克思主義在中國傳播的重要載體。

表2 在CUB-200-2011數據集上的精度對比

表3 在CARS196數據集上的精度對比
對于CUB-200-2011數據集,在表2中可以看到,所提方法使用改進的自注意力和卷積相融合的主干網在所有K值下都取得了不錯的結果,在Recall@1相比ProxyNCA++方法提高了2.6百分點。對于CARS196數據集,在表3中可以看出,對K的所有值都有一定提高,從上述表中,證明所提方法可以應用到細粒度圖像檢索。細粒度圖像類別差別較小,需要提取不同區域的特征,主干網先通過卷積提取圖像的局部細節特征,再通過自注意力模型捕獲圖像的全局信息。
當前,消費者對于產品品質的要求、品牌的要求、審美的要求,都跟以往明顯不一樣。行業在這種情況下必須創新,要給消費者提供更好的產品、服務和體驗。
將所提方法與GoogleNet和ResNet50模型在不同特征維度下進行了對比。在CUB-200-2011數據集上的對比表明,所提方法在短矢量方面具有競爭力,降維到384,圖像檢索的效果有所提升,如表4所示。在降低特征維度檢索的精度相比卷積神經網絡取得不錯的結果,主干網最后將自注意力模型和卷積相融合提取的特征向量,對于相似度的計算起到了關鍵作用,從而提高了檢索精度。

表4 不同模型方法實驗對比結果
為了進一步驗證所提方法的有效性,在CARS196數據集上測試了所提方法與其它方法的MAP、召回率和精確度。實驗結果如圖7所示,對于CUB-200-2011數據集上的MAP、召回率和精確度,所提方法比Alexnet和ResNet模型都有明顯的提升,證明算法改進的有效性。所提方法將改進的自注意力模塊融合到卷積神經網絡,提高了圖像檢索的精度。

圖7 MAP、召回率和精確率實驗對比
將自注意力模型和卷積相融合應用在圖像檢索算法上,提出一種融合自注意力和卷積的圖像檢索方法,通過對自注意力和卷積相融合模型的訓練,使得網絡能夠學習到特征圖的不同區域,進一步學習到局部特征。通過在CUB-200-2011及CARS196數據集上的實驗結果表明,將自注意力模型和卷積相融合可以生成更加有效的圖像全局-局部特征。雖然該方法能有效對細粒度圖像進行檢索,但是檢索的精度和召回率有待進一步的提高。后續工作可以對自注意力模型進行進一步改進,設計更好的網絡模型,提高圖像檢索的準確率。