基于Transformer的多維度圖像應用

2023-12-29 00:00:00高政霞

科技創新與應用 2023年10期

摘" 要：Transformer自提出以來便熱度不降，特別是在自然語言處理領域熱度不減。該文首先回顧Transformer的發展歷程，分析Transformer在自然語言處理領域的特點和優缺點。總結基于計算機視覺領域應用Transformer模型的技術瓶頸，特別是基于Transformer的多維度圖像分類的模型應用C-Tran模型，該文著重于Transformer對計算機視覺領域的革新和模型應用，在現有研究基礎上分析多標簽多維度圖像應用的模型及模型效果，最后提出多維度視覺圖像的具體應用情況。

關鍵詞：Transformer；多標簽；多維度圖像分類；C-Tran；應用

中圖分類號：TP39" " "文獻標志碼：A" " " " " 文章編號：2095-2945（2023）10-0005-04

Abstract： Transformer has been popular since it was proposed， especially in the field of natural language processing. Firstly， this paper reviews the development of Transformer， analyzes the characteristics， advantages and disadvantages of Transformer in the field of natural language processing， and summarizes the technical bottleneck of the application of Transformer model in the field of computer vision， especially the application of C-Tran model in the model of multi-dimensional image classification based on Transformer. Then， this paper focuses on the innovation and model application of Transformer in the field of computer vision， based on the existing research， the application model and model effect of multi-label multidimensional image are analyzed. Finally， the specific application of multidimensional visual image is proposed.

Keywords： Transformer; multi-tag; multi-dimensional image classification; C-Tran; application

早在2014年，Mnih等[1]在計算機視覺圖像分類中加入了Attention機制，論文中主要采用RNN（循環神經網絡）模型加入Attention機制。實驗結果表明，該方法使得計算機視覺圖像的分類效果明顯提高，隨后Attention機制迅速流行，在各大研究領域備受青睞。同年，Bahdanau等[2]考慮將Attention機制應用于自然語言處理（NLP）領域進行機器翻譯，而采用Seq2Seq+Attention的模型使得翻譯效果有效提升。Transformer的首次出現是在2017年Google團隊Vaswani等[3]發表的論文《Attention Is All You Need》中，Transformer作為一種基于自注意力機制（self-Attention）的深度學習模型，完全拋棄了Mnih等[1]的RNN模型和CNN（卷積神經網絡）模型結構的轉換模型，沒有序列形式，僅采用Attention機制、位置形式來表示文本數據，進行機器翻譯任務，最終模型訓練能力和優化效果顯著提升。在如今NLP領域，幾乎每一項任務中都能看見Transformer 預訓練語言模型的身影。

Transformer模型自提出后取得了許多先進成果，特別是在NeurlPS2020發布的預訓練語言模型GPT-3[4]中作為“最佳論文”，也是Transformer模型的一大突破。在通用人工智能技術實現上，Transformer模型提供了可行性。在線語音識別任務更具獨特性，輸入數據長度常在1 000幀以上，而Transformer模型核心就是采用self-Attention（自相關）機制，跟長短時記憶神經網絡（LSTM）模型的逐幀遞推機制有區別。Transformer模型在NLP、計算機視覺（CV）和語音識別等諸多AI領域都有突破，近年也在學術界和行業研究人員中大放異彩，目前變種如X-former分類法等有很多。模型也可以做很多既有趣又有意義的事情，比如翻譯、文本分類、寫小說、寫歌和寫詩等。

1" Transformer模型

Transformer模型的結構包含了Encoder（編碼）和Decoder（解碼）2個部分，本身作為一個面向Sequence to Sequence（Seq2Seq）的任務模型，去除了CNN/RNN固有模式，在預測結果時模型只用Attention機制放在不同特征中，采用位置形式表示文本數據。

1.1" Seq2Seq模型

Seq2Seq模型方法采用序列生成序列方式，在Encoder端對原始文本數據進行編碼，而在Decode端主要對生成文本進行預測。例如中文翻譯英文的任務中，中文字符一定的情況下，翻譯后的英文語句長度有可能比中文短，也有可能會比中文長，所以模型的輸出長度存在不確定因素。

Seq2Seq模型包括Encoder和Decoder 2個部分。Encoder的過程是編碼，負責將模型的文本輸入序列壓縮成指定長度向量（序列的語義）（圖1），輸入序列的最后一個隱含狀態直接作為語義向量C，當然還可以對C進行變換或者將輸入序列的所有隱含狀態做變換得到最終的語義向量，語義向量只能作為初始化參數參與模型運算，而語義無關Seq2Seq。Decoder的過程則是根據Encoder的過程得到的語義向量生成指定序列，也就是解碼的過程（圖2）。值得一提的是，連接Encoder和Decoder 2個部分的中間語義向量有時候可以認為是Seq2Seq模型的第三個部分，具有一定的傳遞作用，但有區別。

1.2" Transformer中的Encoder部分

Encoder部分主要由N=6個完全相同層堆疊組成，每層都有2個SubLayer子層，一個是multi-head self-Attention（多頭自注意力機制）層，另一個是位置完全連接的feed-forward network（前饋網絡）層，每個子層間都采用了一個殘差連接，還有層標準化。對于每一個SubLayer子層的輸出用公式（1）來表示

Output=LayerNorm（x+（SubLayer（x））），（1）

式中：SubLayer（x）是子層自身實現的。

1.2.1" multi-head self-Attention層。

多頭自注意力機制（multi-head self-Attention）主要通過h個不同線性變換對Q、K和V投影，并進行計算，最后將不同的Attention拼接起來，如式（2）所示，這樣做的目的可以很大程度上提高模型計算效率。

MultiHead（Q，K，V）=Concat（head1，…，headh）Wo，

where headi=Attention（QW，KW，VW）。（2）

此工作中，以8個頭為例，采用h=8個并行Attention層或heads，因為每個head的維度減少，所以總的計算成本與single-head Attention的計算成本相似，每一頭計算出一個結果，將結果拼接與w0相乘之后得出Z。self-Attention層不僅關注當前節點的單詞，更關注上下文語義，這樣做可以提升Attention的性能。

在多頭自注意力機制中有一個細節內部Attention，具體情況見表1。

從表中可以看出Encoder-Encoder和 Decoder- Decoder時，Q、K和V三者相等，而且都是來自于同一端的輸入。而Encoder-Decoder階段，K和V相等來自于Encoder端輸入，僅有Q來自于Decoder端的輸入。

1.2.2" 全連接的feed-forward network

本層的前饋網絡其實是一個相對簡單的模塊，主要工作是取出平均注意力值，然后將該值轉換為下一層易處理的形式。Transformer模型的一個主要特征就是發生在feed-forward network層，即每個單詞都可通過其注意力值獨立通過神經網絡，同時傳遞輸入句子序列中的所有單詞，并行處理輸出。

1.3" Transformer中的Decoder部分

Decoder部分首先是一個類似的詞嵌入和預處理步驟，預處理步驟添加上下文。該部分也是由N=6個完全相同的層堆疊組成，但是每層包含3個子層，分別是multi-head self-Attention 層、簡單的位置完全連接的feed-forward network層和解碼器堆棧的輸出執行multi-head Attention 層。同樣也是對于每個子層采用一個殘差連接，還有層標準化。

2" Transformer多維度圖像應用

在現有研究基礎上，參考Lanchantin等[5]的工作成果（圖3），本文使用Transformer多維度多標簽通用框架進行圖像分類。首先，對image輸入的圖像進行CNN特征提取，模型中包含了一個經過訓練的Transformer Encoder，用于在給定一組掩碼label輸入的情況下預測一組目標標簽和來自CNN的視覺特征。該模型同樣在COCO和Visual Genome等相關數據集上進行模型訓練和模型預測。

考慮設計不同框架來捕捉圖像類別之間的潛在關系，以提高模型性能。該模型很好地將特征（feature）、標簽（label）及狀態（state）進行嵌入（embedding），同視覺特征一起輸入到Transformer Encoder（C-Tran）中，C-Tran就是一種用于多標簽圖像分類框架，這樣做的目的是將模型整個都拓展到部分標簽推理和額外標簽推理中。

2.1" 圖像特征嵌入及提取

給定圖像x 3個維度包含高度、寬度和通道，即x∈" H×W×3，特征提取器輸出張量Z∈" h×w×d，其中h、w和d分別就是輸出高度、寬度和通道。然后考慮每個向量zi∈" d從Z開始，i從1到P（其中P=h×w）范圍內，代表映射到原始圖像空間中maps的子區域，以及映射回原始圖像空間中子區域。每一個圖像，都檢索一組標簽嵌入表示可能標簽。

為了建立同一基礎上的公平比較，在每種設置中使用與之前最先進的技術相同的圖像大小和預訓練特征提取程序。對于數據集而言，使用ImageNet上預訓練的ResNet-101作為特征提取器（對于CUB，使用相同方法）。因為ResNet-101的輸出維度是2 048，所以將嵌入大小d設置為2 048。接下來，通過隨機水平翻轉，將圖像大小調整為640×640，并將其剪切為576×576。測試圖像是中心裁剪的。ResNet-101模型的輸出是一個18×18×d張量，因此總共有324個特征嵌入向量，zi∈" d。

2.2" 與Transformer編碼器的特征和標簽交互建模

為對圖像特征和嵌入之間的復雜度交互進行建模，使用基于轉換器模型，Transformer是一種有效機制，用于捕捉變量間豐富的依賴信息，Transformer Encoder因為其順序不變，容許學習所有特征和標簽間的任何類型依賴關系。當輸入到變壓器編碼器數據時，嵌入是通過“self-Attention”機制學習的，計算歸一化標量要注意系數，最后加權和計算結果，加入非線性Relu層。

（4）

式中：k表示平均一張image圖像所含正類標簽的數量，此值從訓練集中預估，即超參數。

模型通過在訓練過程中屏蔽隨機數的未知標簽，學習許多可能的已知標簽組合，這使得該模型可用于任何可能存在的任意數量已知數據的推理設置中的信息。往往訓練效果會更好，同行用自身所預測的概率分布監督。

提出的該方法模型是一種新的深度學習方法，稱為C-Tran，用于多種“多標簽圖像分類”應用。方法易于實現，不需要額外的資源，并且在推理過程中可以有效地利用任何數量的部分或額外標簽。C-Tran通過注意學習樣本自適應交互，并能發現標簽如何處理輸入圖像的不同部分。在常規多標簽分類設置和帶有部分觀察或額外標簽的多標簽分類中有效性顯著。C-Tran在所有情況下都優于所有最先進的方法。通過進一步提供定量和定性分析，表明C-Tran通過顯式建模目標標簽之間及圖像特征和目標標簽之間的相互作用來提高性能。在將來也計劃將C-Tran擴展到分層場景分類應用程序。還計劃探索更好的培訓策略設計，使C-Tran能夠推廣到一些培訓中從未見過的標簽中。

3" 結論

本文主要是探討Transformer在視覺領域的應用及研究，針對最前沿的多標簽多模態視覺應用模型展開探討，通過訓練標簽，不考慮額外資源，在現有的基礎上研究自注意學習樣本自適應交互，在常規多標簽分類設置和帶有部分觀察或額外標簽的多標簽分類有效性，提供定量和定性的簡單分析，最終在圖像分類等中進行簡單應用。

Transformer模型在計算機視覺方面受歡迎的主要原因是帶來的革命性效果提升，在圖像分類等任務中的優異性能使得其成為視覺建模的新主流。

參考文獻：

[1] MNIH V， HEESS N， GRAVES A， et al. Recurrent Models of Visual Attention[EB/OL].http：//arxiv.org/abs/1406.6247.

[2] BAHDANAU D， CHO K， BENGIO Y. Neural Machine Translation by Jointly Learning to Align and Translate[C]// International Conference on Learning Representations，2014.

[3] VASWANI A， SHAZEER N， PARMAR N， et al. Attention Is All You Need[EB/OL].https：//arxiv.org/abs/1706.03762.

[4] BROWN T B， MANN B， RYDER N， et al. Language Models are Few-Shot Learners[EB/OL].https：//arxiv.org/abs/2005.14165.

[5] LANCHANTIN J， WANG T， ORDONEZ V， et al. General Multi-label Image Classification with Transformers[C]//Computer Vision and Pattern Recognition. IEEE，2021.

科技創新與應用2023年10期

科技創新與應用的其它文章: 激光人工增雨技術研究; 水利工程鉆孔灌注樁施工工藝及技術特點; 數據可視化與數據挖掘在高壓管匯全生命周期管理中的應用探索; 鎖口懸掛式逆作豎井在頂管施工中的應用; 傾斜攝影三維建模技術在不動產測繪中的應用思考; 無人機傾斜攝影技術在城市實景三維建模中的應用