999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer的多維度圖像應用

2023-12-29 00:00:00高政霞
科技創新與應用 2023年10期

摘" 要:Transformer自提出以來便熱度不降,特別是在自然語言處理領域熱度不減。該文首先回顧Transformer的發展歷程,分析Transformer在自然語言處理領域的特點和優缺點。總結基于計算機視覺領域應用Transformer模型的技術瓶頸,特別是基于Transformer的多維度圖像分類的模型應用C-Tran模型,該文著重于Transformer對計算機視覺領域的革新和模型應用,在現有研究基礎上分析多標簽多維度圖像應用的模型及模型效果,最后提出多維度視覺圖像的具體應用情況。

關鍵詞:Transformer;多標簽;多維度圖像分類;C-Tran;應用

中圖分類號:TP39" " "文獻標志碼:A" " " " " 文章編號:2095-2945(2023)10-0005-04

Abstract: Transformer has been popular since it was proposed, especially in the field of natural language processing. Firstly, this paper reviews the development of Transformer, analyzes the characteristics, advantages and disadvantages of Transformer in the field of natural language processing, and summarizes the technical bottleneck of the application of Transformer model in the field of computer vision, especially the application of C-Tran model in the model of multi-dimensional image classification based on Transformer. Then, this paper focuses on the innovation and model application of Transformer in the field of computer vision, based on the existing research, the application model and model effect of multi-label multidimensional image are analyzed. Finally, the specific application of multidimensional visual image is proposed.

Keywords: Transformer; multi-tag; multi-dimensional image classification; C-Tran; application

早在2014年,Mnih等[1]在計算機視覺圖像分類中加入了Attention機制,論文中主要采用RNN(循環神經網絡)模型加入Attention機制。實驗結果表明,該方法使得計算機視覺圖像的分類效果明顯提高,隨后Attention機制迅速流行,在各大研究領域備受青睞。同年,Bahdanau等[2]考慮將Attention機制應用于自然語言處理(NLP)領域進行機器翻譯,而采用Seq2Seq+Attention的模型使得翻譯效果有效提升。Transformer的首次出現是在2017年Google團隊Vaswani等[3]發表的論文《Attention Is All You Need》中,Transformer作為一種基于自注意力機制(self-Attention)的深度學習模型,完全拋棄了Mnih等[1]的RNN模型和CNN(卷積神經網絡)模型結構的轉換模型,沒有序列形式,僅采用Attention機制、位置形式來表示文本數據,進行機器翻譯任務,最終模型訓練能力和優化效果顯著提升。在如今NLP領域,幾乎每一項任務中都能看見Transformer 預訓練語言模型的身影。

Transformer模型自提出后取得了許多先進成果,特別是在NeurlPS2020發布的預訓練語言模型GPT-3[4]中作為“最佳論文”,也是Transformer模型的一大突破。在通用人工智能技術實現上,Transformer模型提供了可行性。在線語音識別任務更具獨特性,輸入數據長度常在1 000幀以上,而Transformer模型核心就是采用self-Attention(自相關)機制,跟長短時記憶神經網絡(LSTM)模型的逐幀遞推機制有區別。Transformer模型在NLP、計算機視覺(CV)和語音識別等諸多AI領域都有突破,近年也在學術界和行業研究人員中大放異彩,目前變種如X-former分類法等有很多。模型也可以做很多既有趣又有意義的事情,比如翻譯、文本分類、寫小說、寫歌和寫詩等。

1" Transformer模型

Transformer模型的結構包含了Encoder(編碼)和Decoder(解碼)2個部分,本身作為一個面向Sequence to Sequence(Seq2Seq)的任務模型,去除了CNN/RNN固有模式,在預測結果時模型只用Attention機制放在不同特征中,采用位置形式表示文本數據。

1.1" Seq2Seq模型

Seq2Seq模型方法采用序列生成序列方式,在Encoder端對原始文本數據進行編碼,而在Decode端主要對生成文本進行預測。例如中文翻譯英文的任務中,中文字符一定的情況下,翻譯后的英文語句長度有可能比中文短,也有可能會比中文長,所以模型的輸出長度存在不確定因素。

Seq2Seq模型包括Encoder和Decoder 2個部分。Encoder的過程是編碼,負責將模型的文本輸入序列壓縮成指定長度向量(序列的語義)(圖1),輸入序列的最后一個隱含狀態直接作為語義向量C,當然還可以對C進行變換或者將輸入序列的所有隱含狀態做變換得到最終的語義向量,語義向量只能作為初始化參數參與模型運算,而語義無關Seq2Seq。Decoder的過程則是根據Encoder的過程得到的語義向量生成指定序列,也就是解碼的過程(圖2)。值得一提的是,連接Encoder和Decoder 2個部分的中間語義向量有時候可以認為是Seq2Seq模型的第三個部分,具有一定的傳遞作用,但有區別。

1.2" Transformer中的Encoder部分

Encoder部分主要由N=6個完全相同層堆疊組成,每層都有2個SubLayer子層,一個是multi-head self-Attention(多頭自注意力機制)層,另一個是位置完全連接的feed-forward network(前饋網絡)層,每個子層間都采用了一個殘差連接,還有層標準化。對于每一個SubLayer子層的輸出用公式(1)來表示

Output=LayerNorm(x+(SubLayer(x))),(1)

式中:SubLayer(x)是子層自身實現的。

1.2.1" multi-head self-Attention層。

多頭自注意力機制(multi-head self-Attention)主要通過h個不同線性變換對Q、K和V投影,并進行計算,最后將不同的Attention拼接起來,如式(2)所示,這樣做的目的可以很大程度上提高模型計算效率。

MultiHead(Q,K,V)=Concat(head1,…,headh)Wo,

where headi=Attention(QW,KW,VW)。(2)

此工作中,以8個頭為例,采用h=8個并行Attention層或heads,因為每個head的維度減少,所以總的計算成本與single-head Attention的計算成本相似,每一頭計算出一個結果,將結果拼接與w0相乘之后得出Z。self-Attention層不僅關注當前節點的單詞,更關注上下文語義,這樣做可以提升Attention的性能。

在多頭自注意力機制中有一個細節內部Attention,具體情況見表1。

從表中可以看出Encoder-Encoder和 Decoder- Decoder時,Q、K和V三者相等,而且都是來自于同一端的輸入。而Encoder-Decoder階段,K和V相等來自于Encoder端輸入,僅有Q來自于Decoder端的輸入。

1.2.2" 全連接的feed-forward network

本層的前饋網絡其實是一個相對簡單的模塊,主要工作是取出平均注意力值,然后將該值轉換為下一層易處理的形式。Transformer模型的一個主要特征就是發生在feed-forward network層,即每個單詞都可通過其注意力值獨立通過神經網絡,同時傳遞輸入句子序列中的所有單詞,并行處理輸出。

1.3" Transformer中的Decoder部分

Decoder部分首先是一個類似的詞嵌入和預處理步驟,預處理步驟添加上下文。該部分也是由N=6個完全相同的層堆疊組成,但是每層包含3個子層,分別是multi-head self-Attention 層、簡單的位置完全連接的feed-forward network層和解碼器堆棧的輸出執行multi-head Attention 層。同樣也是對于每個子層采用一個殘差連接,還有層標準化。

2" Transformer多維度圖像應用

在現有研究基礎上,參考Lanchantin等[5]的工作成果(圖3),本文使用Transformer多維度多標簽通用框架進行圖像分類。首先,對image輸入的圖像進行CNN特征提取,模型中包含了一個經過訓練的Transformer Encoder,用于在給定一組掩碼label輸入的情況下預測一組目標標簽和來自CNN的視覺特征。該模型同樣在COCO和Visual Genome等相關數據集上進行模型訓練和模型預測。

考慮設計不同框架來捕捉圖像類別之間的潛在關系,以提高模型性能。該模型很好地將特征(feature)、標簽(label)及狀態(state)進行嵌入(embedding),同視覺特征一起輸入到Transformer Encoder(C-Tran)中,C-Tran就是一種用于多標簽圖像分類框架,這樣做的目的是將模型整個都拓展到部分標簽推理和額外標簽推理中。

2.1" 圖像特征嵌入及提取

給定圖像x 3個維度包含高度、寬度和通道,即x∈" H×W×3,特征提取器輸出張量Z∈" h×w×d,其中h、w和d分別就是輸出高度、寬度和通道。然后考慮每個向量zi∈" d從Z開始,i從1到P(其中P=h×w)范圍內,代表映射到原始圖像空間中maps的子區域,以及映射回原始圖像空間中子區域。每一個圖像,都檢索一組標簽嵌入表示可能標簽。

為了建立同一基礎上的公平比較,在每種設置中使用與之前最先進的技術相同的圖像大小和預訓練特征提取程序。對于數據集而言,使用ImageNet上預訓練的ResNet-101作為特征提取器(對于CUB,使用相同方法)。因為ResNet-101的輸出維度是2 048,所以將嵌入大小d設置為2 048。接下來,通過隨機水平翻轉,將圖像大小調整為640×640,并將其剪切為576×576。測試圖像是中心裁剪的。ResNet-101模型的輸出是一個18×18×d張量,因此總共有324個特征嵌入向量,zi∈" d。

2.2" 與Transformer編碼器的特征和標簽交互建模

為對圖像特征和嵌入之間的復雜度交互進行建模,使用基于轉換器模型,Transformer是一種有效機制,用于捕捉變量間豐富的依賴信息,Transformer Encoder因為其順序不變,容許學習所有特征和標簽間的任何類型依賴關系。當輸入到變壓器編碼器數據時,嵌入是通過“self-Attention”機制學習的,計算歸一化標量要注意系數,最后加權和計算結果,加入非線性Relu層。

(4)

式中:k表示平均一張image圖像所含正類標簽的數量,此值從訓練集中預估,即超參數。

模型通過在訓練過程中屏蔽隨機數的未知標簽,學習許多可能的已知標簽組合,這使得該模型可用于任何可能存在的任意數量已知數據的推理設置中的信息。往往訓練效果會更好,同行用自身所預測的概率分布監督。

提出的該方法模型是一種新的深度學習方法,稱為C-Tran,用于多種“多標簽圖像分類”應用。方法易于實現,不需要額外的資源,并且在推理過程中可以有效地利用任何數量的部分或額外標簽。C-Tran通過注意學習樣本自適應交互,并能發現標簽如何處理輸入圖像的不同部分。在常規多標簽分類設置和帶有部分觀察或額外標簽的多標簽分類中有效性顯著。C-Tran在所有情況下都優于所有最先進的方法。通過進一步提供定量和定性分析,表明C-Tran通過顯式建模目標標簽之間及圖像特征和目標標簽之間的相互作用來提高性能。在將來也計劃將C-Tran擴展到分層場景分類應用程序。還計劃探索更好的培訓策略設計,使C-Tran能夠推廣到一些培訓中從未見過的標簽中。

3" 結論

本文主要是探討Transformer在視覺領域的應用及研究,針對最前沿的多標簽多模態視覺應用模型展開探討,通過訓練標簽,不考慮額外資源,在現有的基礎上研究自注意學習樣本自適應交互,在常規多標簽分類設置和帶有部分觀察或額外標簽的多標簽分類有效性,提供定量和定性的簡單分析,最終在圖像分類等中進行簡單應用。

Transformer模型在計算機視覺方面受歡迎的主要原因是帶來的革命性效果提升,在圖像分類等任務中的優異性能使得其成為視覺建模的新主流。

參考文獻:

[1] MNIH V, HEESS N, GRAVES A, et al. Recurrent Models of Visual Attention[EB/OL].http://arxiv.org/abs/1406.6247.

[2] BAHDANAU D, CHO K, BENGIO Y. Neural Machine Translation by Jointly Learning to Align and Translate[C]// International Conference on Learning Representations,2014.

[3] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need[EB/OL].https://arxiv.org/abs/1706.03762.

[4] BROWN T B, MANN B, RYDER N, et al. Language Models are Few-Shot Learners[EB/OL].https://arxiv.org/abs/2005.14165.

[5] LANCHANTIN J, WANG T, ORDONEZ V, et al. General Multi-label Image Classification with Transformers[C]//Computer Vision and Pattern Recognition. IEEE,2021.

主站蜘蛛池模板: 久久99精品国产麻豆宅宅| 四虎永久在线| 992tv国产人成在线观看| 欧美国产在线看| 亚洲精品欧美日本中文字幕| 国产91全国探花系列在线播放| 777国产精品永久免费观看| 欧美成人免费一区在线播放| 国产成人一区免费观看| 免费观看无遮挡www的小视频| 欧美一区国产| 精品国产女同疯狂摩擦2| 高潮毛片免费观看| 二级毛片免费观看全程| 欧日韩在线不卡视频| a欧美在线| 五月婷婷精品| 亚洲 日韩 激情 无码 中出| 中文字幕日韩丝袜一区| 亚洲 日韩 激情 无码 中出| 国产精品丝袜在线| 亚洲二区视频| 高潮爽到爆的喷水女主播视频| 青草视频免费在线观看| 99视频在线观看免费| 久久伊人色| 麻豆精选在线| 最新国产成人剧情在线播放 | 美女被操91视频| 亚洲精品欧美日本中文字幕| 蜜桃臀无码内射一区二区三区 | 亚洲制服丝袜第一页| 色婷婷在线影院| 91久久夜色精品| 999国产精品永久免费视频精品久久| 亚国产欧美在线人成| 99久久人妻精品免费二区| 亚洲一区免费看| 午夜日本永久乱码免费播放片| 久久永久精品免费视频| 欧美伦理一区| 国产在线拍偷自揄观看视频网站| 国产精品亚洲专区一区| 国产日韩欧美在线播放| 国产国产人在线成免费视频狼人色| 久久国产高清视频| a欧美在线| 高潮爽到爆的喷水女主播视频| 久久国产成人精品国产成人亚洲| 欧美国产日韩另类| 久久久久久久97| 亚洲天堂成人| 波多野结衣久久高清免费| 免费一级毛片在线观看| 日韩在线欧美在线| 国产精品无码AV中文| 欧美在线网| 全色黄大色大片免费久久老太| 久久香蕉国产线看观看精品蕉| 狠狠色综合网| 大陆国产精品视频| 91毛片网| 91精品久久久久久无码人妻| 国产97视频在线| 日本成人精品视频| 欧美精品xx| 国产成a人片在线播放| 无码一区二区波多野结衣播放搜索 | 精品福利视频导航| 最近最新中文字幕在线第一页| 91蜜芽尤物福利在线观看| 国产91九色在线播放| 谁有在线观看日韩亚洲最新视频 | 在线亚洲小视频| 午夜激情婷婷| 亚洲V日韩V无码一区二区| 最新国产麻豆aⅴ精品无| 一区二区三区四区精品视频| 国产噜噜在线视频观看| 99在线国产| 亚洲三级网站| 美女无遮挡被啪啪到高潮免费|