999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Transformer研究概述

2022-03-12 18:19:38謝亦才
電腦知識與技術 2022年3期

謝亦才

摘要:Transformer在自然語言處理、計算機視覺和音頻處理等人工智能領域取得了巨大的成功。學術界和產業界研究者設計出了各種各樣的Transformer(又稱X-formers)。然而,關于這些Transformer的系統全面的文獻綜述仍然缺乏。在本綜述中,首先簡要介紹了vanilla Transformer,然后提出了一種新的X-formers分類法。接下來,從架構修改、預訓練和應用三個角度介紹了各種X-former。最后,概述了未來研究的一些潛在方向。

關鍵詞:Transformer;架構修改;預訓練

中圖分類號:TP311? ? 文獻標識碼:A

文章編號:1009-3044(2022)03-0084-03

開放科學(資源服務)標識碼(OSID):

1 引言

Transformer[1]是一種著名的深度學習模型,在許多領域都被廣泛采用,比如自然語言處理(NLP)、計算機視覺(CV)和語音處理等領域。Transformer最初是作為機器翻譯的序列到序列模型提出的。后來的工作表明,基于Transformer的預訓練模型(PTM)[2]可以在各種任務上實現最先進的性能。因此,Transformer成了NLP的首選體系結構,尤其是PTMs。除了與語言相關的應用程序外,Transformer在CV[3],音頻處理[4]甚至其他學科中也被采用,比如化學和生命科學。

在本概述中,目的是提供一個全面的回歸Transformer及其變種。雖然可以在上述觀點的基礎上組織X-former,但許多現有的X-former可以解決一個或多個問題。例如,稀疏注意變量不僅降低了計算復雜度,而且在輸入數據上引入了結構先驗,以緩解小數據集上的過擬合問題。因此,對現有的各種X-former進行分類并提出一種新的分類法,主要是根據它們改進vanilla Transformer的方法:架構修改、預培訓和應用進行分類。考慮到概述的對象可能來自不同的領域,主要關注一般的體系結構變體,并簡要討論了預訓練和應用的具體變體。

2 Transformer分類

到目前為止,基于vanilla Transformer已經從三個角度提出了各種各樣的變種模型:體系結構的變種、預訓練方法變種和應用變種。如圖1所示。

2.1 基于注意力機制改進的Transformer變種

自注意力機制在Transformer中起著重要的作用,但在實際應用中存在兩個挑戰。

(1)復雜度。自注意力的復雜度是O(T2·D)。 因此,注意力模塊在處理長序列時成為瓶頸。

(2)結構優先。自注意力不假定對輸入有任何結構性偏見。甚至順序信息也需要從訓練數據中學習。因此,Transformer(不帶預訓練)通常很容易對小或中等大小的數據過擬合。

Transformer中注意力機制的改進可以分為幾個方向:

(1)稀疏注意力。這項工作將稀疏性偏差引入注意力機制,從而降低了復雜性。

(2)線性化注意力。這一工作解開了注意力矩陣與核心特征地圖。然后以相反的順序計算注意力,以獲得線性復雜度。

(3)原型和內存壓縮。這類改進方法減少了查詢或鍵值對內存的數量,以減小注意矩陣的大小。

(4)低級別的自注意力。這項工作抓住了自注意力的低級屬性。

(5)先驗注意力。這項研究探索補充或取代標準注意與先前的注意分布。

(6)改進的多頭注意力。這項研究探索了不同的替代性多頭注意力機制。

2.2 Transformer架構層面的變種

2.2.1 Transformer輕量化

除了在模塊級別上為減輕計算開銷所做的努力之外,還有一些嘗試通過在更高級別上的修改使Transformer變得輕量級。類似于低階自注意力[5]將注意分解為局部約束注意和低階全局注意,Lite Transformer建議替換每個注意具有雙分支結構的Transformer中的模塊,其中一個分支使用注意力來捕獲遠程上下文,而另一個分支使用深度卷積和線性層來捕獲局部依賴性。該體系結構在模型尺寸和計算方面都是輕量級的,因此更適合于移動設備。

2.2.2 增強跨模塊的連接線

在vanilla Transformer中,每個塊將前一個塊的輸出作為輸入,并輸出一系列隱藏表示。人們可能會創建更多的路徑使輸入信號可以通過網絡傳輸。例如realeformer和Predictive Attention Transformer,它們將注意力分布從上一個塊重用到下一個塊引導當前塊的注意。這可以看作是在相鄰Transformer塊之間創建正向路徑。

2.2.3 自適應計算時間

像大多數神經模型一樣,Vanilla Transformer使用固定的(學習的)計算過程來處理每個輸入。一個有趣的和有希望的修改是以計算時間為輸入的一個條件,即在Transformer模型中引入自適應計算時間(ACT)。此類修改可能產生以下優點:

(1)特征細化。對于難以處理的數據,簡單的表示可能不足以應對當前的任務。更理想的做法是應用更多計算以獲得更深入和更精細的表示。

(2)提高效率。在處理簡單的示例時,一個淺層特征的表示可能就足夠了。在這種情況下,如果網絡能夠學習使用更少的計算時間來提取特征,這將是有益的。

2.2.4 分而治之策略的Transformer

序列長度上自我注意的二次方復雜性會顯著限制下游任務的性能。例如,語言建模通常需要長的上下文。處理長序列的另一種有效方法是使用分治策略,即將輸入序列分解為更細的序列可由Transformer或Transformer模塊有效處理的段。有兩類具有代表性的方法,遞歸Transformer和層次Transformer。

遞歸Transformer。在遞歸Transformer中,維護高速緩存以合并歷史信息。當處理一段文本時,網絡從緩存中讀取作為附加輸入。處理完成后,網絡通過簡單地復制隱藏狀態或使用更復雜的機制。

層次Transformer。層次Transformer將輸入按層次分解為粒度更細的元素。低級特征首先被饋送到Transformer編碼器,生成輸出表示,然后進行聚合(使用池或其他操作)以形成輸出高級特征,然后由高級Transformer處理。這類方法可以理解為一個分層抽象的過程。這種方法的優點有兩個:(1)層次化建模允許模型以有限的資源處理長輸入。(2)它有可能生成對任務有益的更豐富的表示。

2.2.5 探索替代架構

盡管Transformer結構取得了成功,但人們可能會質疑當前Transformer的結構是否是最佳的。有趣的是,一些研究已經探索了Transformer的替代架構。

Lu等人[6]將Transformer解釋為多粒子動力學系統中對流擴散方程的數值常微分方程(ODE)解算器,并設計Macaron Transformer,用FFN注意FFN變量替換每個Transformer塊。

Sandwich Transformer[7]探索了注意力模塊和FFN模塊的重組,使得注意力模塊主要位于下層,FFN模塊位于上層。這個誘導模型在不增加參數、內存或訓練時間的情況下,改善了多語言建模基準的復雜性。

掩碼注意網絡(MAN)在每個變壓器塊中的自我注意模塊上預先設置一個動態面具注意模塊。掩碼是以符號表示為條件的,令牌和頭部索引之間的相對距離。結果表明,所提出的動態掩碼注意能夠有效地對文本數據中的局部性進行建模,并且誘導模型在機器翻譯和抽象摘要中的性能始終優于基線模型。

值得注意的是,有一系列工作使用神經架構搜索(NAS)來搜索改變的本機轉換器架構。進化Transformer(ET)[8]采用基于進化的方法使用標準變壓器體系結構搜索初始總體。這個搜索到的模型在幾種語言上都比Transformer有一致的改進任務。作為另一項代表性工作,DARTSformer采用了可微體系結構搜索(DARTS)[9],結合多分裂可逆網絡和反向傳播重建算法,提高內存效率。由此產生的模型始終優于其他模型標準變壓器和比較有利的更大的ET模型,與一個顯著減少搜索成本。

3 預訓練Transformer

Transformer與卷積網絡和遞歸網絡的一個關鍵區別在于,卷積網絡和遞歸網絡固有地包含了局部性的感應偏差,Transformer不對數據的結構進行任何假設。一方面,這有效地使Transformer成為一個非常通用的體系結構,具有捕獲不同范圍的依賴關系的潛力。另一方面,當數據有限時,這使得變壓器容易過度擬合。緩解這一問題的一種方法是在模型中引入歸納偏置。

最近的研究表明,在大型語料庫上預先訓練的Transformer模型可以學習通用語言表示法,這對下游任務是有益的。使用各種自我監督目標對模型進行預訓練,例如,根據上下文預測掩蓋掉的詞。在預先訓練模型之后,可以簡單地在下游數據集上對其進行微調,而不是從頭開始訓練模型。為了說明在預培訓中使用變壓器的典型方法,確定了一些預培訓變壓器,并將其分類如下。

(1)僅限編碼器。工作線使用Transformer編碼器作為其主干架構。BERT是一種典型的PTM,通常用于自然語言理解任務。它采用掩膜語言建模(MLM)和下一句預測(NSP)作為自監督訓練目標。RoBERTa進一步調整了BERT的培訓,并刪除了NSP目標,因為發現它會影響下游任務的性能。

(2)僅限解碼器。有幾項研究側重于對Transformer解碼器進行語言建模的預訓練。例如,生成型預訓練Transformer(GPT)系列專用于縮放預訓練Transformer解碼器,并且最近已經說明,大規模PTM可以通過將任務和示例輸入到構建的模型提示來實現令人印象深刻的少樣本性能。

(3)編解碼器。還有一些PTM采用Transformer編碼器-解碼器作為總體架構。BART將BERT的去噪目標擴展到編碼器-解碼器架構。使用編碼器-解碼器體系結構的好處是,誘導模型具有執行自然語言理解和生成的能力。T5采用了類似的架構,是最早在下游任務中使用任務特定文本前綴的研究之一。

一些Transformer架構變體也可應用于基于Transformer的PTM。例如,BigBird是一種基于編碼器的PTM,它使用基于復合位置的稀疏注意來啟用長序列輸入。GPT-3在自我注意模塊中使用交替密集和局部帶狀稀疏注意。Switch Transformer是一種基于編碼器的PTM,它用專家混合代替FFN層層和可以增加參數計數,同時保持每個示例的觸發器恒定。

4 Transformer的應用

Transformer最初設計用于機器翻譯,但由于其靈活的體系結構,它已被廣泛應用于NLP以外的各個領域,包括CV、音頻處理和多模態應用。CV中包括圖像分類、目標檢測、圖像生成和視頻處理等。音頻處理包括語音識別、語音合成、語音增強和音樂合成。多模態應用包括視覺常識推理、視覺問答、看圖說話、音頻-文本翻譯和文本-圖像生成等。

5 結論和未來展望

在這項調查中,筆者對X-former進行了全面的概述,并提出了一種新的分類法。現有的大多數工作都從不同的角度對Transformer進行了改進,如效率、通用化和應用。這些改進包括加入結構優先、設計輕量級架構、預訓練等。

盡管X-Former已經證明了他們在各種任務中的能力,但挑戰仍然存在。除了當前關注的問題(例如效率和通用性),Transformer的進一步改進可能位于以下方向:理論分析、更好的全球交互機制、多模態數據的統一框架。由于Transformer在文本、圖像、視頻和音頻方面取得了巨大成功,我們有機會構建一個統一的框架更好地捕捉多模態數據之間的內在聯系。然而,模態內和模態間的注意力機制的設計仍有待改進。

參考文獻:

[1]Ashish Vaswani, Noam Shazeer, Niki Parmar, et al. Attention is All you Need[C]//In Proceedings of NeurIPS, 2017, 5998–6008.

[2] Qiu X P,Sun T X,Xu Y G,et al.Pre-trained models for natural language processing:a survey[J].Science China Technological Sciences,2020,63(10):1872-1897.

[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, et al. End-to-End Object Detection with Transformers[C]//In Proceedings of ECCV 2020 - 2020 Europeon Conference on Computer Vision, 213–229.

[4] Chen X,Wu Y,Wang Z H,et al.Developing real-time streaming transformer transducer for speech recognition on large-scale dataset[C]//ICASSP 2021 - 2021 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).June 6-11,2021,Toronto,ON,Canada.IEEE,2021:5904-5908.

[5] Guo Q P,Qiu X P,Xue X Y,et al.Low-rank and locality constrained self-attention for sequence modeling[J].ACM Transactions on Audio,Speech,and Language Processing,2019,27(12):2213-2222.

[6] Lu Y , Li Z , He D , et al. Understanding and Improving Transformer From a Multi-Particle Dynamic System Point of View. arXiv:1906.02762 [cs.LG].

[7] Press O,Smith N A,Levy O.Improving transformer models by reordering their sublayers[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Online.Stroudsburg,PA,USA:Association for Computational Linguistics,2020:2996–3005.

[8] David R. So, Quoc V. Le, and Chen Liang. The Evolved Transformer[C]// ICML 2019 - 2019 International Conference on Machine Learning, 5877–5886.

[9] Hanxiao Liu, Karen Simonyan, and Yiming Yang. DARTS: Differentiable Architecture Search[C]// ICLR 2019 - 2019 International Conference on Learning Representations, 1-13.

【通聯編輯:梁書】

主站蜘蛛池模板: 亚洲经典在线中文字幕| 最新精品国偷自产在线| 亚洲专区一区二区在线观看| 亚洲男人在线| 国产91精品久久| 亚洲国产精品日韩欧美一区| 狠狠色综合久久狠狠色综合| 91福利一区二区三区| 找国产毛片看| 国产第一页屁屁影院| 午夜啪啪福利| 久久91精品牛牛| 午夜天堂视频| 亚洲日韩AV无码一区二区三区人| 老色鬼久久亚洲AV综合| 四虎国产精品永久一区| 天天爽免费视频| 伊人查蕉在线观看国产精品| 国产超薄肉色丝袜网站| 麻豆精品国产自产在线| 中文字幕调教一区二区视频| 欧美日韩专区| 国产呦精品一区二区三区下载 | 国产激情无码一区二区三区免费| www亚洲天堂| 欧美三级不卡在线观看视频| 日韩黄色大片免费看| 国产亚卅精品无码| 中文国产成人精品久久一| 欧美日本在线播放| 国产成人乱无码视频| 香蕉色综合| 久久黄色免费电影| 红杏AV在线无码| 久久这里只有精品23| 黄色网页在线播放| 亚洲天堂视频在线播放| 国产中文一区二区苍井空| 精品欧美视频| 国产三级a| 欧美日韩91| 久操线在视频在线观看| 久久99蜜桃精品久久久久小说| 九九免费观看全部免费视频| 国产美女无遮挡免费视频| 色爽网免费视频| 青青操国产视频| 欧美激情网址| 欧美天堂在线| 国产日本欧美在线观看| 国产一区亚洲一区| 中文字幕亚洲第一| 国产无套粉嫩白浆| 久久美女精品| 日韩美一区二区| 米奇精品一区二区三区| 亚洲三级视频在线观看| 欧美成人精品在线| 91无码视频在线观看| 亚洲天堂网在线播放| 午夜欧美理论2019理论| 午夜小视频在线| 国产精品思思热在线| 青青久久91| 亚欧成人无码AV在线播放| 亚洲日产2021三区在线| 亚洲va在线∨a天堂va欧美va| 国产乱子伦无码精品小说| 欧美激情视频二区三区| 亚洲色图综合在线| 欧美国产视频| 一级香蕉视频在线观看| 色AV色 综合网站| 国产精品欧美在线观看| 一级成人a毛片免费播放| 久久综合五月| 中文字幕在线一区二区在线| 亚洲妓女综合网995久久| 亚洲另类色| 69视频国产| 国产特一级毛片| 久青草国产高清在线视频|