摘 要:為解決大規模參數調優問題,一系列高效微調方法誕生,但是在整合不同高效微調方法形成有效統一整體方面還存在挑戰。此外,統一調優思想在視覺任務中的應用仍然不足。因此,提出統一參數高效微調架構ETTA(efficient Transformer tuning architecture)。首先通過適配器與前綴調優工作原理的相似性,得出兩種方法整合形成統一調優架構的合理性;其次,在適配器選擇上,選用效果更好的并行適配器,同時對前綴調優引入可調標量得到縮放前綴調優變體;然后將兩種方法整合形成統一調優架構ETTA,把并行適配器作用于Transformer前饋神經網絡層并設置較大瓶頸維數,縮放前綴調優作用于多頭注意力層并設置較小可調前綴向量數;最后將ETTA用于6個圖像分類或目標檢測任務,并與三種調優策略進行性能比較。結果表明,采用統一參數高效調優架構后,只對少量參數進行微調就可以接近參數完全微調的效果同時性能良好。證明了ETTA用于計算機視覺任務的有效性及其性能表現。
關鍵詞:高效調優;統一架構;目標檢測;圖像分類
中圖分類號:TP399"" 文獻標志碼:A""" 文章編號:1001-3695(2025)03-028-0856-07
doi: 10.19734/j.issn.1001-3695.2024.07.0264
Unified efficient fine-tuning framework based on efficient tuning methods and its applications
Chen Shuailiang, Tian Yanshan, Dong Liming, Duan Xiaoying, Li Jiahui
(School of Mathematics amp; Computer Science, Ningxia Normal University, Guyuan Ningxia 756099, China)
Abstract:To address the issue of large-scale parameter tuning, a series of efficient fine-tuning methods have emerged. However, challenges remain in integrating these different methods into a unified and effective framework. Additionally, the application of unified tuning approach to vision tasks is still limited. Therefore, this paper proposed the unified efficient fine-tuning architecture, ETTA. Firstly, by examining the similarities between the working principles of adapters and prefix tuning, the method derived the rationale for integrating these two methods into a unified tuning architecture. Secondly, in the selection of adapters, it opted for parallel adapters due to their superior performance, while introducing scalable prefixes to create a variant of prefix tuning. Then it integrated these two methods to form the unified tuning architecture ETTA, applied parallel adapters to the Transformer feed-forward neural network layers with a large bottleneck dimension, and made scalable prefix tuning to the multi-head attention layers with a smaller number of tunable prefix vectors. Finally, this paper applied ETTA to six image classification or object detection tasks, and compared it in terms of performance with three tuning strategies. The results indicate that using the unified efficient tuning architecture, fine-tuning only a small number of parameters can achieve results close to full parameter fine-tuning while maintaining good performance." It demonstrates the effectiveness and performance of ETTA for computer vision tasks.
Key words:efficient tuning; unified architecture; object detection; image classification
0 引言
為了使大規模參數模型在不同下游任務的參數調優變得輕量化且高效化,參數高效微調思想應運而生。目前常見的參數高效微調方法有適配器[1]、前綴調優[2]和低秩適配器(low-rank adaptation,LoRA)[3]等,通過凍結預訓練模型的大部分參數,引入額外參數或者降低參數矩陣的維度來實現參數高效微調。雖然單獨應用這些調優方法時效果已經不錯,但它們的聯合使用潛力卻常被忽視。比如將多種調優方法結合使用可以發揮不同方法的優勢,文獻[4~6]對其進行了研究,結合不同調優方法的優點,在下游任務中提高模型表現的同時減少了模型存儲和計算開銷。但是其結合方式是把不同方法插入模型,使各種調優方法獨立運作,并沒有從原理的相似性上分析其嵌入位置和超參數設置的合理性,缺乏系統思維,難以形成更為高效的統一調優策略。原始前綴調優[2]可以適用于多種語言任務,但是其任務泛化能力有限,對于某些任務,前綴的表達能力不足。為了解決這一問題,文獻[2]提出使用可學習的連續表示作為前綴參數,允許模型在訓練時動態調整前綴的表達方式使模型能夠更好地適應復雜的任務。文獻[7]提出分層前綴,對模型每層輸入不同前綴,增強了模型對特定任務的適應性,但是都存在訓練難度大且顯著增加了計算開銷和參數量的問題,不利于參數高效微調。
常見的計算機視覺任務,如基于Transformer的圖像分類任務[8]和目標檢測任務[9]等,它們的共同特征是基于Transformer架構,因此完全可以運用自然語言處理領域的參數高效微調方法對視覺模型進行參數高效微調。最近,在計算機視覺領域這些方法逐漸被廣泛使用,如文獻[10,11]提出了一種視覺適配器結構,在密集預測下游任務中,提高了普通ViT(vision Transformer)模型訓練時的收斂速度。文獻[11]將LoRA與ViT結合,通過固定 ViT 模型權重并添加小型低秩插件,僅對少量參數進行高效微調,模型就能在不同成像模式和各種診斷任務上獲得具有競爭力的結果。然而文獻[10,11]只是單獨把適配器或LoRA與ViT整合在一起,尚未提出一種結合多種參數高效微調方法、適用于計算機視覺任務的統一調優架構。因此針對以上問題,本文提出一種應用于圖像分類和目標檢測的統一參數高效微調架構ETTA。
1 相關工作
從預訓練語言模型(pretrained language model,PLM)遷移學習是目前自然語言處理的流行范式[12],在許多任務表現出強大性能,使PLM適應下游任務最廣泛和最常用的方法是全量參數微調[13,14]。但隨著PLM規模的不斷擴大,全量微調從計算資源和訓練時間上花費的代價巨大[15]。為了緩解這一問題,Houlsby等人[1]提出了串行適配器,適配器的工作原理是通過插入到預訓練模型來引入額外參數,在模型訓練中對大部分預訓練模型參數保持凍結狀態,只對適配器額外參數進行微調達到高效微調的目的。但是其表示能力有限,無法捕捉復雜任務中的高階特征。Zhu等人[16]提出了并行適配器,其可以與主模型部分結構并行工作,不必再像串行適配器那樣串行連接。這提高了調優的效率,同時可以提升模型在復雜問題上的表現。除了適配器外,Li等人[2]提出前綴調優方法,其原理是在嵌入層引入可學習前綴向量,前綴向量直接參與每一層的自注意力計算,從而影響后續多層注意力機制的注意力權重。但其表達能力有限,不足以捕獲復雜的任務特征。因此Li等人[2]和Liu等人[7]分別提出了連續可學習前綴向量和多層級前綴向量,前者通過訓練動態調整,使模型能夠更好地適應復雜的任務。后者通過對每層設置不同的前綴向量增強了模型對特定任務的適應性。但是兩者都訓練難度大且增加了大量額外參數量。目前對于參數高效微調的研究已經從單一調優方法慢慢向多種聯合調優方法轉變。期望通過結合多種方法的優點來實現更強大的參數高效調優表現。Bafghi等人[4]提出了CPCTR方法將LoRA與適配器結合,通過低秩適配模塊來減少參數量,同時保持較高的性能。Chen等人[5]將前綴調優和適配器結合起來用于少樣本學習。Karimi等人[6]在預訓練大語言模型中結合前綴調優和適配器方法,通過這兩種方法的聯合使用,可以在不同的自然語言處理任務中提高模型的表現,同時保持較低的計算開銷。然而,這些方法的結合方式是將不同的調優方法直接插入模型中,各方法獨立運行,未從原理上的相似性出發,系統分析其嵌入位置及超參數設置的合理性。這種做法缺乏整體性思維,難以形成一種更為高效的統一調優策略。He等人[17]探究了并行適配器和前綴調優的統一調優策略,并在自然語言處理任務上取得了不錯的效果,但是其采用的原始前綴調優方法存在表達能力不足的問題,且沒有給出對于計算機視覺任務的調優策略。
2017年提出的Transformer模型[18],在機器翻譯任務上依靠自注意力機制取得了不錯的效果。但Transformer模型只是針對語言處理任務,在計算機視覺任務上Transformer還未被應用。為了讓自注意力機制用于計算機視覺任務,文獻[19]探究了自注意力機制在圖像識別任務中的應用。之后 ViT[20]模型提出,證明了Transformer架構不僅可以用于自然語言處理,也可以用于計算機視覺領域。因此使用自然語言處理領域中的參數高效微調方法來對計算機視覺下游任務進行參數微調,這一方法逐漸被廣泛使用。如文獻[10,11]分別把適配器和LoRA與ViT結合,提升了模型訓練時的收斂速度并僅對少量參數進行高效微調,模型就能在不同成像模式和各種診斷任務上獲得具有競爭力的結果。然而,目前在視覺任務中應用高效調優方法的做法,往往只是將多個高效調優器中的某一個或幾個簡單嵌入模型,缺乏對這些方法中關鍵設計元素的深入思考。這些共享的設計元素對調優的有效性至關重要,然而現有方法尚未形成統一的調優配置策略。
因此基于以上相關研究成果和針對上述工作問題,本文從適配器與前綴調優的工作原理出發,找到其相似性,為統一調優架構的提出提供理論支撐。同時基于前綴調優提出了縮放前綴調優變體,可同時滿足調優參數量少和計算機視覺任務適用性高的要求。最后將適配器和縮放前綴調優組成的統一調優配置策略與Transformer結合,提出一種應用于圖像分類和目標檢測的統一參數高效微調架構ETTA。
2 統一參數高效微調架構
2.1 背景知識框架
自注意力機制[18]原理是對一系列輸入的特征向量先通過查詢、鍵和值矩陣Wq、Wk、Wv,得到各自的查詢、鍵和值向量。通過查詢向量和鍵向量做點積運算確定注意力權重分數,經過歸一化后,再將得到的所有注意力權重分數分別與對應的值向量相乘相加得到最后的特征向量。注意力機制的公式為
2.4 統一參數高效微調架構的搭建與配置
適配器與前綴調優的原理相似性、整合合理性已在2.2節中詳細闡述。文獻[16]基于串行適配器提出一種新型并行適配器。相比串行適配器,并行適配器的參數調優效率更好,調優參數量更少。因此,本文選用并行適配器和2.3節提出的縮放前綴調優作為統一參數高效微調架構的基礎方法。
在統一架構的配置方面,縮放前綴調優作用于Transformer模型多頭注意力子層,并行適配器在Transformer模型中可以作用在兩處,即前饋神經網絡層、多頭注意力層。兩者在下游任務效果和調優參數量的表現上有所差異。
由于可調前綴向量數l和瓶頸維數b在參數調優時會影響調優參數量的規模,所以對可調前綴向量數l和瓶頸維數b需合理配置,在實現下游任務最優效果的條件下,使調優參數量最少。可調前綴向量數l和瓶頸維數b的分配策略如下:a)高可調前綴向量數,高瓶頸維數;b)高可調前綴向量數,低瓶頸維數;c)低可調前綴向量數,高瓶頸維數;d)低可調前綴向量數,低瓶頸維數。四種分配策略在調優參數量和下游任務效果方面有明顯差異。
在統一參數高效微調架構的配置中,關于并行適配器的作用地點選擇以及可調前綴向量數l和瓶頸維數b的分配策略,He等人[17]進行了探究并找到了最佳策略,但其策略只針對自然語言處理方面的下游任務,對于計算機視覺下游任務的配置策略尚不清楚。關于視覺下游任務,將在3.3節通過實驗找出最優配置策略。在此處先行給出結論,統一參數高效微調架構的配置策略為并行適配器作用于前饋神經網絡層并設置高瓶頸維數b,瓶頸維數為400左右。縮放前綴調優作用于多頭注意力子層并設置低可調前綴向量數l,可調前綴向量數為50左右。由于前饋神經網絡具有全局性特征,更能有效支持較大的參數量,所以對于作用于前饋神經網絡層的并行適配器,應設置較高的瓶頸維度以分配更多的調優參數量。多頭注意力子層具有局部性特征,所以應設置較低的可調前綴向量數。將整體調優參數預算令為U,則參數預算的分配方式為
U=max(U并行適配器)+min(U縮放前綴調優)
(9)
基于并行適配器、縮放前綴調優和以上搭建配置策略,本文提出統一參數高效調優架構ETTA,如圖3所示。
2.5 統一參數高效調優架構應用于計算機視覺
在本節中,ETTA用于圖像分類和目標檢測模型,使其僅需訓練少量參數便能達到完全參數微調的效果。
a)ET-ViT:把ETTA用于ViT,如圖4(a)所示,對ViT模型進行改造,讓并行適配器作用于Transformer encoder前饋神經網絡后,瓶頸維度b=400,縮放前綴調優作用于多頭注意力子層K、V鍵值處,可調前綴向量數量l=50。
b)ET-DETR:把ETTA用于DETR[21]進行模型改造,如圖4(b)所示,使DETR參數調優變得高效,同時其訓練時長大幅減少,更便于計算資源有限的情況下對DETR進行下游任務訓練。
c)ET-Deformable DETR:Deformable DETR是在DETR的基礎上采用可變形卷積得到的模型[22],因此可以使用和DETR一樣的ETTA架構,如圖4(b)所示。
以上三個模型涵蓋了圖像分類和目標檢測任務,本文對其模型進行改造,將ETTA架構嵌入到原模型中,使其對下游任務參數微調時,只用微調少量參數就可以達到很好的效果。具體效果將在3.4節中通過實驗證明。
3 實驗結果與分析
3.1 總體設置
a)數據集。本文針對不同下游任務選擇了相應數據集,對于圖像分類任務,實驗選用了CIFAR100[23]和ImageNet-1k[24]數據集,CIFAR100數據集有100個類,每個類有600張大小為32 × 32的彩色圖像,其中500張作為訓練集,100張作為測試集。ImageNet-1k是 ISLVRC2012的數據集,訓練集大約是1 281 167張圖片加標簽,驗證集是50 000張圖片加標簽,最終打分的測試集是100 000張圖片,一共1 000個類別。對于目標檢測任務,實驗選用COCO2017[25]數據集,COCO2017數據集包括訓練集、驗證集和測試集,其中訓練集包含118 287張圖片,驗證集包含5 000張圖片,測試集包含40 670張圖片,圖像標注信息存儲在JSON文件中,主要包括圖像的標注數據,如邊界框、關鍵點等信息。同時選用了亞馬遜的BigDetection數據集[26],其包含600個對象類別,擁有340萬張訓練圖像和3 600個對象注釋。
b)實驗配置。操作系統版本為Windows 11,CPU型號為Inter Core i7-12700,GPU型號為RTX3080 12 GB顯存,實驗環境為Anaconda,Python解釋器版本為3.11.9,PyTorch版本為2.3.0,CUDA版本為11.8。并行適配器瓶頸超參數設置為512,前綴向量數量超參數設置為30,參數高效微調訓練迭代次數統一為50輪,學習率為0.000 1,batch_size設置為16。
c)ETTA有效性驗證。
(a)相關設置:使用ViT-L/16預訓練模型,對CIFAR100和ImageNet-1k數據集,分別采用完全參數調優和ETTA調優進行參數微調。使用DETR-R101和Deformable DETR預訓練模型,對COCO2017和BigDetection數據集分別采用完全參數調優和ETTA調優進行參數微調。
(b)評價指標:在圖像分類任務中,ViT-L/16的評價指標是比較完全參數調優與ETTA調優的分類準確率和調優參數量。在目標檢測任務中,DETR-R101和Deformable DETR的評價指標是比較完全參數調優與ETTA調優的AP50(average precision)和調優參數量。
d)ETTA性能驗證。
(a)相關設置:將適配器、LoRA-適配器、前綴調優和ETTA統一調優架構分別用于ViT預訓練模型,在CIFAR100上進行圖像分類下游任務。再將上述調優策略分別用于DETR預訓練模型在COCO2017上進行目標識別下游任務。
(b)評價指標:對于圖像分類任務比較,四種調優策略在準確率最高情況下的參數量、分類準確率、占用顯存大小和預訓練模型微調耗時。對于目標檢測任務,比較在平均精度最高情況下的參數量、平均精度AP、占用顯存大小和預訓練模型微調耗時。
3.2 縮放前綴調優變體驗證
基于預訓練模型ViT-L/16在CIFAR100上的圖像分類任務,驗證本文提出的縮放前綴調優變體。實驗結果如圖5和表1所示。
由實驗可得,縮放前綴調優變體通過微調總參數量的1.1%,圖像分類準確率就高達83.2%,而前綴調優則需微調2%以上的參數量才能達到同樣的準確率。當縮放前綴調優微調7%參數量時,準確率可高達94.8%,而前綴調優則需微調10%以上的參數量才能達到相同效果。實驗結果表明,本文提出的縮放前綴調優變體相比前綴調優,在相同效果下所調參數量更少,調優效率更高。
3.3 統一參數高效微調架構最優配置策略
本文基于預訓練模型ViT-L/16和ImageNet-1k數據集,對以下四種策略進行實驗,探究四種策略在調優參數量和圖像分類準確率的不同:
a)并行適配器作用于前饋神經網絡層且瓶頸維數b為400,縮放前綴調優作用于多頭注意力層且可調前綴向量數l為50,由圖6紅色圓點表示(參見電子版)。
b)并行適配器作用于前饋神經網絡層且瓶頸維數b為400,前綴調優作用于多頭注意力層且可調前綴向量數l為50,由圖6綠色正方形表示。
c)并行適配器作用于多頭注意力層且瓶頸維數b為400,前綴調優作用于多頭注意力層且可調前綴向量數l為50,由圖6藍色三角形表示。
d)并行適配器作用于前饋神經網絡層且瓶頸維數b為50,前綴調優作用于多頭注意力層且可調前綴向量數l為400,由圖6黃色三角形表示。
通過圖6中綠色正方形和藍色三角形對比,得出在瓶頸維數b和可調前綴向量數l相同的條件下,并行適配器作用于前饋神經網絡層的準確率遠大于多頭注意力層。結果表明并行適配器更適合插入前饋神經網絡層后。通過綠色正方形和黃色三角形對比,可以發現在前綴調優作用于多頭注意力層和并行適配器作用于前饋神經網絡層的情況下,設置較大瓶頸維數b和較小可調前綴向量數l的準確率更高。
以上實驗結果證明,將并行適配器插入前饋神經網絡層之后,設置較大瓶頸維數b,同時把前綴調優設置較小可調前綴向量,這種配置策略可以最大限度地接近全參數調優的效果。但在調優參數量部分還可進一步優化。為了進一步將調優參數量減小,本文將2.3節提出的縮放前綴調優替換前綴調優,同時結合以上實驗證明的參數高效微調配置策略,提出ETTA。從圖6實驗結果表明,采用ETTA統一參數高效微調架構后,模型在圖像分類的準確率為87.5%,且調優參數量僅為全調優參數量的4.2%,比使用前綴調優的配置策略高出1.6百分點。在保障高準確率情況下,降低了調優參數量。
3.4 ETTA架構應用于計算機視覺任務
本節將ETTA應用于ViT、DETR-R101和Deformable DETR預訓練模型,在圖像分類和目標檢測等下游任務與全參數調優進行準確率和調參量的比較。
a)實驗1。ViT-L/16全參數調優模型和ET-ViT-L/16統一參數高效微調模型在CIFAR100和ImageNet-1k數據集進行圖像分類任務,比較兩種模型的調優參數量和分類準確率,結果如圖7所示。在CIFAR100中,如圖7(a)所示,全參數調優準確率為84.4%,但采用了ETTA架構的ET-ViT模型在調優參數量僅為全部參數量1%的情況下,準確率便可達到73.3%。在調優參數量為全部參數量5.6%時,準確率超過全參數調優準確率,為84.5%。在ImageNet-1k上也具有同樣結果,如圖7(b)所示,雖然沒有超過全參數調優87.76%的準確率,但所調參數量相比全參數調優大幅減少,僅為4%,且準確率為87.5%,非常接近全參數調優的準確率。
b)實驗2。DETR全參數調優模型和ET-DETR統一參數高效微調模型在COCO2017和BigDetection進行目標檢測任務,比較兩種模型的平均精度和調優參數量,結果如圖8所示。在COCO2017上,如圖8(a)所示,DETR全參數調優的平均精度為43.5%,使用ETTA高效微調架構后,在所調參數量僅為全參數量6.2%的情況下,平均精度高達42.9%。在BigDetection上,如圖8(b)所示,DETR全參數調優的平均精度為31.3%,采用統一架構后,僅對6.7%的參數進行調優,平均精度就可高達31.5%,超過全參數調優。
c)實驗3。Deformable-DETR全參數調優模型和ET-Deformable DETR統一參數高效微調模型,在COCO2017和BigDetection數據集進行目標檢測任務,比較兩種模型的平均精度和調優參數量,結果如圖9所示。在COCO2017上,如圖9(a)所示,Deformable-DETR全參數調優的平均精度為43.8%,ET-Deformable DETR高效微調的平均精度為43.5%,雖然平均精度不及全參數調優,但其所調參數量僅為全參數量的5.8%,大幅降低參數開銷。在BigDetection上,如圖9(b)所示,Deformable DETR全參數調優的平均精度為35.4%,通過統一架構高效微調后平均精度為35.8%,超過完全微調平均精度0.4百分點,并且所調參數僅為全參數量的4.7%。
實驗數據如表2所示。由表2可以得出:使用ETTA統一架構的預訓練模型,僅對少量參數進行微調就能達到接近甚至超越完全參數微調的效果。通過參數高效微調,不僅可以節約計算資源提高調優效率,而且針對不同下游任務模型效果也非常不錯,同時ETTA架構具有非常好的可移植性,可用于不同Transformer預訓練模型。
3.5 ETTA架構性能對比
為了驗證ETTA統一調優架構的性能,本節將ETTA與其他三種先進高效調優方法進行對比。將它們分別用于預訓練模型ViT-L/16和DETR-R101中,在CIFAR100和COCO2017中進行圖像分類和目標檢測下游任務,最后比較其參數量、準確率/平均精度AP、占用顯存大小和預訓練模型微調耗時。
a)實驗1。四種參數調優方法用于ViT-L/16預訓練模型,在CIFAR100中進行分類下游任務,實驗結果如圖10所示。可以發現,ETTA在參數量為5.6%時,下游任務準確率達到最高84.5%,適配器調優在參數量為5.2%時準確率最高為77.4%,LoRA與適配器聯合調優在參數量為6.1%時準確率最高為81.3%,前綴調優在參數量為4.7%時準確率最高為75.4%。圖10(b)(c)展示了四種調優方法在最高準確率下的顯存占用情況和微調耗時,結果表明,ETTA因為調優參數量更多的緣故,雖然比前綴調優和適配器調優的顯存占用多,但是調優效率高,在微調耗時上大幅減小,僅在多了0.8 GB的情況下耗時最少,分類準確率最高。
b)實驗2。四種參數調優方法用于DETR-R101預訓練模型,在COCO2017中進行檢測下游任務。其參數量、平均精度AP值、占用顯存大小和預訓練模型微調耗時實驗結果如圖11所示。從圖11(a)可以發現,ETTA在參數量為6.2%時,下游任務平均精度達到最高為42.9,適配器調優在參數量為6.1%時平均精度最高為36.7,LoRA與適配器聯合調優在參數量為7.4%時平均精度最高為39.8,前綴調優在參數量為5.5%時準確率最高為31.4。同時結合圖11(b)和圖11(c)可以看出,ETTA因為調優參數量更多的緣故,所以顯存占用只稍多一點,但其在調優效率和下游任務平均精度上是最好的。
四種方法的實驗數據如表3所示。表3數據是每種方法在準確率或平均精度最高時的調優參數大小、顯存占用大小和微調耗時。從數據可以看見,在保證下游任務準確率和平均精度最高的前提下,ETTA的調優參數量最少,同時ETTA的調優效率最高,充分證明了ETTA統一調優架構的性能。
4 結束語
本文提出統一參數高效微調架構ETTA。通過將并行適配器與縮放前綴調優整合,同時給出最優搭建與配置策略,使該高效微調架構在計算機視覺的圖像分類和目標檢測任務中,通過較少的參數調優,獲得與全參數調優相近甚至更優的效果。適配器與前綴調優工作原理的相似性為兩者整合和使用統一參數預算提供了理論基礎。并行適配器作用于前饋神經網絡,設置較高瓶頸維數和較低可調前綴向量數等搭建配置策略,使ETTA架構表現出最佳性能。縮放前綴調優變體的提出使ETTA架構的調優參數量進一步減小。最后通過實驗驗證了縮放調優變體和ETTA架構的有效性和性能。但是當前ETTA架構僅在有限預訓練模型上進行了實驗,在圖像分類和目標檢測任務上還存在大量基于Transformer的模型,在未來工作中將進一步研究分析,使高效微調架構適用于更多模型。
參考文獻:
[1]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP [C]//Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2019: 2790-2799.
[2]Li X L, Liang P. Prefix-tuning: optimizing continuous prompts for generation [C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Confe-rence on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 4582-4597.
[3]Hu E J, Shen Yelong, Wallis P, et al. LoRA: low-rank adaptation of large language models [EB/OL]. (2021-10-16). https://arxiv.org/abs/2106.09685.
[4]Bafghi R A, Harilal N, Monteleoni C,et al. Parameter efficient fine-tuning of self-supervised ViTs without catastrophic forgetting [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recog-nition Workshops. Piscataway, NJ: IEEE Press, 2024: 3679-3684.
[5]Chen Yifan, Hazarika D, Namazifar M,et al. Inducer-tuning: connecting prefix-tuning and adapter-tuning [C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2022: 793-808.
[6]Karimi Mahabadi R, Henderson J, Ruder S. Compacter: efficient low-rank hypercomplex adapter layers [J]. Advances in Neural Information Processing Systems, 2021, 34: 1022-1035.
[7]Liu Xiao, Ji Kaixuan, Fu Yicheng,et al. P-tuning: prompt tuning can be comparable to fine-tuning across scales and tasks [C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 61-68.
[8]胡杰, 昌敏杰, 熊宗權, 等. 基于Transformer的圖像分類網絡MultiFormer [J]. 計算機應用研究, 2022, 39(10): 3191-3195. (Hu Jie, Chang Minjie, Xiong Zongquan, et al. MultiFormer: image classification network based on Transformer [J]. Application Research of Computers, 2022, 39(10): 3191-3195.)
[9]楊世偉, 王永雄, 蘭博天. 多尺度Transformer與層次化邊界引導的顯著性目標檢測 [J]. 計算機應用研究, 2022, 39(12): 3820-3824, 3836. (Yang Shiwei, Wang Yongxiong, Lan Botian. Hierarchical boundary guided multi-scale Transformer for salient object detection [J]. Application Research of Computers, 2022, 39(12): 3820-3824, 3836.)
[10]Chen Zhe, Duan Yuchen, Wang Wenhai, et al. Vision Transformer adapter for dense predictions [EB/OL]. (2023-02-13). https://arxiv.org/abs/2205.08534.
[11]Zhu Yitao, Shen Zhenrong, Zhao Zihao,et al. MeLo: low-rank adaptation is better than fine-tuning for medical image diagnosis [C]// Proc of IEEE International Symposium on Biomedical Imaging. Pisca-taway, NJ: IEEE Press, 2024: 1-5.
[12]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding [C]// Proc of North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019:4171-4186.
[13]Peters M, Neumann M, Iyyer M, et al. Deep contextualized word representations [C]//Proc of Conference of North American Chapter of the Association for Computational Linguistics: Human LanguageTechnologies. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1833-1848.
[14]Qiu Xipeng, Sun Tianxiang, Xu Yige,et al. Pre-trained models for natural language processing: a survey [J]. Science China Technological Sciences, 2020, 63(10): 1872-1897.
[15]Brown T, Mann B, Ryder N, et al. Language models are few-shot learners [J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[16]Zhu Yaoming, Feng Jiangtao, Zhao Chengqi,et al. Counter-interfe-rence adapter for multilingual machine translation [C]//Proc of Fin-dings of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2021: 2812-2823.
[17]He Junxian, Zhou Chunting, Ma Xuezhe, et al. Towards a unified view of parameter-efficient transfer learning" [EB/OL]. (2022-02-02). https://arxiv.org/abs/2110.04366.
[18]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc.,2017: 6000-6010.
[19]Zhao Hengshuang, Jia Jiaya, Koltun V. Exploring self-attention for image recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 10073-10082.
[20]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.
[21]Carion N, Massa F, Synnaeve G,et al. End-to-end object detection with Transformers [C]// Proc of International Conference on Compu-ter Vision. Cham: Springer International Publishing, 2020: 213-229.
[22]Zhu Xizhou, Su Weijie, Lu Lewei,et al. Deformable DETR: defor-mable Transformers for end-to-end object detection [C]//Proc of International Conference on Learning Representations. 2021.
[23]Krizhevsky A. Learning multiple layers of features from tiny images [EB/OL]. (2009).https://api.semanticscholar.org/CorpusID:18268744.
[24]Deng Jia, Dong Wei, Socher R,et al. ImageNet: a large-scale hierarchical image database [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2009: 248-255.
[25]Lin T Y, Maire M, Belongie S,et al. Microsoft COCO: common objects in context [C]// Proc of International Conference on Computer Vision. Cham: Springer International Publishing, 2014: 740-755.
[26]Cai Likun, Zhang Zhi, Zhu Yi,et al. BigDetection: a large-scale benchmark for improved object detector pre-training [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE Press, 2022: 4776-4786.