







摘""" 要:可食用野菜兼具營養價值和藥用價值,然而傳統采摘可食用野菜的分辨主要依賴人為主觀經驗,效率低且錯誤風險高,因此對可食用野菜快速準確的識別對實現野菜產業開發和保障食用安全具有重要意義。以南京地區“七頭一腦”共8種可食用野菜為研究對象,構建了8種野菜的2400張圖像數據集,采用3種具有代表性的卷積神經網絡(convolutional neural network,CNN)模型(AlexNet、VGG16和ResNet50)和3種視覺自注意力(vision transformer,ViT)模型(ViT、CaiT和DeiT)共6種不同的深度學習模型進行訓練和驗證,并通過梯度加權類激活映射(gradient-weighted class activation mapping,Grad-CAM)來分析深度學習模型的決策機制。結果表明,ResNet50在驗證集上的準確率達到94.68%,精確率、召回值和F1分數分別為97.66%、97.74%和97.70%,在6個模型中表現最佳。隨后,在最優模型ResNet50基礎上添加卷積模塊的注意力機制(convolutional block attention module,CBAM)和坐標注意力機制(coordinate attention,CA)模塊進行模型優化,結果顯示,CBAM-ResNet50準確率達到了97.67%,CA-ResNet50準確率達到了98.34%,分別提高了2.99個百分點和3.66個百分點。以上研究結果證實了CNN模型在數據集上能取得比ViT更好的結果,利用深度學習識別可食用野菜種類是可行的,且添加注意力模塊能夠實現更高的識別準確率。
關鍵詞:可食用野菜;種類識別;卷積神經網絡;視覺自注意力;注意力機制模塊
中圖分類號:S647 """"""""""" 文獻標志碼:A""""""""""" 文章編號:1673-2871(2024)11-057-10
DOI:10.16861/j.cnki.zggc.2024.0325
收稿日期:2024-05-13;修回日期:2024-09-09
基金項目:江蘇省重點研發計劃項目(BE2019762);中央高校基本科研業務費專項資金項目(LGZD202408);國家自然科學基金(32201923);“十四五”江蘇省重點學科“公安技術”(蘇教研函﹝2022﹞2號)
作者簡介:吳玉強,副教授,研究方向為計算機視覺與食品安全檢測技術。E-mail:wuyq@nfpc.edu.cn
通信作者:胡乃娟,副研究員,研究方向為智慧農業技術。E-mail:20210107@jaas.ac.cn
Identification of edible wild vegetable species based on deep learning
WU Yuqiang 1, 2, SUN Xun1, JI Chengming2, HU Naijuan3
(1.College of Information Technology, Nanjing Police University, Nanjing 210023, Jiangsu, China; 2. College of Engineering, Nanjing Agricultural University, Nanjing 210095, Jiangsu, China; 3. Institute of Agricultural Economy and Development, Jiangsu Academy of Agricultural Sciences, Nanjing 210014, Jiangsu, China)
Abstract: Edible wild vegetables possess both nutritional and medicinal values. However, the traditional identification of wild edible vegetables mainly relies on subjective human experience, which is inefficient and carries a high risk of error. Therefore, rapid and accurate identification of edible wild vegetables is of great significance for the development of the wild vegetable industry and the assurance of food safety. Eight types of edible wild vegetables known as the \"Seven Heads and One Brain\" in the Nanjing region were selected as the research subjects and a database of 2400 images were constructed. Training and validation were conducted using 6 different deep learning models, including 3 representative convolutional neural network(CNN)models(AlexNet、VGG16 and ResNet50)and 3 vision transformers(ViT)models(ViT、CaiT and DeiT). Furthermore, the decision-making mechanisms of the deep learning models were analyzed using Gradient-Weighted Class Activation Mapping. The results showed that ResNet50 achieved an accuracy rate of 94.68% on the validation set, with precision, recall value, and F1-score of 97.66%, 97.74%, and 97.70%, respectively, and performed the best among the 6 models. Subsequently, the attention mechanism modules, convolutional block attention module and coordinate attention module were added to the optimal ResNet50 model for further optimization. The results showed that the accuracy of CBAM-ResNet50 and CA-ResNet50 models achieved 97.67% and 98.34%, respectively, representing enhancements of 2.99 and 3.66 percent point. The above research results confirmed that the CNN model can achieve better results than ViT on the dataset in this paper. It is feasible to use deep learning to identify edible wild vegetable species, and adding attention modules can lead to higher recognition accuracy.
Key words:Edible wild vegetables; Species identification; Convolutional neural networks; Vision transformer; Attention mechanism modules
野菜是一類未經人工培育、在野外環境中生長的植物。很多野菜具有重要的經濟價值和一定的藥用價值,對改善人類的膳食結構、豐富藥用植物資源都具有積極的意義[1]。我國是擁有豐富野菜資源的國家之一,野菜種類有700種以上,其中常見的有100多種[2]。但是由于野菜種類繁多、形態相似,在日常生活中經常發生誤食有毒野菜導致中毒等安全事件。據統計,我國每年發生的食物中毒案件中,誤食野菜引起中毒死亡占很大比例,貴州省在2016—2021年共報告有毒植物中毒事件550起,其中誤食有毒野菜的就有178起,且中毒事件數量還有不斷上升的態勢[3]。同時,隨著社會生活方式的豐富,人們飲食結構也變得多樣化,野菜食用越來越受到現代人的追捧,因此,如何精準識別出可食用野菜對保障食物安全具有重要意義。
傳統的可食用野菜識別分類最普遍的方法是人工感官識別,但這種方法依賴個人經驗,成本高、效率低且準確率不穩定。近年來,深度學習在圖像識別、語音識別、目標檢測等多個領域的應用都取得顯著的進展和成功[4-6]?;谏疃葘W習的計算機視覺技術應用于植物表型分類識別具有高效、無損、易操作等優點,已逐漸成為農業領域和食品安全領域的重要研究方向之一。
卷積神經網絡(convolutional neural network,CNN)和視覺自注意力模型(vision transformer,ViT)是目前廣泛應用于圖像分類識別和目標檢測領域的兩大類模型[7-8]。其中,CNN是一類包含卷積計算且具有深度結構的前饋神經網絡,是深度學習(deep learning,DL)的代表算法之一。2012年AlexNet在ImageNet挑戰賽的成功,重新點燃了人們對深度學習領域研究的興趣[9]。林偉等[10]以大豆籽粒分類為目標,構建大豆籽粒圖像數據集,通過對傳統AlexNet模型進行改進來對大豆籽粒驗證集進行分類;王圓等[11]將番茄葉片病蟲害數據集分為5類,并采用改進的ResNet50網絡識別番茄葉片病蟲害,取得了不錯的效果。然而,當前大多數研究人員都專注于應用CNN對研究中的圖像進行分類,缺少與ViT模型的比較。與CNN比,ViT在最新計算機視覺研究進展中展現出了顯著的性能[12]。王楊等[13]將改進的Vision Transformer網絡應用于一個包含9種番茄葉片病害圖像、1種健康葉片圖像和1種無關背景圖像的共11種番茄葉片數據集進行病蟲害識別,取得了99.63%的分類準確率;Castellano等[14]提出了一種基于輕量級Transformer的新方法,在不影響推理時間的情況下,實現在多光譜無人機圖像中繪制雜草地圖,實現可持續和更高效的農業生產。因此,進一步研究ViT模型在野菜種類識別領域的應用具有重要意義。深度學習模型通常被認為是一個“黑匣子”,這意味著這些模型的決策機制是不透明的,而模型的透明度可以讓研究人員在模型決策過程中更有信心。
筆者通過采集江蘇南京地區有名的“七頭一腦”(苜蓿頭、枸杞頭、豌豆頭、薺菜頭、馬蘭頭、香椿頭、小蒜頭和菊花腦)共8種野菜圖像樣本構建數據集,并分別選用3種經典的CNN模型和3種ViT共6種模型對這8種野菜進行分類識別,然后利用梯度加權類激活映射(gradient-weighted class activation mapping,Grad-CAM)[15]算法在給定圖像中可視化對模型預測貢獻最大的像素,并以熱力圖的方式輸出,從而深入了解CNN和ViT的決策過程,進而為野菜精準識別模型選擇和食品安全檢測領域提供借鑒。
1 材料與方法
1.1 材料和設備
試驗材料“七頭一腦”8種野菜均購買于南京市棲霞區仙林街道菜市場。圖像拍攝設備為索尼ILCE-7M4相機,圖像分辨率為7008 × 4072。圖像采集地點位于南京警察學院敏行樓實驗室,以及校園內裸露的黑土和黃土地面上,采集時間為 2024 年3月11日到2024年3月27日,共分3個批次采集。
1.2 方法
1.2.1""" 數據預處理""" 為了更好地貼近采集野菜的野外環境,筆者選用包括黑土、黃土及淡黃色、白色等不同顏色的背景進行拍攝,除了自然光下正常拍攝之外,還采用背光、逆光等不同光線來增加數據集的豐富性,為后期訓練增加難度。由于數據集由相機拍攝,原始圖片較大,為了更方便進行操作,利用Python 3.8進行編程,批量將圖像分辨率調整為640 × 640。共拍攝“七頭一腦”野菜圖片2487張,后期通過篩選,最終得到圖像2400張。其中,苜蓿頭300張、枸杞頭298張、豌豆頭296張、薺菜頭302張、馬蘭頭298張、香椿頭303張、小蒜頭302張、菊花腦301張。8種野菜的樣本實例如圖1所示。
1.2.2 基于傳統CNN模型的識別 傳統CNN模型包括AlexNet、VGG16和ResNet50等3種。
AlexNet是由Krizhevsky等[9]在2012年提出的,是深度學習在計算機視覺領域取得突破性進展的標志模型。AlexNet共包含8層神經網絡,采用了大量的卷積核和池化層,以及修正線性單元作為激活函數,同時采用了Dropout來緩解過擬合問題。
VGG16由牛津大學提出,該模型于2014年在ImageNet圖像分類挑戰賽中取得了很大的成功[16]。它采用了連續的卷積層和池化層,通過增加網絡深度來提高性能,其核心思想是通過多個小尺寸的卷積核和池化層來堆疊網絡,以增加感受野大小和提高非線性表達能力。
Residual Network(ResNet)是由微軟亞洲研究院的研究員He等[17]于2015年提出的網絡模型,并在ImageNet圖像分類挑戰賽上取得了非常出色的成績。ResNet引入殘差學習機制,從而解決了深度神經網絡中的梯度消失和梯度爆炸等問題。ResNet提出了跳躍連接的概念,即在網絡中引入直接連接,將輸入信息繞過一些層直接傳遞給后續層,從而使得網絡可以學習到殘差的表示,而不是直接學習原始的映射。ResNet50 模型后面之所以有50,是因為該網絡包含了49個卷積層、1個全連接層,除此之外還有ResNet101和ResNet152等更多層次的模型。本文中的ResNet50對輸入野菜圖片進行識別的整體架構如圖2所示。
1.2.3""" 基于新型ViT模型的識別""" 視覺自注意力(ViT)模型包括ViT、CaiT和DeiT等3種。
ViT將Transformer應用在圖像分類任務中,是首個將Transformer模型應用于計算機視覺任務的模型,因其可擴展性強,使其成為了Transformer在計算機視覺應用的里程碑模型[18]。ViT將輸入圖像劃分為多個patch,并將每個patch作為固定長度的向量投影到Transformer中。隨后的編碼器操作與原始Transformer中的操作完全相同。在圖像分類任務中,一個特殊的令牌被添加到輸入序列中,該令牌的相應輸出就是最終的類別預測。ViT模型的整體架構如圖3所示。
CaiT是在ViT之后提出的模型,由Touvron等[19]于2021年提出。CaiT采用了級聯的注意力機制,引入了坐標注意力機制,將圖像塊的位置信息納入注意力計算中,以更好地處理圖像中的局部結構信息。因此,CaiT模型在圖像局部結構信息上更有優勢[20]。
針對數據不足會導致ViT性能較差的問題,DeiT核心共享采用蒸餾策略,通過引入跨模態對齊訓練和自注意力機制,以及使用更小的模型參數,實現了對數據更加高效的利用,從而在較小的數據集上取得了很好的性能[21],作為加入了蒸餾模塊的Transformer模型也在圖像識別中嶄露頭角[22]。
1.3 模型評價指標
為了評估6種模型的野菜識別分類性能,筆者使用了4個常用的評價指標,即精確率(precision)、召回率(recall)、F1分數(F1-score)和準確率(accuracy)。精確率指的是在所有預測的正樣本中,真正的正樣本的比例。召回率表示在所有實際正樣本中,被正確預測為正樣本的比例。F1分數是精確率和召回率的調和平均數,可以評估模型的整體分類性能。準確率表示在總樣本數中被正確分類的圖像的比例。準確率越高,說明模型在野菜識別分類方面的性能越好。
[Precision=TPTP+FP];""""""""""""""""""""""""""" """" (1)
[Recall=TPTP+FN]"""""" ;""""""nbsp;""""""""""""""""" " (2)
[F1-score=2×Precision×RecallPrecision+Recall]""""" ;""" " (3)
[Accuracy =TP+TNTP+TN+FP+FN]。""""""""""""" """" (4)
1.4 基于Grad-CAM的模型可視化
為了便于理解特征學習的過程,對模型進行可解釋性分析,筆者使用Grad-CAM算法來可視化每個圖像中用于種類識別和預測的特征區域,直觀地表達算法獲得結果的原因。CAM提取最后一個要素圖層和輸出之間的全局平均池化層(global average pooling,GAP)。其局限性在于網絡模型中必須存在GAP,而Grad-CAM適用于非GAP連接的網絡結構,其應用范圍比CAM更廣。在許多實際應用中,如醫療診斷[23]、自動駕駛[24]等領域,模型解釋性可以幫助醫生或工程師更清楚地理解模型的預測依據,增強他們對模型的信任感。此外,模型解釋性還有助于檢測模型的潛在偏差或錯誤,從而提高模型的魯棒性和可靠性。
2 結果與分析
2.1 模型訓練
所有試驗均在64位Ubuntu18.04上使用Pytorch 1.11.0編程。所用服務器配置為Intel(R) Xeon(R) Platinum 8255C CPU、64 GB RAM和NVIDIA GeForce RTX 3090(24GB)GPU。為了進行試驗,筆者將數據集按8∶2的比例劃分為訓練集和驗證集。為了確保結果的可靠性和一致性,筆者采用了五折交叉驗證方法,并且每個模型進行了80個epoch的訓練,使用相同的超參數設置,將批量大小設置為64,初始學習率為0.001,優化器使用Adam。
2.2 CNN與ViT的對比試驗結果
筆者選擇AlexNet、VGG16和ResNet50 3種CNN模型與ViT、CaiT和DeiT 3種Vision Transformer模型進行可食用野菜種類識別對比試驗。6種模型在驗證數據集上的準確率曲線和損失值曲線如圖4和圖5所示,所有模型的損失曲線逐漸下降并達到收斂狀態,而準確率曲線逐漸上升并最終穩定。所有模型曲線表現正常,表明模型持續學習具有更準確的特征。在準確率變化曲線方面,所有模型的初始準確值均不高,在前10輪中,6種模型的準確值均快速上升,然后增速變緩,在50輪次時逐漸平緩。ViT和DeiT在準確率曲線方面最初表現良好,但后來被ResNet50超越,最終ResNet50達到所有模型中最優的準確率。在模型損失曲線上,6種模型初始損失率都很高,且可以觀察到CNN模型在初始驗證階段具有較大的損失值,但他們收斂速度更快,而3種ViT模型的損失值相對較低。當迭代次數達到60次后,驗證損失值曲線逐漸變平,表明模型接近收斂。與其他訓練模型相比,ResNet50模型的損失曲線收斂更加迅速,表現出更好的訓練模型效果,在迭代的初始階段表現出更好的網絡優化性能。因此,可以認為ResNet50模型在本研究中更加穩定,表現出良好的魯棒性。
筆者使用4個評價指標數據對6種模型的性能進行評估。如表1所示,6種模型在4個指標表現上基本都達到了90%以上,其中ResNet50模型在可食用野菜識別中表現最優,其精確率、召回率、F1分數和準確率分別為97.66%、97.74%、97.70%和94.68%。在準確率方面,ResNet50比第二的DeiT高出0.63%,比第三的VGG16高出1.53%。表現最差的模型是CaiT模型,準確率只有89.36%。從整體來看,相較于Transformer模型,CNN模型的效果更好一些。
2.3 ResNet50模型優化
在ResNet50模型中分別加入卷積模塊的注意力機制(convolutional block attention module,CBAM)[25]和坐標注意力機制模塊(coordinate attention,CA)[26],結果如表2所示,添加了CA注意力模塊的ResNet50模型的表現最優,其精確率、召回率、F1分數和準確率分別為98.86%、99.38%、99.12%和98.34%。兩個注意力模塊均對ResNet50模型效果產生了較大的提升,CBAM將ResNet50模型的準確率提升了2.99個百分點,CA注意力模塊將ResNet50模型的準確率提升了3.66個百分點。
2.4 模型可視化結果
為了確保模型的魯棒性,筆者使用Grad-CAM為6種模型的最后一層生成熱力圖。Grad-CAM是一種可解釋的方法,用于分析深度學習模型的決策機制(即可視化深度學習模型的關注點)。顏色越紅,該區域對最終預測結果的貢獻越大,而藍色區域表示貢獻較小。對于野菜種類識別分類任務,不同的模型對同一張圖片的關注點不同,如圖6所示。
3 討論與結論
在模型性能上,本研究中的3種CNN模型的識別準確率都到了91%以上,ResNet50的各項評估指標優于VGG16和AlexNet,且CNN總體性能相比ViT更好。這是因為CNN具有深層架構來對數據進行訓練[27]。AlexNet是一個8層的卷積神經網絡,而VGG16是一個16層的卷積神經網絡,ResNet50可以達到50層。神經網絡的深度越大,學習能力越強,VGG16使用了更多的數據增強方式,比AlexNet有更大的操作空間,因此VGG16效果要明顯優于AlexNet,而AlexNet最終表現最差。ResNet提出了殘差連接,有效解決了深層網絡退化的問題,因此,ResNet50在3種CNN中實現了最佳性能。
在CNN與ViT模型的對比中,除了AlexNet外,其他兩種CNN模型都稍微優于ViT和CaiT。這是因為CNN和Transformer的架構存在重大差異[28]。CNN中的卷積核通過局部感受野和共享權重來捕獲局部特征。而Vision Transformer將給定的圖像分成多個patch,并為每個patch分配一個位置嵌入,ViTs在生成輸出時評估每個patch在整個圖像中的貢獻[29],通過計算圖像塊之間的關系來捕捉圖像全局信息。在這種情況下,Transformer的性能依賴于訓練的數據集的大小,較大的數據集可以取得更好的訓練結果[8],當提供的數據不足時,Transformer的泛化能力會受到限制。Li等[30]對野外環境中收集的2095份病態和健康甘蔗葉片進行了比較研究,發現ResNet50比ViT有更顯著的效果。Li等[31]在7434個表面人臉識別任務上將ViT與ResNet50進行比較,結果顯示,ResNet50的性能優于ViT Base,但低于Swin Base。ViT和CNN的性能不完全取決于數據集的大小,而是與圖像數據集本身的質量、分布、應用場景等密切相關。Li等[32]根據醫學圖像和自然圖像之間的差距,提出了一種基于視覺Transformer骨干的專用醫學圖像分類模型。而本研究中DeiT取得第二名的成績,相對于DeiT,ResNet50 在訓練和推理階段通常具有更高的計算效率。ResNet50使用了卷積層和殘差連接等結構,在數據量較小的數據集計算上比 Transformer 的自注意力機制更為高效。和ViT相比,DeiT在模型結構和特征提取方面可能進行了一些改進,更專注于提高數據利用效率,通過一系列的訓練策略和技巧,例如知識蒸餾和對比學習等,使得DeiT在相對較小的數據集上也能夠表現出色[21]。因此,本研究在現有數據集情況下,DeiT取得了僅次于ResNet50的效果。
CBAM模塊將通道和空間注意力添加到ResNet50模型當中,能夠獲取更加全面的圖像信息,強化有效特征,進而提高了網絡模型的性能[25]。在本研究中的圖像數據中,野菜的根莖、葉片占據圖片的主要部分,通道注意力和空間注意力機制可以縮小圖像中干擾信息的影響,更加注重野菜本身所在區域,以達到更好的訓練效果,所以添加CBAM注意力模塊的ResNet50模型要比ResNet50模型自身要好。CA模塊通過精確的位置信息對通道關系和長程依賴進行編碼,能幫助模型更加精準地定位和識別感興趣的目標;還能夠在移動網絡中參與大區域的建模,并避免大量的計算開銷[26]。在野菜數據集中,定位好野菜的位置可以讓訓練數據更加準確,而野菜的方向總是從根莖到枝,坐標注意力利用這一點以實現更高的準確率。所以添加CBAM和CA注意力模塊都使ResNet50模型在本研究的野菜數據集上表現更加優秀。
在模型可視化特征上,與AlexNet和VGG相比,ResNet50特征提取能力將大大增強[33]。一方面,淺層可以捕獲邊緣和紋理等特征,而深層能夠提取語義信息,因此ResNet50能更加全面準確地捕捉野菜的關鍵特征區域;另一方面,ViT模型由于是將圖片細分為更小的區域,注意力以點狀散開,導致有些時候無法將注意力分散的區域連接到一起,在3種分類狀態下顯示出更為分散的關注點。ViT的優勢在于能夠捕捉圖像中的遠距離依賴關系,無需復雜的卷積操作,而CaiT更關注野菜本身區域。DeiT基于ViT并加入了蒸餾學習的蒸餾標記,更關注野菜周圍區域。從圖6可以看出,CNN模型抗圖像背景干擾更強,即使苜蓿頭和枸杞頭分別在黑土地和黃土地上拍攝,但CNN模型也能很好地捕捉到葉片特定區域,尤其是ResNet50網絡,總能獲得最大的感興區域,從而進行分類決策。而圖像背景對ViT分類結果有較大影響,可以看出,ViT類模型在黑土和黃色背景下,關注了大量非野菜區域的嘈雜背景信息,而在白色等簡單背景下,關鍵點像素則聚焦到識別目標本身。這說明,未來在使用ViT系列模型時,可以考慮去除嘈雜背景等數據增強技術來提高模型的識別能力。
筆者基于兩種廣泛使用的深度學習框架,即CNN模型和Vision Transformer模型,對自建的野菜數據集識別分類任務進行比較評估,總體而言,6種模型中5種的準確率都在90%以上,表明他們能夠準確提取不同野菜圖像的特征。其中,ResNet50在驗證集上的準確率達到94.68%,在所有評估標準下均取得了最佳性能;通過加入CBAM和CA模塊進行模型優化,取得了更加顯著的效果。最后,采用Grad-CAM算法對先前6種模型的分類效果進行可視化,對模型訓練過程進行可視化解釋?;谏疃葘W習的野菜識別技術無論在食品安全領域還是在農業生產過程中都具有廣闊的應用前景,但同時也面臨著許多挑戰。首先是數據集場景簡單、豐富性不足的問題。由于當前很少有專門針對野菜識別的公開數據集,本文中可食用野菜從菜市場購得,雖然部分圖片模擬了田間地頭背景進行拍攝,但圖像總體背景并不復雜,后續需要深入野菜生長真實場景拍攝更多樣本,以進一步擴大數據集的多樣性和復雜性,增強模型的泛化性和魯棒性。其次是模型輕量化問題。盡管具有深層次的深度學習模型有實現智慧農業應用中所期望檢測結果的潛力,但他們可能需要更多的訓練時間??紤]到在計算能力有限的邊緣設備上部署模型變得越來越重要,設計輕量級網絡模型的趨勢日益增長[34]。如今,將ViT網絡與CNN方法相結合進行圖像分類的研究逐漸受到關注,這種結合的方法旨在充分利用ViT對全局信息的優勢以及CNN在局部特征提取方面的優勢,提升圖像分類性能,后續可以在本研究的基礎上進一步優化模型,達到更優效果。
參考文獻
[1]"" 盧超.長沙地區野菜資源開發利用研究[D].長沙:湖南農業大學,2017.
[2]"" 查金平.利用野菜資源開展校本研究提升學生核心素養[J].科技風,2019(8):37.
[3]"" 何進,劉琳,朱姝,等.貴州省2016—2021年有毒植物及其毒素中毒暴發事件監測情況分析[J].現代預防醫學,2022,49(21):4009-4013.
[4]"" 劉文斌,庹先國,張貴宇,等.基于卷積神經網絡的白酒上甑探汽方法[J].食品研究與開發,2024,45(5):139-144.
[5]"" WANG M S,MA H B,WANG Y L,et al.Design of smart home system speech emotion recognition model based on ensemble deep learning and feature fusion[J].Applied Acoustics,2024,218:109886.
[6]"" XU G,YUE Q R,LIU X G.Real-time multi-object detection model for cracks and deformations based on deep learning[J].Advanced Engineering Informatics,2024,61:102578.
[7]"" LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the Ieee,1998,86(11):2278-2324.
[8]"" DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 Words: Transformers for image recognition at scale,May 04,2021[C].Vienna:International Computer on Learning,2021.
[9]"" KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the Acm,2017,60(6):84-90.
[10] 林偉,仲偉波,袁毓,等.基于改進AlexNet與CUDA的大豆快速三分類方法[J].計算機與數字工程,2023,51(12):2997-3003.
[11] 王圓,祝俊輝,周賢勇,等.基于改進ResNet模型的番茄葉片病蟲害識別[J].激光雜志,2024,45(5):209-214.
[12] ZHOU B,YU X,LIU J,AN D,et al.Effective vision transformer training:A data-centric perspective[J].Computer Vision and Pattern Recognition,2022,2209:15006.
[13] 王楊,李迎春,許佳煒,等.基于改進Vision Transformer網絡的農作物病害識別方法[J].小型微型計算機系統,2024,45(4):887-893.
[14] CASTELLANO G,MARINIS P D,VESSIO G.Weed mapping in multispectral drone imagery using lightweight vision transformers[J].Neurocomputing,2023,562:126914.
[15] SELVARAJU R R,COGSWELL M,DAS A,et al.Grad-CAM:Visual explanations from deep networks via gradient-based localization[C].Ieee International Conference on Computer Vision (ICCV),2017:618-626.
[16] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].Computer Science,2014.
[17] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C].IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:770-778.
[18] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[J].Computation and Language,2017,30:6000-6010.
[19] TOUVRON H,CORD M,SABLAYROLLES A,et al.Going deeper with image transformers[C].IEEE/CVF International Conference on Computer Vision (ICCV),2021:32-42.
[20] LIU Y, ZHANG Y, WANG Y, et al.A survey of visual transformers[J]. IEEE Transactions on Neural Networks and Learning Systems,2024,35:7478-7498.
[21] TOUVRON H,CORD M,DOUZE M,et al.Training data-efficient image transformers amp; distillation through attention[C].International Conference on Machine Learning,2021,139:7358-7367.
[22] 趙婷婷,高歡,常玉廣,等.基于知識蒸餾與目標區域選取的細粒度圖像分類方法[J].計算機應用研究,2023,40(9):2863-2868.
[23] 曹明亮,尹蜜,王慶彬,等.基于深度學習算法聯合Grad-CAM的宮腔鏡子宮內膜病變診斷模型研究[J].實用婦產科雜志,2024,40(5):409-413.
[24] 謝瑞麟,崔展齊,陳翔,等.IATG:基于解釋分析的自動駕駛軟件測試方法[J].軟件學報,2024,35(6):2753-2774.
[25] WOO S H,PARK J,LEE J Y,et al.CBAM:Convolutional block attention module[J].Computer Vision,2018,11211:3-19.
[26] HOU Q B,ZHOU D Q,FENG J S,et al.Coordinate attention for efficient mobile network design[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:13708-13717.
[27] PRAKASH J A,ASSWIN C R,KUMAR K S D.A,et al.Transfer learning approach for pediatric pneumonia diagnosis using channel attention deep CNN architectures[J].Engineering Applications of Artificial Intelligence,2023,123:106416.
[28] XIONG B P,CHEN W S,NIU Y X,et al.A Global and Local Feature fused CNN architecture for the sEMG-based hand gesture recognition[J].Computers in Biology and Medicine,2023,166:107497.
[29] ZHOU D,KANG B,JIN X,et al.DeepViT:Towards deeper vision transformer[J].Computer Vision and Pattern Recognition,2021.
[30] LI X C,LI X H,ZHANG M Q,et al.SugarcaneGAN:A novel dataset generating approach for sugarcane leaf diseases based on lightweight hybrid CNN-Transformer network[J].Computers and Electronics in Agriculture,2024,219:108762.
[31] LI X P,XIANG Y Y,LI S Q.Combining convolutional and vision transformer structures for sheep face recognition[J].Computers and Electronics in Agriculture,2023,205:107651.
[32] LI Y X,HUANG Y W,HE N J,et al.Improving vision transformer for medical image classification via token-wise perturbation[J].Journal of Visual Communication and Image Representation,2023,98:104022.
[33] LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C].2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017,106:936-944.
[34] KIM W,JUNG W S,CHOI H K.Lightweight driver monitoring system based on multi-task mobilenets[J].Sensors,2019,19(14):3200.