












摘要:
為提高產(chǎn)地環(huán)境下木薯葉部病害自動(dòng)識(shí)別的準(zhǔn)確性,解決病害圖像低對(duì)比度和數(shù)據(jù)長(zhǎng)尾分布問(wèn)題,建立一種深度學(xué)習(xí)模型SwinTFCC用于木薯葉部病害識(shí)別。該模型采用Swin Transformer作為骨干網(wǎng)絡(luò),借助Swin Transformer的自注意力機(jī)制和層級(jí)結(jié)構(gòu)關(guān)注局部與全局特征,使其對(duì)復(fù)雜背景病害識(shí)別具有魯棒性;將最后一層特征輸入特征簇壓縮模塊,以映射稀疏特征簇為稠密特征簇,減少長(zhǎng)尾分布中樣本少的類(lèi)別稀疏特征簇跨越?jīng)Q策邊界導(dǎo)致分類(lèi)錯(cuò)誤情況;并采用遷移學(xué)習(xí)在木薯葉部病害圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,以提升木薯葉部病害識(shí)別性能。試驗(yàn)結(jié)果表明,模型的F1值達(dá)到90.74%,較其他主流模型提升8.04%~19.3%。所采用的方法在小規(guī)模不平衡數(shù)據(jù)集上取得較好效果,驗(yàn)證模型的有效性,為木薯葉部病害自動(dòng)精準(zhǔn)識(shí)別提供技術(shù)支撐。
關(guān)鍵詞:木薯葉部;病害識(shí)別;圖像識(shí)別;遷移學(xué)習(xí);不平衡數(shù)據(jù)
中圖分類(lèi)號(hào):S435.33; TP391.4
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2025) 03-0101-08
收稿日期:2023年10月9日" 修回日期:2024年1月2日*
基金項(xiàng)目:中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)(1630072023005);海南省自然科學(xué)基金青年基金項(xiàng)目(323QN300)
第一作者:王丹陽(yáng),女,1993年生,海南澄邁人,碩士,研究實(shí)習(xí)員;研究方向?yàn)椴∠x(chóng)害智能識(shí)別。E-mail: danyang.wang@catas.cn
通訊作者:黃貴修,男,1968年生,廣西賀州人,博士,研究員;研究方向?yàn)闊釒ё魑锊『ΡO(jiān)控與抗病育種。E-mail: hgxiu@vip.163.com
Cassava leaf disease image recognition method for imbalanced data
Wang Danyang1, Liang Weihong1, Li Yuping1, Huang Guixiu1," 2
(1. Institute of Scientific and Technical Information, Chinese Academy of Tropical Agricultural Sciences/Key
Laboratory of Practical Research on Tropical Crops Information Technology in Hainan, Haikou, 571101, China;
2. Environment and Plant Protection Institute, Chinese Academy of Tropical Agricultural Sciences, Haikou, 571101, China)
Abstract:
To improve the accuracy of automatic cassava leaf disease recognition in production environments and address issues such as low-contrast disease images and long-tail data distribution, this paper proposes a deep learning model, SwinTFCC, for the recognition of cassava leaf diseases. This model employs the Swin Transformer as the backbone network, utilizing its self-attention mechanism and hierarchical structure to focus on local and global features for robust disease recognition in complex backgrounds. The features from the last layer are then input into a feature cluster compression module to map sparse feature clusters into dense ones, reducing classification errors caused by sparse feature clusters of underrepresented classes crossing decision boundaries in the long-tailed distribution. The model is trained on a cassava leaf disease image dataset using transfer learning to enhance recognition performance. The experimental results indicate that the proposed model achieves an F1 score of 90.74%, improving by 8.04% to 19.3% compared with other mainstream models. In this study, the method performs well on a small-scale imbalanced dataset, confirming the model’s effectiveness and providing technical support for the automatic and precise recognition of cassava leaf diseases.
Keywords:
cassava leaf; disease recognition; image recognition; transfer learning; imbalanced data
0 引言
聯(lián)合國(guó)糧食及農(nóng)業(yè)組織發(fā)布的《2023年世界糧食安全和營(yíng)養(yǎng)狀況》報(bào)告稱(chēng),2022年全世界估計(jì)有6.91~7.83億人面臨饑餓;到2030年,全世界預(yù)計(jì)近6億人長(zhǎng)期食物不足[1]。木薯起源于熱帶美洲,是世界三大薯類(lèi)作物之一,也是世界重要糧食作物和饑荒作物,對(duì)維護(hù)世界糧食安全起著重要作用[2]。然而木薯生長(zhǎng)過(guò)程中易受病害的影響,從而造成作物的產(chǎn)量減少并嚴(yán)重威脅糧食安全。因此,對(duì)病害進(jìn)行監(jiān)測(cè)和識(shí)別可以盡早發(fā)現(xiàn)病害,減少損失。傳統(tǒng)作物病害識(shí)別主要依賴(lài)專(zhuān)家與經(jīng)驗(yàn),主觀性強(qiáng),需要專(zhuān)業(yè)人員定期進(jìn)行田間檢查。隨著種植規(guī)模化,定期人工檢查對(duì)病害進(jìn)行識(shí)別成本不可估量,病害自動(dòng)精準(zhǔn)識(shí)別具有重要意義。
在植物發(fā)生病害時(shí),葉片會(huì)呈現(xiàn)特定的特征,如葉片顏色、形狀會(huì)產(chǎn)生相應(yīng)變化。研究者嘗試設(shè)計(jì)特征提取器,提取與病害相關(guān)的顏色、形狀、紋理和小波等特征,并通過(guò)支持向量機(jī)[3," 4]、K近鄰(KNN)[5," 6]、貝葉斯[7]和決策樹(shù)[8]等分類(lèi)器對(duì)提取的特征進(jìn)行病害分類(lèi)。雖然這些方法能夠降低植物病害識(shí)別耗費(fèi)的成本,但是對(duì)專(zhuān)業(yè)領(lǐng)域知識(shí)和工程技能要求較高,且植物病害復(fù)雜多樣化,特征設(shè)計(jì)難度較高,從而使得植物病害識(shí)別效果不佳。深度學(xué)習(xí)方法可以直接從數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,避免人工特征局限性,提高模型準(zhǔn)確率。近年來(lái),研究者將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用于作物病害圖像識(shí)別以提高病害識(shí)別準(zhǔn)確率。如Sladojevic等[9]通過(guò)仿射、投影、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)技術(shù)增加數(shù)據(jù)集數(shù)量,采用CaffeNet網(wǎng)絡(luò)和遷移學(xué)習(xí)微調(diào)最后全連接層的方式對(duì)15個(gè)類(lèi)別植物病害和健康葉片圖像進(jìn)行分類(lèi)。Agarwal等[10]提出一種輕量級(jí)CNN模型識(shí)別番茄9種葉部病害和1種健康葉片圖像,在PlantVillage數(shù)據(jù)集上準(zhǔn)確率達(dá)到98.7%。Wu等[11]將在大規(guī)模圖像數(shù)據(jù)集ImageNet上預(yù)訓(xùn)練的ResNet101模型的結(jié)構(gòu)和知識(shí)遷移到水果葉病識(shí)別領(lǐng)域。
但上述方法主要基于實(shí)驗(yàn)室單一背景下,實(shí)際應(yīng)用中泛化性不強(qiáng)。實(shí)際種植環(huán)境中,因光線(xiàn)變化、葉片相互遮擋、病斑相似性高以及土壤雜草環(huán)境背景復(fù)雜等因素對(duì)病害識(shí)別造成干擾,導(dǎo)致基于實(shí)驗(yàn)室單一背景下的研究方法在實(shí)際應(yīng)用中識(shí)別效果不佳。因此,為增強(qiáng)實(shí)際種植環(huán)境中病害識(shí)別性能,研究者嘗試對(duì)復(fù)雜背景下病害識(shí)別進(jìn)行研究。衛(wèi)雅娜等[12]提出一種基于注意力機(jī)制與EfficientNet的輕量化水稻病害識(shí)別方法。Haque等[13]通過(guò)旋轉(zhuǎn)和亮度增強(qiáng)方法生成圖像以解決樣本不平衡問(wèn)題,并使用Inception—v3對(duì)田間玉米患病圖像進(jìn)行分類(lèi)。
隨著Transformer的提出,因其強(qiáng)大的特征提取能力和可并行性被廣泛應(yīng)用,各種視覺(jué)Transformer和其變體模型被提出。研究者嘗試采用視覺(jué)Transformer模型解決復(fù)雜自然環(huán)境下植物病害識(shí)別問(wèn)題。如Li等[14]提出了基于空間卷積自注意力的Transformer模型以實(shí)現(xiàn)草莓多類(lèi)別病害精確快速識(shí)別,在其構(gòu)建的草莓病害數(shù)據(jù)集上識(shí)別準(zhǔn)確率達(dá)到99.10%。雖然各種視覺(jué)Transformer模型在植物病害識(shí)別領(lǐng)域已經(jīng)有一定的研究,但是復(fù)雜自然背景下圖像局部特征和全局特征提取融合還存在局限性。同時(shí),各類(lèi)病害發(fā)生的概率不一,導(dǎo)致部分病害類(lèi)別數(shù)據(jù)難以采集,因此,病害圖像數(shù)據(jù)集還存在類(lèi)別數(shù)據(jù)不平衡問(wèn)題。
為解決復(fù)雜背景下不平衡類(lèi)別數(shù)據(jù)木薯葉部病害識(shí)別問(wèn)題,本文基于Swin Transformer模型,引入特征簇壓縮模塊,建立SwinTFCC模型。在模型訓(xùn)練過(guò)程中采用遷移學(xué)習(xí)策略進(jìn)行微調(diào)。同時(shí),將該模型用于木薯葉部病害識(shí)別測(cè)試,并與其他主流圖像識(shí)別模型對(duì)比,驗(yàn)證該模型的有效性。
1 相關(guān)工作
1.1 視覺(jué)Transformer
Transformer因其高并行性和長(zhǎng)距離依賴(lài)建模能力在自然語(yǔ)言處理領(lǐng)域取得了顯著的成效。受此啟發(fā),一些研究者嘗試將Transformer應(yīng)用于視覺(jué)領(lǐng)域。Vision Transformer (ViT)[15]是一項(xiàng)開(kāi)創(chuàng)性的工作,它將圖像直接分成不重疊的圖像塊序列應(yīng)用Transformer架構(gòu)對(duì)圖像進(jìn)行分類(lèi)。與卷積神經(jīng)網(wǎng)絡(luò)相比,它在圖像分類(lèi)方面實(shí)現(xiàn)了較好的速度和精度的平衡。因此,一系列ViT變體被提出來(lái)以提升視覺(jué)任務(wù)的性能[16," 17]。同時(shí)為進(jìn)一步提升模型性能和降低模型的復(fù)雜度,Liu等[18]提出Swin Transformer模型通過(guò)引入移位窗口自注意力機(jī)制降低計(jì)算成本和信息交互損失,并利用層級(jí)結(jié)構(gòu)關(guān)注局部和全局信息以提高模型性能。
1.2 長(zhǎng)尾分布圖像識(shí)別
長(zhǎng)尾分布是一種偏態(tài)分布,指數(shù)據(jù)集中某幾個(gè)類(lèi)別(樣本量多)的數(shù)據(jù)占比較大,而多數(shù)類(lèi)別(樣本量少)的數(shù)據(jù)代表性不足。實(shí)際場(chǎng)景中收集到的數(shù)據(jù)集往往遵循長(zhǎng)尾分布,從而使得訓(xùn)練的網(wǎng)絡(luò)模型對(duì)樣本量多的類(lèi)別產(chǎn)生偏向,造成樣本量不足的類(lèi)別識(shí)別準(zhǔn)確率較低。長(zhǎng)尾分布圖像識(shí)別常用解決方法包括重采樣、重加權(quán)和改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)等。
重采樣方法是通過(guò)不同采樣策略保持訓(xùn)練數(shù)據(jù)集類(lèi)別平衡,常用方法包括過(guò)采樣[19]、欠采樣[20]和類(lèi)平衡抽樣[21]等。但這些方法均存在一些弊端,例如過(guò)采樣會(huì)造成模型過(guò)擬合,欠采樣會(huì)降低模型性能,而類(lèi)平衡抽樣方法未能改變數(shù)據(jù)分布的根本缺陷,還會(huì)被采樣數(shù)據(jù)中的非代表性數(shù)據(jù)影響。
重加權(quán)方法則嘗試對(duì)不同類(lèi)別分配不同權(quán)重,以增加樣本少類(lèi)別的權(quán)重。Lin等[22]通過(guò)向標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)添加權(quán)重因子調(diào)節(jié)難分類(lèi)和易分類(lèi)樣本對(duì)總損失的貢獻(xiàn)。Szegedy等[23]提出一種通過(guò)估計(jì)標(biāo)簽丟失的邊緣化效應(yīng)來(lái)正則化分類(lèi)器層的策略。但這些方法會(huì)損失樣本數(shù)多類(lèi)別的精度。
除上述兩種方法外,研究者嘗試改進(jìn)網(wǎng)絡(luò)模型結(jié)構(gòu)提升模型在長(zhǎng)尾分布數(shù)據(jù)上的性能。Li等[24]在訓(xùn)練過(guò)程中使用特征簇模塊壓縮骨干網(wǎng)絡(luò)特征簇來(lái)增加特征密度降低跨越?jīng)Q策邊界概率。
1.3 植物病害識(shí)別
基于深度學(xué)習(xí)的植物病害識(shí)別方法是近年來(lái)的研究熱點(diǎn),部分工作采用CNN模型對(duì)病害進(jìn)行分類(lèi),但是卷積操作只能捕獲局部信息,不能建立全局長(zhǎng)距離依賴(lài),無(wú)法很好獲取更多上下文信息。目前大量研究探索如何融合局部和全局信息提升對(duì)圖像的理解能力,部分研究開(kāi)始嘗試將這些方法引入植物病害識(shí)別領(lǐng)域以提升模型性能。例如,Li等[25]提出一種基于Vision Transformer和卷積神經(jīng)網(wǎng)絡(luò)的病害識(shí)別模型ConvViT識(shí)別復(fù)雜自然環(huán)境中獼猴桃病害。Wang等[26]使用改進(jìn)的Swin Transformer在小樣本數(shù)據(jù)集上識(shí)別黃瓜葉病。但之前研究方法或使用重疊補(bǔ)丁嵌入可能會(huì)導(dǎo)致特征冗余或生成圖像時(shí)難以保證生成圖像的質(zhì)量和與真實(shí)樣本的差異性,在處理復(fù)雜背景下植物病害精準(zhǔn)識(shí)別的多尺度特征融合問(wèn)題和長(zhǎng)尾分布數(shù)據(jù)時(shí)存在一定局限性,導(dǎo)致在推廣和應(yīng)用時(shí)受到限制。
本文主要關(guān)注復(fù)雜背景下不平衡數(shù)據(jù)木薯葉部病害識(shí)別問(wèn)題。Liu等[18]提出Swin Transformer模型通過(guò)設(shè)計(jì)層級(jí)結(jié)構(gòu)在不同層級(jí)上捕獲不同尺度圖像信息進(jìn)行多尺度特征融合,且其自注意力機(jī)制根據(jù)輸入數(shù)據(jù)中不同位置之間的相關(guān)性來(lái)分配不同權(quán)重幫助模型關(guān)注與任務(wù)相關(guān)的圖像區(qū)域,在處理復(fù)雜背景圖像方面表現(xiàn)出色。因此,在該方法基礎(chǔ)上研究復(fù)雜背景下木薯葉部病害識(shí)別問(wèn)題,并針對(duì)木薯葉部病害數(shù)據(jù)類(lèi)別長(zhǎng)尾分布特點(diǎn),提出面向不平衡數(shù)據(jù)的木薯葉部病害識(shí)別方法。
2 模型方法
模型總體框架如圖1所示,主要由Swin Transformer骨干網(wǎng)絡(luò)、特征簇壓縮模塊和線(xiàn)性分類(lèi)器3部分組成。首先采用Swin Transformer骨干網(wǎng)絡(luò)提取圖像特征,然后使用特征簇壓縮模塊將少樣本類(lèi)別稀疏特征簇壓縮成稠密特征簇,最后采用線(xiàn)性分類(lèi)器對(duì)壓縮后的特征進(jìn)行分類(lèi),并使用遷移學(xué)習(xí)進(jìn)行訓(xùn)練。與傳統(tǒng)識(shí)別方法相比,面向不平衡數(shù)據(jù)的木薯葉部病害識(shí)別方法在3個(gè)方面進(jìn)行優(yōu)化。
1)" 采用Swin Transformer為骨干網(wǎng)絡(luò),借助其自注意力機(jī)制和層級(jí)結(jié)構(gòu)在不同層次上融合全局和局部信息有效提取復(fù)雜背景下病害圖像特征。
2)" 增加特征簇壓縮模塊,將長(zhǎng)尾分布中少樣本類(lèi)別稀疏特征簇壓縮成稠密特征簇,減少樣本類(lèi)別跨越?jīng)Q策邊界情況,降低分類(lèi)錯(cuò)誤。
3)" 采用遷移學(xué)習(xí)進(jìn)行訓(xùn)練,將預(yù)先在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的模型在木薯葉部病害數(shù)據(jù)集上進(jìn)行微調(diào)。該方式有助于保留在大規(guī)模數(shù)據(jù)集上學(xué)到的通用特征,同時(shí)適應(yīng)小規(guī)模木薯葉部圖像病害數(shù)據(jù)集。通過(guò)遷移學(xué)習(xí),模型可以更好地泛化到長(zhǎng)尾分布數(shù)據(jù)的少樣本類(lèi)別,提高整體識(shí)別性能。
2.1 骨干網(wǎng)絡(luò)
Swin Transformer[18]作為一種視覺(jué)任務(wù)通用骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)模型首先通過(guò)圖像塊分割(Patch Partion)模塊將RGB圖像分割成相同大小不重疊的圖像塊。然后分4個(gè)階段對(duì)圖像塊進(jìn)行處理。第一個(gè)階段包含線(xiàn)性嵌入模塊和Swin Transformer模塊,剩下3個(gè)階段均由圖像塊合并(Patch Merging)模塊和Swin Transformer模塊組成。這4個(gè)階段構(gòu)成一種層級(jí)關(guān)系,每個(gè)階段處理后圖像塊大小變成上一階段的一半,通道數(shù)變?yōu)樯弦浑A段的2倍。經(jīng)過(guò)4個(gè)階段可以提取不同尺度的特征,有助于模型更好地捕獲圖像中的局部和全局信息。其中,Swin Transformer模塊由歸一化(LN)層、窗口多頭自注意力模塊(W—MSA)和移動(dòng)窗口多頭自注意力模塊(SW—MSA)、殘差連接和多層感知機(jī)(MLP)組成,如圖2所示。W—MSA模塊的思想為將圖像劃分為不重合的窗口,每個(gè)窗口包含多個(gè)圖像塊,在局部窗口內(nèi)計(jì)算自注意力。該方法減少了整個(gè)網(wǎng)絡(luò)的計(jì)算復(fù)雜度,但是單獨(dú)進(jìn)行局部窗口注意力計(jì)算無(wú)法提取圖像高級(jí)語(yǔ)義信息。為解決此問(wèn)題,SW—MSA模塊采用窗口移動(dòng)的方法對(duì)特征圖信息進(jìn)行循環(huán)移位,使不重疊的各個(gè)窗口進(jìn)行信息交互,進(jìn)而增大感受野以捕獲全局語(yǔ)義信息。
2.2 特征簇壓縮模塊
深度神經(jīng)網(wǎng)絡(luò)可以將樣本映射為密集的特征簇,但在長(zhǎng)尾分布數(shù)據(jù)集上深度網(wǎng)絡(luò)模型會(huì)將樣本少的類(lèi)別映射為稀疏簇,影響模型整體的性能。而特征簇壓縮(FCC)[24]是一種通過(guò)增強(qiáng)特征的類(lèi)內(nèi)聚合度進(jìn)而提升模型在長(zhǎng)尾分布數(shù)據(jù)集上性能的方法。具體地,特征簇壓縮方法將骨干網(wǎng)絡(luò)特征乘以特定的縮放因子,以建立原始特征和被乘特征之間的線(xiàn)性壓縮關(guān)系。在模型訓(xùn)練過(guò)程中,將被乘特征映射成稠密特征簇,而這種壓縮關(guān)系迫使原始特征被映射成更緊密的簇,減少因越過(guò)決策邊界而導(dǎo)致錯(cuò)誤分類(lèi)情況。令骨干網(wǎng)絡(luò)特征最后一層特征為fO,將每個(gè)類(lèi)別的原始特征fiO乘以特定的縮放因子τ(τgt;1),并將相乘后的特征輸入分類(lèi)器來(lái)進(jìn)行分類(lèi)。該操作定義如式(1)所示。
fiM=fiO×τi
(1)
式中: fiM、fiO——
第i類(lèi)壓縮特征和原始特征。
對(duì)于縮放因子τ,采用等差壓縮策略來(lái)控制每個(gè)類(lèi)別的壓縮程度,定義如式(2)所示。
τi=1+γ×(1-i/C)
(2)
式中: γ——縮放超參數(shù),γgt;0;
C——類(lèi)別數(shù)量;
i——類(lèi)索引,i∈[0,C)。
3 試驗(yàn)結(jié)果與分析
3.1 試驗(yàn)數(shù)據(jù)集
馬凱雷雷大學(xué)人工智能(AI)實(shí)驗(yàn)室在Kaggle網(wǎng)站上提供木薯葉部病害圖像數(shù)據(jù)集,該數(shù)據(jù)集包含的大多數(shù)圖像由農(nóng)民實(shí)地拍攝,并由農(nóng)業(yè)領(lǐng)域?qū)<液献鳂?biāo)注。數(shù)據(jù)集包括5類(lèi)21 397幅木薯葉片圖像,其中木薯細(xì)菌性枯萎病(CBB)圖像1 087幅,木薯褐條病(CBSD)圖像2 189幅,木薯綠斑駁病(CGM)圖像2 386幅,木薯花葉病(CMD)圖像13 158幅,健康葉片(Healthy)圖像2 577幅,該數(shù)據(jù)集中典型的樣例圖像如圖3所示。試驗(yàn)過(guò)程中,將數(shù)據(jù)按9∶1劃分出10%測(cè)試集,再將剩下90%的數(shù)據(jù)按9∶1分成訓(xùn)練集和驗(yàn)證集。表1展示數(shù)據(jù)集中各類(lèi)別病害圖像訓(xùn)練集、驗(yàn)證集和測(cè)試集分布的統(tǒng)計(jì)信息。
3.2 試驗(yàn)設(shè)置和評(píng)價(jià)指標(biāo)
試驗(yàn)環(huán)境硬件配置主要包括CPU為Intel(R) Core(TM) i9-10900K CPU @3.70 GHz,GPU為NVIDIA GeForce RTX 3090。軟件配置包括操作系統(tǒng)為Ubuntu 18.04.5 LTS,CUDA版本為11.8,深度學(xué)習(xí)框架為torch 1.13.1+cu117,語(yǔ)言為Python Vision 3.9.17。建立的模型在公開(kāi)代碼Swin Transformer[18]基礎(chǔ)上實(shí)現(xiàn)。為驗(yàn)證建立的模型性能,使用主流圖像分類(lèi)模型ResNet50、EfficientNetB0、ViT[15]、SwinT[18]進(jìn)行對(duì)比試驗(yàn),SwinTFCC預(yù)訓(xùn)練模型使用timm庫(kù)swin_base_patch4_window7_224。試驗(yàn)將所有圖像尺寸設(shè)置為224像素×224像素,Epoch設(shè)置為100,模型優(yōu)化器為Adamw,權(quán)重衰減為10-8,Batch size為32,不使用預(yù)訓(xùn)練模型時(shí)初始學(xué)習(xí)率設(shè)為0.001,使用預(yù)訓(xùn)練模型時(shí)初始學(xué)習(xí)率設(shè)為0.000 1,γ為0.85,從第35個(gè)Epoch開(kāi)始使用特征簇模塊進(jìn)行壓縮,模型使用交叉熵?fù)p失進(jìn)行訓(xùn)練。圖像數(shù)據(jù)集預(yù)處理包括裁剪、顏色抖動(dòng)和CutMix。
為客觀評(píng)價(jià)木薯葉部病害識(shí)別效果,采用準(zhǔn)確率Accuracy和F1值作為評(píng)估模型指標(biāo)。準(zhǔn)確率是預(yù)測(cè)正確的病害圖像數(shù)量占所有病害圖像的比例,F(xiàn)1值是精確率Precision和召回率Recall的調(diào)和平均值。除了準(zhǔn)確率和F1值外,還結(jié)合模型參數(shù)Params、計(jì)算量FLOPs和推理時(shí)間比較模型性能。準(zhǔn)確率、精確率、召回率和F1值的計(jì)算如式(3)~式(6)所示。
Accuracy=TP+TNTP+TN+FP+FN
(3)
Precision=TPTP+FP
(4)
Recall=TPTP+FN
(5)
F1=2×Precision×RecallPrecision+Recall
(6)
式中: TN——真負(fù)樣本;
FN——假負(fù)樣本;
FP——假正樣本;
TP——真正樣本。
3.3 試驗(yàn)結(jié)果與分析
為客觀評(píng)估模型效果,基于本研究建立的模型和近幾年主流分類(lèi)模型在木薯葉部病害圖像數(shù)據(jù)集上進(jìn)行試驗(yàn),圖4為各模型訓(xùn)練過(guò)程中損失值變化曲線(xiàn)。由圖4可以看出,隨著迭代次數(shù)增加,訓(xùn)練集和驗(yàn)證集損失下降至一個(gè)相對(duì)穩(wěn)定區(qū)域內(nèi)波動(dòng)。在驗(yàn)證集損失曲線(xiàn)中,其他對(duì)比模型在接近100個(gè)Epoch時(shí)還存在較小波動(dòng),而建立的模型在第80個(gè)Epoch后相對(duì)平滑,說(shuō)明本研究建立的模型可以提取有效特征,在提升識(shí)別性能同時(shí)節(jié)約訓(xùn)練時(shí)間。
試驗(yàn)?zāi)P蜏?zhǔn)確率和F1值如表2所示。顯然,所提出的方法實(shí)現(xiàn)試驗(yàn)?zāi)P椭凶罡邷?zhǔn)確率和F1值,其測(cè)試集準(zhǔn)確率和F1值分別達(dá)到90.75%、90.74%。可以看到各類(lèi)別F1值均有明顯提升,測(cè)試集中樣本量最少的細(xì)菌性枯萎病(CBB)的F1值提升14.42%~22.13%。這是因?yàn)樵谟?xùn)練過(guò)程中使用預(yù)訓(xùn)練模型和引入特征簇壓縮模塊。遷移學(xué)習(xí)通過(guò)利用源領(lǐng)域的知識(shí)和特征,在處理長(zhǎng)尾分布數(shù)據(jù)時(shí)可以提供更好的性能,減輕數(shù)據(jù)稀缺和類(lèi)別數(shù)據(jù)不平衡帶來(lái)的挑戰(zhàn)。特征簇壓縮模塊將少樣本類(lèi)別稀疏特征壓縮為稠密特征以減少樣本類(lèi)別錯(cuò)誤分類(lèi)概率。因此,所提出的方法可以適應(yīng)復(fù)雜背景下不平衡數(shù)據(jù)木薯葉部病害圖像的實(shí)際應(yīng)用。
為更直觀地觀察模型識(shí)別效果,使用Grad—CAM可視化病害識(shí)別過(guò)程,熱力圖中顯示紅色越深說(shuō)明模型對(duì)該區(qū)域關(guān)注越多。圖5展示各模型對(duì)3個(gè)樣本的識(shí)別結(jié)果,其中標(biāo)簽為細(xì)菌性枯萎病(CBB)的病害圖像中木薯葉片在陽(yáng)光照射下出現(xiàn)反光情況或處于陰影下紋理信息模糊,且褐色病斑和土壤雜草較為相似增加了識(shí)別難度;標(biāo)簽為健康葉片(Healthy)和木薯綠斑駁病(CGM)的圖像中由于葉片上存在雨水或處于發(fā)病初期病害癥狀不明顯,造成識(shí)別困難。這3個(gè)樣本在其他模型均識(shí)別錯(cuò)誤的情況下,本研究建立的模型可以對(duì)其進(jìn)行正確分類(lèi)。整體來(lái)看,該模型可以更好地聚焦于木薯病害區(qū)域,有效改善復(fù)雜背景下木薯葉部病害圖像識(shí)別效果。
為進(jìn)一步分析SwinTFCC模型在木薯葉部各類(lèi)病害圖像中的表現(xiàn),圖6繪制該模型在測(cè)試集上預(yù)測(cè)結(jié)果的混淆矩陣。每行數(shù)據(jù)之和表示該類(lèi)別真實(shí)標(biāo)簽數(shù)量,每列之和代表該類(lèi)預(yù)測(cè)標(biāo)簽數(shù)量,對(duì)角線(xiàn)代表各個(gè)類(lèi)別預(yù)測(cè)正確的數(shù)量。從圖6可以看出,樣本量最多的花葉病(CMD)分類(lèi)效果最好,而健康葉片(Healthy)最易被分類(lèi)為其他類(lèi)別。因此,對(duì)健康葉片錯(cuò)誤分類(lèi)圖像進(jìn)行分析,發(fā)現(xiàn)除極少圖像是由于分辨率較低造成識(shí)別錯(cuò)誤外,大部分圖像是由于標(biāo)簽錯(cuò)誤導(dǎo)致分類(lèi)錯(cuò)誤。圖7為真實(shí)標(biāo)簽為健康葉片,但SwinTFCC模型預(yù)測(cè)錯(cuò)誤案例。從圖7可以看出,圖中真實(shí)標(biāo)簽為健康葉片的圖像實(shí)際是病害圖像。說(shuō)明數(shù)據(jù)集中存在噪聲數(shù)據(jù),而本研究建立的模型可以將其準(zhǔn)確識(shí)別出來(lái),表明它對(duì)標(biāo)簽噪聲有一定的容忍度,而不容易受到噪聲數(shù)據(jù)的干擾,驗(yàn)證模型具有較強(qiáng)的魯棒性。
同時(shí),為比較不同模型的資源消耗情況,對(duì)于輸入尺寸為224像素×224像素圖像的模型參數(shù)量和計(jì)算量進(jìn)行統(tǒng)計(jì),并用模型識(shí)別圖像1 000次,計(jì)算圖像平均推理時(shí)間,具體的數(shù)據(jù)如表3所示。可以看出,改進(jìn)的SwinTFCC模型與SwinT模型相比,在提高性能的同時(shí)參數(shù)量、計(jì)算量和推理時(shí)間沒(méi)有明顯變化。
結(jié)果表明,對(duì)于復(fù)雜背景下不平衡木薯病害圖像識(shí)別問(wèn)題,改進(jìn)的SwinTFCC模型可以從復(fù)雜背景中提取有效特征,降低不平衡類(lèi)別數(shù)據(jù)分布中樣本少的類(lèi)別特征跨越?jīng)Q策邊界概率,且使用遷移學(xué)習(xí)進(jìn)行訓(xùn)練可將預(yù)訓(xùn)練模型中學(xué)習(xí)到的通用特征泛化到木薯病害識(shí)別問(wèn)題中,在一定程度上提升病害識(shí)別性能。
3.4 消融試驗(yàn)
為驗(yàn)證所提出模塊的有效性,對(duì)預(yù)訓(xùn)練模型和特征簇壓縮模塊進(jìn)行消融試驗(yàn),試驗(yàn)結(jié)果如表4所示。可以看出,在使用預(yù)訓(xùn)練模型時(shí),模型準(zhǔn)確率和F1值分別提升10.24%、11.06%,說(shuō)明在訓(xùn)練數(shù)據(jù)量較少時(shí),預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)到豐富的特征表示和知識(shí),可以泛化到稀有類(lèi)別,有助于提升小規(guī)模數(shù)據(jù)訓(xùn)練模型性能。在使用特征簇壓縮模塊時(shí),準(zhǔn)確率和F1值分別提升0.47%、0.45%。試驗(yàn)結(jié)果表明,所提出模塊在復(fù)雜背景下不平衡數(shù)據(jù)木薯葉部病害識(shí)別中展現(xiàn)出良好識(shí)別性能,驗(yàn)證模塊的有效性。
4 結(jié)論
針對(duì)實(shí)際種植場(chǎng)景下植物病害圖像背景復(fù)雜特征提取困難和樣本不平衡問(wèn)題,提出一種面向不平衡數(shù)據(jù)的木薯葉部病害識(shí)別方法。該方法以Swin Transformer為骨干網(wǎng)絡(luò),多尺度學(xué)習(xí)復(fù)雜背景圖像特征。將骨干網(wǎng)絡(luò)提取的最后一層特征輸入特征簇壓縮模塊,通過(guò)將少樣本類(lèi)別稀疏特征簇映射為密集特征簇,降低少樣本特征跨越?jīng)Q策邊界概率以減少不平衡數(shù)據(jù)錯(cuò)誤分類(lèi)。最后對(duì)壓縮后的特征進(jìn)行分類(lèi),并使用遷移學(xué)習(xí)進(jìn)行訓(xùn)練。在Kaggle網(wǎng)站公開(kāi)木薯葉部病害圖像數(shù)據(jù)集上各項(xiàng)試驗(yàn)結(jié)果驗(yàn)證該方法的有效性。
1)" 使用改進(jìn)的Swin Transformer模型在小規(guī)模不平衡木薯葉部病害圖像數(shù)據(jù)集上準(zhǔn)確率和F1值分別達(dá)到90.75%、90.74%,可以對(duì)復(fù)雜背景下不平衡木薯葉部病害圖像進(jìn)行有效識(shí)別,該方法為不平衡木薯葉部病害識(shí)別提供新的思路。
2)" 使用特征簇壓縮模塊和遷移學(xué)習(xí)進(jìn)行訓(xùn)練的模型F1值分別提升0.45%、11.06%。表明在處理長(zhǎng)尾分布數(shù)據(jù)時(shí),將少樣本類(lèi)別稀疏特征映射為稠密特征簇和預(yù)訓(xùn)練模型學(xué)習(xí)到的通用特征在一定程度上可以提升模型性能。
參 考 文 獻(xiàn)
[1] FAO.The state of food security and nutrition in the world 2023 [R]. Rome: FAO, 2023.
[2] 李叢希, 譚硯文. 新冠肺炎疫情下世界木薯產(chǎn)業(yè)發(fā)展趨勢(shì)、挑戰(zhàn)及對(duì)中國(guó)的啟示[J]. 農(nóng)業(yè)展望, 2022, 18(10): 26-32.
Li Congxi, Tan Yanwen.Development trends, challenges and enlightenment to China of the world cassava industry under the COVID-19 pandemic [J]. Agricultural Outlook, 2022, 18(10): 26-32.
[3] 胡敏, 陳紅波, 許良鳳, 等.基于顏色和紋理特征的黃瓜病害識(shí)別算法[J]. 電子測(cè)量與儀器學(xué)報(bào), 2015, 29(7): 970-977.
Hu Min, Chen Hongbo, Xu Liangfeng, et al. Cucumber disease recognition algorithm based on color and texture features [J]. Journal of Electronic Measurement and Instrumentation, 2015, 29(7): 970-977.
[4] 胡維煒, 張武, 劉連忠.基于Variance—SFFS的小麥葉部病害圖像識(shí)別[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 44(2): 225-228.
Hu Weiwei, Zhang Wu, Liu Lianzhong. Identification of wheat leaf diseases based on Variance—SFFS algorithm [J]. Journal of Hunan Agricultural University (Natural Sciences), 2018, 44(2): 225-228.
[5] Parikh A, Raval M S, Parmar C, et al. Disease detection and severity estimation in cotton plant from unconstrained images [C]. 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA), 2016: 594-601.
[6] Suresha M, Shreekanth K, Thirumalesh B. Recognition of diseases in paddy leaves using kNN classifier [C]. 2017 2nd International Conference for Convergence in Technology (I2CT), 2017: 663-666.
[7] 翟治芬, 徐哲, 周新群, 等. 基于樸素貝葉斯分類(lèi)器的棉花盲椿象危害等級(jí)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2015, 31(1): 204-211.
Zhai Zhifen, Xu Zhe, Zhou Xinqun, et al. Recognition of hazard grade for cotton blind stinkbug based on Naive Bayesian classifier [J]. Transactions of the Chinese Society of Agricultural Engineering, 2015, 31(1): 204-211.
[8] Xiao T, Liu H, Cheng Y. Corn disease identification based on improved GBDT method [C]. 2019 6th International Conference on Information Science and Control Engineering (ICISCE), 2019: 215-219.
[9]
Sladojevic S, Arsenovic M, Anderla A, et al. Deep neural networks based recognition of plant diseases by leaf image classification [J]. Computational Intelligence and Neuroscience, 2016.
[10] Agarwal M, Gupta S K, Biswas K.Development of Efficient CNN model for tomato crop disease identification [J]. Sustainable Computing: Informatics and Systems, 2020, 28: 100407.
[11] Wu Zhao, Jiang Feng, Cao Rui. Research on recognition method of leaf diseases of woody fruit plants based on transfer learning [J]. Scientific Reports, 2022, 12(1): 15385.
[12] 衛(wèi)雅娜, 王志彬, 喬曉軍, 等. 基于注意力機(jī)制與EfficientNet的輕量化水稻病害識(shí)別方法[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2022, 43(11): 172-181.
Wei Yana, Wang Zhibin, Qiao Xiaojun, et al. Lightweight rice disease identification method based on attention mechanism and EfficientNet [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(11): 172-181.
[13] Haque M A, Marwaha S, Deb C K, et al.Deep learning-based approach for identification of diseases of maize crop [J]. Scientific Reports, 2022, 12(1): 6334.
[14] Li Gaoqiang, Jiao Lin, Chen Peng, et al. Spatial convolutional self-attention-based transformer module for strawberry disease identification under complex background [J]. Computers and Electronics in Agriculture, 2023, 212: 108121.
[15] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [C]. International Conference on Learning Representations, 2021.
[16] Han Kai, Xiao An, Wu Enhua, et al. Transformer in transformer [J]. Advances in Neural Information Processing Systems, 2021, 34: 15908-15919.
[17] Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers amp; distillation through attention [C]. Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021: 10347-10357.
[18] Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 9992-10002.
[19] Chawla N V, Japkowicz N, Kotcz A. Special issue on learning from imbalanced data sets [J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 1-6.
[20] Mani I, Zhang I. Knn approach to unbalanced data distributions: A case study involving information extraction [C]. Proceedings of Workshop on Learning from Imbalanced Datasets, 2003: 1-7.
[21] Kang B, Xie S, Rohrbach M, et al. Decoupling representation and classifier for long-tailed recognition [J]. arXiv:1910.09217, 2019.
[22] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[23] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2818-2826.
[24] Li Jian, Meng Ziyao, Shi Daqian, et al. FCC: Feature clusters compression for long-tailed visual recognition [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 24080-24089.
[25] Li X, Chen X, Yang J, et al. Transformer helps identify kiwifruit diseases in complex natural environments [J]. Computers and Electronics in Agriculture, 2022, 200: 107258.
[26] Wang Fengyi, Rao Yuan, Luo Qing, et al. Practical cucumber leaf disease recognition using improved Swin Transformer and small sample size [J]. Computers and Electronics in Agriculture, 2022, 199: 107163.