













摘要:為有效提升蘋果葉片病害識別的精度和效率,實現病害的及時防治進而提高蘋果產量,本研究提出一種基于改進ResNet18神經網絡的蘋果葉片病害識別方法,可在提升模型識別性能的同時減少參數量和模型尺寸。首先,改進ResNet模型的殘差結構,以減少參數量,實現模型輕量化;其次,引入坐標注意力(CA)機制并進行遷移學習,進一步提升模型的泛化性能。將改進ResNet18模型與原始ResNet18神經網絡進行對比實驗,結果發現,改進模型的準確率提升了1.53個百分點,但模型參數量減少為原始模型的50. 840-/0。表明本研究提出的改進ResNet18模型可有效識別蘋果葉片病害,且方便移動端搭載。
關鍵詞:蘋果葉片病害識別;卷積神經網絡;ResNet18模型;殘差結構;坐標注意力機制;遷移學習
中圖分類號:S661.1: S126 文獻標識號:A 文章編號:1001-4942(2024)10-0174-07
我國是蘋果生產大國,蘋果產業對于提高果農收入、促進農村經濟發展、改善人民生活水平具有重要的現實意義。然而,蘋果生長期間經常面臨多種病害的威脅,導致果實產量和質量均受到較大影響。因此,蘋果病害的準確識別對果農及時采取相應防治措施、減輕對果實產量和質量的影響具有重大意義。在蘋果病害識別方面,目前主要采取傳統的人工檢測方法,然而不同專家的個人經驗積累不同,在知識和經驗上存在一定的局限性,導致這種方法存在主觀性強、準確率不穩定、時效性差等缺點,不能實現蘋果病害的及時有效識別。
近年來人工智能技術特別是深度學習算法得到迅速發展和應用,已在多領域的目標屬性預測與圖像識別等任務中取得優異性能,大大提升了各項預測和識別任務的準確性和魯棒性。在農業病害識別領域,深度學習亦得到了廣泛應用。例如:楊非凡等,將Focal Loss損失函數與多種卷積神經網絡進行融合,選擇在水稻數據集上識別性能最佳的MobileNetV2模型對7種水稻病害進行識別,最高準確率達到98.06%。劉擁民等通過引入ConvNeXt殘差模塊、構建雙分支結構等方法,提出一種基于改進ResNet的多尺度雙分支結構的水稻病蟲害識別模型MSDB -ResNet,與原模型相比,其識別準確率提高了2.42%。胡文藝等通過引入SE注意力機制對殘差神經網絡ResNet進行改進,使模型的平均識別準確率提升至97.96%。陳偉文等采用數據增強和隨機失活部分神經元等方法對AlexNet卷積神經網絡模型進行改進,改進后的模型F1分數值比原模型提升了3%。戴久竣等采用金字塔網絡結構,用深度超參化卷積層替換傳統卷積層等方法對深度殘差神經網絡ResNet50進行改進,并將其應用于葡萄葉片病害識別任務中,實驗結果表明改進模型的識別準確率達到98.20%。蘇仕芳等將VCG-16運用在ImageNet圖像數據集上,實現葡萄葉片病害識別的準確率達到96.48%。何前等在AlexNet模型中引入池化層,并將原始Relu激活函數替換為Leaky Relu函數,得到改進的AlexNet模型,在葡萄葉片病害識別方面的準確率可達到99.1%。可見,將人工神經網絡應用于農業病害識別領域,可有效地解決傳統病害識別方法效率和準確率低的問題。
深度學習算法在蘋果葉片病害識別方面也有一定研究。潘仁勇等將SE注意力機制與遷移學習相結合,提出一種基于DTS - ResNet的蘋果葉片病害識別方法,其準確率達到98.73%。吳剛正等提出一種殘差網絡與注意力機制相結合的蘋果葉片病害識別模型P-D-ECA-ResNet101,相較于原始ResNet101模型,改進后模型的平均識別準確率提升了2.20%。陳聰等在神經網絡模型ResNet50的基礎上,對殘差網絡結構進行改進并引入遷移學習,構建了一種改進的REP -ResNet模型,識別準確率較基礎網絡模型提高了2.41%。雖然這些模型的性能在一定程度上得到了提升,但模型的參數量和所占內存較大,不利于移動端搭載,限制了其開發應用。為了更好地兼顧蘋果葉片病害識別模型的性能和規模,本研究以ResNet18為基礎網絡,改進殘差結構并引入CA注意力機制和遷移學習,以期在減少模型參數量的同時提升模型的訓練速度和性能,實現對蘋果葉片病害的快速有效識別。
1 材料與方法
1.1 數據來源和數據集構建
本研究所用圖像數據來源于3個公開的數據集——Plant Village數據集、Plant Pathology2021數據集、AppleLeaf9_main數據集,經過整理,共得到五類蘋果葉片圖像,包括黑星病葉、黑腐病葉、銹病葉、白粉病葉及健康葉。為了防止模型過擬合,采用旋轉、鏡像等數據增強操作對數據集進行擴充,最終共得到9 188張圖片,然后按照7:3的比例劃分訓練集和測試集。為了加快模型的訓練速度,統一將圖片大小設置為224x224像素。數據集具體信息及五類蘋果葉片圖像示例分別見表1、圖1。
1.2 蘋果葉片病害識別模型構建
He等在2015年提出了ResNet(ResidualNetwork)神經網絡模型,并且在模型結構中引入了殘差模塊,該模塊有助于緩解梯度消失問題,使得網絡擁有更深的層次和更優異的性能。本研究選用ResNet家族中的ResNet18模型作為基礎網絡模型,然后改進殘差結構并引入CA注意力機制和遷移學習,以達到精簡模型和提升模型泛化能力的目的。改進ResNet18模型的核心結構大致分為四段,分別為Res -1、Res -2、Res -3和Res-4,每段包含兩個改進后的殘差模塊。改進后的模型結構如圖2所示。
1.2.1 改進ResNet殘差結構
為了減少模型參數量和所占內存,同時兼顧識別性能,對Res-Net18網絡的殘差結構進行改進,即將殘差結構中的第二個3×3卷積層替換為1×1卷積層,并設置合適的步幅(Stride)與填充(Padding),在其后再引入最大池化層(MaxPool),從而有效提取模型的特征信息,減少模型計算復雜性。改進前后的殘差結構如圖3所示。
1.2.2 引入CA注意力機制
為在獲取跨通道信息的同時捕獲物體的方向和位置信息,新加坡國立大學的Hou等提出了一種輕量級的坐標注意力機制(Coordinate Attention,CA),其結構如圖4所示。該機制將位置信息嵌入到通道信息中,以少量的參數開銷作為代價,提升了模型的識別性能。本研究在ResNet18模型的殘差模塊中引入CA注意力機制。
CA注意力機制對特征進行分解,從空間上捕獲位置信息,具體來說,首先,分別沿垂直和水平兩個方向,對輸入特征圖進行全局平均池化操作,得到形狀為[C,H,1]和[C,1,W]的特征圖:然后進行拼接操作將兩個方向的特征圖拼接在一起,送人卷積核為1×I的卷積模塊中,形成新的特征圖f∈RC/rX(H+W)×1:經過批量歸一化處理,融合后的特征圖分為兩個并行分支fh∈RC/r×H×1與fw∈R/r×1×W:用兩個1×1卷積層調整特征圖的通道數,經過Sigmoid函數得到特征圖向量,最后在原始特征圖上進行乘法加權計算,得到最終的CA注意力機制輸出。
1.2.3 融入遷移學習
遷移學習是將源領域知識遷移至目標域,以便在新領域任務中實現性能改進的一種手段。為了進一步提高學習模型的性能,本研究將在ImageNet數據集中預訓練好的ResNet18模型權重參數遷移至本模型中,并對模型參數和網絡進行微調以適應本數據集。遷移學習原理如圖5所示。
1.3 實驗環境及參數設置
實驗環境配置:Windows 10操作系統,16 GB內存,型號為AMD Ryzen 5 5600H with RadeonCraphics的處理器,頻率為3.30 GHz;Anaconda的4.5.11版本作為開發環境,Python3. 10作為編程語言,神經網絡模型的訓練和測試均在Tensor-Flow框架上進行:為了縮短訓練時間,采用GPU(圖形處理單元)進行數據集訓練。
因為數據集較大,為了使GPU能順利訓練模型,將每個批次的圖片數量(batch size)設為16,并將訓練輪次設置為100。此外,學習率是模型的重要參數,經過多次實驗,根據模型每7個周期的損失值是否減小作為判斷條件,將學習率衰減為原來的80%,即將學習率設置為0.000 1。模型優化使用Adam優化算法實現。
1.4 模型性能評價指標
采用準確率、精確率、召回率與F1分數作為評價模型性能的指標,其中,準確率是預測正確的樣本數與總樣本數之間的比例,是機器學習中重要的基本評價指標,值越高,表明模型的預測結果越準確:精確率表示在機器預測為正類的所有樣本中實際為正類的樣本所占的比例,是衡量模型對樣本預測的準確程度的一項重要指標:召回率表示在所有實際為正類的樣本中能被模型正確預測為正類的樣本所占的比例,值越高,意味著模型對正樣本預測的成功率越高:F1分數結合了精確率與召回率,值越大,說明模型的性能越好,是衡量模型性能的常用指標。各指標計算公式如下:
式中,A為準確率,P為精確率,R為召回率,F1為F1分數:TP表示模型將正樣本預測為正樣本的個數,TN表示模型將負樣本預測為負樣本的個數,FP表示模型將負樣本預測為正樣本的個數,FN表示模型將正樣本預測為負樣本的個數。
2 結果與分析
2.1 殘差結構改進前后的模型性能對比分析
利用測試集數據對殘差結構改進前后的模型性能進行測試,由圖6和表2可知,與ResNet18模型相比,殘差結構改進后的模型參數量減少了49.84%,僅為21.39 M;模型大小降低了14. 62%,為90.50 MB;而模型準確率提升了o.46%,達到96.87%。表明本研究針對ResNet模型殘差結構的改進能有效減少模型參數量和所占內存,并增強模型的識別性能。
2.2 消融實驗結果分析
為了評估各項改進措施對模型性能的影響,本研究進行了一系列消融實驗,結果如表3所示。在ResNet模型基礎上依次增加3項改進措施(改進模型殘差結構、加入CA注意力機制和遷移學習),模型的準確率、精確率、召回率及F1分數都得到提升,尤以同時進行了3項改進的模型提升效果最好,較原模型分別提升了1.53、1.41、1.54、1.47個百分點。
2.3 改進ResNet18模型與其他網絡模型的性能對比分析
為了進一步評價改進模型的性能,將其與經典神經網絡模型DenseNet121、GoogLeNet、Res-Net18、ResNet34、ResNet50進行對比實驗,結果如表4和圖7所示。可以看出,在保持實驗條件和參數設置一致的條件下,3種深度的ResNet模型中,ResNet18模型由于分類數和圖片數量相對較少,表現出最快的收斂速度和最佳的模型性能,準確率、精確率、召回率和F1分數均高于ResNet34和ResNet50。改進ResNet18的性能明顯優于上述3種ResNet模型以及DenseNet和GoogLeNet模型,準確率、精確率、召回率和F1分數分別提高1. 53% -3.24%、1.24% -3.43%、1.60% -3. 14%、1.52% -3. 29%;但模型參數量最少,僅21.68 M,為原始ResNet18模型的50. 84%,較DenseNet121和GoogLeNet模型也分別少8.76 M和1.13 M。表明改進后的模型在性能和復雜度之間取得了不錯的平衡,為其在移動端部署和應用提供了可能,同時也進一步驗證了模型改進的有效性。
2.4 改進ResNet18模型對蘋果葉片病害識別的混淆矩陣
混淆矩陣能對模型性能進行可視化展示,它的行、列分別表示實際類別和模型的預測類別,因此,對角線元素反映了模型預測的準確性,顏色越深表示模型預測準確性越高:而非對角線元素則反映了模型錯誤分類的結果,顏色越深表示模型錯誤分類的比例越高。根據模型的訓練效果,基于測試集數據,得到改進ResNet18模型與原Res-Net18模型識別蘋果葉片病害的混淆矩陣,見圖8。可以看出,兩種模型對角線元素的數值遠遠高于其他元素,且具有更深的顏色,證明模型在蘋果4種病害葉和健康葉的識別方面具有出色性能,尤其改進ResNet18模型對五類蘋果葉片的識別效果更優。蘋果黑星病在病癥初期特征不明顯,因此模型將蘋果黑星病葉與健康葉互相混淆的概率較高;其次,白粉病葉與健康葉的特征相似,模型也容易將它們錯誤分類。但改進ResNet18模型對這兩種識別分類錯誤情況均有明顯改善,將黑星病葉與健康葉誤分的圖片數量從59張減少到23張,將白粉病葉和健康葉誤分的圖片數量從20張減少到8張。綜合來看,改進ResNet18模型在蘋果葉片病害識別方面具有出色性能。
3 結論
本研究通過改進ResNet18模型殘差結構以及引入CA注意力機制和遷移學習,提出了一種改進ResNet18模型,將其應用于蘋果葉片病害的識別,取得了較好的效果,準確率、精確率、召回率和F1分數分別達到97.96%、97.97%、97.86%、97.90%,分別比原ResNet18模型提高1.53、1.41、1.54、1.47個百分點,但模型參數量減少為原模型的50. 84%,僅為21.68 M。表明本研究提出模型在提升性能的同時降低了模型的復雜性,更有利于移動端搭載和應用。
蘋果葉片病害的種類繁多,但本研究所用數據集僅包含4種病害,限制了所提出模型的應用廣度。接下來將收集包含更多蘋果葉片病害種類和病害癥狀的圖像樣本,豐富數據集,并進一步優化模型,提高模型的泛化能力,擴大模型的適用范圍。另外,嘗試將優化的模型運用于實際生產中,通過搭建蘋果葉片病害識別平臺,實現對蘋果葉片病害的及時、準確識別,并提供相關治療指導方案,這將對蘋果產業發展具有重要的現實意義。
基金項目:山東省重大科技創新工程項目“現代果園智慧種植裝備與大數據平臺研發及示范應用”(2019JZZY010706)