司永勝 曹珊珊 張曉雪 籍 穎 呂繼興
(河北農業大學河北省農業大數據重點實驗室, 保定 071001)
苦痘病是在蘋果收獲和存儲期間容易產生的一種病害,一些果園的苦痘病發病率高達50%以上,給蘋果生產者造成了很大的經濟損失[1-2]。苦痘病發病開始時,患病部位皮下的部分果肉發生褐變,并干縮成海綿狀,病部表皮組織壞死,病害組織部位逐步變為暗褐色,向內凹陷并逐步深入果肉[2]。一般認為苦痘病的發生和蘋果的鈣元素缺乏及氮濃度較高有關,但目前還沒有完全揭示該病的原理[3-4],甚至還有一些研究結果相互矛盾[5-7]。苦痘病檢測手段的局限性制約了苦痘病的研究進展,在對苦痘病的相關研究中,需要對患病蘋果以及患病部位進行準確識別。目前,對苦痘病的患病與否及嚴重程度主要通過人眼根據果實表面的病斑數量和尺寸進行判別[8-9]。然而,在發病初期,苦痘病在果實外部沒有癥狀,所以很難識別患病初期的果實[10]。
熒光成像技術曾被應用于蘋果的苦痘病檢測,但錯誤率較高,健康果實和患病果實的誤識別率約為50%[11]。高光譜近紅外成像系統也被成功應用于研究蘋果的苦痘病病變[12]。這兩項研究是針對蘋果表面的苦痘病癥狀進行檢測。上述這些方法主要基于果實表皮或表皮很淺部位的信息,無法獲取到果實內部苦痘病的信息[10,12-13],因此,對苦痘病的識別準確率不高,并且不能識別患病早期的苦痘病果實。
CT(Computerized tomography)全稱為電子計算機斷層掃描,堆疊的CT圖像數據可以提供生物物質的物理和生理結構信息。文獻[14-16]利用CT技術對蘋果的酸度、可溶性固形物等內部品質進行了研究,取得了一定的成果。蘋果苦痘病的成因和鈣元素的濃度有關,果實的苦痘病部位和健康部位鈣元素濃度不同,因此,患病部位和健康部位在CT圖像中應該有不同的顯現。基于此假設,文獻[10]基于CT成像技術利用邏輯回歸對貯存期的苦痘病蘋果和健康蘋果進行了成功分類,但是成功率較低,總體精度為70%, 假陽性為38%, 假陰性為22%,果實磕碰傷是影響準確率的主要因素。文獻[17]利用CT成像技術對苦痘病在果實表面和果實內部的發展情況進行了研究,對不同的患病部位進行識別,和文獻[10]研究類似,果實的磕碰傷影響了研究的準確性。蘋果在采后貯運過程中經常會受到輕微的擠壓、振動、碰撞等,從而造成磕碰傷。磕碰傷在早期難以識別,隨著時間的推移,微生物、病原體等會入侵蘋果的磕碰傷部位,從而導致蘋果腐爛[18]。
為了更深入地研究苦痘病的發病機理,需要對病害的產生、發展進行持續、準確、量化的無損檢測。此外,為了培育抗苦痘病的蘋果品種,育種專家開始嘗試利用基因技術等手段[5,10]。上述研究中對蘋果苦痘病的量化以及對新品種蘋果的抗苦痘病表型研究,都需要苦痘病準確識別技術的支持。文獻[10]研究表明,磕碰傷影響了蘋果苦痘病識別的準確率。
本文基于CT成像技術,實現苦痘病和磕碰傷的識別,以期提高蘋果苦痘病的識別率,為蘋果苦痘病的研究提供技術支持。
從市場購買56個富士蘋果,其中外表健康蘋果27個,外表有微小苦痘病病斑蘋果29個,將所有蘋果隨機分于A、B兩箱放置。A箱中存放32個蘋果,每層8個蘋果,共4層。B箱中存放24個蘋果,每層8個蘋果,共3層。擺放時,保證每個蘋果都是花萼朝下,果頂朝上。不同層蘋果都有泡沫隔板隔開,以免蘋果產生擠壓。為便于后期識別,每個蘋果用記號筆標有序號。
將蘋果貯存在3℃的冷藏室中放置10 d,苦痘病病斑略有增大,患病蘋果表皮病斑直徑最大約為4 mm。從兩箱蘋果中取出健康果12個、患病果16個進行磕碰傷實驗,實驗方法與文獻[20]類似:將蘋果由30~40 cm高度自由跌落到瓷磚地面,蘋果磕碰位置隨機。磕碰后的蘋果放回箱子原位置。磕碰傷為內部損傷,蘋果表面沒有破損,人眼不容易辨別正常表面和損傷。隨后由醫院的CT設備操作人員將兩箱蘋果放入CT機進行掃描,獲取蘋果的CT圖像。圖1為蘋果的擺放示例圖。CT機的型號為飛利浦Brilliance iCT。本文的數據處理與分析采用Matlab 2017a軟件。
掃描后得到337幀CT掃描圖像,每幀掃描圖像中包含多個蘋果,將337幀圖像裁剪為1 094幅子圖像,使每幅子圖像包含1個蘋果。具體裁剪方法如下:
利用OTSU法進行二值化后,對二值圖像進行區域標記,并去除面積小于500像素的區域[21]。然后對區域標記后的圖像中的所有區域求取最小外接矩形[10],如圖2所示,根據最小外接矩形的位置并將所有邊長增加50像素進行裁剪,則可得到只包含1個蘋果的子圖像。
根據蘋果體積的不同,每個蘋果有5~11幅子圖像,將每個蘋果的子圖像按序號和掃描出的順序重新命名。本文基于上述子圖像進行研究。
將圖像中苦痘病和蘋果磕碰傷區域定義為傷病區域,為便于后期的特征提取和分類識別,需準確定位蘋果圖像內部的傷病區域。在面積大于5 000像素的果實圖像中,存在果核。蘋果果核和傷病區域顏色類似,在自動定位傷病區域時會造成干擾。苦痘病一般不出現在蘋果果核部位[10],故對果核部分進行去除。首先對圖像進行中值濾波后提取果實的邊緣,計算果實質心到邊緣像素的距離并取均值,將其視為果實半徑。以質心為圓心,以果實半徑為半徑畫圓,將圓內的像素轉換為背景,從而去除果核。去除果核后的傷病區域與圖像其他部分的灰度值有明顯差異,利用OTSU法進行圖像二值化,得到傷病區域的定位。圖3為傷病區域定位過程。
特征信息的提取與選取對分類識別結果有很大影響,對原始圖像預處理后,本文提取了傷病區域的形狀特征、紋理特征和位置特征,共18種特征信息[22],見表1。并得到一個108行、18列的特征矩陣,其中屬于蘋果苦痘病的特征信息57組,屬于磕碰傷的特征信息51組。

表1 特征信息Tab.1 Feature information
表1所述特征中, 需要對位置特征的確定進行說明:根據預處理時去果核操作,得到蘋果果核上下頂點坐標,以上下頂點坐標左右延長作直線,得到圖4中的直線L1和直線L2。以直線L1和直線L2作為分界線,將蘋果CT圖像進行大致均等分割,直線L1以上部分蘋果的莖端標記為1,直線L1與直線L2之間蘋果中部標記為2,直線L2以下部分蘋果的花萼末端標記為3。根據蘋果苦痘病和磕碰傷所處位置提取位置特征。當傷病區域橫跨在分界線L1或L2上時,根據傷病區域所在部分面積最大確定位置特征。
特征信息的選取對識別準確率有很大影響。本文采用多元逐步回歸(Stepwise multiple linear regression,SMLR)和基于類距離的可分離性判據兩種方法對特征信息進行選取,以選取的共同特征信息作為本文的特征信息,用于對蘋果苦痘病和磕碰傷識別。
1.4.1多元逐步回歸
多元逐步回歸是研究多個變量之間相互依賴關系的優化方法。其原理[23]為,從一個解釋變量出發,根據解釋變量對被解釋變量影響顯著性,從大到小引入回歸方程,同時將對被解釋變量影響不顯著的解釋變量剔除。當引入一些解釋變量導致之前的解釋變量失去重要性時,也將其從回歸方程中剔除,直到回歸方程中只包含對被解釋變量有顯著影響的變量Y。多元逐步回歸方程為
Y=β0+β1x1+β2x2+…+βpxp
(1)
式中p——解釋變量個數
βp——回歸方程各指標的回歸系數
xp——解釋變量
Y——被解釋變量
1.4.2基于類距離的可分離性判據
在進行特征選取時,需依據一個定量分析的方法衡量特征信息對分類的有效性,這種方法被稱為類可分離性判據[24]。依據類可分離性判據對這些特征信息進行特征選取,選擇一個能最大化分類性能且之間冗余性最小的特征子集[25]。
類可分離性判據大體分為基于幾何距離的可分離性判據、基于類的概率密度函數的可分離性判據與基于熵的可分離性判據。由于本文提取的特征信息是多特征、非線性的,故使用基于幾何距離的可分離性判據中類距離的可分離性判據進行特征信息選取。基于類距離的可分離性判據是一種常用的判據,它實際上是各類特征向量之間的平均距離,即特征向量之間的矩陣距離,特征信息之間的類距離越大則該特征越易于分類[26]。
1.5.1支持向量機
采用構建支持向量機模型對蘋果苦痘病和磕碰傷進行識別。支持向量機是常用的分類方法,其泛化能力強,可以有效避免過擬合、神經網絡中的局部最小化,以及樣本維數高導致的計算量大的問題[27-28]。
對于線性不可分數據集[xi,yi],xi∈Rn,yi∈{-1,1}。此時支持向量機為求解一個最優化問題
(2)
式中ξ——松弛變量
c——正則化參數
ω——權值向量,決定了超平面的方向
b——偏置向量
引入Lagrange乘子法求解上述方程,并分別對ω、b求偏導數令其等于零,根據求解對偶問題,得到最終表達式為
(3)
式中ai、aj——Lagrange乘子
K(xi,xj)——核函數
支持向量機核函數中,徑向基核函數適用于非線性問題分類,對于大樣本或小樣本,都有較好的性能,其計算復雜度不隨著參數變化發生改變[27-29]。本文采用徑向基核函數構建支持向量機模型,其表達式為
K(xi,xj)=exp(-γ‖xi-yj‖2) (γ>0)
(4)
式中γ——可調核參數,默認值為1/7
1.5.2遺傳算法優化支持向量機參數
正則化參數c和核參數γ對于支持向量機模型的識別結果有較大影響[30]。因此在使用支持向量機模型進行識別時,需要對正則化參數c和核參數γ進行調節和優化。默認參數的支持向量機在進行參數選擇時,多是用網格遍歷等方法確定,效率低,耗時長。
遺傳算法(Genetic algorithm, GA)是一種模擬自然進化過程搜索最優解的方法,具有高效、并行、全局搜索等優點,在搜索過程中依據優勝劣汰原則,信息交換隨機,會自動獲取積累空間的信息知識而得到最佳值[31]。采用遺傳算法優化支持向量機,找到參數c和γ的最優解。
算法步驟如下:
(1)種群初始化:采用7位長度的二進制字符串對正則化參數c和核參數γ進行編碼。
(2)適應度函數:本文將K-fold交叉驗證的SVM分類準確率作為適應度函數值,初始化的個體值(c和γ)作為K-fold交叉驗證的輸入,K-fold交叉驗證法是將原始樣本分成K組,將每個子集樣本分別作為一個測試集,其余K-1組樣本作為訓練集,得到K個SVM分類模型,用這K個模型最終測試集的平均分類準確率作為適應度函數輸出值。根據交叉驗證分類準確率的升序排序位置,將適應度函數輸出值映射到0~100%之間,映射公式為
(5)
式中R——平均分類準確率的升序排序位置
N——種群數量,取20
F——適應度
(3)選擇操作:設定適應度篩選閾值為20%,淘汰適應度小于20%的個體,選擇優良個體進行后續操作。
(4)交叉、變異操作:使用單點交叉,設定交叉概率為0.7,隨機產生交叉點并交換兩父代的右半部分;使用二進制變異,設定變異概率為0.035,對進行變異的個體隨機選擇變異位進行變異,將染色體二進制位邏輯取反。經過交叉和變異產生新的個體,補全種群數量,增強算法全局搜索能力。
經過上述遺傳算法優化選擇后,得到正則化參數c和核參數γ最佳組合,將其引入支持向量機模型中,以提高支持向量機模型的識別準確率。
采用多元逐步回歸和類距離可分離性判據對提取到的蘋果苦痘病和磕碰傷處的特征信息進行選取。將這2種方法選取得到的共同特征信息作為本文的選用特征信息,用于后續對蘋果苦痘病和磕碰傷的識別。
將18種特征信息作為解釋變量依次引入多元逐步回歸模型,得到了4種對被解釋變量即真實值影響最顯著的特征信息,分別為 Position、Metricl、MajAxisL、Mmin,其顯著性差異P<0.05(具有極其顯著的統計學差異)。
采用類距離可分離性判據對18種特征信息選取,圖5為這18種特征信息的類距離,圖中,1~18分別表示Area、MajAxist、MinAxisL、Orie、Eccent、Conve、Filled、EquivD、Extent、Perimeter、Metricl、Grayaver、Varie、Mmax、Mmin、Ment、Solidity、Position。根據類距離,選取前5種類距離較大的特征信息,分別為Metricl、MajAxisL、Eccent、Position、Solidity。
結合多元逐步回歸和類距離的可分離性判據對特征信息的選取結果,選取共同特征信息,得到3種對蘋果苦痘病和磕碰傷識別影響顯著的特征信息,分別為Position、Metricl 、MajAxisL。繪制出相應的特征數據可視化圖,將蘋果苦痘病和磕碰傷分別用不同的顏色標出,更加直觀地觀察這3種特征信息的分布。圖6為這3種特征的數據可視化圖。
從Position上可以看出,苦痘病的病害部分大部分都發生于花萼末端, 即花萼部位,其它位置有極少量分布,這和文獻[2]的研究相符,盡管隨機選取位置進行磕碰,但是磕碰傷大多分布在中部,這可能和評估的形狀相關。特征信息Metricl和MajAxisL均屬于形狀特征,結合2種特征數據可視化圖可以看出,蘋果苦痘病似圓度與標準二階中心矩橢圓長軸長度的數據和蘋果磕碰傷的似圓度與標準二階中心矩橢圓長軸長度的數據相比較小,且在標準二階中心矩橢圓長軸長度中磕碰傷的數據最大可接近40像素。由此可以得知蘋果苦痘病的形狀與磕碰傷相比更規則,這是因為磕碰傷的產生比較隨機,因此形成的磕碰傷形狀各異。
根據以上分析,特征信息Position、Metricl、MajAxisL可用于作為識別分類蘋果苦痘病和磕碰傷的特征信息。
為了保證數據的真實可靠性,對應蘋果標號,將含有傷病的蘋果進行實際切片處理,切片時對照蘋果CT圖像,保證傷病區域可以在蘋果切面顯現。苦痘病病斑多于內部發生,所處深度距蘋果表面約3 mm。由3位蘋果園藝專家根據蘋果苦痘病及磕碰傷的病理特征,對蘋果切面上的傷病區域進行鑒別,將鑒別結果作為真實值。在構建蘋果苦痘病和磕碰傷識別模型時,首先將108組蘋果苦痘病和磕碰傷數據按7∶3和8∶2的比例隨機分為訓練數據和測試數據;之后分別使用默認參數的支持向量機和遺傳算法優化的支持向量機(GA-SVM)建立蘋果苦痘病和磕碰傷的識別模型,使用訓練數據對模型進行訓練,利用測試數據對模型進行測試。
默認參數的支持向量機對蘋果苦痘病和磕碰傷的識別結果總體準確率高于84%,平均誤差為14.6%。遺傳算法優化的支持向量機對蘋果苦痘病和磕碰傷的識別結果總體準確率高于93%,平均誤差為5.4%。
默認參數的支持向量機誤識別的主要原因是傷病區域特征信息具體數據值分布特點不明顯,以及正則化參數c和核參數γ值不恰當導致對支持向量機泛化能力的影響。如圖7所示,通過3名蘋果園藝專家鑒別,此傷病區域為苦痘病,極易被誤判為磕碰傷,其特征信息Position 為1、Metricl為0.543 6、MajAxisL為19.442 6。根據圖6可知,苦痘病區域的Position數據值大多分布于位置3,Metricl多分布于0.7以上,MajAxisL多數小于15。所以在默認參數的支持向量機中,特征信息數據分布特點不明顯的傷病區域極易被誤判, 經過遺傳算法優化后的支持向量機算法,可以更好地識別特征信息分布不明顯的傷病區域,提高蘋果苦痘病和磕碰傷的識別準確率。
采用遺傳算法對支持向量機的正則化參數c和核參數γ進行優化時,種群個體適應度和迭代次數之間的關系曲線如圖8所示。從圖8可以看出,隨著迭代次數的增加,種群的最優個體適應度增加,最后大致穩定在93.4%,此時正則化參數c和核參數γ的最佳組合為{c=27.306 3,γ=2.498 9}。將優化結果引入支持向量機模型中對蘋果苦痘病和磕碰傷進行識別,達到最優的分類性能。
為了驗證遺傳算法優化正則化參數c和核參數γ對支持向量機模型的影響,將默認參數的支持向量機與GA-SVM對苦痘病和磕碰傷識別的結果作對比,具體識別結果如表2所示。

表2 識別結果Tab.2 Recognition result
通過表2可知,GA-SVM對蘋果苦痘病和磕碰傷的識別準確率遠高于默認參數的支持向量機,且其運行時間也短于默認參數的支持向量機。遺傳算法具有高效、并行、全局搜索等優點,可以高效、快速地完成參數的全局搜索,得到最優參數,GA-SVM的識別準確率和運行時間都明顯優于默認參數的支持向量機。
統計檢測結果,共檢測出57個苦痘病病斑,33個苦痘病病斑位于蘋果表面,分布于29個蘋果樣本;24個苦痘病病斑位于蘋果內部,其中19個苦痘病病斑位于10個表面帶有病斑的蘋果樣本內部,5個苦痘病病斑位于2個表面健康的蘋果樣本內部。該檢測結果和文獻[10,17]的結論相符,即較大比例的苦痘病于蘋果的內部產生,并且在部分果實中,病斑完全存在于果實內部。
研究結果表明,GA-SVM分類算法可以快速、準確地識別蘋果苦痘病和磕碰傷,證明了遺傳算法優化支持向量機模型的優越性。
(1)對CT圖像進行預處理,得到傷病區域,并對傷病區域進行形狀特征、紋理特征及位置特征的提取,為特征選取奠定了基礎。
(2)為了選取得到識別蘋果苦痘病和磕碰傷的特征信息,利用多元逐步回歸和類距離可分離性判據2種方法分別選取特征信息,根據2種方法選取的重合特征信息,得到3種特征信息作為選用特征信息。
(3)利用遺傳算法優化支持向量機模型,實現了正則化參數c和核參數γ的自動優化,克服了支持向量機參數選擇的盲目性,提高了支持向量機模型的識別準確率。
(4)將GA-SVM與默認參數的支持向量機對蘋果苦痘病和磕碰傷進行識別的結果作對比。GA-SVM的識別準確率高達95.5%,其識別準確率和運行時間都明顯優于默認參數的支持向量機,證明了遺傳算法優化支持向量機模型的優越性。