孫玉婷 楊紅云 王映龍 周瓊 孫愛珍 楊文姬
摘要:本研究探討了水稻葉長、葉寬與葉面積之間的關系。應用改進網格搜索算法參數優化后的支持向量機對計算機圖像處理技術測量所得到的樣本數據進行訓練,以水稻葉片長度(L),葉片最大寬度(W)、葉面積回歸擬合值(S)作為輸入變量對水稻葉面積進行預測。結果表明,在不同的水稻品種下,相比于其他模型本研究提出的支持向量機Ⅲ模型預測結果的均方根誤差和平均相對誤差最低,均方根誤差分別為1.882 1(兩優培9),1.387 3(金優458)和1.348 2(中早35),平均相對誤差分別為2.901 4%(兩優培9),5.273 5%(金優458)和4.929 3%(中早35)。該模型能較真實地反映水稻葉面積的實際大小,滿足農業科學研究的需求,為植物葉面積的預測提供了一種新的方法。
關鍵詞: 葉長;葉寬;葉面積;網格搜索算法;支持向量機
中圖分類號:TP751
文獻標識碼:A
文章編號: 1000-4440( 2018)05-1027-09
植物葉片是植物進行光合作用和蒸騰作用的重要器官,其葉面積的大小決定了植物光合面積的大小,對植物的生理生態、作物栽培、作物產量都具有十分重要的意義。傳統的葉片面積的測量方法主要有網格法,復印稱質量法、系數法和葉面積儀器測量法等。但是上述方法存在破壞植株生長,費工費時或價格昂貴等缺點,不利于相關工作的開展。不少學者為能簡便、準確、迅速地測量植物的葉面積做了大量研究,分別對藍莓、番茄、香梨、木菠蘿和節瓜等植物葉面積進行了回歸分析,得到了相關葉面積的擬合方程。隨著計算機技術的高速發展又衍生出了基于數字圖像處理技術的測量方法,楊勁峰等通過平臺掃描儀獲得葉片數字圖像并建立了運用數字圖像處理測定蔬菜葉面積的方法,并與目前較為常用的葉面積測量方法進行比較分析,得到圖像處理方法與上述方法測定結果顯著的線性相關。趙英等利用數碼相機獲取杧果葉片的數字圖像,并利用Photoshop圖像處理軟件計算其葉面積,測定結果與傳統的方法結果差異不顯著。高君亮等通過3種不同的方法(方格法、稱質量法和數字圖像處理法)對3種楊樹(小葉楊、新疆楊和二白楊)的葉面積進行測定,分析得到數字圖像處理法與其他2種方法的測定結果具有顯著正線性相關。崔世鋼等采用基于Photoshop圖像處理法對數碼相機所獲取得油菜葉片圖像進行分析測定,將所得到的油菜葉面積與葉面積儀測定法、方格法的測量結果進行回歸分析,結果存在極顯著線性相關。雖已有人對水稻的葉面積指數進行了大量的研究,但是利用機器學習方法預測單株水稻葉面積還鮮見報道。本研究通過機器學習的方法建立水稻葉長、葉寬及葉面積回歸擬合值與葉面積的模型,探求一種方便、快捷、誤差小且不影響水稻植株生產的測量方法,從而實現簡便、快速、正確估算水稻葉面積,為研究水稻高產栽培技術和生產管理提供參考。
1 材料與方法
1.1 試驗設計
水稻田間試驗于2015 - 2017年在江西農業大學農學試驗站和江西省成新農場進行,供試品種為秈型兩系雜交稻品種兩優培九(LYP9),秈型三系雜交水稻品種金優458(JY458)、常規稻品種中早35(ZZ35)。分別采集兩優培九水稻品種l 360組葉片,金優458水稻品種720組葉片以及中早35水稻品種680組葉片作為觀測樣本。
1.2 數據獲取與分析
1.2.1 水稻葉片數字圖像獲取水稻取樣后,掃描4種不同施氮水平下水稻樣品的頂三葉的數字圖像。選擇平板掃描儀MRS-9600TFU2,分辨率設置為600 dpi,縮放比例為100%,RGB格式進行掃描,并以JPG格式存儲于計算機中。植株活體剪下葉片取樣后,整齊地平放在掃描儀工作臺面上,盡快掃描避免水稻葉片因蒸騰水分變形造成誤差。
1.2.2 圖像預處理 由于多種因素的影響,圖像在生成、傳輸和變換的過程中會造成圖像質量下降,為了避免圖像的分析誤差,首先對圖像進行增強處理,然后將其轉化為二值化圖像。采用開運算和閉運算去除二值化圖像上由于光照過強所形成的光斑,最后對圖像進行邊緣提取,得到水稻葉片的輪廓。
1.2.3 水稻葉片長度和寬度的獲取 采用mIn-boundrect函數可以得到水稻葉片最小外接矩形的4個頂點(c1r1),(C2,r2),(C3,r3),(C4,r4),根據2點間的距離公式,可以獲得水稻葉片的長Ln,寬Wo。
將水稻葉片長、寬的像素值與真實值之間進行轉換。轉換公式如下。
公式(3)、(4)中,Ln、Wo分別為葉片長、寬的像素值,L、W分別為葉片長、寬的真實值。
1.2.4 水稻葉面積的獲取數字圖像由許多像素點組成,每個像素點代表一定的實際面積值,為了確定掃描儀采集的樣本圖片像素代表的實際面積大小,在掃描圖片時引入了一個已知面積大小的參考物。
公式(5)中S1為水稻的葉面積,S2為參照物的實際面積(本研究中S2定為2.5cmx2.5cm),P1為水稻葉片圖像所包含的像素點,P2為參照物圖像所包含的像素點。
1.3 數據預處理
為了提高運行效率和建模的精度,將不同量綱的數據歸一化至區間,采用的歸一化原理如公式(6)。
公式(6)中x表示樣本數據,Xmax和Xmin分別表示樣本數據中的最大值和最小值,y表示歸一化后的數據,),ymax和)ymin分別表示歸一化后數據的最大值和最小值。
1.4 改進網格搜索算法
支持向量機是建立在統計學習理論的VC維理論和結構風險最小原則基礎上的新型機器學習方法。它在解決小樣本、非線性和高維模式識別問題中表現出許多特有的優勢,并在一定程度上克服了“維數災難”和“過學習”等問題。支持向量機應用于實際問題時能否取得良好的預測結果,取決于能否成功地設置該算法的關鍵參數,其主要參數為懲罰系數c和核函數參數g。網格搜索算法的原理是讓c和g在一定的范圍劃分網格并遍歷網格內所有點進行取值,對于選定的c和g利用K-CV方法得到此組c和g的預測誤差,最終選擇使訓練集交叉驗證分類準確率最高的那組c和g作為最優參數組合。傳統的網格搜索算法搜索對于較小的步距會影響尋優效率,而對于較大的步距容易陷入局部最優。本研究采用改進的網格搜索算法優化支持向量機不僅具有良好的效果,還能大幅度減少參數的尋優時間。其算法原理是先在較大范圍內采用大步距粗搜獲得局部最優參數組合,再在這組參數附近選擇一個小區間,采用傳統的小步距進行二次精搜,得到最后的最優參數組合。
2 結果與分析
2.1 水稻葉長、葉寬誤差
以試驗觀測到的兩優培九水稻數據為分析樣本,隨機選取20組,采用人工和計算機圖像處理技術對水稻葉長、葉寬進行測量,其測量結果對比見表1。
從表l可以看出,與人工測量相比,采用計算機圖像處理測量水稻葉長最大相對誤差為0.97%,平均相對誤差為0.40%,而水稻葉寬最大相對誤差為5.88%,平均相對誤差為3.10%,能夠滿足本研究的要求。
2.2 不同尋優方法優化支持向量機參數
以試驗觀測到的兩優培九水稻的1 360組數據為分析樣本,對樣本數據進行歸一化處理,選擇其中1 020組數據為訓練集.340組數據為測試集,水稻的葉長和葉寬為模型的輸入變量,水稻葉面積為模型的輸出變量。
采用改進的網格搜索算法對懲罰系數c和RBF核參數g尋優,設定初始網格搜索c和g的范圍均為[2-8,28],搜索步距均設為l,采用K-CV方法對訓練集進行測試,其中K=5,得到局部最優參數組合,在得到的局部最優參數附近重新定義搜索范圍和步距,其c和g搜索范圍均為[2-2,22],搜索步距均為0.1。二次尋優的結果如圖l、圖2所示。
選擇好最優參數組合[c,g]后,對訓練集進行訓練,模型回歸結果顯示相關系數為0.979 942,表明該模型的回歸能力較好,為了進一步測試該模型的精度,對測試集進行預測,本研究分別采用了傳統網格搜索算法,與改進網格搜索算法進行比較,包括最終模型參數、均方根誤差(反歸一化后)以及尋優時間的相關系數,其對比結果見表2。
由表2可知,采用改進的網格搜索算法尋優時間約為傳統網格搜索算法的1/53,但由于其在二次尋優的區間選擇上含有較多的經驗成分,所以均方根誤差略低于傳統網格搜索算法。犧牲了一點均方根誤差而節省了大量的尋優時間是可以接受的,因此應用改進的網格搜索算法建立水稻葉面積模型是有效可行的。
2.3 不同水稻品種葉面積的預測
本研究以試驗觀測到的3種不同水稻葉片數據為依據,采用參數優化后的支持向量機算法對水稻葉面積進行訓練和預測。采用歸一化法將觀測數據處理到(0,1)區間,兩優培九水稻品種選取1 020組數據為訓練樣本,340組數據為預測樣本。金優458水稻品種選取540組數據為訓練樣本,180組數據為預測樣本,中早35水稻品種選取510組數據為訓練樣本,170組數據為預測樣本。
2.3.1 兩優培九水稻品種葉面積的預測 以試驗觀測到的兩優培九水稻的1 020組數據為分析樣本,以葉長、葉寬為自變量,以圖像處理所得到的葉面積為因變量進行回歸分析(圖3),回歸方程達到顯著水平(P<0.05),水稻的葉長、葉寬與葉面積呈線性關系,其回歸方程為:
SLYP9= -45.370 1+1.336 6/+26.664 7W
(7)
公式(7)中,L為葉長,W為葉寬,s為葉面積,回歸方程的決定系數為0.960 5。
將水稻葉長、葉寬的觀測值代入公式(7)中,求出對應的葉面積回歸擬合值(S),將水稻葉長(L)、葉寬(W)、葉面積回歸擬合值(S)作為模型的三維輸入變量,水稻葉面積作為模型的輸出變量,其樣本訓練如圖4所示。
圖4顯示,水稻品種的模型在樣本訓練過程中表現出了良好的數據泛化能力,在訓練集上驗證模型的回歸效果,結果顯示平方相關系數為98.017%.根據訓練后獲得的最優模型參數,并對剩余的340組樣本數據進行預測,其預測結果如圖5所示,為了對比本研究提出的模型在葉面積測量上的效果,分別用其他3種不同的模型對相同的數據進行葉面積預測,其一以水稻葉長(L)、葉寬(W)為二維輸入變量,葉面積為輸出變量建立支持向量機模型,其二以水稻葉長(L)、葉寬(W)、葉長葉寬乘積(/x W)為三維輸入變量,葉面積為輸出變量,建立支持向量機模型,其三以水稻葉長(L)、葉寬(W)為二維輸入變量,葉面積為輸出變量,建立線性回歸模型。為了定量分析4種模型的預測效果,本研究引入均方根誤差和平均相對誤差2個評價指標,評價結果如表3所示。
通過比較分析,4種模型的預測精度均比較高,本研究提出的支持向量機Ⅲ模型均方根誤差和平均相對誤差均小于其他3個模型,考慮到不完全抽樣的性質,本研究需要進一步對差異進行顯著性檢驗,原假設為配對樣本無顯著性差異,本研究利用SPSS軟件對上述4種模型的預測結果進行Wilcoxon檢驗,得到結果如表4所示。
從Wilcoxon檢驗結果來看,除了支持向量機I(L、W)一支持向量機Ⅱ(L、W、Lx W)與支持向量機I(L、W)-支持向量機Ⅲ(L、W、S),其他配對樣本的檢驗結果顯著性P值均小于給定的顯著性水平0.05,拒絕原假設,判定模型之間存在顯著性差異。
2.3.2 金優458、中早35水稻品種葉面積的預測為了驗證本研究提出的模型的普適性,采用另外2種不同的水稻品種金優458和中早35進行驗證。分別取試驗觀測到的金優458的540組數據以及中早35的510組數據為分析樣本,均以水稻葉長、葉寬為自變量,以圖像處理所得到的葉面積為因變量進行回歸分析(圖6、圖7),回歸方程達到顯著水平(P<0.05),水稻的葉長、葉寬與葉面積呈線性關系,其回歸方程為:
SJY458= -21.333 6+0.781 9/+18.455 9W (8)
S2235= -22.496 0+0.904 6/+17.775 W (9)
公式(8)、公式(9)中,L為葉長,W為葉寬,S為葉面積,JY458水稻品種回歸方程的決定系數為0.951 6.2235水稻品種回歸方程的決定系數為0.967 5。將水稻葉長、葉寬的觀測值代入公式(8)、公式(9)中,求出對應的葉面積回歸擬合值(S),將水稻葉長(L)、葉寬(W)、葉面積回歸擬合值(S)作為模型的三維輸入變量,水稻葉面積作為模型的輸出變量,其樣本訓練如圖8、圖9所示。
從圖8、圖9可以看出,2種水稻品種的模型在樣本訓練過程中表現出了良好的數據泛化能力.2種水稻品種的葉面積均穩定在0—60,基于參數優化后的支持向量機回歸對于2種不同水稻品種訓練樣本的平方相關系數分別為97.15%(JY458)和98.62%(2235),根據訓練后獲得的最優模型參數,對剩余的180組(JY458)、170組(2235)樣本數據進行預測,其預測結果如圖10、圖11所示,為了對比本研究提出的支持向量機Ⅲ模型在葉面積測量上的效果,分別用其他3種不同的模型對相同的數據進行葉面積預測,其一以水稻葉長(L)、葉寬(W)為二維輸入變量,以葉面積為輸出變量建立支持向量機模型,其二以水稻葉長(L)、葉寬(W)、葉長葉寬乘積(L×W)為三維輸入變量,以葉面積為輸出變量,建立支持向量機模型,其三以水稻葉長(L)、葉寬(W)為二維輸入變量,以葉面積為輸出變量,建立線性回歸模型。引入均方根誤差和平均相對誤差2個評價指標定量分析4種模型的預測效果,其評價結果如表5所示。
通過比較分析,2個水稻品種在本研究提出的支持向量機Ⅲ模型預測下,其結果的均方根誤差和平均相對誤差均小于其他3個模型,考慮到不完全抽樣的性質,本研究需要進一步對差異進行顯著性檢驗,原假設為配對樣本無顯著性差異,利用SPSS軟件對上述4種模型的預測結果進行檢驗,2種水稻的顯著性檢測結果如表6、表7所示。
從Wilcoxon檢驗結果來看,金優458水稻品種中除了支持向量機I(L、W)-支持向量機Ⅱ(L、W、Lx W)與支持向量機I(L、W)-支持向量機Ⅲ(L、W、S),其他配對樣本的P值均小于給定的顯著性水平0.05,拒絕原假設,判定其他模型之間存在顯著性差異。而在中早35水稻品種中,除了線性回歸一支持向量機Ⅱ(L、W、L×W)和支持向量機Ⅱ(L、W、L×W)-支持向量機Ⅲ(L、W、S),P值小于給定的顯著性水平0. 05,模型間具有顯著性差異,其他模型間顯著性差異不明顯。
3 討論
本研究建立的4種葉面積模型均可以實現水稻葉面積的快速、無損測定。通過改進網格搜索算法參數優化后的支持向量機建立水稻葉面積模型并預測葉面積,模型的輸人參數為水稻葉長(L)、葉寬(W)以及回歸擬合值(S),試驗樣本為3種水稻品種的數據。結果表明,水稻葉長、葉寬、回歸擬合值與葉面積之間存在顯著的相關性,模型預測結果誤差小,可以較好地應用于葉面積的測定,具有較好的使用價值和應用前景。
目前關于圖像處理以及支持向量機方法應用于農產品的研究已有一些進展。程洪等使用圖像處理技術以及傳統網格搜索算法參數優化后的支持向量機建立樹上蘋果早期模型,模型的預測效果較好。鑒于前期研究成果得到利用圖像處理技術對水稻葉片面積的計算誤差小于5%,本研究通過圖像處理技術求取目標物的最小外接矩形以獲得水稻葉長、葉寬,葉長的平均相對誤差為0.40%,葉寬的平均相對誤差為3.1O%。本研究還采用了改進的網格搜索算法對支持向量機參數進行尋優,雖然犧牲了均方根誤差,但大大縮減了大量的樣本空間下支持向量機參數尋優的時間,為模型的預測提供了一定的實時性。
水稻葉面積是水稻株型研究通常需要測量的形態指標。關于植物葉面積的測量方法較為常見的有:復印稱質量法,長寬矯正法,葉面積儀測定法等。這些方法各有利弊,尤其對于野外測量,需要消耗大量的時間與精力,而且操作復雜影響測量精度。本研究通過圖像處理技術對水稻葉片進行簡單測量,采用多元線性回歸和改進網格搜索算法參數優化的支持向量機建立模型預測水稻葉面積。3種水稻品種基于支持向量機預測水稻葉面積模型的均方根誤差和平均相對誤差均小于多元線性回歸方法,且其中2種水稻品種(兩優培9、金優458)基于支持向量機的模型與線性回歸模型之間具有顯著差異(P<0.05),表明支持向量機模型能更好地預測水稻葉面積,具有較強的預測精度。
模型變量的選擇會影響模型的精度和復雜性。不少研究通過圖像處理技術對植物葉片進行長、寬、面積的測算,發現葉面積與葉長、葉寬、長寬乘積顯著相關。本研究不僅證明了上述結論,還利用支持向量機模型對葉面積進行預測,預測效果良好。本研究還提出了一種新的思路,通過多元線性回歸建立數學模型,得到3種水稻品種的葉面積回歸方程,將水稻葉片長寬的實測值代入回歸方程中得到葉面積回歸擬合值,并將擬合值與葉長、葉寬構成一個三維輸入變量,建立支持向量機模型預測水稻葉面積,模型的預測效果良好,相比于其他模型,對于兩優培9、金優458、中早35 3種水稻品種,本研究提出模型的均方根誤差和平均相對誤差均為最低。Wilcoxon檢驗結果表明,在統計學意義上,本研究提出的支持向量機Ⅲ模型與其他2種支持向量機模型的預測結果具有較高一致性,顯示本研究提出的支持向量機Ⅲ模型具有較強的適用性和有效性,與支持向量機Ⅱ相比,顯著性差異明顯,說明本研究提出的支持向量機Ⅲ模型預測水稻葉面積更為準確,為水稻葉面積的測定提供了一種新的方法。