高榮華,李奇峰,孫 想,顧靜秋,彭 程
(1. 北京農業信息技術研究中心/北京市農林科學院,北京 100097;2. 國家農業信息化工程技術研究中心,北京 100097;3. 農業農村部農業信息技術重點實驗室,北京 100097;4. 北京市農業物聯網工程技術研究中心,北京 100097)
互聯網與多媒體技術的發展,使得以圖像等為載體的多媒體信息在設施農業中迅速增加,以多種方式進行信息交換的多種媒介具有集成性、交互性等特點[1-5]。當前知識傳播方式越來越具有多源、多形態、多屬性等特性,這些從不同渠道獲取的不同形態的媒體信息描述共同的知識,使得信息的產生、發展、傳播跨越互聯網等多種信息來源,跨越從不同渠道獲取的文本、圖像等多種信息形態,因此,如何從形態多變、分布零散、屬性復雜的海量媒體資源中對有價值的知識進行獲取和表達成為亟待解決的問題。
環境、病害圖像、病害知識等多結構參數數據在作物生產、保護方面的智能診斷研究已取得顯著成果[6-8],Scott 等[9]在英國植保生物學信息技術大會上,提出利用數據庫、分類學、多媒體等技術,實現植病流行學模擬與預測模型、植病診斷與管理專家系統,實現了結合多媒體與文本知識的智能診斷,但僅是逐步遞推的診斷過程;Chesmore 等[10]通過對圖像的特征提取實現真菌診斷,但因受光照、遮擋影響造成特征提取不準確而導致診斷不具有魯棒性。Brahimi 等[11]對9 種西紅柿葉片病害進行分析,獲得較好的識別效果。
日本九州佐賀縣的全自動蔬菜工廠[12],實現蔬菜安全的監管,作物生長周期比較漫長,保存了大量的多媒體數據,但對于如何有效融合多媒體數據與其他結構數據,提取有價值信息,還沒有相關研究。聯邦農業教育研究所對小麥品種的水肥條件、品種特性、產量品質、抗病蟲害等能力進行評估,利用計算機輔助診斷系統為農民提供病害防治服務[13-15],但沒涉及圖像等非結構化知識數據,完全依靠專家知識模型進行診斷,不具備較好的智能性。隨著“物聯網+大數據+互聯網”模式在農業信息化中的發展,越來越多的研究者將圖像處理和機器視覺技術引入農作物病害識別診斷中,取得了大量研究成果[16-18]。
中國多媒體技術分析與診斷在各領域研究已取得一定成果[19-22],利用多媒體技術開發了各種農作物病蟲害診斷咨詢系統[23-24],將各類病蟲害癥狀、形態和病理特性可視化、圖形化,將復雜的病蟲害識別與診斷過程簡單化,如郭小清等[25]利用多尺度識別模型構建了番茄葉部病害圖像識別系統,識別率為89.2%;劉洋等[26]在手機端開發了植物病害葉片檢測系統,實現葡萄病害葉片共38 類26 種病害在線識別;馬浚誠等[27]基于圖像和深度學習技術,構建了溫室黃瓜病害識別系統,在圖像分割的基礎上,有效識別黃瓜霜霉病、白粉病。
農業專家系統方面,將多媒體技術與物聯網、數據庫管理、人工智能、農業專家系統、知識庫、推理機等技術相結合,開發智能診斷支持系統[28-30],如基于物聯網的荔枝專家診斷系統[31]、多媒體水稻病害專家系統[32]等已被廣泛應用到農業生產中,并產生巨大的效益。中國農業大學采用多媒體、超媒體與人工智能等技術,研制開發“北京蔬菜生產管理與植保輔助診斷系統”與“植物害蟲圖文信息與鑒定輔導系統”,推動多媒體技術在農業生產信息化中的應用。
上述的農業智能診斷系統,多數仍停留在對專家知識的推理或單一的多媒體特征識別與特征匹配方面,很少涉及到多結構、多形態、多參數數據[33]。單一特征不能很好的描述病害的典型特征,蔬菜的病害與其生長環境參數(土壤溫濕度、pH 值、空氣溫濕度等)、種植參數密切相關。
本文以設施黃瓜病害智能診斷為實例,融合結構化生長環境參數與非結構化圖像特征,提出一種多結構參數集成學習的設施黃瓜病害智能診斷技術,以圖像視覺特征與環境特征之間的典型相關性分析為基礎,對實時采集到的環境參數進行監測、分析,并將其與圖像特征融合,分析黃瓜典型病害相關性,實現不同環境參數下,設施黃瓜易發病害的智能診斷分析。
傳感器密集分布的實時嵌入式設施農業物聯網,通過無線傳感器節點,實時采集作物生長環境中各種影響因子的數據信息、圖像等,并將數據發送給計算資源,計算資源根據實體信息做出決策[34-36],而不同結構數據,由于單一的傳輸協議不能很好地適應異構的數據結構,傳輸過程中更容易受到噪聲或干擾的影響。
為確保所接收的多結構數據正確可靠,本文基于多媒體傳感器網絡感知模型,提出一種多路徑分組傳輸方法保證多結構數據傳輸可靠性,采集得到的多源異構數據不像傳統多路徑方法那樣對每份數據沿多條路徑傳輸,而是首先將數據按照不同數據類型(土壤溫濕度、土壤pH 值、空氣溫濕度等)分組,確保每組內的數據段等長,且分別賦予不同組標識:組0,…組N。在感知節點和匯聚節點之間構建多條路徑,將不同類型、不同結構的數據組沿多條路徑同時傳輸,提高吞吐量與數據傳輸的可靠性。 如圖1 所示,將采集到的多結構數據進行分組標識后,通過多路徑對同類型的數據參數進行傳輸。

圖1 物聯網實時數據傳輸流程Fig.1 Real-time data transmission flow of internet of things
假設無線多媒體傳感節點組為Mi,在多路徑數據傳輸中,數據源節點組根據應用的期望可靠性以及信道傳輸狀況,將采集數據進行分組并沿著多條路徑輸出。采集數據通過感知節點向基站發送數據前,首先對采集數據按照結構類型分組描述,節點組內包括節點ID、數據類型、數據分組字節大小size( data )等字段。每組數據輸出時間為Ti,

式中Vi是從采集數據到輸出數據的各段路徑所允許的數據傳輸速率,Hi為第i組數據從采集節點到輸出節點最多所允許的鏈路值。

通過分組傳輸,可以避免數據丟失,并節省傳輸時間,有效提高數據采集的準確率。
多結構參數的一個重要特點是數據之間存在復雜多樣的關聯性,這種關聯性能夠較好的提高智能診斷的正確性。由于多結構參數中蘊含著多種多樣的數據,同模態數據中存在著關聯,如文本(專家知識)與文本,圖像(病害特征)與圖像等,存在內容上的關聯;不同模態的數據,如圖像與文本間存在跨模態關聯,連續固定的環境參數會產生作物在圖像上的可視化內容。多結構數據間存在著結構關聯,盡管關聯類型多樣,但不同類型的關聯關系不能統一量化表達,無法進行有效病害預測。如圖 2 所示,文本(專家知識)、圖像、種植環境實時數據等異構互補的媒體形態共同表達了黃瓜白粉病,通過構建映射關系,將異構模態信息映射到共享子空間,在一個表達框架下直接對異構數據進行相似性度量,從而推斷未知異構數據的關聯關系。
多結構參數具有多源異構的特性,傳統圖遍歷方法導致對其訪問的效率比較低,本文提出一種集成式多結構參數索引結構,以文本(專家知識)、圖像(非結構化數據)、種植環境(結構化數據)構成的黃瓜病害描述為例,選取其中的幾種典型病害,定義病害模型函數,并將描述其病害的專家知識、病害圖像、種植環境信息定義為子函數之間的病害模型f與多結構參數i之間的映射關系C,其中每種不同結構的參數體均與病害模型存在關聯關系,即C(fi, Ω ) = {病 害類別} 。當輸入數據為黃瓜病害類別時,通過匹配病害類別與多結構參數之間的關聯關系函數,分別從文本、圖像、結構化的環境數據內搜索與病害類別匹配內容,最后以多種結構展現的形式,從文字、視圖多角度描述黃瓜病害,實現數據的快速讀取、病害種類的智能診斷。

圖2 多結構參數一致性表達Fig.2 Consistent representation of multi-structural parameters
為掌握不同生長(如開花期、結果期)對生長環境的需求,采用周期性自動采集的方式匯聚空氣溫度、濕度和土壤溫度、濕度的數據,采用連續特定時間采集方式匯聚作物生長監控與病害圖像數據,從而造成結構化環境數據與非結構化多媒體數據采集時間、數據類型不同,需要融合“環境+圖像+病害知識(文本)”,分析推理病害特點以實現病害種類的準確描述,及時獲得病害類型、營養缺素種類等信息,避免因貽誤最佳病害防治時機而導致損失。
本文以設施黃瓜白粉病、角斑病、炭疽病、菌核病等典型病害為例,研究多類別融合的學習向量量化神經網絡算法,將輸入層“環境實時物聯網數據、作物病害圖像數據、專家知識文本數據”三類不同類別數據特征進行融合,如圖3。


圖3 多類別學習向量量化與特征最優組合Fig.3 Multi class learning vector quantization and optimal combination of features

根據組合權重向量,確定m個識別方案的總的離差平方和最大值,通過離差平和與最大值判斷得到多結構數據最優組合。
本文以黃瓜白粉病、角斑病、炭疽病、菌核病 4 種病害為樣例,采用設施溫濕度傳感器實時采集 4 種病害發生時連續一個月空氣溫濕度值 3 000 條;采用手持式SONY 相機拍攝 4 種病害葉片圖像,每種病害圖像數量如表 1 所示,圖像大小為 1 536×1 152 像素,圖像格式為JPG;采用網絡爬蟲技術,爬取4 種病害的專家知識文本描述內容,每種病害包含3 條專家知識。4 種病害的3類結構的病害特征描述均經過了人工識別,確保類別標簽的可靠性。
將上述 3 類數據作為輸入層,計算連續一個月內的平均空氣溫濕度、提取病害圖像的紋理與sobel 特征、提取專家知識關鍵詞,利用2.1 節中多結構數據學習向量化與特征最優組合方法,計算每類特征的屬性集進行特征融合,對融合后的特征進行學習訓練,如圖4。

表1 病害數據集Table 1 Disease data sets

圖4 3 類不同結構黃瓜典型病害數據訓練Fig.4 Data training of three different cucumber diseases


根據病害種類分類正確與否調整獲勝神經元權值,對輸出層4 種類別神經元進行再次學習,得到黃瓜病害種類白粉病[1 0 0 0]、角斑病[0 1 0 0]、炭疽病[0 0 1 0]、菌核病[0 0 0 1]。
與單一文本數據因果推理不同,本文將其他形式的數據轉換為文本形式(自然語言或形式化語言),然后利用基于文本的因果推理技術,實現多結構參數融合的因果推理。為多結構數據建立統一事件表示模型和方法,令各不同結構數據單元的特征空間表示方式:文本表示為矢量,圖像表示為矩陣,同一多媒體中的圖像、文本可以通過多任務稀疏表示、流行對齊、深度學習等機器學習方法,映射到一個共享的新特征空間中,避免多媒體信息必須轉換為文本模式的困難和穩步模式本身的限制;同時,在同一模態媒體數據因果推理模型基礎上,利用部分媒體之間具有同源性和對應性,把分立的單一模態媒體因果推理模型組合成異構的多結構參數因果推理模型。
不同類型數據之間存在語義鴻溝,建立語義關聯,將數據轉化到同一個空間中,利用平行向量場的流行對其進行對齊,保持不同類型數據流行上的度量,在流行對齊過程中,不同類型數據之間的語義關系投影到潛在的語義空間中,語義關聯隨之確定下來,然后在對齊后的流行上做因果推理。
作物的生長發育與溫室環境因子密不可分,生長發育進程明顯受到溫度的影響,而病害發生又與溫濕度有較大聯系。將采集到的海量實時數據進行分析,提取有價值知識,本文通過在線監測生產環境的氣候因子、土壤理化性質因子,結合設施黃瓜生理生態特點,精準把握農藥和肥料施用時機、施用量、灌溉時機和灌溉量,減少農藥、肥料施用量,避免環境污染;通過在線監測生產環境的氣候因子,加強凍害、澇害和病蟲害災害預警功能,及時采取應對措施,建立災害預警系統,減少損失。
病害智能診斷構建需要大量且描述準確的診斷知識,主要來源于植保專家、植保專業技術人員和各種資料。對知識進行特征提取,將其標準化,如黃瓜霜霉病可以表示如下:
蔬菜作物:黃瓜
發病時期:成株期
發病部位:葉片
病害癥狀:病斑形狀(多角形);病斑大小(嚴重時病斑大連片);發病部位(多從中下部葉發病);病斑顏色(淺黃色至褐色);病部特征物質(潮濕時有紫黑色霉層)。
診斷知識賦值方法:病害的特征癥狀對病害診斷作用大小不同,其權重值不同,使用評估學中的多比例法獲取權重值。


依上述定義和用戶所選癥狀匹配后,進行計算,將 0ω與條件閾值E進行比較,如果ω0>E,則系統會按照概率由大到小進行排序,對符合條件的所有病害進行顯示。
采用正反向混合推理方式,深入診斷的病癥信息搜索及權重值的計算使用最佳優先搜索法作為搜索策略,對北京市房山蔬菜示范園區內13 個大棚,隨機取樣黃瓜病害圖像20 000 張,由 5 名專家(包括植保技術人員)對黃瓜霜霉病、白粉病、枯萎病、灰霉病、立枯病、根腐病、猝倒病等典型病害進行診斷,分析得到不同溫濕度環境下,易患病害的種類,如表 2 所示,同時選取典型的 4 種進行多結構參數集成學習的病害診斷,具體識別情況如表3,

表2 環境與病害種類的關系Table 2 Relationship between environment and diseases
表 3 中,環境參數為連續半個月內的物聯網采集的溫室內的環境溫濕度參數,以每一分鐘采集一次數據為例,一天獲取到的溫濕度信息為4 213 條,由于傳輸過程中的參數丟失且去掉一些冗余數據,連續半個月的環境參數在5 000 多條與6 000 多條之間;圖像樣本為連續半個月人工采樣的數據,同一樣本源數據方向、角度、時間不同,分別采集了霜霉病圖像3 452 幅,白粉病4 332幅,枯萎病2 895 幅,角斑病4 213 幅,炭疽病2 341 幅;每類病害均對應若干條專家知識描述,將其組合得到每種病害的專家知識描述的數量;本文選取50 個樣本作為測試樣例,利用多結構參數集成學習的方法對病害種類進行診斷,樣本識別率79.4%~93.6%,其中白粉病由于圖像特征明顯、且環境與病害關系明確,識別率比較高,枯萎病病害特征與炭疽病圖像特征具有相似性,所以識別率與其他病害識別率相比較低。

表3 4 種病害具體識別情況Table 3 Identifications situation of four kinds diseases
為驗證本文算法的魯棒性,分別選取卷積神經網絡、深度遷移學習下的單純圖像識別技術應用在上述 5 種黃瓜典型病害識別,識別效果對比如表4。

表4 識別效果對比分析Table 4 Comparison of recognition results
通過試驗分析,卷積神經網絡圖像識別方法,識別率與本文方法相近,但是由于需要對病害圖像數據進行降維與分析工作,所以后臺識別時間高于本文方法;深度遷移學習的圖像識別方法,需要大量的圖像數據輸入深度學習網絡進行學習,而現實中病害圖像的數量不足以滿足深度學習的要求,因此識別率會因為樣本的不充分而降低;本文方法借助少量圖像數據,同時結合環境與專家知識資源,采用多結構參數集成學習的方法進行病害識別,在較少識別時間的基礎上確保識別的準確性。
隨著蔬菜復種指數的增加,病蟲害發生越來越嚴重,且冬暖棚及溫室等保護為設施蔬菜生長發育創造適宜的小氣候條件同時,也給蔬菜病害交疊發生提供了條件,使得病害防治越來越難。
本文以黃瓜白粉病、角斑病、炭疽病、菌核病 4 種病害樣本數據為實例,融合結構化作物生長環境參數與非結構化圖像等多結構數據,通過智能化的物聯網,對實時采集到的環境參數進行監測、分析,并將其與圖像特征融合,研究多結構數據學習向量化與特征最優組合,實現對設施黃瓜在不同環境參數下,易發典型病害的智能診斷分析,樣本識別率79.4%~93.6%,同時結合環境與專家知識資源,通過子空間映射解決了不同模態數據特征異構性問題,在較少識別時間的基礎上確保識別的準確性。