解 蕾,狄光智
(運城師范高等專科學校,山西 運城 044000)
農業發展的方向為精準農業(Precision Agriculture)[1],其在技術上采用的手段是農業信息化的方法,通過采集溫度、濕度等農業信息,利用決策支持系統對農業信息進行分析以輔助客戶進行決策。其實施過程一般包括農田信息的獲取、管理、分析和實施4個部分[2]。目前,農業信息化方面的障礙主要分為兩個:一是如何低成本、高準確率和快速獲得農業信息[2];二是如何對農業信息進行全面、快速、準確的檢索,本文主要針對這兩項問題進行研究。
在農業信息采集過程中,為保證農業信息采集的全面性,需要較大的信息采集面積,采集設備需要適應各類復雜地形,工作環境惡劣。無線傳感網絡(Wireless Sensor Network,WSN)具有分布密度高、可大范圍實施、適應性強和成本低的特點,且可進行數據的控制、計算、無線通信等功能,可以大量、實時地獲取信息,廣泛的應用于農、林、牧業信息的采集和傳輸。
在采集到各類農業信息后,需要對農業信息進行分析并探索數據之間的動態關聯及變化趨勢[3-4]。聚類算法是一種信息分析方法,可以根據信息的相似度進行高速、高質量的分類,包括信息數據的分布情況和數據特征,獲得隱藏的信息。本文將無線傳感網絡和聚類算法結合起來,設計了農業信息采集系統,并對系統的運行進行了試驗驗證。
農業信息采集系統主要由無線傳感網絡、中央處理器和計算機、結果輸出端和用戶接收端組成,如圖1所示。

圖1 農業信息采集系統流程圖
無線傳感網絡硬件組成為傳感器節點、匯聚節點和GSM網絡。該無線網絡是由多個不同類型的傳感器節點構成的拓撲結構,且節點在進入或離開時不會影響系統正常工作,而是由系統重新構建拓撲結構[5]。為了采集比較全面的農業信息,傳感器和無線網絡需要適應不同的季節、不同的作物類型和地形結構,網絡層次過多則會在數據傳輸方面造成困難。因此,本文采用兩層的通信網絡,其結構如圖2所示。其中,第一層為各傳感器節點、簇和匯聚節點組成的通信網絡,第二層為匯聚節點和GSM網絡之間的通信網絡。匯聚節點作為無線傳感網絡的樞紐,主要組成為無線接收裝置、微控制器和GSM模塊。

圖2 兩層無線通信網絡結構圖
工作流程如下:相鄰區域的傳感器組成簇,其中的某個傳感器節點作為簇頭節點,用于接收所在簇區域的數據,并將數據處理壓縮發送給匯聚節點。匯聚節點的無線接收裝置用于接收數據,微處理器作為匯聚節點的核心部件用于對接收到的數據進行處理,經由GSM網絡將數據傳輸給中央處理器。簇的形成和簇頭節點則根據LEACH網絡協議[5]進行選取。
為減少無線網絡的能量消耗,一般將其設定為周期性信息采集模式。在這種模式下,傳感器節點周期性工作或者休眠,定期向中央處理器傳送數據,用戶可以根據數據的變化趨勢調節節點工作周期;若某個區域需要重點觀測,則將此區域設定為定點采集模式,此區域的節點將高頻向計算機傳送數據;若有異常事件發生,則此區域的節點自動調節為突發模式用于此區域的數據采集,直到此異常事件結束。
中央處理器和計算機為一體機,用于對接收到的數據進行處理、分析,匯總進入總數據庫并存儲,將分析結果輸出并反饋給用戶。數據的處理包括對數據進行清洗、審核、修改和數據總結,然后通過聚類算法對處理的數據根據需要進行分析。
系統的聚類算法流程圖如圖3所示。

圖3 系統聚類算法流程圖
聚類分析過程:①獲取數據集并對數據進行處理,篩選出可用數據。②確定聚類算法,對數據進行聚類分析。通過分析比較數據挖掘的各類算法,譜聚類算法具有求解速度快、對數據類型不限制及可對數據進行降維的優點,但對數據空間要求為凸空間分布,因此采用譜聚類算法對數據進行處理。③確定數據點之間的相似度。④通過約束聚類過程,取得最優解。⑤輸出最優解,即為聚類結果。
中央處理器將聚類算法處理的數據結果輸出,反饋給用戶接收端,以便用戶采取后續的措施。
譜聚類的關鍵點是如何確定各數據點的相似程度,并將相似圖中的點劃分到對應簇。農業數據信息呈橢球形分布的特點,傳統的譜聚類算法相似度計算采用高斯核函數,得到相似矩陣為
對該矩陣進行稀疏化處理得到連接矩陣W,處理方法為K-相鄰或者全聯通。但是,該相似度計算的前提是數據的空間分布呈凸空間,因農業數據具有大量和維數多的特點,該方法不能精確、高效地對數據進行聚類,且無法將數據點的一致性反映出來,因此對譜聚類算法中數據點相似程度的計算方法進行改進,算法流程如圖4所示。

圖4 改進的譜聚類算法流程圖
針對橢球形的數據空間,閔可夫斯基距離測量方法可以對大量的高維數據進行聚類,且能反映數據之間的關系,提高數據的計算精度和速度[6]。設定數據集R的兩個n維變量M和N分別為
M=(x1,x2,…,xn)
N=(y1,y2,…,yn)∈Rn
則M和N兩變量之間的距離定義為
其中,p為變量,閔氏距離隨著p的變化而變化,當p=1時,D1為曼哈頓距離,此時有
當p=2時,D2為歐式距離,此時有
當p趨于無窮大時,D3為切比雪夫距離,此時有
該距離算法更能適應復雜的農業數據及復合聚類算法全局一致性的要求。根據此算法得到各數據點的相似性S矩陣為
對上式進行稀疏化處理得到連接矩陣W,矩陣中Wij>0,Wij=Wji,i=1,2,…,n。變換連接矩陣W得到度矩陣E,則有
計算非歸一化拉普拉斯矩陣L[7],即
L=E-W
歸一化拉普拉斯矩陣Ls和Lr為
Lr=E-1L=I-E-1W
通常Ls為對稱矩陣,Lr為非對稱矩陣。根據需要選擇采用Ls或者Lr進行計算。選取前k個特征值,k為信息聚類的數量, 此時每個特征值有對應的特征向量,由此得到聚類結果。
為測試該農業信息采集系統的工作性能,需要對其進行兩方面的性能測試:①無線傳感網是否能夠高效準確地將采集到的信息數據傳輸至中央控制中心;②驗證本文所采用的改進的譜聚類算法的可行性。
在設定的區域A、B、C區域內采用周期采集模式,周期設定為2h,采集被監控區域溫濕度和pH值信息;在正常工作4h后,改變采集周期為1h,并在正常工作2h后人為修改A區域的溫度作為異常事件。試驗結果如表1所示。

表1 A、B、C區域農業信息測試結果
由表1可知:該無線傳感網絡可以完成農業數據信息的傳遞,且信息采集周期可以根據需求改變,當有異常事件發生時,可以及時做出響應,縮短數據信息采集周期。
為了驗證改進的譜聚類算法的可行性,采用機器UCI數據集中的農業方面的聚類數據—Seeds數據集。其中,p=1.2,σ=9,分別采用譜聚類算法和改進的譜聚類算法對數據進行聚類分析,統計錯誤聚類的類別、個數和聚類時間。為保證結果的準確性,試驗進行5次,結果取平均值,結果如表2所示。

表2 譜聚類算法和改進的譜聚類算法聚類分析試驗結果
由表2可知:改進的譜聚類算法較譜聚類算法精度和速度均有提高,錯誤率明顯下降,可以滿足農業信息系統對于信息數據處理精度高、速度快點的要求。
1)采用適用性強和成本低的雙層無線傳感網絡對農業信息進行采集和傳輸,解決了農業信息較難采集和遠程傳輸的困難,實現了農業信息資源的統一,降低了生產成本。
2)根據農業信息橢球形空間分布的特點,需要對信息進行高速、高質量的分類,提出了改進的譜聚類算法。
3)為驗證該農業信息采集系統的性能,對該系統機型試驗測試,結果表明:該信息采集系統可以高效準確地傳遞農業信息,采用改進的譜聚類算法對信息處理精度高、速度快,能夠滿足用戶的使用要求。