肖 敬, 劉 卉, 魏學禮, 陳競平, 王 培, 孟志軍
(1.首都師范大學信息工程學院,北京 100048; 2.國家農業智能裝備工程技術研究中心,北京 100097)
隨著智能農業、精準農業的發展,智能感知設備、移動嵌入式系統等物聯網技術在現代農業中的應用逐步被拓寬[1]。通過使用各種自動化、智能化的監控設備和網絡技術獲取基于時空信息的農業環境數據[2]、農機作業數據[3]和作物生長數據[4],不僅可以有效降低人力消耗和人為因素對農業環境的影響,而且通過采用大數據分析,能夠為科學種植、科學管理提供決策支持[5]。
目前,國內關于農業大數據的相關研究主要集中在農作物與土壤光譜分析[6]、農業經濟類型劃分[7]、農產品安全的監督和預警[8-9]等方面。隨著移動互聯網的發展,軌跡相關研究主要集中在交通數據[10]、動物遷徙數據[11]、用戶出行數據[12]等方面的數據挖掘分析。針對農機運動軌跡數據的研究甚少。
本研究基于農機深松作業監管系統所記錄的農機運動軌跡數據,采用時空立方體的分析方法,研究農機田間作業軌跡與道路行駛軌跡的分割算法,并采用馬修斯相關性系數及正確率進行算法的量化評估。
農機深松作業是指用拖拉機等動力機械牽引深松機,打破犁底層堅硬土壤,通過疏松土壤而改善耕層結構以提高蓄水保墑和抗旱防澇能力的一種機械化整地技術[13]。在《全國農機深松整地作業實施規劃(2016—2020年)》中指出,2016年全國規劃實施農機深松整地1 000萬hm2,2017年規劃 1 100萬hm2,2018、2019、2020年規劃1 270萬hm2。國家農業智能裝備工程技術研究中心針對農機深松作業的監管需求研制了農機深松作業監管系統。
農機深松作業監管服務系統是基于物聯網技術思想開發的,系統設計為4層架構:(1)感知層為安裝在農機上的車載智能終端設備,用來獲取農機作業狀態數據;(2)網絡層主要依托移動GPRS(通用分組無線服務技術)網絡、移動3G(第三代移動通信技術)網絡和Internet公網上傳采集到的農機作業數據;(3)支撐層主要由中心服務器、應用服務器、數據服務器、數據庫管理系統、基礎地理信息管理軟件和安全監控設備等組成;(4)應用層是基于Web瀏覽器的農機深松監管與服務軟件系統,協助監管部門對深松作業進行綜合管理與數據分析。
農機深松作業監管系統感知層的車載智能終端設備集成了GNSS(全球導航衛星系統)定位模塊、GPRS數傳模塊及作業參數傳感器等。通過解析GNSS模塊的NMEA-0183語句及傳感器輸出語句,獲取農機作業時間、經度、緯度、速度、作業深度等時空數據及作業屬性數據。GPRS數據傳輸模塊每隔4 s將上述監測信息回傳到遠程服務器。
農機田間作業速度一般在10 km/h以內,《中華人民共和國道路交通安全法實施條例》規定:拖拉機在寬闊、視野良好的道路上行駛時最高時速不超過30 km/h。農機田間作業和道路行駛的運動軌跡具有不同的時空分布特征。田間作業時,農機通常以較低的作業速度進行地塊區域內時空往復運動,作業軌跡具有顯著的時空聚類特征[14]。相比較而言,農機在道路行駛過程中,運動軌跡呈現離散的線性特征。依據農機運動軌跡的上述時空分布特征,進行田間作業與道路行駛軌跡分割方法的研究。
首先,解析農機運動軌跡數據,獲取時空數據及作業屬性數據;然后,采用通用橫軸墨卡托投影(universal transverse Mercator projection,簡稱UTM),將GNSS大地坐標轉換為平面坐標[15]。此外,還須進行異常數據清理。
GNSS設備存在精度、信號漂移等問題[16],因此在原始作業數據中存在異常位置數據。假定任意農機軌跡點的大地坐標P(lon,lat)滿足下列等式:
lon∈[-180°,+180°];
lat∈[-90°,+90°]。
(1)
式中:lon為軌跡點的經度,°;lat為軌跡點的緯度,°。
根據式(1)對異常位置的農機軌跡點進行初步數據清理。初步數據清理不能完全清除位置漂移點,通過判斷農機連續軌跡點運動速度,進一步清理異常位置數據。
若Pi與Pi+1為時序相鄰的2個軌跡點,d(Pi,Pi+1)為軌跡點Pi與Pi+1的距離,t(Pi,Pi+1)為軌跡點Pi與Pi+1的時間間隔。則農機運動速度v(Pi)計算公式為
(2)
在農機正常行駛和作業過程中,其行駛速度不超過農機技術參數中最大速度閾值vmax,則有:
v(Pi)≤vmax。
(3)
通過設置最大速度閾值可以過濾掉漂移的軌跡點。
農機車載智能終端設備在加電情況下持續上報數據,即使農機處于停歇狀態也會上傳軌跡數據。這些停歇軌跡點會影響數據分類效率和效果,因此需要對農機停歇點進行數據清理。

(4)
式中:v(Pj)表示第i個軌跡點Pj的運動速度,m/s。連續軌跡點數量k可以通過經驗值給定。

采用時空立方體模型,通過設置時空單元的軌跡點密度閾值,分割農機田間作業和道路行駛運動軌跡。
時空立方體(Space-Time cube,簡稱ST-Cube)是一種時空模型[16],由Hagerstrand于1970年提出[16],它采用二維坐標軸表示現實世界的平面空間,采用一維時間軸表示平面位置沿時間的變化,從而形成一個三維的立方體,詳見圖1。

在時空立方體模型中,時空單元是數據存儲的基本單元,表現為以空間網格單元為底、以時間單元為高的規則長方體。在時空立方體中,沿時間維度劃分的時間單位,記為Δt;在二維平面區域劃分的網格單位,記為Δs,則Δs×Δt代表了1個三維空間體,即時空單元,記為Δc。在時空立方體中,為每個時空單元進行編碼索引,可以實現快速遍歷所有時空單元[17]。
采用時空立方體模型,可以顯示三維時空下的農機運動軌跡。定義一系列時空單元,使得農機運動軌跡分布于時空單元中。
在圖1中,時空單元Δc公式如下:
Δc=Δx×Δy×Δt。
(5)
式中:Δx和Δy組成時空單元的二維網格單位,可以按式(6)取值:
Δx=Δy=vmax×t。
(6)
式中:t為GNSS軌跡點上傳的時間間隔,s,本研究的時間間隔為4 s。
時空單元的時間單位為Δt,如圖2所示,應該保證農機在作業時有盡可能多的軌跡點落在時空立方體單元中,Δt應滿足:
(7)
由公式(6)、公式(7)可得:
(8)

(9)
式中:v(Pi)為第i個軌跡點Pi的運動速度,m/s;n為軌跡點數量,個。
由于農機的運動速度不會高于最大行駛速度,因此包含運動軌跡的任意時空單元中分布著不止1個軌跡點。此外,由于農機田間作業速度和道路行駛速度存在差異,二者軌跡在時空單元中的分布密度不同,田間作業軌跡點分布密度高,而道路行駛軌跡點分布密度低。因此,通過設置時空單元的軌跡點密度閾值,分割田間作業軌跡和道路行駛軌跡。

農機田間作業時,時空單元的軌跡點分布密度公式如下:
(10)
為了分割農機田間作業和道路行駛運動軌跡,要保證農機在道路上以最大速度行駛時至少有1個點分布在時空單元內。因此,農機在道路上行駛時,時空單元的軌跡點密度ρwork>ρroad≥1(ρrood為農機在道路行駛時,時空單元的軌跡點分布密度)。
在時空立方體模型中,軌跡點分布密度滿足:
ρ∈[ρwork,ρroad]。
(11)
為了達到更好的分類效果,時空立方體的密度間隔應該最大化[18],因此本研究分割密度取值見公式(12):
(12)
1975年生物化學家Matthews提出馬修斯相關性系數(Matthews correlation coefficient,簡稱MCC),用于機器學的效果評估的正確率判斷[19]。具體公式如下:
(13)
式中:TP為將正類預測為正類數;FN為將正類預測為負類數;FP為將負類預測為正類數;TN為將負類預測為負類數。MCC的取值范圍在[-1,+1],其取值越接近+1說明分類的效果越好。正確率a也可表示為下式:
(14)
a取值在范圍在[0,+1],其取值越接近+1,說明分類的效果越好。
在本研究中,對于農機田間作業與道路行駛軌跡分割方法,可采用馬修斯相關性系數進行效果評估。在分割結果中,存在以下4種情況:(1)田間作業軌跡點被正確識別為田間作業軌跡點,用TP表示;(2)田間作業軌跡點被錯誤識別為道路行駛軌跡點,用FN表示;(3)道路行駛軌跡點被正確識別為道路行駛軌跡點,用TN表示;(4)道路行駛軌跡點被錯誤識別為田間作業軌跡點,用FP表示。
從2015年1月至2016年8月新疆塔城地區的農機深松作業數據中,隨機選取8臺農機作業軌跡作為樣本數據集,進行田間作業與道路行駛軌跡數據分割試驗。首先需要對樣本數據進行異常位置及停歇點軌跡清理。數據預處理后獲得干凈的農機軌跡,構建時空立方體,進行農機田間作業與道路行駛軌跡數據分割,分割算法的參數設置見表1?;跁r空立方體分割的ID8農機軌跡數據分布如圖3所示。
為了評估分割方法的有效性和正確率,采用遙感衛星地圖數據,疊加農機軌跡點數據,進行目視解譯。以農機ID8為例,分割結果如圖4和圖5所示。圖4和圖5為同一區域的不同尺度遙感地圖,其中圖4的比例尺為1 ∶250,圖5的比例尺為1 ∶125。分別統計TP、FN、TN、FP 4種情況下的軌跡點數量,從表2可以看出,道路行駛軌跡更容易被誤判為田間作業軌跡(FP),并計算MCC和正確率。從表2還可以看出,分割算法的正確率均在95%以上,正確率的均值達到 97.98%,MCC的均值也達到82.10%。

表1 分割算法的參數
(1)本研究采用時空立方體模型,通過建立時空立方體密度與農機作業速度、機具幅寬和GNSS上傳時間間隔等變量之間的定量關系,探討通過時空立方體密度閾值分割農機作業軌跡與道路行駛軌跡。


表2 分割結果統計


(2)選取農機實際田間作業軌跡數據,采用遙感衛星地圖數據目視解譯法,驗證軌跡分割算法的效果。結果表明,本算法正確率的均值達到97.98%,MCC的均值也達到 82.10%。在此基礎上,可以通過研究農機田間作業軌跡計算地塊面積與農機作業效率、重疊和遺漏量,可通過研究道路轉移軌跡進一步分析農機作業調度問題,減少農機道路轉移時間。