李蔓
國際數據資訊公司最新研究指出,2020年全球產生的數據總量將達到40ZB左右,其中95%的數據屬于非結構化、不精確的數據,這類數據的應用便需要得到大數據技術的支持,而為了推動我國大數據技術的發展,正是圍繞貴州省山地資源與環境遙感應用重點實驗室研究成果、開展遙感大數據信息挖掘技術研究的原因所在。
在圍繞山地資源與環境的遙感大數據挖掘技術應用中,遙感大數據的自動分析屬于一切的前提,其主要用于建立統一、緊湊和語義的遙感大數據表示,數據挖掘的開展將由此奠定較為堅實基礎,這里的自動分析需圍繞遙感大數據的表達、檢索、理解展開,具體內容如下所示:①遙感大數據的表達。語義復雜性、傳感器語義多樣性、數據維度語義豐富性屬于山地資源與環境遙感大數據的主要特點,因此遙感大數據的表達需關注多元離散特征提取、多元特征歸一化表達,前者主要圍繞多時空譜、多數據源、多分辨率的遙感影像特征提取展開,后者則關注遙感大數據多元離散特征的降維與融合,同時引入多元特征的維數分析目,即可提高大數據處理效率。②遙感大數據的檢索。網絡化、集成化屬于遙感大數據應用的重要發展方向,而為了從海量遙感大數據中檢索出符合用戶需求和感興趣的數據,知識驅動的遙感大數據檢索方法支持必不可缺。通過建立場景檢索服務鏈、多源海量復雜場景數據智能檢索系統,即可通過融入用戶感知信息的知識更新方法,實現高層語義檢索。③遙感大數據的理解。遙感大數據信息挖掘的最終目的是為了實現數據向知識的轉化,而隨著“面向像素”到“面向對象”的遙感場景處理方式過渡,高精度提取遙感大數據場景高層語義信息開始成為學界關注焦點,通過“特征——目標——場景”語義建模、遙感大數據場景多元認知,即可提供多元化語義知識輸出[1]。
從海量山地資源與環境遙感數據中搜索其中隱藏的有價值信息屬于本文研究的重點,這種遙感大數據挖掘技術的應用可實現山地資源變化規律、環境變化趨勢的獲取,具體的數據挖掘如下所示:①挖掘過程。山地資源與環境遙感數據的挖掘過程可以概況為:“山地資源與環境遙感大數據→篩選→數據集→分類/群集→挖掘→模式/規則→可視化→融合→數據、信息與知識的融合”,大數據和知識庫智能推理在其中發揮著關鍵性作用,其中山地資源與環境遙感大數據源于各類傳感器,篩選過程則需要使用去噪、采樣、過濾等方法,分類/群集環節需使用線性或非線性統計學方法及一定規則進行數據集分類,挖掘過程則需要應用深度學習、云模型、決策樹、人工神經網絡等方法,由此明確數據隱含信息、數據間聯系,即可通過可視化環節直觀展示挖掘成果,最終開展數據的關聯、融合,則能夠為后續分析和利用提供有力支持。②綜合挖掘。作為地物在遙感成像傳感器下的多粒度、多方位和多層次全面反映,遙感大數據與GIS等空間大數據存在較好的互補關系,而由于所有非接觸式成像數據均屬于廣義遙感大數據范疇,圍繞其開展的綜合挖掘便能夠實現地球知識和變化規律的更好揭示。值得注意的是,圍繞廣義遙感大數據展開的綜合挖掘不僅需要關注數據處理和信息提取,更需要關注隱私活動數據的保護、可疑事件數據的保留[2]。
結合上述研究,可確定現階段山地資源與環境遙感大數據信息挖掘的關鍵技術,主要包括分布式集群化存儲技術、面向數據密集型應用的高性能計算、多源異構數據關聯分析、遙感大數據地理可視化,以其中的多源異構數據關聯分析為例,該技術主要采用目標對象與事件關聯的方式建立關聯模型,并隨之建立一系列關聯關系,非線性張量分析、多視角學習、圖模型等數據分析方法也在其中發揮著關鍵性作用,山地資源與環境遙感大數據的數據組合方式多樣性、多源數據異構性將由此得到較好應對;而對于遙感大數據地理可視化技術來說,采用幾何繪制方法實現的多尺度地形、2維矢量數據、全球等經緯度離散網格集成,則實現了網絡環境下虛擬地球的多尺度地形、影像、矢量集成,隨時間變化動態特性的統計數據可視化表達也因此實現。
在遙感大數據信息挖掘技術應用探索中,以精細化種植結構調查為代表,研究的遙感數據從全國覆蓋多源、多分辨率影像產品數據庫中選取,研究中使用的高空間分辨率數據屬于ZY-3數據,該數據與全色數據的融合可達到2.1m的分辨率水準,將所有數據使用高性能地理信息計算平臺進行高精度幾何及輻射處理,并最終將處理結果轉投影至WGS84經煒度坐標系,即可為遙感大數據信息挖掘技術應用奠定堅實基礎。技術的具體應用流程可概括為:“高空間分辨率地塊生成→NDVI時間序列作物物候期提取→基于決策樹的監督分類”,其中基于決策樹的監督分類可細分為玉米決策樹識別模型、水稻決策樹識別模型,由此即可通過作物光譜和植被指數時序構建,實現有效的作物分區,作物種植模式信息提取也在NDVI時間序列支持下得以較好實現。結合獲得的足夠高時間分辨率、足夠高空間分辨率的影像數據,以及實現的自動化、高性能海量遙感數據處理,遙感大數據信息挖掘技術的應用價值得到了較好證明。
雖然近年來國內外在遙感大數據信息挖掘技術研究中取得了一系列成果,但遙感大數據的多類不確定性、遙感大數據的信息深度融合、遙感大數據的機器學習、遙感大數據的分析平臺仍屬于該技術在發展中必須解決的問題,遙感大數據的數據復雜性、計算復雜性、系統復雜性特征與這類問題的出現存在較為緊密聯系。因此,本文認為未來遙感大數據信息挖掘技術的發展存在多類不確定性建模、多源信息融合、機器學習方法開發等趨勢,其中多類不確定性建模趨勢指的是遙感大數據將圍繞高維特性、數據尺度效應、多類不確定性、非線性關系進行建模,期望的空間數據挖掘和分析結果獲取將由此獲得有力支持;多源信息融合則需要深入研究異構數據的決策規則、關聯分析模型、統一表達模型;機器學習方法開發需關注視覺基于機制驅動的深度學習模型、基于異構計算模式、基于任務調度優化的模型開發,并同時開展針對性較強的機器學習算法,這些都將為遙感大數據信息挖掘技術的更好應用提供有力支持[3]。
綜上所述,遙感大數據信息挖掘技術具備較為廣闊的應用潛力,在此基礎上,本文涉及的精細化種植結構調查實踐、遙感大數據信息挖掘技術發展趨勢總結等內容,則提供了可行性較高的遙感大數據信息挖掘技術應用與研究路徑,而為了進一步推動遙感大數據信息挖掘技術的發展,基于內容影像檢索等新概念、新技術以及新系統開展的相關研究也必須得到業界人士關注。