薛勇
大數據是一個無形的東西,在2020年,全世界約有59ZB(zetta bytes)的數據產生、復制、被訪問,據權威機構估計,這個數字到2024年將達到149 ZB。
大數據是什么?是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的定義可以是四維或五維,目前,國際上還沒有準確的定義,但大量、多樣、高速、價值、真實性等五方面基本是被認可的。數據量的大小與價值沒有直接的關系,大數據是海量資料,這些巨量資料來自世界各地隨時產生的數據,在大數據時代,任何微小的數據都可能產生不可思議的價值。
科學大數據與普通用的大數據是有差距的,科學大數據代表了自然科學與社會科學之間復雜的關系。一般來說,這些自然現象或科學過程的外部表現,具有高度相關性和多重數據屬性。大數據的維度概念已超出我們認知中的維度,超出了四維的范圍。大數據有幾個特性,一是高復雜性,定義大數據的邊緣范圍是很困難的;二是高不確定性,科學大數據來自對自然過程的獲取,有非常高的不確定性;三是高價值。
大數據的技術包括大數據接入、大數據存儲、大數據分析挖掘、大數據共享交換、大數據展示等五方面。這些技術都是在使用中,也在發展過程中。
“數字地球”是一個可以嵌入海量地理數據的、多分辨率的、真實地球的三維表示。
地球大數據是第四范式(數據密集范式,即科學大數據)的典型示例,數據密集范式是繼實驗科學、歸納總結、計算機仿真后的第四代范式。
地球大數據作為大數據的一種特殊類型,在Volume(大量)、Variety(多樣性)、Velocity(高速)、Veracity(真實性)方面具有自己的特點。
大量:PB級(PB指petabyte,它是較高級的存儲單位,1PB=1024TB)的遙感影像數據檔案,不斷增加的實時傳感器觀測數據和基于地理位置的社交媒體數據,海量的VGI(志愿者地理信息)數據等,以及這些數據的不斷增加,不僅帶來了數據存儲問題,也帶來了海量的分析問題。
多樣性:地圖數據、圖像數據、帶地理標簽的文本數據、結構化和非結構化數據、柵格數據和矢量數據,所有這些不同類型的數據都需要更高效的模型、結構、索引和數據管理策略和技術。
高速:頻繁更新的高分辨率圖像數據、傳感器連續觀測數據、物聯網、實時的全球導航衛星系統軌跡和社交媒體數據都需要與之相匹配的數據生成速度和數據處理速度來滿足需求。
真實性:許多地理空間大數據的來源未經驗證,準確性不高或不清楚,其準確性因數據源的不同而不同,這就對源數據的質量評估以及如何“統計化”地提高分析結果的質量提出了問題。
地球大數據處理包括:數據收集、數據質量評估、數據建模和結構化、數據可視化和可視化分析、數據挖掘和知識發現。
下面介紹遙感大數據,遙感大數據是地球大數據的一個方向。遙感大數據是指以海量遙感數據集為主、綜合其他多種來源的輔助數據,運用大數據思維與手段,從海量遙感數據集中獲取行業價值信息的理論、方法、技術與活動的統稱。隨著遙感衛星、導航衛星、地球物理衛星和各種平臺以及各種觀測儀器和傳感器的使用增加,來自太空的地球大數據正成為大數據研究的主流。它呈現出了大數據的科學特征,例如海量數據、多種來源、異構性、多時間性、多種規模和非平穩性。來自太空的地球大數據涉及地球觀測技術、通信技術和計算機技術,為地球科學研究帶來了新的機遇。 它可以促進地球科學的深入發展,并有助于獲得重要的科學發現。
遙感大數據發展包括數據獲取、數據管理、數據分析、數據應用等方面的發展。遙感大數據的來源包括衛星、無人機等多元載體;有光學、影像等多種類型;全譜段、全天域覆蓋等多種數據覆蓋。遙感大數據具有大容量、多樣性、高效性、難以識別、高價值等外部特點和高維度、多尺度、不穩定性等內部特點。遙感大數據具有復雜性,包括數據復雜性、計算復雜性、系統復雜性等。
遙感大數據對我們的挑戰:我們要進行定位、識別和分析不同空間尺度的地理目標的多層次分析,比如對生態中山體滑坡的分析,比如數據分類和不同的分析方法可以得出不同的角度和結論,不同的分析方法、多時相方法、高頻率觀測、背景知識、專業知識缺乏、擴展、數據和知識質量等都形成挑戰。當然,針對各方面的挑戰,我們均在探索不同的解決方案。
遙感大數據未來的發展方向包括遙感大數據多類不確定性建模、大數據環境下的多源遙感信息融合、遙感大數據的機器學習方法、用于遙感大數據分析和可視化的統一架構、基于知識驅動的定量遙感的大數據挖掘等方面。
總結一句話,最大挑戰就是“遙感大數據對定量遙感如何挖掘出全新的知識,以便更好地為用戶服務”。
(本文錄音由實習生崔鴻青整理,并經發言專家本人審核)