● 文| 李德仁馬軍邵振峰
1. 武漢大學測繪遙感信息工程國家重點實驗室2. 地球空間信息技術協同創新中心
論時空大數據及其應用
● 文| 李德仁1,2馬軍1,2邵振峰1,2
1. 武漢大學測繪遙感信息工程國家重點實驗室2. 地球空間信息技術協同創新中心
時空大數據與非空間數據相比,具有空間性、時間性、多維性、海量性、復雜性等特點,其云計算方法和挖掘技術是目前國際遙感科學技術的前沿領域之一。 本文圍繞遙感大數據的特點、時空大數據云計算和遙感大數據挖掘等關鍵問題,深入探討了時空大數據的研究進展及應用,并展望了時空大數據的發展前景。
時空大數據 云計算 遙感云 位置云 遙感大數據挖掘
時空大數據是最重要的大數據之一,其表達與組織是數據內容準確度量和價值提煉的基礎。傳統數據局部表達方式的缺陷是難以應對數據規模快速增長,因此大數據的全局表達能力是其最本質的特性。大數據時代數據內部復雜關系是數據核心價值所在,時空大數據的價值在于時間、空間、對象之間的關聯關系。然而,時空大數據之間的復雜關系和動態演化使得關系的表達和計算變得異常困難。時空大數據的服務價值在于其背后隱含規律的發現和利用,時空大數據不同于局部數據的獨特價值在于其背后隱含著對應的大尺度事件信息,對其的理解因時空跨度大和對象、行為復雜變得尤為困難。當前時空大數據已成為本領域學術前沿,主要研究和探索數據與現實中對象、行為、事件間的對應規律,針對時空大數據高效表達與組織問題,探索時空全局冗余產生的內在機理,突破數據壓縮和長期保存的瓶頸,針對時空大數據多維關聯與協同計算問題,構造對象相似和目標空間約束協同計算模型,克服虛警數據規模快速增長的影響,針對時空大數據模式發現與價值提煉問題,揭示大尺度事件的演化推理機理,突破大尺度安全事件理解的局限。例如,當前正在建設的智慧城市是在數字城市建立的基礎框架上,通過物聯網將現實的城市與數字城市進行有效融合,自動和實時地感知現實城市中人和物的各種狀態和變化,基于時空大數據挖掘技術由云計算中心處理其中海量和復雜的計算與控制,為經濟發展、城市管理和公眾生活提供各種智能化的服務。也就是說,一個智慧的城市,需要運用物聯網、云計算、時空大數據集成等新一代信息技術,來促進城市規劃、建設、管理和服務智慧化的新理念和新模式。
“大數據”一詞首先出現在2008年9月《Nature》雜志發表的一篇名為“Big Data: Wikiomics”的文章上(Mitch,2008)。2011年2月,《Science》雜志也出版專刊“Dealing with Data”。2012年3月,美國投資2億美元啟動“大數據研究和發展計劃”,旨在提高和改進人們從大數據中獲取知識的能力。面對大數據時代的挑戰與機遇,國際上的專家學者針對大數據處理開展了一系列的探索和研究。2012年在印度新德里舉行的首屆大數據分析國際會議上,與會代表達成共識,認為大數據的表達、檢索、挖掘是大數據處理面臨的三大挑戰。目前,對“大數據”的研究已經逐漸發展成為信息科學的主要研究趨勢(Craglia 等,2012;Pareek和Cupta,2012;Poja和Anand,2013)。然而,迄今為止,“大數據科學”尚未有統一定義,但是科學家普遍認為它是以海量的多元異構數據為主要研究對象,以大數據的存儲、處理和理解方法為主要研究內容,以新興的計算技術為主要研究工具,以擴展人類對數據的利用能力為主要目標的一門新興的綜合性學科(Craglia等,2012)。它主要針對當前海量(volume)、多元(variety)和高速更新(velocity)數據的處理問題,重點研究如何將當前高速發展的計算技術用于數據處理/挖掘、有效地利用數據、從海量多元的數據本身去發現新的知識。
在智慧城市的建設和應用中,無所不在的傳感器網將產生反映自然和人類活動的百萬兆(TB)級到十億兆(PB)級和萬億兆(EB)級數據。越來越多的數據使世界進入真正的大數據時代,其中大量的與時空位置有關的數據稱為時空大數據。
時空大數據由于其所在空間的空間實體和空間現象在時間、空間和屬性三個方面的固有特征,呈現出多維、語義、時空動態關聯的復雜性,因此,需要研究時空大數據多維關聯描述的形式化表達、關聯關系動態建模與多尺度關聯分析方法,時空大數據協同計算與重構提供快速、準確的面向任務的關聯約束。具體特點包括:
1)時空大數據包含對象、過程、事件在空間、時間、語義等方面的關聯關系。
2)時空大數據具有時變、空變、動態、多維演化特點,這些基于對象、過程、事件的時空變化是可度量的,其變化過程可作為事件來描述,通過對象、過程與事件的關聯映射,建立時空大數據的動態關聯模型。
3)時空大數據具有尺度特性,可建立時空大數據時空演化關聯關系的尺度選擇機制;針對不同尺度的時空大數據的時空演化特點,可實現對象、過程、事件關聯關系的尺度轉換與重建,進而實現時空大數據的多尺度關聯分析。
4)時空大數據時空變化具有多類型、多尺度、多維、動態關聯特點,對關聯約束可進行面向任務的分類分級,建立面向任務的關聯約束選擇、重構與更新機制,根據關聯約束之間的相關性,可建立面向任務的關聯約束啟發式生成方法。
5)時空大數據具有時間和空間維度上的特點,實時地抽取階段行為特征,以及參考時空關聯約束建立態勢模型,實時地覺察、理解和預測導致某特定階段行為發生的態勢。可針對時空大數據事件理解與預測問題,研究空間大數據事件行為的本體建模和規則庫構建,為異常事件的模式挖掘和主動預警提供知識保障,可針對相似的行為特征,時空約束和事件級別來挖掘事件模式并構建大尺度事件及其應對方案的規則庫。
時空大數據經過存儲、處理、查詢和分析后,才可更好地用于各類應用從而提供智慧服務,因此對大數據存儲、處理、查詢和分析的實時性要求越來越高。針對這一處理需求,當前都是基于云計算技術,建立從基礎設施、數據、平臺到服務的一體化時空信息云平臺,將各類應用中的時空大數據進行有效管理,并按照實際需求進行處理、存儲、管理并提供相應服務,滿足各類智慧應用。遙感云和位置云是基于云計算技術的兩類典型時空大數據服務。
1.遙感云
遙感云是將海量的各類遙感數據和遙感平臺提供的復雜的遙感處理與分析功能放在遠程的云計算平臺中,把遙感數據發布為一類數據服務,把各類遙感圖像處理功能發布為功能服務,把遙感分析需要用到的各類模型發布為模型服務,把一些經過實踐應用后形成的固化服務流程發布為服務鏈,利用云計算平臺彈性的計算能力,用戶無需搭建專用環境,只需要根據需求選擇服務后即可獲取最終結果。武漢大學測繪遙感信息工程國家重點實驗室自主研發的OpenRS2Cloud就是一個典型的基于云計算技術的提供遙感云服務的空間信息處理平臺。OpenRS2Cloud采用可伸縮、開放式的平臺體系結構設計,在網絡環境下,能夠對數據資源、計算資源進行動態監控與任務分配(李德仁等,2010)。國內外算法研究人員和數據商將算法和數據上傳到平臺即可享受相應服務,用戶無需搭建專用環境,只需要選擇數據和算法后即可獲取最終結果。相關的說明以及源代碼可以通過以下網址獲取:http://www.openrs.org/wiki/。

圖1 遙感云實現的洪水淹沒范圍分析示例
圖1是利用該平臺上的智慧城市遙感云服務實現流域洪水淹沒范圍分析的示例,用戶只需要提出關注洪水淹沒范圍的請求,提供該服務的遙感云就會自動尋找該區域淹沒前后影像、對影像進行配準等預處理、執行變化檢測并把變化結果返回給用戶。整個過程中的數據服務、功能服務都是通過遙感云來完成的,圖中藍色部分為湖泊正常水位范圍,綠色部分為洪水淹沒范圍。
借助大數據科學的相關技術,開展對海量多元異構遙感數據的研究,不僅可以豐富“大數據科學”的內涵,而且將有效地破解遙感對地觀測所面臨的“大數據,小信息”的困局,具有十分重要的科學價值和現實意義。
2.位置云
“位置云”是指基于3S技術、IT技術、網絡與通信技術等,提供與位置相關的各類服務或需求解決方案。一類典型的位置云服務應用就是將手機接收到的導航衛星信號與其他定位相關的傳感器信息傳輸到云計算中心,通過實時解算,實現室內外高精度的手機連續位置定位和實時導航。北斗位置云平臺的應用領域見圖2,而地理國情監測員、災情報告員、森林調查員、地質勘測隊員、土地調查員、城管員、公安交警人員等國家公務員和車聯網用戶是位置云服務的主要用戶。

圖2 北斗位置云公共服務平臺
2012年12月27日,北斗系統對中國及周邊地區正式提供運營服務,定位精度達到水平方向10m、垂直方向10m,測速精度大于 0.2 m/s。2013年11月,中國在泰國春武里府建成首個北斗衛星海外連續運行衛星定位服務綜合系統(CORS)示范站。北斗在泰國等低緯度東盟地區的精度與性能優于GPS,可用于智慧交通中車輛控制和智能駕駛,三站測試結果見表1。

表1 北斗在泰國三站測試結果
基于數據表達、信息組織與知識發現等不同層次的數據挖掘方法,實現時空大數據挖掘,是時空大數據的優勢。例如,可基于遙感大數據實現夜光遙感影像支持下的全球社會經濟動態監測。傳統方式調查全球社會經濟數據主要依賴于統計部門、國際組織以及各國媒體。一般而言,傳統調查方式獲得全球社會經濟數據的時效性較差。特別對于統計力量薄弱或政局不穩定的國家而言,獲取社會經濟信息較為困難并且可信度較低。夜間燈光(夜光)遙感為監測全球社會經濟動態提供了一條新的途徑。大量的統計分析表明,世界各國生產總值的空間分布與夜間燈光存在較強的相關性[1-2]。
對于GDP估算而言,由于夜光能夠客觀的反映區域的繁榮程度,因此能夠克服統計數據的誤差以及空間信息量不足等問題。基于計量經濟學模型,結合GDP統計數據和夜光影像,可以修正不同區域GDP以及GDP增長率[3-4]。例如,國際社會對緬甸1992-2002年的GDP年均增長率的估算值為8.6%,而通過夜光數據修正后的年均增長率為4.3%[3]。此外,GDP的統計單元一般為行政區劃,因此缺乏較為準確的空間信息。通過夜光影像、人口密度、土地覆蓋等數據,建立GDP空間分配模型,從而獲得全球GDP格網圖[5]。夜光的長期變化能夠較好的反映社會經濟的長期走勢,而夜光的短期劇烈變化能夠反映區域武裝沖突以及對應的人道主義災難。通過對夜光影像的長時間序列分析,發現夜光影像能夠較好的評估不同區域受到武裝沖突的影響程度[6-8]。加州大學洛杉磯分校的Agnew等人通過對比不同時期伊拉克的夜光影像,發現了駐伊美軍在2007年開展的軍事行動未能扭轉巴格達的安全局勢,質疑了小布什政府的伊拉克政策[6]。科羅拉多州立大學的Witmer等人利用了夜光影像對車臣戰爭和格魯吉亞的武裝沖突進行了評估,發現夜光影像能夠較好的反映居民遷徙和油井燃燒的現象,從而證明了夜光影像對于評估區域武裝沖突的可行性[7]。武漢大學李熙等人對全球169個國家的1992-2010年的夜光影像進行時空數據挖掘,發現了戰爭爆發往往導致夜光減少,夜光的波動較大的國家發生戰爭的幾率較高等現象[8]。
2011-2014年,敘利亞內戰已導致至少10萬人喪生。然而,絕大部分關于敘利亞的報道無法反映敘利亞內戰的全貌,而夜光遙感影像為評估敘利亞局勢提供了一條途徑。圖3表明,敘利亞內戰已導致敘利亞全境夜光顯著降低。
另外,基于全球中低高分辨率遙感數據,包括MODIS、HJ-1A/B、Landsat TM/OLI、GF-1、SPOT、RapidEye等,綜合多源遙感影像中不同作物在影像上呈現不同的光譜、紋理特征,以及作物具有的季相節律性和物候變化的規律性等特點,進行作物分類識別和產量估算。圖4是利用遙感影像監測農作物長勢的示例,圖5是利用遙感大數據實現東南亞棕櫚油月產量估計的示例。利用遙感大數據實現農業遙感監測,基于遙感大數據提取農作物信息作為農作物長勢監測或產量估算的模型參數,進一步進行農作物產量統計分析。禾訊科技就是目前國內最領先的衛星大數據應用企業,其基于遙感大數據得到的最有覆蓋度的農產品基本面信息已經獲得金融市場發布機構的認可。遙感大數據實時獲取的第一手數據資料,還將在能源、國際貿易、保險、漁業、城市動態監測、礦產勘探等領域中提供重要的信息。

圖3 敘利亞及周邊夜光遙感數據對比圖

圖4 全球作物長勢監測

圖5 東南亞棕櫚油月產量估計
大數據研究蘊含著巨大的社會、經濟、科研價值,已引起各國的高度重視。近幾年,《Nature》和《Science》等國際頂級學術刊物相繼出版專刊探討對大數據的研究。大數據也已經成為科技界和企業界關注的熱點。時空大數據一方面具有一般大數據的大規模、多樣性、快變性和價值性的特點,另一方面還具有與對象行為對應的多源異構和復雜性、與事件對應的時/空/尺度/對象動態演化、對事件的感知和預測特性。目前來看,國際上的時空大數據科學的研究仍處于起步階段,需要面向具體應用開展深入研究。例如在國防領域,整體態勢感知是現代化國防的關鍵,具有整體獲取特性的遙感大數據在國防上意義重大;在氣象領域,空間信息是氣象預測的基礎,能融合時空大數據的氣象大數據將為大氣環境監測、農業災害監測提供強有力的支撐;在交通領域,融合了地理位置信息、空間信息的時空大數據將是應急處置的重要決策依據,可以提高應急交通指揮決策的科學性。因此,進一步研究時空大數據表示、度量和理解的基本理論和方法,揭示時空大數據與現實世界對象、行為、事件間的對應規律,將大有可為。
[1]Li,X.,H.Xu,et al.Potential of NPP-VIIRS Nighttime Light Imagery for Modeling the Regional Economy of China[J].Remote Sensing,2013(3) :3057-3081.
[2]Elvidge,C.D.,K. E.Baugh,et al.Relation between satellite observed visible-near infrared emissions, population, economic activity and electric power consumption[J].International Journal of Remote Sensing,1997,18(6):1373-1379.
[3]Henderson,J.V.,Storeygard,A.,Weil,D.N.Measuring economic growth from outer space[J],National Bureau of Economic Research,2009.
[4]Chen,X.,Nordhaus,W.D.Using luminosity data as a proxy for economic statistics[A],Proceedings of the National Academy of Sciences[C],2011,pp.8589-8594.
[5]Ghosh,T.,Powell,R.L.,et al.Shedding light on the global distribution of economic activity[A],The Open Geography Journal[C],2010,pp.148-161.
[6]Agnew,J.,Gillespie,T.W.,et al.Baghdad nights: evaluating the US military “surge ”using nighttime light signatures[A],Environment and Planning A[C],2008,pp.2285-2295.
[7]Witmer,F.D.W.and J.O'Loughlin.Detecting the Effects of Wars in the Caucasus Regions of Russia and Georgia Using Radiometrically Normalized DMSP-OLS Nighttime Lights Imagery[J].Giscience & Remote Sensing,2011,478-500.
[8]Li,X.,Chen,F.,Chen,X.Satellite-observed nighttime light variation as evidence for global armed conflicts[A].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing[C],2013,pp.2302-2315.
國家重大設備專項(No.2012YQ16018505);科技支撐計劃(No.2013BAH42F03);教育部新世紀優秀人才資助計劃(NCET-12-0426);湖北省自然科學基金杰青項目(No.2013CFA024)和武漢大學創新人才項目(No.2042014kf0212)