黃少芳,劉曉鴻
(中國地質大學(北京),北京 100083)
?
地質大數據應用與地質信息化發展的思考
黃少芳,劉曉鴻
(中國地質大學(北京),北京 100083)
地質工作經過長期積累形成了的海量的地質資料與數據,具有重要的價值。地質數據具有多元(源)、異構、時空性、相關性、隨機性、模糊性和非線性等特征,具有大數據特點,屬于大數據范疇。由于地質調查工作和信息技術發展的融合,促進了地質大數據應用與地質信息化發展,地質信息化進入基于大數據分析與大數據應用的數據驅動新時代。本文分析了當前地質大數據技術及其應用,提出對地質大數據整合集成,對多來源、多模態、多時態數據的相關性分析、數據挖掘與關聯建模,實現基于大數據的可視化與智能化。對地質大數據支持下的地質云平臺構建、地質大數據應用服務系統和標準化建設的三要素,進行了探討。
地質大數據;地質資料;信息化;標準化
地質工作經過長期積累形成了的海量的地質資料與數據,大多數是靜態數據,此外還有動態數據,如地質災害、地質環境調查與監測等形成大量的實時動態數據。當今大數據時代,以大數據的思維和理念,應用大數據技術,解決地質大數據的有關問題,創新地質大數據應用,實現地質大數據價值。近期,國務院印發了《促進大數據發展行動綱要》(國發〔2015〕50 號),為我國大數據發展進行了頂層設計,促進大數據規劃、標準、技術、產業、安全、應用協同發展。國家發改委印發了《關于組織實施促進大數據發展重大工程的通知》(發改辦高技〔2016〕42號),將重點支持大數據示范應用、共享開放、基礎設施建設,以及數據要素流通。地質調查是獲取地球數據和信息的過程,通過采用地、物、化、遙、鉆等各種地質手段和科學探測與實驗測試方法,進行各類數據采集、獲取信息,基于大數據的現代地質調查,加強對地質大數據的管理,突破數據處理與分析傳統思維,以提升服務經濟社會發展的能力和水平,使地質工作邁入地球科學與大數據融合的新時代。
1.1大數據與大數據技術
大數據還沒有嚴格的科學定義,是各種類型復雜的結構化和非結構化數據集,雖意指數據量超出了傳統尺度的規模,但數據量還不是判斷大數據的唯一標志,大數據具有4V特點,分別是體量浩大(Volume)、生成快速(Velocity)、模態繁多(Variety)和價值巨大但密度低(Value)[1]。大數據是應對數字化信息化時代,面對數據量劇增而產生的一種新數據技術,面對這樣一個全球數據爆炸性的增長,需要一套全新的數據處理和分析技術。沒有數據,技術發揮不了作用。沒有技術,數據也只能是一堆枯燥的數字,難以上升為認知與規律,更難以實現數據價值的升值。
地質數據往往首先是原始數據,如通過區域地質調查、地球物理調查、地球化學調查、地質鉆探、資源勘查、地質環境調查與監測、巖石礦物測試等獲取的數據,都是原始的第一手地質資料數據,如何對這些原始數據進行進一步分析與加工處理,整合集成后提取具有更高價值的地質信息,需要大數據新理念的指導和大數據新技術的應用。基于地質大數據技術的分析處理,通過化散為整、化異構為同構,對非結構數據和知識服務進行建模,實現技術轉化和服務創新。
1.2地質大數據及其特點
地質學屬于數據密集型科學,地質數據獲取難度大成本高,大量深地、深空、深海和深時數據獲取難度更大,地質數據具有多元(源)、異構、時空性、相關性、隨機性、模糊性和非線性等特征,地質數據的混合性、變異性、相關性等隨時空變遷而數據特征各異[2]。地質數據具有大數據典型特點,隨著科學研究第四范式的誕生,將大數據的理念、技術和方法應用于地質領域,這種具有多源、多元、異構等復合型數據列入大數據范疇,即地質大數據。地質大數據是大數據的重要組成,是地質調查工作和信息科學技術發展、融合的結果,包括地質觀測數據、探測數據、實驗測試數據等,具體類型有地質礦產調查數據、地球物理數據、地球化學數據、實驗測試數據、地質鉆探數據、地質監測數據等,涉及地球深部的各個圈層,涉及地球形成與演化歷史,涉及地球的物質組成及其變化,涉及礦產資源的形成、勘查與開發利用,涉及地質環境的破壞與修復等。從數據類型看,地質大數據類型多樣,包括各種格式的矢量和柵格圖件、文檔以及視頻數據等。從數據量看,其數據量巨大。從數據共享看,對海量的多樣化數據進行匯聚,應用大數據技術對其進行加工處理。
地質大數據還具有其獨特的專業數據特點:①地質大數據多樣性。從宏觀的地球物理等傳統地質大數據需要大存儲、大處理,到微觀地質學的同位素年代數據,從原始聲光電磁的地質探測原始數據到大數據集成處理后的圖像、圖件等,從數據到圖像、從圖像到數據、地質數據可以互聯互通[3];②地質大數據時空屬性。地質學具有時空屬性,地質學研究的對象與采集的數據具有空間屬性。地質數據更具有特定的時間性,任何地質數據都會與地質年代關聯,不同地質時代和不同地區的巖石、地層、礦床具有不同的分布特征和規律,因此,地質數據具有時空屬性;③地質大數據的價值性。通過分析數據可以得出如何抓住機遇及收獲價值,例如對于大量的物化探異常數據與綜合信息提取與拓撲,通過異常檢查與驗證,找礦取得新發現,其經濟社會價值巨大。
1.3大數據應用驅動地質工作變革與創新
數據產業是新興產業,也驅動了數據革命。在大數據經濟時代,科學研究的范式正由經驗型到概念型、模擬型向數據密集型的科學發現與演進,產生體量巨大,并蘊含重要價值的數據集,傳統的科研流程、方法和技術正在發生重大變化。掌握了數據,掌握了數據算法,掌握了數據的關聯性,就能夠決定了數據的產業價值。從蒸汽機開始第一次工業革命,到互聯網引發信息技術革命,當前是以數據為驅動的數據革命。新興大數據與大數據技術應用成為信息化發展的強大驅動,大數據是根本,云計算是工具,在信息化與大數據并行的智能化創新發展時代,對于地質大數據的管理和應用正在發生深刻的乃至顛覆性的變化。
當前,地質工作正面臨大數據、大挑戰、大變革,數據的真實、可靠、完整、全面是地質工作的基礎,數據就是價值財富和創新的資源,從海量地質數據的存儲管理到地質知識發現,并通過智能化平臺提供服務[4]。地質大數據給地質工作帶來了新的變革與創新機遇,因此,要重視數據,特別要重視數據在支撐決策中的作用,轉變工作決策模式,重在服務理念與服務方式的創新與變革。地質數據的數字化是基礎,最終目的實現信息化與智能化,創新開展知識管理和知識服務,發揮地質大數據潛在的知識價值,建立和發展“用數據來說話、用數據來管理、用數據來決策、用數據來創新”的數據環境與文化。
2.1地質大數據技術與地質大數據應用
大數據涵蓋大數據技術、大數據工程、大數據應用等,以其體量大、類型多、變化快、應用價值高為特征的數據集,正在迅猛發展和快速增長。大數據技術是數據分析的前沿技術,是對大數據進行獲取、存儲、分析、處理等技術的總稱,是對數據巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務。大數據應用是對大數據進行挖掘與應用,產生知識價值的過程以及在商業領域的應用。
地質大數據技術主要包含數據信息的采集與傳輸轉換、存儲與管理、關聯分析與數據挖掘、可視與智能、共享與安全等[5]。數據是數學形式記錄,本身不具有具體的意義,信息是對數據的解釋和注釋,賦含一定的意義。從數據-信息-知識的演變是人類認識深化、內涵拓展、價值提升的變化過程。大數據技術的意義,并不在于掌握規模龐大的數據信息,而在于對這些含有意義的數據進行專業化智能處理,從中分析和挖掘出有價值的結構化信息[2]。地質大數據技術還體現在兩個層面,一是地質數據的組織邏輯及物理模式,無論是結構化數據還是非結構化數據,都要有記錄指向可查,使平臺通過一定的技術手段能檢索到該數據,并能獲取。二是支撐地質大數據的應用服務平臺,地質大數據內容、種類、格式的多樣性和繁雜性,要求大數據平臺頂層設計的先進與安全。
地質大數據應用,是采用現代大數據與信息技術,立足地質大數據技術與應用,本著數字化、智能化的技術發展路線和創新變革的理念,通過化散為整、化異構為同構,多樣化碎片化非結構數據存儲、關聯、發現和挖掘,將多源異構多時態海量地質數據匯集與一體化組織,進行全面深入的數據挖掘,從中找到蘊含的有價值的相關關系,應用于地質實踐,充分發揮地質數據的作用,讓數據不斷增值,基于非結構數據與知識服務建模,實現技術創新和優化服務。地質大數據應用要防止簡單化片面化,一是不能簡單地將大數據等同于開放數據,很多開放數據只是離散小數據,并不具備大數據的基本特征。二是不能將大數據等同于共享數據,大數據平臺建設不僅推動大數據應用,還將數據信息的基礎系統進行統一,實現不同區位數據的互聯互通,進行數據資源的整合,建設國家級全國地質大數據中心,形成更加完善的決策支持體系,在數據整合的基礎上實現優化服務。基于服務后臺的大數據中心,借助信息技術將業務流程、服務、網絡和數據資源進行優化整合,便捷高效地為公眾提供一體化的服務。三是大數據并非等同于海量數據,大數據強調的是對數據的分析和應用,建立統一的數據資源目錄體系、數據標準體系、數據共享交換體系等,大數據雖指海量數據,但并不是全數據,而是數據資源總量不斷增長的狀態,從中挖掘出有價值信息是大數據應用的關鍵。
2.2數據挖掘與關聯建模
大數據研究不同于傳統的邏輯研究,是據其內在的數據邏輯,對數量巨大的數據進行統計性的搜索、比較、聚類、分類等分析歸納。數據相關性分析是將各類數據進行邏輯關系比較,將相似的數據邏輯關聯并分類劃分,目的是找出數據集里隱藏的相互關系,一般用支持度、可信度、興趣度等參數反映相關性。數據挖掘是應用數據分析和發現算法,從大量的、模糊的、隨機的數據集中,識別出有效有用的數據,提煉隱含在其中不被人發現的有用信息和知識,發現隱藏在數據之中的數據關系、歷史數據演化規律,同時對未來進行預測,通過基于數據的預測分析,為未來發展進行預測評價。
地質大數據是集地質描述、基礎數據、地質圖表、地質認識的地質數據資料,其價值巨大。地質大數據的整合集成是對數據的一致性處理,包括空間基準不一致、語義不一致和尺度不一致的地質空間大數據一致性處理,以及地質數據的一體化存儲與管理。在大數據技術支持下,對地質大數據整合集成,進行充分挖掘,地質大數據及大數據相關技術為實現地質信息化和現代化發展提供了有效的支撐。數據信息的融合與提取是在對各種分散的多源異構數據進行一體化組織與集成整合的基礎上,通過信息處理技術建立各種數據模型,從而提取出有用的信息。地質大數據挖掘是通過歸類、關聯等數據分析,獲取其表達的信息和知識,從而發現其內在的聯系與規律,是認識的總結提高和認知的發現。據此,通過對多來源、多模態、多時態數據的相關性分析,數據挖掘和模式分析,提高對數據資料的綜合與深度應用,從而實現新知識的發現和價值的升值。
2.3基于大數據的可視化與智能化
數據可視化是進行大數據分析的重要手段,是借助計算機數據圖形分析處理技術,發現數據的內在關系,揭示新問題,產生新的綜合與表現,形成新觀點,提供新的洞察力[6]。可視分析是通過交互可視界面來進行分析、推理和決策的過程,本質也是知識發現。可視分析與一般分析及挖掘的不同在于,其不依賴于數學模型,是一種探索式分析。數據可視化作為一種知識表達、知識展示和知識傳遞的手段,通過將復雜、抽象、枯燥、難于理解的數據轉化為直觀的圖形,進而提供智能和決策分析。
地質大數據可視分析的基礎是多年積累的地質體建模、地質過程建模、地質調查數據可視化及交互技術,可視分析就是在這些技術的基礎上,克服高維性、不確定性和異構性,研究開發從復雜地質大數據中抽取有效特征和知識發現。目前,一些已有的三維地質建模軟件能夠實現多種數據三維建模、顯示和分析等功能,但這些建模方式仍然是靜態交互,在大數據時代下的可視化技術將朝著自動化和交互性方向發展。
在智能研究領域,經過長期實踐,積累了很多科學方法和應用技術,如自然語言語義分析、信息提取、知識表現、自動化推理等。這些方法技術目前正在逐步地應用于大數據技術,結合預測性分析和處方性分析,挖掘大數據蘊含的規律和價值,從而為人類決策提供智能支持。人工智能的發展,需要大量的知識和經驗,這些知識和經驗需要海量的數據作為支持。知識服務是基于專業化、個性化、時效性的服務,是依據用戶需求,以信息的搜尋、組織、分析、重組等知識開發為基礎,通過數據分析與挖掘,進行知識創新,向用戶提供知識應用和智能決策服務。
3.1地質云平臺
在當代數據大規模生產、分享和應用的數據革命時代,云技術是近年來信息技術發展的新興技術,是將云計算的各種特征用于支撐建模、存儲、處理等要素的地理空間信息技術。云計算作為一種新興的計算模式,它是以大數據是根本,云計算為工具,為大數據的集中管理和分布式訪問提供了必要的場所和分享的渠道。
地質云是充分利用地質、礦產、地球物理、地球化學、遙感、水文、環境、災害、地形、地貌等地質調查數據,以大數據技術支持下的地質數據應用與服務為目標,通過數據采集、資源整合、數據傳輸、數據挖掘、信息提取、知識發現等手段,構建基于地質大數據的云平臺,實現從數據到信息、信息到知識,知識到智慧數據開發與信息轉換,服務于政府決策、科學研究、企業生產等多層次、多角度、多目標的需求與應用。構建地質云系統,一要明確地質大數據的應用目的,二是基于虛擬化技術建立云存儲模式,實現地質大數據的一體化組織,三是搭建服務虛擬化的地質云計算平臺,提供服務管理、搜索調用。地質云技術的應用增加了地質數據的使用效率,用戶通過瀏覽器或者應用程序界面提交計算任務或者服務請求,使地質數據信息創造更多更新的價值。
3.2大數據應用服務系統
信息技術的發展推動了地質行業的數據共享和信息服務水平的提高,地質大數據開發與應用是國家大數據戰略的組成部分,地質大數據開發應用依靠大數據平臺實現實現地質資料數據的互聯共享和社會服務,實現數據到信息的轉化,進一步對信息進行集成形成知識體系,合理利用并提供共享服務。在應用和服務中又會產生新的數據,從中再提取有用信息。形成數據-信息-知識-智能的鏈式應用服務體系。
構建地質大數據應用服務體系,采用3S 技術、網絡技術、云計算等技術,對地質數據信息進行集成整合、深度加工、研發服務產品,對地質大數據進行挖掘與關聯分析,獲取更多智能而有價值的信息,提供多方位的社會服務和智能決策支撐。大數據平臺體系包括:地質大數據管理、地質大數據無縫集成與適配、數據分析與挖掘、大數據關聯性分析、可視化與智能分析、地質大數據智能解釋與展示等。大數據應用服務平臺依據不同行業、不同領域、不同需求的大數據處理需求,構建大數據獲取、存儲、組織、分析、決策、共享、交互、協作和服務的智慧平臺,是基于信息資源、知識、智慧、共享的交互與創新,主要包括:基礎支撐與管理層、大數據處理層、大數據分析與決策層、交互服務層。①基礎支撐與管理層,為大數據應用服務平臺提供技術與環境支持,并對數據、知識、資源、智能、服務等進行感知,并將服務模塊提供給大數據處理與管理層;②大數據處理層,通過對結構化、半結構化和非結構化地質大數據的管理與處理,進行數據獲取、識別、分類、聚合、定位、挖掘、組織與存儲等系統管理層,根據服務需求,為數據分析與知識服務提供協作支撐,是網絡環境下管理與服務的集合,實現大數據與應用服務平臺的調用與管理;③數據分析與決策層,是構成大數據整體平臺系統的核心,從海量的結構化、非結構化和半結構化數據中進行過濾、歸納、挖掘、關聯、分析,進行智能與決策;④交互服務層,進行嵌入式服務的終端封裝、接入、訪問、調用和服務等。
3.3技術標準體系
地質信息標準化建設在空間信息管理、轉換、共享、應用等方面起著重要的作用,地質大數據應用與服務需要相關的技術標準與行業規范為支撐,需要建立科學、合理、適用的技術標準體系,主要包括基礎標準、信息交換標準、存儲管理標準、信息接口服務標準。
由于大數據產業和應用發展迅猛,亟需通過標準化的途徑整合資源,使各方面達成共識,形成統一的數據格式、接口、安全、開放等標準,為數據開放共享提供基礎,為數據安全應用提供保障。統一完善的標準是空間信息進行協同操作的基礎,信息技術的發展對標準化提出需求,涉及大數據支持下地質數據智能感知識別、傳感適配、描述分類、協作共享、訪問接入、服務協議等標準和技術規范,同時標準的制定促進了新技術、新方法的應用和發展[7]。建立完善的技術標準體系,涵蓋地質數據分類、采集、存儲、交互、服務等,重點進行信息分類與編碼、數據庫建設等基礎標準和信息共享與服務標準的制定。
當前,在工信部和國標委的領導下,全國信息技術標準化技術委員會大數據標準工作組于2014年12月成立,統籌開展大數據標準化工作,基本形成了大數據標準體系,并且《信息技術大數據術語》和《信息技術大數據技術參考模型》等八項國家標準已經基本完成,《信息技術數據質量評價指標》、《信息技術通用數據導入接口規范》等兩項國家標準大綱也已擬定。
大數據標準體系建設與標準化發展,一是建立大數據與應用標準體系,在標準體系范圍和架構下,推進標準化發展,圍繞數據格式接口、開放共享、數據質量、數據安全、大數據平臺等研制大數據系列技術標準,重點開展數據格式接口、開放共享等標準體系建設。二是加強標準驗證和應用試點示范,建立標準符合性評估體系,推動標準對產業和應用的支撐作用。三是在國際標準化方面積極努力。
[1]李國杰,程學旗.大數據的研究現狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.
[2]趙鵬大.大數據時代的地學研究[C]//湖北地質科技論壇.2014.
[3]王登紅,劉新星,劉麗君.地質大數據的特點及其在成礦規律、成礦系列研究中的應用[J].礦床地質,2015,34 (6):1143-1154.
[4]黃少芳,劉曉鴻.基于大數據的地質資料檔案信息化與服務[J].資源產業,2015,17(6):56-60.
[5]嚴光生,薛群威,肖克炎,等.地質調查大數據研究的主要問題分析[J].地質通報,2015,34(7):1273-1279.
[6]李朝奎,嚴雯英,肖克炎,等.地質大數據分析與應用模式研究[J].地質學刊,2015,39(3):352-357.
[7]黃少芳,劉曉鴻.大數據時代地質資料信息化發展探討[J].中國國土資源經濟,2013(10):67-69.
Thinking about the application of geological big data and geological information development
HUANG Shao-fang,LIU Xiao-hong
(China University of Geosciences(Beijing),Beijing 100083,China)
Massive geological information and data have formed by the long-term accumulation of geological work,which has important value.It has the characteristics of big data and belongs to the category of big data,Geological data,which has many features such as multivariate(Multi-source),heterogeneous,temporal,relevance,randomness,fuzziness and nonlinear.Integration of geological survey and information technology has promoted the development of application of big data and geological information,and geological information goes into a new era of data-driven which is based on big data analytic and big data application.This paper analyzes the current geological data technology and its applications,and proposes to integrate geological data integration,meanwhile it conducts correlation analysis,data mining and associated modeling about multi-source,multi-modal and multi-temporal state data.Finally,it implements the visualization and intelligent,based on big data.Besides,this paper also has discussed 3 elements supported by geological big data,which include geological cloud platform building,geological data application system and standardization of construction.
geological big data;geological data;informatization;standardization
2016-01-22
黃少芳(1969-),女,講師,從事地質檔案管理與信息化研究。E-mail:Huangsf@cugb.edu.cn。
G271
A
1004-4051(2016)08-0166-05