林 芳
(福建省國土資源信息中心,福建 350001)
在信息化技術飛速發展、大數據發展戰略持續推進、自然資源機構改革順利完成等多項因素的共同促進下,自然資源大數據在簡化辦事流程、提升辦事效率、增強群眾“獲得感”、輔助領導決策等方面發揮了一定的作用,但受數據質量、應用效率、信息安全等方面的制約,其應用的深度和廣度還遠遠不夠。面臨自然資源大數據發展的機遇和挑戰,立足于信息化建設現狀,以應用需求為導向,務實自然資源大數據的“管理”,順暢自然資源大數據的“匯聚”,形成可持續發展和逐步完善的自然資源大數據“聚、管、用”體系尤其重要。
“大數據”(big data)一詞最早是在美國著名未來學家阿爾文·托夫勒所著的于 1980 年出版的《第三次浪潮》一書中提及[1]。其后,美國NASA、《Science》、國際數據中心IDC從多個角度對“大數據”有過相應的闡述[2-5]。大數據目前尚未有一個統一的定義,但總體來說大數據具有規模性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)的特點[5]。從這個角度出發,自然資源數據既有結構化的矢量數據、屬性表格數據,也有半結構化、非結構化的影像檔案數據、音視頻數據,具有多樣性的特點,而且通過多年信息化建設的積累,已具備一定的規模。隨著近年來各類調查評價、確權登記、多規合一等工作的開展,數據資源總量劇增,更新時效性顯著提高,數據的應用價值也越來越大。因此,筆者認為,在自然資源管理框架下,自然資源要素的調查、評價、規劃、利用、保護、監測等所有自然資源本身及其管理相關的數據集合就是自然資源大數據。
福建省自然資源大數據是伴隨著自然資源信息化的持續推進和管理需求的不斷提升形成的,已建立涉及規劃、土地、地質、礦產、地災等多個業務領域的業務系統,沉淀了大量真實可靠的覆蓋福建省全域的管理業務數據,通過運行順暢的數據匯交制度,積累了大量多類別、多時項的專題數據。近幾年,隨著全天候遙感監測、國土空間基礎信息平臺建設、政務信息共享、大數據開放等任務的推進,來自自然資源管理部門的數據、通過共享獲取的外部門的數據均迅速劇增,當前數據總量達到30T,每年至少新增3T,形成了較好的自然資源大數據應用和發展的基礎。
福建省自然資源大數據從數據的來源大致分為五類:一是來源于自然資源廳運行的業務管理系統,這類系統沉淀的數據有結構化的業務數據、非結構化的附件材料及輸出文書;二是從業務處室、地市、區縣匯聚上來的專題數據、不同時項和區域的遙感監測數據,專題數據一般包括結構化的專題數據建庫成果、半結構化的數據描述文件、非結構化的專題圖片、報告文本及統計圖表;三是從外單位共享獲取的數據;四是互聯網數據;五是基于已有的數據資源,為了支撐應用而生成的各類數據成果,多是結構化的數據。
通過統一規劃所有數據資源的存儲,對各類結構化、半結構化、非結構化的數據資源制定統一的命名規范,共同形成統一的資源目錄體系。結構化的業務數據使用關系型數據庫存儲,非結構化的數據直接以數據文件的形式存儲。目前,按照統一的數據分類體系、統一的技術標準,整合各類數據資源,形成了覆蓋全省、包括地上地下、更新及時的空間基礎數據集、空間規劃數據集、空間監測數據集、空間管理數據集及社會經濟數據集等5大類93個小類的數據資源體系。
一是數據挖掘分析輔助決策不夠。自然資源大數據的應用是自然資源大數據匯聚和管理的驅動力,如何更好地滿足應用需求是自然資源大數據匯聚和管理的目標導向。當前,自然資源大數據對業務的精細化管理已經起到了很好的支撐作用,但是在數據挖掘分析輔助決策、數據共享公開服務公眾方面還需進一步探索。
二是各類數據的關聯關系挖掘和應用不夠。數據并不全是資源,可用的數據才是資源,自然資源數據雖多,但是在解決急需問題時,可用的數據又捉襟見肘,這是輔助決策應用局限的一個重要原因。數據價值的產生往往需要從多維度、多角度分析相關數據才可能會挖掘出其價值。由于歷史原因,部分已經存在的數據相互獨立,沒有建立相互的關聯關系,雖然這些數據統一的存儲在一起,可仍然很難發揮其價值。
三是在保障數據安全前提下的數據充分共享和公開程度不夠。自然資源部門大部分的數據涉及空間位置信息,如何共享公開還依賴于更進一步的數據安全文件發布,但對于很多非空間的業務屬性數據、證照及各類資料在信息安全的情況下,做好數據的共享公開對提升群眾的獲得感有重要的意義。

圖1 大數據“聚、管、用”架構
自然資源大數據“聚、管、用”存在相互的制約和促進,形成一個具備自完善驅動力的體系,需要從核心的應用目標出發,站在全局的角度規劃和設計數據采集、存儲、整合加工、分析挖掘及應用等方面的標準和規則,采用分層架構的方式,從數據的本質和數據所描述的業務出發,在數據的匯聚和整理的過程中,建立起數據之間相互的關聯關系,并對數據進行系統化管理,構建面向應用的大數據“聚、管、用”體系,讓數據源源不斷地、最大化地發揮其價值(圖1)。
大數據匯聚與傳統數據采集的核心意義是一致的,傳統采集的數據具備一定的結構性,生成頻率具有規律性,處理規則相對簡單[6]。大數據需要考慮多源數據獲取的特性,針對不同的數據,需采用不同的數據匯聚(獲取)及更新策略,是大數據“在線”的保障。
3.2.1 業務系統數據
業務系統數據對自然資源的管理及輔助決策的應用有著舉足輕重的作用。福建省自然資源輔助決策系統中,102項基礎數據中有65項基礎數據來源于業務系統,占比64%[7]。對業務數據的匯聚有兩種模式:一種是基于統一的存儲規劃,直接將業務系統的數據庫(業務成果庫)納入數據資源體系的管理中,數據的更新直接由業務審批來驅動完成,數據的應用由業務成果庫開放數據庫表、視圖的訪問權限來實現;另一種是對業務數據進行增量的抽取、清洗、轉換存放到關系型數據庫。第一種模式適用于訪問頻度不高但訪問業務信息精細程度高的情況。第二種模式適用于訪問頻度高但業務信息需求相對較少的情況。若既需要高頻度又需要詳細信息的情況,則可采用二者結合的模式支撐應用。在福建省自然資源廳運行的業務系統,經過新一輪的升級改造已經建立了相對完備的業務勾稽關系,原地政管理的“批、供、用、補、查”、礦政管理的“探、儲、采、治、查”均可實現業務的串聯。在進行業務數據匯聚的過程中,無論是采用上述哪種匯聚的模式,均需要完整地保留好業務數據之間的關聯關系。
3.2.2 匯交數據
經過數據匯交方式匯聚到自然資源廳信息中心的數據,多是各類專題數據,例如每年的土地利用變更調查數據、基本農田劃定成果、土地利用總體規劃等。這類數據按照數據匯交的規范,由各地或業務處室按照匯交數據的標準提交給自然資源廳信息中心后,由其負責進行數據檢查及入庫更新處理,并且對數據的描述性信息進行采集,以更好地支撐數據的分析應用。除此之外,還有通過匯交系統進行匯交的數據,例如不動產登記成果、部分統計數據等,這類數據的更新基本上由更新程序自動執行,由于這類數據的更新實質上脫離了業務的驅動,所以需要在技術上和制度上有完善的保障機制,來確保數據更新的及時有效性。
3.2.3 共享數據
對于外部共享的數據有兩種方式,一種是通過數據共享交換獲取的數據,另一種是通過手工拷貝從其他外廳局獲取的數據。對于從其他外廳局拷貝的數據,在數據更新上難以保障,一般不建議采用這種模式,但受限于信息化建設的現狀,不得已而為之。數據共享交換有標準接口、數據交換系統、前置機[8]、政務資源庫等[9]方式,目前自然資源廳內大多數數據通過標準接口的方式進行共享,例如全省的電子證照庫、省電子政務監管平臺等,這類數據對數據交換的實時性要求很高,所以對這類數據一般情況下是需要用到時即時獲取,少部分會根據實際的需求進行數據的存儲。
3.2.4 互聯網數據
互聯網數據主要是利用網絡爬蟲按照一定的規則,自動地抓取萬維網信息的程序和腳本,通過采集目標頁面內容[10],對互聯網開放數據進行采集,獲取人口及社會經濟等相關的數據,經清洗、處理、挖掘后為自然資源管理所用。數據獲取的方式有靜態網頁數據獲取、Ajax數據獲取、動態渲染頁面獲取[11]。對靜態網頁數據的采集比較簡單,只需要對加載后的HTML源代碼進行解析,提取出需要的數據文本即可。對于動態頁面的解析,往往需要分析前端與后臺交互的數據包,找到相應的API后,調用API直接獲取現成的數據,不需要像靜態界面那樣解包。Ajax數據的獲取是動態界面的一種分析方式,適用于API解析比較容易,并且返回的數據為最終獲取目標的情況。目前,自然資源廳通過這類方式獲取的數據并不多,但是隨著大數據分析應用需求的擴展,需通過互聯網獲取的數據越來越多,應積極地研究和嘗試互聯網數據獲取匯聚。
周傲英指出的“如果說在數據庫時期,解決數據管理問題需要‘削足適履’來使用數據庫系統,那么到了大數據時代,人們開始根據每個不同的應用度身定制自己的系統,也就‘量足制鞋’。”[12]面對海量的自然資源空間大數據,需采取有效策略和方法,對數據物理存儲、數據索引、數據壓縮、空間數據引擎、數據提取、數據緩存以及顯示等一系列關鍵技術進行優化創新,提高海量空間數據的查詢、瀏覽和調用速度。福建省自然資源廳數據中心采用云架構對所有的基礎軟硬件進行統一的管理,在此基礎上,利用ArcSDE、Oracle以及File GeoDatabase等存儲方式結合空間數據索引機制來實現空間海量數據的管理。
3.3.1 物理存儲
福建省自然資源空間數據的存儲以大吞吐量、高性能存儲設備構成,以光纖存儲網絡互聯。在空間數據存儲區,以部署Oracle等關系型數據庫為主;在地圖發布存儲區,以部署分布式緩存為主;在專題存儲區,以分布式文件系統、分布式數據庫存儲為主,存儲參與大數據分析的專題數據。對所有存儲資源進行資源池化,統一管理。
3.3.2 數據索引
在已有的空間索引基礎上,通過規范化命名空間數據的方式,建立了適用于福建省自然資源廳的空間數據名稱索引,可以根據空間數據的名稱解譯出數據類型、行政區劃、坐標系統、比例尺等信息,為數據入庫、數據分發、空間分析提供了快速檢索數據的能力。
3.3.3 數據緩存
在提高顯示效率方面,采用了常見的地圖切片緩存技術;在提高分析效率方面,采用了分析數據源定時持續化技術。由于全省域空間數據的加載需要耗費一定的時間,因此采用了分析數據源定時持續化技術,將分析數據緩存在系統內存中,通過設置緩存時間、空閑時間來控制資源的釋放,一方面可以提高分析性能,同時也避免了造成系統資源的浪費。
為了更快、更穩地提供各類數據、分析服務支撐應用系統的建設,采用了協調節點、計算節點、存儲節點與展示節點相分離的分布式分析框架。協調節點主要實現對計算數據源檢索、分析框架中各節點的監控以及任務的調度管理構成;存儲節點,用于存儲空間數據,存儲節點必須要安裝PG;計算節點用于計算;展示節點,將存儲節點的中間結果圖層進行匯總統計以及展示。目前,自然資源大數據的應用已經貫穿到自然資源調查、評價、規劃、利用、保護、監測的自然管理全過程,取得了一定的應用成效。
3.4.1 提供統一的底圖、底板、底線
通過“聚、管、用”體系的構建,不僅能提供遙感監測、土地變更調查、地理國情普查等各類自然資源調查監測數據,還能提供全省主體功能區規劃、城鄉規劃和土地利用規劃等各類空間性規劃數據,以及生態保護紅線、永久基本農田、城鎮開發邊界等紅線數據,能為自然資源管理工作提供統一的底圖、底線和底板。
3.4.2 提供強大的數據分析應用支撐
通過空間落位和業務規則進行自動套合分析,為項目選址、行政審批提供依據,為自然資源管理新形勢下的空間用途管制提供技術支撐。同時,分析應用與自然資源管理各業務審批系統深度融合,為用地、用礦管理提供數據服務,其中建設用地審批系統和礦政綜合管理系統在土地利用現狀、規劃、各類保護區等數據的基礎上,分別設置了23項、20項自檢規則,對于不符合規劃、占用基本農田以及各類保護區等報件,系統自動檢測并告警提示。
3.4.3 實現自然資源狀況在線監測
實現對土地利用現狀、林業調查等自然資源情況,土地利用規劃、各類保護區等規劃情況,以及用地審批、土地供應等行政管理行為進行實時監測,設置各類綜合指標數據480項,建立實時動態更新指標庫。基于大數據技術,精準獲取更新指標,對全省土地、礦產等資源即時狀況和時空變化進行及時掌控、實時匯總以及趨勢分析,實現自然資源狀況在線監測。
目前,福建省自然資源大數據“聚、管、用”體系絕大多數處理的還是結構化的數據,雖然具有相當一部分的非結構化的數據,例如:業務系統的附件材料、業務檔案、專題分析報告文檔等,還沒有發揮挖掘其更多的作用和價值。一方面,我們期待技術的進步以解決非結構化數據的分析和處理問題,帶來新的應用熱點;另一方面,作為一線的應用構建和支撐單位,從自身業務流程改進和應用深入挖掘的角度提出以下幾點完善與發展的方向。
大量宏觀的數據分析固然重要,但整合微觀的數據,為基層業務服務,提高公共服務效率,同樣是重要的大數據應用,而且是更有效的大數據應用。一方面通過信息的共享,積極響應各級政府部署的業務辦理“只跑一次”“一號、一窗、一網”的服務要求;另一方面將大數據分析應用于業務流程的優化與再造,科學地指導業務辦理中各類資源的調配,提升業務辦理的效率。
政府公共服務進一步提高是向智能化服務發展。在大數據、云計算、物聯網、人工智能技術大發展的環境下,智能化系統建設會越來越快。政府公共服務業務的智能化是最容易產生效果的領域,公共服務智能化最能夠激發公眾的獲得感,會成為智慧城市的亮點,必將全面提高公共服務智能化的水平。通過建成智能化的業務流程,讓信息技術直接對數據進行處理,此類業務不需要對數據進行信息抽象,不需要形成概念,信息系統完全可以勝任。
在已有輔助決策應用的基礎上,進一步擴充空間分析評價、事態感知預測等分析模型,通過數據挖掘、統計分析提供更進一步的決策支持是未來幾年輔助決策應用的重要方向。
進一步提升數據可視化的應用手段,不僅僅面向自然資源管理體系內的人員,也可擴展至社會公眾。可視化數據不僅能繞過隱私保護的困難且能加快信息溝通,必將成為大數據時代信息傳遞的重要方式,政府數據、企業數據向社會開放都會大量采用該模式。
過去二十年,自然資源領域的信息化建設以數據建庫和電子政務為主,建設了若干數據庫和信息系統,滿足事務性工作需要(現狀調查、地籍管理、土地變更、耕地保護等)。大數據時代中成立的自然資源管理部門,大數據方法支撐決策將成為重中之重,而自然資源大數據的“聚、管、用”體系作為支撐決策應用構建的基石,其重要性不言而喻。本文闡述的福建省自然資源大數據的“聚、管、用”體系是基于福建省現狀的探索和應用,為其他地區同類工作的開展可提供借鑒和參考。