郭文華,曾建鷹,肖 飛,劉文超,張玉韓,王娜萍
(1.自然資源部國土空間大數據工程技術創新中心,北京 100812;2.自然資源部信息中心,北京 100812)
全球范圍內,運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢[1]。《國務院關于加強數字政府建設的指導意見》明確提出,建立健全大數據輔助科學決策機制,統籌推進決策信息資源系統建設,充分匯聚整合多源數據資源,拓展動態監測、統計分析、趨勢研判、效果評估、風險防控等應用場景,全面提升政府決策科學化水平。自然資源大數據作為國家大數據的重要基礎和組成,加強其應用與服務是落實國家大數據戰略的重要舉措。
自然資源部是生態文明建設的重要機構保障,自然資源是生態文明建設的空間場所和主陣地,統一行使全民所有自然資源資產所有者職責、統一行使所有國土空間用途管制和生態保護修復職責,是生態文明建設對自然資源管理提出的新需求。自然資源信息量大、分布廣、結構復雜、應用廣泛,決策影響因素多,決策難度大,決策不確定性程度高,特別是幾乎所有用于決策的信息都具有強烈的空間性[2]。為實現山水林田湖草沙一體化保護和系統治理,自然資源管理需要按照“統一底圖、統一標準、統一規劃、統一平臺”的要求,綜合各類自然資源和國土空間數據及人口與經濟社會等相關數據,充分利用大數據分析挖掘等新技術,實現對自然資源和國土空間的綜合研判,形成系列定量化的研究產品[3],提升自然資源治理體系和治理能力的現代化。
大數據、云計算、空間數據挖掘等新技術的不斷更新進步,為建立具有監測監管、分析研判、評估評價、預警預測等功能的“數據大腦”(自然資源大數據決策支持系統)提供了技術可行性,可以更準確、及時、全面地掌握和分析自然資源現狀,提高決策和宏觀調控的科學化水平。
本文依托國土空間基礎信息平臺,以數據為基礎,以問題和目標為導向,充分運用互聯網、大數據、地理信息等技術手段,研發自然資源大數據決策支持系統。在充分整合利用自然資源調查監測和管理數據基礎上,匯聚融合自然地理、人口、經濟、產業等各方面數據,建立自然資源和人類經濟社會數據庫;以目標和應用為導向,建立指標庫和模型庫;開發具有瀏覽、搜索、可視化和輸出功能的工具庫;圍繞自然資源領域重點和熱點難題,分專題形成在線交互分析和線下深度分析研究報告產品,為自然資源管理和社會化服務提供大數據支撐。
自然資源大數據決策支持系統架構自下而上分為5 個層次,如圖1 所示。

圖1 自然資源大數據決策支持系統總體架構
(1)數據層。建立數據獲取和共享調用機制,實現數據的加工、融合、存儲和服務。針對人類活動、社會經濟統計和互聯網等外部數據,通過決策支持系統的任務調度工具進行采集和處理,解決多源異構數據的獲取和更新問題。通過與國土空間基礎信息平臺的共享調用,實現自然資源現狀、規劃和管理等內部數據與外部數據融合,將采集的外部數據和數據融合成果納入國土空間基礎信息平臺統一管理。
(2)指標層。在數據層基礎上,根據決策主題和內容需要,按照時間、空間和屬性等不同維度提取數據,生成指標值,建立涵蓋自然資源業務、自然資源統計和經濟社會統計的基礎指標庫,并在此基礎上構建服務于各專題應用的專題指標庫,為決策支持專題應用提供指標支撐。
(3)模型層。在指標庫的基礎上,統一對算法模型進行注冊、發布和服務管理。模型包括描述性統計、綜合評價、參數檢驗、相關性分析、時間序列預測、自然語言處理等通用模型,以及安全底線監測預警、土地利用狀況分析評價、空間格局問題識別、自然資源輿情感知、礦產資源安全風險評價等專用模型。
(4)工具層。研發數據瀏覽、指標分析、可視化展現、語義搜索、報告生成和專題設計等工具,支持數據發現、數據挖掘、報告編寫、專題搭建等操作,為開展自然資源決策支持分析研究提供支撐。
(5)應用層。通過構建國土空間開發利用、耕地保護與糧食安全、礦產資源安全、房地產分析等專題分析系統,以及決策支持數據服務、自然資源社會大數據監測與分析系統,為國務院、自然資源部和地方政府及高校、自然資源科研機構、相關企業和社會組織提供自然資源決策支持服務和國土空間大數據協同研究環境。
自然資源大數據決策支持系統作為典型的數據密集型信息系統[4],不僅要滿足多源異構數據的采集需求,又要支撐建立可持續的數據采集更新機制;需要對數據進行高效加工計算,以滿足指標生成和模型計算的要求;需要按不同的查詢、檢索和使用需求對數據加工結果進行分類存儲,適應不同的數據應用場景。
針對多源異構數據采集、計算和存儲方面的技術難題,系統采用多源異構數據流批一體化處理技術。在數據采集方面,接入和管理離線文件、數據庫、實時數據等多種數據源,實現對社會經濟統計、人類活動等結構化數據及網頁、微博、微信等非結構化數據的采集。在數據計算方面,采用批處理和流處理技術,根據數據量、數據類型、計算頻度和算法復雜度等情況,實現數據批量定時計算和根據滑動時間窗口按順序進行的遞增式實時計算。在數據存儲和服務方面,融合式數據倉庫提供批處理數據存儲和流式數據落盤,采用關系型數據庫、NoSQL、NewSQL 等不同類型數據庫,滿足綜合索引、在線分析和數據挖掘等不同工作對數據存儲和分析的要求。同時,根據元數據管理的需要,實現對數據源、數據采集和計算任務的管理,形成數據資產和數據目錄,并進行數據質量和數據譜系分析,為決策支持系統數據處理過程提供統一管理,如圖2 所示。

圖2 多源異構數據流批一體化處理技術框架
海量、多源、異構的自然資源大數據為決策支持提供了豐富的數據基礎,也對數據分析和挖掘帶來了巨大挑戰[5-6]。如何從數據中提取有用特征、發現趨勢規律一直以來都是決策支持系統建設的關鍵,其核心是決策支持模型[7]。系統面向自然資源管理的不同領域,以數據庫技術、統計學、人工智能為基礎,遵循數據、信息、知識與智慧(data,information,knowledge and wisdom,DIKW)模型[8],將自然資源專家知識融入指標體系和模型建立過程,圍繞人類活動感知、人地關系分析、資源安全底線、資源利用效率、資源供給保障、資源市場的監測分析等方面,建立國土空間規劃與體檢、耕地保護與糧食安全、礦產資源安全保障、房地產市場監測分析等專題指標體系和專用模型。同時,面向基于指標和模型的數據挖掘應用場景,研發數據選擇、預處理、變換、挖掘、解釋與評估等在線數據挖掘工具,支撐面向自然資源管理重難點問題的便捷化、科學化分析,實現從數據、信息、知識到智慧決策的全過程信息化。
文本類型的非結構化數據具有抽象性、語義組合性、歧義性和進化性等特點[9],這為分析挖掘信息帶來了困難。系統以采集的新聞報道、分析報告等數據為基礎,根據多種文本挖掘任務需求進行語料標注,建立了自然資源主題語料庫。采用基于深度學習的預訓練語言模型[10],將需要處理的文本映射到高維詞向量空間,抽取文本的語義特征,再通過下游訓練得到各類文本挖掘模型,包括自然資源主題分類、地理實體識別、房企識別、專家識別、觀點識別、輿情情感分析和住宅用地交易事件抽取等模型。通過基于深度學習的自然資源文本挖掘技術,實現了對自然資源領域文本語義的特征抽取和特定的文本挖掘任務,為有效感知和分析互聯網的自然資源信息、實現系統智能化與語義化搜索奠定基礎。
通過3 年多的建設與運行,自然資源大數據決策支持系統在數據匯聚融合、指標和模型建設管理、專題研究和應用等方面已取得較好成效。
通過采集、接入、爬取、購買、共享、人工等多種方式,匯集了政務管理、綜合統計及與自然資源相關的人類活動、經濟社會、互聯網輿情等數據,經過數據清洗、整理、加工,建立自然資源和人類經濟社會數據庫,將其納入國土空間基礎信息平臺統一管理,為決策支持系統建設提供數據支撐。目前,系統已匯聚、整合入庫社會經濟相關指標數據記錄超過120 萬條,已完成國內數字化報刊、網絡新聞媒體和微博、微信等互聯網輿情相關數據的采集入庫,獲取的數據記錄近1 000 萬條,存儲容量近1 TB。
3.2.1 指標管理
以問題和目標為導向,根據管理決策需要,開展指標體系研究,建立指標庫。研發指標管理工具,支持指標體系管理、指標項管理、指標計算配置、指標值管理、指標運行監控等功能,對各類分析指標實現統一管理。針對單個指標,實現指標分類、計算方式、更新方式、預警等級、數值和維度、閾值等屬性的規范定義和靈活配置。研發了指標分析應用工具,面向在線分析和專題搭建需求,提供指標查詢、瀏覽、可視化展示及綜合分析功能,支持跨時間、跨地區、跨指標的交互式對比分析和結果導出,支持專題應用的構建、預覽和發布。
3.2.2 模型管理
建立描述性統計等通用模型和安全底線監測預警等專題分析模型,為專題分析提供基礎分析模型服務和定制組合模型服務。研發模型管理工具,實現模型定義、算子管理、執行應用和結果表達等全過程的管理功能。按照統一的接口標準,提供數理統計、矢量計算、柵格算子等各類基礎模型算子,支撐組裝算法生成復雜模型。采用微服務、容器化技術,對模型計算任務進行調度管理和運行監控,增強模型計算效率,提高運行穩定性。提供模型參數說明、模型運行結果可靠性分析和模型成果報告導出等功能,通過可交互的統計圖、表、地圖等展示方式,提高結果的可解釋性。
3.2.3 對外服務接口
對外提供指標和模型的注冊、調用服務接口,通過指標和模型注冊接口,實現外部指標和模型通過接口完成自動注冊接入,并納入指標和模型統一管理。通過指標和模型調用接口,為第三方提供指標和模型的訪問、調用等服務功能。
3.3.1 房地產分析專題
為落實中央關于促進房地產市場平穩健康發展的要求,及時研判掌握房地產市場形勢,以促進住宅用地有效供給為目標,研究建立了以住宅用地為核心,涵蓋“人、地、房、企、城、金、輿情”7 個維度的92 項監測與分析指標。建立了全國和71 個大中城市涉及房地產的多源數據獲取與動態更新機制。針對住宅用地有效供給、房價與地價關系、房價與收入比、增量與存量等供求關系,研究建立了相應的分析方法和模型。融合集成多源數據、Web 組件服務、大數據分析和可視化等技術,開發房地產市場宏觀分析、城市比較、因城施策、輿情分析、月季度專報等功能,全面動態反映房地產市場供需狀況。基于系統應用,實現了房地產市場動態監測與分析評估,形成月度、季度、年度定期形勢分析報告和不定期研究報告,依據市場形勢提出住宅用地供應的對策建議,促進房地產市場平穩健康發展。
3.3.2 國土空間開發利用專題
為實現國土空間格局優化,全面掌握和研判國土空間開發利用狀況,以人地關系分析為核心,構建了國土空間開發利用專題。開展了人口、經濟、社會發展、土地利用多源異構時空數據的抽取、清洗和整理入庫,按照多種行政區劃層級形成了國土空間開發利用專題數據集,為專題應用提供數據基礎。圍繞國土空間開發利用核心業務場景,構建了國土空間開發利用指標庫。采用大數據和可視化技術,從建設用地現狀及演變、人類活動空間分布及演變、人地關系、體檢評估等方面,對國土空間各要素的總量、結構、布局和時序等時空特征進行刻畫分析,并在線提供指標查詢、可視化展示、區域細化分析等功能,實現國土空間開發利用多業務場景的動態監測、在線分析和及時預警。基于系統應用,形成關于國土空間開發格局的系列分析報告和空間圖件,有效支撐了全國國土空間規劃綱要編制工作。
3.3.3 耕地保護專題
落實最嚴格的耕地保護制度,圍繞耕地保護與糧食安全,建立耕地保護與糧食安全指標體系;建立了全國、省、市、縣級尺度的耕地、播種面積、糧食產量及糧食進出口量價等多源數據獲取和動態更新機制。研發耕地現狀及變化、耕地“非農化”和“非糧化”、耕地與糧食、國際比較等模塊。采用空間分析和可視化技術展示中國耕地的總體數量、結構、布局、年度變化和“非糧化”狀況,從生產、消費、進出口等方面分析中國糧食保障能力,從國際糧食市場和國際耕地資源稟賦及利用情況分析中國糧食安全短板和風險。基于系統應用,定期形成耕地保護“非農化”“非糧化”分析報告、糧食進出口量價分析報告,并從保障糧食安全的角度研究提出耕地保護的政策研究報告,為守住耕地保護紅線和糧食安全底線提供決策支持。
3.3.4 礦產資源分析專題
圍繞礦產資源安全,建立了完整的礦產資源指標體系,從資源儲量、開發利用、進出口、礦產資源安全分析、勘查景氣度分析、全球資源狀況等維度對礦產資源及安全進行統計分析、預測研判和可視化展示。資源儲量從勘查投入、探礦權、礦產資源儲量、勘查新增查明資源量、礦產資源潛力等角度展現國內資源儲量家底和接續能力。開發利用從全國礦山分布、產量、采礦權、投入產出、生產總值、利稅情況等角度反映礦產資源生產能力。進出口從礦產品金額、數量和國家等角度,體現中國礦產品進出口貿易情況。礦產資源安全分析通過儲采比、對外依存度、進口集中度等重要指標對中國礦產資源安全進行了監測和評價。勘查景氣度分析從投入(勘查資金和人員投入)、產出(勘查新增儲量)、過程(探礦權)、成效(探礦權轉采礦權)4 個方面對中國勘查景氣度變化情況進行分析和評價。全球資源狀況通過全球礦產資源分布、全球資源儲量與產量變化、全球礦產貿易變化、全球人均消費量與人均GDP 對比等指標,綜合反映全球資源狀況。
3.3.5 社會化大數據監測與分析專題
實時采集全國520 家電子報刊、100 余家新聞網站、微博微信等新媒體的自然資源領域政策和輿情等信息,開展社會大數據語義加工和信息提取。面向自然資源管理人員和研究分析人員,構建了覆蓋14 類業務領域的自然資源輿情和政策分析專題及房地產調控等專項分析專題,建立了房地產輿情知識圖譜,實現了自然資源管理政策和輿情態勢的深度分析、智能化檢索,實現了自然資源形勢和熱點問題的動態分析。通過人機交互和數據可視化功能進行分析、比較和判斷,為決策提供輔助支持。
面向“數字政府”和“智慧國土”建設目標,自然資源大數據決策支持系統將進一步聚焦關鍵問題,以應用為導向,強化新技術應用,驅動自然資源決策支持從智能化向智慧化邁進。將加強知識庫建設和跨模態知識挖掘能力建設,構建融合自然語義、地理語義和管理語義的知識圖譜,深化系統動態監測、統計分析、趨勢研判、效果評估、風險防控等能力,為國土空間協同感知、資源開發利用精準認知、管理決策智慧化預知的分析決策提供支撐。