



作者簡介:于鵬飛(1987— ),男,工程師,碩士;研究方向:電子政務,大數據。
*通信作者:邱林遠(1994— ),男,工程師,碩士;研究方向:大數據。
摘要:隨著數字經濟時代的到來,公共數據的開放逐漸成為政府部門信息化發展的關鍵因素之一。為了推進政府部門職能轉變、深化“放管服”改革、推進數字政府建設,亟需構建公共數據開放平臺、安全高效的新一代公共數據開放基礎設施。文章探討了數字經濟時代下公共數據開放的重要性以及公共數據開放平臺的構建策略。
關鍵詞:數字經濟;公共數據開放;數字政府建設;平臺構建
中圖分類號:F49" 文獻標志碼:A
1" 公共數據開放平臺構建背景與目標
數字經濟時代數據資源已成為驅動經濟轉型發展、服務民生建設、創新社會治理模式的核心要素,是培育新經濟、新動能的土壤。政府部門是權威數據的最大擁有者,交通、金融、電信、衛生等公共行業都積累了大量數據。加快建設公共數據開放,對于豐富社會信息資源,提升政府社會治理能力和公共服務水平,優化產業結構和經濟運行機制,推動經濟社會高質量發展具有重要意義[1]。
根據蘇州市數字經濟建設和數據開放需求,圍繞數據安全有序開放,提升開放水平,依法依規開展政務數據授權運營,建立數據開放創新機制,推進數據資源開發利用,實現數據“可用不可見”,營造有效供給、有序開發利用的良好生態,培育數據要素市場。公共數據開放主要目標包括:
一是建立數據開放的蘇州市內、外部運營考核和提升機制,內部以“閉環考核”為抓手,外部以“優化服務”為核心,優化蘇州市數據開放門戶的數據質量和運營能力,加大宣傳推廣,提升互聯網訪問流量,取得政府數據開放類網站第三方評級排名提升。
二是建設數據開放工作評價子系統,與蘇州市數據開放年度工作計劃和工作考核適配,建立蘇州市數據開放考核和評價體系,針對公共數據供應方在數據供給的類型、數量、質量及價值上進行考評,推進數據開放工作;適配“復旦-數林指數”等第三方的評價體系,建立與國內主要優秀數據開放網站的對標運營能力。
三是擴展數據接入,縱向匯聚蘇州各個區縣的開放數據;橫向接入本區域內的公共企事業單位數據,全面開放公共管理和服務機構數據資源及部分社會第三方數據資源。
四是優化門戶運營功能,面向數據使用者優化數據展示搜索、申請、訂閱服務、通知、社區交流等方面的體驗;面向數據提供者完善數據資源目錄、數據開放管理、需求審批、數據封裝和統計分析等功能。
五是降低數據開發利用系統的資源需求,提升性能彈性,優化數據流程和服務體驗。
六是建設數據開放的數據安全體系,新建數據分級分類、數據脫敏和數據安全審計,集成數據安全監測平臺,在數據開放和數據開發利用的流程中嵌入相關安全功能。
2" 公共數據開放平臺系統架構
公共數據開放平臺(如圖1所示)定位用于支撐蘇州市公共數據開放、開發利用技術及運營體系。系統由數據管理、運營管理、系統服務、系統門戶4層構成,通過蘇州市電子政務外網、共享服務平臺接入蘇州市公共數據資源,通過蘇州市電子政務外網和系統門戶服務于公共數據運營管理人員、對公共數據有需求的自然人和法人以及需要使用不能夠開放、但可以以“可用不可見”的方式使用公共數據來生產合法合規數據產品的數據開發企業[2]。
公共數據開放平臺從門戶管理、考核管理、安全可信環境搭建、數據安全監測和審計4個方面展開建設,覆蓋開放門口的用戶和運營管理、工單審批流程管理、部門開放數據績效考核管理、安全可信環境建設以及數據安全和審計等內容。
蘇州市公共數據開放平臺共涉及3部分網絡區域:公網區域、DMZ區域、政務外網區域。當用戶在公網區域透過防火墻訪問DMZ區的2臺Nginx服務器,也就是數據開放平臺門戶區域時,門戶會進行數據獲取的請求,會將數據需求分發到政務外網區域內所有的工作服務器也就是數據開放平臺核心區域,該區域會把用戶所要獲取的數據轉達到蘇州市其他政務系統,在其他政務系統接收到請求時,會通過接口傳輸的方式對數據進行傳輸,將數據傳輸到數據開放平臺核心區域,核心區域會再對接收到的數據進行處理,之后返還給門戶區域,最后用戶成功獲取到自己想要的數據[3]。
3" 公共數據開放平臺功能說明
3.1" 安全可信環境
3.1.1" 分布式數據庫
公共數據開放平臺的分布式數據庫采用基于Shared Nothing的分布式架構,實現策略包括讀寫分離和分庫分表。并支持以下2種方式的擴展:(1)垂直擴展(Scale Up)。節點硬件升級,如增加CPU、增加存儲。(2)水平擴展(Scale Out)。增加系統中數據庫設備節點,節點之間通過網絡來互聯協調共同完成任務,即分布與并行技術策略。
Shared Nothing:通過策略對數據在多個節點上進行分片存儲(Sharding),執行數據庫操作時,每個節點上的計算單元只對本地磁盤進行讀寫,磁盤IO與網絡帶寬不會因為集群規模的增長而出現瓶頸。更新后數據沙箱部分不再使用虛擬機方式實現。
在數據沙箱部署為分布式,相關數據申請、空間申請、開發測試、生產部署和接口發布的流程和功能接口都需要進行相應適配[4]。
(1)數據樣本申請和開放。
使用方申請使用數據樣本時,提供標準、安全數據申請服務體系,包括用戶身份、數據描述、提供方式及使用方數據管理配套支撐。
數據樣本開放服務通過工單申請方式,實現運營方范本設計—使用方規范使用范本—運營方、提供方審核工單—系統自動配置實施,實現數據樣本脫敏后開放,同時對整個過程監督、服務、備份[5]。
(2)數據沙箱空間申請和分配。
數據沙箱空間旨在為數據所有單位提供單獨存儲使用服務能力,是數據安全存儲的安全介質,通過物理隔離、網絡隔離、訪問隔離等實現數據更高一級別的安全存儲、開放服務。
數據沙箱的申請為平臺運營的重點工作,通過運營方范本設計—使用方規范使用范本—運營方、提供方審核工單—開發方配置實施標準流程作業,完成沙箱分配及上線[6]。
(3)生產部署。
基于平臺是數據資源也是計算資源的建設理念,平臺提供模型部署的運營服務,保障模型、數據、結果安全可控。
運營服務內容主要包括以下內容:①生產部署總覽。記錄生產應用和基本信息,包括應用類型、聯系人、模型信息、生產場景等。②生產部署信息。為保障數據部署成功率、安全性,輔助使用方記錄關鍵問題說明修訂記錄、模型概況、軟件及語言環境、模型輸入、模型產出、部署說明、模型執行舉例、測試報告。
3.1.2" 資源計費
針對開放數據開發應用一個小規模計量/計費系統,主要是對用戶使用的服務所消耗的資源進行全面的統計和分析,基于資源和時長維度先使用后計量[7]。
計量采集模塊負責采集開發利用的云計算資源使用量、數據資源使用量、使用時長等多個維度的資源使用原始計量數據。計量數據采集通過系統后臺定時執行,無需人工參與,采集的數據存放于計量日志中心,作為業務系統與計量/計費的數據緩存中間層。
3.2" 數據安全監測和審計
數據安全監測與審計系統是針對數據開放門戶、數據沙箱在數據提取、生產和輸出過程中的行為進行監測,并對系統運行過程中的風險進行分析和預警,為系統安全運維人員提供自動化的管理工具[8]。
數據安全監測與審計系統基于全方位的審計與分析,強大的分析匯總能力,在海量的日志中自動化發現違規行為和風險操作,降低安全管理人員和運維人員的工作壓力。數據安全監測和審計系統由數據安全管控平臺、敏感數據分類分級系統、數據靜態脫敏系統和統一出口審計系統構成。數據安全監測和審計系統的組成如圖2所示。
3.2.1" 一體化數據管控平臺
一體化數據安全管控平臺作為數據安全保障能力的統一門戶,通過數據安全態勢感知大屏、能力中心、告警中心、運營中心、用戶中心等模塊實現一平臺即可操作多組件的效果,將數據分類分級、數據脫敏、統一出口審計、數據庫安全防護以及其他第三方能力組件集成到平臺中,可快速完成各組件聯動并及時響應,避免多個安全系統間賬號切換和跳轉的問題,從而降低運營成本,提升數據安全運行保障效率[9]。
一體化數據安全管控平臺,基于零信任模型,以用戶操作行為為核心,通過全網全程追蹤、關聯分析,實現大數據平臺數據資產操作安全監測與審計。采用大數據技術,通過采集、存儲分析日志類數據,如服務器日志、數據庫日志、安全設備日志、網絡設備日志、堡壘機日志、開放FTP/SFTP下載服務的應用系統的日志文件等;流量類數據,如全流量或flow流量,將數據多源異構的數據進行關聯,全程追蹤審計用戶的操作行為。基于UEBA,通過分析用戶操作行為,結合行為基線,對當前的操作行為進行審計和威脅發現。通過人機交互分析、智能分析引擎和用戶行為分析等手段,對越權訪問、惡意破壞、數據竊取、誤操作、權限濫用等外部攻擊或內部違規行為進行檢測,確保人員操作行為合規、數據操作行為可控、可審計、可追溯[10]。
(1)數據安全態勢感知大屏。
建設數據安全態勢感知大屏,對接各類安全組件,通過日志、流量采集,圍繞數據全生命周期各節點安全,實現多維度智能可視化展示,包含數據資產統計情況、敏感數據資產統計、今日敏感資產訪問態勢、高危操作與指令分布、數據全生命周期安全風險預警態勢、數據安全實時告警、數據共享交換態勢、數據安全共享交換風險預警態勢等,通過一屏展現全局各維度安全指標,為管理層提供數據安全管理決策[11]。
告警大屏能夠對多類指標進行動態展示,包含用戶行為、主機、數據庫、VPN會話、上傳下載、數據地圖、數據動態脫敏、數據靜態脫敏、統一出口審計、數據庫安全防護等,支持趨勢圖、餅圖、柱狀圖、記分牌等多種展示效果,支持圖表抓取并展示詳情,便于向管理層提供決策參考,同時向安全監管人員提供日常工作支持。
(2)數據告警中心。
數據安全告警中心通過實時采集沙箱數據庫、應用數據訪問、出口網關等日志數據,對各類日志數據進行解析、標準化、日志關聯、歸一化處理后,對數據訪問日志進行分析,通過機器學習與模型分析、用戶行為分析、場景分析、風險分析等對用戶的賬號共用、未授權操作、內網攻擊、數據泄露、越權訪問、非工作時間登錄、境外登錄、非法外聯、數據庫繞行、高危操作等內容進行分析,有效識別風險,保障業務安全。
告警中心主要對特定階段的威脅日志和安全事件進行聚合、分析,基于告警來源、告警級別、受害主機等視角進行告警可視化展示,可統計的日志主要包括安全日志、設備日志、系統日志、應用日志、數據庫日志、身份認證日志、訪問控制日志、資產日志等[12]。
數據安全告警中心,利用大數據處理引擎,基于UEBA進行數據的關聯分析,實現智能告警,包括告警概覽、威脅感知、關聯分析、智能學習、智能報告、軌跡溯源、配置管理等內容。
(3)能力中心。
建立數據安全能力中心,通過業務流程圖、統計視圖、統一管控策略等模塊實現一中心即可操作多組件的效果,將分類分級、數據動態脫敏、數據靜態脫敏、統一出口審計集成到平臺中,可快速進入對應模塊查看詳情,避免多系統間賬號切換和跳轉的問題,能夠降低運營成本,提升數據安全運行保障效率,同時,可通過集中策略管控和算法配置實現多組件安全能力聯動,逐步實現自動化識別和快速處置的閉環。
(4)運營中心。
建設數據安全運營管理中心,內嵌事件跟蹤看板,為全局各類安全風險事件提供一體化運營處置能力。所有事件的參與者在一個平臺上協作處理,提供安全事件溯源分析研判引擎,輔助運維人員快速排查安全事件線索信息并進行處置。
3.2.2" 敏感數據分類分級
敏感數據分類分級系統內置政務行業數據標準、國家數據法規和企業最佳實踐規范以及各類數據源與數據識別算法,支持建立數據類別和級別評估模型以及分類分級管理流程[13]。
敏感數據分類分級子系統基于元數據管理和評估模型amp;評估流程,實現對敏感數據項進行分類分級,結合敏感數據發現系統,在數據全生命周期各個環節發現敏感數據并對其數據安全等級打標。敏感數據分類分級功能架構如圖3所示。
敏感數據分類分級子系統整體架構分為展示層、功能層、數據層。
展示層負責用戶與系統的交互,提供安全員、評估員、審計員、系統管理員操作頁面。不同角色的用戶登錄系統展示的操作頁面不同。
功能層包括元數據、評估定級、數據分類、操作審計、系統管理功能模塊。元數據包括數據源配置、同步元數據任務、元數據展示。評估定級對同步過來的元數據進行評估定級,按照評估模型、評估流程對表字段進行敏感度評估,自動識別標記敏感數據,同時,支持自定義字段敏感級別,在同步元數據時自動匹配系統庫中字段敏感級別并支持人工審核修正。數據分類對數據類別信息進行管理,創建數據類別任務,自動對數據進行分類,并對分類的結果進行審核修正。支持分類分級批量任務的管理、分發、執行等功能。日志審計主要對數據分級操作記錄、數據分類操作記錄、系統用戶操作記錄、異常日志記錄等提供查詢審計。系統管理對系統用戶、角色權限、系統配置等進行管理。
數據層存儲系統自身的元數據、級別信息、評估記錄、類別信息、審計日志等,還包括外部數據源、資產系統元數據。
敏感數據分類分級系統包括元數據管理、數據分類、評估定級、日志審計、系統管理功能。
3.2.3" 數據靜態脫敏
數據脫敏子系統是對數據配置脫敏策略執行數據脫敏,包括元數據管理、算法管理、脫敏策略、脫敏任務、統計查詢、系統管理功能。數據脫敏子系統功能如圖4所示。
數據靜態脫敏子系統通過脫敏規則將敏感數據按照配置的規則和算法進行轉換,加強數據存儲和使用的安全性,防止敏感數據泄露。數據脫敏子系統按照敏感數據分類分級子系統提供的敏感數據,然后依據字段敏感度制訂相應的脫敏策略,提交脫敏任務到Hadoop、Hive、Spark等平臺執行相應的脫敏任務,同時反饋脫敏任務完成的詳情。通過脫敏系統,實現數據按字段、按安全級別、按場景的靈活脫敏,并建立數據脫敏還原的審核和授權機制,可以保持原有數據類型和業務格式不變,數據長度和含義不變,表間的關系,表內數據相關聯,保證測試系統數據可用性。降低數據在存儲環節和開發利用環節的泄露風險,有效保障數據采集、存儲和應用階段運營安全[14]。
3.2.4" 統一出口審計
數據安全出口審計功能對開放網站、數據沙箱間、統一出口網關接口進行安全審計,基于網站文件下載、API接口規范和實際接口調用情況,對API接口輸入輸出數據進行審計,保障數據的合規使用。采用異步處理方式,對數據業務不產生影響,在保證數據合理合規交互的同時,降低了數據應用的負載壓力。
(1)接口審計。
利用日志收集組件或者流量采集工具對接口數據進行收集并存儲[15]。
(2)文件審計。
支持對Word、ppt、Excel、pdf、txt等文件類型的內容檢測;支持zip、tar.gz、lzo等格式的壓縮文件內容檢測。
(3)審計規則。
提供多重審計規則,主要包括:接口規范管理、基于接口規范制定檢測規則、違規接口調用規則、FTP違規操作規則、程序算法、爬蟲爬取規則、正則表達式、組合字段、關鍵字、敏感數據指紋、文件屬性檢測[16]。
(4)策略配置。
支持自定義接口審計規則,支持針對一個檢測對象配置多個檢測規則。包括:接口策略配置、數據檢測管理、日志驗證管理、黑白名單規則、日志服務器配置、審計引擎分配、日志審計權限配置。
(5)任務管理。
主要包括接口審計任務、接口審計結果、文件審計任務、文件審計結果、爬蟲類型任務、統計報表。
4" 結語
為增強數字經濟高質量發展的內生動力和創新活力,公共數據開放平臺構建是其中的關鍵一環。這也就要求既要加強關鍵核心技術攻關,也要做強做優做大數字平臺。未來,隨著技術的不斷進步和社會對數據開放的認知提升,公共數據開放平臺將發揮更大的作用,提升政府社會治理能力和公共服務水平。歷史總是在不斷解決問題的過程中進步,而技術創新正是為解決問題而生,相信在技術創新的加持下,公共數據開放平臺的構建與完善指日可待。
參考文獻
[1]孟飛.公共數據開放利用的邏輯與規則[J].上海政法學院學報,2023(5):75-90.
[2]姚志奮,王保民.政府數據開放的公共安全悖論及其法治策應[J].中國科技論壇,2023(8):139-149.
[3]馬海群,鄒純龍,王今.中國式現代化視域下的數據開放實踐——從政務信息到公共數據[J].情報科學,2023(8):2-8.
[4]劉星,程結晶.公共數據開放背景下數字公民教育模式的構建與分類[J].圖書與情報,2022(5):84-91.
[5]鄭建明,劉佳靜.公共數據開放的基本認知及其模式構建思考[J].科技情報研究,2022(4):1-11.
[6]姜東旭.數字化時代公共數據開放的合作治理路徑[J].南京工程學院學報,2021(3):60-64.
[7]王曉冬.我國公共數據開放面臨的問題及對策[J].中國經貿導刊(中),2021(10):78-79.
[8]胥迅,姚敏.公共圖書館參與公共數據開放的現狀調查與分析——基于19個省級政府數據開放平臺的研究[J].山東圖書館學刊,2023(4):64-69.
[9]周林興,王帥.危機情境下公共文化數據開放平臺多重耦合資源畫像研究[J].情報科學,2023(8):71-80,88.
[10]齊雪晨,劉春艷.基于區塊鏈技術的公共數據開放平臺建設研究[J].圖書情報導刊,2023(2):36-43.
[11]王凱璇,李秀敏.山東省健康醫療大數據平臺開放現狀與對策研究[J].內蒙古科技與經濟,2023(5):48-50.
[12]李儒銀,李洋,羅志宏.基于關聯數據的突發公共衛生事件數據開放平臺研究[J].重慶醫學,2021(4):708-710.
[13]鄭玉波,彭景.數據開放平臺之政務公共數據資源共享簡析[J].互聯網天地,2019(6):42-46.
[14]韓磊,胡廣偉.政府數據開放平臺建設效率評估及其啟示[J].數字圖書館論壇,2018(9):52-59.
[15]姜涵,張子淇.建立上下聯動、便捷利用的數據開放平臺——《公共信息資源開放試點工作方案》專題解讀[J].電信網技術,2018(5):63-65.
[16]吳勇毅.加速公共數據開放全力打造“上海樣板”[J].上海信息化,2019(11):10-16.
(編輯" 沈" 強)
Construction of public data open platform in the era of digital economy
Yu" Pengfei, Zhu" Zhongyu, Qiu" Linyuan*, Zhou" Yang
(Digital Suzhou Construction Co., Ltd., Suzhou 215100, China)
Abstract:" With the advent of the digital economy, the opening of public data has gradually become one of the key factors in the development of government informatization. In order to promote the functional transformation of government departments, deepen the reform of “release management and service”, and promote the construction of digital government, it is urgent to build a public data open platform, a safe and efficient new generation of public data open infrastructure. This paper further discusses the importance of public data openness in the era of digital economy and the construction strategy of public data open platform.
Key words: digital economy; public data openness; digital government construction; platform construction