史進
(云賽智聯股份有限公司,上海 201108)
公共數據是指國家機關、事業單位經依法授權具有管理公共事務職能的組織以及供水、供電、供氣、公共交通等提供公共服務的組織(以下統稱公共管理和服務機構),在履行公共管理和服務職責過程中收集和產生的數據。如何統籌規劃、合理管理公共數據資源,讓公共數據通過合法合規的途徑釋放價值成為發展大數據產業、驅動數字經濟增長的關鍵所在。
隨著大數據平臺、“城市大腦”等大平臺的建設在各地開展,國內大多省市均建立了政務數據中心統一管理公共數據的歸集、治理、共享和開放,如上海市大數據中心、山東省大數據局。但由于公共數據資產管理體系的理論研究起步較晚,政務數據中心在管理公共數據方面仍存在諸多問題,目前尚缺乏針對政務數據中心的公共數據資產管理體系的相關研究。
在政務數據中心建設研究方面,學者多聚焦于建設政務數據中心的技術平臺,如政務云平臺、數據共享交換平臺等,對歸集、共享等管理制度、流程的研究相對較少。如桑菁華[1]提出,政務數據中心主要建設內容包含云計算系統建設、云存儲系統建設以及云管理平臺建設。趙睿[2]提出,政務大數據中心作為集中統一的政務數據存儲、管理、分析、應用的綜合性平臺,主要分為基礎數據倉庫、基礎數據管控平臺和大數據分析應用平臺3個層次。徐海明[3]提出,政務大數據中心總體架構主要包括系統架構、應用架構、管理架構和安全架構4個主要方面,并且使用數據融合關鍵技術、業務融合關鍵技術等解決數據處理和歸集的問題。喻健[4]提出構建數據中心需要預備足夠備份冗余和升級空間,采用關系型數據庫結合大規模并行架構MPP的計算集群,提供共享域內交換節點之間的數據和文件自動交換服務的數據交換引擎。關春[5]提出,為提升電子政務數據中心數據管理能力,需要提高數據交換管理能力,建立數據入庫錯誤反饋機制,明確落實數據責任,實現數據共享使用審核流程化、項目運維流程規范化。
在公共數據資產的研究方面,學者主要聚焦于通過場景應用發揮公共數據資產的價值,對基礎性數據資產的歸集及治理工作缺乏相應研究。劉辰昀[6]提出自然人公共數據資源體系建設,基于場景驅動,建成婚姻、死亡等系列專題庫,最后進行多樣化共享服務,實現數據屬地返還。李愛軍[7]提出大數據存在的現有資源利用率低、經費來源單一、數據安全體系不完善等難點,提出了建立政府專屬機構,統一規劃、重點建設,充分挖掘現有的數據資源的價值,建立健全相關安全保障體系。郭仲勇[8]提出基于區塊鏈政府數據供應鏈的設計思路,給出聯盟鏈服務平臺、金融服務平臺、電子簽約服務平臺的建設方案。陸莉[9]提出以我國地方政府開放平臺的“公共安全”主題版塊數據集為研究對象,運用內容分析法描述政府開放公共安全數據的現狀,對公共安全數據開放現狀進行了梳理,提出提升我國政府公共安全數據規范管理與開放共享的對策建議。
在公共數據資產化方面,學者主要聚焦于利用區塊鏈或其他技術進行數據資產評級、數據資產評估的方向。潘澤鐸[10]探究了數據資產管理系統業務流程和管理框架,從傳統數據資產管理系統框架出發,引入了聯機分析處理技術來搭建了數據資產去中心化的管理模式,并梳理了數據質量評估的流程,利用區塊鏈和智能合約技術實現數據資產的溯源性和可確權的性質。劉辰昀[11]提出構建公共數據資產評級模型,可實現資產盤點、資產識別、資產探查、資產標簽、資產稱重的功能。南方電網借助大數據、區塊鏈等技術,實現電網數據可信、安全傳輸,并制成了全國首張公共數據資產憑證(企業用電數據)[12]。平慶忠[13]提出利用GPT模型解釋公共資源交易數據,并形成公共投資項目決策模型、公共服務優化模型和公共服務創新模型。
政務數據中心尚未形成公共數據資產管理體系,導致存在數據資源情況不明、數據質量無法達標、數據價值有待挖掘等問題。
由于缺乏頂層規劃設計,各部門應用系統并未按照統一標準進行建設,導致政府對下屬部門的公共數據資源情況不了解,各部門出于自身考量,僅將部分數據上報至數據中心,為后續的數據應用以及數據共享交換帶來極大困難。
缺乏規范化的數據編目、數據質量管理標準及流程,導致公共數據質量較低,存在大量數據遺漏、數據錯誤的情況,為數據應用帶來極大的局限性。而且數據并未進行有效的分級分類管理,導致存在巨大的數據安全風險隱患。
由于現階段政務數據中心的主要任務是數據歸集,缺乏對數據資產價值的挖掘,也無法利用數據分析降低政府部門整體的運營成本,提升數字政府的管理水平。
針對以上3個問題,設計了公共數據資產管理體系,包含公共數據資源盤點、公共數據資產化及公共數據資產評估三方面,如圖1所示。公共數據資源盤點包括數據模板管理和數據歸集管理。通過數據資源盤點,政府對下屬部門的數據資源的數量、種類可做到“心中有數”。公共數據資產化的流程為數據資源編目、數據資產分級分類、數據資產標簽管理和數據質量管理。數據資產化使數據資產便于被查找、共享及融合開發。公共數據資產評估通過構建評估指標,通過數據資產價值評估,可使數據資產的價值被量化,以便于授權運營或數據交易,挖掘數據要素價值。

圖1 公共數據資產管理體系
公共數據資源盤點的核心在于管理數據模板及歸集的數據。通過數據模板管理確定公共數據的類型及不同類型數據的關聯結構,通過數據歸集管理進行數據的一數一源管理和同類歸并。
1.數據模板管理
數據可分為結構化數據和非結構化數據,數據模板管理也應針對這兩種類型,結構化數據包括以各類數據庫表形式保存的數據,非結構化數據指PDF/WORD文檔、圖片、CAD圖等非結構化形式的數據。
(1)結構化數據管理:針對結構化數據,管理流程為梳理業務部門的需求、建立數據表的命名規則、梳理業務系統表、繪制關聯ER圖、確定表中字段含義。如圖2所示。

圖2 結構化數據管理流程
(2)非結構化數據管理:針對非結構化數據,如文檔、圖片數據,需要梳理非結構化數據存儲的關鍵信息,指定存放位置、文件編寫人、文件編寫部門、文件摘要等命名規范。
2.數據歸集管理
數據歸集管理的核心在于進行“一數一源”管理和同義項歸并,應遵循一套數據僅有一個來源的原則,如身份證號數據應來自公安部門的戶籍處室。同義項歸并須對多個部門針對同一對象而名稱不同的數據做歸并處理。如在不同系統中,民族的填寫可能有“苗族”“苗”“miao”等多種數據,可通過代碼映射的方式進行同一項歸并。
1.數據資源編目
(1)元數據管理:元數據是描述數據的數據。常見的元數據包括數據名稱、摘要、存儲位置、字段類型、字段長度等,見表1。元數據管理應包括元模型設計、數據源配置管理、設置采集任務、采集元數據等步驟。

表1 元數據示例
(2)資源目錄管理:通過對公共數據進行編目,可以清晰了解部門數據資產的總覽,通過統一的目錄視圖多維地展現資產的分布和關聯關系,對數據資產進行全生命周期和規范化地管控。
資源目錄管理的流程一般為目錄編制、目錄報送、目錄審核、目錄發布和目錄維護(圖3)。目錄編制須按照《政務信息資源目錄編制指南(試行)》[17]要求,確定類、項、目、細目等類目,編制部門政務信息資源的目錄。資源目錄編制內容模板見表2,包含目錄名稱、目錄類型、資源摘要、資產提供方名稱、應用系統名稱、業務事項名稱、共享屬性、共享條件、發布日期、關聯數據表等核心數據。目錄報送是由數據中心對資源目錄進行復核,審查后,向上級部門進行報送。目錄審核是由主管部門針對報送的目錄進行匯總審核,如發現不符合要求會退回對目錄進行整改。目錄發布是指將已編制的目錄發布上傳至系統中,所有平臺使用方均可見相關目錄。目錄維護是指數據中心對所有資產目錄代碼的分配、管理、使用以及維護更新等日常工作。

表2 資產目錄編制內容模板(示例)

圖3 資源目錄管理流程
2.數據資產分級分類
(1)資產分類管理:資產分類管理的核心在于從主體、業務活動等維度構建分類模型,目前常用的方法為線分類法、面分類法和混合分類法。線分類法將分類對象按選定的若干個屬性或特征,逐次分為若干層級,每個層級又分為若干類別。同一分支下,同層級類別之間構成并列關系,不同層級類別之間構成隸屬關系。面分類法將選定的分類對象依據其本身固有的各種屬性或特征,分成相互之間沒有隸屬關系即彼此獨立的面,每個面中都包含了一組類別。混合分類法將線分類法和面分類法組合使用。不同的分類都有對應的編碼規則。
如針對公共數據中涉及法人經營管理的數據采用混合分類法,按照主體類型、注冊類型、屬性類型以及共享類型進行分類,如圖4所示。

圖4 法人經營數據資源分類示例
(2)資產分級管理:為滿足數據合規性及數據資產運營需求,需對公共數據進行資產分級管理,分級管理應遵循省市政府的需求及《中華人民共和國數據安全法》的相關內容,以《重慶市公共數據分類分級指南2.0》為例,可分為4個等級,見表3。

表3 數據資產安全分級等級示例
3.數據資產標簽管理
數據標簽管理的作用是在業務層面上能夠快速查詢、展示、分析各類歸集數據。數據資產標簽管理包含標簽開發和標簽庫管理兩大類,具體流程如圖5所示。

圖5 數據資產標簽管理流程
數據質量管理是保障高質量數據、推動數據流通的前提。數據質量管理一般檢核數據規范性、完整性、有效性和時效性方面的質量。如數據規范性檢核數據的主鍵、時間戳等信息是否完整。數據完整性校驗是否包含空數據等。數據有效性校驗數據是否在業務指定的值域范圍之內,對出現的異常數據進行告警,如人的年齡為300歲,身份證號為13位等。
使用數據會產生價值,但如何對公共數據的價值進行評估尤為困難。可選取數據,質量,效益等評價指標,對數據資產進行全面的分析,確定數據資產的等級,為公共數據流通準備高質量的數據資產。公共數據資產評估的流程如圖6所示。

圖6 數據資產評估流程
1.評估指標制定
(1)觸摸法:用手摸,粗的是 N a2CO3,細的是N aH CO3(N a2CO3為白色粉末或細粒, N aH CO3為白色細小晶體);
數據資產評估指標體系的設計應該遵循三項標準:一是內在邏輯一致性,指大數據中心的數據資產評估指標,與公共數據評估的整體目標、當年任務目標一致;二是分類設計,由于指標體系的應用對象以及具體服務內容各不相同,需要針對不同的主體、服務內容設計不同的指標體系;三是問題導向,應重點關注數據資產獲取成本以及產生的效益等方面。
如評估指標可包括獲取成本、數據質量、應用效益3個方面。獲取成本可包含建設成本、運維成本和使用成本。數據質量可包含數據的規范性、完整性、有效性、時效性。應用效益包含數據共享數量。詳見表4。

表4 數據資產評估指標
2.評分規則制定
評分規則制定包括兩個方面,分別是指標計算方法和評分規則。
指標計算方法按照行業標準和通用標準等制定,一般分為定量指標和定性指標。定性指標一般通過明確考核內容采集相關數據;定量指標可以準確數量定義、精確衡量并能設定績效目標的考核指標,如數據完整性=表中非空字段數÷總字段數×100%。
評分規則可以衡量該項指標的計算結果是否符合基準,并通過公式進行量化,可采用目標值法和檔次評分規則。目標值法是指設定某一量化值為目標值,超過或未達目標值則按一定的線性規律增減分。檔次規則法是指劃分多檔次,如1、2、3、4、5這五個檔次,僅可獲得1、2、3、4、5這五個分數。采用目標值法計算較復雜,但評分準確度較高,經常被采用。
3.確認權重
權重的確認一般采用Delphi法或AHP法。Delphi法又稱專家咨詢法,通過幾輪函詢征求專家意見,然后通過匯總分析得到一個綜合的結果。此種方法的優勢在于可以簡單快速地得到多位專家對于指標權重的綜合觀點。AHP法又稱層次分析法,通過兩兩判斷指標的重要性量化各指標權重。
4.評估實施
根據確定的評估指標、評分規則以及權重對評估范圍內的指標進行取值、計算、評估工作,并形成最終的評估結果報告。
構建公共數據資產管理體系,可以打破部門“數據孤島”,對政府所有部門公共數據資源進行盤點,形成公共數據資產地圖。建立一套切實可行的數據質量監控體系,發現數據質量問題,打造相應的獎懲措施,實現數據資源向優質數據資產的轉變。同時,可以推動將公共數據作為一種無形資產進行管理,為國家提出的數據入表提供數據基礎,提升數據要素價值,促進數據的流通。