劉辰昀, 夏娟, 儲昭武, 傅行曉*
(1. 上海市大數據中心, 上海 200072; 2. 上海計算機軟件技術開發中心, 上海 200072)
隨著大數據、人工智能、物聯網、5G等新一代信息技術的發展和應用,數據已成為新時代促進經濟發展和技術創新的全新驅動力。政府作為數據的重要管理者,在數據的體量、種類和價值密度上占有絕對優勢,積淀的數據開始發揮經濟價值和社會價值。由于前期信息化建設的粗放性和孤立性,數據內容的低質化、數據體量的冗余度、數據形態的異構化,都日益成為數據價值高效釋放的羈絆,嚴重束縛了數據賦能業務發展的動力釋放。
數據資產是指由企業擁有或者控制的,能夠為企業帶來未來經濟利益的,以物理或電子的方式記錄的數據資源,如文件資料、電子數據等[1]。數據資產管理是充分發揮數據價值的必經之路。目前,數據資產管理的研究和實踐還處于初級階段,數據質量、資產評估等方面較為薄弱。本文將重點研究政府公共數據資源資產化管理,聚焦公共數據資產的數據特性、數據質量、數據安全、數據活性四個數據資產價值和建設成本、維護成本兩個數據資產成本價值,創新提出公共數據資產評級方法和分級管理建議,全面提升政府數據資源利用率以及最大化釋放數據價值。
2009年,國際數據管理協會(DAMA國際,Data Management Association International)在發布的數據管理知識體系 DMBOK1.0中,將數據管理定義為規劃、控制和提供數據資產,發揮數據資產的價值。國內方面,2019年《中共中央關于堅持和完善中國特色社會主義制度、推進國家治理體系和治理能力現代化若干重大問題的決定》首次提出了數據要素的概念,將數據與勞動、資本、土地、知識、技術、管理一并定義為生產要素,明確了數據作為資產的重要價值[2]。
由此可見,國內的數據資產管理和評估研究較為密集,但還未達到成熟可全面推廣應用的階段,圍繞政府數據資產化和價值化,由于數據權屬問題的不確定性和復雜性,研究主要聚焦共享開放中的價值實現,以滿足數據利用主體的需求出發。但是,現階段政府數據的建設和應用現狀,數據價值的高效實現依賴于數據的有效管理,如何實現政府數據資產化管理是政務數據開發利用的前提保障,是政府數據價值釋放的先決條件,是亟須且必須解決的首要問題。
公共數據是指各級行政機關以及公共管理和服務職能的事業單位,在依法履職過程中獲得的各類數據[3]。由于來源渠道廣泛、流轉復雜、易復制等特性,公共數據主體涉及數據產生者、數據存儲者、數據管理者和數據利用者等多個主體,數據權屬較難明確。同時,由于公共數據涉及多領域數據,通過共享開放的進行全局性關聯性分析和應用,價值效益較社會、市場數據溢出效應顯著[4]。
但公共數據不等于數據資產,中國資產評估協會制定的《資產評估專家指引第9號——數據資產評估》中指出數據資產是由特定主體合法擁有或者控制,能持續發揮作用并且能帶來直接或者間接經濟利益的數據資源[5]。
公共數據資源如何向公共數據資產有效的轉化,根據上海市、區兩級大數據資源平臺的實踐經驗,首先要保護公共數據管理主體的合法權益,在明確數據提供和責任主體的基礎上,進行公共數據的資產化,使其呈現出明顯的可控、合規、量化等特征。本文歸納給出公共數據資產化的四個步驟(見圖1):數據標準化、數據安全化、數據高質化、數據高值化[6]。
(1) 數據標準化
政府機構的前期信息化建設均以管理或業務需求為導向建立,缺乏整體規劃,數據難以有效整合應用,數據存儲、管理的成本較高。為了提升公共數據管理的能力,提高公共數據資產變現的能力,建立健全數據字典,完善數據資產標準,達成公共數據資產的標準共識,通過公共數據標準化實現公共數據資產化。
(2) 數據安全化
政府各職能部門掌握了社會、企業及個人的大量數據資源,有責任、有義務保證數據的隱私保護、防泄漏、防篡改等安全防護,因此對數據資源進行安全分級,采取合理化、針對性的安全技術和安全管理策略是公共數據資產化需要加強建設的核心能力之一。
(3) 數據高質化
公共數據在采集到應用的過程中,受系統來源繁雜、標準迥異、人為錯誤、技術故障等因素的影響,會涉及元數據管理、數據質量管理、數據資源目錄管理等治理域的基礎性建設工作,從數據層面實現數據資源整合匯聚和質量提升,通過跨系統的治理實現公共數據資產化。
(4) 數據高值化
公共數據在跨領域、跨部門、跨層級的應用過程中,可以通過分析統計建模計算等數據融合加工處理后,從原始數據中找到數據特征、挖掘潛在價值,形成輔助社會治理、城市運營經濟發展、民生生活等高價值數據,通過技術手段實現公共數據資產化。
基于公共數據資產的定義及屬性,立足公共數據的建設和管理實踐,本文將聚焦公共數據資產的可控制性和可量化性兩個特征,從數據管理的角度出發,針對公共數據資產的標的價值和成本價值兩個維度,制定一套明確的量化評級指標體系,科學有效的指導公共數據資產的評級。針對不同數據管理職能主體的公共數據資產現狀,從公共數據自身價值的屬性維度和成本投入的經濟維度,選取了2個一級指標、4個二級指標、26個字段級三級指標,一、二級指標見表1。

表1 公共數據評級指標
基于公共數據資產的可控制性、可量化性、可變現性和安全合規性“四性”,圍繞公共數據資產化路徑,輔以公共數據資產評級指標的定性和定量評價,構建公共數據資產評級模型[7](見圖2),最終輸出公共數據資產評定級別。

圖2 公共數據資產評級模型
2.3.1 公共數據資產評級
公共數據資產分級管理是優化資源配置、實現精準管理、高效價值釋放的重要路徑。由于各級職能部門或服務機構的公共數據資源體量較大,基于字段級的公共數據資產評級工作任務較重,為確保公共數據資產評級有序、穩步、全面地推進,應建立明確的推進策略,分階段、分步驟的開展。從公共數據資源的管理實踐出發,建議三種推進路徑:一是按系統為最小評級對象,圍繞業務系統涉及的業務范圍廣度確定優先級;二是按照業務需求數據所在表為最小評級對象,業務需求高頻度確定優先級;三是以業務部門為最小評級對象,圍繞涉及業務系統的數量多少確定優先級。根據不同的工作要求,選定合適的推進策略,按照“資源盤點—資產識別—資產探查—資產標簽—資產稱重—資產定級—資產復評”的評級路徑(見圖3),全面摸清公共數據資產底數。

圖3 公共數據資產評級流程
1) 資產盤點
按照業務、技術和管理的維度,基于三定方案或職能方案等文件規范,盤點各市級部門結構化、非結構化的所有數據資源及其分布情況。結構化數據資源包括:關系型數據庫及非關系型數據的庫表數據和TXT、CSV、XLS等文件信息;非結構化數據資源包括:圖片、HTML、音視頻等;數據資源分布情況主要包括數據的靜態分布信息和動態流向信息。
2) 資產識別
結合公共數據資產化的路徑和公共數據資產的標的價值,按字段級進行公共數據資產的識別,明確盤點對象的資產邊界和管理范圍。建議遵循以下三種方式展開數據資產識別活動。
(1) 從可控制性角度分析
一是根據三定方案、政策法規等文件明確為業務職能主體,通過該業務領域自建系統獲取的結構化庫表數源字段和非結構化數源資源,視為該組織的公共數據資產;二是通過市場調查、實驗觀察、訪談記錄等方式獲取的結構化庫表數源字段和非結構化數源資源,視為該組織的公共數據資產。
(2) 從可量化性角度分析
一是有一定數據量的字段級數據資源的表級數據資源,或有占有存儲空間的非結構化數據資源,視為該組織的公共數據資產;二是具有較高交換量、增長量、更新頻率、使用頻率的結構化庫表數源字段和非結構化數源資源,視為該組織的公共數據資產。
(3) 從可變現性角度分析。
一是歸集在本市、區兩級大數據資源平臺的基礎庫、綜合庫、專題庫的數據,視為該組織的公共數據資產;二是經過技術部門和業務部門對源數據進行標準化的數據,視為該組織的公共數據資產;三是經過模型加工融合處理后的數據,視為該組織的公共數據資產;四是通過結構化處理的非結構化資源,視為該組織的公共數據資產。
3) 資產探查
結合資產識別結果明確的公共數據資產,對照公共數據資產標的價值的4個維度20個指標,按字段級對公共數據資產的標的價值情況深入探查,明確公共數據資產的職責來源、數據量、數據類型、數據質量、數據安全等級等指標的定量數值和定性描述。
4) 資產標簽
在明確公共數據資產管理對象基礎上,對照探查的數據資產標的價值結果,對公共數據資產進行分類,建立公共數據資產的標簽,構建盤點清晰、直觀、全局的公共數據資產狀況。本文主要從數據特性(數源權屬、數據內容)、數據安全、數據質量、更新頻率、建設成本(數據融合、數據加工)五個方面將公共數據資產劃分為可信資產、參考資產和問題資產三種類型標簽。
可信資產:按順序依次認定,數據質量高的數據資源—更新頻率的數據資源—基礎庫、專題庫的數據資源。
參考資產:按順序依次認定,安全等級一級的數據資源—數據質量一般的數據資源—更新頻率較低但業務主體職責范圍的數據資源。
問題資產:不再權責范圍內采集且數據質量較低的數據資源。
5) 資產稱重
經過資產探查和資產標簽后,對三類標簽資產和總資產進行稱重管理,鑒于現階段的公共數據管理現狀和公共數據質量管理的要求,本文設計了公共數據資產重量模型(簡稱PDW[P1],單位:cds立數方),分為結構化數據資源PDW[P1](以下簡稱SPDW[P1])和非結構化數據資源PDW[P1](以下簡稱NSPDW[P1])。SPDW[P1]由公共數據規模和公共數據完整性質量構成,其中,公共數據規模(簡稱PDS)是數據集合的數據量和字段數量的二維集合反映,公共數據完整性(以下簡稱PDQ-I)是公共數據實際規模的客觀反映;NSPDW[P1]由占用存儲資源的大小和數據資源類型構成,其中,數據資源類型WORD、EXCEL、HTML等文本資源值=1,圖片、圖層等平面圖像類資源值=100,音頻類資源值=1 000,視頻類資源值=10 000。隨著公共數據管理的發展和公共數據質量的不斷提升,PDW將在多維空間不斷疊加和優化,現階段的SPDW[P1]和NSPDW[P1] 定義如下。
PDS=字段量*數據量;
PDQI=字段非空值數據量/(數據量*字段數量)
SPDW[P1]=lg(PDS*PDQI)
NSPDW[P1]=存儲資源大小/數據類型值
PDS能夠準確反映公共數據資產的資源體量越大,潛在的標的數據資產價值也較高;PDW能夠綜合公共數據資產的質量保障反映當前階段的數據資產實際價值狀態和需要投入的維護成本,PDQI越趨于1,維護成本越低,實際價值狀態越接近標的價值,維護成本越低。可信數據資源、參考數據資源和問題數據資源分別稱重后,可對已盤點的資產進入定級。
6) 資產定級
針對參與評級的數據對象,按照三類標簽資產和總資產的稱重結果、規模占比和數據完整性進行定級,分為黃金級、白銀級、青銅級三個等級。通過資產定級管理,理清不同價值標簽的公共數據資產底數,以便合理分配及優化經費、人力等資源配置,實現基于公共數據資產稱重分級下的管理策略和管理制度。
7) 資產復評
圍繞公共數據資產的定級全流程,數據資產分類標簽的管理處于一個動態變化,數據資產會因為管理能力的提升或數據規模、時效性的增加而提升評級值。同時,隨著公共數據管理能力的不斷提升,公共數據資產重量模型也在演進發展,因此參與評級的數據對象應定期進行公共數據資產狀況的復查,實施稱重和定級工作。
2.3.2 公共數據資產分級管理
結合公共數據資產評級結果,對照公共數據資產評級指標,遵循“以最小成本實現管理最大化”的原則,聚焦數據質量、數據安全和數據應用,圍繞黃金級、白銀級、青銅級三級資產級別,制定分級管理的策略,明確不同等級、不同標簽字段的管理重點、管理原則、管理內容和管理目標。通過分級管理的方式,促進數據資產整體質量的提升。

PSD(占比)PDWPDQI等級可信>參考且可信+參考>50%可信>參考可信<參考黃金級可信and參考>總資產黃金級可信or參考>總資產白銀級可信<參考且可信+參考>50%可信>參考可信<參考可信and參考>總資產黃金級可信or參考>總資產白銀級白銀級可信>參考且可信+參考<50%可信and參考>問題白銀級可信>問題>參考可信and參考>總資產白銀級除以上情況青銅級
2.3.3 數據資產評級案例
結合公共數據資產評級流程的路徑和方法,對本市法人登記注冊信息表展開公共數據資產評級試點。
資源盤點:法人登記注冊信息表為結構化庫表數據資源,為市級大數據資源平臺的法人綜合庫目錄資源,截止2021年底,該表的涉及94個字段資源,可提供法人基本信息的共享和應用需求。
資產識別:按照資產識別四個要素,逐一進行字段的資產確認。根據第一個要素,該表中有25個字段經過三定方案是可被確認為資產,有20個字段通過采集且具有一定的業務含義被確認為資產;根據第二個要素,有13個字段屬于通過采集且有一定的數據量,被確認為資產;根據第三個要素,有2個字段通過融合產生,被確認為資產;根據第四個要素,有2個字段具有一定的隱私安全屬性,被確認為資產;此外,有5個字段(聯系信息等)不具備四個要素特征被認定為非資產。最終94個字段有89個字段被確認為資產。
資產探查:本次探查聚焦資產稱重和評級目標,重點對職責來源、數據量、數據質量(完整性)三個方面展開,最終有27個字段能確定來源部門,有31個字段數據質量較高,13個字段數據質量一般(含3個認定來源部門的字段),50個字段質量較低(含5個認定來源部門的字段)。
資產標簽:根據資產識別和資產探查的結果,對照標簽定義的順序,最終33個字段被確認為可信資產(其中28個為三定職責認定字段,2個字段經融合處理且數據質量高,3個字段具有業務含義且數據質量高),30個參考字段(27個字段具有安全屬性但級別不確定,3個字段具有業務含義但數據質量一般),26個問題字段。
資產稱重:按照稱重規則,最終計算得到公共數據資產的重量為總資產SPDW[P1]=8.13(cds),PDQI=0.466;可信SPDW[P1]=7.93(cds),PSD占比0.62,PDQI=0.808;參考SPDW[P1]=7.5(cds),PSD占比0.23,PDQI=0.325;問題SPDW[P1]=7.28(cds),PSD占比0.14,PDQI=0.218。
資產定級:對照評級規則,可信PSD >參考PSD,且可信PSD +參考PSD的占比大于1/2,可信SPDW>參考SPDW,三類標簽的PDQI情況不再影響結果,確定法人登記表的資產等級為黃金級。
本文從數據管理職能主體的數據控制權屬角度出發,結合公共數據數源工程的研究成果,聚焦公共數據資產的數據特性、數據質量、數據安全、數據活性四個公共數據資產標的價值和建設成本、維護成本兩個公共數據資產成本價值,構建公共數據資產評級模型和分級管理機制研究,能夠有效地指導公共數據管理職能主體通過資產識別、資產分類、資產稱重、資產評級等標準化流程,促進公共數據資產化和資產化管理。