鄭保衛 潘沖 溫鮮陽 盛晶 黃加文 譚伊舒
(1.恩核(北京)信息技術有限公司,北京 100000;2.北京國際大數據交易有限公司,北京 100012)
在大數據時代,數據資產已成為國家和企業競爭力的關鍵組成,然而我國在數據資產領域的研究和實踐都處于起步階段,理論探索、制度建設和實踐經驗等多方面都存在缺失,沒有一套貫通性的數據資產價值評估理論體系。本文通過對現有數據資產質量評估相關內容的梳理和研究,提出引入質量調整系數優化數據資產質量評估方法和模型,以提高評估結果準確性,為數據資產價值評估、促進數據資產流通提供參考。
數據資產質量評估關注數據價值和質量,是大數據和信息技術快速發展背景下的重要研究課題。國內已針對該領域提出一些相關標準,如《數據管理能力成熟度評價模型》(GB/T 36073-2018)[1]、《資產管理信息化 數據質量管理要求》(20220584-T-469)[2]、《信息技術服務 數據資產 管理要求》(GB/T 40685-2021)[3]和《信息技術 大數據 數據資產價值評估(征求意見稿)》(20214285-T-469)[4]等。研究內容主要涉及標準化、質量指標體系建設、評估方法與技術、實踐應用與案例分析和跨領域融合。
國內雖然已提出一些相關標準,但現行標準體系中缺少針對數據資產管理體系的評估標準,因此需要針對數據資產管理全過程建立一整套管理體系指標。為了進一步推動數據資產質量評估領域的發展,未來研究需要在現有基礎上不斷優化評估方法、完善評估標準,并結合實際案例探討跨領域的應用。
數據資產質量評估作為數據資產評估的一個關鍵環節,銜接數據資產登記與數據資產價值評估,通過面向數據提供方的評估,發現數據質量問題并形成數據質量的基線水平,提高參與交易流通的數據資產質量,并通過評估結果更準確地進行數據資產的估值和定價,從而推動數據資產交易市場的健康有序發展。
企業和機構合法擁有或者控制的數據資產。
開展數據資產質量評估工作,應遵循總體評估原則和評估機構選取原則,以確保評估結果的準確性和可靠性。
(1)客觀性:數據資產質量評估應基于事實和數據,避免主觀偏見。
(2)全面性:數據資產質量評估應全面覆蓋數據資產的各維度指標。
(3)持續性:數據資產質量應隨數據資產的變化而進行相應的調整和更新。
(4)專業性:評估機構應具有數據資產評估的專業能力和經驗。
(5)獨立性:評估機構應獨立于數據提供方和數據交易平臺,以保證評估結果的客觀性。
數據資產質量評估的每個過程都可能涉及一個或者多個工具。其中,兩大核心工具框架分別是數據質量檢核框架和數據資產質量評估框架。數據質量檢核框架可以幫助企業發現問題數據、解決問題數據,從而提高企業數據質量;數據資產質量評估框架可以幫助企業實現數據資產具象化,識別高價值數據,實現企業數據資產估值。
根據《DAMA數據管理知識體系指南》[5]中對數據質量管理的指導,目前數據質量管理的核心方法論是PDCA(戴明環)。
數據資產質量評估框架中的工具可以幫助企業發現、整改內部問題數據,從而提高數據資產質量;可以幫助企業進行內部問題數據的發現、整改,從而提高數據資產質量。基于數據質量檢核框架提供的數據基礎,數據資產質量評估框架包含評估模型管理器、評估規則管理器和估值報告生成器三大核心工具。
(1)評估模型管理器用于維護評估模型指標,包括指標名稱、指標權重、指標定義和指標分值計算方式。
(2)評估規則管理器用于評估規則的維護,主要包括評估規則定義、評估規則執行等。
(3)估值報告生成器是一種自動化工具,可以提高資產估值報告的生成效率和準確性。
1.指標框架
參照《信息技術 數據質量評價指標》(GB/T 36344-2018)[6](以下簡稱《評價指標》)第3章,結合實際評估操作可行性、全面性、深入性,本研究所規范的數據資產質量評估三級指標包含6個一級指標、20個二級指標(包括《數據質量評價指標》(GB/T 36344-2018)中的16個二級指標,以及本研究擴充的 4 個二級指標)。一、二級指標框架詳見圖1所示。

圖1 數據資產質量評估一、二級指標框架示意
為了便于對指標進行識別和管理,依據評價指標第5章對一級、二級指標、三級指標進行編號。指標編號及編碼規則:指標編號是評價指標的唯一性編號,由一級指標、二級指標、三級指標共7位數字組成。編碼規則詳見圖2。一級指標:由2位數字組成,01代表規范性、02代表完整性、03代表準確性、04代表一致性、05代表時效性、06代表可訪問性;二級指標:由2位數字組成的順序碼,范圍為01-99;三級指標:由3位數字組成,范圍為001-999。

圖2 指標編碼規則示意
為了指導數據資產質量評估工作的可操作性,擬研究增設70余項三級指標,其目的主要考慮三個方面:第一,一級和二級指標具有較高的抽象性和概況性,不具有指導性和可操作性;第二,因一級和二級指標不夠具體,不同的人對其理解存在一定程度的偏差,從而使執行的結果也存在較大差異;第三,三級指標是最終落地執行的規則類型,具有明確的可操作性,可直接將其轉化為規則及程序,對評估對象進行檢查。若三級指標缺失,對評估對象的檢查深度和廣度就不夠明確,評估能否反映數據資產質量的真實情況則無從驗證。
2.檢測方法
為了確保數據資產質量,擬采用綜合運用系統工具檢測和人工檢測的方法,根據選擇的評估指標和質量規則開展數據資產質量檢測。系統工具檢測主要通過在數據資產質量平臺等專業系統工具上部署相應的質量規則或直接在數據庫中自定義檢測語句來實施檢測。這種方法可以確保檢測結果的客觀性和準確性。此外,人工檢測通過對相關材料的審核以及與相關人員進行訪談等方式,對照所選數據資產質量指標和檢測規則進行比對,并對檢測結果進行客觀記錄,使檢測過程更加全面和細致。進行數據質量檢測時,應結合專業知識和行業數據流通特點進行詳盡而系統的檢測,以確保數據質量滿足研究需求。
3.評估方式
根據評估數據規模,可采用全量檢測或抽樣檢測兩種方式進行數據資產質量檢測。
全量檢測方法將對目標數據集進行全面且詳盡的數據資產質量檢測,以確保獲得最為準確的檢測結果;抽樣檢測將運用隨機抽樣、系統抽樣及分層抽樣等多種抽樣方法對評估數據進行抽樣,并對得到的抽樣數據開展數據質量檢測,以便在更高效的基礎上獲得充分覆蓋數據集的檢測結果。
為確保數據資產質量檢測工作不對數據生產和應用環境造成影響,同時保障檢測工作的順利進行,通常需要為檢測數據準備庫。這樣可以對數據進行安全穩定的檢測處理,減少檢測過程中原數據環境的潛在風險,并在保證檢測效果的同時滿足數據管控的要求。
4.分值計算
參考數據質量評估方法,數據資產質量總體評分通過對一級指標分值加權平均計算得出。首先,根據三級指標對評估對象的數據資產質量進行檢測,按照公式(1),計算每一個三級指標的數據質量分數 ;其次,計算三級指標平均值以得出各二級指標的數據質量分數 ,隨后再次根據評估指標框架,按照公式(2),通過計算二級指標平均值得出一級指標的數據質量分數 ;最后按照公式(3)以及調研獲得的一級指標權重,將一級指標分值通過加權平均,得出數據質量總體評分 。其中,數據質量各級指標及總體評分的滿分均為100分,各一級指標數據質量分數的權重之和為1,權重的設置可以根據對一定數量的專家調研的結果進行計算平均值得出。通過此方式獲得的一級指標權重具有一定的公允性,避免了人為因素的影響。詳見分值計算公式:
式中:
j-代表第j個二級指標;
g-代表第g個三級指標;
i-代表第i個一級指標;
e-代表第j個二級指標下的三級指標總數;
m-代表第i個一級指標下的二級指標總數;
n-代表一級指標總數;
xi-代表第i個一級指標數據質量分數權重。
5.一級指標權重設置及計算
將一級指標的得分匯總為數據資產質量總分時,需要為6個一級指標設置權重,最終為了將質量作為一個調整系數應用到數據資產估值方法中去,需要將數據資產質量的三級和二級指標結果匯總到一級指標中,并將一級指標結果按照一定權重匯總為一個質量調整系數。為了達到此效果,需要對不同的一級指標設置權重。如果規范性設置20%權重,那么該20%權重設置的合理性比較難驗證,對質量整體的影響比重是否真正是20%也很難量化,因此權重的設置須慎重考慮。
針對一級指標權重的設置更多依賴于專家經驗,因此為了在一定程度上確保權重設置的合理性,需要通過調查問卷的方式,邀請至少10名甚至更多業內資深專家分別為指標設置權重,并計算出每一個指標的平均權重值,以此作為一級指標的權重進行使用。通過多人設置并計算平均值的方式可以最大限度地降低或者減少權重過度依賴某個或幾個人的個人偏好,從而獲得相對公允的權重,以避免權重傾斜。
研究過程中,本文通過問卷調研專家經驗的方式形成調研問卷,并向DAMA中國區數據管理領域專業會員3000余人定向推廣調研問題。
基于調研問卷的結果,對每一項調研獲得一級指標的結果計算平均值,從而得到每一項一級指標公允權重。基于調研結果得到了數據資產質量一級指標權重平均值和各行業指標權重平均值可以作為實際計算過程中的專家建議以供參考。
對于一級指標權重的分配,調查報告顯示,準確性、規范性、一致性和完整性被認為是最重要的4個指標,權重分別達到24%、20%、17%和17%。這一結果體現了這4個指標在數據資產質量評估中的核心地位,也反映了企業對這4個方面的關注度。此外,調查報告還顯示,可訪問性和時效性指標雖然同樣重要,但相較于其他指標權重較低,不同行業權重占比也不同。
調查報告還顯示,不同行業對一級指標的關注度不同,如金融行業對規范性、準確性指標的要求高于平均值。大數據行業對可訪問性指標的要求高于平均值。IT行業對完整性指標的要求高于平均值。
1.數據資產價值評估方法
目前,正在發布流程中的《信息技術 大數據 數據資產評估》[5]定義了數據資產價值評估可以使用的收益法、成本法、市場法3種數據資產價值評估的方法。但是,這3種方法中都存在一定程度的評估合理性問題。因此,本研究為了增加評估的合理性,對3種方法的問題進行了分析,并提出將數據資產質量調整系數融入3種評估方法中。
在收益法的計算公式中并未引入質量調整系數,質量要素對收益法的估值結果未能產生影響。質量要素對數據資產價值具有重要影響已成共識,如在評估方法中缺失,易降低評估結果的準確性。
成本法在針對貶值率計算方法中的專家評價方法中提及需要考慮數據資產質量、數據應用價值和數據實現風險等貶值因素,但在其計算公式中并未引入質量調整系數,而質量要素對成本法中的貶值率具有一定的影響,進而會對利用成本法進行的數據資產估值結果產生一定的影響。因此,質量要素在評估方法中的缺失易影響評估結果的準確性。
市場法包括質量調整系數,且給出了質量調整系數的計算公式。與收益法和成本法相比,市場法在引入質量要素方面具有一定的先進性和完整性。但是,市場法在定義質量調整系數時,引入了參照數據資源集的數據質量評估結果參數,由于數據內容具有行業性和多樣性,又會使參照對象只能選擇相似或近似的數據資源集,而相似和近似的程度依賴所選擇主體與評估對象主體的業務相似性。另外,即使選擇了合適的參照數據資源集也不會改變這種狀況,因為參照數據資源集的質量在很大程度上還依賴其所屬主體在質量管理和數據治理方面工作的成效。
由此可見,參照數據資源集的質量結果受制于諸多因素影響,具有不穩定性、不確定性、無法驗證性。這些特性在一定程度上會影響市場法中質量調整系數的準確性,進而影響數據資產價值評估最終結果的準確性。
2.數據資產質量調整系數的引入
當前,收益法、成本法、市場法中,僅市場法的公式包含了質量調整系數,而收益法和成本法均未考慮質量調整系數的因素。此外,市場法公式中的質量調整系數計算公式受限于對標數據集質量的參考,導致其在實際操作中執行困難。
因此,為了人們能更好地應用數據資產質量評估結果,數據質量調整系數應當被納入數據資產估值的計算過程。這有助于提高數據資產價值評估的準確性和可靠性,進而為決策者提供更為有效的信息支持。
可采用收益法、成本法和市場法3種基本方法完成數據資產價值評估。
收益法引入質量調整系數:
式中,Q表示評估對象的數據質量調整系數資產。
成本法引入質量調整系數:
在貶值率計算公式匯總引入質量調整系數會影響貶值率。
市場法引入質量調整系數:
數據資產質量評估是企業數據資產參與流通交易的必要環節,數據資產質量的好壞直接影響數據資產的價值。通過質量評估,企業可以更好地了解自身數據資產質量情況,分析數據資產質量問題,逐步優化數據資產質量,提升數據資產價值。
為了驗證本研究提出的數據資產質量評估方法及工具的實踐可行性,本文選擇交通行業國內某大型企業A作為數據資產評估試點。根據企業A已完成的數據資產登記信息,參考質量評估相關標準,結合數據交易所和參評方需求,以指導數據資產估值定價為目標,形成了數據資產質量評估方案,完成企業A包含260億數據的數據表的數據資產質量評估工作,并發布數據資產質量評估報告,為企業A提升數據資產價值奠定了基礎。
數據資產質量評估過程主要分為前期準備、評估實施、文本撰寫和結果評審4個階段。在前期準備階段,研究調研參評方的基本情況、數據資源情況、數據來源情況、數據安全情況。在評估實施階段,結合數據資產質量評估方法和工具對目標評估范圍進行了評估。評估方根據評估結果詳細計算了數據資產質量分數,并編制了數據資產質量評估報告,內容涵蓋參評方、參評范圍、評估方法、評估指標以及得分計算方法、評估過程、評估結果等。經評估,數據資產質量評估平均得分為79分,各一級指標得分:規范性是80分、準確性是69分、完整性是72分、一致性是91分、時效性是83分、可訪問性是79分。在結果評審階段,數據資產質量評估報告經參評方確認后,提交至數據交易服務機構進行評審。評審過程嚴格遵循相關規定和標準,只有通過評審的數據資產質量評估報告才能進行備案及發布,這一環節可確保評估結果的準確性和公正性,使數據資產評估結果更加客觀、有效。
1.完善數據資產登記信息
數據資產質量評估結果可以作為補充信息,對數據資產登記信息進行更新和完善。這有助于使登記信息更為全面,并將評估過程中發現的問題與數據資產登記信息中的數據項進行關聯。如此一來,評估結果和數據質量的整體狀況能夠得到充分反映,進而協助被評估方更好地了解和運用相關數據資產。
2.支撐數據資產價值評估
數據資產質量對數據資產價值具有顯著影響,而數據資產質量評估結果可以作為數據資產價值評估的參考依據或調節參數。基于可供價值評估使用的質量要素,可采用收益法、成本法和市場法3種基本方法及其衍生方法來完成數據資產價值的評估。
3.提升數據資產質量
通過質量評估,被評估方可以更好地了解自身數據資產質量情況,分析數據資產質量問題,逐步提升、優化數據資產質量。高質量數據資產有助于增強業務決策的可信度,提升業務流程效率,降低企業運營風險及成本,同時還可以提升客戶滿意度,促進創新能力,增強企業競爭優勢。
本文通過前期大量資料分析和調研分析,提出了創新性數據資產質量評估方法,設計了相應的評估模型與指標體系。同時,建立了全方位的管理體系與針對性的質量管理方案,以支持企業實施全方位的數據資產質量管理;設計了一套支持質量管理全流程的工具體系,包括質量檢核框架和質量評估框架;通過應用案例驗證了質量評估方法和管理框架在實際應用中的成效。這些成果有助于保障數據資產質量的穩定,促進數據交易的公平公正,推動數據要素市場的健康良性發展。