■ 張銘洪 蔡少俊 魏永坤 趙 海
(1. 廈門大學經濟學院,福建廈門 361005;2. 深圳市星領域教育科技有限公司,廣東深圳 518048;3. 廈門市思明區稅務局信息中心,福建廈門 361005)
大數據和云時代接踵而來使得電子數據呈現爆炸式增長。傳統的統計抽樣分析已經不能滿足一些精度極高的分析需求,同時信息技術進步而不斷提高的信息處理能力和傳輸速率使得人們有能力處理大量的數據。大量數據中蘊含的信息已開始受到各行業的廣泛重視,數據資源的重要性日益凸顯。黨的十八屆五中全會公報提出要實施“國家大數據戰略”,《中共中央關于制定國民經濟和社會發展第十四個五年規劃和二〇三五年遠景目標的建議》首次將數據視為一種重要的生產要素,明確指出“發展數字經濟,推進數字經濟產業化和產業數字化”、推進土地、勞動力、資本、技術、數據等要素市場化改革。在此背景下,電子數據資產的概念被人們所提和熟悉,圍繞數據資產的服務行業開始蓬勃發展,同時電子數據資產作為一種新型資產,其還帶動了相關金融行業業務范圍如數據資產保險、數據資產抵質押、數據資產證券化的發展,對電子數據資產的資產價值和評估問題研究就顯得格外的迫切和重要。
國內學者對電子數據資產的探索處于起步階段,研究資料較為稀少。我國學者主要通過對現有三大基本評估方法的改進和嘗試性的引入AHP方法來處理電子數據資產的評估問題,評估依據理論的科學性和評估過程中的主觀性問題仍需長時間的探討和完善。張志剛等(2015)描述了數據資產的定義及評估方法的模型,引入層次分析模型構建指標評價體系;從數據資產的成本和應用兩方面構建數據資產價值評估模型,提出一套全新的數據資產價值評估方法。對于單一數據資產的評估結合層次分析法的評估方法是一種較為有效的評估方法,然而針對數據資產的特殊性來改進AHP的評估方法是近年來較為主流的研究方法。張詠梅和穆文娟(2015)選擇成本法評估數據資產中的金融數據資產,并在構建的金融資產價值評估模型中加入了風險因素。
電子數據資產是近幾年才受到專家學者們的關注,目前還沒有關于電子數據資產價值的準確定義和統一的價值認定標準,亦沒有形成一個權威的電子數據資產價值評估模型。本文將從明確電子數據資產的定義開始,分析討論電子數據資產的性質特征和價值表現形式,并依據市場法的邏輯框架對電子數據資產評估過程中的主觀性問題和電子數據資產價值評估模型進行討論和改進。
電子數據資產是指企業消耗一定的人力物力財力,在生產運營過程中產生并積累或有意識的運用一定的電子數據收集技術方法和統計方法對數據信息進行擷取、管理、處理、整理成為幫助企業經營決策或預期能為企業帶來經濟收益,可用貨幣單位來計量由企業擁有或者控制并以某一種格式存儲在電子信息存儲介質上的新生資源。
信息資產是企業擁有或控制的一項特殊資產。其存在需要媒介,具有一般物質資產的特征,同時又兼有信息資源和無形資產的雙重特征。電子數據資產是信息資產的一部分,因此其不僅繼承了信息資產的多種性質,同時還具有自身特殊的性質:
①傳輸低成本。電子數據能夠應用現在主流數字化、網絡化信息技術和手段方便快捷進行存儲、復制、傳輸和處理,具有低成本的特性。②可還原性。現有數據管理系統和工具具有良好的冗余備份功能,在對電子數據進行修改、增添、刪除等錯誤操作后,一般可以恢復和修復數據。③高風險性。隨著互聯網的發展和應用,不法分子可利用計算機系統和互聯網的漏洞和缺陷對電子數據庫進行竊取、破壞、更改,造成企業巨大的經濟損失。④非磨損性。不同于一般的資源如礦產資源,在使用過程中會不斷減少。電子數據資產可重復多次使用而不會發生損耗,相反,在數據使用過程中可能會產生新的數據。⑤增值性。增值性也稱為積累性。一些通過技術手段實時獲取的動態業務和監測電子數據,隨著數據量規模不斷擴大,數據間的協同效應和數據量本身的增加會使得電子數據資產價值也隨之提升。⑥替代性。隨著信息技術更新換代以及市場環境的變遷,一些舊的數據集合不再能適用新環境要求,新的數據指標將會替代舊的數據指標。⑦附著性也稱為依賴性。電子數據不能直觀被查看,必須通過設備讀取存儲介質內的二進制碼,然后通過計算機按一定的編碼規則轉換成我們需要的數據格式。因此,電子數據是以二進制編碼進行存儲,不能脫離載體單而獨存在。⑧共享性。電子數據因其可復制性和具有經驗產品的公共物品性質而形成的外部性和非排他性,使得電子數據具有共享性。⑨數據使用差異性。不同的企業或個人因其背景經歷、對事物認識程度、理解能力、側重點差異性導致對同一電子數據的分析結果存在明顯偏差,數據分析結果的差異性還取決于企業或個人的分析目的、分析方法的選擇等主觀因素的影響。⑩時效性。數據資產給企業帶來的收益是逐年遞減的,按照目前數據的使用情況來看,數據資產所能創造的價值在五年后基本耗用殆盡。
電子數據資產的分類有很多種,本文所提出的幾種分類方式是服務于電子數據資產評估方法的分類方式。
一是按電子數據是否與數據庫交互分為動態電子數據和靜態電子數據。汪振林(2013)根據收集措施的不同來對動態、靜態電子數據進行區分,若采用實時收集或電子監視來收集數據則稱為動態電子數據,反之為靜態電子數據。在此基礎上,本文對該分類方法進行補充。本文認為在一個數據庫內數據是動態的,即便是靜態數據也是會進行修改、刪除等操作。因而從獲取數據的方式來判斷并不合適。本文從數據顯示是否與數據庫交互來區分,當數據使用者在查看數據時,數據從數據庫中被讀取后顯示,此時數據若時依舊保持與服務器上數據庫的交互,則被稱為動態數據。若數據只是從數據庫一次性獲取后便斷開與數據庫的交互,便是靜態數據。
二是按行業與數據資產相關程度由高至低分為數據強相關行業的數據資產、數據相關行業的數據資產、數據弱相關行業的數據資產。國家統計局于2011年以2008年聯合國重新修訂的《國際標準行業分類》(ISIC4)為參照修訂了《國民經濟行業分類》,本文根據該標準將總共二十大類的行業根據與數據資產相關程度進行分類。其中數據強相關行業的數據資產包括交通運輸、倉儲和郵政業數據;信息傳輸、計算機服務和軟件業數據;批發和零售業數據;金融業數據;科學研究、技術服務和地質勘查業數據;文化、體育和娛樂業數據。數據相關行業的數據資產包括制造業數據;建筑業數據;住宿和餐飲業數據;房地產業數據;租賃和商務服務業數據;教育數據;公共管理和社會組織數據;國際組織數據。數據弱相關行業的數據資產包括農、林、牧、漁業數據;采礦業數據;電力、燃氣、水的生產和供應業數據;水利、環境和公共設施管理業數據;居民服務和其他服務業數據;衛生、社會保障和社會福利業數據。該三級分類服務于數據資產評估進行分類這一設想,通過不同層次采用不同方法以達到合理的、偏差小的評估結果。
三是按電子數據(能否以紙質方式)顯示形式分為純電子數據和非純電子數據。純電子數據指只能在電子設備上進行顯示或稱軟拷貝,如視頻、動畫、音頻等。非純電子數據指不止能在電子設備上顯示(軟拷貝),還能通過硬拷貝的方式顯示閱讀,如文字、圖片、數字等。按電子數據是否直接獲取分為直接電子數據和間接電子數據。直接電子數據是通過一定的收集方式從來源處直接獲取。間接電子數據是從直接電子數據中衍生出來的數據,也稱衍生數據。舉例來說,網絡商城的交易數據記錄為直接電子數據,而通過處理產生的交易者的平均年齡則為間接電子數據。
四是按電子數據的類型可分為文本型數據、圖片型數據、音頻型數據和視頻型數據。本文的指標體系是建立在該分類之下,指標體系中的個性指標按照該分類而有所不同,具體指標選取詳見下后文中評估指標的選擇。
電子數據價值不僅在于其表面直觀體現的顯性價值,還在于對其進行數據分析的隱形價值。有些數據在分析后可具備合理的解釋,然而更多在于分析后所呈現的一些復雜的相關性。這種相關性通常會超出傳統理論的解釋范圍,這也是數據的研究魅力之一。
1.開發價值。開發價值也稱為挖掘價值、潛在價值或隱形價值。是電子數據價值中最重要的價值形式之一,包括科研價值、商業價值等,通過使用數據處理工具、初始數據梳理、建立模型、采用數據分析技術、利用數據和模型的關系優化結果。經過一系列的流程,將數據的隱形價值轉化為顯性價值,并將此結果應用到生活各個領域,電子數據服務于醫療、商業、科研、教育、電子商務、市政服務、旅游、個人健康等。近年來,電子數據開發價值越發明顯,特別是大數據概念提出以來,數據隱形價值的挖掘算法理論不斷發展、改進,并形成分類、估計、預測、相關性分析、聚類、復雜數據類型挖掘等相對完善體系分支。
2.協同價值。協同價值也稱為附加值或創造價值,分為內部和外部協同價值,數據內部協同價值指數據質量的提高或數據量增加導致數據的關系明顯或產生新的關系,因而使得原有數據集的價值更具價值。數據外部協同價值指新的數據集的加入原有的數據集而導致更多數據關聯的產生,該合并的數據集大于孤立兩個數據集的價值之和。將使得原有數據發揮更大的作用,數據價值在數據間的協同效應下發揮更大的價值。
3.現行價值。現行價值是指數據在不經過任何數據挖掘技術處理之前就具有的價值,也稱為顯性價值或現實價值。在數據挖掘未出現之前,許多數據都是直接利用統計分析而得出具有參考意義的結果。
4.市場價值。市場價值也稱為交易價值,是指一項電子數據資產在交易市場上的價格,它是買賣雙方通過相互競價博弈協商后產生的雙方都認同的價格。我國電子數據資產交易市場尚未形成體系,但也已經有一些代表性的交易平臺出現,如數海交易平臺。該平臺通過平臺資源優勢來編制合理的大數據定價機制,同時依據該機制構建價格指數,建立規范完善的電子數據資產交易市場,為電子數據資產交易雙方提供交易平臺。
5.經濟價值。經濟價值是開發價值的一種體現形式,在將隱形價值轉化為顯性價值的過程中或在對數據分析結果進行合理應用時,企業或個人在該過程中直接提供技術服務。如數據分析、云計算等由數據或圍繞該過程而提供相關衍生的服務而取得的一定的收益。電子數據的經濟價值在目前各種互聯網相關行業、軟件開發行業、數據服務商、市場調查企業、市場研究企業中體現尤為明顯,帶動了一大批新興行業,為社會創造了價值。
1.評價指標體系構建思路
電子數據資產價值是以開發價值為中心,按電子數據資產的類型加以區分,以數據內容質量、數據市場供需、數據來源為主要分支,通過數據資產自身和外部市場情況相結合、共性指標和各類型的個性指標相結合的電子數據資產價值評估體系。本文所采用的方法是綜合估值法,或稱多變量綜合估值法,是指通過構建一套評估指標體系,并運用一定的評估處理方法將不同指標整合成為一項綜合評估值。本文綜合考慮主客觀因素對指標權重的影響采用主客觀的組合賦權方法,主觀方法為層次分析法和序關系法,客觀方法為CRITIC法和變異系數法,構建帶限制條件的求基于方差最小的最優解方程并采用遺傳算法求得組合權重,根據求得的權重分別計算綜合評估值。
2.評價指標體系構建原則
單指標選取通常要遵循SMART原則。“S”代表評價指標必須是具體、明確的,“M”代表評價指標必須是可度量、可評價的,“A”代表評價指標是可實現的、切合實際的,“R”代表指標是現實的、非假設的,“T”代表評價指標是明確時限的。本文的指標體系的構建主要依據以下原則:第一,全面性和代表性相結合的原則。全面性體現在所選擇的指標能夠全面的解釋數據資產信息,同時所選擇的指標應當能體現數據資產的核心價值。第二,定性和定量相結合的原則。定性指標體系中所選擇的指標含有對數據資產價值的主觀價值判斷,定量指標體系中含有指標是數據資產客觀事實的反映。第三,一般性和特殊性相結合的原則。本文構建的數據資產價值體系要既能反映數據資產標的共性同時也體現每個標的資產的個體表現,將不同的標的資產加以區分。
一套完整的評價指標體系包括目標層、準則層、指標層,本文所構建數據資產價值評估體系的目標層為數據資產價值評估,準則層包括數據基本信息、數據質量、數據市場供需、數據來源四種,同時下設若干指標及分指標,指標分為正向指標和反向指標,按其特殊性與否分為個性指標和共性指標:
①數據基本信息A。數據基本信息為電子數據的基本參數,本文的數據資產分類為文本、圖像、音頻、視頻,本文由數據資產的分類來確定個性指標,因此個性指標主要集中在數據基本信息A中。②數據質量B。數據質量包括數據購買者的使用評價B1、是否經過數據清洗 B2、使用難度B3。③數據市場供需 C。數據市場供需包括數據的下載次數 C1、主要用途種類 C2、交易市場上類似數據數量 C3。④數據來源 D。數據來源包括數據發布者 D1、獲取難度 D2、發布時間距今日的天數 D3。
本文采用模糊數學中的集值統計方法對初選指標體系中的定性指標進行定量化處理,所有的定性指標評價區間為 。假設有A個專家對B項標的資產的C個定性指標進行判定,第 a(a=1,2,…,A)位專家對于任一標的資產 b(b=1,2,…,B)的某一定性指標 c(c=1,2,…,C)給出的評價區間記為將A個區間疊加,則會形成經典集值統計理論中的分布(落影)。落影函數反映每位專家的評價區間,可設為:

該式為每位專家落影函數。對于同一項標的資產的同一個定性指標b和c是不變的。將所有A位專家的落影函數進行重疊,則可以得到模糊覆蓋頻率樣本落影的估計函數,該函數為多位專家評價區間上的分布。根據張衛華和王建軍(2007)定性指標定量化的方法中對于傳統集值統計進行合理的改進,將傳統每個專家均分評判結果改為與專家評價區間寬度相關的權重確定方法:

式(2)說明專家給出的判斷范圍越小,說明專家的把握性越大,對于判斷越精準,這對于最終的檢驗有不少的提升。令為A專家的評估區間端點值從小至大排列而成的序列,令為評判區間包含區間各專家權重之和,即為:所以,分布函數為:

根據集值統計原理,標的資產b的第c個定性指標的綜合評價值為:

關于評判集中統計評估值是否較大程度上符合要求,主要判別方法是求集值統計樣本的方差,計算公式如下:

衍生判別集值統計結果可靠性的判別指標如下:

式(6)為所有專家對標的資產b的第c個定性指標好壞程度的量化評估值的可信度,其取值為[0,1],由于本文研究對象數據資產其內容較為新穎、未形成業內一致的標準,所以當T值大于等于0.75時,該次集值統計的定量評估值是可信的,專家意見基本上一致。當T值小于 0.75 時,必須組織專家重新評價。
為了避免指標間高關聯度和重覆計算,在指標構造過程中,本文參考蘇為華(1995) 提出對指標體系必要性檢驗,即辨別力和冗余度檢測,使得評價指標體系更具全面性、科學性和層次性。本文就辨識度和冗余度這兩方面來對指標進行篩選,采用的是灰關聯度與灰關聯聚類分析方法對指標進行篩選。
本文選取了主客觀賦權方法相結合的組合賦權綜合指數法來衡量數據資產的價值,通過各種主觀和客觀方法的對比,選出其中科學的經典的兩種主觀方法:層次分析法(Analytic Hierarchy Process)、序關系法;兩種客觀方法:CRITIC法、變異系數法。
為了兼顧主觀意愿和客觀事實需要考慮對四種方法得到的權重值向量進行組合賦權,設組合后的合理權重為 ,該權重使得各個標的資產每個指標得分至四種主客觀權重的各指標得分偏差盡可能的小。由于為組合權重可表示為:


可構建相應的拉格朗日函數求解該最優化模型。由于計算量較大且存在的約束范圍較小,本文采用matlab的Fmincon函數與各種組合相結合求取全局最優解。Fmincon函數求解結果是給出離初始點最近的極小值,但是由于本文的各組合權重的權重范圍為[0,1],范圍比較小,因此給出精度為0.01的[1,2,3,4]的各種組合,并求出每種組合下的局部最小值,所有組合的局部最小值的最小值即為近似全局最優解。
本文數據資產信息來自數據堂數據交易平臺。因該平臺數據文本類的數據較為完善,所以實證部分選擇文本類電子數據資產進行分析。將收集的40個數據標的資產分為用于構建模型的測試組30個標的(編號由1-30)和用于模型檢驗的驗證組10個標的(編號為31-40)。主要模型參數求取及步驟如下:
根據文本類的數據資產特性,構建表1的指標體系。

表1 文本數據資產價值評估指標體系
將上文中文本類型的數據資產的初選指標體系中定性指標,即數據存儲格式A1、使用難度B3、數據發布者D1、獲取難度D2,分別邀請10位數據相關專家對40個標的資產進行評價。由于數據資產較為新穎,不同專家對于同一資產的判斷會存在差異,所以本文對于每一個標的資產的每一個定性指標均由10位專家做出判斷,再從中選擇使得式(6)中最大的8位專家的評判區間,如若不能滿足大于0.75,則重新組織專家進行重新評判。①限于篇幅,四個定性指標的專家評判區間矩陣不再匯報,備索。
在指標篩選及以下權重確定的求解過程中,測試組并沒有參與計算。將15個指標進行標準化處理和灰關聯度與灰關聯聚類分析,設定分辨系數為0.65,并設閥值為0.85,可以得出表2結果。

表2 關聯度分析
可以發現指標數據條數A5分別與數據大小A4和字段數A6存在明顯的關聯關系,直觀來看,一個二維的數據大小A4是跟字段數 A5 和數據條數A6存在乘數關系。因此三者一定程度上存在重復性計算,特別的是對于大數據來說字段數A6一般相對于數據條數A5來說數值非常小,此時數據大小A4與數據條數存在共線性,在該測試樣本的情況下,由表2可得該樣本的字段數A6與數據條數A5也存在關聯。為此,去除數據條數A5這一指標以打破這種關聯關系,提升數據的辨識度,降低數據的冗余度。
按前文所述的 AHP、序關系法、CRITIC 法和變異系數的方法分別計算各自的權重,得到主客觀方法相結合的綜合權重值。同時利用matlab根據構建的最優化函數式(8)求解可得,各權重的組合賦權結果見表1最后一列。②限于篇幅,各指標分類賦權的結果未做匯報,備索。
運用表1最后一列的組合權重值,利用模型計算測試組和驗證組的綜合指標得分,見表3。

表3 測試組和驗證組數據集合綜合得分排序
④ 限于篇幅,問卷設計未作匯報,備索。
表3中,50 000例人類工效學數據精簡版排名第一,因為其有較好數據結構和規范性,在使用上效率高,同時該數據的市場需求大、數據獲取難度遠高于其他數據,其來源具有權威性。從這幾點來看,該數據的評價都遠高于其他的數據。相反,新浪娛樂領域新聞數據集這個數據集合,其獲取渠道簡單,是個人從互聯網上簡單抓取,并未經過數據的清洗和整理,獲取難度小、市場上供求多,所以評價相對較低。按上述方法,當該數據資產價值評估體系在數據庫容量不斷增加之后,各區間的間隙將更加精細,可逐步精確至千分位、萬分位、十萬分位等。
1.市場調查細節
考慮到問卷調查的內容為40個數據標的資產,本文的問卷調查方式主要通過手機端收集問卷,以提高問卷調查的便捷性。問卷的發放對象為從事科學研究員、高校碩博士、與數據相關的計算機及互聯網企業員工。問卷內容為40個數據標的資產的介紹,包括數據產品概況、數據來源、發布時間、數據用途、數據應用結構、數據技術規格(數據規模、數據存儲格式、數據大小、數據字段)、數據細節截圖、數據結構等,全面詳細的介紹數據標的資產。
2.集合競價
本文的價值評估時點為 2016年1月31日,由于市場調查所需要的時間較長,并不能在2016年1月31日一天內完成,所以本文假設宏觀環境短時間內是一致的。因此市場調查集中在2016年1月31日前后一周內完成。本次市場調查的主體是40個數據標的資產的買賣雙方的心理定價,本文共發放343份問卷,其中269份為有效的買方和賣方的心理價格,采用使成交量最大化原則的集合競價方法確定各標的資產的交易價格。可提取成交價格如表4。

表4 市場交易價格匯總表
在確保指標體系構建、指標權重值計算準確和數據標的資產價格問卷調查的有效性的前提下,將測試組的各標的資產的綜合得分和市場價格作回歸分析,得到的回歸模型即是指標體系模型下的無量綱評估值至市場價格的映射。本文將驗證組的資產標的評估值帶入回歸模型可得在該模型下的預期市場價格,該預期的市場價格同真實的市場價格進行比較和分析,以驗證該評估模型的可行性。本文將評估值和市場交易價格進行一元線性回歸主要是因為評估值與市場交易價格必然存在聯系,而評估值是各標的資產的相互比較所得,市場交易價格是由買賣雙方心理價格確定的,而買賣雙方定價行為同樣也是存在相互比較的結果。所以兩者如果存在映射的話,必然是線性的。根據所得測試組的評估值與市場交易價格作回歸分析可得:

F統計量為335.9226,F統計量的P值為3.951441751647090e-17,遠小于0.05,即可以拒絕原假設H0,回歸模型成立。評估值與市場交易價格存在明顯的線性關系,本文中數據資產價值評估指標體系與市場認定的數據資產價格因素是吻合的,該評估體系能反映標的資產的價值。
該回歸模型是基于測試組所得到的模型,現在我們將驗證組的評估代入該模型可得市場交易價格估計值,將其與問卷調查所得的市場交易價格進行比較,表5的偏差為(市場交易價格-市場交易價格評估值)/市場交易價格。

表5 驗證組市場真實價格與價格估計值表
① 限于篇幅,問卷設計未作匯報,備索。
從表5中可以數據標的資產編號為36、37、39的偏差絕對值達到了10%以上,其他標的資產偏差絕對值均在10%以內。若將10%內的偏差設為合理范圍,則該模型的合理估計成功率為70%,若將16%內的偏差設為合理范圍,則該模型的合理估計成功率為100%,當需大量評估的數據標的資產,使用該模型來評估可以在很大程度上提高效率。該模型從整體來看該結果相對合理和準確,所以本文認為該模型的建立是有意義的,其估計是可行的。
本文采取文件調查的方式來獲取市場價格,將綜合評估值和市場價格作映射,并對驗證組的市場價格進行驗證,該思路一定程度上可用于資產評估方面研究的相關評估結論檢驗和借鑒。同時由于本文采用的方法均實現了計算機模塊化處理,能做到快速批量評估。數據標的資產的交易通常采用互聯網平臺的形式,因此獲得數據資產信息的數據均為電子數據。將本文所述評估方法和流程結合計算機網絡輔助系統進行處理,在測試樣本庫中收納更多的數據資產的同時,模型中的參數將不同程度的隨之變動,那么模型對已評估過的數據標的資產將會重新進行估價,這樣就能及時的反饋市場信息的變化和影響實時計算定價,實現動態評估。最后,本文認為動態評估在當前網絡信息化技術支撐下是可以實現的。通過拾建相關企業與資產評估機構的接口,對相關企業所持有的數據資產標的規模等情況以及相關評估的數據進行鏈接(API接口),在收集動態的評估數據的基礎上,評估機構可根據不同企業的類型調整不同的評估策略(甚至使用計算機AI人工智能技術自動給出評估策略),計算機網絡輔助系統根據設置好的評估方法和評估內容直接給出評估結果,完成對相關企業所持有數據資產價值的實時評估。