沈俊鑫,趙雪杉
(昆明理工大學管理與經濟學院,云南昆明 650093)
數字經濟時代,如何利用好、發揮出數據要素的價值是當下生產力發展和提高的關鍵,也是經濟政策和經濟研究格局變革的關鍵[1];企業轉型、技術經濟與發展范式躍遷、國民經濟循環效率提升都要依靠數據要素這一新時代下的基礎生產要素來提供新動力、加快新進程[2]。數據資源可以在所有社會成員和生產部門之間自由流轉是數據要素市場化的基本要求[3],但數據交易平臺存在定價標準模糊、交易規則缺失、買賣雙方信息不對稱的問題[4],極大的制約了數據資源的流動及數字經濟的發展[5]。我國數據要素市場化建設要求加快數據標準制定、健全數據評估和定價機制、拓展數據市場交易平臺、優化數據資源配置、完善數據交易系統[6]。現階段,國內大數據交易市場已經初見規模,但仍不夠規范和統一,其可持續發展還需要依靠合理的定價及政府性指導[7]。現有數據交易的交易成本普遍偏高且數據質量無法得到有力保障,是由于目前數據交易環境存在定價標準模糊、交易規則缺失、交易雙方信息不對稱的問題,這些問題極大地限制了數據資產的流動,阻礙了數字經濟的發展[8],而數據能夠在所有社會成員和各生產部門之間流通是數據要素市場化的要求。數據定價作為數據交易市場的基礎,在數據被當作重要生產要素過程中有著關鍵作用。目前數據交易市場,交易價格混亂、數據資源利用率低下、企業盈利能力不足的現狀,亟待合理的數據定價方法來改變[9];同時,合理的數據定價方法還可以吸引更多的潛在用戶參與交易,進一步提高企業盈利,從而為數據產業的發展注入活力。在當前的數據交易市場中,透明度低的買賣雙方、嚴重不對稱的信息,造成了目前數據市場上數據定價的混亂。若能建立合理的價值評估機制及數據資源定價標準,既能促進數據流通也能改善數據市場交易效率。
缺乏合理且有效的數據資源價值評估定價方法是限制目前數據要素市場化、大數據交易平臺發展的關鍵卡點[10]。實現以價值為導向的持續運營能力提升是數據資產運營的核心目標,其關鍵在于數據資產價值評估環節的補全,多維量化分析企業數字資產價值并為企業數據資產價值運營決策提供支持,真正意義上地做到數據資產運營的價值閉環,有效盤活數據資產價值。
國內外學者針對數據資源價值評估展開了相關研究,大致可以分為無形資產評估方法、定量影響因子評估方法和智能評估方法等三類。
無形資產評估方法指將數據資產當成無形資產,應用一種或者多種傳統的無形資產評估方法來評估數據資源價值的方法,包括成本法、市場法、收益法[11]。數據資源具有與傳統無形資產、金融資產不同的特點,不能直接應用無形資產評估方法[12]。定量影響因子評價方法是基于分析方法確定數據資產價值影響因子權重以構建數據資產評估模型。Saiko 等[13]提出通過對數據本身和質量等多維度的特征進行重要性和價值定量評估,再結合價值矩陣等定性分析方法,最后得到數據的綜合價值。李菲菲等[14]從不同角度建立了基于層次分析法的數據資產價值評估模型。Yu等[15]根據數據的內在屬性,即顆粒度和隱私,提出了數據評估方法。智能評估方法是指使用聚類、分類、回歸類機器學習方法計算數據資產的價值。智能評估方法相比上述方法對數據資源的特征具有更好的適用性,具體表現為:評估標準更客觀、處理能力更強大、數據特征更適應。Agarwal等[16]使用機器學習算法設計用于購買和出售機器學習訓練數據的實時數據市場。Cong等[17]提出了機器學習部署的步驟中為終端用戶的模型定價。倪淵等[18]建立了基于AGA-BP神經網絡且考慮諸多數據指標及其價值非線性關系的數據資源評估模型。智能算法評估相對于傳統算法在非線性擬合能力、預測精度、可量化程度和運算效率等方面有強大的優勢。但目前,智能算法在數據資源價值評估領域的應用還不夠深入,需要進一步研究以充分發揮智能算法在數據資源價值評估領域的優勢。
學者們從不同角度對數據資源價值影響因素的挖掘逐漸趨于全面,缺乏各影響因素與數據資源價值的定量影響分析。現有方法通過借鑒傳統無形資產評估方法初見成效,但均存在不同程度的局限性:
(1)傳統的無形資產評估方法通過單種或者多種混合的傳統無形資產評估方法來衡量數據資產的價值,一部分研究直接將數據資產視為無形資產;另一部分研究根據數據資產的增值特性與無形資產相區別,但是并未考慮數據資源增值的問題。
(2)定量影響因素評估方法從數據資產成本、應用、維護等不同角度提出了數據資產價值的影響因素,并根據層次分析法對各種價值影響因素進行權重分析,最后建立數據資產價值評估模型,但其主觀性較強,不能形成客觀量化的價值判斷指標。
智能算法可以通過時間維度的指標設計解決數據增值的測量問題;可以通過算法的計算規避以往研究數據資源價值時主觀給定價值影響系數等問題。綜合判斷,智能算法在數據資源價值評估的應用更客觀,更有效率,適用性也更廣。為解決上述問題,本文提出了基于Stacked-GBDT集成學習的數據資源價值評估方法。首先,基于敏感性分析,從數據的本身因素和市場因素兩個維度歸納建立了數據資源價值影響要素指標體系;然后,基于梯度提升決策樹(gradient boosting decision tree,GBDT)機器學習算法與模型堆疊(Stacking)集成學習算法,提出了基于Stacked-GBDT的數據資源價值評估算法,并與Random Forest(隨機森林算法)和XGBoost(極限梯度提升算法)以驗證本文所提方法的正確性及有效性[19-20];最后,應用Stacked-GBDT模型對數據集進行動態定價。
數據資源價值受到本身因素與市場因素的雙重影響。從數據資源本身因素考慮,數據規模、數據類型、數據所屬行業、數據內容和數據質量等均對數據資源價值有顯著影響[8-10],其中數據質量相關指標主要包括數據的完整性、獨特性、有效性、準確性和一致性[21];從數據資源市場因素考慮,數據購買量、數據應用價值度和數據稀缺度等對數據資源價值有顯著影響[6,10,15]。
將影響數據資源價值指標作為機器學習算法模型的輸入特征,將數據資源累計成交額即數據資源價值(由價格×購買量得到)作為算法模型的輸出特征。對各特征的描述性統計如表1所示。

表1 數據資源價值特征描述統計
在數據資源價值影響因素中,數據行業分類、數據分類標簽,共計2個指標為離散值指標,其余為數值型指標;所有特征相互獨立,不存在線性影響關系;所選取的數據指標都是以往學者研究所得影響數據資源價值的因素,所以屬于價值稠密型;整體指標體系共計11個維度,相較于其他類型大數據屬于低維度數據,可得該指標體系下的數據資源數據屬于低維稠密型。
GBDT算法是基于加法模型通過迭代訓練提升模型效果的決策樹算法[22],相較于其他算法具備如下優點[23]:(1)靈活性高;可靈活處理數據交易信息中的離散數據;(2)性能良好;處理數據資源價值評估問題應用的非線性數據表現優異;(3)抗干擾能力強;在面對數據資源價值差異大的數據時魯棒性很強;(4)數據適用度高;數據資源價值可量化指標體系整體屬于低維稠密,GBDT相較于其他算法可以很好地處理該特點的數據;(5)預測精度高;對評估數據資源價值有很大的幫助。
GBDT算法的每次迭代都是在殘差降低的梯度方向上創建新決策樹,并基于加法模型對每個決策樹的結果進行加權求和以獲得最終的數據資源價值評估結果,模型結構如圖1所示。

圖1 GBDT數據資源價值評估模型
循環執行構建決策樹的步驟并不斷更新,可以得出GBDT數據資源價值評估模型。將數據資源價值本身影響因素和市場影響因素輸入模型,即可得出該數據資源的價值評估結果。單獨的GBDT模型對于數據資源價值評估準確精度提升有限,且受隨機性限制導致泛化能力不足,但數據資源價值評估對精度要求較高,于是需要進一步地優化以提升整體模型的評估精度。
集成學習指由多種算法融合形成的機器學習算法。目前提升機器學習效果最好的方法就是集成學習,可以在原有的機器學習模型的基礎上表現得更好,通過集成策略對抗過擬合而且不需要太多的額外調參等工作。常見的集成學習算法有模型堆疊算法(Stacking)、引導聚集算法(Bagging)、框架提升(Boosting)。Stacking是一種將弱學習器集成進行輸出的策略,屬非線性融合;剩余集成學習都屬基于加權平均的組合預測算法,不能夠體現樣本內單個樣本預測誤差對整體權重的影響[24]。由此,選用Stacking算法對預測模型進行融合,以提高模型精度和泛化能力。
基于GBDT的數據資源價值預測方法具有輸入數據量需求小、可解釋性強的特點,將決策樹算法GBDT與集成學習相結合,可以進一步提高模型的預測精度與泛化能力。在構建GBDT數據資源價值預測模型時,每一個當前決策樹的模型建立都依賴上一個決策數模型的預測結果,屬于串行計算模型。將Stacking集成學習與GBDT相結合,在Stacking集成學習的第一階段可并行運行多個GBDT模型,在第二個階段集成上階段的預測結果作為輸入再次進行預測,提高整體預測精度。
Stacking集成學習方式是通過組合多個預測模型的信息然后生成新模型的集成方法,通過對多個不同模型的組合用以獲得比單一的算法更優越的性能。第1步將原始輸入的數據集劃分成若干個子數據集,作為第1層預測模型的各個基學習器的輸入,然后由各個基學習器分別輸出各自的預測結果;第2步,第1層的預測結果作為第2層模型的輸入,然后對第2層元學習器的預測模型進行訓練,最后由第2層的模型輸出得到最終的預測結果。將Xi作為輸入,記第1層第k個基學習器為Bk,第2層的元學習器為P,則第1層第k個基學習器的輸出為,將第一層的輸出結果作為第2層元學習器的輸入,最終第2層的輸出結果為,如式(1)所示。

Stacking的集成學習方式如圖2所示。

圖2 Stacking集成學習模式
本文將Stacking模型融合應用于多個GBDT模型的集成,用以提升數據價值預測精度。基于GBDT與Stacking模型具體融合過程如圖3所示。

圖3 基于GBDT與Stacking模型融合的數據資源價值預測模型
(1)利用第1層的基學習器生成訓練集與測試集的N組數據資源價值預測值。根據交叉驗證的思想,首先將數據資源指標的訓練集分成5份,記作S1,S2, ,S5。首先應用訓練集S1,S2,S3,S4訓練基學習器1,并基于訓練好的基學習器1對S5和測試集進行預測;然后,再用S1,S2,S3,S5重新訓練基學習器1,繼續對S4和測試集進行預測。以此類推,得到基學習器1對S1,S2,S3,S5的預測值(將其組合成第一組的訓練集預測值)和測試集的5組預測值(將這5組預測值的平均值作為第一組測試集預測值)。
同理對基學習器2-N進行同樣上述操作,得出訓練集與測試集的第2-N組數據資源價值預測值。
(2)利用第1層的基學習器輸出的訓練集的N組預測值構建成第2層的訓練集;利用第2層的基學習器輸出的測試集的N組數據資源價值預測值構建成第2層的測試集,得到最終數據資源價值的預測結果。
不同的基學習器存在不同的特性,進行模型融合的目的是減少單一基學習器的誤差影響等,使得整體模型融合系統預測性能提升。
將多個GBDT模型作為Stacking集成模型的第1層基學習器,考慮到使用Stacking集成學習容易帶來過擬合,所以將簡單的Linear模型作為第2層的元學習器。基學習器的數量對Stacking的融合效果有直接影響,基學習器的數量較少會造成各學習器間不能有效互補,數量較多會造成模型冗余且調參更復雜。一般情況Stacking模型的基學習器數量在3~5個,經過測試可得最佳融合效果的基學習數量為3個。因此,Stacking第一層基學習器為3個GBDT模型,第二層為Linear模型。
數據資源價值的評估與定價是目前數據經濟發展研究的要點所在,而數據資源的價值與定價息息相關。數據本身的質量和特點與其在市場上的應用在數據資源的價值形成中有很重要的影響。數據本身特性決定了數據是否能經受住市場的考驗,能否長久地發揮它的價值;而市場則是檢驗該種數據資源的實際應用情況如何,是否與時代社會的發展息息相關,是否能產生積極的意義進而促進數據經濟的發展。
數據資源的價格隨著時間變化,其本身的質量和市場因素都會發生變化,例如:隨著時間的變化數據的時效性會變差,數據獨特性會降低,其價格也應當發生變化,通過數據資源價值最大化的思想可確定在不同階段數據資源的最佳售出價格。
對于新上架的數據資源,采用提出的Stacked-GBDT數據資源價值預測模型,第一步從數據資源的本身因素和市場因素分析,對數據資源本身特性指標進行量化,例如數據資源的規模度、結構化程度、所屬行業等可以通過數據資源的內容直接得出,其次由專家基于市場的角度橫向對比該數據資源與其他數據資源,得出部分市場化指標;第二步,通過改變價格,得出不同的價格下Stacked-GBDT模型預測出的數據資源的價值,得到數據資源價值隨價格變化的曲線;第三步,由于數據整體的變化過程是算法驅動的,與實際情況是有一定出入的,應當根據數據資源的實際情況,由專家考慮市場情況之后,提前確定一個合理的數據可售價格區間,在該區間內尋找使得數據資源價值最大的價格點。當數據交易一段時間后,其本身因素和市場因素的量化值會有相應的改變,將改變后的信息重新輸入Stacked-GBDT模型,即可得出新的數據資源價值隨價格變化的曲線,重新確定價格,實現了數據資源的動態定價。至此,在數據資源每個階段都有使得數據資源價值最大的策略可采用。
5.1.1 數據來源
國信優易數據公司是由國家信息中心于2015年發起成立的科技平臺型企業,擁有大數據、人工智能、區塊鏈和物聯網等新一代信息技術。優易數據的數據集市是一個數據交易平臺,該平臺擁有多行業數據交易資源。本研究建模所需數據均來自該平臺,使用網絡爬蟲技術獲取該網站上產業經濟、健康醫療、交通地理、金融征信、精準營銷、科研技術、企業管理、生活服務、輿情監測和行業檢測報告共計10類數據資源交易數據。
5.1.2 數據預處理
國信優易數據的數據資源交易數據存在如下問題影響模型預測精度:數據信息不全;重復;數據量綱差別大;包含文本型數據。
對獲取的數據進行數據處理:
第一步處理規則:若指標體系中有關字段缺失,則刪除這條數據;若出現重復數據,則只保留一條有效數據;數據量的計量單位,統一以KB為單位。
第二步數據處理:類別化標識:數據行業分類、數據分類標簽共2個類別字段采取one-hot編碼的方式進行數據數值化;歸一化處理:由于不同數據的規模度相差很大,需要將其進行歸一化處理,以此提高模型的收斂速度,歸一化公式為:

式(2)中,x為歸一化前的數據;max(x)和min(x)為數據集中x的最大值和最小值。
最終獲得可使用數據5 813條,將總數據量的80%,即4 650條數據作為訓練集,總數據量的20%,即1 163條數據作為測試集。
預測指標采用均方根誤差(root mean square error,RMSE)和平均絕對誤差(mean absolute error,MAE)衡量預測結果的全局和局部絕對誤差,采用均方根百分誤差(Root Mean Square Percentage Error,RMSPE)和平均絕對百分誤差(mean absolute percentage error,MAPE)衡量預測結果的全局和局部的相對誤差,采用決定系數(r-square,R2)衡量預測的整體效果5個評價指標,如下所示。


基于上述預處理數據分別構建基于GBDT、Random Forest、XGBoost的單獨模型和與 Stacking集成的數據資源價值評估模型,并進行對比分析以驗證本文所提Stacked-GBDT數據資源價值評估模型的有效性與準確性。6種模型的數據資源價值預測結果如圖4所示。圖4中橫縱坐標的柱狀圖分別表示真實值和預測值的分布情況,散點表示預測值。

圖4 數據資源價值預測6種模型數值擬合情況
由圖4可見,總體來看,根據柱狀圖顯示的數據分布可以看到,數據點的分布大致圍繞在中心線周圍,數據在價值0~10 000的范圍分布較密集,總體預測更準確;當數據價值更大時,不同模型預測精度有不同程度的下降,預測精度下降表現為數據點呈放射狀遠離中心線;分別來看,三種算法的單獨模型與其Stacking集成模型相對比,集成后的模型相較于集成之前都有不同程度的精度提高,其中XGBoost算法在數據價值增大之后精度下降最多,Random Forest算法次之,而GBDT算法在數據價值更大的階段仍有良好的表現,Stacked-GBDT又比GBDT稍有提升。
將設定好的5個預測評價指標對6種模型的預測效果進行對比,這6種模型的預測評價指標計算結果如表2所示,并根據此結果繪制指標偏差率對比如圖5所示。

表2 6種模型預測效果評價

圖5 Stacking集成模型與未集成模型誤差對比
由表2易得,首先根據整體預測指標R2可以發現,基于機器學習算法與Stacking的融合模型和未集成的機器學習模型都能比較好的預測數據資源價值,說明機器學習是一種可用于數據資源價值預測的方法。相比較來看,Stacked-XGBoost、XGBoost、Stacked-Random Forest、Random Forest誤差指標偏大,預測效果欠佳;Stacked-GBDT與GBDT對于數據資源價值預測的效果更好,Stacked-GBDT預測評估效果最佳。
從圖5可以看到,通過Stacking集成模型與未集成模型橫向對比誤差,發現集成模型的預測效果均優于未集成模型,通過GBDT與其他機器學習模型的縱向對比誤差,發現GBDT的預測效果均優于其他模型。
通過輸入數據資源本身指標和歷史數據交易信息完成模型訓練后得出的Stacked-GBDT模型可有效解決目前數據資源價值評估中主觀性強、缺乏定量標準的問題,對促進數據要素市場化、數字經濟的發展很有意義。
基于本文所提的Stacked-GBDT模型對數據集進行動態定價,選擇國信優易數據集的具體信息如表3所示。

表3 國信優易數據集示例具體信息
保證數據價值評估指標恒定,動態調整數據的價格(設定價格區間0~2 000),并將上述數據集相關指標輸入至Stacked-GBDT數據價值評估模型,并繪制價值隨價格變化曲線,如圖6(a)所示。

圖6 由給定區間確定價格示例
從圖6(a)可以看出,數據集的價值隨價格增加呈現先上升后下降的趨勢。變化趨勢符合常規認知,隨價格從低到高,數據資源的價值整體呈上升趨勢;價格到達較高水平后,數據資源價值因購買量下降幅度超過價格增加幅度而下降。但是并不能直接根據最高的價值點進行價格的選擇,數據整體的變化過程是算法驅動的,與實際情況是有一定出入的,應當根據數據資源的實際情況,由專家考慮市場情況之后,提前確定數據可售價格區間,然后根據數據價值隨價格的變化曲線,在數據可售區間(m,n)內選擇使得數據價值最大時對應的價格o作為數據的售出價格,示例如圖6(b)所示。
當新上架的數據交易一段時間以后,根據指標的評分變化,例如數據時效性、數據獨特性等、以及用戶的評分反饋調整,重新將數據信息輸出模型,得出新的價值隨價格的變化曲線,重新確定售出價格,以此實現數據資源的動態定價數據資源價值最大化。
數據資源價值的準確評估和定價是促進數據要素市場化、發展數字經濟的關鍵步驟。本文使用人工智能及機器學習領域的前沿技術來解決數據資源泛濫背景下的價值難以準確快速確定、主觀性強、缺乏定量標準的問題,并建立數據資源價值隨價格變化曲線用于精確、動態定價。首先對以往學者對數據資源價值評估的研究進行了系統的梳理和分類;然后基于數據資源的本身因素和市場因素兩個維度構建了數據資源價值評估指標體系,針對數據資源交易平臺的交易數據的特點,從智能算法角度出發提出了基于Stacked-GBDT模型的數據資源價值評估模型,以國信優易數據平臺的5 813條交易數據為例,進行了實證研究和多種模型的對比分析;最后使用Stacked-GBDT模型建立了數據資源價值隨價格變化曲線,實現了精確、動態定價。
本研究的意義包括三個方面:
(1)從數據資源本身和數據市場因素兩個角度深度挖掘了均可量化的價值影響因素并建立了指標體系,為以往研究中指標難獲取、影響因素排序主觀性強、最終數據資源價值難量化的問題提出了可行的解決方案;
(2)提出了一種基礎歷史交易數據進行模型訓練的機器學習集成模型。以國信優易數據為例,在Stacking集成算法模型中,充分測算了多種算法與Stacking集成模型在數據資源價值預測方面的表現并且對比了未集成算法的效果;
(3)運用Stacked-GBDT數據資源價值評估模型對數據資源的定價提供了準確、動態調整的支撐。結果證明,Stacked-GBDT算法是一種可評估且評估效果佳的數據資源價值評估與動態定價方法。