■ 趙振洋 張子玉
(東北財經大學會計學院/中國內部控制研究中心,大連 116025)
近年來,在疫情的影響下,線下購物受限,零售電商平臺的市場規模不斷擴大。根據商務部數據,2016-2021年全國網上零售額從5.16 萬億元增長到13.09 萬億元,網購用戶規模從4.67 億增長到8.42億,隨著5G 技術的發展與農村互聯網的普及,這一數據還會持續增長。零售電商平臺作為買家與賣家的樞紐,每天需要加工大量來自用戶的瀏覽、交易數據,這些數據構成了零售電商平臺的數據資產,如何衡量以及預測數據資產所帶來的風險成為評估機構和評估專業人員評估零售電商平臺數據資產時重點關注的對象。
根據《資產評估專家指引第9 號——數據資產評估》中的指導意見,本文構建零售電商平臺數據資產風險指標評價體系,并利用探索性因子分析(EFA)測算零售電商平臺數據資產風險的綜合得分,然后利用支持向量機回歸(SVR)進行實證分析,豐富了零售電商平臺數據資產風險的相關研究。
借鑒《資產評估專家指引第9 號——數據資產評估》,將零售電商平臺數據資產風險按數據資產使用流程分為數據采集風險、數據導入和預處理風險、數據分析和挖掘風險,增加零售電商平臺數據資產應用過程中的數據應用風險。另外,由于近年來時有曝出企業數據資產泄露的事件,使得數據資產的安全保護受到社會公眾的關注,因此,將數據保護風險作為數據資產風險的重要指標。如表1所示,最終構建數據采集、數據導入和預處理、數據分析和挖掘、數據應用和數據保護5 個一級指標、20 個二級指標的零售電商平臺數據資產風險的指標評價體系,并詳細說明二級指標的具體度量方法。

表1 零售電商平臺數據資產風險的指標評價體系
數據采集風險主要是指零售電商平臺以主動或被動方式從系統外部收集信息的過程產生的風險,表現為用戶通過電腦端或者手機端在零售電商平臺瀏覽商品信息或發生交易而產生數據的過程中的不確定性。數據采集過程面臨的風險包括數據容量、價值密度、數據增長潛力、數據采集時長、數據采集范圍和數據采集渠道。數據容量是指平臺數據采集的數量,可以用APP 下載量來度量;價值密度是指平臺數據采集過程中的有效數,可以用活躍買家數量來度量;數據增長潛力是指平臺有效數據的增長速度,可以用活躍買家數量增長率度量;數據采集的時長可以用APP 的發行時間來度量;數據采集范圍是指國內外平臺用戶分布情況,可以用是否開拓海外零售市場來度量;數據采集的渠道包括網頁版和手機端兩大渠道。
數據導入和預處理風險主要是指零售電商平臺將采集好的數據輸入到系統中,并對數據進行審核、篩選、排序等分類匯總前必要處理的過程產生的風險。數據導入和預處理過程中面臨的風險包括數據導入的途徑、數據描述情況、數據處理情況、數據處理是否故障和數據故障處理速度。數據導入的途徑是指零售電商平臺與用戶操作系統的兼容性,比如與蘋果、安卓、鴻蒙系統的兼容性;數據的描述情況是指零售電商平臺的宣傳頁面是否符合國家規范,是否存在虛假宣傳等違規現象,可以通過打擊侵權假冒工作網獲取處罰公告;數據處理情況是指用戶是否授權零售電商平臺處理個人信息,是否存在違反個人信息安全法的情況;數據處理是否故障是指在零售電商平臺使用高峰期,如雙十一等促銷節,數據處理平臺是否因為數據數量的爆發式增長而崩潰;數據故障的處理速度表現為應對突發情況是否具有完備的防護措施。
數據分析和挖掘風險主要是指零售電商平臺采用適當的統計分析方法將獲取的數據分類匯總,通過情報檢索、機器學習等算法提取有用信息并形成結論的過程中產生的風險,通常表現為零售電商平臺根據用戶以往的瀏覽、交易數據,利用算法預測用戶行為定向推送相關信息的過程。數據分析和挖掘風險包括數據資產開發水平、數據資產開發戰略地位、數據資產開發人才儲備和數據資產潛在開發水平。數據資產的開發水平是指零售電商平臺對數據分析和挖掘投入的資本,可以用零售電商平臺數據資產的研發成本來度量;數據資產的戰略地位是指零售電商平臺對數據資產的投入的重視程度,可以用數據資產的研發成本占收入比重來度量;人才儲備是指平臺數據處理的工作人員比例,可以用平臺數據研發人員比例來度量;數據資產的潛在開發水平是指數據資產研發投入的增長水平,可以用平臺數據研發投入增長率來度量。
數據應用風險是指零售電商平臺利用經過處理的數據資產創造價值的過程中產生的風險,表現為零售電商平臺應用數據資產帶來的企業持續增量收益。數據應用風險包括數據資產的用戶滿意度、數據資產的盈利能力和數據資產的覆蓋面。數據資產的用戶滿意度是指數據資產的應用是否促進用戶消費,可以用零售電商平臺APP 評分來度量;數據資產的盈利能力是指數據資產為平臺帶來的收益,可以用商品交易額增長率來度量;數據資產的覆蓋面可以用市場占有率來度量。
數據保護風險是指零售電商平臺采取必要措施,確保數據資產處于有效保護和合法利用狀態過程中產生的風險。數據保護貫穿數據資產的采集、導入和預處理、分析和挖掘以及應用的全過程,數據保護風險包括數據損壞和數據泄露。數據損壞是指零售電商平臺出現故障導致數據丟失等損壞現象;數據泄露是指零售電商平臺的數據資產被泄露的風險,可以用是否違反數據安全法來度量。
因子分析(FA)是基于降維的思想,在盡可能不損失或者少損失原始數據信息的情況下,將錯綜復雜的眾多變量聚合成少數幾個獨立的公共因子,進而得出變量的本質結構。因子分析的方法分為驗證性因子分析(CFA)和探索性因子分析(EFA),由于驗證性因子分析假定明確因子與測度項的部分關系,因此并不適用零售電商平臺的數據資產風險計量。探索性因子分析假定因子與測度項的關系未知,既能夠體現各個變量之間的內在關系,反映原始數據的主要信息,又能夠精簡變量數目,實現數據降維,因而適用于評價指標眾多的零售電商平臺數據資產風險的量化。探索性因子分析的步驟如下:
1.數據檢驗
零售電商平臺數據資產風險因子分析的目標是對采集到的原始數據進行降維濃縮,因此要求變量之間應該存在較強的相關關系,通常采用KMO(Kaiser-Meyer-Olkin)檢驗和巴特利球形度(Bartlett Test of Sphericity)檢驗。對于KMO 值,越接近1 代表變量間相關性越強,越適合做因子分析,因此0.6上合適做因子分析,0.5 以下應該放棄;對于 Bartlett的檢驗,若顯著性小于0.05,拒絕原假設,則說明可以做因子分析;若不拒絕原假設,則說明不適合做因子分析。
2.因子提取
零售電商平臺數據資產風險因子提取的目標是確定影響數據資產風險主要因子的個數,常常采用主成分分析法,通過正交轉換將相關變量轉換為不相關變量,選取方差最大的幾個主成分表示原變量,實現降維。一般提取特征值不低于1 的成分作為主成分,并要求累計方差貢獻率≥70%。
3.因子旋轉
零售電商平臺數據資產風險的因子旋轉的目的是簡化因子載荷陣,明確主因子對應的高載荷變量,對影響零售電商平臺數據資產風險的主因子進行解釋。通常使用最大方差正交旋轉法。
4.計算綜合得分
綜合得分反映了單一樣本在零售電商平臺數據資產風險上的表現情況,通過分析成分矩陣,得出因子成分公式與權重,最終測算出零售電商平臺數據資產風險的綜合得分。
支持向量機(SVM)是一種廣義線性分類器,按照監督學習方式對原始數據進行二次劃分,是一種通用的前饋網絡類型,常應用于分類、回歸等場景。支持向量機回歸(SVR)的原理為采用非線性映射將數據映射到高維數據特征空間,使自變量與因變量具有良好的線性回歸特征,并在高維數據特征空間中實現擬合,再返回到原始空間,具有良好的泛化能力,因而適用于樣本量較小的零售電商平臺數據資產風險的回歸分析,其步驟如下:
1.輸入零售電商平臺數據資產風險的訓練數據集,通過非線性映射將原空間的輸入樣本映射到M維特征空間中,設置線性回歸模型為:

(1)式中,ω 為權向量,b 為閾值。
2.對于給定的零售電商平臺數據資產風險訓練數據集,引入不敏感損失函數,通過在高維空間求解線性回歸問題以解決原空間中的非線性回歸問題,定義不敏感損失函數為:

(2)式中,ε為不敏感系數。
3.為了將零售電商平臺數據資產風險回歸問題轉化為線性約束凸二次優化問題,引入松弛變量,得到:

滿足:

4.引入拉格朗日乘子對零售電商平臺數據資產風險回歸模型優化,將凸二次優化問題轉換為對偶問題,最終得到:

本文選取2017-2021年阿里巴巴、京東、唯品會、拼多多四家零售電商平臺季度數據作為研究對象,相關數據從美國SEC 證監會官方網站和國家統計局網站手工獲取,最終獲得4 家企業的76 個公司-季度觀測值。
考慮到零售電商平臺數據資產風險指標的可得性,本文選取上述指標體系中的虛假宣傳等違規行為的次數、活躍買家的數量、活躍買家數量增長率、研發費用、APP 評分、研發費用增長率、研發費用占總收入百分比、市場占有率、商品交易額增長率、上線時間和APP 下載量11 個維度的數據作為輸入變量,零售電商平臺數據資產的綜合得分作為輸出變量,各風險評價指標和度量方式如表2所示。

表2 零售電商平臺數據資產風險計量指標選取以及度量方式
1.數據標準化
由于指標對數據資產風險影響的方向不同,需要區分正負指標,正向指標越大,數據資產的風險水平表現越好,即風險越小。因此,正向指標為活躍買家的數量、活躍買家數量增長率、研發費用、APP 評分、研發費用增長率、研發費用占總收入百分比、市場占有率、商品交易額增長率、上線時間和APP 下載量,負向指標為虛假宣傳等違規行為的次數。為消除原始數據量綱和數量級的差異,采用min-max 歸一化法對檢驗數據進行線性變換,使其映射到區間[0,1],公式如下:
正向指標標準化:

負向指標標準化:

2.數據檢驗
經計算,標準化后的零售電商平臺風險數據KMO 值為0.660,Bartlett 球形檢驗顯著性P 值為0.000,在1%水平上呈現顯著性,拒絕原假設,各變量間具有相關性,因此主成分分析有效。
3.因子提取
零售電商平臺數據資產風險相關指標的特征根和方差解釋率結果如表3所示,前3 個成分的特征值都大于1,累計方差貢獻率為80.18%,符合累計方差貢獻率要求,因此選取前三個成分來研究零售電商平臺數據資產的風險水平,分別記作F1、F2、F3。

表3 零售電商平臺數據資產風險相關指標總方差解釋表

續表
4.因子旋轉
旋轉后的因子載荷系數如表4所示,在F1中,活躍買家數量、APP 發行時長、虛假宣傳等違規行為次數、研發費用和市場占有率幾個變量發揮的作用顯著;在F2中,APP 下載量、研發費用占收入比重和APP 評分幾個變量發揮的作用顯著;在F3中,活躍買家數量增長率、研發費用增長率和商品交易額增長率幾個變量發揮的作用顯著。

表4 旋轉后因子載荷系數表

續表
5.計算因子得分
因子分析的成份矩陣如表5所示,說明各個成分所包含的因子得分系數(主成分載荷),用于得出主成分公式。

表5 零售電商平臺數據資產風險相關指標成分矩陣表
因此,可以得到主成分F1、F2、F3的公式為:


根據表3旋轉后方差解釋率可以得到綜合得分F的公式為:
F=(0.366/0.802)×F1+(0.273/0.802)×F2+(0.163/0.802)×F3
綜上,可以測算出2017-2021年每季度零售電商平臺數據資產風險綜合得分,其中,零售電商平臺數據資產風險綜合得分最高為阿里巴巴2018年第2 季度得分1.226,綜合得分最低為唯品會2020年第1 季度得分-1.574。采用五等分法將零售電商平臺數據資產劃分為五個風險等級,如表6所示。

表6 零售電商平臺數據資產風險等級劃分表
將零售電商平臺數據資產風險的相關指標作為輸入,將根據因子分析計算得出的零售電商平臺數據資產風險得分作為零售電商平臺數據資產評估模型的預期輸出,基于支持向量機回歸算法,構建零售電商平臺數據資產風險評估的回歸模型。選擇70%的樣本作為訓練數據,30%作為測試數據。
在零售電商平臺數據資產風險評估模型的支持向量機回歸中,本文選取線性核函數(linear),通過網格搜索法在[0.1,100]搜索最優參數,殘差收斂條件為0.001,最大迭代次數為1000,確定C=1。支持向量機訓練集均方誤差MSE 為0.003,R2為0.994,模擬集均方誤差MSE 為0.06,R2達到0.898,因此運用支持向量機回歸預測零售電商平臺數據資產風險具有一定可行性。
本文首先建立了數據采集、數據導入和預處理、數據分析和挖掘、數據應用和數據保護5 個一級指標、20 個二級指標的零售電商平臺數據資產的風險指標評價體系,然后手工搜集四大零售電商平臺2017-2021年數據資產風險各項指標數據,利用探索性因子分析測算零售電商平臺數據資產的風險,然后采用支持向量機回歸算法進行實證檢驗,驗證了探索性因子分析和支持向量機回歸在零售電商平臺數據資產風險評估中的可行性,為評估零售電商平臺數據資產風險提供參考,促進我國零售電商行業的高質量發展。