吳永影,黃思源
(1.福建農業職業技術學院,福建 福州 350007;2.北京市朝陽區職工大學,北京 朝陽 100020)
在商品流通業和制造業中銷售收入屬于主要收入,是一種重要指標,可以衡量企業經營的業績,同時也屬于重要信息,影響會計信息使用者的計算結果[1]。收入計量和確認在企業商業模式不斷創新的背景下逐漸變的復雜,尤其是存在可變對價時,收入核算的復雜度越來越高[2],因此需要分析并研究收入核算模型構建方法。
霸建民等人分析數據流中存在的ρ-支配關系,根據分析結果擴展并更新ρ-支配輪廓查詢算法,利用改進后的算法實現收入核算[3],該方法無法填補缺失的數據,核算所用的時間較長,存在核算效率低的問題。趙玉在核密度估計方法的基礎上獲得價格波動與產量波動的邊緣分布,采用半參數Copula方法根據邊緣分布結果獲得價格波動與產量波動之間的聯合分布函數,利用聯合分布函數完成收入核算[4],該方法在可變對價條件下的核算錯誤數較高,存在核算精度低的問題。楊煥云對各類存在可變對價銷售收入的業務進行了探究,分析了新收入準則在這類銷售收入確認和計量方面的規定,并通過案例說明了其具體會計核算[5]。但是,該方法忽略了對計量數據的去噪處理,導致獲取的核算結果出現偏差。
為了進一步提高效率,降低核算錯誤概率,提出基于大數據分析的存在可變對價的收入核算新模型構建方法。為了增強方法的應用準確度和可靠性,首先填補缺失的數據。為優化數據處理精度,避免數據噪聲干擾,引入多層神經網絡,輸入完整的數據,數據的降噪處理。應用Alpha計算框架,建立收入核算新模型。
基于大數據分析的存在可變對價的收入核算新模型構建方法采用集成學習方法中的隨機森林算法填補缺失數據[5-6]。隨機森林算法具有較多優點,包括擬合能力強、可以避免過擬合現象,同時數據與變量之間的耦合敏感性較差。隨機深林算法中的隨機森林回歸模型屬于組合模型,由棵回歸樹組成。
1.回歸樹在算法中的主要作用是劃分輸入的數據集F,并將其存儲到葉子節點中,用u表示模型的預測值u,其實質為z棵回歸樹葉子節點的平均結果。采用隨機森林算法構建隨機森林回歸模型填補缺失數據的具體流程如下[7-8]:
(1)選取根節點在第v棵回歸樹中的訓練樣本,有放回的隨機在訓練矩陣F中選取樣本矩陣F,訓練樣本F和樣本矩陣Fz均為md×nd維的矩陣,其大小不存在差異,其中md表示數據樣本在單一變量中的數量,nd表示變量數據量,訓練矩陣F和樣本矩陣Fz的表達式分別如下:
(1)
Ccut=[c1,c2,…,ce]
(2)
式中,ckf為切割點矩陣Ccut中存在的元素,通過下式獲取切割點矩陣Ccut的最優切割V(ckf):
(3)
式中,Tleft(k,f)表示左子樹集合;W1代表的是樣本在左子樹集合中的數量;Tright(k,f)表示右子樹集合;W2代表的是樣本在右子樹集合中的數量;其中兩個任意的樣本切割參數v1、v2可通過下述公式計算得到:
(4)
(2)通過公式(4)可獲得最優參數。當Fz(g,f)小于最優參數時,則劃分矩陣Fz中存在的第g行變量,將其存儲到左子樹節點中,當Fz(g,f)大于等于最優參數時,劃分矩陣Fz中存在的第g行變量,將其存儲到右子樹節點中。完成劃分后,分別在左子樹節點和右子樹節點中構建矩陣Fleft和Fright。
(3)針對上述步驟構建的矩陣Fleft和Fright,記錄其所處節點的樣本大小d和路徑長度jd,設定閾值,對比閾值與路徑長度的大小,根據對比結果決定節點是否做分支生長操作。
(4)重復上述過程,構建隨機森林回歸模型:
(5)

2.為了在可變對價條件下補償缺失數據,改進隨機森林算法,首先線性差值處理不存在異常數據的C;在矩陣變換的基礎上構建填充矩陣,該矩陣中存在目標補償變量;通過隨機森林回歸預測填充矩陣,根據集成思想獲得補償值,完成缺失數據的補償,具體步驟如下:
(1)針對F中存在的缺失值,采用線性差值方法對其做插值處理,構建矩陣T:
(6)
獲得的矩陣T為m×n維的矩陣,與矩陣F的大小相同。
(2)目標填充列選取矩陣F的第i列,相關變形列為剩余的n-1列,構建填充矩陣Tfill,其表達式如下:
(7)
(3)有放回的隨機在矩陣F中選取訓練矩陣Fzv,構建隨機森林回歸模型。
(4)將輸入設為填充矩陣Tfill中存在的相關變量,針對第i列中存在的缺失值采用目標填充列填充,獲得預測值u(t),其中t=1,2,…,tb。
(5)當t (8) (6)當i 基于大數據分析的存在可變對價的收入核算新模型構建方法將大數據輸入多層神經網絡中[9-10],實現數據的降噪處理,多層神經網絡的輸出層不參加計算,其主要目的是接收數據,按照權重將接收的數據傳輸到隱層中,通過非線性激活函數隱層完成數據的處理,并將處理結果傳輸到多層神經網絡的輸出層中,輸出數據的降噪結果,設置Sigmoid激活函數d,多層神經網絡的三層感知機可通過下式描述: f(x)=E2d(n1+E1x)+n2 (9) 式中,E1、E2均代表的是權重矩陣;n1、n2均代表的是偏置矩陣。 設x代表的是存在噪聲的大數據,其表達式如下: x=m+y (10) 式中,m表示噪聲;y表示去噪后的大數據。 在多層感知機的基礎上獲得去噪數據y與含噪數據x之間存在的關系: y=J(x;?) (11) 式中,集合?由多層神經網絡參數構成;J表示多層感知機的網絡結構。 大數據的去噪可以通過映射完成[11-12],在較少噪聲的數據中映射含噪數據,因此需要建立多層神經網絡結構模型,實現數據的映射處理。 采用大數據調節多層神經網絡中存在的參數,實現網絡訓練。當未受到噪聲干擾的數據與多層神經網絡輸出之間的差值超過一定值后,完成網絡的訓練。通常需要多次循環完成網絡訓練,訓練過程包括以下兩個階段: 1.前向傳播 第j個神經元在隱層中接收的輸入為βj,可通過下式計算得到: (12) 式中,xk表示在輸入層的第k個神經元中輸入數據的分量,ekj代表的是隱層神經元與輸入層神經元之間存在的權重;隱層利用Sigmoid激活函數處理數據[13],并向輸出層傳遞處理結果,用i表示第i個神經元在輸出層中收到的輸入: (13) 式中,bji為神經元在輸出層與隱層之間的連接權重。 m個神經元在輸出層中的輸出χi即為多層神經網絡的輸出: y′=[1,2,…,m]T (14) 2.反向傳播 利用誤差更新輸出層在多層神經網絡中的權重,隱層通常情況下沒有誤差,因此無法通過梯度下降方式調整隱層中存在的參數,需要利用鏈式法則將誤差反向傳播到多層神經網絡的隱層中,再利用梯度下降方法更新權重。 設R代表的是均方誤差,其表達式如下: (15) 根據網絡的負梯度方向,在梯度下降法的基礎上誤差逆傳播算法通過下式調整權重: (16) 式中,0 Alpha計算框架是在RSO數據塊基礎上構成的數據分析與處理框架。分析并處理輸入框架的大數據F,用RSP數據塊F1,F2,…,Fk表示輸入框架的大數據[14],分析并處理RSP數據塊Fk可以得到大數據F的統計量k的估計值,其中k∈{1,2,…,K},大數據F的統計量值即為k估計值對應的期望值。通過上述分析可知,k是的近似值,但兩者之間存在一定的誤差。通過若干個RSP數據塊計算的估計值時,RSP數據塊與估計誤差之間呈反比關系。 (17) 式中,A代表的是數據塊的數量;ε表示閾值,為正數;K表示RSP數據塊的數量。 基于大數據分析的存在可變對價的收入核算新模型構建方法構建的收入核算新模型如圖1所示。 為了驗證基于大數據分析的存在可變對價的收入核算新模型構建方法的整體有效性,需要做如下測試。 圖1 收入核算新模型 為了保證實驗的真實性,本次測試選取真實數據集DBLP數據集中存在的屬性分別為journa or url、author and co-author、title的數據。分別采用基于大數據分析的存在可變對價的收入核算新模型構建方法、文獻[3]方法和文獻[4]方法核算上述屬性數據,對比不同方法的計算所需的時間:采用所提方法核算不同屬性數據時,計算所需的時間均在150s以內,文獻[3]方法和文獻[4]方法計算所需的時間在300s~400s之間,表明所提方法具有較高的核算效率。方法核算84·采用所提方法、文獻[3]方法和文獻[4]方法核算journaorurl、authorand co-author、title屬性數據,對比三種方法核算錯誤的數量:采用所提方法核算數據時,核算錯誤的結果控制在100條以內;采用文獻[3]方法核算數據時,核算錯誤的結果高達500條;采用文獻[4]方法核算數據時,核算錯誤的結果高達800條。所提方法的錯誤數最低,因為所提方法為了在可變對價條件下提高核算的準確率,改進了隨機森林算法,采用改進后的隨機森林算法填補缺失的數據,提高了核算結果的精度,降低了核算錯誤數。 大部分合同的對價在企業簽訂過程中是固定的,確認收入和計量收入的復雜度都較低,但存在一些可變對價的合同約定,為了提高收入核算的精度,需要研究收入核算新模型。目前核算收入模型存在核算效率低和核算錯誤數高的問題。提出基于大數據分析的存在可變對價的收入核算新模型構建方法,該方法在Alpha計算框架的基礎上構建了收入核算新模型,解決了目前方法中存在的問題,經實驗驗證,該模型適用于可變對價條件下的收入核算。(二)數據降噪
三、基于Alpha計算框架的收入核算新模型

四、實驗與分析

五、結語