韓麗娜, 石昊蘇(.咸陽師范學院 圖形圖像研究所,咸陽 7000; .西北政法大學 商學院,西安 70063)
貝葉斯分類模型應用于企業運營風險預測
韓麗娜1, 石昊蘇2
(1.咸陽師范學院 圖形圖像研究所,咸陽 712000; 2.西北政法大學 商學院,西安 710063)
針對影響企業運營因素多,無法提前預知結果、風險大等問題,采用貝葉斯分類方法,通過選取企業的4個指標作為屬性條件,以企業運營狀況(破產或良好)作為目標,對40個訓練樣本進行貝葉斯分類模型學習訓練;然后對4個測試樣本以及訓練樣本進行了預測實驗,誤判率為10%,精確度較高,測試樣本也進行了歸類。因此應用貝葉斯分類模型能夠較好預測企業運營狀況,減少運營風險,為盡早預防改善企業的運營管理提供參考。
貝葉斯分類模型; 風險預測; 企業運營狀況
Abstract: For the risk of no prediction in advance and many influential factors about enterprise status, Bayesian classification method is selected to predict the risk. By selecting 4 index factors as the property of the enterprise, taking the enterprise operation status (bankruptcy or good) as the target, 40 training samples were input into Bayesian classification model for training. Then the experimental error rate is 10% in the testing of 40 training samples and 4 other samples. Therefore, the Bayesian classification model could forecast the enterprise status in order to reduce operational risk, and provide a reference of early prevention and improvement of the management.
Keywords: Bayes classification model; Risk prediction; Enterprise operation status
企業的競爭非常激烈,企業運營風險較大,而且影響企業運營狀況的因素又很多,如果能借助某種方法建立一套企業狀況的預測趨勢模型,通過該模型,企業能夠及時發現財務管理中存在的問題,及早察覺財務異常的信號,能夠在財務狀況異常出現的萌芽狀態采取有效措施,改善管理,預防失敗,是非常重要的。為了能夠判斷財務狀況出現異常的公司未來最有可能出現的運營風險(破產或良好),本文分別選取了20家發生財務危機的破產企業和20家保持穩定發展的企業作為研究訓練樣本,通過分析提取不同組別的樣本公司的4個財務指標屬性,構建貝葉斯分類預測模型,然后對4家未知企業進行企業狀況的預測。
1.1 貝葉斯定理
貝葉斯方法是一種概率統計方法,它計算每一個樣本屬于每一類的概率,然后將樣本劃分為具有最大概率的那一類中。即已知樣本x的條件下,計算其屬于某一類的概率[1]。
1.2 貝葉斯公式中的相關概率
先驗概率P(cj):表示訓練樣本數據前cj(類別)擁有的初始概率。P(cj)常被稱為cj的先驗概率(prior probability) ,它反映cj正確分類時的經驗知識,是根據歷史的資料或主觀判斷所確定的各種事件發生的概率,它是獨立于樣本的,樣本的類別總數用|C|表示[2,3]。如果沒有這一先驗知識,可以將每一候選類別賦予相同的先驗概率。但通常采用用樣例中屬于cj的樣例數|cj|與總樣例數|D|的比值來近似表示。如式(1)。

(1)
類條件概率(似然概率):P(X|cj):指當已知類別為cj的條件下,出現所考察樣本X的概率,若設X=
P(X|cj)=P(a1,a2,…,am|cj),j∈(1,|C|)
(2)
后驗概率P(cj|X):指當給定數據樣本X,屬于cj類的概率。P(cj|X)被稱為cj的后驗概率(posterior probability),它反映先看到數據樣本X后cj成立的置信度。使用貝葉斯公式計算后驗概率,如式(3)。
貝葉斯公式:

(3)
由于P(X)對所有類都是相同的,因此在實際的應用中我們只需計算貝葉斯公式分子部分,求取最大值,如式(4)所示,然后就把X分到最大值對應的類ccap中,如式(4)。
P(ccap|X)=max(P(X|cj)P(cj))
(4)
1.3 樸素貝葉斯分類器
由于計算式(2)相當困難,所以采用樸素貝葉斯分類器假設,即在給定樣本的目標值時屬性之間的相互獨立,即式(2)求取的類條件概率就是每個單獨屬性對應的概率的乘積 ,如式(5)。
P(X|cj)=P(a1,a2,…,am|cj)=
(5)
因此,對于樸素貝葉斯學習方法就是從訓練樣本中估計不同的P(cj)和P(ai|cj),針對新的待分樣本實例,采用公式(4)、(5)進行計算給出分類結果。
如果屬性為分類屬性,則P(ai|cj)=|sik|/|si|,其中|sik|是D中屬性ak的值為xk的ci類的樣本個數,|si|是D中屬于ci類的樣本個數[4]。
如果屬性為連續屬性,樸素貝葉斯分類方法使用兩種方法估計連續屬性的類條件概率。一種方法是把每個連續的屬性離散化,然后用相應的離散區間替換連續屬性值。另一種方法是可以假設連續變量服從某種概率分布,使用訓練樣本估計分布的參數,一般采用正態分布來表示類條件概率分布[5],如式(6)。

(6)

1.4 應用貝葉斯分類預測企業運營風險
1.4.1 數據準備
本次收集數據為:20個破產企業在破產前兩年的年度財務數據和同時期20個財務良好的企業年度數據,數據涉及4個變量。因此訓練樣本為40個數據,分為2組,1組為破產企業,2組為良好企業;包含4個屬性x1表示現金流量/總資產,x2表示凈收入/總資產,x3表示流動資產/流動債務,x4表示流動資產/凈銷售額,采用貝葉斯分類對40個數據進行挖掘分析,針對4個企業的年度財務數據,預測該企業的運營狀況[4]。部分企業年度財務數據,如表1所示。
1.4.2 貝葉斯分類預測應用步驟
第一步:讀取數據,整理樣本數據并歸一化,得到歸一化后的1組數據20項,2組數據20項;待測數據4項。
第二步:求出各組數據的均值和方差,根據公式(6),構造兩類數據的正態分布函數g(x1)和g(x2);

表1 部分企業年度財務數據
第三步:將任意一行待測數據代入兩組正態分布函數中,分別求出結果P1(Xi)和P2(Xi)。
第四步:根據公式(4)比較P1(Xi)和P2(Xi)的大小,將Xi分到最大值對應的組別中。
1.4.3 貝葉斯分類預測結果分析
基于40個訓練樣本,采用貝葉斯分類思想對未知的4家企業數據進行預測,結果是41和43號企業判歸為1組,他們為破產企業,42和44號企業判歸為2組,他們為非破產企業。為了計算機該貝葉斯分類模型的誤判率,將40個訓練樣本采用此方法進行分類,結果如圖1所示。
其中空心圓圈表示1組的20個數據,帶實心的圈表示2組的20個數據,縱坐標表示分類組別。我們發現1組有3個數據發生了誤判,分別為第13、15、16號數據被盼歸到2組,而2組有13號數據發生了誤判,被判歸到1組,因此1組的誤判概率估計值為:3/20=0.15,2組的誤判概率估計值

(a) 應用模型1組樣本分類結果

(b) 應用模型2組樣本分類結果
為:1/20=0.05。設兩組的先驗概率為0.5,則此貝葉斯分類模型的誤判概率為:=0.5*0.15+0.5*0.05=0.1=10%,基本上滿足分類預測的準確度。
文章論述了貝葉斯分類的基本理論,然后采用貝葉斯方法對企業狀況預測問題進行研究。首先選取訓練樣本,采用貝葉斯方法建立分類模型進行訓練,然后將待測數據帶入分類模型并求出結果。通過訓練樣本對該模型進行測試評估,準確率達90%。不足之處該模型中樣本數據較少,考慮影響企業狀況的因素不夠全面,還需要進一步改進。
[1] 郭艷軍.貝葉斯網學習方法及應用研究[D].武漢:華中科技大學,2009.
[2] 邊平勇,石永奎,張序萍.基于貝葉斯分類器的煤與瓦斯突出強度預測研究[J].佳木斯大學學報,2013,31(6):890-894.
[3] 李愛國,厙向陽.數據挖掘原理、算法及應用[M].西安:西安電子科技大學出社,2012:69-72.
[4] 謝中華.MATLAB統計分析與應用[M].北京:北京航空航天大學出版社,2010,6.
[5] 李堯.基于貝葉斯網絡的上市公司財務狀況異常變動趨勢研究[D].沈陽:沈陽工業大學,2006.
TheApplicationofBayesClassificationModelinEnterpriseOperationRiskPrediction
Han Lina1, Shi Haosu2
(1. Institute of Graphics and Image Processing, Xianyang Normal University, Xianyang 712000, China;2. School of Business, Northwest University of Political Science and Law, Xi’an 710063, China)
TP399
A
2017.05.30)
陜西省教育廳科研計劃項目(15JK1776),陜西省計算機教育學會2016教學改革項目(013),咸陽師范學院校級項目(15XSYK047),咸陽師范學院“青藍”人才工程項目(XSYQL201608)
韓麗娜(1976-),女,陜西富平縣人,教授,博士,CCF會員,研究方向:數據挖掘,圖像處理。 石昊蘇(1976-),男,陜西咸陽人,碩士,副教授,研究方向:物證圖像處理,信息管理。
1007-757X(2017)09-0009-02