孫小嵐
摘要:回顧了上市公司產生財務舞弊的原因和識別方法,在此基礎上介紹了現階段常用的大數據挖掘方法以及研究成果,對大數據挖掘的發展前景作了一定的評述。
關鍵詞:上市公司財務舞弊;數據挖掘;神經網路
根據中國《獨立審計具體準則第8號》,財務舞弊被定義為會計報表不實反映公司真正經濟業務的故意行為。財務舞弊由于收益巨大,很多上市公司無視法律,使用編造財務數據,虛增利潤等一系列的財務舞弊手段給投資人帶來了巨大的損失。從銀廣廈的利潤造假到萬福生科的財務造假,各種舞弊手段隱蔽而復雜。目前審計主要依賴人工檢查的方式審核財務報表,由于審計人員的經驗及主觀判斷的不同,對于相同的財務報表審計結果也不同,再加上財務造假手段多樣,涉及會計科目繁多,人力成本受限,使得審計質量不高。在“互聯網+”及大數據背景下,企業可以通過大數據挖掘技術分析公司海量數據和財務舞弊之間的關系,并以此識別公司的財務舞弊行為。
一、上市公司財務舞弊動因理論
Bologna和Lindquist提出了會計領域內的冰山理論,他們認為浮在海平面之上的一部分是能被直接觀察的企業內部管理方面的問題,比如企業目標、組織架構等;位于海平面之下的部分則是財務造假者蓄意掩飾的內容,這部分內容難以被揭示,包括管理層的主觀意愿、個人記錄等。
反舞弊專家Albrecht則提出財務造假三角理論,即產生財務舞弊的誘因有三個,第一是財務舞弊產生的動機,包括不能扭虧為盈公司將終止上市,公司出現財務危機導致融資困難,或者公司現金流面臨枯竭等,這一系列的外因是管理層受到的外在壓力。而融資壓力是我國上市公司面臨的最大問題之一,無論公司是需要上市、增發股票還是銀行貸款,都需要達到財務上的硬性指標。國內的學者在此理論基礎上也提出了財務造假的其他成因,包括為了推進IPO或者增發、防止被ST,和機構聯手進行股價操縱等。第二是由于公司內部控制出現缺漏給管理層提供了舞弊的條件。當管理層實施舞弊受到的處罰很輕,公司內部控制存在缺陷,董事會能夠隱瞞交易等情況存在時,就具備了財務造假的條件。前兩個誘因都滿足的時候,決定舞弊發生與否的要素就只剩管理層的道德標準,如果管理層能夠自我說服,就會導致舞弊行為的產生,比如:“為了員工的生存”,“維護中小股東的權益”,“幫助公司度過難關”等。Albrecht的三角理論提出后,Bologan提出了“四因子理論”,此理論將財務舞弊的動機歸為貪婪和需要;機會是指公司內控機制的不完善帶來的條件以及造假行為被發現面臨的處罰。
二、財務舞弊的識別方法
上市公司財務舞弊的識別分為二個階段,第一階段是案例特征總結,研究者對于上市公司公司財務造假的典型案例進行影響因素分析,研究方法主要是定性研究。Beaver在1966年提出了財務預警的概念,然后Albrecht通過問卷調查的方式檢驗了87個常用的財務指標,并從中篩選出有效識別公司舞弊的指標,構成了“紅旗”指標體系。Persons研究發現舞弊公司普遍具有高財務杠桿,低資本周轉率的特點。國外學者認為公司治理的質量與財務舞弊發生可行性有密切的關系,開始將董事會特征、股權結構等非財務指標引入財務舞弊識別體系中。Loebbecke建立了公司財務造假識別模型L/W用以分析財務造假的行為特征,提出董事會個人的不良信用記錄、違法記錄、業績下滑、控制權寡頭等可以作為識別財務舞弊的信號。在接下來的研究中,Loebbecke和Willingham使用財務舞弊公司樣本,用卡方檢驗的方法對L/W進行測試,研究表明該模型有88%的識別率。Bell隨后用該模型測試了包含正常公司和財務造假公司的樣本,得到了75%的造假識別率。但是這種模型對財務數據和非財務數據的要求苛刻,只適合于能夠接觸到非公開信息的監管機構和審計人員使用。
能夠識別財務舞弊的非財務指標包括董事會結構、管理層數量等。研究結論包括:審計意見類型可以作為替代審計質量的有效指標,非標準審計意見與財務造假顯性相關,提升管理層薪酬和待遇能降低公司財務造假的概率,管理層的獨立性和造假行為呈現顯著相關性,獨立董事占比低,任期短,獨立性差與財務造假呈負面相關關系,公司內部審計不能顯著降低公司財務舞弊的可能性等。
第二階段是用大數據挖掘技術識別財務舞弊。數據挖掘是指從大量無序的數據中找到潛在的商業邏輯,并將結果用可視化的方式向用戶進行展示,它包括了統計學中樣本檢驗的過程,也包含了機器學習和訓練的過程。數據挖掘作為信息提取和模式識別的手段,可以選擇違規案例中的財務和非財務信息構建樣本數據和驗證集數據,然后用樣本數據建立模型,再用驗證集測試精確度。數據挖掘典型方法有以下兩類。
第一是統計類方法,分為單變量分析和多元線性方法。傳統的回歸技術是用統計模型評估應變量和一個或多個自變量之間的關系,主要研究數據系列的趨勢特征及數據間的相關關系。這種方法廣泛用于解釋市場占有率,消費行為偏好、銷售趨勢預測以及開展有針對性的促銷活動等。運用較多的是Logistic回歸模型。相比多元線性,邏輯回歸有更好的適應性,但邏輯回歸也存在變量的多重共線性問題,特別是在財務舞弊的識別領域,由于財務比率之間的勾稽關系,變量相關性高的時候,模型的泛化能力會受到很大影響。
第二類是在“互聯網+”的背景下的大數據挖掘技術的應用。
分類是根據數據的共同特點按照模式將數據劃分為不同類,這個步驟稱為用學習訓練集創建模型,分類模型的學習階段中,每個數據元已經分好類別,有明確的類別標記,通過學習得到目標函數, 再利用分類器將其它給定的具有相似特征的數據項映射到預先定義的類別標記中,用以預測數據對象的離散類別,這種學習過程是屬于監督式的學習。分類技術廣泛地應用在多個領域,比如非財務信息:客戶分類,屬性和特征分析,滿意度分析,購買偏好,趨勢預測等。主要的分類方法有決策樹、KNN、樸素貝葉斯、支持向量機、隨機森林等。在實證研究方面,趙秀云選取了具有財務舞弊特征的18個財務和非財務指標,用決策樹構建模型預測發生舞弊的可能性。這些研究多為單因素識別模型,除了傳統的回歸模型外,隨著數據挖掘技術的發展,結合機器學習以及經典算法的應用,可以使用神經網絡、聚類等更先進的數據挖掘技術構建財務舞弊模型。
分類算法的缺陷在于在大數據環境下,數據源多種多樣,類別個數和種類無法確定,預處理的過程復雜且代價高昂,聚類提供了相應的解決思路。聚類研究的是在沒有訓練樣本的情況下劃分樣本,目的是在目標數據庫類別未知的情況下分類使得變量在同一聚類之間最小化,不同聚類之間最大化。聚類和分類不同的地方在于分類的類別標記是明確的,學習的類別個數已知,而聚類沒有預先定義的類別標記,需要由學習算法自動確認。由于聚類沒有明確的定義, 因此存在多種聚類算法和模型,不確定性導致效果難以評估,不重視訓練集,通常不涉及預測。常用的聚類算法有K-means均值聚類、DBSCAN、Canopy等。聚類的應用范圍包括客戶背景分析、市場精分、定義客戶信用程度等。
1958年,Rosenblatt提出了雙層神經元組成的單層神經網路“感知器”,“感知器”擁有一個計算層負責輸出結果,通過訓練得到權值,是首個可以學習的人工神經網絡。但是它無法解決異或問題,只能做簡單的線性分類任務。“感知器”增加一個計算層變成兩層神經網絡后,Rumelhar和Hinton于1986年提出的BP算法解決了兩層神經網路的復雜計算問題,通過隱藏層對原始數據進行空間變換,使數據從線性不可分變成線性可分,不僅解決異或問題,而且對于非線性可分數據的預測有很高的精確度。
神經網絡的構建首先是選擇公司舞弊樣本,選擇上海和深圳證券交易所以及財政部處罰的違規的公司為樣本,其他的篩選條件包括報表類型為年度報告,對比公司選擇同行業里資產規模相同,同年份,沒有受過監管機構處罰,并剔除被ST過的A股上市公司,剔除金融行業公司。選用的指標分為財務指標和非財務指標,財務指標包括營運能力,償債能力,風險水平等,非財務指標包括股權結構、治理機制、股權集中度、董事會結構、管理層人員數量等。神經網絡的方法對變量之間的多重共線性很敏感,因此對于上述指標進行因子分析簡約變量排除多重共線性影響。然后采用不同的神經網絡技術構建財務舞弊識別模型,用篩選出來的財務舞弊樣本公司作為訓練集,對比公司作為測試集進行檢驗,如果訓練結果和測試樣本的準確率較高,這個模型就可以作為識別工具。
Green和Choi于1997年采用隨機樣本基于神經網路構建了財務舞弊識別模型,隨后,國內外學者開始使用不同的挖掘技術進行研究比較。國內研究者張秋三,張磊使用148家上市公司,從盈利能力、償債能力、成長能力、營運能力、資本結構幾個方面篩選出16個財務指標,再結合非財務指標提取的主因子作為輸入變量,是否舞弊作為輸出變量,用IBM SPSS Modeler構建基于神經網絡的財務舞弊識別模型,該模型能夠達到70%的正確率。顧寧生選用33個測試樣本,其中22個用作訓練集,11個用于測試集,用神經網絡的識別率能達到86.7%。Kirkos的研究認為應用BP神經網絡對于財務報告真假的預測精度能夠達到90.3%,高于決策樹的73.6%,Alden發現遺傳算法相對于Logistic回歸模型對財務舞弊有更優異的識別能力,Chi-chen Lin的研究根據129個舞弊樣本和447個非舞弊樣本比較不同模型識別有效性,認為相比于Logistic模型和決策樹,人工神經網絡識別效果更優。
三、未來展望
將神經網絡用于財務舞弊的識別也有不足之處。首先,樣本選取的差異性導致模型的實用性得不到保證。研究者無法保證選出的測試樣本沒有財務舞弊的行為產生,它可能參與財務舞弊,只是還未被發現。另外模型的輸入數據都是采用已發布的財務報表上的數據,因此會受到人為因素的影響。其次,不同的研究者對于自變量和因變量的選擇邏輯不一,因變量選擇0和1衡量公司是否財務造假,無法衡量財務造假的程度。
近年來,隨著文本挖掘方法的興起,文本挖掘技術也逐漸應用到財務舞弊識別過程中,比如研究財務報表中的表達情緒來區分有舞弊行為的財務報告和真實的財務報告等。隨著管理會計信息化體系的完善與推進,未來的大數據挖掘技術將結合文本挖掘,從財務報表、公司公告、自媒體等方面發現更多的財務造假特征。