[摘 要] 企業(yè)在信息化管理條件下 ,會產(chǎn)生各種信息,其中財務(wù)信息是反映企業(yè)經(jīng)營狀況的重要信息。對于海量財務(wù)信息,如何進行分析和決策是企業(yè)管理人員面臨的主要問題。本文通過對數(shù)據(jù)挖掘技術(shù)的研究,闡述數(shù)據(jù)挖掘技術(shù)在財務(wù)分析中的應(yīng)用,將對企業(yè)決策提供幫助。
[關(guān)鍵詞] 財務(wù)分析;數(shù)據(jù)挖掘;財務(wù)信息
[中圖分類號]F275;F270.7[文獻標(biāo)識碼]A[文章編號]1673-0194(2008)09-0058-04
面對日趨激烈的全球競爭,企業(yè)正在借助信息化提高管理和決策水平。目前,以會計信息化為代表的企業(yè)管理信息化為企業(yè)管理和決策積累了大量的信息。隨著海量信息的涌現(xiàn),目前會計信息系統(tǒng)的分析功能將更顯薄弱。豐富的信息的確可以為企業(yè)的利益各方做出決策提供方便,但同時也帶來很多問題,比如大量信息難以全部掌握,等于信息丟失;信息過多,導(dǎo)致真?zhèn)坞y辨,容易造成誤導(dǎo)。面對大量的信息,如果不采用相應(yīng)的技術(shù)手段,就不能發(fā)現(xiàn)隱藏在信息背后的知識,不能分析數(shù)據(jù)中存在的關(guān)系和規(guī)則,也不能根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的走勢,從而無法給出正確的輔助決策的信息。如何從會計信息系統(tǒng)等信息資源中挖掘出潛在的知識,為管理和決策服務(wù),是企業(yè)迫切需要解決的問題。數(shù)據(jù)挖掘正是解決這一問題的有效方法。
一、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(data mining),又稱數(shù)據(jù)采掘,是指從大量的數(shù)據(jù)中挖掘出有用的信息,即從大量的、不完全的、有噪聲的、隨機的實際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的,但又是潛在有用的,并且最終可以理解的信息和知識的過程。筆者在《基于財務(wù)數(shù)據(jù)分析的數(shù)據(jù)倉庫模型》一文中闡述了采用數(shù)據(jù)庫技術(shù)實現(xiàn)對海量數(shù)據(jù)的存儲方式——數(shù)據(jù)倉庫。數(shù)據(jù)挖掘可以自動在數(shù)據(jù)倉庫中尋找預(yù)測性信息,它是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,使用這些模型和關(guān)系可以進行預(yù)測,以幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素,從而被認為是解決當(dāng)今時代所面臨的數(shù)據(jù)爆炸而信息貧乏問題的一種有效方法。數(shù)據(jù)挖掘的主要技術(shù)有:
1. 關(guān)聯(lián)分析
若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項目的相關(guān)性,如“90%的顧客在一次購買活動中購買商品A的同時購買商品B”之類的知識。關(guān)聯(lián)分析的目的就是利用關(guān)聯(lián)規(guī)則找出數(shù)據(jù)庫中潛在的關(guān)聯(lián)關(guān)系,以幫助人們作出正確的決策。一般用置信度和支持度兩個參數(shù)來度量挖掘出來的關(guān)聯(lián)規(guī)則是否符合要求。置信度表示關(guān)聯(lián)規(guī)則的強度,支持度表示事務(wù)在規(guī)則中出現(xiàn)的頻率。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步:第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設(shè)定的最低值;第二步是從頻繁項目集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)則。
2. 聚 類
聚類就是把整個數(shù)據(jù)分成不同的組,這種分組基于如下的原理:組與組之間數(shù)據(jù)的差異盡可能大,組內(nèi)數(shù)據(jù)的差異盡可能小。聚類分析處理的數(shù)據(jù)對象的類是未知的。聚類分析就是通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個記錄所在的類別。其基本方法是定義樣本間及類與類間的距離,為了準(zhǔn)確地對樣本進行聚類,聚類前樣本的原始數(shù)據(jù)要進行標(biāo)準(zhǔn)化。
3. 分類和預(yù)測
對離散數(shù)據(jù)的分類稱為分類,對數(shù)值數(shù)據(jù)的分類稱為預(yù)測。分類就是通過分析訓(xùn)練集中的數(shù)據(jù),為每個類別做出準(zhǔn)確描述,或建立分析模型,或挖掘出分類規(guī)則,并用這個分類規(guī)則對其他數(shù)據(jù)對象進行分類。常用的分類方法有決策樹和貝葉斯分類。預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,通過建立模型,對未來數(shù)據(jù)的種類、特征及發(fā)展趨勢進行預(yù)測。
4. 發(fā)現(xiàn)序列模式
序列模式尋找的是事件之間在順序上的相關(guān)性。時間序列分析是用變量過去的值來預(yù)測未來的值。序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識。序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進行序列模式分析時,同樣也需要由用戶輸入最小置信度和最小支持度。
二、數(shù)據(jù)挖掘技術(shù)在財務(wù)決策中應(yīng)用的必要性
一個財務(wù)決策的正確程度取決于所使用的事實和數(shù)據(jù)的正確程度。隨著競爭的增加,財務(wù)決策的時效性也變得越來越重要。因此,在財務(wù)決策領(lǐng)域應(yīng)用數(shù)據(jù)挖掘技術(shù)是企業(yè)現(xiàn)實的需要。
1. 有利于提高財務(wù)信息的利用能力
解決企業(yè)財務(wù)決策問題需要以詢問為中心的數(shù)據(jù)圖解,其以序列導(dǎo)向和多維為特征。而傳統(tǒng)的財務(wù)數(shù)據(jù)查詢是一種事務(wù)處理(OLAP),它是面向應(yīng)用、支持日常操作的,對查詢得到的數(shù)據(jù)信息缺乏分析能力,決策者不能在大量歷史數(shù)據(jù)的支持下對某一主題的相關(guān)數(shù)據(jù)進行多角度的比較、分析,得出科學(xué)的分析結(jié)果。因此,財務(wù)決策問題自身的多維特性驅(qū)動了數(shù)據(jù)挖掘技術(shù)在財務(wù)決策領(lǐng)域的應(yīng)用,以提高對財務(wù)信息的利用能力。
2. 有利于解決財務(wù)信息的噪聲問題
由于網(wǎng)絡(luò)技術(shù)的發(fā)展,企業(yè)可以通過Intranet、Internet方便地獲取企業(yè)內(nèi)部、關(guān)聯(lián)方及外部各種資料。現(xiàn)今的問題已不是信息缺乏,而是信息過量,難以消化,且信息真假難辨,可靠性難以保證。所以,對企業(yè)來說,這時就需要高效的數(shù)據(jù)分析工具——數(shù)據(jù)挖掘,在海量的信息中分辨、析取、整理、挖掘?qū)ω攧?wù)決策有用的信息,減少信息噪聲的影響。
3. 有利于滿足財務(wù)信息析取智能化的需求
由于決策本身的動態(tài)性、復(fù)雜性以及決策者本身素質(zhì)層次的多樣性,不同的情況應(yīng)有不同的處理方式。傳統(tǒng)的數(shù)據(jù)析取是依靠程序設(shè)計人員在系統(tǒng)開發(fā)過程中設(shè)計的專用程序來實現(xiàn),非常機械化。隨著數(shù)據(jù)量的增大和查詢的復(fù)雜化,這種方式越來越不可取,決策者希望信息的析取過程能夠智能化。數(shù)據(jù)挖掘能夠利用現(xiàn)有的數(shù)據(jù)來獲取新的有用信息,支持查詢、存儲的優(yōu)化,使信息的析取具有較強的自我學(xué)習(xí)功能,滿足財務(wù)信息析取智能化的需求。
三、數(shù)據(jù)挖掘技術(shù)在財務(wù)分析中的應(yīng)用
財務(wù)分析是以財務(wù)報表和其他數(shù)據(jù)為依據(jù),采用專門方法,系統(tǒng)分析和評價企業(yè)過去和現(xiàn)在的經(jīng)營成果和財務(wù)狀況及其變動情況。其目的是了解過去、評價現(xiàn)在、預(yù)測未來,幫助企業(yè)決策者改善決策。財務(wù)分析常用的方法主要包括比較分析、結(jié)構(gòu)分析、因素分析、比率分析等。從財務(wù)管理角度來看,數(shù)據(jù)挖掘是一種新的財務(wù)信息處理技術(shù),其主要特點是能對會計數(shù)據(jù)倉庫、其他業(yè)務(wù)數(shù)據(jù)庫中的大量數(shù)據(jù)進行綜合處理,通過抽取、轉(zhuǎn)換、分析及其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)進行財務(wù)分析的基本過程如下:
1. 確定財務(wù)分析對象
定義財務(wù)分析的對象,根據(jù)財務(wù)分析的目的選擇合適的分析模型,采用相應(yīng)的數(shù)據(jù)挖掘方法。
2. 數(shù)據(jù)收集
數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟,數(shù)據(jù)可以來自于現(xiàn)有的會計信息系統(tǒng),也可以從數(shù)據(jù)倉庫中得到,還可以是其他業(yè)務(wù)系統(tǒng),如ERP等中的數(shù)據(jù)。
3. 數(shù)據(jù)篩選
數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的“噪聲”,因此對數(shù)據(jù)的整理是必須的。同時通過數(shù)據(jù)篩選整理,可以對數(shù)據(jù)作簡單的泛化處理,從而在原始數(shù)據(jù)的基礎(chǔ)之上得到更為豐富的數(shù)據(jù)信息,以便于下一步數(shù)據(jù)挖掘的順利進行。
4. 數(shù)據(jù)挖掘
對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘。除了完善選擇合適的挖掘算法外,其余一切工作都能自動地完成。
5. 結(jié)果分析
數(shù)據(jù)挖掘的結(jié)果有些是有實際意義的,而有些是沒有實際意義的,或是與實際情況相違背的,這就需要進行評估。評估可以根據(jù)用戶多年的經(jīng)驗,也可以直接用實際數(shù)據(jù)來驗證模型的正確性,進而調(diào)整挖掘模型,再次進行挖掘。
下面以企業(yè)資產(chǎn)負債表為例,討論數(shù)據(jù)挖掘技術(shù)在報表分析中的應(yīng)用。首先建立分析模型框架:結(jié)合OLAP的切片、切塊功能對數(shù)據(jù)進行篩選,運用財務(wù)分析中的比率或比值分析方法處理數(shù)據(jù),建立更有實際分析意義的資產(chǎn)結(jié)構(gòu)值表。在此基礎(chǔ)上,利用數(shù)據(jù)挖掘的聚類、關(guān)聯(lián)規(guī)則,決策樹等方法,層層深入來分析某行業(yè)內(nèi)企業(yè)的財務(wù)狀況,得到一些有意義的結(jié)論。模型框架見圖1。
1. 數(shù)據(jù)收集和篩選
以上市股份公司公開披露的2007年三季度報表數(shù)據(jù)為基礎(chǔ),選擇機械類公司的資產(chǎn)負債表數(shù)據(jù),共72家。將上述數(shù)據(jù)導(dǎo)入SQL Server 數(shù)據(jù)庫,利用其OLAP工具Analysis Service建立時間、企業(yè)、指標(biāo)三維立方體,建立這個切片來分析機械行業(yè)的基本狀況。為了方便說明財務(wù)分析模型,本文將部分篩選數(shù)據(jù)作為示例,見表1。
2. 數(shù)據(jù)處理
對表1進行簡單的統(tǒng)計可知,每個指標(biāo)的數(shù)據(jù)相差較多,如果用這樣的原數(shù)據(jù)進行財務(wù)分析,并不具有可比性。因此本文用財務(wù)分析中的比率分析方法作為標(biāo)準(zhǔn)化方法進行數(shù)據(jù)整理,形成的基本數(shù)據(jù)指標(biāo)即資產(chǎn)結(jié)構(gòu)值表,見表2。使用比率分析法的好處是可以消除規(guī)模的影響,用來比較不同企業(yè)的收益與風(fēng)險。
3. 利用數(shù)據(jù)挖掘技術(shù)對財務(wù)數(shù)據(jù)進行分析
對上述數(shù)據(jù),本文利用聚類、關(guān)聯(lián)規(guī)則、決策樹等聯(lián)合模式進行分析。
(1) 聚類分析。聚類分析是依據(jù)樣本之間關(guān)聯(lián)的度量標(biāo)準(zhǔn)將其分成幾個組,且使同一群組內(nèi)的樣本差異小,而使不同群組的樣本之間差異較大的一種方法。利用上述方法可以將企業(yè)按每股收益分為好、較好、一般、較差、差等5類。最終分類結(jié)果是:好的企業(yè)8家,較好的企業(yè)13家,一般的企業(yè)30家,較差的企業(yè)7家,差的企業(yè)14家。
(2) 關(guān)聯(lián)分析。經(jīng)過聚類分析后,本文把企業(yè)按財務(wù)狀況分成5類,接下來利用關(guān)聯(lián)分析,找到影響企業(yè)財務(wù)狀況的各種因素。選擇每股收益好和較好的21家公司為目標(biāo)進行關(guān)聯(lián)分析,最后得到強關(guān)聯(lián)規(guī)則,見表3。從中可以看出,對公司的財務(wù)狀況有明顯影響的因素有資產(chǎn)負債率、速動比率、總資產(chǎn)周轉(zhuǎn)率、銷售毛利率、凈資產(chǎn)收益率等。
(3) 決策樹。根據(jù)上述強關(guān)聯(lián)規(guī)則中的指標(biāo)建立決策樹模型,算法主要用增益標(biāo)準(zhǔn)來選擇需要檢驗的屬性,它是基于信息論中熵的概念。定義熵來描述信息增益比,計算各個屬性的信息增益的大小,具有最高信息增益的屬性就是具有最高區(qū)分度的屬性。通過信息增益計算公式分別計算各屬性的信息增益值,并進行比較,把信息增益最大的屬性作為首選的分類節(jié)點,次之的作為下一個分類節(jié)點,這樣依次分類下去就形成了決策樹。通過決策樹分析結(jié)果,可以發(fā)現(xiàn)符合強關(guān)聯(lián)規(guī)則的企業(yè),財務(wù)狀況好的概率較高。財務(wù)預(yù)測是企業(yè)財務(wù)管理的重要環(huán)節(jié),是經(jīng)濟預(yù)測原理和方法在財務(wù)管理中的具體運用。財務(wù)預(yù)測是一個涉及自身財務(wù)活動和外部財務(wù)環(huán)境各個方面的復(fù)雜動態(tài)過程,其中包含著很多不受管理人員控制的和狀態(tài)不確定的因素的影響,有主觀方面的也有客觀方面的,有企業(yè)內(nèi)部的也有企業(yè)外部的。單純利用傳統(tǒng)的模型和方法很難做出準(zhǔn)確的判斷。而數(shù)據(jù)挖掘正是解決這一難題的有效方法,它可以從大量的、不完全的、模糊的數(shù)據(jù)中,提取隱含在其中的、潛在有用的知識,會計信息化的普及為這種新技術(shù)的應(yīng)用奠定了基礎(chǔ)。利用數(shù)據(jù)挖掘技術(shù)有助于對企業(yè)的財務(wù)狀況進行預(yù)測和分析。

四、結(jié)束語
隨著數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,會計信息系統(tǒng)也在逐步完善,人們獲取數(shù)據(jù)的能力越來越強,并將海量的數(shù)據(jù)儲存在數(shù)據(jù)庫和數(shù)據(jù)倉庫中。目前的會計信息系統(tǒng)可以高效地實現(xiàn)財務(wù)數(shù)據(jù)的錄入、修改、統(tǒng)計、查詢以及簡單的財務(wù)分析等功能,但是無法發(fā)現(xiàn)數(shù)據(jù)中存在的潛在關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段。本文提出將數(shù)據(jù)挖掘技術(shù)應(yīng)用于財務(wù)數(shù)據(jù)分析,增強財務(wù)分析功能,將海量的數(shù)據(jù)轉(zhuǎn)化為有用的知識,為決策者提供有效的信息,有助于決策者作出相應(yīng)決策。
主要參考文獻
[1] 李劍鋒,李一軍,祁威,等. 數(shù)據(jù)挖掘在公司財務(wù)分析中的應(yīng)用[J]. 計算機工程與應(yīng)用,2005,(2):217-219.
[2] 李愛玲,沈憲章,李豫州. 數(shù)據(jù)挖掘在財務(wù)預(yù)測中的應(yīng)用[J]. 安陽師范學(xué)院學(xué)報,2005,24(2):129-131.
[3] 唐曉東. 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M]. 北京:電子工業(yè)出版社,2004.
[4] 陳京民. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M]. 北京:電子工業(yè)出版社,2002.