[摘 要] 數據挖掘技術是多學科交叉的新興技術,它是隨著數據的大量積累以及市場競爭對信息與知識的迫切需求而產生和發展起來的,并逐漸成為人們關注的熱點。它將傳統的數據分析方法與處理大量數據的復雜算法相結合,為探查和分析新的數據類型以及用新方法分析舊有數據類型提供了令人振奮的機會。將數據挖掘技術應用于財務分析,不僅拓寬了財務分析的范圍,而且還可以發現那些隱藏在財務報表數據中的信息,對于幫助管理層做出及時、適當的決策是很有價值的。
[關鍵詞] 財務分析;決策樹;聚類;關聯分析
[中圖分類號]F275;F232[文獻標識碼]A[文章編號]1673-0194(2009)02-0034-05
一、研究背景
數據挖掘技術主要應用于商業、醫學、科研領域,著眼于海量數據集存儲、檢索與處理,目標是從繁冗復雜的數據對象中找出其相關性。誠然,大多數公司的財務分析所需要的一些數據相對有限,尚不能稱得上“海量”,但是如果能從另一個角度去換位思考,或許能得到意想不到的效果,為更深層次的財務分析作準備。
當前,大多數公司的財務分析是用一些財務指標來反映本公司的經營情況,分門別類、分項列出,先總體、后局部,個別異常個別說明。這種分析方式是正確的,然而很多情況下財務人員會忽略數據的相關性,無法抓住問題的實質,進而影響財務分析的準確性、全面性。造成這樣的情況,一是由于財務數據范圍相對較小,容易根據一些財務指標直觀上發現問題,這就往往使人們忽視管理與經營上的不足;二是財務人員的知識水平相對有限,無法從更深層次角度去分析報表數據。本文以某財產保險公司省級分公司2004年度財務數據為例,分別從決策樹算法、聚類、關聯分析等角度來闡述數據挖掘技術在財務分析中的應用。
二、數據集選擇
本文使用的樣本數據來自某財產保險公司省級分公司2004年所公布的財務報表數據。由于該公司車險所占比例較大,因此將車險賠付率指標列入其中,同時為方便計算,對個別數據進行了處理。具體數據集見表1。

三、決策樹算法
決策樹分類法是一種廣泛使用的簡單分類算法,具有直觀、容易解釋的特點,其冗余屬性也不會對決策樹的準確率造成不利的影響,即個別屬性的差異對總體分析及決策不會造成太大的誤差。決策樹廣泛用于分類、聚類和預測型建模方法,采用“分而治之”的方法將問題的搜索空間分為若干子集。在財務分析中使用決策樹,不僅可以“化繁為簡”,而且具有直觀、易于快速發現問題的特點,給人耳目一新的感覺。
1. 用Hunt算法建立決策樹
從原則上講,對于給定的屬性集,可以構造的決策樹的數目能達到指數級。盡管某些決策樹比其他決策樹更準確,但是由于搜索空間是指數級的,找出最佳決策樹原則上是不可行的。盡管如此,學者們還是開發了一些有效的算法,能夠在合理的時間內構造出具有一定準確率的次最優決策樹。這些算法通常都采用貪心算法,能夠在合理的時間內構造出具有一定準確率的次最優決策樹,Hunt算法就是一種這樣算法,它是許多決策樹算法的基礎。
在Hunt算法中,通過將訓練記錄相繼劃分成較純的子集,以遞歸方式建立決策樹。設Dt是與結點t相關聯的訓練記錄集,而Y={ y1,y2,…,yn}是類標號,Hunt算法的遞歸定義如下:
(1)如果Dt中所有記錄都屬于同一個類yt,則t是葉結點,用yt標記。
(2)如果Dt中包含屬于多個類的記錄,則選擇一個屬性測試條件,將記錄劃分成較小的子集。對于測試條件的每個輸出,創建一個子女結點,并根據測試結果將Dt中的記錄分布到子女結點中。然后,對于每個子女結點,遞歸地調用該算法。
2. 算法演示
需要說明的是,本文將盈利性作為葉結點,主要是由于其屬性只有“是”與“否”兩類,可以簡化算法的演示步驟,還可以從總體上發現公司各機構的利潤情況,從而在一定程度上迎合了公司決策者的要求。此外,為方便說明,將每一步劃分的機構情況也列入其中,但是這并不表明在實際應用中需要這么做。具體步驟如圖1至圖4所示。

其中,大機構是指保費收入大于1 500萬元的機構,小機構是指保費收入小于1 500萬元的機構。
3. 對財務分析的啟示
從圖4中可以發現公司虧損主要集中在{A,B,D,E,F,K}與{I,L,M}等機構,它們占公司機構數目較大的比例。所以,公司下一步的經營治理計劃應集中在這幾個機構中??梢钥闯觯瑳Q策樹以圖形方式給出較為直觀、簡潔的描述,不同于那種枯燥、冗長的文字描述形式。
四、聚類分析
聚類已經被廣泛地應用于許多領域,例如生物學、信息檢索、氣象學、心理學、醫學以及商業等諸多領域。通過對聚類的發現,我們可以找出在概念上有意義的具有公共特性的對象組,進而發現總體的特性。聚類分析根據在數據中發現的描述對象及其關系的信息,將數據劃分成有意義或有用的簇(也可以稱為組)。其目標是,簇內的對象相互之間是相似的(相關的),而不同簇中的對象是不同的(不相關的)。簇內的相似性(同質性)越大,聚類就越好。
在財務分析中,靈活運用聚類分析技術,對各種財務指標下的數據進行分組,可以方便找出其“由量變到質變”的臨界點,為公司制定各類考核指標提供依據。對于簇內及簇間相似性的度量需要運用統計學中方差、標準差等概念,相對比較簡單,不贅述。
1. K-均值算法
K-均值算法是一種迭代算法,迭代過程中不斷地移動組集中的成員直至得到理想的組集為止。K-均值算法比較簡單,也是一種最古老的、最廣泛使用的聚類算法。雖然該算法的收斂準則不是基于平方誤差來定義的,但它也可視為一種平方算法來度量各組內及組間的誤差情況。利用K-均值聚類算法所得到的組,組內成員間的相似程度很高,同時不同組中成員的相異度也很高。給定組Ki ={ti1,ti2,…,tim},則其均值定義為:
Mi= (ti1+ ti2+ …+tim)/m。
在定義中假設每個元組僅有一個數值型屬性值,而不是多個屬性值,當然在財務報表中也不可能出現多個屬性的數據。以下的算法描述了K-均值算法,但應注意簇均值的初始值是任意分配的,可以隨機分配也可以直接使用前k個成員的屬性值。此外,當沒有元組(或很少的元組)被分配到不同的簇中時,就可以停止算法。也可以直接設置一個最大的迭代次數作為終止準則,使用最大迭代次數準則是為了在算法不收斂時也可以停止算法。
其基本算法如下:
(1)選擇K個點作為初始均值,K是用戶指定的參數,即所期望簇的個數;
(2)repeat;
(3)將每個點指派到最近的均值,形成K個組;
(4)重新計算每個組的均值;
(5)until 均值不發生變化。
2. 算法演示
為方便說明問題,我們選擇賠付率與費用率作為數據集實驗對象,并且將其分為3個簇,初始時按機構順序選擇前3個數值作為簇的均值。同時,利用比較歐幾里得距離(差的絕對值)作為收斂參考準則,即將與均值距離最近的數值分配到該均值所代表的簇中去,如果存在于兩個或多個均值距離相等,可以任意選擇其均值所對應的簇。具體計算過程如表2、表3所示。
3. 對財務分析的啟示
在表2中可以看出,作為聚類的機構集合{A,K},{B,C,D,E,F,H}與{G,I,J,L,M},如果該公司以賠付率35%作為考核要求,則A,K屬于嚴重超標,B,C,D,E,F,H超標較多,只有G#65380;I#65380;J#65380;L#65380;M等機構合格#65377;但是,如若從數據挖掘角度出發,本期需對不同機構集合采取不同的懲獎措施,我們還可以設置50%與35%為動態臨界指標作為下期考核經營業績的依據,并且每期進行調整#65377;費用率可以參照以上進行分析,基本相同#65377;

值得一提的是,我們還可以將以上兩個不同聚類取交集得到一個二維聚類,即{A,K},{B,C},{I,L,M}#65377;對它們進行進一步的分析,可以綜合得出哪些機構的財務指標是更為合理的,或者是極不合理的,為精確考核#65380;計劃提供依據#65377;
五#65380;關聯分析
許多商業企業在日復一日#65380;年復一年的經營活動中積聚了大量的數據#65377;例如,某大型購物中心的結算系統每天收集大量顧客的數據#65377;零售商對這些數據的分析通常稱作“購物籃”事務分析,以便了解顧客的購買行為,來支持各種商業應用,如市場促銷#65380;庫存管理和顧客關系管理等#65377;
關聯分析方法,用于發現隱藏在大型數據集中的令人感興趣的聯系#65377;所發現的聯系可以用關聯規則或頻繁項集的形式表示#65377;例如,從大型購物中心銷售終端所提供的數據中可以提出如下規則:
{奶粉,尿布,餅干}→{巧克力}
該規則表明奶粉#65380;尿布和餅干與巧克力之間存在著很強的聯系,因為許多購買奶粉#65380;尿布和餅干的顧客也會購買巧克力#65377;商家可以使用這類規則,幫助他們發現新的交叉銷售機會#65377;同樣在財務分析中,我們可以根據感興趣的財務指標進行內在數據挖掘,找出造成財務指標差異的原因#65377;
1. Apriori算法
Apriori算法是最著名的關聯規則算法,已經為大部分商業產品所使用#65377;該算法利用大項目集性質,即大項目集的任一子集也一定是大的#65377;
大項目集也被稱為是向下封閉的,因為如果一個項目集滿足最小支持度的要求,其所有的子集也滿足這一要求#65377;其逆否命題也成立,即知道一個項目集是小的,它的子集也是小的#65377;可用圖5和圖6來展示這種重要的性質#65377;在這個例子中有4個項目{A,B,C,D}#65377;圖中的線表示子集的關系,大項目集性質表明如果原來的項目集是大的,則在路徑中位于其上面的任何集合也一定是大的#65377;在圖中,ACD的非空子集是{AC,AD,CD,A,C,D}#65377;如果ACD是大的,則其每一個子集也是大的#65377;如果任何一個子集是小的,則ACD也是小的#65377;

Apriori算法的基本思想是生成特定規模的候選項目集,然后掃描數據庫并進行計數,以確定這些候選項目集是否是大的#65377;由于在財務分析中,往往使用定性的方法去查找原因,這可以極大地提高Apriori算法效率#65377;比如管理層往往對利潤虧損比較敏感,我們就可以直接以利潤虧損這一財務指標為起點進行搜索計數#65380;排序,只要查找一遍就可以找出頻繁項集#65377;
2. 算法演示
從公司財務數據可以看出大部分機構虧損,為了找出公司虧損的內在原因,我們就以這一財務指標作為掃描的起點#65377;假定:
Φ =利潤虧損;
A =大機構(機構保費收入>1 500萬元);
B =小機構(機構保費收入≤1 500萬元);
C =費用率超標(費用率>30%);
D =賠款率超標(賠付率>35%);
E =車險賠付率超標(賠付率>35%)#65377;
圖7表示這一事件集的信息,圖8表示對所有數據進行掃描后的最終結果,為方便說明,涉及的機構數標在指標上面#65377;另需說明,本文采用較高支持度的數據作為分析依據,排除了個別異常的干擾#65377;
3. 對財務分析的啟示
根據關聯分析得出如下結論:{大機構,賠款率超標,車險賠付率超標}→虧損,{小機構,費用率超標}→虧損,另由大項目集性質得出附加結論:{車險賠付率超標}→賠款率超標#65377;
為什么會得出以上結論呢?這需要深入分析公司的具體情況#65377;大機構虧損是由于其賠款支出過多這一原因造成的,說明大機構的規模與其效益不成正比,所擔保的產品易于受損,屬于典型的“越擴張就越虧損”#65377;而小機構情況則不同,由于成立初期需要消化的費用多,并且賠款效應尚未出現,因此造成了一定程度的虧損,但后期應高度重視保費質量#65377;其實,附加結論“{車險賠付率超標}→賠款率超標”所帶來的問題更為嚴峻#65377;公司的大部分賠款支出來自車險,而車險是公認的虧損險種,這說明公司險種結構極為不合理,亟需改善險種結構,選擇多元化營銷來分散風險#65377;
六#65380;結 論
最后,數據挖掘技術是在統計學#65380;人工智能(特別是機器學習)和數據庫技術等多種技術的基礎上發展起來的,強調的是大數據量和算法的可伸縮性#65377;對于財務人員來說,掌握一些這方面的知識是必要的,不僅可以拓寬現有的知識面,也可以提高自身業務水平,并且可以在實際工作中及時為公司決策者提供更具價值的財務信息#65377;
主要參考文獻
[1] 〔新西蘭〕 Ian H Witten,Eibe Frank. 數據挖掘:實用機器學習技術[M]. 原書第2版. 北京:機械工業出版社,2006.
[2] 〔美〕 Michael J A Berry,Gordon S Linoff. 數據挖掘技術:市場營銷#65380;銷售與客戶關系管理領域應用[M]. 原書第2版. 北京:機械工業出版社,2006.
[3] 〔美〕Pang-Ning Tan,Michael Steinbach,Vipin Kumar. 數據挖掘技術導論[M]. 英文版. 北京:人民郵電出版社,2006.
[4] 李劍鋒,李一軍,等. 數據挖掘在財務分析中的應用[J]. 計算機工程與應用,2005(2):217-219.
[5] 張嫻. 數據挖掘技術及其在金融領域的應用[J]. 金融教學與研究,2003(4):15-18.
[6] Robert Groth. Data Mining:Building Competitive Advantage[M]. 2nd ed. NewYork:Prentice Hall PTR,1999.
[7] Xia Hongxia, Shen Qi, HAO Rui. Application of Data Mining Technology to Intrusion Detection System[J]. 通訊和計算機,2005,2(3):29-33.
[8] Chen Bo,Jiang Yongguang,HuBo, LiuJuan. Association Analysis Datamining the Compatibility Regulations of Li Dong Yuan's Formula of Spleen and Stomach[J]. 中醫藥學刊,2004,22(4):613-615.
[9] ZAKI M J,GOUDA K. Fast Vertical Mining Using Diffsets[C]. Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington,DC,2003.