[摘要] 文章在分析數據挖掘技術的基礎上,給出了模糊數據挖掘中基于聚類分析的算法以及詳細的模糊聚類分析步驟,最后用一個具體實例證明了模糊聚類分析在稅收決策支持系統中的應用價值。
[關鍵詞] 稅收決策支持系統數據挖掘模糊聚類分析
一、引言
在稅收征集中,大量的數據存儲在數據庫中,如何在海量數據中提取出有用的信息供決策機構作為參考,是我們需要解決非的問題。得用數據挖掘技術實現的稅收決策支持系統為我們提供了一個解決方法。
稅收決策支持系統是指在一定的經濟理論指導下,根據經濟和稅收統計資料,在定性分析基礎上,運用定量方法,對未來稅收收入總量和結構等發展趨勢所做出的分析、判斷和推測。
一般說來,數據挖掘(DM)是一個利用各種分析方法和分析工具在大規模海量數據中建立模型和發現數據間關系的過程,這些模型和關系可以用來做出決策和預測。
數據挖掘是從大型數據庫或數據倉庫中發現并提取隱藏在其中的信息或知識的過程,目的是幫助分析人員尋找數據間潛在的關聯,發現被忽略的要素,而這些信息對預測趨勢和決策行為是十分有用的。聚類就是將數據對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。
然而單純的數據挖掘中的聚類可能會導致“尖銳邊界”等問題, 因此考慮將模糊邏輯和數據挖掘結合起來的模糊數據挖掘技術引入到稅收收入預測系統中。
二、模糊聚類分析技術
模糊聚類分析就是把模糊數學的概念引入聚類分析中,以用來研究“物以類聚”的一種多元統計分析方法,即用數學方法把原來樣品之間模糊關系定量地確定關系,從而客觀地進行分型劃類,以便對未來事物的發生狀態做出預測。
傳統的聚類分析把每個樣本嚴格地劃分到某一類,屬于硬劃分的范疇,它把每個待辨識的對象嚴格地劃分到某個類中,具有非此即彼的性質,因此這種分類的類別界限是分明的。而實際上大多數對象并沒有嚴格的屬性,它們在性態和類屬方面存在著中介性,適合進行軟劃分。模糊集理論為這種軟劃分提供了有力的分析工具,人們開始用模糊的方法來處理聚類問題,并稱之為模糊聚類分析。在模糊聚類中,每個樣本不再僅屬于某一類,而是以一定的隸屬度分別屬于每一類。由于模糊聚類得到了樣本屬于各個類別的不確定性程度,表達了樣本類屬的中介性,即建立起了樣本對于類別的不確定性的描述,能更客觀地反映現實世界,從而成為聚類分析研究的主流。
利用模糊劃分的概念人們提出了許多種聚類方法,比較典型的有:基于相似性關系和模糊關系的方法(包括聚合法和分裂法),基于模糊等價關系的傳遞閉包方法,基于模糊圖論最大樹方法,以及基于數據集的凸分解、動態規劃和難以辨識關系等方法。這些聚類方法把模糊理論和數據挖掘技術中的聚類分析結合起來,已經很好地在很多領域得到了廣泛應用。
三、基于模糊等價關系的聚類分析
1.確定模糊集:
建立樣本特性指標矩陣設聚類的對象的全體集合X={x1,x2,…,xn},為了使分類效果科學合理,我們首先要選取具有實際意義且有較強分辨性和代表性的統計指標。現假設X中每一個元素Xj(j=1,2,…,n)有m個統計指標Xij=(x1j,x2j,…xmj),其中,分量Xij表示第j個元素的第i項統計指標值(i=1,2,…,m;j=1,2,…,n)。本步驟的關鍵是統計指標值的求法。統計指標值反映實際的精確程度,是取得最優聚類的先決條件,由于各企業的實際情況不一樣,所選取的統計指標也應各不相同。因此,統計指標值的求法因實際問題而定。
2.對樣本特性指標矩陣進行數據規格化
在實際問題中,通常不同的數據有不同的量綱。因此,需要根據模糊矩陣的要求,進行標準化處理。一般可通過以下變換來實現:
(1)平移/標準差變換
其中,
(2)平移/極差變換
顯然有0≤Xnij≤1,而且也消除了量綱的影響。
3.標定——建立模糊相似矩陣
所謂標定,是指根據實際情況,選用一定的方法對對象進行比較得出模糊相似矩陣。根據上述已建立的指標體系Xj(j=1,2,…,n),求出相似系數rij,rij表示Xi與Xj按m個特征相似的程度,得到模糊相似矩陣R=(rij)m×n
本步驟的關鍵是如何合理的求出相似系數rij,由于求相似系數的方法很多,而且需要因實際情況不同而選用不同的方法。
求相似系數的方法很多,主要有最大最小法、算術平均值最小法、幾何平均值最小法、相關系數法、夾角余弦法、距離法、數量積法、絕對值指數法、絕對值倒數法、絕對值減數法等方法。
對于一些實際問題,很難用解析表達式來刻畫事務間的相關程度,這時只有請有經驗者或專家評分,用[0,1]上的數表示。選取什么樣的方法描述兩個元素之間的相似程度,將直接影響分類的效果。通常是同時選三四種,最后看分類與實際吻合的情況,擇優選取。
4.求傳遞閉包——構造模糊等價矩陣
用傳遞閉包法求R的模糊等價矩陣。傳遞閉包是包含R的最小傳遞矩陣,設t(R)是R的傳遞閉包,通常采用平方法求R的傳遞閉包,即R→R2→R4→R8→L→R2k經有限次運算后,一定有R2k=R2k+1,于是 t(R)=R2k
5.選取分類水平λ,看模糊截矩陣,確定聚類結果
構造了模糊等價矩陣后就可以按 R 的λ截關系對其進行聚類,對于不同的λ截矩陣,分類結果不同,也具有不同的實際意義和經濟意義,從中可判斷出與實際最接近的分類方案。
6.預測,
首先對于在聚類分析中得到的每一個模式按照下式求得模式的平均指標。
其中s表示所有模式數,k表示該模式由數據倉庫中哪幾條記錄推出,p表示推出該模式的記錄總數。
對于待預測的樣本Y是該樣本在論域X上的n個模糊子集,與數據倉庫中分類的模式做比較,求出它們的貼近度:
根據擇近原則,判斷該樣本接近哪個模式, 從這個模式的整體情況預測其發展結果。
四、稅務決策支技系統中的應用實例
根據以上步驟,我們首先假設某稅務系統數據倉庫中有這樣一個數據表:
其中時間粒度分為三層:年、季、月;征收機關分為四層:省局、地市局、區縣局、鄉鎮局;經濟類型為兩層:內資企業和國有企業;行業類型分為兩層:工業和服務業。在實際應用時,經常會遇到這樣的問題:某段時間、某征收機關、某經濟類型、某行業類型的實繳稅款狀況處于什么水平?某段時間、某征收機關、某經濟類型、某行業類型是數據倉庫中一些已知的數據, 而實繳稅款的水平則是一個模糊變量(實繳稅款的水平是中等、較差還是較好),它的值需要我們使用模糊數據挖掘算法得到。
從中我們得到模糊關系:
對其按上文中改選方法改造,,得到模糊相似關系:
對其聚類分析,采用閉包法,當
因此可分為兩類,即{x1,x3,x4,x5}和{x2},這樣一來,在稅務管理中就可以預測每一類對象的稅收情況。
五、結束語
數據挖掘技術是一門新興的決策分析方法,該方法通過使用人工智能、機器學習、統計學、數據庫技術等方法,從大量數據中提取出隱含的、潛在的、以前未知的有用信息或模式,來輔助決策者進行決策。現在利用數據挖掘技術對稅收收入進行預測已經成為必然的趨勢,在稅收分析過程中充分利用數據挖掘技術,合理劃分不同的納稅人群,這樣不但可以促進稅收分析工作水平的提高,也可以給管理者提供決策依據,從而帶動稅收工作整體水平的提升。本文利用模糊數據挖掘中的聚類分析技術在稅務系統海量數據中挖掘出有用信息,從而幫助決策者做出決策。
參考文獻:
[1]Mehmed Kantardzic. 閃四清等譯.數據挖掘:概念、模型、方法和算法.北京:清華大學出版社,2003
[2]Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann Publishers. 2001
[3]國稅總局信息中心,國家祝務總局稅務宏觀決策支持系統概要設計說明書,2005,2;35.-47 0
[4]馬軍邵陸:模糊聚類計算的最佳算法,軟件學報,12卷4期,2001
[5]高洪深:決策支持系統(DSS)理論#方法#案例[M].北京:清華大學出版社,2000
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。