(江蘇大學 財經學院,江蘇 鎮江 212013)
摘 要:數據挖掘是一門新興技術,隨著社會經濟的發展,數據挖掘與處理愈發顯得重要了。在社會經濟現象分析中發現統計來的數據有異常現象。而這些異常數據對社會經濟現象起了很大的作用。正確挖掘數據、處理數據,有利于正確認識現象規律,對指導經濟發展具有重要意義。
關鍵詞:異常數據;挖掘方法;經濟分析
中圖分類號:F2249文獻標識碼:B
一、引言
在經濟分析進行決策時,需要對社會經濟現象進行分析收集數據,從大量的統計數據中找規律,而這些數據真實與否直接影響分析結論的科學性。在多數情況下會發現,統計來的數據是按照某一規律且起伏并不是很大,但其中都可能混有“異常數據”,這些異常數據是由異常因素(例異常時間、干擾或誤差等)造成的與大多數觀察值不一致。有些異常值可能是在統計時度量或執行錯誤所得到的,在分析過程中應剔除的,但有些數據非任何統計錯誤所致不能簡單地剔除,否則可能導致重要的隱藏信息丟失[1],特別有些異常數據非常有價值,若剔除不利于經濟的發展。例如保險、信用卡應用中對這些有實際意義的異常數據進行挖掘是有利于分析社會現象找出規律,制定有關政策,一方面阻止違法及不利行為的發生,另一方面對有利的異常數據找規律促進事態的快速健康發展。因此,對于異常數據的挖掘及處理(利用)是值得研究的課題。
二、經濟異常數據的挖掘方法探討
對于異常數據可以在靜態數據中產生,也有在時間序列中出現,在大多數情況下時間序列中的異常值出現是常見的。時間序列中的異常值的表現為多種多樣,若通過數據變換可歸納為二類:加性異常值AO,新息異常值IO[2]。所謂數據挖掘是按照既定的目標,對大量的統計數據進行探索,揭示隱藏其中的規律并進一步將之模型化的一種先進有效的方法。對異常數據的挖掘筆者認為實際上就是識別統計數據是否為異常值,挖掘過程實際上是識別過程。筆者根據統計知識及數據庫開發知識認為可以用以下幾種方法進行挖掘:
(一)聚類分析法
聚類分析法通過多元統計分析方法,根據歐氏距離或馬氏距離等距離法進行聚類,根據聚類的結果,距離較小的或相似系數大的聚為一類,最終可以聚為幾類。但那些不能聚成一類的或距離大多數數據比較遠的數據就判斷它們為異常數據。
(二)分類法
它類似于聚類法,用分類函數擾數據庫中的數據項射到某一給定的分類上[3],不屬于某一類別的那些數據可以視為異常數據。
(三)3σ檢測法[1]
一般統計數據若沒有明顯的上升或下降趨勢(若是時間序列一般為平穩的時間序列),都分布在其均值周圍,標準差σ能反映其離散程度。統計數據可以是來自某一總體的樣本。如果是一般總體,可以由概率統計中的切貝謝夫不等式知道,
(四)回歸分析法
對收集來的統計數據大多數是符合某種規律或服從某種分布的,首先對原始數據作變換并同時認為這些數據都滿足經典的線性回歸模型的六個基本假定,對數據進行回歸。在回歸分析下,可以從殘差分析和影響分析判斷。殘差分析法:用模型進行預測得到殘差,從殘差中發現那些擬合效果差的(也可通過預測區間,偏離預測去漸遠的)來判別哪些數據是異常值。影響分析主要是探察對統計推斷(如估計或預測)有較大影響的試驗數據,我們期望每組數據對統計推斷有一定影響但不要過大,若某組數據影響過大,則包含這組數據的經驗回歸方程與不包含這組數據的經驗回歸方程差異較大,于是經驗回歸方程關于這組數據就不具有穩定性[4]。所以可以認為這組數據出現異常。
(五)時間序列干預分析模型法
在統計數據時往往得到的是時間序列數據,時間序列觀察值有時會受異常時間、干擾或誤差的影響,導致觀察值的反常態勢以至于時間序列中大多數觀察值不一致,這些觀察值可以稱為異常值[5]。干預分析法是把時間序列中可能出現異常值是受干預形成的,利用時間序列中的傳遞函數來模擬干預影響特征,并估計干預影響的量級,從而解釋在時間序列中與時間有關、可能出現的非正常表現。
以上主要是通數據利用統計方法來檢測和識別異常數據的方法,一般能比較準確地挖掘反映異常數據。對于不精確的或不確定的數據挖掘由波蘭學者PawlakZ在1982年首先提出粗糙集理論,通過這種數學方法工具來挖掘數據。當然還有學者提出用人工神經網絡和遺傳算法(基于十字表的數據挖掘算法)的方法進行挖掘。
三、經濟異常數據的處理
可以根據以上的方法把異常數據挖掘出來,異常數據挖掘出后,如何正確處理這些異常數據呢?有些確實是誤差引起的或無用的干擾引起的可以把它剔除,但有些非常重要的信息必須留下。對收集來的數據,分析其特征,目的是為了了解社會經濟現象發展的規律并能預測趨勢,從異常數據得到啟示正確處理社會經濟現象,對有利的異常數據找出原因通過激勵機制服務于社會,對有不利的可以制定政策等方法進行遏制,防止以后發生。而大部分分析的是時間序列,為了正確刻畫社會經濟現象的發展規律進行預測,必須在定量分析過程中反映出異常數據,則可以通過模型法描述。為了正確反映統計數據的變化規律,筆者認為可以通過以下幾種方法來處理:
(一)回歸模型法
回歸模型法主要是針對收集的數據按照以上方法可以判斷出哪些是異常數據,然后認為這些異常數據是異常時期發生的,通過建立回歸模型在模型中引入虛擬變量的方法。
設虛擬變量 異常時期 正常時期
若是單變量時間序列 ,則總體回歸模型為:
若是多變量時間序列, 受多變量影響例受兩變量 則總體回歸模型為:
這樣通過虛擬變量的引入,能夠反映出異常時期異常數據的影響程度,準確反映社會經濟現象的變化規律進行預測。
(二)干預分析模型法
干預分析模型法既可以挖掘時間序列中的異常數據又可以把異常數據反映到模型中去,準確反映時間序列的變化規律。時間序列中異常數據的出現可以認為是某種干預所產生的,把這種干預反映出來一般可以利用模型體現。干預分析模型是通過利用傳遞函數表示出來,輸入序列是以簡單的脈沖或階躍示性函數來表示干預是否發生。脈沖函數可以用來表示暫時或瞬時干預的影響,脈沖函數表示為:
2新息異常值(表示在非正常的隨機沖擊)T時刻干預可以用以下模型表示:
通過干預分析模型法既可以檢驗出異常值又可以估計出其影響序列制的程度。它與回歸分析法相比較可能要來得準確些。
四、結論
隨著社會經濟的發展,數據的挖掘與處理愈發顯得重要,數據挖掘是一門新興技術,通過以上研究發現可以采用多種方法進行挖掘,要根據實際情況采取不同方法或綜合運用方法進行數據挖掘。在數據處理時筆者認為以上兩種方法各有優點,第一種方法適合于時間序列變量受其他因素影響時,第二種方法適合于單時間序列(一般要經過平穩化處理)時。但數據處理并不局限于以上兩種方法,也可以探討其他方法來處理。總之,正確挖掘數據、處理數據有利于正確認識社會現象規律,指導經濟發展具有重要意義。
參考文獻:
[1]黃守坤異常數據挖掘及在經濟欺詐發現中的應用[J]統計與決策,2003,(4):32-33
[2]楊虎,李強金融時序中異常數據挖掘算法設計及實證分析[J]中國管理科學,2004,(4):7-11
[3]王炳錫研究數據挖掘技術推進河南經濟發展[J]知識河南,2002(4上):15-16
[4]王松桂回歸診斷發展綜述[J]應用概率統計,1988(4):310-319
[5]顧嵐主譯時間序列分析——預測與控制[M]北京:中國統計出版社,1997,527-542[ZK)]
(責任編輯:石樹文)
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF閱讀原文”。