陳春江 周易達
【摘要】在經濟時代,數據的重要性是不言而喻的。作者通過大量實踐,總結一些數據挖掘的應用方法,并在本文中用生動實例介紹給讀者,有著拋磚引玉的作用。
【關鍵詞】數據挖掘經濟分析推理預測軟件
一、數據挖掘及其作用
數據挖掘(Data Mining,DM),又稱為數據庫中的知識發現(Knowledge Discovery in Database,KDD),是指從大量數據中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。它融合數據庫系統、人工智能、統計學、機器學習、信息科學等,是一個新興的多學科交叉應用領域[1]。簡單地說,數據挖掘就是把存放在數據庫、數據倉庫或其他信息庫中的大量的數據中“挖掘”或“找到”有趣知識的過程。近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括行業監管、商務管理、生產控制、市場分析、工程設計和科學探索等。
有一個“尿布與啤酒”的故事,可以用來說明數據挖掘的作用。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。沃爾瑪在這些原始交易數據的基礎上,利用數據挖掘技術方法對這些數據進行分析和挖掘。一個意外的發現是:跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,發現美國的太太們常叮囑她們的丈夫下班后到超市為小孩買尿布,而丈夫們中有30%~40%的人在買尿布的同時也為自己買一些啤酒。于是沃爾瑪干脆將尿布與啤酒擺在同一個貨架上,從而更方便了顧客,促進了銷售。按常規思維,尿布與啤酒風馬牛不相及,若不是借助數據挖掘技術方法對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。那么,怎么樣來挖掘數據呢?
二、常用的數據挖掘方法和應用舉例
挖掘數據,簡單來說就是要通過讀活數據(傳統方法)、知識運用(推理方法)、大海撈針(篩選方法)、專業軟件(技術方法)等方法或手段,挖掘出有用數據。
(一)讀活數據——傳統方法
通過閱讀政策、理論和報表數據,運用政策傳導和理論根據,去挖掘數據背后的真實狀況。在閱讀的基礎上,進一步計算比較基礎數據的增加值、增長率和標準值等變化規律,及時發現各指標在運行過程中發生的突變情況。在閱讀、比較的基礎上進一步分析。
分析實例一,利率對銀行的影響:2007年12月21日到2008年12月23日,央行連續4次下調基準利率,假設在銀行存貸款總額不變的情況下,存、貸款余額和銀行的利息收支變化情況如表一:
表一利率對銀行的影響
從銀行的角度來看,當基準利率下調時,支付的存款利息和收到的貸款利息都會減少,而且在存貸比保持某個比例時,利差會增大,而不是通常人們認為的那樣利差會減少。從消費者的角度來看,存款人少收的利息大于貸款人少付的利息,結果銀行增加的收入來自存款人減少的收入。
(二)知識運用——推理方法
通過經濟理論知識來實證當前社會經濟的情況或預測世界經濟可能會出現的情況。
分析實例二,用奧肯定律來分析我國的GDP和失業率之間的關系:薩繆爾森和諾德豪斯合著的《經濟學》第16版456頁確切表述,“按奧肯定律,GDP增長比潛在GDP增長每快2%,失業率上升1個百分點,公式表示為:失業率的變動=-(實際GDP的增長率-潛在GDP的增長率)/2”[2]。2008年,全年國內生產總值同比增長9.6%。2009年GDP增長8.7%,則實際下降0.9個百分點,根據奧肯定律來推測,失業率應上升0.45個百分點,達到4.65%。
分析實例三,GDP與固定資產投資的關系:通過用加速模型對中國1978~1997年數據進行檢驗,從而推斷出那些以有效需求不足為假設前提的模型不能解釋中國的現實。其次,以供不應求為特征的存量調整模型能較好地解釋中國固定資產投資的決定因素。在正常年份,實際國內生產總值增長1%,合理的實際固定資產投資應增長1.85%[3]。即GDP增長一個點,約需要投資增長2個點。因此,用GDP與投資總量之間的這種理論關系,可以推算出非信貸投資總額。比如:2008年保山市GDP增長率為13.1%(G),從GDP增速倒推,與其相適應的投資增速應在26.2%左右,但本地銀行貸款實際增長22.27億元,增速僅為16.84%,少增9.36%,表明可能有其他資金投放在本地;年初貸款余額N=131.79億元,S=N×G×2-M=131.79×13.1%×2-22.27=12.37億元。表明外地資金在本地當年投放12.37億元左右。
分析實例四,金融危機與菜農的關系:美國金融危機后?圯中國涉外企業十分困難,大多處于關停狀態?圯大量農民工返鄉?圯返鄉后自己種蔬菜(再說也無法買到原來吃的蔬菜)?圯以往這些農民工日常消費的蔬菜沒有人消費,形成消費鏈斷裂?圯河南菜農的蔬菜賣不出去?圯河南菜農生產過剩。事實上,根據國新辦于2009年2月2日上午10時舉行新聞背景吹風會,離開本鄉鎮外出就業的農民工的總量大概是1.3億人,大約有15.3%的農民工因全球金融危機而失去了工作,或者沒找到工作。據此推算,全國大約有2000萬農民工失去工作,或者還沒有找到工作而返鄉了。假設每個農民工日均消費1市斤蔬菜,返鄉農民工有2000萬,就意味著菜農每天有2000萬斤蔬菜賣不出去。
(三)大海撈針——篩選方法
可以通過Excel的篩選命令,從眾多的數據中篩選出需要的信息。
分析實例五,異地貸款統計:在《銀行業非現場監管信息系統》中,沒有對異地貸款信息專門統計,給異地貸款風險監管帶來難度,可是,銀行業《風險預警系統》給我們提供了豐富的客戶信息資源。《風險預警系統》中包含了哪個銀行在什么地方對哪個企業授信多少、發放貸款多少,以及現在貸款的質量怎么樣等48項信息。當銀行與企業不在同一個地方時,貸款就衍變為異地貸款,考察全省匯總數據,我們很快發現,可以用篩選方法,將異地貸款統計出來。方法是:分別用篩選命令,篩選出注冊地在本地各縣區的所有客戶,并將其匯總在同一張Excel表中,再刪除本地銀行機構的客戶信息,剩下的就是外地銀行在本地客戶的貸款信息。反之,也可以篩選出本地銀行在外地客戶的貸款信息。
(四)專業軟件——技術方法
通過《銀行業非現場監管信息系統》的查詢方法和分析模型,進行“時間序列分析”和“同質同類比較分析”,可以挖掘出更多有用的監管信息;通過Excel中強大的函數庫,可以獲得更多的統計分析結果;通過《馬克威分析系統》等專業分析軟件,可以從海量信息和數據中尋找規律和知識,建立起概念模型,為決策者提供科學的決策依據。
分析實例六,2009年全國貸款總額預測:根據2002年至2009年一季度貸款余額和全年貸款總量,以及2010年一季度的貸款余額,可以用回歸分析預測出2010年貸款總量。如表二所示:
表二金融機構人民幣信貸收支表(單位:億元)
表中用回歸分析預測函數FORECAST預測了2010年的全年貸款總量將達到47.9萬億元,FORECAST(x,known_y's,known_x's)中的x是2010年一季度貸款余額;known_y's是2003至2009年的貸款總量,是因變量;known_x's是2003至2009年一季度貸款余額,是對應的自變量。在本例中,函數表達式是FORECAST(B11,C3:C10,B3:B10)。
在表中,如果計算同比增加量,2010年全年同比增加貸款7.96萬億元左右。如果以時間作為自變量,全年各項貸款余額作為因變量,畫出全年貸款余額折線圖和三階趨勢線,我們發現,決定系統R2=0.997,接近于1,表示線性擬合程度較高。
考慮到出口減少,外匯儲備下降,貨幣生成機制發生變化,企業更加依賴銀行貸款等因素,貸款余額將遠不止45萬億元,事實上,2010末貸款余額達到了50.9萬億元,這說明這個回歸分析預測函數準確率還是很高的。
參考文獻
[1]劉明亮.數據挖掘技術標準綜述.計算機科學[J].2008年,(06):5.
[2]孫敬水.我國經濟增長與就業關系的實證分析.經濟問題探索[J],2007年(04):6.
[3]張華嘉.固定資產投資與經濟增長.世界經濟文匯[J].1999年(06):3.
作者簡介:陳春江(1964-),女,漢族,云南昆明市人,學士,副教授,計算機科學專業,研究方向:計算機應用和區域經濟研究;周易達(1962-),男,漢族,云南保山市人,學士,工程師,計算機科學專業,研究方向:銀行業監管和金融風險分析。