楊梅冰 梁思思
【摘要】數據挖掘技術是針對現代數據管理活動中存在的數量基數大、構成復雜和數據缺失現象嚴重等客觀問題而研發的一種高效的數據深度加工技術,其應用于經濟統計中有利于企業等確立正確的經濟發展目標,獲得更大的經濟效益,因此進一步加強對其的研究非常有必要。基于此本文分析了數據挖掘技術在經濟統計中的應用。
【關鍵詞】數據挖掘技術 經濟統計 應用
一、經濟統計中數據挖掘技術應用的可行性
(一)隨著社會的發展,數據挖掘技術的研究與應用得到很大發展,已被廣泛的應用,其具有很多優點,能夠更好的提供服務于經濟統計,因此進一步加強對其的研究非常有必要
數據挖掘技術的發展是從二十世紀九十年代到現在,雖然時間不長,但是發展速度迅猛,因此也是越來越受到人們的重視。就目前的情況來看,國外對于其關注度非常高,致力于數據挖掘技術的開發和應用,例如IBM、微軟等等。而其在我國也是得到很大的關注,我國對于該技術主要是體現在已經為其相繼的建立了相應的工作實驗室。
(二)數據挖掘工具日益豐富,能夠滿足經濟統計的各種需要
為了更好的符合市場發展需求,數據挖掘的工具也是不斷更新,呈現出不同的形式,就目前的情況,數據挖掘工具的市場主要由3個部分,包括通用型工具、綜合工具和面向特定應用。
1.通用型工具。在我們的現有市場中比較廣泛的應用是通用型工具,其實用性非常廣,就目前市場的這種類型工作主要包括:SGI Mineset、SAS Enterprise、SPSSClementine等軟件。
2.綜合工具。綜合工具的主要特點是能夠滿足商業活動的相關要求,其主要的目的是能夠及時地提供相關數據情況以及管理報告等,就目前的情況來看,這種類型的工作市場中主要有Cognos Scenario、Business Objects等。
(三)宏觀經濟數據庫的建立,為數據挖掘技術的應用創造了良好的條件
就目前的情況來看,我國的很多部門經濟統計中都使用了數據挖掘技術,其主要工作內容是采集、處理。但是其還是存在著一些不足,主要是還沒有完全的形成一個整體,從而進行數據的管理時候會有很多問題,因此,經濟統計工作是需要開發新的技術。而宏觀經濟統計數據庫剛好能解決好這一問題,其能夠準確的確保經濟統計信息,然后在對其進行整理,從而不斷的擴充數據資源。
二、數據挖掘技術在經濟統計中的應用
在社會經濟管理活動中,管理主體對經濟統計數據的要求主要有兩個:一個是統計數據的真實性;一個是數據統計信息的實用性。單就這兩個經濟統計數據要求而言,數據挖掘技術能夠很好地滿足經濟統計工作的需求,是適用性極強的一種經濟數據統計技術,其在具體的經濟數據統計活動中主要有以下四種應用方法。
(一)預處理方法
在經濟數據統計活動中,最為基礎的一種處理方式就是經濟數據的預處理方法。因為數據挖掘本身是一種基于提供基礎信息的智能分析技術,其本身是受基礎經濟信息限制的,不可能無中生有代替經濟數據收集系統的功能,所以所有作為數據挖掘系統數據基礎的經濟統計數據信息都應該進行預處理。處理的內容主要包括:數據中不正確、不真實、不準確,以及不同經濟統計數據信息之間差距較大等現象。
對這些基礎數據存在的問題進行處理的過程被稱為數據清理,當前數據清理主要采用的方法有均值法、平滑法和預測法。其中均值法是現代分析技術中模糊理念的一種應用形式,當基礎數據中的一個數據點是空值或者噪聲數據的時候,可以采用均值法進行處理,即用數據庫中所有該屬性已知的屬性均值來填補空缺,保證數據挖掘系統對基礎數據的分析和整理能夠正常進行,得出相對而言準確度較高的統計分析數據。
(二)決策樹方法
就目前的情況來看,在數據挖掘技術應用過程中使用比較多的方法是決策樹,因為其能夠快速、直接的反映情況。對于該方法最主要的是要構建好決策樹,通常情況下回分為2部:1)利用訓練集建立并精簡一棵決策樹,同時建立一個模型,能夠進行輸出分析。2)將構建完的決策樹充分利用,做好數據分類工作,這一分類是一個遞歸的過程,從決策樹的根部開始進入到樹干、枝丫,直到輸入數據的分類滿足了某種條件而停止。在具體的應用中停止分割的條件有兩個:一個是當一個節點上的所有數據都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數據進行再分割。
在決策樹構建完成后,還要根據使用者的具體要求對決策樹進行“剪枝”,剪枝的主要目的是要降低因為使用訓練集而對決策樹本身數據輸出產生的起伏影響。
三、數據挖掘技術在某省經濟統計中的具體應用舉例
本文主要是將序列模式和決策樹進行結合的方法進行經濟統計中的數據挖掘技術的分析,將其進行分類,從而能夠確定出調查的對象。
通過某地區企業歷年上報的數據建立各個企業的序列模式,通過這個方法能夠計算出一個企業的預測值,然后進行分析得到差別率,主要的對象是預測值和上報的數據,最后是將這個差別率進行第一次的分類。根據分類可以將其分為3種,A、B、C類,其分類的依據是差別率所占比率,順序為大于等于百分之二十,百分之二十和百分之十之間以及百分之十以下。然后是進行建立決策樹,其主要是從2個方面進行,即企業的規模變化率和企業是否發生了重大經營事件。
如果企業的規模變化率非常大,就需要對其進行調查,如果變化率小,還需要進一步觀察企業當年是否發生了重大經營事件,如果發生了就要進一步對其進行調查,如果沒發生,就不需要再進行。
總之,數據挖掘技術作為新型的經濟統計方法,已經廣泛的應用于經濟統計中,采用數據挖掘技術能夠使經濟統計結果更加準確、清晰,同時期能夠更好地滿足社會需求,因此進一步加強對其的研究非常有必要,需要我們重視。
參考文獻
[1]王康.關于數據挖掘技術在經濟統計中的應用[J].財經界(學術版),2011,05:98.
[2]辛金國,柯芳,李紹君,夏靜波.數據挖掘技術在經濟統計中的應用探索[J].統計與決策,2009,09:24-27.
[3]李榮.關于數據挖掘技術在經濟統計中的應用[J].中國商貿,2015,02:173-175.