【摘要】我國經濟的快速發展,使得各行各業的經濟管理更加規范有序,也更加精細化。但隨著社會經濟總量的增大與經濟因素的復雜,原有的經濟統計分析方式已不能滿足日益發展經濟市場的需要。所以數據挖掘技術應運而生,文章主要探討數據挖掘技術在經濟統計中的應用,通過分析數據挖掘技術的含義、數據挖掘技術在統計工作中的適用性等,指出數據挖掘技術在現代經濟統計中的重要作用。
【關鍵詞】數據挖掘技術;經濟統計;宏觀數據庫;決策樹方式
現代社會的經濟統計工作對經濟發展具有重大作用,經濟統計工作的順利完成能夠指導政府、企業接下來的經濟活動。目前的經濟統計自身存在大量的數據信息,信息間又具有復雜的聯系。所以經濟統計工作的實施人員,只能對經濟統計的數據理論進行分析,無法對經濟統計理論進行深入挖掘。而數據挖掘技術填補了這方面的技術缺失,數據挖掘技術是新型的經濟數據統計方法,不僅能夠對經濟統計的數據理論進行分析,而且能夠處理大量的數據信息,并且將這些信息以簡潔明了的形式表現出來;而且它還能將原有的資料進行統計整理,指出材料中存在的疏漏之處。綜上所述,數據挖掘技術相較于其他經濟統計方式而言,具有更加便捷全面的經濟分析表現。
一、數據挖掘技術概述
數據挖掘技術指的是從大量的經濟統計資料中,快速的找到自身能夠使用的有效信息的技術。這種技術是對原有數據的一次深層加工與開發,從龐大的數據庫中找到對自身有用的信息后,還要將其進行分析整合,最終將所需要的數據信息清楚排列在讀者的面前。原始的經濟統計信息數據庫中的信息數據,具有信息量大、信息復雜程度高、關聯性差、各種信息隨機出現、數據信息時常出現錯誤等多方面的特征,而要從這樣龐大復雜的數據庫中找到對自身有用的信息是非常困難的。數據庫中存在的信息若不能被合理的挑選并加以運用,那么數據庫本身就會失去其原有的作用。
數據挖掘技術是涉及多種學科的復合技術形式,主要包括數理統計、數據庫、模式識別、粗糙集、模糊數學等多種學科,但其主要的應用方面還是數據統計。數據挖掘技術對龐大雜亂的原始數據分析總結的方式,能夠使那些與所需數據關聯較為密切的原始數據自動進行提取,提取完成后就會對其按照一定的順序排列,最終形成數據提取者所需要的數據。數據挖掘技術是數據庫知識、模式識別系統、模糊概念技術等多種知識系統結合而成,這些知識系統都為行業尖端的知識體系。只有擁有強大的運算、篩選、整合能力,才能對數據庫中的信息進行有效分析、提取與整理。
二、數據挖掘技術的基本特點
數據挖掘技術特點,具有以下幾方面:(1)數據挖掘技術中所含的數據信息巨大,其能夠處理的數據信息也非常大,信息處理可達到GB,TB的級別。(2)對于那些不確定想要查詢什么信息的用戶,只要用戶輸入簡單的關鍵詞,數據挖掘技術就能夠從龐大的數據庫中找到與用戶所搜索信息聯系最為緊密的資源,并將他們按照聯系的密切程度依次排列。(3)數據挖掘能夠對數據庫中大量的信息進行分析,找出各種信息的內在關聯;還能夠將運用關聯挖掘與各方面相關的數據,表明前一階段經濟形勢的發展狀況,還能預測未來經濟形勢的發展走向。(4)對于經濟數據快速增長的局面,數據挖掘技術一方面擴大自身數據庫以滿足大范圍搜索的需求,另一方面提高數據檢索的精確程度,使用戶能夠快捷的從大量數據中找到自身最需要的數據。
三、數據挖掘技術在統計工作中適用性分析
(一)數據挖掘技術較高的有效性
數據挖掘技術是對原始的經濟數據信息進行深度挖掘,提取對數據擁有者有用信息的技術。所以數據挖掘技術具有較強的針對性,能夠在短時間內迅速鎖定想要分析的數據目標。對于現實數據的處理,其主要有以下幾種不同的處理方式:首先是將所有的經濟數據信息通過優化整合,挑選出自身所需要的信息;還有就是針對現有的數據信息,通過整合分析得出所需要的結果。第一種數據分析方式從經濟數據管理的角度出發的,主要是以固有數據信息的統計、分類為基礎,在應用中將原本混亂的數據庫信息進行科學、系統的歸類,保證統計數據管理的高效性和使用的便利性;第二種數據分析方式是對現有的經濟數據的再加工過程,以鮮明的數據統計、分析目標為指引,對原有數據的數據呈現模型、數據內容、與主體數據有關聯的部分進行修改、刪減、整理,形成針對數據選取目的、簡潔明了的數據組合方式,供企業管理者與政府職員適當的選擇使用。
(二)數據挖掘技術較強的綜合應用性
以上分析表明,數據挖掘技術作為完整的數據信息分析系統,能夠根據數據信息擁有者的不同需求,智能尋找各種有用信息加以分析總結,得出數據信息擁有者想要的結果。目前現代經濟所蘊含的信息量龐大,企業部門又有著各不相同的信息需求。針對不同的信息需要挑選與整合信息,能夠促進企業經營管理部門、政府經濟管理部門等不同經濟管理領域的迅速發展。但不同的經濟管理領域、管理方式、管理權限間存在的差異,又使得數據挖掘技術不斷擴充自身的服務范圍與服務能力,滿足各方面管理的要求。目前的數據挖掘技術不但要對經濟管理部門所需要的數據信息進行檢索、統計、分析、總結,還要將得到的數據以管理人員所需要的形式呈現出來;最終對這些數據形式進行處理分析,得出可靠的數據分析結論。數據挖掘技術不僅能滿足上述企業管理人員與政府管理人員的數據分析規定,還能夠輸出最適合的數據形式,供企業與政府相關部門人員使用;同時以上數據分析與結論,還能通過電腦錄入企業管理系統中,方便企業管理人員、高層領導以后的查閱使用。數據挖掘技術功能的強大,使其數據管理覆蓋面逐漸擴大,在處理經濟數據信息方面取得良好的效果。
(三)數據挖掘技術中的宏觀數據庫
目前企業與政府經濟管理存在著較多問題,其中最主要問題為:企業多個經濟管理部門的管理內容有著較大差異,各個經濟管理部門間又沒有緊密的連接,使得管理部門的數據不能交流與共享。同時我國的企業與政府的經濟數據統計,還延續以往的經濟統計方式,統計到的經濟數據信息存在著明顯的局限性,不能夠對企業經濟活動作出真實可靠的分析。而且多種經濟信息的混雜,不僅造成經濟信息間的交流障礙,也造成多種經濟信息間的重復率高。這就使得信息統計方式需要從大量重復信息中不斷進行篩選,最終才能獲得自身所需要的信息。這不僅浪費大量挑選信息的時間,也造成信息選擇上的困難與不準確。企業的經濟數據信息統計若沒有綜合的信息統計方式,那么企業經濟管理與經營發展就要陷入困難的階段。而宏觀經濟統計數據庫的出現解決這種難題,宏觀經濟統計數據庫包括各種不同類型宏觀經濟數據指標,能夠通過對整體經濟信息的分析,給出企業存在的問題以及未來企業的發展方向。宏觀經濟統計數據庫中融合多種數據信息,提供給數據挖掘技術強大的數據支撐。數據挖掘技術利用宏觀經濟統計數據庫中的數據內容,完整數據的挑選與分析工作。
四、數據挖掘技術在經濟統計中的應用
目前企業與政府的經濟管理,主要需要以下幾方面的數據資源:首先是真實的經濟數據信息,其次是經濟數據信息要對社會經濟發展具有實際的借鑒作用。而數據挖掘技術很好滿足以上兩方面的要求,它不僅能夠挑選出最全面、真實、有效的數據信息,還能針對信息作出合理的分析。目前數據挖掘技術已經日趨完善,具有極強的經濟適用性,其主要的應用方式有以下幾種:
(一)數據挖掘技術的預處理方式
數據挖掘技術對于經濟數據信息統計,首先需要做的工作為經濟數據信息的預處理。經濟數據信息的預處理也可以簡單的稱為數據信息的篩選。企業數據庫中存在的數據信息具有各種各樣的問題,比如:數據信息存在錯誤、數據信息不夠精簡、數據信息重復率較高、數據信息與事實差距較大等。數據信息存在的多種問題,需要數據挖掘技術對其進行預處理。數據信息預處理的方面很多,對于那些錯誤率高、冗余度高、重復率高的數據信息進行主動過濾,將各種經濟統計數據信息間差別較大內容進行處理,最終使數據信息符合數據使用者的要求。
而處理以上數據中錯誤率、冗余度與重復率最常用的方法,有以下幾種:均值法、平滑法和預測法,本文重點介紹的數據處理方式為均值法。均值法指的是運用現代分析技術中的模糊理念,對數據庫存在的基礎數據進行空值、噪聲等方面問題的處理;通過用數據庫中所有該屬性已知的屬性均值,來填補基礎數據存在的空白部分。以上處理方式能夠使基礎信息得到較完整方整理,在對經濟管理數據信息整理完畢后,再對這些按照規律排布的數據進行分析,得出可靠的結果。均值法的計算公式為:
Ci=(i-1)∑(i-k)Cj|K (Ci :當前數據點的取值;Cj:當前數據點前后不為空的數據點;K:當前數據點所取的參考數據點數量。)
平滑法是對不斷獲得的實際數據和原預測數據給以加權平均,使預測結果更接近于實際情況的預測方法,又稱光滑法或遞推修正法。數據信息處理中的平滑法,主要使用加權平均的方式考慮各個數據對最終結果的影響。根據不同數據占整個數據體系權重的高低,整理出最接近真實情況的數據結果。平滑法的計算公式為:
Ci=(i-1)∑(i-k)WjCj|(i-1)∑(i-k)Wj (Wj:Cj數據點的權值。)
(二)數據挖掘技術的集成化處理方式
數據挖掘技術需要根據不同地區企業的不同情況,進行經濟數據信息的統計。目前我國不同地區有不同的經濟數據統計標準,針對不同標準如何對數據進行集成,成為數據挖掘技術最關心的問題之一。數據信息的集成工作,需要在符合社會經濟數據信息真實性的基礎上進行。數據集成活動需要注意以下幾方面情況:
1.模式集成。目前的經濟數據信息來源多種多樣,不僅政府官方會不定時進行經濟數據信息發布,更多民間組織也會進行經濟數據信息的發布。眾多的經濟數據信息使得數據識別工作進展困難,數據挖掘技術需要對不同來源的數據信息進行識別;還要從眾多的數據信息中,挑選出與數據擁有者檢索內容關聯度緊密的數據信息。
2.冗余問題。數據挖掘技術,是對原始數據進行篩選與加工處理的技術。數據挖掘技術處理冗余問題方式為:通過分析找出與檢索條件相關度較高的數據資料,并將這些資料適當的刪減與整合,成為精簡的數據體系。這種做法目的是使數據庫中的整體數據量維持在較低水平,同時也使降低數據庫中冗余數據的最好方式。對于經濟數據而言,冗余數據包括方方面面的數據信息。它不僅包含那些真實程度低、重復率高、錯誤率高的信息,也包含那些能夠用其他形式計算出來的數據信息。比如:人均國民生產總值能夠運用國內生產總值、總人口屬性兩者運算計算,所以該信息即為冗余數據信息。
(三)數據挖掘技術的決策樹方式
數據挖掘技術需要在對經濟數據統計分析后,輸出符合信息使用者需要的數據信息。而決策樹方式即為輸出數據信息的有效形式,決策樹能夠快速對所需要信息進行分離,然后以樹狀圖方式表現出來。決策樹建構過程包括以下幾方面:將所有的數據信息整理,挑選出重要信息建立出決策樹體系;將所有的數據信息進行分類,根據不同方向對各類信息進行等級排布。通過細化的等級排布,挑選出對信息使用者有用的信息,并進行分析總結。對決策樹的類別分布,需要在不同分布階段進行數據挑選工作。決策樹的數據分布完成標志為:決策樹中某一分支上的數據輸運同一類別;決策樹中的數據已經達到無可分割的地步。在決策樹分割完成后,需要對整個決策樹進行修剪工作:剪掉那些對所求目標關聯度不大的數據,使整個決策樹體系呈現出統一狀態。
五、結語
數據挖掘技術依靠企業、社會方面提供經濟信息,通過精簡化的處理、分析、總結,得出企業發展所需要的數據信息。目前數據挖掘技術不僅能夠對大量信息進行處理,還能根據用戶所需要的形式進行不同轉換。這種強大的信息轉換系統,依托數據庫知識、模式識別系統、模糊概念技術等多種知識系統,形成功能強大的數據庫信息處理體系。但數據挖掘技術仍存在著用戶界面操作困難、面向群體范圍小、軟件學習難度大等多方面問題,因此需要不斷對其進行優化,才能為用戶提供更加方便快捷的服務。
參考文獻
[1]高麗,王麗偉.數據挖掘技術在國內圖書館應用領域的研究[J].數字技術與應用,2015,(12).
[2]肖明.大數據時代下數據挖掘技術在企業中的應用[J].中國管理信息化,2015,(2).
[3]梁雪霆.數據挖掘技術的計算機網絡病毒防御技術研究[J].科技經濟市場,2016,(1).
[4]陽馨.高校管理中應用數據挖掘技術的途徑研究[J].數字技術與應用,2016,(1).
作者簡介:楊文燕(1992-),女,重慶人,本科在讀,研究方向:經濟統計。