


[摘 要]在我國宏觀經濟不斷發展的背景下,經濟統計數據因素逐漸增多,傳統經濟統計與經濟數據分析方式已難以滿足現階段的需求。而隨著信息技術的進一步發展,數據挖掘技術在社會各個領域得到廣泛運用,其中就包含經濟統計領域。基于此,本文主要探究了數據挖掘技術的優勢,以及在經濟統計中的應用和發展前景,旨在推動經濟統計工作取得更好的效果。
[關鍵詞]數據挖掘技術;經濟統計;數據信息
doi:10.3969/j.issn.1673-0194.2023.01.044
[中圖分類號]TP311;F222.1 [文獻標識碼]A [文章編號]1673-0194(2023)01-0167-05
0" " "引 言
信息時代背景下,社會市場經濟活動形成的數據逐漸增多,怎樣在這些數據之中提取有效信息,確保經濟統計工作能夠順利進行,屬于現階段討論的熱點話題。作為一種新型統計方法,數據挖掘技術能夠從多個維度對信息數據內涵進行分析,并整合分類具有龐大性、復雜性特點的信息數據,而不是局限于對數理知識的簡單運用。當前,數據挖掘技術越發成熟,除了能夠確保數據信息的準確性、可靠性之外,還可以實現數據信息深加工,進而展現出數據信息的價值,為經濟統計工作提供更好的服務。
1" " "數據挖掘技術概述
1.1" "數據挖掘的內涵
數據挖掘技術主要是指運用特定數據挖掘工具,從數量龐大、隨機、不完整的數據中,使用特定算法,篩選出事先未知的、具有潛在價值信息的數據處理方式,交叉融合了模式識別、機器學習、可視化數據庫以及統計學、信息檢索、高性能計算等多門技術,其中主要涉及搜索和預測等相關功能。首先,工作人員可運用數據挖掘技術將海量信息化繁為簡,整理和分類各類信息,促進數據統計效率的提高。其次,工作人員可將數據做數據庫鏈接后,對市場發展趨勢進行預測,進而為市場決策提供幫助。簡而言之,經濟統計人員可運用數據挖掘技術,加工原始數據,消除不完全性、模糊性以及隨機性,以此促進數據有效性的提高。
1.2" "數據挖掘工具
憑借不同工具挖掘與分析數據,可以在迅速挖取信息的基礎上,對其予以分析和整理,以此確保數據的有效性和可靠性。現階段,數據挖掘工具主要有通用型、綜合型、特定性三種類型,能夠讓經濟統計人員更加便利地獲取信息,讓人們對經濟信息的多樣性需求得到滿足。第一,通用型工具。現階段,通用型工具的應用十分廣泛,符合大部分經濟統計工作的需求。經濟統計人員經常運用SGI Minest、SAS Enterprise等相關計算機軟件開展數據分析和整理工作,提高數據工作效率。第二,綜合型工具。與通用型數據挖掘工具相比較而言,綜合型工具更偏向應用于商業活動,包括Cognos Scenario和Business" Objects等。受經濟信息在線分析、處理、管理報告高要求的影響,其通常用于協助經濟統計工作人員管理與調控經濟主體。第三,特定型工具。和前兩種工具相比,特定型工具專業性更強,并且服務對象大多為特殊經濟領域。對于KDI軟件以及HNC而言,是應用十分普遍的特定型數據挖掘工具,前者主要針對零售領域,而后者則主要挖掘經濟欺詐信息[1]。
2" " "數據挖掘技術的特點分析
當前,隨著數據挖掘技術的不斷發展,吸收了其他學科的知識以及經驗,進而使其在經濟統計中的應用范圍得到了進一步的拓寬,涉及機器學習等多個方面,如圖1所示[2]。對于數據挖掘而言,主要涉及以下特點。第一,信息數量龐大。憑借數據挖掘技術,可收集到許多信息,這也使得其需要處理復雜與廣泛的信息。對此,統計工作人員需對數據實施深加工以及精加工。第二,關鍵詞提取信息。運用數據庫的過程中,如果用戶暫時無法提取自身當前所需的數據信息,抑或是不清楚需要的信息,可以采取輸入關鍵詞的方式進行快捷查找,進而讓數據搜索時間得到有效減少,促進經濟統計工作效率的提高[3]。第三,經濟信息增加量不斷提高。隨著經濟的迅速發展,推動了經濟信息量的不斷增長,進而需要經濟統計部門或人員在運用數據信息庫時,要通過增加內部容量,滿足發展需求。另外,隨著數據挖掘搜索精準度的持續提升,用戶可以順利、便捷地得到所需數據。
3" " "數據挖掘技術的主要優勢
第一,能夠處理大量信息,有利于工作效率的提高。在數據挖掘技術的作用下,可以整合復雜、海量煩瑣的數據信息,工作人員可結合數據發現規律,進行深度信息分析。第二,支持搜索和實時預測,有利于市場決策。和傳統數據處理相比之下,數據挖掘技術可結合關鍵詞實現聯想搜索。同時,該技術還涉及預測功能,經濟統計人員可通過本技術分析與整理第一手經濟信息,然后結合數據庫中的信息,合理預測未來經濟的發展。第三,綜合性強,有利于協調多方經濟工作。通過數據挖掘技術,能夠實現對數據的全面整合與分析,讓散亂的數據信息成為統一的整體,并轉換單一的信息數據,讓各部門擁有數據方面的支持。
4" " "數據挖掘技術在經濟統計中的應用
4.1" "數據轉換
這個階段是數據準備階段,針對即將被挖掘的數據信息不滿足數據挖掘技術使用條件的狀況,需運用數據轉換,指的是把被挖掘數據信息轉化成滿足數據挖掘要求的信息形式。包括三個方面的內容:首先是對數據進行科學篩選與排列,明確目標數據;其次是對篩選的數據進行初步的整合;最后是對數據進行轉換簡化。通常情況下,轉換的重點在于數據規范化和數據泛化。其中,數據規范化涉及以下幾類:規范化零均值、最小規范化及最大規范化。數據泛化則是指轉換高層次數據信息為低層次數據信息。就以上轉化而言,連續轉化信息屬于最為理想的方式。但當前的技術水平難以實現連續轉化信息。因此,需要將數據范圍劃分清楚,分層劃分完后,需第一時間逐層轉化處理這些信息。
基于數據轉化,降低要搜索、研究分析的信息量。
4.2" "數據集成
在經濟統計中運用數據挖掘技術,需處理各種來源的數據信息,讓其能夠迅速地形成一個系統,以便于后期數據分析處理,即數據集成。現階段,數據集成在經濟統計中得到了廣泛運用,相關工作人員在對經濟數據進行匯總的過程中,通常需整合不同地區存在的相關數據統計信息。具體整合時,應重視以下內容。第一,模式集成。對于模式集成而言,需要確保數據信息能夠與具體經濟問題對應,分類匯總不同的數據格式,讓系統自主分析判斷以上內容。比如,部分單位主要采取“stcl_id”的數據格式,但數據庫中不包含此格式內容,進而需要系統對這些數據信息進行分析,對其特點進行總結,最后集成到現有數據格式之中,達到多樣化格式數據處理的目標,防止后期分析數據的過程中,出現資料無法打開或缺失的情況。第二,冗余問題。若一組數據信息結合會影響另一組數據,則該組數據就涉及冗余屬性。較為常見的生產總值就存在顯著的冗余屬性,國家人口數量以及經濟發展價值會對數據特性產生影響。所以,在經濟統計過程中,針對具有該屬性的數據,需開展相關聯信息分析,科學預估經濟發展過程中難以統計的數據,確保經濟統計目的的順利實現。第三,數據沖突問題。分析經濟數據時,會產生同一調研內容由多家組織機構提供數據的情況,使得數據出現沖突。所以,需通過數據挖掘的方式,將不準確信息過濾出來,并運用統一的評定標準。使用單位不同屬于數據沖突的另一種表現。數據挖掘技術可以結合統一的計量標準,轉化分析數據信息,為經濟統計結果提供有效保障。
4.3" "預處理
收集數據的過程中,數據挖掘技術會收集到各類數據。其中部分數據信息可能并非有效與完整的,即存在殘缺、不統一、錯誤、與統計要求不符等情況。因此,對收集到的數據信息分析前,需要對這些信息進行預處理。對于預處理而言,指的是清除噪聲值、空值等相關數據信息。通常涉及頻率統計法、預測法、平滑法、均值法等相關預處理方式。如果收集到的數據存在問題,那么需要結合具體狀況,提前運用適宜的數據處理方式,對這些數據信息予以有效的處理,確保數據信息的可靠性、準確性[4]。在此過程中,平滑法和均值法屬于最為常用的方式,可有效清除數據中的空值和噪聲值。一方面,均值法能夠獲得較為精準的數據信息;另一方面,平滑法可以通過加權平均法獲取到的數據,替代相應平均數,以此將數據最為真實的一面展現出來。
4.4" "決策樹
在數據挖掘中,決策樹(Decision Tree)屬于最為常用的一種分類方式,優勢在于形象、直觀。實際運用過程中,關鍵點在于決策樹的構建方面,決策樹常見算法涉及CLS算法、ID3算法、C4.5算法、CART 算法、Autoclass算法等[5]。對于決策樹算法中倒置的樹形結構而言,可以將數據分類過程通過簡單直觀的方式進行展現,如圖2所示。
比如,在A地生活的張三是一名籃球愛好者,他通過決策樹的方式進行數據分析,以此決定某一天是否打球。詳細步驟如下。第一,集合數據樣本,將其劃分成四個屬性,即天氣、氣溫、場地與風力,再分類數據樣本,包含適合和不適合戶外打球兩個方面。其中,適合通過Y表示,不適合則用N表示。第二,運用ID3算法,將信息熵計算出來。天氣數據表中涉及24條記錄,Y與N分別占12條(見表1),通過分析打球結果可知,張三打球與不打球的概率均為1/2,所以信息熵為1。第三,通過信息熵計算數據。結合戶外打球的四個決定因素,利用信息熵計算和比較,確定決策樹根結點為天氣狀況。第四,以天氣狀況為決策樹根結點,再根據天氣屬性為晴天、陰天、雨天,形成三個分支,計算天氣狀況在陰天時的氣溫、場地、風力情況,進行信息增益(見圖3)。第五,對以上步驟進行重復,直至所有分支記錄均屬于同一類為止,得到最終決策樹。
5" " "數據挖掘技術的發展前景
5.1" "適用性
現階段,部分經濟管理部門在開展經濟統計類活動的過程中,依然難以適應現代信息技術的發展,轉而沿用傳統數據分析方式。因此,其中涉及的缺陷,難以從源頭上得到改善。發揮出數據挖掘技術的作用,可以彌補經濟統計中存在的不足之處,并減少統計工作的重復。在以后也會結合市場發展所需,積極靈活調整相應的技術應用方法,以增強數據挖掘技術的整體適用性,與經濟統計要求相符,并彰顯出經濟數據的多樣性特征。
5.2" "有效性
數據挖掘技術屬于對信息進行深度加工的主要方式之一。現階段,數據挖掘技術在實際應用過程中存在顯著目的性,當積累大量數據后,便能夠被推廣運用到經濟統計的分析管理過程中。在未來發展方面,數據挖掘技術能夠繼續展現出自身優勢,消除數據庫中重復、散亂的數據,通過對數據系統的整合,向經濟統計提供更加優質的服務。
5.3" "綜合性
對于統計部門而言,日常工作內容與其他發展部門之間存在著緊密的聯系,且影響著這些部門經濟的增長情形。基于此,經濟統計數據的應用,逐漸演變成管理與決策的基礎。但是,通過分析實際情況可知,不同部門需要采取不同的管理模式,經濟需求也存在差異,因此對經濟統計體系提出了更高要求,除了應提供給不同管理部門必要的數據外,還應結合管理部門間的差異,及時靈活調整、展開分析,根據不一樣的方式有效提供數據。今后,隨著將數據挖掘技術綜合應用能力的不斷提高,可協助管理部門順利實現發展目標。所以,基于對挖掘技術綜合性優勢的進一步發揮,能有效促進體系應用深入發展。
6" " "結 語
綜上所述,數據挖掘技術在經濟統計中的運用,除了能夠協助政府、單位等進行數據整理和分析之外,可促進企業工作效率的提高,為社會經濟研究提供更好的服務,獲得更多經濟利益。但在應用中也會出現一些問題,需要在發展數據發掘的基礎上,加強對數據挖掘技術的研究。將數據挖掘技術應用于經濟統計工作,應讓有關人員意識到該技術所具備的作用,有序開展各項統計工作,確保數據挖掘技術能夠在經濟統計中實現更好的發展,拓寬數據的廣度。
主要參考文獻
[1]戴鵬益.數據挖掘技術在經濟統計中的應用探索[J].中小企業管理與科技:上旬刊,2021(1):180-181.
[2]王致遠.探析數據挖掘技術在經濟統計中的應用[J].求學,2020(11):49-50.
[3]宋佳苗.關于數據挖掘技術在經濟統計中的應用[J].信息系統工程,2021(5):80-81,84.
[4]楊留華.數據挖掘技術在經濟統計調查中的應用[J].全國流通經濟,2019(26):55-57.
[5]廖友國,熊建益,沈波.數據挖掘技術在現代經濟統計中的應用思路分析[J].商訊,2019(11):106-107.