胡杰飛
(美國羅格斯大學,新澤西州 08854)
在國家經濟迅猛發展的大背景下,經濟統計調查面臨的數據量在不斷增加,數據源也變得越來越復雜。因此必須要采用數據挖掘技術,才能更好地滿足經濟統計調查的需求。通過加強數據挖掘技術在經濟統計調查中的應用分析,能夠促使數據挖掘技術發揮應有價值,提高數據經濟統計分析質量水平。
(1)數據挖掘技術能夠處理海量的數據信息,有利于減輕統計調查人員的工作量,便于統計調查人員從海量的經濟數據中挖掘出更有價值的信息,在提高經濟統計調查效果的同時,還能夠有效提升經濟統計調查效率。(2)數據挖掘技術具有搜索與數據信息預測功能,從而能夠對市場決策起到一定的輔助作用。在實際進行數據調查統計分析的過程中,一方面,可利用數據挖掘技術搜索功能所自帶的“關鍵詞聯想搜索機制”,幫助統計調查人員在短時間內就能夠搜索到想要的數據信息[1]。另一方面,借助數據挖掘技術的預測功能,能夠在不同統計調查數據信息之間,找出隱藏的規律,建立相應聯系,從而合理預測后續的經濟趨勢走向,充分發揮經濟統計調查的作用價值。(3)數據挖掘技術本身具有較強的綜合性功能價值,便于統計調查人員在進行經濟數據統計分析時,實現對數據信息的分類、整理、開發與利用,且這些數據信息可長期存儲,從而滿足不同部門的應用需求。
所謂數據的集成化處理,簡單來說就是通過加強各種數據信息的整合,讓雜亂無章的數據信息按照某種規律排列,變得井井有條。但在國家經濟迅猛發展的大背景下,經濟數據信息變得更加復雜,數據信息來源也更加多變,這些都增加了數據信息的集成難度。究其原因在于,很多經濟數據在來源方面,并不僅源自于官方的數據統計局,實際來源較為復雜,因此在應用數據挖掘技術的集成功能性,必須要加強對經濟數據信息的識別。例如,在實際應用數據挖掘的技術中,在相應數據庫中,需要明確“sfd-id”和其他數據庫中“std-no”象征的數據實體是否一致。在集成分析的過程中,通過對數據庫之間的數據信息元數據進行比較分析,能夠更好地保障數據識別的質量。并針對在原始數據中,具有正相關關系的數據,實現高效的處理,更加便于經濟統計調查人員進行數據信息的應用與分析。
對于決策樹方法而言,本身是一種非常直觀的數據分離方法,在實際應用該方法的過程中,完成決策樹的建立非常關鍵。在實際建立決策樹的過程中,應著重把握以下兩點:
(1)在訓練集的幫助下,完成一顆決策樹的建立,并對其進行精簡,建立數據輸出探究模型[2]。(2)在已經建立好的決策樹幫助下,針對輸入數據信息,按照決策規律進行分類。上述分類過程,屬于一個循序漸進的過程。一般是從決策樹的根部開始,逐漸分類遞進至決策樹的枝丫,直到分類的數據滿足某種條件為止。達到終止分割條件有兩條:1)在同一個節點之上,所有的數據都屬于同一種類別;2)針對輸入數據,已經無法再次進行屬性分割。一般在完成決策樹的構建后,還需要對決策樹的“枝丫”進行修剪。通過進行“剪枝”處理,能夠有效降低對輸入數據帶來的起伏影響。
在數據經濟統計調查中,針對數據挖掘技術的應用,線性回歸分析策略也是一種比較常用的策略。而進行回歸分析的主要目的,便是為了進一步明確兩種及以上的變量之間,相互影響的一種變量關系。在線性回歸策略的幫助下,能夠建立變量之間的線性回歸方程。通過進行相應的因素探究,便于統計調查人員合理判斷數據變量之間的主要關系與次要關系,用于經濟數據調查輔助決策。不僅如此,通過進行相應的檢驗,降低誤差,才能夠將線性回歸方程作為預測模型,完成對數據信息的預測分析。一般情況下,在實際進行數據挖掘時,回歸分析策略常用于解釋市場占有率、銷售數額等經濟數據信息,借助線性回歸函數,準確表達出上述變量之間的關系,便于進行統計調查分析。例如,針對一些簡單的線性回歸分析,比如某個自變量x與因變量y,兩者之間具有正相關關系,利用這一關系,我們能夠獲得直線方程,讓所有的數據點趨近于這條之間,具體了采用y=a+bx表示,其中a表示截距,b是相應的關系系數。另一方面,還可以進行Logistic回歸分析,運用這種回歸分析方法,應滿足以下兩種條件:(1)目標對象之間相互獨立;(2)自變量與LogitP之間具有線性關系。此外,還應注意,若研究設計為隊列研究,針對橫斷面,需要進行對照分析,在采用Logistic回歸分析方法時,應保證觀察時間一致。當前隨著統計學技術的不斷發展進步,大數據應用越來越成熟,即使在樣本量不多的情況下,也能夠應用Logistic回歸分析方法,且能夠獲得良好的分析效果。但在實際應用時還應注意,針對相應的分析變量,應控制在一定范圍內,并且變量的分類也不宜過多,如此才能達到更好地應用分析效果。
在實際進行經濟統計調查中,針對數據挖掘技術的應用,無論是政府統計,還是部門統計,當前應用體系均越來越成熟,并且收集了海量的數據資源。為進一步推動數據挖掘技術的深度應用,還需要統計部門加強對這些數據資源的梳理,結合實際,明確對大數據實際需求與應用方式。在此基礎上,統計部門還應深入研究、整理各政府部門的行政記錄數據資源,并以業務部門經濟統計調查實際需求為依據,篩選出關鍵數據資源。后續還應擴大數據的收集梳理范圍,比如醫療、衛生等公共服務部門的數據資源。最后,針對私人部門大數據資源,統計部門也要加強相應的梳理工作,從而充分把握全社會經濟數據資源的渠道分布、規模、結構等情況,為數據挖掘技術的深度應用奠定堅實的基礎,有效提高經濟統計調查水平。
雖然如今在互聯網迅猛發展的大背景下,大數據環境發展日益成熟,但在經濟統計調查分析的過程中,還應確保相應的數據滿足基本質量要求。在這一過程中,國家統計局可以與國家大數據中心進行協同合作,結合經濟統計調查實際需要,制定大數據應用官方統計的相應質量標準。與此同時,在相應標準中還應包括對錯誤數據、極端數據、缺失數據的處理方法,從而有效防止采用不科學方法,在后續經濟數據分析中形成路徑依賴。在數據質量標準的指引之下,分地區、分部門對相關數據資源的質量進行科學評估,這對數據挖掘技術在經濟統計調查中高質量數據應用有著較為積極的影響,更有利于數據挖掘技術作用價值的發揮。
經濟統計調查是一項需要長期堅持的工作,在這一過程中,實際應用大數據資源也在隨著經濟形勢的發展變化而不斷發生變化。這意味著在經濟統計調查中應用數據挖掘技術,需要政府提供源源不斷的數據資源支持。而在當下,降低大數據資源的獲取成本,已經是政府部門亟待解決的一項問題。尤其是對政府統計部門而言,雖然可采用低成本的行政手段獲取相應的公共服務部門數據[3]。但針對私人部門數據,還應在提供合理回報的條件下,低價或免費獲取,為達到這一目的,建議成立一個能夠將數據價值變現的機構,用于專門收集私人部門數據,獲取更多大數據資源,助力數據挖掘技術在經濟統計調查中的深度應用。
經濟統計調查是一項較為復雜系統的工作,在實際開展該項工作的過程中,應加強對數據挖掘技術的應用,從而能減輕統計調查負擔,提高工作效率。在實際應用時,還應掌握相應的技術方法,并采用一些有效建議,促使數據挖掘技術實現深入應用,進一步提高經濟調查統計的質量水平。