摘 要:對于統計工作者們來說,高質量的統計數據以及將數據挖掘相關技術所具有的優勢在統計工作當中充分發揮出來,就是現階段所需要解決的重點問題。本文主要分析了數據挖掘技術在統計工作中的創新應用。
關鍵詞:數據挖掘技術;統計工作;創新
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1004-7344(2018)24-0299-02
1 引 言
當前大數據、云計算以及物聯網等這些先進的科學技術在人們的日常生活中發揮著越來越重要的作用,這些先進技術的應用在很大程度上加快了數據傳播速度的同時還在一定程度上提高了信息傳播的質量。在統計工作中,信息技術的不斷應用可以讓數據信息變得更加及時、完整與有效。統計部門以“用數據說話,為決策服務”為職責,其工作的質量與政府決策相關工作的有效性與合理性有著十分直接的聯系。對于統計工作者們來說,如何讓統計數據說明事物本質,以及發展規律,將數據挖掘相關技術所具有的優勢在統計工作當中充分發揮出來,就是現階段所需要解決的重點問題。本文主要分析了數據挖掘技術在統計工作中的創新應用。
2 具體應用過程中數據挖掘技術與統計學方法的區別
通常我們獲取的大量原始資料都比較零星、分散,是不系統的,僅僅反映了事物的表面現象或一個側面,在統計學方法上先進行數據統計整理,分組、匯總,再利用統計學方法進行統計分析,這樣工作效率相對較低。引入數據挖掘技術,即使面臨的數據信息比以往更大,也可提高數據處理效率。與統計方法相比,數據挖掘的優點表現在以下兩方面:
2.1 數據挖掘技術的智能化程度比較高
隨著大數據的發展,數據的生產者和提供者不再囿于政府統計系統,各種互聯網、電子商務、搜索引擎等信息平臺產生的圖片、網頁和音頻視頻等資料都能成為統計數據的來源。面對紛繁復雜的統計數據,對于統計學來說,其主要是通過建模的手法實現在大量數據中選擇有效的數據信息;而數據挖掘技術則主要是為了發現更加有效、可以利用的數據。
2.2 數據挖掘技術可以進一步促進統計學的發展
當前,統計工作人員的主要任務是將數據信息建成模型,并對該模型進行深入的研究,對數據進行詳細的分析。對于數據挖掘技術來說,其主要有以下幾種類型:①決策樹;②神經網絡;③聚類分析等。在統計學中,數據挖掘技術的應用應以不同的需求為根據來選擇,從而在最大限度上提高數據處理的有效性。因為數據挖掘技術具有處理數據量大、維數比較高、結構比較復雜以及種類多樣化等優點,其應用可以在很大程度上加快統計學的發展,提高統計人員工作的質量以及工作效率。
3 現階段統計工作中數據處理方面存在的問題以及缺點
3.1 缺乏統一的數據存儲管理平臺和手段
近年來,統計系統先后建設了以普查、調查和常規統計為主的各類統計應用平臺,但這些平臺互相之間無數據交換共享。如:目前經常使用的一套表數據處理平臺,主要按“五上”專業分布,和利時程序是投資數據處理平臺,久其程序主要是農業數據處理平臺。數據存儲方式、存儲格式及存儲地呈現多、亂、散的特點,缺乏有效的、統一的存儲管理平臺和手段,不利于數據的交換共享和深層次的挖掘分析應用。
3.2 缺少對于數據處理的統一管理標準
由于統計數據處理平臺多數只針對某項專業,統計人員必須熟悉各類應用平臺處理的統計數據對象、范圍、時效等標準,熟練掌握不同時期不同統計應用平臺的操作,這樣給統計數據的挖掘分析等深層次應用帶來一定難度。由于缺少對于數據的統一管理標準使得無法更深入的研究數據。
3.3 缺少對于數據處理的有效開發
雖然統計部門獲得的數據資源十分豐富,但是因為缺少挖掘數據的工具,因而不能對數據資源實現更深層次的分析與研究,所以造成了對數據資源的浪費。對于政府以及企業來說,在進行相關決策時主要根據就是獲得的統計數據,因而需要進一步創新以及開發統計數據方面的工作,但是現階段,統計相關工作尤其是基層大部分停留在數據的匯總階段,并沒有進行后續的相關開發工作。這種做法就使得數據資源不能夠進行再次利用,在一定程度上降低了統計工作的工作質量以及工作效率,從而沒有辦法進一步的創新與開發統計工作。
4 統計工作創新與以數據倉庫為基礎的數據挖掘技術結合
為了能夠有效的解決上述提到的數據統計中所存在的問題,可以應用到以數據倉庫為基礎的數據挖掘技術:
(1)以數據倉庫為基礎的算法可以實現對于在挖掘數據過程中所存在的預處理數據耗費時間問題的有效解決,此外,對于處理數據過程中的抽取、清洗、轉換以及裝載等過程,可以通過數據倉庫的建立而節省掉。
(2)對于數據倉庫來說,以主題組織為根據來存放數據,這一做法更方便挖掘出恰當的數據資源。對于獲得的數據資源往往會因領域的不同而被分為國民經濟行業統計數據、社會民生統計數據、部門數據、各類調查數據等。
(3)從數據資源來看,統計部門只能看到數據處理平臺建成至今數據,歷史數據只能通過其它方式獲取,也就導致有許多的知識如預測性應用等沒有辦法挖掘出來;相反的,數據倉庫存管理數據則可以從PLTP系統、歷史業務數據以及外部數據源中獲取數據,并進一步對數據進行處理,從而最終實現對于獲取數據的有效利用。除此之外,在對數據環境的要求方面上,數據挖掘需要以多維數據集的數據環境為基礎才行,而數據倉庫技術則完全能夠滿足數據挖掘技術的相關要求。所以說,將數據挖掘與數據倉庫結合在一起,進行協同工作,數據挖掘技術可以成為應用數據倉庫過程中非常重要的工具,除此之外,對于挖掘數據過程中的步驟可以進行一定程度的簡化,提高處理數據的質量以及效率,讓獲取的數據資源更加廣泛和完整。
5 利用數據挖掘技術進行統計創新
(1)形成統計大數據運行平臺,建立起以企業一套表、普查數據、專項調查數據為基礎,集統計數據采集、交換、處理、分析、服務、管理為一體,統一規范、大容量、可擴展的數據資源管理中心,為管理部門和社會公眾提供準確、及時、全面的統計信息服務。
(2)全面建成統計數據中心,形成以聯網直報采集平臺、數據交換平臺、數據處理平臺為核心的統計數據生產系統。
(3)實現計算資源、網絡資源、存儲資源、安全資源和數據資源等基礎設施的統一管理、資源共享與運維監控,為各類統計業務應用系統提供統一的基礎設施支持和保障。
(4)建立經濟預測分析系統、經濟動態跟蹤監測預警系統。采用先進的統計分析和數據挖掘創新技術手段,對社會發展趨勢進行短期和中長期的預測分析。
6 結束語
對于統計數據來說,因為其具有十分重要的作用,是政府以及企業進行決策的重要依據。但是現階段統計工作中數據處理方面存在以下問題及缺點:缺乏統一的數據存儲管理平臺和手段;缺少對于數據處理的統一管理標準;缺少對于數據處理的有效開發。為了能夠有效解決上述提到的問題,可以應用以數據倉庫為基礎的數據挖掘技術:①以數據倉庫為基礎的算法可以實現對于在挖掘數據過程中所存在的預處理數據耗費時間問題的有效解決;②對于數據倉庫來說,以主題組織為根據來存放數據,這一做法更方便挖掘出恰當的數據資源;③對于采集到的數據資源,數據倉庫技術則完全能夠滿足數據挖掘技術的相關要求,并簡化挖掘數據過程中的步驟,提高處理數據的質量以及效率,讓獲取的數據資源更加廣泛和完整。
參考文獻
[1]王佳麗.淺談數據挖掘對航空數據統計工作的創新[J].商,2015(35):207.
[2]張振普.經濟統計工作中數據挖掘技術的應用分析[J].中國電子商情:科技創新,2014(11):48.
[3]劉秀華.淺談數據挖掘技術在經濟統計中的應用[J].商場現代化,2014(23):280~282.
收稿日期:2018-7-25
作者簡介:杜 芝(1977-),漢族,陜西澄城人,中級統計師,大專,負責綜合、GDP核算、非公核算、投入產出調查工作。
楊 潔(1973-),漢族,陜西澄城人,中級統計師,大專,從事統計工作。