劉鉅杭 廣州市白云區統計普查中心
大數據時代的特點就是數據增長速度越來越快、數據量劇增,給經濟普查數據分析工作帶來了更大的挑戰,如果仍舊固守著老舊思想與分析模式,那么必然無法應對時代的難題。
我國在經歷了前幾次的全國經濟普查工作后,逐步建成了頗為完善的經濟普查體系,克服了許多困難點。但是隨著經濟的不斷發展、人口的逐漸增多,經濟普查工作涉及的數據也越來越多,而大數據時代的到來,就迫切需要可靠且有效的經濟普查數據分析模式、數據挖掘工具與方法。經濟普查的大數據內容反映了近些年來國內經濟發展狀況,切實記錄著我國經濟的屬性特征、數據的結構特點以及在特定時間段的數據變化規律,具體開展經濟普查數據分析的對象包括國內第二產業及第三產業法人單位數據、個體經營戶數據以及產業活動單位數據等,普查的內容包括單位的實際屬性以及員工數量等等,從實際情況來看,每次開展經濟普查其數據就會更多,考慮到這一情況,怎樣選擇數據挖掘技術方法、怎樣運用數據分析工具,切實發揮出數據價值,成為一項重點關注的問題。
大數據時代與以往時代發生了較為明顯的改變,在經濟普查數據方面,數據的類型明顯更多。如果不能夠清晰地認識到數據的豐富性,就可能導致經濟普查數據分析出現不足,可能會影響未來發展。比如,在大數據時代,開展經濟普查數據相關工作,應當從全局觀的角度出發,重視每種數據,一些數據盡管表現出的作用不是十分明顯,但其對于全局工作而言仍舊是不可或缺的,因此在具體開展工作時,也應當投入更多努力,不忽視每項數據,盡可能保證大數據時代經濟普查數據的質量,為全局工作提供更多幫助。
現階段已經完全進入到了大數據時代,因此數據也變得更加多元化,即數據的表達是多種多樣的。基于這些特點,大數據時代的經濟普查數據分析過程中需采用科學應對模式,以便于對各項問題實現針對性解決。比如,大數據時代開展經濟普查數據分析的過程中,對不同數據的解讀存在的差異性也是十分明顯的,在經過不同角度的深入分析以及理解后,會落實到實際問題的處理層面上,切實保證經濟普查數據分析工作的多元化開展。
大數據時代數據的多變化特點越來越明顯,從經濟普查數據工作的角度來說,該特點也應當是重點關注的內容,其具有較高的解決難度。在開展經濟普查數據工作的過程中,數據比較容易受到外部多種因素的影響,且不同因素的作用影響差異也是比較大的,比如國家針對這方面頒布了新的政策文件,那么可能直接導致大數據時代經濟普查數據工作發生全面轉變,避免遺漏性問題,影響到整體工作的結果。此外,對于數據更加多變的這種特點,經濟普查數據工作也應當要結合區域發展的模式以及實際工作特點來對待。
在經濟普查的整體工作體系中,經濟普查數據分析工作是最為基礎,也是最為復雜、工作量巨大的工作。隨著大數據時代的發展,其處理分析的數據類型越來越多,數據量不斷增長,實際工作的挑戰性越來越強,對于該項工作的要求也越來越高,既強調經濟普查數據分析的準確性,也強調其分析的有效性和系統性。
經濟普查數據分析工作在新時代對準確性的要求更高,從這一要求的視角出發,實際分析數據時要始終堅持實事求是原則和真實準確原則,嚴禁出現數據造假的行為,而為切實把控數據的精準,就要明白某一時間段內的國家發展是動態化的,其經濟、產業以及人口等方面都存在較多變化,因此保證數據準確就要對這種變化進行分析。實際數據收集中發現,許多時間點的數據都出現了較大波動,那么就需要分析這一時間點數據波動的具體原因,避免產生大數據誤差,保障經濟普查工作的質量。
系統性與復雜性是當前大數據時代經濟普查數據分析工作的特點,而系統性也決定了整體經濟普查數據分析的質量,因此其具有一定的系統性要求。經濟普查數據分析的過程中,需保證人員能夠切實掌握全部情況,還需對人員加強管理與培訓,發揮出各項優勢。還要積極學習新的數據分析方法,在數據分析工作中不斷摸索規律,累積經驗,促進對復雜數據的有效轉化,提升數據分析質量。
不管是從前還是在大數據時代,經濟普查數據分析對有效性都有要求。從技術視角來看,隨著經濟普查數據類型的多元化、多樣化以及多變化發展,其不同類型數據內容的關聯性卻在下降,同時,經濟普查數據分析的成本和效率都是應當關注的內容,這也需選擇最為有效的數據挖掘技術及數據分析技術,提升經濟普查工作的整體信度以及效度,也優化普查的內容。
在大數據時代,經濟普查數據的方法與傳統普查數據方法有著很大不同,同時,經濟普查數據工作的要求也變得更多。在這些要求的基礎上,從加強經濟普查數據管理、構建完善體系、選擇科學的數據挖掘和分析技術等多個方面全面考慮,切實讓經濟普查數據分析有機融合大數據,提升經濟普查數據分析的成效。
根據大數據經濟普查數據分析的要求,對整體經濟普查數據分析加強組織管理,以便于建立起更為完善的經濟普查數據分析機制。一方面要更加重視大數據時代的經濟普查數據分析工作,做好其基礎管理工作,明確經濟普查數據分析的最終目標,明確實際工作流程,強化各個流程的銜接,對各環節之間的有效溝通進行把控,對實際工作人員的職責進行嚴格劃分并保證責任落實到個體,積極引導各崗位人員運用科學的數據分析方式開展最基礎的分析工作,還要把控好大數據預測分析方面,為下一步的經濟普查數據分析打好基礎,充分把握影響到經濟普查數據分析的各種因素變動情況,還要了解數據分析的實際規律,靈活運用大數據挖掘技術,促進數據分析質量的提升。另一方面則是強化對經濟普查數據分析全過程的探索,根據情況的不同來選擇不同的數據分析方式和方向,將分析方式進行分類界定,對于數據信息的采集工作,也需制定完善的采集計劃,經濟普查數據的變化較常見,且不同類型的變化情況也不一致,比如,針對變化量較大且實際增長存在不穩定狀態的數據,在進行分析時可以運用平均估算的模式,先進行抽樣,再進行處理。充分結合經濟普查數據分析的實際工作安排來完善分析基礎,確保與其他環節之間保持合理銜接,對于經濟普查數據分析的結果,還要定期開展檢驗和比對,保證分析結果的客觀準確,如果發現存在問題應當及時分析問題產生的內因并進行改進,如果有必要也可重新開展數據采樣,但需注意更換一個階段,提升經濟普查數據分析的可靠性。
有效開展大數據時代的經濟普查數據分析工作,要保證整體分析的系統性,必然離不開完善的經濟普查數據分析體系,經濟普查數據分析本身涉及的工作面就較廣,其實際實施的周期也比較長,完善的體系有利于制定出經濟普查數據分析實施的指導方案,保證實際工作每個環節銜接的順利,保證工作準確落實,結合多個方面的基本要求,整合數據統計和分析過程,深入探索其可能存在的風險并及時進行排查,提升普查的效率。除此之外,還應當加強資源的調度與重組,由于經濟普查數據的復雜化,那么在結合大數據技術分析的過程中,應當獲得資源支持,以及保證各項硬件設施的完善。對于開展經濟普查數據分析的工作人員,也要提升素質標準,結合數據收集、分析處理等特點對其進行能力與綜合素質進行培訓,保證人員充分掌握新技術方法,還要進行考評,保證經濟普查數據分析工作的順利開展,把控每一類數據的比對分析,結合實際負責制,出現問題糾察個體責任,對各環節進行把關,實現數據的快速傳輸和深入分析。
大數據時代,應當針對經濟普查實際情況,在經濟普查數據挖掘方面,選擇最為先進的技術方法,選擇最方便與合適的工具軟件,利用這些軟件和數據進行典型數據的預處理,探究出最適合的現代化數據挖掘方法。當前應用較多的數據挖掘方法如下。
1.SAS 統計分析軟件
該軟件的特征是模組中具有體現出集成化和模塊化的軟件系統,該系統也是功能發揮的核心,負責數據訪問工作、數據管理工作、數據分析工作和數據呈現工作,都是圍繞著數據來展開的。SAS 軟件還具有靈活性特征,能夠向外拓展,主要是接口功能擴展形成功能模塊,不同類型的功能模塊也能夠帶來不同的作用。此外,SAS軟件在數據統計方面具備較多函數,還具有智能繪圖功能,能夠更加直觀且清晰地了解數據。
2.SQL Server 2000 analysis services 軟件
該軟件是一種具有完整數據庫分析類軟件。軟件的開發一開始是為了提供具有可伸縮性的電子商務,同時迅速解決企業與數據倉庫的問題。在經濟普查數據挖掘中,運用該項軟件可以切實獲得數據分析和數據管理相關的解決方案,在數據庫的應用和電子商務的開發方面都盡可能為用戶縮短時間,使得數據分析更為高效,業務擴展方面更為靈活,具有更安全的操作系統集成和更適用的客戶管理工具,能夠迅速開發且進行生產投入。
3.決策樹
決策樹的主要構成包括決策點、狀態點和結果點。在實際進行決策樹的使用之前,用戶需切實掌握各種情況發生的概率,然后進行決策樹的構成,再通過決策樹獲得凈現值的期望值大于或是等于0 的概率,對項目的風險開展評價,對決策的可行性進行客觀判斷。決策樹事實上就是一種圖解法,但其是圍繞著概率分析來展開的,具有直觀性特點。決策樹很容易實現且便于用戶理解,決策分析所運用的時間也頗短,實際測定的模型具有較高的可信度。但決策樹也有著不足之處,那就是其實際分析的過程較為粗放,缺少了精準性,這也會導致連續性字段的預測方面難度增加,而對于有時間順序的數據還需要進行預處理,同時也會帶來較高的錯誤率。
4.Intelligent Miner 工具
Intelligent Miner 工具的特點是具有多種數據挖掘算法,同時也采用了多種統計方法。該項工具能夠處理許多數據類型,在數據的挖掘工作中具有較好的應用效果,比如能夠處理結構化數據類型,包括數據庫視圖的數據和數據庫表的數據,還有半結構化數據類型,包括資源庫、報表等,也能夠處理非結構化數據類型,像是在線服務、顧客信件等等。其運用的技術是獨一無二且先進的,比如發現關聯技術、典型數據集的自動生成技術、概念性分類技術、發現序列規律技術以及可視化呈現技術等等。基于這些技術,能夠完成全套的數據挖掘操作,包括數據的選擇、數據的轉換以及數據挖掘結果的表達等等。
5.SPSS Clementine 平臺
SPSS Clementine 是具有數據挖掘功能的平臺,其具體的原理是快速建立起有效的預測性模型。這種模型在實際運用時,可以幫助用戶對決策方法進行改進,也能夠改進決策的過程,比如在商業活動中,SPSS Clementine 平臺強大的數據挖掘功能,能夠獲得較顯著的投資回報率。并且處于相同條件時,與普通只關注模型外在的數據挖掘工具相比,該數據挖掘工具更看重數據挖掘的應用在整個流程中所體現的價值,且具有著不可取代的數據挖掘算法,讓數據挖掘貫徹于始末。
綜上所述,在大數據時代,經濟普查數據分析工作的復雜性變得更高,這主要是由于其數據的多元化、多變化以及豐富化發展。經濟普查數據分析工作應當采用更為先進的數據挖掘技術,提升數據分析的質量。由文章分析可知,大數據時代經濟普查數據分析的具體方法包括:結合實際情況加強對經濟普查數據分析的管理、建立起完善的經濟普查數據分析體系、探索現代化的數據挖掘方法。