石巖
大數據是現今社會一個熱點話題,我們每個人都置身其中。就像前幾年出現的云計算一樣,大數據已經逐步引起各行業的廣泛關注。那么,什么是大數據?如何對大數據進行相應的分析?它在以數據為主要工作內容的統計中又如何應用?本文將對以上問題作一些初步的探討。
一、大數據的概念與特征
(一)大數據的概念、特征與基本技術
1、大數據的概念
什么是大數據(big data)?大數據或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策等更積極目的的咨詢。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理,也即是處理分析數據的能力。
2、大數據的特點
(1)數據體量巨大。從TB[1]級別,躍升到PB級別,大型數據集規模一般為TB[1] 級左右,而大數據一般是 PB級至 EB 級。截至目前,人類生產的全部印刷材料的數據量約為200PB,而歷史上全人類所有說過的話的數據量大約為5EB。
(2)數據類型繁多。大數據類型很多,不再是傳統結構化數據,更多是非結構化、分布式和單調模式,如網絡日志、音頻、視頻、圖片、地理位置信息等。
(3)價值密度低。大數據價值普遍偏低,以行車記錄儀為例,在連續不間斷監控過程中,可能僅有一兩秒是有用信息。
(4)處理速度快。大數據的數據挖掘技術與傳統數據采集技術有所不同,其處數據處理速度非常快。物聯網、云計算、移動互聯網、手機、平板電腦、PC以及遍布地球各個角落的傳感器,都是數據來源或者承載的方式。處理速度與傳統的數據挖掘技術有著本質的不同。
二、大數據時代對統計工作提出更高要求
(一)統計工作方式方法要求更高
1、數據的采集環節要更加流暢。改革后的統計流程是從報表設計—報表布置—報表受理—數據采集—錄入匯總—審核查詢—上報—公布,大數據生產的主體不同,來源形式多樣,因此遵循的統計標準也不相同,如何改進原有采集模式,對數據進行標準化采集是目前統計工作面臨的主要問題。
2、數據的發布要求相對更高。傳統數據的對外發布以政府統計的主動公開為主,數據經過層層把關、嚴格審核才予以公布,公布的范圍也僅限于傳統紙質媒介,發布范圍較窄,統計數據的時效性也相對滯后。而大數據產生速度極快、更新時間極短、體量容積極大,對數據發布的時效性要求高、數據發布的形式多樣、數據發布內容也提出更高的要求。
(二)統計指標范圍要求更加規范
傳統的統計指標是根據研究目的和研究對象的特點而設計的,是可以計算量化的結構性指標;而大數據的生產主體不一、來源日趨多元,在形式和內容上與傳統指標大相徑庭。對傳統統計體系中應用價值較少的指標要予以廢除,認真分析大數據的來源、存在方式、數據類型和統計標準,與現行的統計標準和指標體系進行研究對比,統一統計范圍、指標內涵、統計口徑和相關定義,設計出一整套能夠適合大數據特點的統計指標體系。
(三)數據采集方式應該不斷完善
大數據時代,數據來源渠道非常廣泛、數據產生方式多種多樣,依靠原有的方式方法開展數據采集工作已不能適應新形勢的需求。一大數據的數據采集方法發生了根本變化,調查設計也相應作出改變,建立在大數據技術與后臺軟件基礎上的調查設計是通過數據挖掘與數據提煉來提升數據的使用價值。二可以積極運用先進的技術,采用源頭測量方法,取得信息技術記錄下的原始數據,提高數據采集的效率和精度。三是通過培育和發展統計調查中介機構,建立數據采集中介機構的法律準入制度,充分利用社會力量參與統計數據采集工作,積極對現有的統計數據進行相應的印證、評估,從而提高統計數據的質量和統計的公信力。
(四)對大數據的處理能力不斷增強
大數據本身的特點是體量龐大而且內容繁雜,要在技術的研發和運用上著力,要認真研究非結構化數據轉化為結構化數據的技術和方法,通過對信息技術、巨量的數據、主要指標進行研究與分析,推動數據處理方式由簡單匯總向深層次挖掘方向進行轉變,努力開發對數據的預處理的程序,提高數據處理的智能化應用程度,運用大數據分析開展對經濟的預警預測,打造出高質量的統計數據產品為社會經濟和公眾服務。
(五)統計信息服務不斷優化
大數據要有大服務,大服務需要大產品。在大數據環境下,統計產品的產生在數量與類別上也將大幅度攀升,統計產品得到極大的豐富。這必然要求發布媒介更加多樣,在部分較為成熟的領域或沒有爭議的數據進行實時統計與數據發布,在不侵犯個人隱私和確保數據安全的前提下,利用目前趨向成熟的云技術,開放數據源,讓用戶直接提取統計數據,將統計服務進一步向客戶端延伸,提升對統計數據的解讀能力,更大程度上滿足統計數據的多樣化需求。
三、如何利用大數據提升政府統計工作上水平
(一)轉變政府統計的職能
大數據時代,作為數據信息搜集發布維護的部門,政府統計不應僅僅是數據的主要生產者,不應再全面專注于的統計數據采集。而應成為社會經濟發展的權威、數據資料的主要提供者。新形勢下,統計部門要充分利用政府掌握的社會管理資料、行政記錄信息并結合自身采集數據資料來充分挖掘新的信息,建立社會經濟數據權威平臺,成為數據信息的權威分析者和發布者。數據是統計工作的生命線,統計分析報告是政府統計的重要成果之一,政府統計分析應取之于數據、經過提煉加工,形成遠高于數據累積的預測和擴展性的分析。
(二)重塑政府統計生產流程
1、完善采集方式。針對大數據中非結構化數據比重很大的特點,研究對非結構化數據進行采集的方式,開辟新的采集渠道,應用新的采集技術。還要探索如何通過搜索、購買、合作等方式,采集重要的基礎數據。
2、改進數據處理。針對大數據量大且內容龐雜的特點,認真研究將非結構化數據轉化為結構化數據的方法和技術,積極推動數據處理方式從簡單匯總向數據挖掘方向轉變,加強對數據的預處理,提高數據處理的智能化程度。
3、豐富分析手段。針對大數據產生速度快、存在形式多樣且關聯性強的特點,通過加強實時分析、關聯分析和可視化分析,提高統計分析的時效性、趨勢性和直觀性,提升統計工作的分析水平和預警預測能力。
4、完善數據發布。針對大數據即時產生、內容豐富、形式多樣、主體多元等諸多特點,增加統計數據發布的內容,豐富數據發布的形式,提高數據發布的頻率和時效性,加強對數據的解讀,更好地滿足社會各界對統計數據的多樣化需求。
(三)構建部門聯合統計體系
在大數據背景下,行政記錄、商業記錄等變得更加重要,要實現大數據的應用,就要在堅持完善現行統計框架和調查渠道的基礎上,構建規范、統一、高效的新型統計體系。
1、加強部門配合,強化基礎框架和整體設計,根據官方統計的需要,統一編碼系統和登記記錄系統,整體設計使用大數據的基礎性框架,從大數據的產生源頭推進數據的規范化、統一化。
2、明確部門義務,對行政、商業登記數據的收集和發布都以明確的條文規定下來,并以法律的形式規范各部門的權利和義務。
3、推進部門協作,共同協商大數據的價值挖掘與分享機制,使大數據能夠作為一種重要的資源,與傳統統計數據一起加以統籌使用,以最大限度地提高大數據的使用效率。
(四)實現大數據資源共享
要加快推進統計信息化建設進程,依照統計數據的準確性、及時性、可得性和可解釋性等特點,開發建立與統計工作流程相配套的數據采集系統、存儲系統和分析軟件,實現對大數據資源的共享和開發利用。