邢迎秋

摘要:隨著云計算技術概念的提出和逐步發展,社會經濟正在進入大數據應用時代。大數據背景下,統計工作必須緊緊著眼于用戶需求,提升統計數據的質量,更好地發揮統計數據的價值。
關鍵詞:大數據;數據統計;影響因素
大數據的技術應用正在向各個行業滲透,未來的數據將會像石油一樣成為重要的資源,推動社會的進步和發展。統計數據只有可靠,準確,及時才能為決策者提供合理的依據,因此保證統計數據的質量,在今天大數據時代顯得尤為重要。大數據越來越呈現出海量,非結構化,實時,電子化處理和多元等特點,在數據的處理上帶來了難度,數據質量上一些細微的問題將會通過大數據海量的樣本被放大,導致嚴重的問題,這是當下大數據最需要解決的問題。
(一)統計數據核心的轉變
在大數據的背景下,數據統計的核心正發生著變化。傳統的數據統計對于數據的核心要求是“準確性”,統計數據要能真實反映發生的問題。而今天的數據統計最終是要向消費者服務的,數據統計的核心要求是“客戶需求”。
(二)統計數據的質量要求
針對目前的大數據發展情況,馬建光認為統計工作面臨的最大挑戰是海量的,多樣的大數據獲取和處理問題,它們決定著大數據的質量。如何解決這種問題,有關專家學者提出:要從技術,流程和管理三個方面入手進行相關問題探討,而且對統計數據的質量評估也要進行多維度的驗證,主要從邏輯規則檢驗、核算數據重估、計量模型分析、統計分布驗證、調查偏差評估、多維評估延伸六個角度。
大數據背景下,在統計數據的質量研究上國內外學者形成了共識:非技術因素中人為因素和環境因素是兩大影響因素,非技術性因素在統計數據的質量上應該得到更多關注。大數據背景下,統計數據所呈現出來的特點使得統計數據質量問題極為復雜,這里面既有技術因素也存在非技術因素的作用。為了保證統計數據的質量,需要及時發現各種影響因素,并通過科學的方法將影響降到最低。
美國麻省理工學院的Richard Y.Wang教授提出了全面數據質量管理理論,他認為影響統計數據質量的主要影響因素是流程,技術和管理三個方面。圖1展示了這種理論概念模型。
(一)流程維度的影響
從該維度對數據進行分析,主要從數據收集,數據存儲,數據使用三個階段來進行,這是數據的整個生命周期在不同階段的處理功能。
1. 數據收集階段
在數據收集的方式和統計標準上,大數據時代因為智能設備,傳感器以及社交協作技術的應用和普及,使得數據的來源發生了很大的變化。
如今網頁,搜索引擎,社交媒體論壇,主動和被動系統傳感器成為大數據的產生來源,海量數據的產生,讓統計數據在廣度上無限接近“總體”,這樣的大數據收集明顯地優勢就是會增加統計的準確性,但是數據接觸范圍的擴大會帶來許多以前未曾出現的問題。另一方面數據的時效性比以前大大縮短,而有效的數據收集,才能保證統計數據的質量,這也是一種新的挑戰。
2. 數據存儲階段
傳統的數據存儲結構已經無法滿足大數據存儲的要求,大容量及高擴展性,高可用性,高性能和訪問接口的多樣性都要求改變單一的數據存儲結構。
現在的數據存在著大量視頻,圖片等非機構化數據,使用以往的存儲要經過復雜的轉換過程,將其轉換為結構化的數據,但是這個過程不可避免地會出現轉化方式不合適,直接導致數據的完整性和準確性。實現大數據效益的最大化就必須將這些非結構化的數據與結構化的數據有機結合,建設新型的數據庫。
3. 數據使用階段
大數據時代數據成為一種共享的資源,不再由某一個人或者某一個部門單獨使用。數據的提取和更新愈加頻繁,這中間的任何失誤都將造成數據質量的下降。社會信息化的發展使得數據的產生和傳播加快,許多事情的產生都是瞬息萬變的,因此對數據進行及時處理分析,才能保證數據的價值不過期,作為決策者才能做出合適的決策。
(二)技術維度的影響
大數據技術包含數據庫技術,數據質量檢測識別和數據分析技術這三個方面,它是準確預測未來的保障,體現了數據分析的真正價值。
1. 數據庫技術
企業數據在大數據時代最明顯的特征就是數據量的增加,這種增加的速度是以往難以想象的,呈現出了指數級的增長。增長的內容既有信息量的增長,也有數據結構的增長,因此數據的統計越來越復雜。
傳統的數據檢測技術在檢測結構化的數據時很方便,但是非結構化數據的出現使得傳統的檢測技術出現了難以應對的情況。數據中錯誤,缺失,無效或延遲的情況時有發生,這極大地增加了檢測的時間成本。企業需要配備更高端的檢測設備,引進或者研發新技術來處理大數據,保證數據質量。
2. 數據質量檢測和識別技術
數據質量的準確性,適用性和及時性檢測依靠人工判斷,會越來越難,必須引進有效的數據檢測技術,及時發現數據存在的不足和缺陷,同時在實踐中完善數據質量檢測技術,滿足大數據時代數據檢測的要求。
3. 大數據分析技術
數據收集之后,經過分析才能得出數據的價值。可視化分析成為目前大數據分析技術中的主流,數據挖掘算法可以有效處理不同類型和格式的數據,對傳統的數據分析進行完善和促進這些都是數據分析能力的提升。
(三)管理維度的影響
數據管理作為數據質量保證的重要一環,人在其中起到了決定性的作用。在這個維度中企業管理者的認識,專業數據庫管理人員的配備,政府統計制度和統計數據標準是影響數據質量的四個重要因素。
1. 管理者的認識
重視首先需要認識其重要性。企業的管理者要充分認識到大數據對于企業發展的重要性,支持和重視大數據的建設,讓大數據的應用有效落實到企業工作中,真正發揮大數據在企業決策中的作用,為企業提供正確地的發展方向。
2. 數據庫人員的配備
大數據的管理難度就在于它的復雜性。作為企業發展的重要部門,數據管理不能馬馬虎虎,應付了事。配備專門的數據庫人才進行數據庫的管理和維護,能夠確保大數據的質量。而這類人才的選拔既需要能夠解決技術問題,也需要熟知企業的業務。
3. 統計體制和標準的建立
大數據產業的發展推動著社會經濟增長,政府部門對此應該有足夠的重視,積極制定相關統計制度,建立統計體制和標準,進一步保障大數據的發展,適應國際發展形勢。
大數據時代的數據不再局限于單獨的部門,不同部門數據的共享將會打破以往統計數據之間的孤島問題,將統計數據變成一個生態系統。因此想要提高統計數據的質量就必須從整個數據的流程體系上進行改進。
(一)流程方面的解決對策
政府部門應該進一步增強對大數據的管理意識,建立專門的數據質量監控和評估機構,建立健全和完善統計產品質量管理體系,形成統計數據質量保障的長效機制。
數據收集的時效性和數據收集過程中的干擾是影響數據質量的關鍵因素,新型的統計數據集成平臺必須致力于收集過程的規范化和透明化,提升時效性和減少統計的干擾因素。建立基于數據倉庫的統計數據集成平臺,實現多類型數據的存儲,提升數據集成以及后期數據分析處理效率。
政府部門應在統計工作中處于主導地位,加強統計工作的協調,尊重統計客觀規律,拓新統計技術和方法,放開數據共享關隘,最終建立以滿足用戶需求為導向的數據分析結果。
(二)技術方面的解決對策
技術方面的解決對策需要關注的一個是技術本身,另一個是使用技術的人。在技術引進上,云存儲技術專注于向用戶提供以互聯網為基礎的在線存儲服務,是一種高效率和低成本的數據存儲技術。最大方便地滿足了用戶對數據存儲的需求。為了保證統計數據的質量,必須將數據質量檢測技術貫穿整個數據周期。大數據技術應進行全面運用,統計數據的價值挖掘,預測分析和可視化分析將為數據預測的時效性和準確性提供重要支持。
(三)管理方面的解決對策
作為政府統計部門和企業管理者應該重視大數據的應用價值,樹立科學合理的統計觀念,加強統計法制法規的建設,完善數據標準和統計制度體系,來保證統計數據質量的提高。
參考文獻:
[1]魏瑤.統計調查中數據質量控制對策研究[J].中國高新技術企業,2016(04).
[2]羅放華.大數據時代的統計主體利益均等化路徑研究[J].統計與決策,2015(02).
[3]郭彥君,魏婷.統計數據質量問題研究[J].現代經濟信息,2015(02).
[4]宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報(社會科學版),2013(05).
[5]馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013(02).
[6]程開明.基于利益相關者視角的統計數據質量管理體系研究[J].商業經濟與管理,2013(03).
[7]邢建英.關于提高統計數據質量的幾點思考[J].統計教育,2005(09).
(作者單位:河北省東光縣商務局)