廖云輝,陳 華
(中國石油大學(華東),山東 青島 266580)
大數據技術應用正在滲透到不同的領域,未來的數據將像石油一樣成為幫助和發展社會的重要基礎。統計數據的最基本特性是可靠、準確和及時,這樣的數據統計才可以幫助決策者找出依據。這就是為什么在當前的大數據時代,要特別注重保證統計數據的質量,這是極其關鍵也是極其重要的。大數據漸漸擁有著很多特點:海量、非結構化、及時、電子處理、多變量,這使得數據處理變得更加困難。一些微妙的數據質量問題將被大量數據樣本所強化,這種情況是大數據背景下,目前最需要解決的問題。
大數據的數據處理、傳輸等,只有在一定時間內完成具體程序,才能收集統計數據,整理、分析相關部門的經濟社會發展狀況,支持決策和經濟發展的重要信息。大數據背景下,大數據技術不斷升級,國家統計四大工程深入并且推進,企業網絡直報等應用不斷深入,統計質量也被推動著不斷提高。
在大數據背景下,對政府統計工作提出了新的要求。第一,傳統的統計概念遠遠不足以實現現代化發展,來自統計的大數據時代變得更加方便,政府也需要根據時代的改變,在數據整理工作方面進行細化和調整統計策略,而后調整指標,并且對事物的分析要改進,改善不同事物之間的關系,提煉出相關信息,并將工作有序開展。第二,傳統統計主要采用結構化統計和分析,但大數據背景下統計信息和呈現方式不斷變化,政府需要不斷調整和改革,此外,對所有類型的結構化和非結構化數據進行更多的標準化,可以處理所有類型的轉換數據。還應更加重視不同類型的企業,特別是新興部門的企業,并應建立良好的監測機制,以提高統計覆蓋率。因此,需要進一步完善統計系統,以便不斷改進數據的使用、分析和管理。大規模數據技術的出現,進一步刺激了數據的不斷發展,有效地推動了數據的加速利用,對社會各階層的發展都具有重要意義。在統計質量內涵上,既要保證統計數據的完整性、準確性,又要保證統計數據的系統性、科學性和連續性,使各行業目前率先擁有準確可靠的數據,率先掌握信息的人就能掌握主動優勢。統計只有通過使用大數據技術和方法來提高處理效率和質量,才可以減少錯誤。
大數據時代對統計質量也提出了新的要求。第一,統計的核心不斷向“以客戶為導向”轉變,以便更好地滿足客戶的需求并顯示使用價值。第二,統計數據質量的重要性不斷擴大。統計數據的質量必須在多元化的層面上加以解釋,以應對挑戰。目前普遍的情況是,數據質量需要在技術、過程和管理三個方面加以改進。鑒于當前大數據的發展,統計工作面臨的最大挑戰是大數據采集和處理的巨大數量和多樣性,大數據的質量這樣被決定了。如何解決這一問題,專家們建議從技術、過程和管理三個方面考慮問題,并從多層面調查的角度評估統計數據的質量。在這方面,國家和國際科學家對統計數據的質量達成一致。人為因素和環境因素是影響非技術因素的兩大主要因素,非技術因素更值得重視統計質量。在數據量大的情況下,統計數據的特點使得統計數據的質量問題極其復雜。為了確保統計數據的質量,應及時識別各種因素,并通過科學方法將影響降至最低。
隨著云計算技術概念的提出和逐步發展,社會經濟進入大數據應用時代。在大數據的情況下,統計工作應著重于用戶的需求,提高統計質量,更好地利用其價值。大數據背景下影響統計的因素可歸納為三個層面:技術、流程和管理。
在技術方面,隨著統計數據的增多,傳統方法數據已不能滿足新時期的統計要求,企業必須配置更高的數據庫技術,加強技術更新,提高統計水平,同時確保統計數據質量。隨著數據分析難度的增加,改進數據可持續分析和挖掘算法研究也成為一個重要的焦點。對于過程方面,它主要基于統計數據的形成和使用來體現。在數據收集階段,影響統計數據質量的因素包括收集數據的方式、統計執行中使用的具體標準等。統計數據不斷變化,需要改變收集統計數據的傳統方式,并統一標準,以便快速整合數據,確保完成既定的統計任務。在統計存儲的發展階段,需要新的統計數據存儲軟件來更好地存儲數據,否則統計數據將無法有效轉換,或影響數據的準確性和完整性。特別是,統計數據越來越多地以不同的方式呈現,不僅是文字,還包括照片、視頻、聲音等。同時,不安全的存儲將影響數據的質量。在數據使用階段,無法及時共享數據,也無法展示統計數據的價值。在管理層,主要有以下因素:管理層沒有充分意識到統計工作的重要性,統計專家和技術人員的素質和能力不能適應新時期統計工作的新要求,工作人員對數據的重視程度不夠。再就是,該制度本身受到以下事實的約束:沒有統一的標準化制度和良好統計標準,而且很難改進該制度,無法提高總體統計質量。
從這個維度分析數據,主要從數據收集、數據存儲和數據使用三個階段執行,這是數據整個生命周期的處理功能。
2.1.1 收集層面
在數據收集方式和統計標準方面,通過智能設備、傳感器和社會合作技術的應用和傳播以及提供發生了巨大變化。網站、搜索引擎、社交網絡以及主動和被動傳感器系統代表了這些主要數據源,這就是被人們叫作海量數據的現象,以統計的寬度無限接近“總體”,統計數據的擴大性增加了統計的準確性,這是許多問題的根源。再就是說,數據的及時性比以前短得多,有效收集數據以保證統計質量,這也是一項新的挑戰。
2.1.2 存儲層面
傳統的數據存儲已經不能滿足大數據的需求。高容量和可擴展性、高可用性、高質量和訪問接口可以改變人均數據存儲結構。當前數據由大量未安裝的數據組成,如視頻、圖像等。訪問前一個存儲系統需要一個復雜的傳輸過程來將其轉換為結構化數據,此過程不可避免地導致錯誤生成的跟蹤,從而直接改變數據的完整性和準確性。為了最大限度地發揮大數據的優勢,這些非結構化數據被合并到結構化數據中,以創建一個新的數據庫。
2.1.3 使用層面
大數據時代提倡共享資源,數據的收集和更新越來越頻繁,任何錯誤都會導致數據質量的惡化。信息社會的發展加速了數據的生成和傳播。所以需要及時分析數據,以確保這些數據的價值不低于預期,并確保決策者做出正確的決策。
大數據技術包括數據庫技術、數據質量檢測識別和數據分析。它是準確預測未來的保證,數據分析的真正價值在這三者身上體現。
2.2.1 數據庫技術
大數據時代,企業數據最顯著的特點是數據量以曾經無法想象的速度呈指數級增長。增長意味著越來越多的信息和數據結構,使得統計數據變得越來越復雜。傳統的數據識別技術有助于檢測數據的結構,但非結構化數據的出現使得傳統技術難以處理。如果出現不正確或延遲的數據,檢查的費用會更高。同樣重要的是,相關公司應使用更大的檢測設備,并為大數據處理和數據質量引進或開發新技術。
2.2.2 數據質量的檢測和識別技術
基于人類判斷的數據質量、適用性和及時性測試的準確性會變得越來越困難。引入有效的數據測試應該表明數據能夠及時發現缺陷,但同時在實踐中改進質量控制技術,以滿足大數據時代的要求。
2.2.3 大數據分析技術
收集數據后,應進行分析以確定數據值。可視化技術正在成為現代大數據技術的主流,這些技術可以有效地處理其他類型和格式的數據,從而改進傳統的數據分析。
數據管理作為數據質量保證的重要環節,對人們起著至關重要的作用。在這方面,專業數據庫的知識和管理人員可用性、政府統計系統和統計標準是影響數據質量的重要因素。
2.3.1 管理者的意識
首先,必須認識到數據管理的重要性。業務經理意識到大數據對于業務開發的重要性,支持并重視大數據的建設,以便大數據的應用能夠在公司的工作中得到有效實施。
2.3.2 數據庫工作人員可用性
管理大數據的困難在于其復雜性。數據管理是業務發展的一個重要領域,不應忽視,并且有專門的人員負責管理和維護數據庫,才能夠保證大數據的質量。而這類人才的選拔,要解決技術問題,又要熟悉公司業務。
2.3.3 建立統計制度和標準
政府部門必須繼續通過積極開發相關統計系統、開發和進一步保護統計系統和標準,充分解決推動社會經濟增長的大數據產業的發展問題,畢竟大數據對應著國際發展。
首先,政府部門必須更加重視統計工作,建立健全和改進監測和管理統計質量的制度,加快建立統計信息系統平臺,為數據收集和收集方法、要求、指標和分工建立一個相對一致的平臺,采用現代信息技術改善基本服務的適當平臺,可以更好地建立統計工作基礎。其次,有必要根據用戶的需要不斷創新,進行深入研究,并找到更有效的統計技術和方法來改進數據收集。政府部門應進一步提高大數據管理意識,發展自己的監測和評估數據質量機制,發展有效和改進的統計產品管理系統,并發展更可持續的機制,以確保統計數據的質量。再就是,鑒于數據質量和統計收集過程所遇到的干擾,新的綜合統計平臺必須致力于使這一過程更加規范和透明,提高及時性,減少統計干擾。創建允許存儲不同類型數據的集成數據存儲庫,提高數據集成和進一步數據分析的效率。
首先,深入挖掘數據和統計之間密切的聯系,關于計算機技術的互聯網技術,如技術,加速集成,統計優化,這是數據統計技術和分析的新途徑。其次,經驗評估,加快提高統計數據的技術安全,不斷提高質量,保持較好的權威體系。在技術引進方面,云存儲專注于為用戶提供基于互聯網的在線存儲服務,高效、經濟的數據存儲。當用戶要求存儲數據時,更容易實現。為了確保統計數據的質量,數據質量驗證技術必須貫穿整個數據周期。
要實現這一目標,可在統計局內部開展更快、更有效的培訓,提高培訓工作的質量和效率,并加強對能夠操作統計專家的統計專業人員的培訓,不斷提高法律道德問題和服務意識,并確定更多更好的實用方法來提高統計數據的質量。如果存在高度不穩定的數據,以快速生成統計數據、進行預測、發現問題,不斷優化數據安全性,改進監控方式,增加與其他部門的相關性,實現聯合監控的效果,這將大大提高統計數據的控制水平。
大數據的特點決定了它的復雜性,使管理變得更加困難。在這種情況下,需要處理技術問題以及整合公司數據的員工來管理大數據的質量。數據管理的延遲是提高數據質量和使用大數據的重要障礙。在大數據時代,需要受過良好教育的高層管理人員來設計數據庫和維護,以更好地保證大數據的質量,并更深入地挖掘這些數據的潛在價值。
通過培訓試驗,改進該領域的質量和技術。讓他們采取積極主動的心態去工作,引導他們分析數據的相關性,探索創新的統計特定方法,探索更先進的思維方式,堅持使用現代科學技術,提高工作質量,以便不斷分析并使市場研究具有相關性。加強統計人員的職業道德,確保數據的可靠性,并確保統計工作能夠獨立開展。在技術培訓、基層隊伍建設方面應著重加強,統計質量才會不斷提高。
總的來說,當前和今后深入統計工作的主要目標是有效利用大數據技術,不斷擴大平臺的使用范圍,提高程序效率。并通過提高數據質量,采取多項措施提高數據質量。實際上,只有改進制度和加強監督制度,統計的價值和質量才能真正提高。