張 蓮(山東省濟寧市泗水縣統計局)
我國政府統計部門傳統的數據收集方法。
我國三大普查:每隔10年進行一次的農業普查、人口普查,根據經濟發展周期每隔5年進行一次的經濟普查,是由統計部門組織,用來調查一定時點或時期內的社會經濟現象總量,對調查對象全覆蓋、大規模的全面調查。
除去三大普查,我國統計數據的直接來源還有抽樣調查、重點調查、典型調查以及一些常規統計報表。常用的數據采集方式有聯網直報、城鄉一體化調查、價格調查、地塊調查、糧食抽樣等方式。
普查與抽樣調查及其他非全面調查方式的缺點:
三大普查,是對我國國情國力的全面調查,涉及面廣,指標多,工作量大,時間性強,對集中領導和統一行動的要求質量高,需要較多的人力、物力和財力,且調查周期長。
筆者從2005年進入統計站開始統計工作,親身歷經了2006年、2016年的兩次農業普查,2008年、2013年和2018年的三次經濟普查,2010年和還沒有結束的2020年的兩次人口普查。從開始的紙質調查表入戶登記、人工匯總指標、抄寫正式表、光電掃描數據錄入上傳至國家數據庫,到2013年第三次經濟普查第一次使用電子數據采集終端PDA進行入戶登記、現場采集數據、上傳到國家普查數據采集平臺,統計數據收集方式越來越先進,越來越智能化,但缺點也顯而易見。
統計數據的間接來源方式主要是與企業生產經營活動有關的各種資料,各級政府行政部門為履行其職能,如辦證、登記、檢查、保險、稅收等,而收集、記錄、和保存在文件、檔案中個人或單位的資料記錄。統計部門把這些收集來的數據再經過篩選、比對、匯總等加工方式,得到符合需要的數據。
這些間接的數據采集方式,有著共同的優點:
第一,可降低統計成本。從公共管理部門處取得行政記錄,是一種方便、快捷、簡單易行的調查內容,成本極低,能節約大量人力、物力、財力。對調查對象來說,使用行政記錄也可以減輕調查對象的負擔。第二,可提高統計部門的數據準確性。行政性檔案是為了本部門的管理和控制而建立的,因此,行政檔案能夠真實地反映社會、經濟現象的運動、變化過程,大部分行政檔案反映的是公民自愿的主動行為,不易弄虛作假。即使罰款等行政記錄反映的是非自愿行為,其記錄也往往是強制性的,一旦發生情況,則必須予以記錄備案,以保存最客觀的證據。第三,可驗證統計分析結論的正確性。使用這些行政記錄進行數據間的匹配性分析,加強相關性、邏輯性研究,來評估驗證數據質量,驗證統計分析結論的正確性。
但也有著共同的缺點:
第一,和統計上的指標分類標準不一樣。有些企業的報表、財務數據或部門的行政記錄數據有著自身填報或記錄目的,有著自己一套嚴密的方法體系,這就和我們統計部門的統計指標體系有著很多的差異。第二,兩者覆蓋范圍也不一樣,企業的報表、財務數據或部門數據僅僅是本單位或本部門管理范圍內的數據,無法保證其完整的代表性。第三,時間記錄規則不一致。統計一般分為時點指標或時期指標,一般按照日歷年限核算,但有些部門的數據出于行政管理的需要,會調整不同的時期,例如對于出生人口這一指標,公安部門規定只有新生兒到公安部門登記戶口才能算作出生人口,但我們統計則按實際發生的時間點來統計出生或者死亡。第四,單位或部門數據的保密性與隱私性。有些部門或單位出于對本部門信息的保密或對公民隱私的保護,無法提供或者根本不愿意提供。隨著我國經濟日新月異的發展,互聯網、物聯網技術突飛猛進,海量的信息、各種類型的數據潮水般地涌進人們的生活、工作中,這些數量大、速度快、多樣性、時效性強的大數據強烈地沖擊著我們的統計工作,傳統數據的收集方法已經越來越不適應新時代賦予我們統計工作的新職能,急需我們探索新的方式方法。
數據規模大。國務院發展研究中心信息中心研究處處長李廣乾說過:“大數據的市場規模沒有天花板”,我國經濟發展飛速,產生數據的終端增多,每天各行各業的數據信息如潮水般涌來。信息流轉快。信息時代,人作為網絡的核心,每天都在制造爆炸式數據,這些數據再被相應的電商、企業、政府、銀行等部門收集、處理、運用,從而使數據快速流動起來。數據類型多。大數據的來源,包括交通運輸,互聯網文件處理、制作互聯網搜索引擎索引、通信記錄明細、金融大數據、醫療大數據、社交網絡、照片圖像、大規模的電子商務等各行各業,從而造成各種各樣的類型,包括數字、文字、視頻、圖片、聲音等。價值密度低。爆炸式海量的數據,覆蓋面廣,信息雜,包含的模糊信息多,從而價值密度就低。
目前我們的統計調查手段,雖然已是現代化,但不等于統計調查體系的現代化,我國當前統計調查體系的主要問題是各種調查方式、調查力量和數據來源的有效整合不夠,各種統計調查制度、方式方法不能很好地銜接,數據孤島現象十分突出。
許多大數據,例如社交媒體數據,微信、QQ、淘寶等網上產品的價格信息,多是由觀察數據組成,因此沒有明確定義目標人群、結構和質量。這使得基于采樣理論的傳統統計方法難以應用許多大數據源的非結構化性質,使得提取有意義的統計信息變得更加困難。大數據時代對數據的收集分為三步,第一步數據預處理,包括識別與整理。第二步數據分析,提煉有價值信息。第三步數據存儲。
1.建立智能數據系統
在基于原來聯網直報、常規統計報表、周期性普查、抽樣調查的基礎上,引入大數據共享平臺,開發新的針對大數據特征的指標體系和指標解釋方法,把來源于各個網絡終端的數據,快速的收集、整合、去雜、存儲,建立新的智能數據系統。
2.整合傳統統計數據
整合各類普查、常規調查和專項調查等數據,打破專業壁壘和信息孤島,實現數據共享和深度開發。
3.完善統計業務流程
統計數據收集、整理、分析和儲存的科學化生產流程,通過技術創新,改變了傳統的統計工作方式,進一步提高了統計工作的質量、效率和水平。
4.加快大數據應用創新
推動統計數據采集方式的變革,充分利用電子行政記錄、企業生產經營記錄、大數據等,完善數據解讀機制和方法。推動大數據統計研究,充分利用國內統計學界在大數據領域的研究力量,開展大數據應用研究,與大數據企業、高校及科研機構開展廣泛合作。
海量大數據的采集與加工整理,對統計機構特別是基層統計機構的轉型是個不小的挑戰,傳統統計工作方式必須做出相應的轉型,由以往的催報、審核、匯總,轉型為挖掘、分析、快速加工整理,建立專業的、相適應的、新的數據存儲平臺,對瞬息萬變的大數據信息做出及時有效的挖掘整理,提煉出我們需要的數據,由以往的數據傳輸功能轉型為信息反應與預警服務功能,以提升和豐富統計機構的基本服務職能。
1.加強統計人員業務能力培養
加強統計人員,特別是基層統計人員對大數據信息的挖掘、整理、甄別技術能力的培養;讓統計人員熟練掌握先進的數據挖掘、分析整理工具與軟件,提高每個人的專業技術能力;加強相應專業技術人才的引進與培養,夯實適應新技術、新業務的統計人才基礎。
2.改變傳統思維方式
打破原來固有的數據“收集、匯總、上報”傳統的統計思維方式,向智能化數據收集、分析、加工、整理方式轉變,以適應現代化的大數據采集方式。
3.提供政府統計分析思路
政府應推進大數據統計研究,為更好地開展大數據應用提供理論支撐,同時關注國外大數據統計應用動態,及時分析成果,推動數據共享,讓更多的人使用更多的數據,在使用過程中對數據進行進一步加工,使數據賦予更多的信息。
綜上所述,大數據時代,面對海量數據信息的爆炸式增長,傳統的數據采集方式已很難適應。統計處和統計員應充分利用大數據,豐富統計資料的來源,優化統計方法,對現有統計資料進行統計分析。審計工作中也在積極探索,進行了一系列有益的嘗試,推動大數據真正成為推動政府統計工作發展的強大動力,為政府部門和社會各界提供高質量的統計服務。