張?chǎng)╂? 徐映梅

[提要] 統(tǒng)計(jì)調(diào)查是統(tǒng)計(jì)活動(dòng)中非常重要的一項(xiàng)基礎(chǔ)性工作。大數(shù)據(jù)時(shí)代的來(lái)臨使傳統(tǒng)統(tǒng)計(jì)調(diào)查的內(nèi)容、方式、技術(shù)已經(jīng)或?qū)⒁l(fā)生根本性改變。在梳理傳統(tǒng)統(tǒng)計(jì)調(diào)查概念基礎(chǔ)上,就大數(shù)據(jù)對(duì)統(tǒng)計(jì)調(diào)查產(chǎn)生的影響和面臨的問(wèn)題進(jìn)行歸納,給出大數(shù)據(jù)統(tǒng)計(jì)調(diào)查的定義和特點(diǎn),比較傳統(tǒng)統(tǒng)計(jì)調(diào)查與大數(shù)據(jù)統(tǒng)計(jì)調(diào)查的差異,概述統(tǒng)計(jì)調(diào)查中的大數(shù)據(jù)技術(shù)。
關(guān)鍵詞:大數(shù)據(jù);政府統(tǒng)計(jì);統(tǒng)計(jì)調(diào)查
中圖分類(lèi)號(hào):F222.1 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2020年5月18日
大數(shù)據(jù)涌現(xiàn)對(duì)統(tǒng)計(jì)工作產(chǎn)生了較大影響,這使傳統(tǒng)統(tǒng)計(jì)調(diào)查工作面臨新的挑戰(zhàn)。統(tǒng)計(jì)調(diào)查是統(tǒng)計(jì)工作中非常重要的一項(xiàng)基礎(chǔ)性工作。對(duì)此,統(tǒng)計(jì)工作者非常關(guān)心:大數(shù)據(jù)對(duì)統(tǒng)計(jì)調(diào)查有什么影響?統(tǒng)計(jì)調(diào)查將遇到什么新問(wèn)題?統(tǒng)計(jì)調(diào)查如何應(yīng)對(duì)?大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)調(diào)查與傳統(tǒng)統(tǒng)計(jì)調(diào)查有什么不同?其特點(diǎn)是什么?未來(lái)統(tǒng)計(jì)調(diào)查工作將面臨什么挑戰(zhàn)?諸如此類(lèi)的問(wèn)題研究不僅具有較強(qiáng)的理論意義,也有重要的實(shí)用價(jià)值。
一、引言
傳統(tǒng)調(diào)查一直是我國(guó)統(tǒng)計(jì)工作的基礎(chǔ),它建立在國(guó)家逐漸完善的統(tǒng)計(jì)調(diào)查制度基礎(chǔ)之上。然而其統(tǒng)計(jì)調(diào)查體系在實(shí)踐中卻時(shí)常遭遇質(zhì)疑,比如“統(tǒng)計(jì)調(diào)查方法相對(duì)單一,對(duì)全面統(tǒng)計(jì)調(diào)查方法過(guò)于依賴;統(tǒng)計(jì)報(bào)表由下而上逐級(jí)匯報(bào)使統(tǒng)計(jì)數(shù)據(jù)失真;統(tǒng)計(jì)調(diào)查不夠系統(tǒng)和規(guī)范”。大數(shù)據(jù)時(shí)代到來(lái),對(duì)統(tǒng)計(jì)調(diào)查工作既是挑戰(zhàn)也是機(jī)遇。為此,有學(xué)者提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)研究的若干理論問(wèn)題。針對(duì)大數(shù)據(jù)時(shí)代下的政府統(tǒng)計(jì)工作,有學(xué)者提出了若干建議,比如政府統(tǒng)計(jì)工作的改革,其工作評(píng)價(jià)、應(yīng)用路徑、應(yīng)用瓶頸與融合問(wèn)題。近年的大數(shù)據(jù)統(tǒng)計(jì)調(diào)查工作主要涉及宏觀政府統(tǒng)計(jì)調(diào)查體系改革和統(tǒng)計(jì)調(diào)查工作的完善。胡海靖從多個(gè)角度就中國(guó)政府統(tǒng)計(jì)調(diào)查體系提出一系列改革設(shè)想。另外,還涉及價(jià)格調(diào)查和我國(guó)CPI調(diào)查方面的應(yīng)用。而米子川的研究則是大數(shù)據(jù)指數(shù)是否可以替代統(tǒng)計(jì)調(diào)查指數(shù)的討論。更進(jìn)一步的研究涉及統(tǒng)計(jì)數(shù)據(jù)資源整合、數(shù)據(jù)融合與質(zhì)量評(píng)價(jià)、大數(shù)據(jù)分析方法和算法。
以上研究為深入展開(kāi)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查方面的研究奠定了良好的基礎(chǔ),但未見(jiàn)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查可能遇到問(wèn)題的系統(tǒng)闡述,也未見(jiàn)科學(xué)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查準(zhǔn)確定義、特點(diǎn)、與傳統(tǒng)統(tǒng)計(jì)調(diào)查比較方面的文獻(xiàn)。本文將在梳理傳統(tǒng)統(tǒng)計(jì)調(diào)查概念的基礎(chǔ)上,分析大數(shù)據(jù)對(duì)統(tǒng)計(jì)調(diào)查的影響及其可能面臨的問(wèn)題,給出大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查的定義,并比較它與傳統(tǒng)統(tǒng)計(jì)調(diào)查的差異,概述統(tǒng)計(jì)調(diào)查中需要應(yīng)用的大數(shù)據(jù)技術(shù)。
二、大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查新變化
(一)傳統(tǒng)統(tǒng)計(jì)調(diào)查概念的梳理。在定義大數(shù)據(jù)統(tǒng)計(jì)調(diào)查概念之前,先就傳統(tǒng)統(tǒng)計(jì)調(diào)查概念進(jìn)行梳理。盡管學(xué)者對(duì)統(tǒng)計(jì)調(diào)查概念沒(méi)有統(tǒng)一的定義,各自表述不同,但其總體核心內(nèi)容基本一致。
對(duì)傳統(tǒng)統(tǒng)計(jì)調(diào)查概念在論文中定義的梳理。國(guó)家統(tǒng)計(jì)局制度方法司方法研究處(1991),給出了統(tǒng)計(jì)調(diào)查的定義。有學(xué)者認(rèn)為,統(tǒng)計(jì)調(diào)查實(shí)際上就是從目標(biāo)總體中獲得數(shù)據(jù)。類(lèi)似的定義如學(xué)者李瑞軍(2012)、馬天芳(2015)的定義強(qiáng)調(diào)搜集統(tǒng)計(jì)資料時(shí)應(yīng)采用對(duì)比方法,強(qiáng)調(diào)定量分析和統(tǒng)計(jì)匯總的重要性。
以上統(tǒng)計(jì)調(diào)查的定義基本概況了其本質(zhì),但只從目的、方法和結(jié)果幾個(gè)方面進(jìn)行了闡述,這些定義均不夠全面。比較2017年8月1日實(shí)施的《中華人民共和國(guó)統(tǒng)計(jì)法實(shí)施條例》第二章統(tǒng)計(jì)調(diào)查項(xiàng)目的規(guī)定,筆者認(rèn)為,統(tǒng)計(jì)調(diào)查比較完善的定義應(yīng)該為:它是根據(jù)統(tǒng)計(jì)調(diào)查的目的和任務(wù),經(jīng)統(tǒng)計(jì)調(diào)查項(xiàng)目審批、備案和公布,采用科學(xué)方法和調(diào)查組織方式,依據(jù)預(yù)先設(shè)計(jì)的調(diào)查表式和規(guī)范標(biāo)準(zhǔn),在財(cái)政預(yù)算范圍內(nèi),有計(jì)劃、系統(tǒng)地搜集、整理和分析統(tǒng)計(jì)資料,并通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)報(bào)送的工作過(guò)程。
(二)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查應(yīng)注意的問(wèn)題。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別在于其各自的特點(diǎn),大數(shù)據(jù)有很多異于傳統(tǒng)數(shù)據(jù)的特點(diǎn)。IBM在總結(jié)其他學(xué)者觀點(diǎn)的基礎(chǔ)上,提出了大數(shù)據(jù)的5V特征,即Volume(大體量)、Variety(多樣性,數(shù)據(jù)各種格式和形態(tài))、Velocity(時(shí)效性)、Veracity(真實(shí)性,數(shù)據(jù)質(zhì)量)和Value(大價(jià)值)。有學(xué)者從統(tǒng)計(jì)視角強(qiáng)調(diào)其異構(gòu)、高維、稀疏的特點(diǎn),實(shí)際上這些特點(diǎn)均包含在以上五個(gè)特點(diǎn)中。在進(jìn)行了大數(shù)據(jù)影響分析后,筆者認(rèn)為,在進(jìn)行統(tǒng)計(jì)調(diào)查時(shí),應(yīng)該注意以下問(wèn)題:
1、數(shù)據(jù)采集的問(wèn)題。傳統(tǒng)統(tǒng)計(jì)調(diào)查,以人工方式獲取數(shù)據(jù)為主,以計(jì)算機(jī)為輔;而大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查則應(yīng)該是以計(jì)算機(jī)方式獲取數(shù)據(jù)為主,以人工為輔。這是因?yàn)橥ㄟ^(guò)傳感器、設(shè)備儀表、手機(jī)、互聯(lián)網(wǎng)等采集數(shù)據(jù)的方式已開(kāi)始逐漸普及,這給政府統(tǒng)計(jì)調(diào)查工作提出了新的問(wèn)題和挑戰(zhàn)。
2、數(shù)據(jù)質(zhì)量的問(wèn)題。對(duì)于大數(shù)據(jù)時(shí)代的海量數(shù)據(jù),筆者認(rèn)為,有三個(gè)方面值得注意:一是數(shù)據(jù)中有噪聲。如果獲取的統(tǒng)計(jì)調(diào)查數(shù)據(jù)有噪聲,顯然其數(shù)據(jù)質(zhì)量不高。對(duì)大數(shù)據(jù)來(lái)說(shuō)有噪聲是很正常的現(xiàn)象,因?yàn)樗恰叭ⅰ庇涗洝=鉀Q問(wèn)題的方法就是去燥,使統(tǒng)計(jì)調(diào)查數(shù)據(jù)的質(zhì)量到達(dá)規(guī)定標(biāo)準(zhǔn)。二是部分?jǐn)?shù)據(jù)詳細(xì),部分?jǐn)?shù)據(jù)稀疏的問(wèn)題。對(duì)于過(guò)于詳細(xì)的大數(shù)據(jù),統(tǒng)計(jì)調(diào)查應(yīng)注意邊際效應(yīng)的問(wèn)題;對(duì)于數(shù)據(jù)稀疏的問(wèn)題,可以適度增加抽樣調(diào)查、重點(diǎn)調(diào)查和科學(xué)估算方法等手段補(bǔ)齊。三是大數(shù)據(jù)不能覆蓋全部對(duì)象。也就是“互聯(lián)網(wǎng)外有大魚(yú)”,“數(shù)據(jù)再大也是相對(duì)的”,這是統(tǒng)計(jì)學(xué)者邱東提出的觀點(diǎn)。這也意味著大數(shù)據(jù)不能完全滿足統(tǒng)計(jì)調(diào)查的要求,這時(shí),統(tǒng)計(jì)調(diào)查就必須采用其他非大數(shù)據(jù)技術(shù)的方法(比如統(tǒng)計(jì)方法和數(shù)學(xué)方法)解決問(wèn)題。
3、數(shù)據(jù)整理與整合的問(wèn)題。數(shù)據(jù)整理是統(tǒng)計(jì)調(diào)查中的一個(gè)過(guò)程。傳統(tǒng)統(tǒng)計(jì)調(diào)查的數(shù)據(jù)整理是預(yù)先設(shè)計(jì)好的方法梳理和分類(lèi)數(shù)據(jù),并使其結(jié)構(gòu)化。但大數(shù)據(jù)多為半結(jié)構(gòu)化或非結(jié)構(gòu)的。如果用傳統(tǒng)方法進(jìn)行數(shù)據(jù)整理,顯然行不通。由于大數(shù)據(jù)來(lái)源不同,結(jié)構(gòu)不同,因此統(tǒng)計(jì)調(diào)查的數(shù)據(jù)“整理”通常采用數(shù)據(jù)整合的方法。除統(tǒng)計(jì)學(xué)外,其他學(xué)科也有數(shù)據(jù)整合方法已被提出,但這類(lèi)方法總體上來(lái)看卻十分有限。
三、大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查的新內(nèi)涵
(一)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查的新概念。根據(jù)以上分析,筆者認(rèn)為,大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)調(diào)查,仍然采用傳統(tǒng)統(tǒng)計(jì)調(diào)查的定義。為了區(qū)別兩者的差異,現(xiàn)給出大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查更詳細(xì)的定義:它是根據(jù)統(tǒng)計(jì)調(diào)查的目的和任務(wù),經(jīng)相應(yīng)等級(jí)的統(tǒng)計(jì)調(diào)查項(xiàng)目審批、備案及公示,采用統(tǒng)計(jì)、數(shù)學(xué)、數(shù)據(jù)科學(xué)和計(jì)算機(jī)等學(xué)科的技術(shù)手段和科學(xué)方法,以及某種調(diào)查組織方式(統(tǒng)計(jì)報(bào)表還是專門(mén)調(diào)查;普查、抽樣調(diào)查、全面調(diào)查、重點(diǎn)調(diào)查、典型調(diào)查或行政記錄,還是綜合其應(yīng)用),依據(jù)規(guī)定的調(diào)查表式和統(tǒng)計(jì)標(biāo)準(zhǔn)要求,在財(cái)政預(yù)算范圍內(nèi),有計(jì)劃、系統(tǒng)地搜集、整理和分析統(tǒng)計(jì)資料,并通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)報(bào)送的活動(dòng)。
根據(jù)以上定義,有幾個(gè)方面值得注意:第一,對(duì)于計(jì)劃展開(kāi)的統(tǒng)計(jì)調(diào)查,在法治社會(huì)逐步完善的今天,先要確定調(diào)查的級(jí)別,是國(guó)家統(tǒng)計(jì)調(diào)查項(xiàng)目、部門(mén)統(tǒng)計(jì)調(diào)查項(xiàng)目還是地方統(tǒng)計(jì)調(diào)查項(xiàng)目,并根據(jù)相應(yīng)的等級(jí)進(jìn)行統(tǒng)計(jì)調(diào)查項(xiàng)目審批、備案和網(wǎng)上公示。這是政府信息公開(kāi)的要求。第二,與傳統(tǒng)統(tǒng)計(jì)調(diào)查不同,大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)調(diào)查,除了采用統(tǒng)計(jì)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)等方法外,還應(yīng)注意數(shù)據(jù)科學(xué)方法,計(jì)算機(jī)技術(shù)、大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)等手段和方法的使用。第三,關(guān)于調(diào)查組織方式,先要確定是統(tǒng)計(jì)報(bào)表方式還是專門(mén)調(diào)查。另外,調(diào)查過(guò)程是否采用普查、抽樣調(diào)查、全面調(diào)查、重點(diǎn)調(diào)查、典型調(diào)查或行政記錄,還是綜合其應(yīng)用。在統(tǒng)計(jì)調(diào)查初期就應(yīng)該設(shè)計(jì)和確定。這里要特別注意統(tǒng)計(jì)調(diào)查資料的搜集方式,比如,針對(duì)某些調(diào)查對(duì)象的大數(shù)據(jù)詳細(xì)記錄,某些記錄稀缺的問(wèn)題,調(diào)查中應(yīng)采用什么策略和方法都應(yīng)事先設(shè)計(jì)和確認(rèn)。第四,調(diào)查表式必須在統(tǒng)計(jì)調(diào)查初期就要進(jìn)行設(shè)計(jì)和確定,以及統(tǒng)計(jì)調(diào)查標(biāo)準(zhǔn)和規(guī)范的制定,特別是數(shù)據(jù)質(zhì)量的規(guī)定。第五,在統(tǒng)計(jì)調(diào)查設(shè)計(jì)的基礎(chǔ)上,有計(jì)劃、系統(tǒng)地搜集、整理和分析統(tǒng)計(jì)資料,將獲得的調(diào)查結(jié)果通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)報(bào)送相關(guān)部門(mén)。
(二)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查的新內(nèi)容。根據(jù)大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)調(diào)查定義,從四個(gè)方面進(jìn)行比較,以闡述大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查的新內(nèi)容。
1、統(tǒng)計(jì)調(diào)查方法比較與創(chuàng)新。傳統(tǒng)統(tǒng)計(jì)調(diào)查采用的多為統(tǒng)計(jì)方法,而大數(shù)據(jù)統(tǒng)計(jì)調(diào)查將采用信息技術(shù)、大數(shù)據(jù)技術(shù)、統(tǒng)計(jì)方法、數(shù)學(xué)方法和數(shù)據(jù)挖掘方法等多種手段。前者側(cè)重《統(tǒng)計(jì)法》要求的普查、抽樣、統(tǒng)計(jì)報(bào)表、重點(diǎn)調(diào)查、典型調(diào)查、綜合分析等方法搜集統(tǒng)計(jì)資料。后者部分統(tǒng)計(jì)調(diào)查資料通過(guò)從大數(shù)據(jù)源中提取,其手段可以是軟件工具,然后通過(guò)分析和挖掘從大數(shù)據(jù)源中搜集統(tǒng)計(jì)調(diào)查資料。當(dāng)然,當(dāng)大數(shù)據(jù)源中某些數(shù)據(jù)稀疏不足時(shí),可借助傳統(tǒng)統(tǒng)計(jì)調(diào)查方法補(bǔ)充。
2、數(shù)據(jù)采樣方式比較與創(chuàng)新。傳統(tǒng)統(tǒng)計(jì)調(diào)查是一種“直接”獲取統(tǒng)計(jì)調(diào)查資料的方法,大數(shù)據(jù)統(tǒng)計(jì)調(diào)查是一種“間接”獲取統(tǒng)計(jì)調(diào)查資料的方法。前者是調(diào)查人員針對(duì)被調(diào)查對(duì)象,通過(guò)詢問(wèn)、問(wèn)卷、觀察、交流等方式獲取統(tǒng)計(jì)調(diào)查資料;后者是操作人員借助計(jì)算機(jī)從大數(shù)據(jù)源中獲取統(tǒng)計(jì)調(diào)查資料。因?yàn)榇髷?shù)據(jù)源是連續(xù)記錄被調(diào)查的某些對(duì)象全工作狀態(tài)的數(shù)據(jù)集合。因此,大數(shù)據(jù)統(tǒng)計(jì)調(diào)查也可以看成為一種“經(jīng)常性的普查”。由于這種“普查”沒(méi)有針對(duì)性,至少不是針對(duì)某個(gè)統(tǒng)計(jì)調(diào)查主題的,它只是針對(duì)某一對(duì)象工作狀態(tài)的記錄,因此這樣的記錄數(shù)據(jù)針對(duì)性(對(duì)統(tǒng)計(jì)調(diào)查)不強(qiáng)。對(duì)此,應(yīng)特別注意其數(shù)據(jù)邊際的把控,避免過(guò)量統(tǒng)計(jì)調(diào)查資料搜集而增加不必要的工作負(fù)擔(dān)。與此同時(shí),也應(yīng)注意大數(shù)據(jù)源的不足而必須進(jìn)行的補(bǔ)充統(tǒng)計(jì)抽樣等方法的配合應(yīng)用。傳統(tǒng)統(tǒng)計(jì)調(diào)查的地點(diǎn)是搜索統(tǒng)計(jì)調(diào)查資料的地點(diǎn),統(tǒng)計(jì)調(diào)查的時(shí)間涉及調(diào)查的標(biāo)準(zhǔn)時(shí)間和期限。而大數(shù)據(jù)統(tǒng)計(jì)調(diào)查地點(diǎn)多半不夠明確,甚至被分離,因?yàn)樗鸭y(tǒng)計(jì)資料的地點(diǎn)即操作計(jì)算機(jī)位置,與實(shí)際被調(diào)查對(duì)象工作狀態(tài)的地點(diǎn)不同。這樣的地點(diǎn)有兩個(gè):一是被調(diào)查對(duì)象的地點(diǎn);二是調(diào)查員操作計(jì)算機(jī)的位置。相比之下,大數(shù)據(jù)統(tǒng)計(jì)調(diào)查的時(shí)間通常非常精確,可以到分秒,而且可以由操作者自己在計(jì)算機(jī)上設(shè)定時(shí)間區(qū)間值。而傳統(tǒng)統(tǒng)計(jì)調(diào)查的時(shí)間多半以年月為單位,采集的數(shù)據(jù)有時(shí)還存在滯后性。這一特點(diǎn)預(yù)示,未來(lái)可以開(kāi)發(fā)一種計(jì)算機(jī)統(tǒng)計(jì)軟件,根據(jù)用戶的要求,隨時(shí)提供針對(duì)某一固定主題的統(tǒng)計(jì)調(diào)查服務(wù)。比如,全國(guó)各行各業(yè)完全聯(lián)網(wǎng)后,特別是人口宏觀數(shù)據(jù)建成后,因?yàn)樾l(wèi)生(醫(yī)院)計(jì)生、公安系統(tǒng)中人口出生和死亡數(shù)據(jù)實(shí)時(shí)更新,教育部學(xué)歷信息、民政部婚姻狀態(tài)、房地產(chǎn)信息、人社部社保(就業(yè)狀態(tài))信息、稅務(wù)局個(gè)人收入信息等等,均為實(shí)時(shí)更新數(shù)據(jù),這時(shí),統(tǒng)計(jì)部門(mén)很容易隨時(shí)獲得全國(guó)人口實(shí)時(shí)統(tǒng)計(jì)調(diào)查數(shù)據(jù)。屆時(shí),全國(guó)性的人口普查次數(shù)可以適度減少,人口變動(dòng)抽樣調(diào)查也可不斷完善。
3、高質(zhì)量數(shù)據(jù)獲取比較與創(chuàng)新。與傳統(tǒng)統(tǒng)計(jì)調(diào)查相比,大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)調(diào)查直接獲取的數(shù)據(jù)質(zhì)量不高是一個(gè)不爭(zhēng)的事實(shí)。所以,應(yīng)注意統(tǒng)計(jì)調(diào)查數(shù)據(jù)質(zhì)量的把控。大數(shù)據(jù)中的噪聲和虛假信息使統(tǒng)計(jì)調(diào)查獲取的數(shù)據(jù)可信度不高。這就要求統(tǒng)計(jì)調(diào)查員在進(jìn)行資料搜集的過(guò)程中,應(yīng)特別注意虛假信息的甄別,通過(guò)科學(xué)的方法將大數(shù)據(jù)中的噪聲去除。調(diào)查員可以事先對(duì)不同的大數(shù)據(jù)源進(jìn)行評(píng)價(jià),以確定其可信度級(jí)別,為后續(xù)統(tǒng)計(jì)調(diào)查工作奠定基礎(chǔ)。
4、統(tǒng)計(jì)調(diào)查設(shè)計(jì)比較與創(chuàng)新。與傳統(tǒng)統(tǒng)計(jì)調(diào)查相同,大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)調(diào)查需要根據(jù)調(diào)查的目的與要求展開(kāi)工作,也需要有計(jì)劃和有組織地進(jìn)行統(tǒng)計(jì)調(diào)查數(shù)據(jù)、信息和資料的搜集、整理和分析。但在進(jìn)行統(tǒng)計(jì)調(diào)查時(shí),必須預(yù)先設(shè)計(jì)統(tǒng)計(jì)調(diào)查的技術(shù)手段和科學(xué)方法、調(diào)查組織方式、調(diào)查表式和統(tǒng)計(jì)標(biāo)準(zhǔn),以及財(cái)政預(yù)算。其重點(diǎn)是根據(jù)大數(shù)據(jù)的特點(diǎn)進(jìn)行統(tǒng)計(jì)調(diào)查的設(shè)計(jì)。
大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)調(diào)查與傳統(tǒng)統(tǒng)計(jì)調(diào)查的不同特點(diǎn)決定了未來(lái)的統(tǒng)計(jì)調(diào)查可能是兩種方法的結(jié)合,即取長(zhǎng)補(bǔ)短、優(yōu)勢(shì)互補(bǔ),借助各自的特點(diǎn)使統(tǒng)計(jì)調(diào)查工作能更快更順利地完成。兩種統(tǒng)計(jì)調(diào)查方法都有自己的優(yōu)缺點(diǎn),在進(jìn)行統(tǒng)計(jì)調(diào)查時(shí),可采用兩種方法的綜合,具體以哪種方案為主,需要根據(jù)情況有針對(duì)性的設(shè)計(jì)。在近未來(lái),應(yīng)以傳統(tǒng)統(tǒng)計(jì)調(diào)查方法為主,以大數(shù)據(jù)統(tǒng)計(jì)調(diào)查方法為輔。在遠(yuǎn)未來(lái),可以以大數(shù)據(jù)統(tǒng)計(jì)調(diào)查方法為主,以傳統(tǒng)統(tǒng)計(jì)調(diào)查方法為輔。
四、大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查新技術(shù)
大數(shù)據(jù)技術(shù)的快速發(fā)展,將對(duì)統(tǒng)計(jì)調(diào)查工作產(chǎn)生巨大影響,具體表現(xiàn)在以下幾個(gè)方面:
(一)統(tǒng)計(jì)調(diào)查資料搜集新技術(shù)。大數(shù)據(jù)源一般可分為以下幾類(lèi):一是對(duì)外開(kāi)放的大數(shù)據(jù)平臺(tái),比如百度,這類(lèi)平臺(tái)不僅提供大數(shù)據(jù)源,也提供數(shù)據(jù)處理軟件。二是專業(yè)大數(shù)據(jù)平臺(tái),比如國(guó)家經(jīng)濟(jì)信息中心、中國(guó)知網(wǎng)、新華社等,這類(lèi)半開(kāi)放的數(shù)據(jù)平臺(tái)需要付費(fèi)才能使用,它提供大數(shù)據(jù)源,也提供數(shù)據(jù)處理軟件。三是部門(mén)專業(yè)大數(shù)據(jù)平臺(tái),比如各大部委的專業(yè)數(shù)據(jù)庫(kù),這類(lèi)數(shù)據(jù)庫(kù)是不對(duì)外開(kāi)放的。統(tǒng)計(jì)部門(mén)可以通過(guò)《統(tǒng)計(jì)法》的規(guī)定,要求其提供所需的電子形式的數(shù)據(jù)。四是互聯(lián)網(wǎng)上雜亂無(wú)序的數(shù)據(jù),其數(shù)據(jù)質(zhì)量很低,比如某些網(wǎng)頁(yè)上web形式的超文本數(shù)據(jù),它需要采用網(wǎng)絡(luò)爬蟲(chóng)軟件抓取;傳感器上的數(shù)據(jù),比如某些公司完全對(duì)外開(kāi)放的實(shí)時(shí)監(jiān)控?cái)z像頭;微博和網(wǎng)絡(luò)日志之類(lèi)的數(shù)據(jù)。對(duì)于第四類(lèi)數(shù)據(jù),建議政府統(tǒng)計(jì)調(diào)查時(shí)盡量不用,因?yàn)槠鋽?shù)據(jù)質(zhì)量低,數(shù)據(jù)處理非常困難,技術(shù)要求比較高。由于統(tǒng)計(jì)部門(mén)的經(jīng)費(fèi)有限,在進(jìn)行統(tǒng)計(jì)調(diào)查時(shí),應(yīng)盡量選擇數(shù)據(jù)質(zhì)量高,數(shù)據(jù)易于獲取的大數(shù)據(jù)源,避免陷入數(shù)據(jù)邊際過(guò)寬的陷阱。
在統(tǒng)計(jì)調(diào)查設(shè)計(jì)階段,可根據(jù)統(tǒng)計(jì)調(diào)查的目標(biāo)和任務(wù),設(shè)定其規(guī)范和標(biāo)準(zhǔn),在互聯(lián)網(wǎng)中確定大數(shù)據(jù)源。在條件允許的情況下,大數(shù)據(jù)的采集工作部分可以交由被調(diào)查對(duì)象單位的專業(yè)人員配合,根據(jù)統(tǒng)計(jì)調(diào)查表要求他們提供從大數(shù)據(jù)源中抽取數(shù)據(jù),一來(lái)可以避免數(shù)據(jù)泄密,二來(lái)可以減少調(diào)查員的負(fù)擔(dān)。如果必須由統(tǒng)計(jì)調(diào)查員在計(jì)算機(jī)上操作的,可以在系統(tǒng)中設(shè)置所需搜索統(tǒng)計(jì)資料的條件要求,比如時(shí)間段、區(qū)域、對(duì)象等參數(shù),然后應(yīng)盡量交給計(jì)算機(jī)軟件去完成。
(二)數(shù)據(jù)清洗與ETL技術(shù)。統(tǒng)計(jì)調(diào)查資料搜索工作完成后,可通過(guò)計(jì)算機(jī)輔助完成統(tǒng)計(jì)調(diào)查資料的清洗和ETL處理。數(shù)據(jù)清洗(Data Cleaning)指發(fā)現(xiàn)并糾正不完整數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)記錄和不一致性數(shù)據(jù)的過(guò)程。具體方法包括數(shù)據(jù)插值、異常檢查與偏差分析、用數(shù)據(jù)庫(kù)范式規(guī)則剔除重復(fù)數(shù)據(jù)、語(yǔ)義和完整性檢查。ETL(Extract-Transform-Load)技術(shù)是將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。數(shù)據(jù)清洗工具與ETL工具通常是二合一的平臺(tái),常見(jiàn)工具包括:Datastage、Informatica、ODI(Oracle Data Integrator)、OWB(Oracle Warehouse Builder)、Cognos和Beeload等。這部分工作建議交給統(tǒng)計(jì)部門(mén)中的計(jì)算機(jī)專業(yè)人員或統(tǒng)計(jì)專用軟件處理。
(三)數(shù)據(jù)整合技術(shù)。數(shù)據(jù)整合即把從不同數(shù)據(jù)源收集的數(shù)據(jù),通過(guò)整理、清洗,轉(zhuǎn)換后加載到一個(gè)新的數(shù)據(jù)源內(nèi),并為用戶提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。具體技術(shù)包括構(gòu)建聯(lián)邦式數(shù)據(jù)庫(kù)系統(tǒng)、利用數(shù)據(jù)倉(cāng)庫(kù)整合和加載多源數(shù)據(jù)、開(kāi)發(fā)中間件整合并連接異構(gòu)數(shù)據(jù)庫(kù)、應(yīng)用Web技術(shù)整合來(lái)自于不同數(shù)據(jù)源的應(yīng)用等。但在具體操作層面,最好方法是采購(gòu)統(tǒng)計(jì)應(yīng)用整合平臺(tái),它可以將不同來(lái)源、不同結(jié)構(gòu)的統(tǒng)計(jì)資料進(jìn)行整合并對(duì)外開(kāi)放,以便統(tǒng)計(jì)用戶獲取,這方面的研究微軟、Google、IBM等公司正在進(jìn)行。一個(gè)簡(jiǎn)單的方法是購(gòu)買(mǎi)統(tǒng)計(jì)公有云服務(wù),將統(tǒng)計(jì)調(diào)查運(yùn)行環(huán)境、大數(shù)據(jù)超級(jí)計(jì)算等交給計(jì)算機(jī)專業(yè)公司處理。但其統(tǒng)計(jì)調(diào)查數(shù)據(jù)的安全很難得到保證,一個(gè)折中的方法是混合云的實(shí)施,即需要保密的數(shù)據(jù)放置在統(tǒng)計(jì)局信息中心的私有云內(nèi),其他部分交給公有云處理。
(四)大數(shù)據(jù)統(tǒng)一平臺(tái)。大數(shù)據(jù)不同于傳統(tǒng)統(tǒng)計(jì)調(diào)查,其采集、處理、存儲(chǔ)和應(yīng)用自然不能用傳統(tǒng)方式解決。最終的解決方案是在統(tǒng)計(jì)局信息中心構(gòu)建一個(gè)大數(shù)據(jù)統(tǒng)一平臺(tái)。目前,很多企事業(yè)單位都相繼在原有信息中心硬件設(shè)施的基礎(chǔ)上增加了大數(shù)據(jù)統(tǒng)一平臺(tái)環(huán)境。這是一項(xiàng)不可缺少的工作,建議各統(tǒng)計(jì)局信息中心加緊部署實(shí)施。其總體框架應(yīng)該是以Hadoop為核心,包括Hadoop內(nèi)核,分布式數(shù)據(jù)庫(kù)HDFS,分布式計(jì)算MapReduce和群集資源管理器YARN。Hadoop是一個(gè)生態(tài)系統(tǒng),包括很多組件,除HDFS、MapReduce和YARN外,還有NoSQL數(shù)據(jù)庫(kù)Hbase、數(shù)據(jù)倉(cāng)庫(kù)工具Hive、工作流引擎語(yǔ)言Pig、機(jī)器學(xué)習(xí)算法庫(kù)Mahout、數(shù)據(jù)庫(kù)連接器Sqoop、日志數(shù)據(jù)采集系統(tǒng)Flume、流處理平臺(tái)Kafka、流數(shù)據(jù)計(jì)算框架Storm、分布式協(xié)調(diào)服務(wù)ZooKeeper、HBase SQL搜索引擎Phoenix、全文搜索引擎Elasticsearch、安裝部署配置管理器Ambari、新分布式執(zhí)行框架Tez等。(圖1)
主要參考文獻(xiàn):
[1]季曉晶.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)調(diào)查工作的挑戰(zhàn)與思考[J].統(tǒng)計(jì)與咨詢,2013(5).
[2]段學(xué)有.透過(guò)大數(shù)據(jù)看統(tǒng)計(jì)調(diào)查數(shù)據(jù)[J].中國(guó)統(tǒng)計(jì),2014(7).
[3]宋立京.大數(shù)據(jù)時(shí)代如何開(kāi)展統(tǒng)計(jì)調(diào)查工作[J].時(shí)代金融,2016(5).
[4]李金昌.基于大數(shù)據(jù)思維的統(tǒng)計(jì)學(xué)若干理論問(wèn)題[J].統(tǒng)計(jì)研究,2016.33(11).
[5]姜澍.大數(shù)據(jù)時(shí)代下的政府統(tǒng)計(jì)[J].調(diào)研世界,2014(4).
[6]李婧婧,王磊.政府統(tǒng)計(jì)部門(mén)應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的幾點(diǎn)思考[J].調(diào)研世界,2017(1).
[7]許小樂(lè).“大數(shù)據(jù)”與政府統(tǒng)計(jì)改革[J].調(diào)研世界,2013(5).
[8]何志紅,陽(yáng)志鋒.大數(shù)據(jù)背景下政府統(tǒng)計(jì)工作執(zhí)行力的評(píng)價(jià)模型[J].統(tǒng)計(jì)與管理,2017(11).
[9]“大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用研究”課題組,鮮祖德,董倩,姜澍.互聯(lián)網(wǎng)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用路徑研究[J].調(diào)研世界,2015(9).
[10]余芳東.大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用、瓶頸及融合路徑[J].調(diào)研世界,2018(11).
[11]陳光慧.大數(shù)據(jù)時(shí)代中國(guó)政府統(tǒng)計(jì)調(diào)查體系改革研究[J].商業(yè)經(jīng)濟(jì)與管理,2016(6).
[12]胡海靖.對(duì)大數(shù)據(jù)背景下完善政府統(tǒng)計(jì)調(diào)查工作的研究[J].統(tǒng)計(jì)與管理,2015(10).
[13]國(guó)家統(tǒng)計(jì)局重慶調(diào)查總隊(duì)課題組,朋琳.大數(shù)據(jù)在價(jià)格調(diào)查中的應(yīng)用研究[J].調(diào)研世界,2017(4).
[14]喬晗.大數(shù)據(jù)在我國(guó)CPI調(diào)查中的應(yīng)用研究[J].調(diào)研世界,2015(9).
[15]米子川,姜天英.大數(shù)據(jù)指數(shù)是否可以替代統(tǒng)計(jì)調(diào)查指數(shù)[J].統(tǒng)計(jì)研究,2016(11).
[16]蘇州市統(tǒng)計(jì)局課題組.“大數(shù)據(jù)”背景下統(tǒng)計(jì)數(shù)據(jù)資源整合探索[J].統(tǒng)計(jì)科學(xué)與實(shí)踐,2018(10).
[17]李紅,牛成英,孫秋碧,林嘉燕.大數(shù)據(jù)時(shí)代數(shù)據(jù)融合質(zhì)量的評(píng)價(jià)模型[J].統(tǒng)計(jì)與決策,2018.34(21).
[18]Chun Wang,Ming-Hui Chen,Elizabeth Schifano,Jing Wu and Jun Yan.Statistical Methods and Computing for Big Data[J].Statistics,2015.
[19]Konstantinos Slavakis,Georgios B.Giannakis,and Gonzalo Mateos,Modeling and Optimization for Big Data Analytics:(Statistical) learning tools for our era of data deluge,IEEE Signal Processing Magazine,2014.31(5).
[20]李揚(yáng),張長(zhǎng),朱建平.融合統(tǒng)計(jì)思想的大數(shù)據(jù)算法[J].統(tǒng)計(jì)研究,2018.35(7).
[21]國(guó)家統(tǒng)計(jì)局制度方法司方法研究處.我國(guó)統(tǒng)計(jì)調(diào)查體系的現(xiàn)狀及改革意見(jiàn)[J].統(tǒng)計(jì)研究,1991(4).
[22]黃恒君,傅德印.對(duì)統(tǒng)計(jì)調(diào)查質(zhì)量特性的探討[J].統(tǒng)計(jì)研究,2009.26(11).
[23]李瑞軍.企業(yè)管理中統(tǒng)計(jì)調(diào)查及統(tǒng)計(jì)調(diào)查誤差的分析[J].統(tǒng)計(jì)與管理,2012(2).
[24]馬天芳.如何區(qū)別統(tǒng)計(jì)調(diào)查與實(shí)地研究[J].中國(guó)統(tǒng)計(jì),2015(4).
[25]大數(shù)據(jù)中的統(tǒng)計(jì)方法課題組,馬雙鴿.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)發(fā)展的若干問(wèn)題[J].統(tǒng)計(jì)研究,2017(1).
[26]馬雙鴿,王小燕,方匡南.大數(shù)據(jù)的整合分析方法[J].統(tǒng)計(jì)研究,2015(11).
[27]邱東.大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1).
[28]朱建平,張悅涵.大數(shù)據(jù)時(shí)代對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)變革的思考[J].統(tǒng)計(jì)研究,2016(2).
[29]宋曉紅,張立朝,祿豐年,等.地理國(guó)情普查中多源異構(gòu)數(shù)據(jù)整合研究[J].測(cè)繪通報(bào),2014(9).
[30]白如江,冷伏海.“大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究[J].情報(bào)理論與實(shí)踐,2014 (1).
[31]楊鹍.基于語(yǔ)義的金融行業(yè)大數(shù)據(jù)整合及處理技術(shù)[D].浙江大學(xué),2013.
[32]耿直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1).