石巖
大數(shù)據(jù)是現(xiàn)今社會(huì)一個(gè)熱點(diǎn)話題,我們每個(gè)人都置身其中。就像前幾年出現(xiàn)的云計(jì)算一樣,大數(shù)據(jù)已經(jīng)逐步引起各行業(yè)的廣泛關(guān)注。那么,什么是大數(shù)據(jù)?如何對(duì)大數(shù)據(jù)進(jìn)行相應(yīng)的分析?它在以數(shù)據(jù)為主要工作內(nèi)容的統(tǒng)計(jì)中又如何應(yīng)用?本文將對(duì)以上問(wèn)題作一些初步的探討。
一、大數(shù)據(jù)的概念與特征
(一)大數(shù)據(jù)的概念、特征與基本技術(shù)
1、大數(shù)據(jù)的概念
什么是大數(shù)據(jù)(big data)?大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策等更積極目的的咨詢。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,也即是處理分析數(shù)據(jù)的能力。
2、大數(shù)據(jù)的特點(diǎn)
(1)數(shù)據(jù)體量巨大。從TB[1]級(jí)別,躍升到PB級(jí)別,大型數(shù)據(jù)集規(guī)模一般為TB[1] 級(jí)左右,而大數(shù)據(jù)一般是 PB級(jí)至 EB 級(jí)。截至目前,人類生產(chǎn)的全部印刷材料的數(shù)據(jù)量約為200PB,而歷史上全人類所有說(shuō)過(guò)的話的數(shù)據(jù)量大約為5EB。
(2)數(shù)據(jù)類型繁多。大數(shù)據(jù)類型很多,不再是傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),更多是非結(jié)構(gòu)化、分布式和單調(diào)模式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。
(3)價(jià)值密度低。大數(shù)據(jù)價(jià)值普遍偏低,以行車記錄儀為例,在連續(xù)不間斷監(jiān)控過(guò)程中,可能僅有一兩秒是有用信息。
(4)處理速度快。大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)采集技術(shù)有所不同,其處數(shù)據(jù)處理速度非常快。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的傳感器,都是數(shù)據(jù)來(lái)源或者承載的方式。處理速度與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
二、大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)工作提出更高要求
(一)統(tǒng)計(jì)工作方式方法要求更高
1、數(shù)據(jù)的采集環(huán)節(jié)要更加流暢。改革后的統(tǒng)計(jì)流程是從報(bào)表設(shè)計(jì)—報(bào)表布置—報(bào)表受理—數(shù)據(jù)采集—錄入?yún)R總—審核查詢—上報(bào)—公布,大數(shù)據(jù)生產(chǎn)的主體不同,來(lái)源形式多樣,因此遵循的統(tǒng)計(jì)標(biāo)準(zhǔn)也不相同,如何改進(jìn)原有采集模式,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化采集是目前統(tǒng)計(jì)工作面臨的主要問(wèn)題。
2、數(shù)據(jù)的發(fā)布要求相對(duì)更高。傳統(tǒng)數(shù)據(jù)的對(duì)外發(fā)布以政府統(tǒng)計(jì)的主動(dòng)公開為主,數(shù)據(jù)經(jīng)過(guò)層層把關(guān)、嚴(yán)格審核才予以公布,公布的范圍也僅限于傳統(tǒng)紙質(zhì)媒介,發(fā)布范圍較窄,統(tǒng)計(jì)數(shù)據(jù)的時(shí)效性也相對(duì)滯后。而大數(shù)據(jù)產(chǎn)生速度極快、更新時(shí)間極短、體量容積極大,對(duì)數(shù)據(jù)發(fā)布的時(shí)效性要求高、數(shù)據(jù)發(fā)布的形式多樣、數(shù)據(jù)發(fā)布內(nèi)容也提出更高的要求。
(二)統(tǒng)計(jì)指標(biāo)范圍要求更加規(guī)范
傳統(tǒng)的統(tǒng)計(jì)指標(biāo)是根據(jù)研究目的和研究對(duì)象的特點(diǎn)而設(shè)計(jì)的,是可以計(jì)算量化的結(jié)構(gòu)性指標(biāo);而大數(shù)據(jù)的生產(chǎn)主體不一、來(lái)源日趨多元,在形式和內(nèi)容上與傳統(tǒng)指標(biāo)大相徑庭。對(duì)傳統(tǒng)統(tǒng)計(jì)體系中應(yīng)用價(jià)值較少的指標(biāo)要予以廢除,認(rèn)真分析大數(shù)據(jù)的來(lái)源、存在方式、數(shù)據(jù)類型和統(tǒng)計(jì)標(biāo)準(zhǔn),與現(xiàn)行的統(tǒng)計(jì)標(biāo)準(zhǔn)和指標(biāo)體系進(jìn)行研究對(duì)比,統(tǒng)一統(tǒng)計(jì)范圍、指標(biāo)內(nèi)涵、統(tǒng)計(jì)口徑和相關(guān)定義,設(shè)計(jì)出一整套能夠適合大數(shù)據(jù)特點(diǎn)的統(tǒng)計(jì)指標(biāo)體系。
(三)數(shù)據(jù)采集方式應(yīng)該不斷完善
大數(shù)據(jù)時(shí)代,數(shù)據(jù)來(lái)源渠道非常廣泛、數(shù)據(jù)產(chǎn)生方式多種多樣,依靠原有的方式方法開展數(shù)據(jù)采集工作已不能適應(yīng)新形勢(shì)的需求。一大數(shù)據(jù)的數(shù)據(jù)采集方法發(fā)生了根本變化,調(diào)查設(shè)計(jì)也相應(yīng)作出改變,建立在大數(shù)據(jù)技術(shù)與后臺(tái)軟件基礎(chǔ)上的調(diào)查設(shè)計(jì)是通過(guò)數(shù)據(jù)挖掘與數(shù)據(jù)提煉來(lái)提升數(shù)據(jù)的使用價(jià)值。二可以積極運(yùn)用先進(jìn)的技術(shù),采用源頭測(cè)量方法,取得信息技術(shù)記錄下的原始數(shù)據(jù),提高數(shù)據(jù)采集的效率和精度。三是通過(guò)培育和發(fā)展統(tǒng)計(jì)調(diào)查中介機(jī)構(gòu),建立數(shù)據(jù)采集中介機(jī)構(gòu)的法律準(zhǔn)入制度,充分利用社會(huì)力量參與統(tǒng)計(jì)數(shù)據(jù)采集工作,積極對(duì)現(xiàn)有的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行相應(yīng)的印證、評(píng)估,從而提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量和統(tǒng)計(jì)的公信力。
(四)對(duì)大數(shù)據(jù)的處理能力不斷增強(qiáng)
大數(shù)據(jù)本身的特點(diǎn)是體量龐大而且內(nèi)容繁雜,要在技術(shù)的研發(fā)和運(yùn)用上著力,要認(rèn)真研究非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的技術(shù)和方法,通過(guò)對(duì)信息技術(shù)、巨量的數(shù)據(jù)、主要指標(biāo)進(jìn)行研究與分析,推動(dòng)數(shù)據(jù)處理方式由簡(jiǎn)單匯總向深層次挖掘方向進(jìn)行轉(zhuǎn)變,努力開發(fā)對(duì)數(shù)據(jù)的預(yù)處理的程序,提高數(shù)據(jù)處理的智能化應(yīng)用程度,運(yùn)用大數(shù)據(jù)分析開展對(duì)經(jīng)濟(jì)的預(yù)警預(yù)測(cè),打造出高質(zhì)量的統(tǒng)計(jì)數(shù)據(jù)產(chǎn)品為社會(huì)經(jīng)濟(jì)和公眾服務(wù)。
(五)統(tǒng)計(jì)信息服務(wù)不斷優(yōu)化
大數(shù)據(jù)要有大服務(wù),大服務(wù)需要大產(chǎn)品。在大數(shù)據(jù)環(huán)境下,統(tǒng)計(jì)產(chǎn)品的產(chǎn)生在數(shù)量與類別上也將大幅度攀升,統(tǒng)計(jì)產(chǎn)品得到極大的豐富。這必然要求發(fā)布媒介更加多樣,在部分較為成熟的領(lǐng)域或沒(méi)有爭(zhēng)議的數(shù)據(jù)進(jìn)行實(shí)時(shí)統(tǒng)計(jì)與數(shù)據(jù)發(fā)布,在不侵犯?jìng)€(gè)人隱私和確保數(shù)據(jù)安全的前提下,利用目前趨向成熟的云技術(shù),開放數(shù)據(jù)源,讓用戶直接提取統(tǒng)計(jì)數(shù)據(jù),將統(tǒng)計(jì)服務(wù)進(jìn)一步向客戶端延伸,提升對(duì)統(tǒng)計(jì)數(shù)據(jù)的解讀能力,更大程度上滿足統(tǒng)計(jì)數(shù)據(jù)的多樣化需求。
三、如何利用大數(shù)據(jù)提升政府統(tǒng)計(jì)工作上水平
(一)轉(zhuǎn)變政府統(tǒng)計(jì)的職能
大數(shù)據(jù)時(shí)代,作為數(shù)據(jù)信息搜集發(fā)布維護(hù)的部門,政府統(tǒng)計(jì)不應(yīng)僅僅是數(shù)據(jù)的主要生產(chǎn)者,不應(yīng)再全面專注于的統(tǒng)計(jì)數(shù)據(jù)采集。而應(yīng)成為社會(huì)經(jīng)濟(jì)發(fā)展的權(quán)威、數(shù)據(jù)資料的主要提供者。新形勢(shì)下,統(tǒng)計(jì)部門要充分利用政府掌握的社會(huì)管理資料、行政記錄信息并結(jié)合自身采集數(shù)據(jù)資料來(lái)充分挖掘新的信息,建立社會(huì)經(jīng)濟(jì)數(shù)據(jù)權(quán)威平臺(tái),成為數(shù)據(jù)信息的權(quán)威分析者和發(fā)布者。數(shù)據(jù)是統(tǒng)計(jì)工作的生命線,統(tǒng)計(jì)分析報(bào)告是政府統(tǒng)計(jì)的重要成果之一,政府統(tǒng)計(jì)分析應(yīng)取之于數(shù)據(jù)、經(jīng)過(guò)提煉加工,形成遠(yuǎn)高于數(shù)據(jù)累積的預(yù)測(cè)和擴(kuò)展性的分析。
(二)重塑政府統(tǒng)計(jì)生產(chǎn)流程
1、完善采集方式。針對(duì)大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)比重很大的特點(diǎn),研究對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集的方式,開辟新的采集渠道,應(yīng)用新的采集技術(shù)。還要探索如何通過(guò)搜索、購(gòu)買、合作等方式,采集重要的基礎(chǔ)數(shù)據(jù)。
2、改進(jìn)數(shù)據(jù)處理。針對(duì)大數(shù)據(jù)量大且內(nèi)容龐雜的特點(diǎn),認(rèn)真研究將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法和技術(shù),積極推動(dòng)數(shù)據(jù)處理方式從簡(jiǎn)單匯總向數(shù)據(jù)挖掘方向轉(zhuǎn)變,加強(qiáng)對(duì)數(shù)據(jù)的預(yù)處理,提高數(shù)據(jù)處理的智能化程度。
3、豐富分析手段。針對(duì)大數(shù)據(jù)產(chǎn)生速度快、存在形式多樣且關(guān)聯(lián)性強(qiáng)的特點(diǎn),通過(guò)加強(qiáng)實(shí)時(shí)分析、關(guān)聯(lián)分析和可視化分析,提高統(tǒng)計(jì)分析的時(shí)效性、趨勢(shì)性和直觀性,提升統(tǒng)計(jì)工作的分析水平和預(yù)警預(yù)測(cè)能力。
4、完善數(shù)據(jù)發(fā)布。針對(duì)大數(shù)據(jù)即時(shí)產(chǎn)生、內(nèi)容豐富、形式多樣、主體多元等諸多特點(diǎn),增加統(tǒng)計(jì)數(shù)據(jù)發(fā)布的內(nèi)容,豐富數(shù)據(jù)發(fā)布的形式,提高數(shù)據(jù)發(fā)布的頻率和時(shí)效性,加強(qiáng)對(duì)數(shù)據(jù)的解讀,更好地滿足社會(huì)各界對(duì)統(tǒng)計(jì)數(shù)據(jù)的多樣化需求。
(三)構(gòu)建部門聯(lián)合統(tǒng)計(jì)體系
在大數(shù)據(jù)背景下,行政記錄、商業(yè)記錄等變得更加重要,要實(shí)現(xiàn)大數(shù)據(jù)的應(yīng)用,就要在堅(jiān)持完善現(xiàn)行統(tǒng)計(jì)框架和調(diào)查渠道的基礎(chǔ)上,構(gòu)建規(guī)范、統(tǒng)一、高效的新型統(tǒng)計(jì)體系。
1、加強(qiáng)部門配合,強(qiáng)化基礎(chǔ)框架和整體設(shè)計(jì),根據(jù)官方統(tǒng)計(jì)的需要,統(tǒng)一編碼系統(tǒng)和登記記錄系統(tǒng),整體設(shè)計(jì)使用大數(shù)據(jù)的基礎(chǔ)性框架,從大數(shù)據(jù)的產(chǎn)生源頭推進(jìn)數(shù)據(jù)的規(guī)范化、統(tǒng)一化。
2、明確部門義務(wù),對(duì)行政、商業(yè)登記數(shù)據(jù)的收集和發(fā)布都以明確的條文規(guī)定下來(lái),并以法律的形式規(guī)范各部門的權(quán)利和義務(wù)。
3、推進(jìn)部門協(xié)作,共同協(xié)商大數(shù)據(jù)的價(jià)值挖掘與分享機(jī)制,使大數(shù)據(jù)能夠作為一種重要的資源,與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)一起加以統(tǒng)籌使用,以最大限度地提高大數(shù)據(jù)的使用效率。
(四)實(shí)現(xiàn)大數(shù)據(jù)資源共享
要加快推進(jìn)統(tǒng)計(jì)信息化建設(shè)進(jìn)程,依照統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性、及時(shí)性、可得性和可解釋性等特點(diǎn),開發(fā)建立與統(tǒng)計(jì)工作流程相配套的數(shù)據(jù)采集系統(tǒng)、存儲(chǔ)系統(tǒng)和分析軟件,實(shí)現(xiàn)對(duì)大數(shù)據(jù)資源的共享和開發(fā)利用。