張明康、張超
(無錫市統計局,江蘇 無錫 214131)
大數據時代來臨對政府統計影響探析
張明康、張超
(無錫市統計局,江蘇 無錫 214131)
隨著信息技術的發展,大數據時代已經到來。大數據不僅僅表示海量的數據,也涵蓋了海量數據處理技術。大數據之于政府統計不僅是一項嚴峻的挑戰,也是政府部門進一步改革發展的良機。怎樣應對大數據、運用大數據,是值得政府統計部門仔細考慮的一個問題。
大數據;機遇;挑戰;改革
國家統計局局長馬建堂在會見阿根廷統計與普查局局長時指出,大數據是統計系統以外以電子形態存在的海量數據,大數據對于統計工作既是挑戰也是機遇,并表示國家統計局正組織力量研究如何在統計工作中利用大數據。作為專業從事數據統計工作的政府統計部門,在大數據時代來臨時,應該如何應對,是所有統計系統人員都應該認真考慮的問題。
維基百科對大數據的定義:大數據指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。大數據具有4V特征:Volume、Velocity、Variety、Veracity,即體量大、多樣性、價值密度低、速度快。
大數據是一個體積特別大,數據類別特別多的數據集,并且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理;大數據中數據的種類和格式沖破了以往所限定的結構化數據范疇,囊括了半結構化和非結構化數據,包括文字、圖片、視頻和二維碼等;大數據的真實性也非常高,因為這些數據來自于真實的社交、商業交易與設備應用等新數據源;正由于大數據數量巨大,有價值數據的密度就會顯得較低,最常用的例子就是監控視頻,長串視頻信息中有價值數據占比很小。
目前大數據主要是由三項技術匯聚組成:一是海量數據收集技術,主要負責收集產生于個人網頁、購物網站和各種設備傳感器上的信息數據;二是海量數據存儲技術,主要負責存儲收集來的結構和非結構化數據;三是海量數據處理技術,這是大數據技術中最關鍵的一環,主要利用一些計算模型,從海量數據中挖掘出具有價值的信息。
相對應的,大數據處理的整個流程可以概括為三步,分別是數據采集、數據分析和數據挖掘。先是利用大型存儲平臺收集數據,并進行粗加工;再利用分布式數據庫對平臺上的數據進行簡單分析和分類匯總;最后對數據進行高級別的挖掘分析,得出有價值的趨勢信息或個體偏好,滿足不同數據分析的需求。
數據資源已成為國家競爭的前沿,是企業創新的來源。作為一直以來站在數據收集與統計分析第一線的統計系統,更應該第一時間擁抱大數據時代的到來。大數據對于統計系統來講,可以說是如虎添翼,再加上現在正快速發展的物聯網和云計算技術平臺,統計系統將會迎來一個無比燦爛的明天。
開展一項統計調查,從方案制定到方案實施,每一個環節都需要投入大量的人力物力,不僅耗時耗力,最后獲取的數據還可能存在一定的偏差。但是在大數據時代下,政府統計可以直接獲取企業的行政記錄和商業交易信息,并把這些數據作為統計調查的對象,不但能夠減少人力物力的投入,還能保證獲取數據的準確性。比如統計系統現在進行消費品價格調查時,是讓采價員手持PDA終端到商場實地調查,這種調查方式不僅需要大量的采價員人力投入,還需要花費大量的時間。但如果能在商場的收銀終端處安裝采價裝置,商場直接向統計部門共享價格信息,那么統計部門就可以直接獲取市場全面的消費價格情況,而不需派駐大量采價員,節省了統計開支,降低了數據獲取成本。
隨著互聯網和物聯網技術的發展,人們獲取信息的便捷度越來越高,同時獲取信息的種類也更加多元。在互聯網和各種各樣的傳感器覆蓋的信息化時代,高達ZB級別的數據,基本上涵蓋了社會生產生活的各個方面。作為收集整理社會宏觀經濟信息以供政府管理部門進行政策制定的統計部門,利用大數據不僅能獲取簡單的社會生產生活宏觀信息,也能獲取微觀個體的動態情況,克服了傳統統計抽樣調查的以偏概全弊端,以全部數據為總樣本的模式進行統計調查,進而得出最準確的結論,更好的為決策者服務。
目前統計系統進行統計調查的方法是抽樣調查、重點調查、典型調查和普查的方式,在定期內進行統計,進而獲得反映整個社會經濟運行狀況的基本數據,包括GDP、人口、財政、金融、貿易和工業等數據。由于經費與人員投入限制,傳統統計方法收集到的數據精確度和覆蓋范圍有限,不一定能真實反映實際情況。而大數據時代獲取信息的自動化進程大大降低了數據出錯的概率,保證了數據的真實性和準確性。大數據還將打破政府、企業與民眾之間的信息孤島狀況,能夠實現跨系統、跨部門的數據共享,使得社會各部門之間數據流能順暢協同,數據獲取、處理和分析的時間大幅降低,提高了工作效率。再者大數據統計利用全體數據作為統計樣本進行分析,超越了傳統的數據分析方法,這樣極大的提高了政府統計產品的質量,增強了統計產品的科學性、精準性和預測性,對政府管理者進行決策能有更好的幫助作用。
目前統計的宏觀數據仍是以歷史數據為主,比如說GDP反映的是過去一段時間的生產總值,CPI反映的是過去一段時間的物價變動情況。這些指標和數據主要反映了社會經濟運行狀況的歷史信息,無法描繪社會生產當前正在進行的變化情況。這是因為傳統政府統計的數據來自于基層的層層上報,具有數據上報不及時、中間流程多和數據效用低的弊端。利用大數據能很好的改變這一現狀,物聯網技術實時記錄和傳遞信息,通過存儲云端的快速計算,使得數據實時產生、實時分析、實時發布,大大提高了數據信息的實時性。例如,百度搜索引擎可以自動記錄并分析用戶鍵入的搜索內容,經過處理分析得出每天的搜索關注指數,并且能根據每個用戶的瀏覽習慣進行精準的廣告內容推送。這種實時收集數據、實時分析并實時推送廣告的模式是傳統統計分析方法所無法比擬的。
在云計算和物聯網技術越來越成熟的情況下,越來越多的數據已經可以掌握和分析,這對擁有大量數據的政府統計來講不僅是好的發展良機,也是一項嚴峻的考驗。
在大數據時代,各種傳感器和網絡設施遍布社會的各個角落,人們獲取信息極其便捷,不管是社會宏觀數據還是個體的微觀數據,已經不需要投入大量的人力物力進行收集,數據獲取變得非常容易,那么人們就會去追求更具有價值的數據信息分析,進而從數據中挖掘個體的偏好性情況,挖掘社會生產生活個體的實時動態信息。因此,大數據與傳統統計在理念上具有一定的差異,電子科技大學教授周濤就指出大數據對于傳統統計理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。傳統統計要宏觀、重統計,大數據要微觀、重分析;傳統統計是帶著目的去抽樣調查數據,大數據是從全體數據中挖掘有價值信息。這些理念的相悖,對統計系統的角色定位和功能轉型是個極大的挑戰。
政府統計的目的與一般企業統計和學術統計不同,政府統計主要是通過收集社會宏觀經濟數據,進行國民經濟核算,以各種指標來反映社會生產狀況,政府管理者則通過統計數據知道社會的總產出和總需求,進而制定指導經濟發展的政策。但是隨著市場化的進一步深入,市場的自發調節越來越多的代替了政府政策的直接干預,市場會通過價格的變化進行供求關系的調劑。在這種趨勢下,統計系統也將要做出相應的變革,例如:隨著物聯網的快速推進,將來工業生產、社會消費、物流運輸這些都可以直接從物聯網中讀取出來,再通過云計算手段對所得數據進行分析挖掘,不僅可以得到宏觀經濟情況,還可以得出微觀個體的偏好狀態。這將是對傳統政府統計的一個很大的革新,也是對政府統計職能設計的一大挑戰。
目前以電子商務、網絡社交、網絡游戲和在線搜索為主體的互聯網經濟發展飛躍,政府統計部門已經不再是海量數據的唯一擁有者,很多企業和部門都擁有大量的數據,并且也在進行對數據的挖掘分析,甚至與政府統計的某些指標相重合。例如淘寶網就推出了自己的物價指數“淘寶CPI”,它采用淘寶小類目商品的平均價格,以支付寶成交金額的比例為權重,旨在反映網絡購物市場整體狀況。很顯然,淘寶CPI與政府統計系統發布的“居民消費價格指數”指標相類似,雖然標的不盡相同,但功能卻在一定程度上有所重合。以后在大數據時代,這種情況將會越來越多,也會有更多的數據擁有者依據自己的算法和分析發布指標,由于信息采集渠道來源不一致,公布的數據也有差別,將使得數據公信力降低,實用性變差。面對這種情況,怎樣維護政府統計的權威性,是政府統計部門不得不考慮的一個問題。
大數據時代通過物聯網采集到的海量數據,對統計部門的數據分析能力也是一個很大的挑戰。目前的統計分析主要是統計部門根據統計指標需要針對性的去收集信息,然后對數據進行簡單的匯總分析,難度和門檻相對來說不是很高。但是在大數據時代,面對海量數據,統計系統除需要從海量數據中得出常規信息外,還需要從中進行深度挖掘以期得到更有價值的數據和指標,進而更好的為領導決策服務,為社會生產服務,但目前的數據分析技術和分析能力,恐怕無法滿足數據分析的需要。這需要更加專業化、細分化和精確化的數據分析技能,需要有更高能力、更高知識素養的專業統計分析人員來進行數據分析挖掘工作。
目前政府統計的產品相對來說較少,主要包括社會生產總值,工業生產、旅游、商貿、人口、物價和土地等宏觀數據,對微觀數據統計較少。政府統計的偏重性在于宏觀數據的把握,只要收集整個社會整體運行的宏觀數量,不需要每個個體的運行狀態,更不會注重微觀個體的偏向性。因此其統計的流程就是基層上報、然后統計部門匯總數據,最后統計部門把匯總的數據作為整個社會的運行狀況進行分析,以供領導決策參考。這種流程產生的統計產品具有較強的滯后性和低頻性,利用這些數據進行宏觀經濟預測,有時候可能會存在較大的誤差。而大數據時代,利用發達的信息技術,數據能夠實時獲取,實時分析,產品也能實時發布,使得數據使用者能實時了解社會生產生活動態,這種快捷性、針對性的優勢,是目前傳統統計所無法達到的。
大數據既是挑戰,也是機遇,在信息化進程日益加快的情況下,政府統計系統能否在這次信息時代的變革中繼續占據優勢地位,很大程度上取決于統計系統自身改進的力度。
大數據對政府統計部門提出了更高的要求。統計部門要依照大數據的收集、分析和挖掘這幾個步驟,進行相應的機構設置,數據收集部門負責從物聯網或者其他數據庫中收集數據信息,并對數據進行初步清潔處理,確保數據真實有效。然后由專門的數據分析部門利用數據分析工具對數據進行挖掘,得出有價值的數據產品。最后再由數據發布部門向社會公眾發布數據,供領導參考和社會機構研究。除此之外,還要加大吸引人才的力度,引進一些具有數據分析高級技能的專業人才加入統計系統中來,充實統計隊伍,提高統計系統的專業能力水平。
雖然目前互聯網上已存有海量的數據,但卻是隔離在不同的企業和部門當中,相互之間完全隔閡,就連政府各部門之間,也遠未實現全部行政信息的共享。大數據時代必須要打破數據孤島現象,政府應該修建足夠大的數據存儲服務器以容納海量行政信息,并將歷史和現有的數據通過云計算技術的輔助整理歸類,并構建出官方的數據統計平臺,不僅統計部門使用,其他諸如商務、財政、交通、甚至是某些企業都可以共同在此平臺上存儲、利用數據。美國的政府網站data.gov就是美國政府構建的一個公開數據平臺,政府的各個部門都在這個數據平臺上上存儲更新信息,做到了信息的有效共享,增加了數據的效用性。
目前統計系統正在使用的行政記錄和商品交易信息,主要是結構化的數據,對這些數據的處理和挖掘已經有了比較成熟的模型和算法。但產生于互聯網和物聯網的海量數據,不僅包涵了結構化數據,還包括了大量的圖片、視頻、二維碼等多種形式的半結構化和非結構化數據,對于這些數據的處理,就需要統計系統提高數據分析挖掘的能力,以從這些海量數據中提取隱含的關系、模式和趨勢等信息。統計系統應該針對大數據的特點,加強對數據的預處理,提高數據處理的智能化程度,并通過實時分析、關聯分析和可視化分析,提高統計分析的時效性、趨勢性和直觀性,最終提升數據統計的分析水平和預警水平,進而為經濟發展貢獻更多力量。
政府統計要在激烈的競爭中取得統計的優勢地位,就必須要完善統計產品的發布模式。這可以從兩個方面著手:一是完善統計產品的種類,提高產品的針對性。大數據時代,統計部門就可以根據用戶的需要而進行針對性的數據統計,以滿足不同對象的統計產品需求。再一個就是豐富統計產品的發布形式。統計部門可以加強對數據的解讀分析,增加統計數據發布的內容,豐富數據發布的形式,提高數據發布的頻率和時效性,以期更好地滿足社會各界對統計數據的多樣化需求。
在大數據時代,政府統計應該重新對自己的工作職能進行新的定位,從被動的等待收集數據到主動的記錄數據,再到實時的分析利用數據。不僅對各個部門的行政信息進行整合采集,還要由簡單的數據收集者轉變成專業的數據研究和發布機構。政府統計作為政府權力和強制統計的代表,還要發揮統計管理職能,對數據源頭和民間統計加強管理,并制定相應的行業標準,以確保統計系統在大數據行業的主體地位。再者要廣開數據采集渠道,靈活運用各種數據分析工具,剝離單一從事數據統計收集的職能,轉向數據分析、挖掘,成為社會經濟發展狀況的全面數據提供者。統計系統要進一步利用及分析數據,推出更多的數據產品,努力向馬建堂局長所提出的現代統計、服務統計轉變。
10.3969/j.issn.1674-8905.2014.03.018
高萍萍)