◎ 文/雷款婷
探析大數據對官方統計的影響
◎ 文/雷款婷
隨著計算機、網絡技術和數字技術的迅速發展,移動互聯網、物聯網、電子政務、電子商務等應運而生,電子數據量日新月異,紛繁多樣,其規模呈指數級增長,把人類社會帶進了以“PB(1PB=1048576GB)”為單位的大數據時代。大數據是未來信息技術新的科技爆發點。當前,美國在大數據運用上剛剛起步,我國與美國站在同一條起跑線上,但我國的人口和經濟規模決定了數據的規模為全球最大,可為大數據研究提供許多創新角度和實踐樣本,使官方統計數據有了新的供給渠道。
1.大數據亟待官方統計進行技術創新、管理創新和應用創新
何謂大數據?業界沒有統一的定義,可以描述為人們利用所有硬件環境和軟件工具收集、存儲、管理和分析的電子數據集。大數據除了具有數量大、速率快、多樣化和不穩定的特點外,還具備需要做相關性分析、需要實時或準實時流式采集、需要長時間存儲的特點。可以預見,大數據與云計算共同構成了未來信息經濟的生態系統,過去無法收集與分析的數據如今都被云計算、互聯傳感設備、無線信號識別等新的技術手段賦予了可能性,大數據的收集、編譯、鏈接和分析系統等正在不斷發展和完善,面向大數據市場的新技術、新產品、新服務、新業態正不斷涌現。未來國家的核心競爭力很大程度上將依賴于數據轉化為信息和知識的速度與能力,而這實際上取決于掌控大數據的技術能力。
2.官方統計應積極搭建和發展大數據平臺,獲取屬于自己的大數據
在國外,越來越多的社會研究和調查咨詢等非官方機構開始使用大數據收集、整理、發布與官方統計機構定期常規發布相重復或基本重復的統計產品,如商品零售額、商品價格指數等。其結果是,當非官方機構發布的數據與官方統計一致時,會造成資源的浪費,不一致時,則會擾亂正常的統計數據發布秩序,影響公眾的使用,形成對官方統計權威的質疑。從發展趨勢看,政府對物聯網、云計算的重視將有力推進大數據在我國的落地和應用。官方統計應積極主動適應大數據時代的新挑戰,適應現代科技革命的新變化,加快全系統的信息化建設步伐,奮力推動統計改革創新,適應社會大眾對統計的新要求,將數據核心話語權牢牢掌握在自己的手中。
1.大數據促使官方統計數據更接近總體,更具公信力
統計研究的對象是總體。統計的總體思想使統計始終要站在研究對象的整體角度來看問題。從2011年1月起,國家統計局正式實施的《房地產價格統計報表制度》規定,新建住宅銷售價格直接采用當地房地產管理部門的網簽數據,不再另行調查。從實際運行情況看,房地產交易部門提供的網簽數據涵蓋了當地新建住宅的全部交易情況,基礎數據的信息詳實和及時完整性得到了明顯改善,與采用非全面調查方法的舊方案相比,優勢明顯,更具公信力。
當前,官方統計的很多數據通過抽樣調查獲取。抽樣調查首先要保證一定的樣本容量,其次樣本要能很好地代表總體,以避免調查受到社會傾向的影響。過去,由于受人力、物力、經費、信息處理技術等制約,人們通過抽樣去推斷總體,但抽樣調查數據的精確度和覆蓋范圍有限,有時還要面對“拒絕回答”等情況。大數據時代,人們可以放棄隨機抽樣而選擇收集和分析覆蓋全部(或近乎全部)對象的數據資料,甚至可以處理和某個特別現象相關的所有數據。
2.大數據促使官方統計數據更具時效和降低調查成本
(1)科學開發和利用大數據能夠縮短官方統計數據生產的周期,彌補官方統計調查在及時性方面的不足。
(2)大數據的應用將促使政府各機構協同辦公效率和為民辦事效率大幅提高,統計調查員隊伍數量將會減少,調查者的負擔減輕,政府開支將會逐漸降低。與國外相比,我國信息化建設標準規范滯后、不一致的問題比較突出。物聯網行業應用標準缺失,導致設備不能互相兼容、互操作性差。據統計,2011年上海市40%的部門的業務系統由于技術標準不同難以與其他部門實現互聯互通。跨越系統、跨越平臺、跨越數據結構的大數據應用將跨越政府內部協同的鴻溝,打開政府各部門間、政府與市民間的邊界,大幅削減信息孤島現象,共享數據成為可能。
3.大數據促使官方統計方法制度、工作流程發生改變
每一次重大技術的發明與應用,將推動社會整體或局部的變革。大數據時代,官方統計在數據源、數據采集傳統方式方面的改變也必將帶來工作流程和制度方法的改變。
(1)從已發生的變革看,進出口、貨幣供給、財政等數據已經不需要專門進行統計,在各項相應的行政記錄里均可查詢。
(2)當前官方統計工作仍然存在人口普查、經濟普查等大型普查人財物花費巨大等情況。有些國家利用大數據已經或正在改變這種情況。例如,新加坡已經利用商場和超市商業記錄的價格信息計算CPI;丹麥、芬蘭等國家均已停止傳統意義上的人口普查,而使用日常行政登記數據進行人口普查。
(3)物聯網等網絡經濟的發展,也將使工業生產、運輸物流、最終消費、服務業等各種交易生成直接可用的數據,而不需要再經過專門的統計采集。在這種變化趨勢下,現行的一些統計指標,如工業增加值、固定資產投資、鐵路公路里程等,數據采集方式都會發生改變。
(4)大量的歷史統計數據、基層數據、各類普查原始數據以及從工商局、稅務局等部門取得的大量數據,因來源于不同的系統,具有不同的格式,指標體系也不一致。因為沒有經過整合,利用率比較低,無法在同一個軟件系統中對這些數據進行查詢、比對和分析展現。大數據平臺的統一應用將打破這種局限,為統計“四大工程”的拓展延伸提供廣闊的發展空間和機遇。
4.大數據促使官方統計分析和服務提升到新高度
(1)大數據的相關分析準確、快速,不易受偏見影響。在小數據時代,相關分析要從建立假設開始,然后進行檢驗。但由于基于假設,相關分析就有受偏見影響的可能,而且極易出現錯誤信息。大數據時代,官方統計因可用數據數量極多不會受假設、偏見等影響,反而會產生更多數據相關分析創新。例如,電力行業使用的智能電網數據不再受每月一次抄表的限制,耗電信息會以秒鐘或分鐘為間隔被測量。遍布電網的精巧傳感器,使數據的使用變得與以往完全不同,以此開展的相關分析會在用電管理、費率套餐等方面產生很多創新。
(2)大數據促使官方統計的分析和服務更趨精細。大數據超越了傳統的數據分析方法,除了可以對純數據、言論、圖表等進行深度挖掘,利用Google的搜索、Facebook的文章以及Twitter的消息中對行為、情緒、主張等進行精細地衡量和趨勢分析外,還可以提供客戶的偏好、未來意向及動機等真實信息,或利用時間數據與位置數據等對社會人群進行細分,對不同人群進行針對性服務。
(3)大數據將極大推動我國經濟轉型和提升政府社會治理能力。當前我國經濟發展中轉型升級的許多難題,包括資源配置、戰略性新興產業、食品安全、環境保護以及新型城鎮化過程中遇到的住房、教育、交通等問題,將有望通過大數據的分析研究得以解決,而大數據的精準性將會提高公共政策的科學化和精細化管理水平。
1.不斷規范適應大數據的分類標準和統計口徑
為保證官方統計的專業性、權威性,大數據的基礎框架和整體設計要適應官方統計對大數據應用的要求,大數據收集時應盡可能與官方統計指標的口徑和分類標準相統一,至少在推算或估算時要一致。開始階段可以將大數據作為統計數據的有效補充,經過一定時期規范化和標準化的成熟應用后,逐步擴大其應用范圍。官方統計可成立專門的大數據分析部門,掌握最新技術,特別要注意厘清可能的數據來源、范圍及其分類,制定或調整相應的統計分類標準,以保證依靠非傳統數據源加工生產的統計數據的規范、標準、真實、準確。同時要不斷強化基礎工作,不斷完善統一編碼系統和登記記錄系統,以方便統籌和鏈接使用大數據。
2.深入推進和拓展統計“四大工程”,為大數據的應用夯實基礎
利用大數據可以更快速、更全面、更精準地審查、驗證基層報送數據的準確性和真實性。當前,統計“四大工程”系統使用的聯網直報軟件,都具備了報表制度定義、數據錄入、編輯審核、數據匯總、數據上報等功能,覆蓋了統計數據生產過程的所有技術環節。但當前仍有部分調查專業尚未納入統計“四大工程”,農產品產量、生豬規模養殖戶和城鄉一體化調查等專業的網上直報系統尚待建立和完善。隨著統計“四大工程”的深入推進,各專業采用統一的軟件進行各類統計調查的數據采集和處理,并實現數據共享,為大數據的應用提供堅實的框架和基礎。
3.官方統計必須重視大數據信息安全
當前信息安全所面臨的危險已經滲透于社會經濟、軍事科技、國家安全、知識產權、商業秘密乃至個人隱私等各個方面。因此,不但要具備防治病毒、提高系統抵抗外來非法黑客入侵的能力,還要提高對遠程數據傳輸的保密性,避免在傳輸途中遭受非法竊取。大數據時代,對于數據處理的實時性有很高的要求,如何有效地防止或檢測對網絡的攻擊或對數據的篡改應成為官方統計的頭等大事。官方統計對大數據系統安全性和穩定性的要求應遠高于社交平臺,必須對其使用專門的安全性高的服務器、數據儲存技術和網絡設備等,更要采用專門的數據分析方法和使用體系。我國官方統計有必要將數據采集安全上升到國家級戰略,在服務器、存儲、網絡、軟件等各環節,在理念、系統、人才、管理等各方面努力打造信息安全機制,建立切實可行的系統網絡運行應急機制。
4.大數據應用相關立法工作有待加強和完善
大數據從數據生成、信息收集到數據的分析和應用,在法律法規上還存在一定的空白和欠缺,例如關于用戶隱私、政府信息收集和管控、敏感數據管理、數據質量方面都需要進一步通過法律來進行規范和保障。可通過修訂《統計法實施細則》,規范行政記錄和商業記錄的使用目的、內容、方法和工作流程,建立配套的保密措施和發布機制。
5.不斷增強挖掘大數據的核心能力
“大數據”時代采用的是自下而上的數據挖掘方式,是從大量實際產生數據中通過數據挖掘技術找到數據之間的關系并建立模型,生成對經濟社會發展規律的新認識和新見解。這種方式是以數據為先導,不需要預先設定一個研究目的或方法,是對傳統研究范式的一種顛覆。大數據潮流勢不可擋,誰能率先實現大數據,誰對大數據的挖掘更為深刻,誰就將搶占未來先機。
(1)官方統計要不斷加強數據整合的能力,不僅是官方統計內部數據的整合,更重要的是與大數據鏈條上其他外部數據整合的能力。通過信息整合和治理,創造更接近真實、準確的數據源,獲得更加完整的數據視圖,從而進行更為高效的數據挖掘。
(2)及時發布統計數據,并對統計數據進行詳細解讀。加強統計系統內部各單位之間的數據交流,及時交換已核實的統計數據,向公眾提供高質量統計數據。
(3)招募和培養精通大數據管理和分析的高級人才,借鑒國際先進統計手段,充分運用大數據海量信息和研發成果進行深入挖掘,努力促進數據分析創新,數據驅動決策,不斷增強對我國及世界經濟走勢的監測和分析,共同書寫我國官方統計真正的“大數據傳奇”。
(作者單位:國家統計局東莞調查隊)
編輯:田佳奇