馬 麗
(江蘇省統計局,江蘇 南京 210013)
大數據是必須借助現代信息技術收集處理后才能具有更強決策力、洞察發現力和流程優化能力的海量、高增長和多樣化的信息資產。大數據之“大”不僅僅體現在可供分析和使用的數據數量巨大,更在于通過交換、整合、分析這些數據,探尋新規律,創造新價值,催生“大知識”、“大服務”、“大科技”、“大利潤”和“大發展”。
大數據涵蓋數字、文本、聲音、圖片、視頻等各種信息類型,多源異構、分布廣泛、快速增長是其主要特點,數據的收集、保存、維護、處理以及應用相較傳統發生了翻天覆地的變化。
1.數據生產應用社會化。大數據時代,隨著電子商務、即時通訊、搜索引擎和網絡游戲等為主體的互聯網經濟飛躍發展,物聯網、手機、平板電腦、PC以及遍布全球的各種傳感器,都成為數據的來源或載體,數據采集不再局限于人工,政府統計部門不再是海量數據的唯一擁有和發布者。大數據的開發應用日益成為經濟價值的重要來源之一,正滲透到商業、科技、醫療、政府、教育、經濟、人文以及社會的各個領域。
2.數據產生處理快速化。大數據時代,數據產生會隨時隨地發生,從生成到消耗,間隔時間極短。互聯網上的數據“以秒更新”,數以億計的在線用戶時時刻刻都在產生巨量的信息交互;無所不在的移動設備、傳感器、實時監控系統每分每秒都在產生和記錄數據;經濟金融領域中股票、期貨等交易數據瞬息萬變。數據量的飛速增長,對處理分析的時效性要求相應提高,特別是在商業領域,一旦數據處理超過一定時限,就很可能失去價值。
3.數據需求層次多元化。大數據時代,人們第一次有機會和條件在非常廣泛的領域和非常深入的層次獲得和使用全面數據、完整數據和系統數據。政府層面,可應用大數據來提高應急處置和安全防范能力,改進治安管理和社會管理。企業層面,可以衍生許多基于大數據分析的商業模式。公眾層面,則可以享用到更多人性化、個性化、多樣化的商業產品、公共服務。
4.數據分析方法智能化。大數據時代,數據的預測功能成為核心。傳統的統計數據主要通過單個數據來反映當時狀態,且由于數據產生收集的時滯性,往往只能進行事后反映。而通過分析持續海量數據,能夠發現相對穩定的運行規律,便于對未來展開預測。如果把大量非結構化或半結構化的數據轉化為結構化的數據后加以有效的分析,還能洞察出語義、態度、情感、社會關系、效果等傳統數據分析難以解決的問題。
數據是開展統計工作的基石,其生產應用方式的深刻變革,勢必對政府統計帶來影響與沖擊,但同時也催生了思維理念的轉變、生產管理的變革、方法技術的創新。
1.統計部門職能地位面臨沖擊,為促進體制機制改革提供契機。大數據背景下,通訊、電力、金融、電商、搜索引擎等越來越多的行業擁有統計系統以外的海量數據,越來越多的企業和社會調查機構具備開發、挖掘和利用大數據資源的能力,政府統計部門不再是數據的主要提供者,也不再是數據的唯一發布者,政府統計的權威性將受到極大挑戰。隨著全球“開放政府數據”的呼聲日益高漲,大數據還將成為啟動透明政府的利器。只有讓數據作為生產資料自由流動起來,才能推動創新經濟、知識經濟和網絡經濟發展。只有打破部門、行業間壁壘,建立信息合作共享機制,完善信息發布職能,強化統計服務功能等,才能實現統計體制機制改革的新飛躍。
2.統計調查方法面臨嬗變,為深化統計改革創造機遇。政府統計的調查方法以周期性普查為基礎,以經常性抽樣調查為主體。大數據客觀上更有助于提高抽樣樣本的隨機性,可以不再拘泥于按照收入、地址、年齡等自然屬性進行抽樣,抽樣對象更加全面,抽樣方式更加靈活,抽樣推算結果的準確性也大大提高。抽樣調查的目的是用最少的數據獲取最多的信息,是信息匱乏、處理能力受限時代的產物。大數據時代“樣本即總體”將成為趨勢,現行的抽樣調查方法可能需要作出根本性的調整和改變。統計部門必須加快推進“四大工程”,改進數據收集方法,同時充分整合利用現有的海量數據來源渠道,確保統計生產方式緊跟時代需求。
3.統計指標體系面臨調整,為促進統計事業科學發展增添動力。目前的統計指標主要從宏觀層面反映經濟社會發展狀況,一般只細分到產品、行業層面,調查發布頻率通常為月度、季度,時效性相對較差,而阿里巴巴集團依托大數據推出的網絡零售價格指數,時效性強、可信度高、發布頻次快,已成為輔助了解通貨膨脹、經濟增長、居民消費等宏觀經濟情況的重要指標。未來隨著大數據應用范圍的日益廣泛,數據挖掘技術的日臻成熟,更多來自于民間非官方機構的統計指標將應運而生,傳統統計指標的實用性、價值性、科學性將面臨巨大挑戰。只有面對真實的用戶需求,積極改進統計指標、分類標準和計算方法,調整數據發布內容,才能全面推進統計事業科學發展。
4.統計分析方法面臨創新,為增強統計服務能力提供依據。傳統的統計分析主要針對結構化數據展開,方法相對單一、固化,對相關關系的論證通常需要人為選擇關聯因子和假設前提。而海量數據往往能更直接、更準確、更快速地揭示事物之間的相關關系,且不受偏見影響。大數據背景下的統計分析將不僅僅是簡單的數據匯總、羅列和比較,更需要專業化的數據挖掘與處理技術。把大數據方法論、數據挖掘技術和現代分析方法應用于統計分析中,將大大提升統計服務決策,服務社會,服務發展的能力。
5.統計數據質量亟待提高,為提升統計形象迎來轉機。統計調查數據的獲取,需要被調查者的參與,人工采集、整理數據的方式本身就會產生一定的誤差,一旦調查對象不予配合或者采用虛報、瞞報、亂報等方式消極配合,數據質量更加難以保證。而真實性恰恰是大數據的主要特征之一,一方面因數據來源于客觀交易行為和實時的個體行為,目的指向性不強且人為干擾程度低,另一方面因可以多源頭多維度對同一對象進行驗證,從而剝離一定的假數據。從近年來統計執法查處的大量違法案件到社會公眾對部分統計數據的質疑可以看出,借助大數據來提高統計數據質量,提升統計公信力的現實需求刻不容緩。
大數據對政府統計帶來的機遇和挑戰前所未有,只有順應歷史潮流,迎難而上,開拓創新,才能在這場變革中贏取主動,適應時代的發展與進步,在更新更高層面上不斷開創現代政府統計的新局面。
1.推動職能轉變,全力構建服務型政府統計。一是優化統計機構設置。統計制度設計要更加貼近用戶的真實需求,數據采集要開拓整合更多可用的渠道來源,統計分析要運用更加專業化的數據分析手段。二是完善統計發布職能。要利用現代信息技術盡量縮短數據采集、傳輸、匯總、存儲、發布等主要環節的時間,建立及時有效的數據發布和分析系統,采用可視化技術直觀地展示數據。三是強化社會服務職能。政府統計只有真正做到面向公眾,服務社會,才能在競爭中維護統計部門的權威地位。
2.完善制度方法,全面加快統計改革步伐。一是豐富統計指標。收集政府統計系統以外的統計指標,分析其與現行統計指標在口徑、范圍、內涵、定義等方面的差異,調整、規范和完善現有指標體系。二是改進完善調查方法。加快研究利用行政記錄、商業交易記錄和搜索引擎等調查方法,采集反映物價、通貨膨脹、就業、消費等領域的數據信息。三是拓展數據收集渠道。整合運用現有的如GPS 定位測量、超市收銀管理系統、ETC 電子收費系統等信息平臺,加強與其他政府職能部門的橫向合作,積極探索開展第三方合作。
3.提升業務水平,積極探索現代化統計新模式。一是改進數據處理技術。針對大數據的多源異構性,加快研究數據清洗技術,積極推動數據處理方式從簡單匯總向數據挖掘方向轉變。二是創新統計分析方法。要針對大數據速度快、存在形式多樣且關聯性強的特點,加強實時、關聯和可視化分析。利用大數據在分析相關關系方面的優勢,提升預警預測能力。三是開發統計新產品。在做優做強統計數據、統計分析、統計監測等傳統產品的基礎上,研制開發更高層次的統計產品及服務。如精準實用的預測模型、個性化定制咨詢服務、便捷開放的數據查詢系統等。
4.健全法律法規,切實保障各類主體隱私安全。大數據時代,并不意味著數據可以無條件、無原則地絕對公開。安全和隱私、法律法規的約束和限制仍是必須重視和直面的問題。個人、家庭隱私以及企業經營、管理等商業數據均是神圣不可觸碰的底線。必須進一步健全數據采集、使用、分享等相關法律法規,做好統計制度方法改革與《統計法》等現有法律法規的銜接,確保在保密安全的前提下,讓數據通過合法、合理的機制,實現社會共享,真正實現取之于民、用之于民。
[1] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤譯.浙江人民出版社.
[2] 涂子沛.大數據[M].廣西師范大學出版社.
[3] 許小樂. “大數據”與政府統計改革[J].調研世界,2013(5):42-45.
[4] 李翔.淺議大數據技術對統計工作的影響[J].遼寧經濟統計,2013(5):21-24.
[5] 吳立鋒,李世超.淺談大數據時代的政府服務型統計[N].中國信息報.2013-6-19.