張海亮
(山西工程科技職業大學 計算機工程學院,山西 晉中 030619)
隨著大數據時代的到來,其數據量大、信息價值高、更新速度快等特點為統計工作拓寬了信息來源,帶來發展機遇,同時也提出了諸多挑戰。在大數據發展背景下,經濟社會發展數字化改變了統計信息源的環境,促進了統計工作的信息化與數字化;借助大數據技術,統計工作的效率與質量得到有效提升。從另一方面看,大數據環境下,“數出多源”“一數多源”等數據質量問題,以及大數據統計模型建立與使用,在一定程度上也制約了統計大數據的有效應用。如何解決數據數量與質量之間的矛盾,如何在統計工作中充分發揮大數據優勢,已成為各級統計部門亟須解決的緊迫課題。
在社會生產數字化建設和數字經濟加速發展的背景下,“數據”已被普遍認為是一種新型生產要素,在經濟社會發展發揮著越來越重要的作用。數據的質量決定著數據的價值,也從根本上影響著數字社會的形成。數據質量,是指在業務環境下,數據符合數據消費者的使用目的,能滿足業務場景具體需求的程度[1]。通俗地講,數據質量是數據本身所具有的屬性滿足使用者需求的程度,一般包括真實性、準確性、實時性、完整性和安全性等。在不同歷史時期,不同業務領域、不同用戶對數據質量的要求不同,對數據質量不同屬性的關注程度也存在差異性。
隨著信息技術發展和社會各行業數字化進程的加速,數據統計應用需求和場景也在不斷擴大,統計數據的用途、使用范圍、應用方式、統計指標等也都在發生著深刻的變化。在不同時期,不同國家(或地區)對統計數據質量有不同的定義和要求。它是綜合性概念,可以從多個維度反映不同特征因素,包含準確性、及時性、可用性、可獲得性、可比性等。統計數據的真實準確是統計數據質量的核心,同時兼顧時效性、可比較性、適用性、保密安全等維度[2]。
由于統計數據質量直接關系政府公信力與權威,且對治國理政決策有重大影響,世界各國越來越重視統計數據的質量管理。在大數據背景下,統計數據的質量除了一般定義下的數字質量屬性外,圍繞應用需求和客戶需求,在數據全面性、系統性等方面提出了更多更高的新要求。
統計數據質量管理與經濟社會發展、技術進步、外部環境緊密關聯,具有明顯的時代特征。在當前大數據背景下,對統計數據質量進行深入研究,提出統計數據質量管控策略對提高統計工作質量和效率具有重要意義。
大數據概念從提出到應用,經過了一個快速發展的歷程。隨著應用與發展的不斷深入,大數據所引起的變革已經深刻影響到社會發展的各個領域。統計大數據在數據來源、數據類型、數據價值、存儲量、計算速度等方面與傳統統計數據有明顯的差異。21 世紀初,關于“大數據量”統計的研究和探討開始見諸期刊和報道,大數據開始逐步應用在不同業務領域的統計工作中。
2013 年國家統計局全國統計工作會和務虛會中,明確提出要樹立大數據意識,加快大數據應用步伐[3]。2013 年11 月,為積極推進大數據在政府統計中的應用,國家統計局與百度、阿里巴巴等多家企業簽訂了大數據戰略合作框架協議。同年,許小樂[4]針對“大數據”對政府統計工作的挑戰和影響進行了研究。大數據在統計工作中實質性的應用開始不斷落地。
簡單來說,大數據在統計工作中的應用可以概括為以下幾個方面:
在政府統計大數據平臺建設方面,國家層面統計大數據中心和網絡體系不斷完善,統計信息資源大數據穩步發展。2013 年,南通市綜合數據管理平臺[5]一期工程建設完成,探索了部門信息歸集運用新模式。北京、上海、重慶、山東、江蘇、甘肅、海南、河北等省(市)統計局均先后建設了大數據平臺,應用大數據來提升政府統計數據質量。大數據體系、大數據綜合平臺的建設和發展有效支撐了政府統計工作。
在政府政務工作中,基于大數據課時實現對國民經濟運行指標統計和運行狀況預測分析,提高宏觀經濟運行監測的準確性、實時性;以公安人口信息系統、人口和社會統計數據庫(人社數據庫)、互聯網數據等多口徑來源大數據能夠實現更加精準詳細的人口統計信息;在價格統計中,利用互聯網企業數據、電子商務交易數據,以及超市、商場的商品結算信息等大數據,可以實現價格指數更加及時、準確的統計,降低統計工作成本,增加價格指標發布頻率和次數[6-8]。
此外,大數據在就業統計、失業預測、交通運輸、公共衛生[9]、商業零售服務、電商CPI 統計[10]、司法統計、金融統計[11-13]、證券行業預測、網絡社交統計、環境保護和氣象等其他專業統計中的也得到了廣泛應用。
實踐表明,大數據應用于統計工作在推動政務信息共享利用,提高統計數據質量,提升統計效率,降低統計工作成本,增強常規統計時效性,豐富統計范圍,提升統計服務質量等方面都發揮了非常積極的作用,取得了較好的效果。但是,應用中也存在一些問題。
1.源頭數據質量難以控制。在大數據統計中,統計數據一個主要來源是由調查對象自行填報通過聯網直報系統獲取,源頭數據質量難以控制。此外,通過其他方式獲取的數據由于缺乏校驗機制,數據在準確性、完整性和一致性也難以保證。
2.數據缺乏標準,獲取困難。在大數據背景下,為了增加數據的全面性,相關機構和部門建立了各類數據中心,在采集、整合數據的過程中,不同來源的各類大數據由于沒有統一的數據格式、缺乏數據標準、技術標準和系統接口標準,阻斷了數據采集、交換與共享的通道,增加了統計數據獲取難度,阻礙了大數據的有效共享和高效利用。
3.數據安全性保障不足。為不同領域和部門服務的統計資源庫由于受限于信息化基礎設施,統計數據資源存儲方式、數據庫管理系統在出現故障或異常時,往往引起數據丟失,造成損失;同時,統計大數據的綜合利用也給政府敏感數據、公民隱私信息等數據安全帶來隱患。此外,在互聯網、云計算等大數據應用環境中,信息丟失、數據破壞也可能造成難以預估的不良影響。
大數據在統計中的應用,給政府統計職能、統計手段、統計業務生產流程、統計工作相關機制體制和法規制度建設等提出了一定挑戰。
在數據采集、處理、存儲、應用、展現直至消亡的生命周期中,數據處理、數據應用、數據表現和數據管理等不同維度中各類因素和流程都可能影響數據質量。特別是大數據背景下,數據全生命周期管理具體內容發生了質的變化,數據質量影響因素及其影響貢獻率也隨之發生了變化。
統計大數據的質量影響因素主要包括以下幾個方面:

圖1 統計大數據質量影響因素
面對大數據環境,在統計數據采集中,數據源與采集方式包括人工統計報表導入、應用系統數據交換、傳感器采集、網絡爬蟲抓取數據等。人工統計報表導入是相對能夠保證數據質量的一種大數據采集方式,但是,其效率較低,同時,在報表導入過程中,由于原有表格規范性和導入系統程序接口兼容方面,可能會在數據導入過程中出現錯誤,特別是報表中的“空值”和“0 值”;傳感器采集在統計數據質量檢驗、特定對象跟蹤統計、動態交通流統計、國民經濟核算經濟流量和存量測算等方面取得了較好的應用效果,傳感器本身采集的準確性,以及數據的安全性是當前傳感器數據采集的主要制約因素。
采集數據的時效性和質量會由于數據采集方式、采集工具的多樣和采集技術的特點而受到一定程度影響。同時,由于數據來源更加廣泛和多源,數據間的矛盾性和差異性影響了大數據統計的效率。
大數據環境下采集的數據往往出現一數多源、多源互異等情況,因此,一般情況下,無論以何種方式,通過何種渠道采集而來的數據,都無法直接應用于大數據統計與分析,需要經過一定的預處理來提高數據質量,提高數據可用性。通過數據清洗,可以運用技術手段和方法,按照一定的規則和策略,將采集數據中錯誤、重復或者遺漏的數據進行規范化處理。對于數據格式不一致、字段數據匹配不正確等問題,則需要通過數據轉換來實現對數據質量的管控。
數據清洗和數據轉換是最常見的預處理技術,數據預處理的規則直接影響著數據質量。
分布式存儲是當前大數據主要的存儲技術,與存儲介質類型、數據的組織管理形式有直接關系。對應于大數據的不同特征,應側重的選用不同的存儲技術。不同的存儲技術,存儲介質對數據存儲與訪問的及時性、安全性和準確性有影響。
用于統計大數據的分布式處理技術與統計大數據的數據類型、存儲形式相關。基于Java 技術的Hadoop 體系架構具有較強的批處理能力,適用于較大規模數據的批量化處理,但時效性較差,對超大規模數據難以實現集中快速處理。Storm 技術基于拓撲結構來實現數據流轉換,更適用于數據集群結構的實時處理,具有更強的時效性和容錯性,但其處理穩定性與靈活度不足。Spark 基于直接面向用戶的內存式計算框架可以將數據流轉化為超低量秒級數據集實現數據自動收集與批量計算,但該技術對系統軟硬件有較高要求。
不同大數據處理計算框架模型適用于不同數據類型與數據規模,影響著大數據處理的質量和效率。大數據分析過程中,數據的聚類與分類、數據關聯分析和數據深度學習,影響著統計大數據的可用性、準確性,決定著大數據的價值。
大數據的可視化展示是大數據前期處理與分析結果的輸出,能夠直觀向用戶呈現大數據統計分析的結果,并進行交互處理。數據展示的方式、維度反映了大數據可用性、易于理解等質量特性。
經過數據預處理、數據處理與分析后的數據,應用于一定模型即可應用于統計分析、戰略規劃和決策分析。大數據應用是數據價值的體現,直接反映了統計大數據從采集、預處理到輸出成果的可用性和準確性。
除了上述技術層面外,在大數據背景下,相關管理制度、標準規范、統計人員隊伍等管理層面諸多因素也影響著統計數據質量。
在社會經濟數字化高速發展的進程中,大數據應用于統計工作是必然趨勢。有效控制和提高大數據質量,將有力提升統計工作質量與效率。提高統計大數據質量可以從管理、技術等多個角度,針對其各影響因素進行質量控制。
大數據發展及其在統計領域的研究與應用已證明其有效性與先進性,大數據背景下傳統統計工作在面臨挑戰的同時也迎來了創新發展的新機遇。各級統計機構和管理部門應積極主動適應新形勢,增強大數據應用敏感性,克服大數據“恐懼癥”,順應“信息資源”向“信息資產”的轉變,充分理解小樣本數據精準統計與大數據高效分析的一致性,營造寬容的大數據統計研究應用環境,重視大數據統計工作。
建立健全和完善大數據統計相關規范與制度,結合大數據統計工作應用場景,制定修訂相關管理辦法和要求,保障大數據統計工作相關標準規范的協調性;完善統計業務分類與指標設置,優化統計工作流程,加強統計業務指導與培訓,準確理解統計指標;通過加強事前、事中和事后監督加強數據質量檢查校驗,確保數出有源、數出有據,提高源頭統計數據質量。建立與大數據應用相匹配的大數據采集標準體系、大數據采集經費保障體系和大數據技術支撐體系,規范統計工作中大數據應用的方式、流程、技術路線,并建立跟蹤評價機制。
此外,為適應大數據相關技術快速發展的特點,政府統計管理部門應在各綜合統計、專項統計中要進一步加強大數據統計元數據標準規范的制定、發布、更新和采標監督,加大統計大數據標準規范全流程管控力度,以數據規范性引領統計大數據質量。
以“頂層設計”理念,充分調研挖掘統計部門大數據應用需求,統籌規劃、集約高效建設統計大數據信息資源平臺。采用“1 中心N 節點”的總體架構,以云計算、大數據、5G、物聯網、“互聯網+”等技術為依托,“公有云+私有云”“政務網+專網+互聯網”連通跨行業、跨部門數據信息系統,以“普查數據+專項調查數據+聯網直報系統”核心統計數據資源與第三方商業數據資源相結合,融合構建統一的網絡管理、資源管理、安全管理、業務部署等系統管理功能,集約建設高性能高可用的計算、存儲、網絡、安全信息化基礎支撐體系和數據信息資源庫,支撐統計大數據的交換、共享和業務應用。
統計大數據信息資源平臺是大數據應用于統計工作的重要支撐,對提高數據采集的及時性、準確性、高效性具有重要意義。統一的數據采集、共享交換平臺,合理規范了數據采集的范圍,有效避免了非權威、不完整、質量差數據納入到統計數據源;基于統一元數據標準建立的數據質量管控與評估系統,將數字質量管控貫穿于數據全生命周期,實現對“數出多源”“多源一數”“多源異構”等數據進行規范化轉換、清洗、質量校驗與預處理,從數據采集端實現對數據質量的把控;采用云計算、云存儲、區塊鏈等技術,能夠有效提升數據存儲與訪問的效率與安全性。
大數據的“4V”特性,一方面反映了其價值與作用,另一方面也為其開發利用提出了要求。面對統計大數據“海量”信息,充分了解大數據優勢,借助大數據挖掘分析技術對統計大數據進行整合,利用SAS 等多元化統計工具,從大量統計相關數據中獲取有價值的信息,面向用戶需求對傳統統計方法進行補充與優化,為統計工作提供堅實基礎。
數據挖掘一般包括對大數據的清洗、轉換、集成應用、挖掘分析、模式評價和最終的知識表達。在大數據統計中,應根據數據資源構成特點、統計業務模型等因素,選擇適宜的大數據處理技術進行模型計算與數據挖掘,并結合統計業務需求定義不同深度、不同維度、不同粒度、不同發布頻次的數據輸出形式。
結合大數據信息資源平臺建設、大數據技術應用要求,建立、完善和創新大數據背景下統計信息化建設、應用和管理體制機制。目前,隨著數字政府的推進,各省政務信息化建設呈現出“云端集中”趨勢,隨著5G、人工智能、IOT、云邊端計算一體化等技術的推廣應用,數據采集、處理與展示開始向智能化、便攜式、移動化方向發展,需要建立相應的統計大數據信息資源平臺建設、運維和管理體制機制。
此外,“互聯網+”新業態蓬勃發展,開源互聯網思維,以及眾創、眾包、眾扶、眾籌平臺,都為大數據統計工作與統計大數據應用發展提供了良好的“生態圈”。統計大數據共享、大數據開發應用、大數據統計產品等都為大數據背景下統計數據質量管控打開了新的空間。
隨著大數據背景下統計信息化相關機制體制的建立健全,原有統計信息化人才的配置要求、崗位職能以及培養模式都應隨著形勢適時調整。內部培養與外部引進相結合,加快培養適應大數據發展需求,既精通統計業務又掌握信息技術的復合型人才,同步加大大數據、云計算等信息化領域專業人才引進,打造高素質的統計信息化專業人才隊伍。加大與互聯網企業、科研院所、高校、社會團體等聯合構建大數據統計創新平臺,在學術研究、技術合作、應用交流中持續培養創新型人才。依據大數據、信息技術發展特點,制定定期培養與動態考核相結合的人才考核評價體系,構建學習型統計信息化人才隊伍。
統計工作通過對數據信息的收集、匯總、計算、分析來獲得或者反映事物的特征與規律,影響著國民經濟的方方面面,對國計民生、社會發展都起著巨大的影響作用。伴隨著信息技術發展與社會數字化進程,統計工作既得益于大數據而有了創新與發展,又受礙于大數據質量問題而受到諸多挑戰與困難。在大數據背景下,提升統計數據質量是一項復雜而艱巨系統工程,政府統計主管部門、各級統計機構都應該積極主動迎接大數據時代的到來,通過管理層面、技術層面多措并舉采取有效策略解決大數據統計數據質量問題,推動統計事業高質量發展和統計工作現代化服務。
當然,在推動大數據統計應用的同時,我們還需要與時俱進加強數據安全、網絡與信息安全意識。在大數據背景下,網絡與信息安全將是統計工作未來無法回避的又一挑戰。