大數據時代的兩大特征是數據爆炸和數據利用成都的提升,如何在大數據背景下,開展統計工作和大數據的深度融合,提升名錄庫更新維護的水平和質量,是關系統計工作和名錄庫管理的重要問題。
一、前言
隨著信息時代發展的逐步深入,數據正呈現一種大爆發的增長模式,數據產生的數量前所未有,數據擴展的規模與日俱增。大數據技術不可避免的對政府統計工作產生一定影響。在大數據時代背景下,開展名錄庫更新和維護的研究,具有重大而現實的意義。
二、名錄庫數據源探討
基本單位名錄庫,是指包括了全部法人單位、產業活動單位的基本標識和主要屬性信息的數據庫,是經濟社會管理的基礎。而統計系統基本單位名錄庫,作為基本單位名錄庫的延伸,是統計機構用于各類統計調查的基本單位名錄庫。本文的討論主要針對統計系統基本單位名錄庫。
1、名錄庫數據源現狀分析
名錄庫是統計工作的四大工程之一,是統計工作得以完成的前提。只有建立健全名錄庫建設,才能保證統計數據的及時更新和維護,各類統計調查單位在進行抽樣和統計中才能夠準確定位,最終提升統計能力。名錄庫的質量要素包括實效性、全面性和準確性,這三種質量要素很大程度上取決于名錄庫的數據源。就我國現階段的名錄庫數據源分析,每五年一次的經濟普查數據能夠為名錄庫更新提供較為詳實的數據,各地方各部門自行組織的各類統計調查在名錄庫局部調整和更新中具有重要的意義。由縣級以上相關部門提供的行政記錄是名錄庫更新的重要外部數據來源,更新周期一般為半年。
2、名錄庫數據質量分析
無論是在傳統統計工作還是大數據處理過程中,統計工作流程至少涉及統計機構、數據用戶和數據提供者三個參與主體,并由這些參與主體的行為及其交互作用延伸出諸如目的性、準確性、時效性等統計數據質量維度,以及與此相聯系的成本問題。名錄庫建設、更新,作為統計工作的基礎一環,也符合統計工作流程的一般規律,我們將名錄庫建設、更新中的參與主體及數據質量維度進行梳理。
名錄庫的內部渠道主要是通過各種統計機構的調查,收集和整理本部門的相關信息。多數單位在這一過程中作為數據的提供者,并不是數據的使用者,工作積極性不高,另一方面,這類機構同時還肩負著其他的工作任務,負擔較重。非統計部門作為名錄庫信息的外部渠道,既是數據的提供者,也是數據的使用者。但是不同部門存在業務上的差異,統計部門主導建設的名錄庫并不能用于政府機構使用。
3、名錄庫存在問題分析
我國經濟社會發展取得了舉世矚目的成就,相應的我國單位數量呈現井噴式的增長。名錄庫更新和維護工作在如此巨大數據量面前,顯現出一定的技術難度。區縣統計局在人員配備和名錄庫技術方面存在客觀短板,難以在短時間內完成名錄庫的更新維護工作。部分地區基層組織在指導性目錄之外進行委托事項,需要進行購買,名錄庫的更新經費支持很少,寄希望于社區人員無償進行名錄庫更新不切實際。
三、大數據背景下名錄庫的更新維護
1、信息范圍確定
互聯網大數據時代,信息量越來越大。在名錄庫更新方面,不是所有的信息都具有價值,這就需要通過利用大數據篩選技術,排除那些價值密度不高、信息真假難辨的信息區域,對可以使用的信息范圍進行“聚焦”,鎖定信息范圍的方向。聚焦,在大數據信息統計領域,就是指的更新名錄庫所使用的具體數據源。名錄庫建設的基本單位包括法人單位和產業活動單位,在數據收集中,需要準確定位可靠的數據信息站點。
2、數據提取
在名錄庫更新中的信息提取,指的是利用大數據分析技術,在基本確定信息范圍之后,對于有效信息較為集中的特定區域,綜合運用信息提取技術進行信息提取。在數據信息發生變化的情況下,需要整合出某種適合的表達式,并通過表達式對信息進行過濾和剔除,最終提取到有價值的數據。在信息家戶飛速發展的今天,信息的產生和更新速度,對信息提取部門提出了巨大的挑戰。
3、信息整合
在利用信息技術確定信息范圍之后,能夠在一定程度上降低無效信息的干擾,得到比較準確的名錄庫基本信息列表。伴隨著大數據、互聯網和云計算等技術的發展,智能搜索技術日漸完善,在提取名錄庫基本信息和屬性的基礎上,還能夠得到數據周圍地理及天氣信息。這就為獲取之前難以得到的數據周邊信息提供了便捷的工具。地理位置信息能夠降低外出調查人員的工作量,優化路徑選擇方案。
4、信息甄別
經過上述三個步驟,能夠得到用于補充和更新名錄庫的有效數據。但是在使用上述數據進行名錄庫填制之前,還需要進行數據信息的甄別。經常使用的方式是數據相互印證技術,統一數據來源或者相似數據來源的信息具有一定的關聯性和近似性,這就是大數據背景下進行信息甄別的邏輯思路。通過數據內在的邏輯性進行數據的相互驗證和相互推測。
四、大數據時代名錄庫管理展望
數據的重要價值在大數據時代顯得尤為突出,數據是統計部門的立命之本和工作核心,面對洶涌的信息化浪潮,統計工作者需要一擁抱的姿態進行大數據模式下的名錄庫管理工作實踐,促進大數據和統計工作的深度融合,搶占發展先機,豐富數據調查體系,建立共建共享數據管理模式,打破各部門之間的信息壁壘,實現數據和名錄庫的互聯互通。
五、結語
通過上文的研究和探討,可以看到傳統的數據統計方式方法和名錄庫管理技術已經不能適應大數據背景下統計工作的新要求,為此,本文基于現階段名錄庫管理,結合大數據和智能管理,提出了大數據背景下名錄庫的更新維護的原則方法和新手段。(作者單位為江蘇省興化市戴窯鎮統計站)