程春明,何慶光
(廣西財經學院 信息與統計學院,南寧 530003)
目前,我國統計數據的質量與政府和社會公眾的要求還有一定差距,還存在質量不高,公信力不強等急需解決的問題[1-2]。如何解決統計數據的質量問題,國內學者在理論、實證、政策等方面都進行了大量的研究,形成了豐富的研究成果[1]。
信息和知識經濟時代的到來,統計工作也體現了新的時代特征[3],統計工作的自動化程度越來越高,大量的統計信息系統得到應用,現代信息技術對統計數據質量產生了重大的影響。建立一套全面的、系統的統計數據管理和質量控制體系,實現對統計工作全過程的質量控制與評估,是提高統計數據質量的有效途徑[4]。然而,當前大多數統計信息應用系統傾向于某一階段工作的管理與應用,缺乏對統計工作全過程統一管理和監控,本文以探討以信息技術為基礎,構建統計工作全過程的數據管理和質量控制體系。
在統計、管理和計算機領域,關于數據質量問題進行了大量的研究,給出了多種不同的定義,無論在哪個領域,其核心內涵是基本一致的[4,6-7]。在20世紀80年代以前,人們一般認為統計數據質量就是追求它的準確性,統計工作基本上是以提高數據準確性為出發點,減少統計誤差。近年來,人們從更廣泛的范圍來衡量數據質量,準確性已不再是衡量統計數據質量的唯一標準,從滿足用戶需要的角度出發給出的統計數據質量的理念已得到了普遍的認可,即指出統計信息對用戶需求的滿足程度。具體包括:適用性、準確性、及時性、可比性、可銜接性、可取得性、可解釋性、客觀性(或稱誠信)、方法專業性或健全性、有效性、減輕調查負擔等11個方面。
現代統計工作包括方案設計、數據采集、數據整理和統計分析與發布等階段,每個階段的具體工作內容和目的有所不同,每個階段的各個環節均會對數據質量的一個或多個方面產生影響[6],為實現統計的最終目的——獲取高質量的、能滿足用戶需求的統計數據,必須使對數據質量的控制貫穿于統計工作的整個流程之中。
信息系統環境中的統計數據與和制造環境的物質產品具有相似性,把統計數據視為信息系統中的產品,這樣,就可以采用全面質量管理(TQM)的原則、方法和技術來進行數據質量管理[4,7];可以采用制造環境中供應鏈的管理體系來構建數據產品的管理體系,我們稱之為數據供應鏈。實際上可以把統計數據的制造和消費過程看作一種業務流程模型,它由數據提供者、數據生產者、數據管理者到數據消費者的價值鏈組成,完成由數據消費者需求開始到提供給數據消費者以所需要的產品與服務的整個過程[8],這就是數據供應鏈。
數據產品的制造過程包括:原始數據采集、中間數據生成、成品數據生成、數據消費等四個階段,它涉及四種角色:數據提供者、數據生產者、數據管理者、數據消費者[4]。數據產品的生產制造過程也是數據的增值過程,隨著數據(信息)的價值得到社會廣泛的認可,數據產品的開發和利用將會得更多的關注。從某一個數據生產者內部來看,它的數據生產過程也構一個內部供應鏈[9],這個供應鏈比較簡單(見圖1)。外部供應鏈還包括數據生產者的數據供應市場和數據消費市場,數據供應市場由一個或多個數據提供者和它們的數據供應市場構成,數據消費市場由一個或多個數據消費者和它們的數據消費市場來構成(見圖2)。

圖1 內部數據供應鏈

圖2 數據供應鏈模型
隨著企業信息建設的推進,現代信息系統從MIS(Management Information System)發展到企業商務智能系統。商務智能系統采集業務數據原始數據,經過數據清洗,形成支持決策和分析的數據倉庫,數據的采購與處理過程見圖3。可以看出,現代企業(或組織)內部的統計數據的采集、處理、分析過程是可以由企業商務智能系統來完成,并提供給相關的數據消費者。

圖3 現代商務智能系統架構
完整的外部數據供應鏈是圍繞滿足用戶的數據需求來構建的,它存在一個核心機構(或組織),并起著核心管理作用。構建一個數據供應鏈的同時也意味著一個統計體系的形成,它將數據提供者、數據生產者、數據管理者、數據消費者聯系起來形成一個是開放性的、以團隊工作為組織單元的有機整體[10]。采用供應鏈管理的思想來實現整個統計體系的管理,就是對一個統計體系中各參與組織、部門之間的數據、信息流與資金流進行計劃、協調和控制等,目的是通過優化提高數據生產過程的速度和確定性,提高組織的運作效率和效益。
對比制造環境的供應鏈管理,數據供應鏈管理更簡單,它所關注的只有數據(或信息)及其價值,沒有物流過程。數據供應鏈管理的基本對象是數據產品流,數據產品流由供應市場流向消費市場。數據供應鏈的信息流包括數據的需求、數據處理狀態和傳遞狀態等信息,評價與反饋流包括對數據產品的評估和評價信息等。采用現代信息技術,建立數據供應鏈管理系統(Data Supply Chain Management System,DSCMS)實現數據產品流、信息流、評價與反饋流的統一管理,以實現對數據供應鏈的全面管理。
現代信息系統具有高效的計劃、控制、反饋機制,高效的數據處理與傳輸能力,為構建DSCMS系統提供了技術支持。信息網絡時代,統計數據質量的監控與預警系統是統計信息系統的重要組成部份[3],可采用企業資源計劃(ERP)、全面質量等管理思想構建統計數據質量控制框架,以有效避免目前統計數據質量控制體系中易受中間環節的人為干擾。圖4給出了DSCMS的系統框架。

圖4 DSCMS系統框架
DSCMS由兩部分組成:一是統計數據管理系統,它實現方案設計、數據采集、數據整理和統計分析與發布等統計工作各階段的信息化管理;二是評價與反饋系統,它負責系統的控制、評價與反饋,是數據質量控制體系的實現。兩者有機結合,融入計劃控制、全面質量管理等現代管理思想,形成統計管理信息系統的全面解決方案。按系統的功能實現,可分成以下6個部分:
(1)方案設計系統。實現統計工作方案設計,包括任務和目標的制定,數據收集、處理方案的制定,以及數據標準和要求的設定等。方案設計將結合目標與實施方案,做出完整的實施計劃與控制策略,是DSCMS的控制中心,并通過評價與反饋系統來實現整個管理體系的計劃、過程控制和評價功能。
(2)數據采集系統。在跨組織的數據供應鏈中進行數據采集,需考慮時間和空間對數據采集產生的影響,構建基于互聯網的分布式集成數據采集系統不僅能提高工作的效率,也可以有效的減少數據逐級傳遞過程中的人為干擾。面向服務架構(Service-Oriented Architecture,SOA)是分布式系統當前應用最廣泛的核心集成技術之一[11],它可以對數據供應者的業務系統進行有效的集成,實現數據采集過程的自動化。
(3)數據處理系統。數據處理采用集中處理方式來完成,各級數據生產者和管理者經過授權可通過數據處理系統對采集的數據進行處理,生成相關的統計數據,以供本級數據消費者使用。數據處理包括抽取、轉換、裝載等過程。
(4)數據分析系統。數據分析可結合統計方法、數據挖掘技術、聯機分析處理技術(OLAP)對數據庫或數據倉庫中的數據進行分析,分析結果可通過信息發布系統進行發布,并對分析結果進行評價與反饋。
(5)信息發布系統。統計數據或分析結果可通過網站向社會公眾或相關用戶發布,并通過網站收集用戶的反饋信息。
(6)評價與反饋系統。通過構建科學的數據質量評價指標體系與反饋系統,利用現代信息技術手段對統計數據質量進行評價,并將評價結果及時反饋到數據質量控制框架及數據生成的各個部門(或環節),以便于及時進行修正、完善。
DSCMS內部各子系統之間信息共享管理是系統管理的重要內容,只有系統之間相互達到良好的信息共享,才能充分實現統計數據的全程管理和控制。系統應滿足良好的擴展性、開放性,以便讓其他的企業(或組織)加入到系統中,因此系統應遵從共同的標準和協議,達到較高的信息共享。
統計信息系統的建設是改善統計環境、夯實統計基礎和完善統計工作的需要,也是建立高效統計工作和健全經濟監測體系的基礎,對數據質量的提高有著重要的影響。本文對統計數據管理與質量控制系統的框架和系統建設進行了初步探討,系統的實際應用還涉及到政策、法規、技術等方面因素有待進一步研究。
[1]趙學剛,王學斌,等.中國政府統計數據質量研究——一個文獻綜述[J].經濟評論,2011,(1).
[2]曾五一.國家統計數據質量研究的基本問題[J].商業經濟與管理,2010,(12).
[3]湯宗健,重構信息網絡時代的統計體系[J].統計與決策,2003,(1).
[4]宋敏,覃正.國外數據質量管理研究綜述[J].情報雜志,2007,(2).
[5]陳傳波,唐九飛.信息系統中的數據質量[J].湖北工學院學報,1998,(9).
[6]曾曉峰,從統計流程談統計數據質量控制[J].中國統計,2008,(2).
[7]馬元三.基于全面質量管理的統計數據質量研究[J].宏觀經濟研究,2010,(11).
[8]沈厚才,陶青,等.供應鏈管理理論與方法[J].中國管理科學,2000,(3).
[9]陳劍,蔡連僑.供應鏈建模與優化[J].系統工程理論與實踐,2001,(6).
[10]陳志祥,馬士華,等.網絡化管理——敏捷供應鏈系統[J].系統工程理論與實踐,2001,(3).
[11]徐罡,黃濤,劉紹華,等.分布應用集成核心技術研究綜述[J].計算機學報,2005,28(4).