王啟富、何中華、李文豪
(上海市閔行區(qū)統(tǒng)計局,上海201199)
?
信息化條件下統(tǒng)計數據管理與應用的探索——以上海市閔行區(qū)工業(yè)統(tǒng)計為例
王啟富、何中華、李文豪
(上海市閔行區(qū)統(tǒng)計局,上海201199)
摘要:受限于各種制約因素,目前基層統(tǒng)計系統(tǒng)在統(tǒng)計數據的管理和應用上普遍存在以下幾個不足:一是缺乏統(tǒng)一通用的數據處理分析平臺,數據深度開發(fā)的時效性、準確性、可驗證性難以保證;二是數據來源的規(guī)范性差,數據結構變動頻繁,且數據組織偏重于采集,原始數據的可讀性差,制約了統(tǒng)計數據開發(fā)應用的時效性;三是數據開發(fā)過程的自動化程度較低,手工處理步驟多,對專業(yè)人員的計算機水平要求較高;四是數據資源的集中度、規(guī)范化不夠,不利于多指標、多維度、長時間序列分析。鑒于此,我們以閔行區(qū)經濟總量較大的工業(yè)統(tǒng)計為突破口,在數據管理規(guī)范化、加工處理流程化、專業(yè)數據共享化、分析挖掘模型化方面進行了嘗試和探索。
關鍵詞:信息化;數據管理;工業(yè)統(tǒng)計
自2011年國家統(tǒng)計局全面實施“四大工程”以來,在數據采集環(huán)節(jié),區(qū)縣統(tǒng)計部門獲取數據的時效性和質量都有明顯提高,統(tǒng)計工作的重心也逐漸向數據的規(guī)范化管理、開發(fā)利用和深度挖掘轉移,政府決策部門、社會各界對統(tǒng)計數據的開發(fā)應用水平也提出更高要求。
2011年,閔行區(qū)統(tǒng)計局經濟科與數據中心組成課題組,對工業(yè)統(tǒng)計的歷年報表制度、數據來源、采集方式、分析角度、與其他專業(yè)的關聯度、有關部門的要求、主要匯總表式、歷年工業(yè)經濟的熱點問題、數據保存形式、日常工作流程等進行了認真總結和梳理,對可以通過信息化手段加以提高的部分進行了重點討論,對專業(yè)人員在數據處理中面臨的問題和領導需求進行了分析,并決定依托現有的“閔行區(qū)統(tǒng)計信息管理應用系統(tǒng)”(以下簡稱“應用系統(tǒng)”),實現以下目標:
(一)設計一套合理的數據管理模式。以有利于規(guī)范化管理數據、快速分析數據為原則,借助信息化平臺,合理規(guī)范設置數據結構,并將分析處理結果集中統(tǒng)一存儲形成臺賬。
(二)創(chuàng)建一套合適的數據分析處理模型。以快速生成固定匯總表式為主要目標,結合多指標、多維度、長時間跨度分析需求,創(chuàng)建數據分析模型,并以數據共享目錄的形式提供數據共享。
(三)建立一套行之有效的數據分析處理流程制度。按照數據日常處理中的實際情況,以可操作性為原則,設計數據處理流程,合理安排各工作節(jié)點,對完成數據分析流程所需要的必要支撐進行明確定義,并以制度的形式確立下來。
自2011年起,課題組進行了為期三年的實踐與探索,經過不斷的迭代式開發(fā)與應用,逐漸形成了適合閔行統(tǒng)計的數據管理和應用開發(fā)方式。在實踐中,課題組感到,要做到數據規(guī)范連續(xù)、數據分析模型高效易用、數據分析處理流程合理長效才能更好地提升基層統(tǒng)計數據管理與應用水平。
(一)文檔集中統(tǒng)一管理與數據規(guī)范化
1.原始數據的集中歸檔統(tǒng)一管理。原始數據是后續(xù)數據分析處理的基石。目前,原始數據來源多、文件格式復雜、命名不規(guī)范,不利于數據的管理和應用;各專業(yè)原始數據僅由各專業(yè)人員自行保存,不利于數據共享,且存在歷史數據遺失隱患。
為此,課題組在文件服務器開設了原始文檔存儲區(qū),按照專業(yè)、頻度、報告期、報表制度建立了對應的存儲目錄,并要求統(tǒng)計人員在報告期結束后一周內上傳原始文檔,由數據中心進行規(guī)范化命名并定期進行歸檔保存。
2.創(chuàng)建面向分析的數據資源。前已述及,目前面向采集的原始數據在結構上偏重于存儲、格式多樣、由于報表制度變化導致連續(xù)性不強等原因,通常不能直接用于數據分析挖掘,需要對原始數據進行預處理,生成結構化程度高、連續(xù)性較強的數據才方便進行后續(xù)開發(fā)應用與挖掘。
經整理,統(tǒng)計原始數據常見問題及預處理方法是:數據缺失,需要從其他數據源或根據特定規(guī)則補全缺失數據;數據冗余,需要根據特定規(guī)則刪除多余數據;報告期不規(guī)范,需要對報告期數據進行格式化處理;空值無法參與分析挖掘,需要對空值進行填充;多來源數據計量單位不一致問題,需要根據統(tǒng)計應用的實際情況將多來源數據的計量單位轉換成一致;同一來源不同報告期數據字段名稱不一致但實際內涵完全一致,需要用統(tǒng)計上約定俗稱的字段名稱進行統(tǒng)一規(guī)范命名;同一來源不同報告期字段名稱一致但實際內涵不同,需要根據實際情況擴充新的指標,并做好原始數據與新數據結構的映射;多來源數據相同內涵的字段名稱不統(tǒng)一,需要用統(tǒng)計上約定俗成的字段名稱進行統(tǒng)一規(guī)范命名。
以工業(yè)數據為例,存在的問題及預處理方法是:工業(yè)產銷總值及主要產品產量數據存在輕重工分類數據缺失、工業(yè)區(qū)代碼不規(guī)范,需根據行業(yè)代碼補全輕重工分類,并對工業(yè)區(qū)編碼進行整理;生產者價格指數(PPI)數據存在某些行業(yè)中類數據缺失問題,需以對應的行業(yè)大類數據補全;在地企業(yè)名錄存在包含大量無用數據問題,需以主管標記非閔行、主管機構是閔行為依據刪除多余記錄;工業(yè)產值數據的分析需要用指數縮減法剔除價格因素的影響,即在計算增幅的時候,先按照企業(yè)所在的行業(yè)中類用相應的生產者價格指數(PPI)對產值數據進行縮減,然后再進行計算,需要新增用于存放可比累計、可比本月等數據的字段。
(二)建立數據分析模型
各統(tǒng)計專業(yè)在采集指標、分析角度、工作模式和分析挖掘等方面存在很大差別,但都可以歸結為一個由指標體系、分析維度、固定匯總表式及其匯總分析算法、即席查詢等方面構成的分析模型。為此,課題組將工作重心集中到如何快速為不同的統(tǒng)計專業(yè)設計與創(chuàng)建對應的分析模型上,通過此模型,可以快速獲取固定匯總表式數據,也可以通過即席查詢進行深度分析挖掘,還可以通過權限設置進行數據共享。同時,快速生成固定匯總表式數據的過程,也是積累臺賬數據資源的過程。
1.確立分析指標集。由于數據結構變動頻繁,經過數據預處理的數據中依然存在連續(xù)性不強的問題,課題組選擇了專業(yè)分析中較常用或數據連續(xù)性較好的部分指標作為面向分析的指標集的基礎,并根據匯總分析實際需求生成派生指標,合理補充能耗、稅收等其他專業(yè)指標,并最終確立為分析指標集。
以工業(yè)數據分析為例,確立的分析指標集主要包括:工業(yè)總產值、工業(yè)企業(yè)主營業(yè)務收入及利潤總額的本月值、本月累計值和累計同比增幅,期末資產總計、期末負債總計、期末凈資產總計、期末應收賬款凈額、期末產成品存貨、出口交貨值等原始指標,工業(yè)總產值可比本月值、工業(yè)總產值可比累計值等派生指標及綜合能耗、納稅合計、增值稅等其他指標。
2.確立分析維度。固定匯總表式中的分析指標、對應地分析維度及維度間的層次關系較為固定,但為了更詳盡的展示經濟發(fā)展水平和變化,應從多方位、多角度對統(tǒng)計數據進行分析挖據。
以工業(yè)統(tǒng)計為例,共確定了輕重工、行業(yè)分類等12個可用分析維度。工業(yè)固定匯總表式指標與分析維度之間的對應關系如表1所示。

表1 工業(yè)固定匯總表式指標與分析維度對應表
3.固定匯總表式與腳本設計。統(tǒng)計各專業(yè)在長期的工作中積累了大量符合各方需要、直觀易懂的固定匯總表式。這些固定匯總表式既能反映地方經濟水平,又能反映經濟發(fā)展中的變化,是專業(yè)統(tǒng)計人員和各界需求的集成與固化。快速生成這些固定表式是數據分析模型最基礎的任務。
為此課題組針對固定匯總表式,根據專業(yè)提供的匯總分析算法和excel形式的匯總表樣式,設計了對應的數據處理腳本,快速生成固定匯總表式數據,并分專業(yè)、頻度、報告期集中統(tǒng)一存儲形成臺賬。
以工業(yè)統(tǒng)計為例,課題組共確定了涵蓋工業(yè)企業(yè)效益、規(guī)模、運行質量、經營趨勢預測等方面的固定表式12張,設計了18個數據處理腳本完成這些常規(guī)表式,并提供web頁面方便專業(yè)人員查看下載固定匯總表式數據。
4.設計即席查詢。為了更好的分析挖掘數據,發(fā)現地方經濟發(fā)展中新變化,各專業(yè)除了以固定匯總表式的形式分析挖掘數據外,還需要多指標、多維度、長時間跨度對數據進行分析挖掘,讓各專業(yè)能夠隨時根據自己的需求靈活選擇查詢條件并給出分析挖掘結果也是本模型的重要任務。
以工業(yè)數據為例,課題組選擇工業(yè)總產值、工業(yè)企業(yè)主營業(yè)務收入、利潤總額等二十三個指標,以及統(tǒng)計管理級別、行業(yè)分類等十二個維度設計了即席查詢模版,并根據專業(yè)人員和有關部門人員的要求進行動態(tài)維護、及時更新。
(三)創(chuàng)建數據分析流程制度
在3年的實踐過程中,課題組深切感受到對數據分析進行任務分工并合理安排任務節(jié)點的迫切性,以及各方均需嚴格完成既定任務的重要性。為此,課題組將上述數據分析處理過程進行了任務化、流程化、定期化,并以制度的形式加以明確。
1.創(chuàng)建數據分析處理流程。數據分析處理過程需要完成的工作點較多,原始數據報告期也不盡相同,各專業(yè)還有特殊要求,需要合理的安排處理節(jié)點順序。同時,數據分析處理過程往往并不是在同一數據處理平臺或工具中完成的,結合有關各方計算機水平,合理分工也顯得非常必要。為此,課題組結合現有工作實際情況與信息系統(tǒng)的支持程度設計了如圖2所示數據分析處理流程。

圖2 數據分析處理流程圖
其中,在對“執(zhí)行數據清理”、“導入數據”、“執(zhí)行數據處理腳本”三個任務節(jié)點進行分配時,既可以將其分配給數據處理中心執(zhí)行,也可將其分配給各專業(yè)人員執(zhí)行。課題組認為如將其分配給數據處理中心執(zhí)行則存在數據處理中心任務過多、專業(yè)人員沒有自主性難以發(fā)揮專業(yè)知識優(yōu)勢、中間交互環(huán)節(jié)多難以保證時效性與準確性等問題,因此將上述三個任務節(jié)點分配給各專業(yè)人員執(zhí)行。
2.科室協(xié)作制度建設。數據分析處理流程作為一個整體,必須各個任務節(jié)點都得到嚴格執(zhí)行,才能發(fā)揮既定作用,而這需要強有力的保障。同時,為了保障專業(yè)人員能順利完成各任務節(jié)點,數據中心應提供培訓、使用說明文檔等必要支持。
因此,課題組制定了科室協(xié)作制度,對數據分析流程中各方所承擔的任務節(jié)點及執(zhí)行時限、各方在需要交接的任務節(jié)點上的輸入和輸出、數據中心需要向各專業(yè)人員提供的支持等進行了明確定義。
自2011年本數據處理模型構建完成、2012年數據處理任務流程定義明確之后,各方嚴格按照科室協(xié)作制度執(zhí)行,完成自己的任務。從目前的情況看,已基本達到預期的目標。
(一)建立了一套合理的數據管理模式。各來源數據文件在文件服務器上集中統(tǒng)一規(guī)范管理,有利于數據備份和數據共享;經由數據預處理后,建立了面向應用的數據資源,便于多指標、多維度、長時間跨度數據分析;生成的固定匯總表式數據也集中統(tǒng)一儲存在數據庫中形成臺賬,并能以較友好的形式展示。經過進一步的整理,工業(yè)專業(yè)目前已經積累了近5年的臺賬數據和2003年以來的企業(yè)數據。
(二)總結出一套合適的數據分析處理模型建設方法。通過對工業(yè)專業(yè)建立數據分析模型的過程進行分析總結,梳理出如何快速為各個專業(yè)建立分析模型的一般方法,即首先根據專業(yè)固定匯總表式、可能的分析需求及數據的實際情況確定分析的指標集和維度,并結合固定匯總表式匯總算法建立數據處理腳本,同時為即席查詢設計模板,以此保證固定表式數據生成的時效性、正確性和其他即席分析的靈活性。以工業(yè)為例,現在,專業(yè)人員在各來源數據齊備的情況下僅用兩三個小時就能獲取到固定匯總表式數據,較以往在時效性和準確性上有很大的提高。
(三)探索出一套有效的數據分析處理流程制度。以工業(yè)專業(yè)執(zhí)行數據分析處理的實際情況為主要參考,結合其他專業(yè)需求,平衡有關各方的工作量,合理安排任務節(jié)點和執(zhí)行時限,形成可行高效的數據分析處理流程。該數據分析處理流程,既能發(fā)揮專業(yè)人員的專業(yè)知識優(yōu)勢,又能提高專業(yè)人員的自主性,還減少了流程執(zhí)行中不必要的環(huán)節(jié)提高數據處理的時效性、準確性,保證了數據分析和資源積累的定期化、任務化和規(guī)范化。
4.驗證了一套可行的統(tǒng)計信息化新模式。在定義數據分析處理流程時,給專業(yè)人員分配了諸如“數據清理”、“數據導入”、“數據處理腳本執(zhí)行”等任務節(jié)點,這些任務節(jié)點涉及到多種數據處理平臺、工具以及數據挖掘方面的知識,對計算機水平要求較高。通過數據中心提供的培訓,結合良好的使用說明文檔,專業(yè)人員努力學習新的數據處理平臺操作方式及新的計算機知識,達到了數據分析處理流程制度的要求,可以在較短時間內完成常規(guī)分析工作,大大提高了工作效率。
課題組認為,專業(yè)統(tǒng)計人員既是統(tǒng)計信息化的受益者,更應該成為統(tǒng)計信息化的參與者。因此,在定義數據分析流程時,可將信息化程度較高的任務節(jié)點分配給專業(yè)人員,任務驅動,借助于友好的數據處理平臺,讓專業(yè)人員更加自主、高效的完成數據分析與挖掘工作,不斷提高自身計算機水平,提高統(tǒng)計信息化應用水平。
下一步我們還將積極探索新的數據深度挖掘使用途徑,在工業(yè)分析方面嘗試建立涵蓋產品產量、銷售、訂貨、庫存、能源、科技、從業(yè)人員及工資在內的大工業(yè)數據庫,對跨專業(yè)數據分析進行探索,為在新形勢下研判工業(yè)經濟發(fā)展提供支持。
(責任編輯:曹家樂)