摘要:社會保障工作中的“金保工程”不斷取得進展,利用信息系統進行決策分析的需求日益增加,為了構建決策分析系統需要整合社會保障信息系統中的養老、醫保、就業、人才四本數據庫的資源。文章探討了數據整合技術在社會保障信息系統中的應用。
關鍵詞:社會保障;金保工程;數據整合;決策分析
0 引言
為了全面、準確、及時地收集社會保障業務信息,充分挖掘數據庫中數據的價值,需建設一個宏觀決策系統,借助現代信息技術,對數據進行匯總、整理、交換和分析等加工處理,形成宏觀決策數據庫,為社會保障政策的制定提供依據和支持,對政策執行情況進行監測。
為了適應宏觀決策支持系統建設的需要,我們采用數據整合技術,充分整合養老、醫保、就業、人才數據資源,并建設成統一的數據整合平臺。該數據整合平臺能將這四大數據資源,經過抽取、規則轉換、清洗、加載,形成整合資源庫,為宏觀決策提供數據支持。
1 數據整合的需求
當前,社會保障部門領導要做出一項決策,往往依賴于信息系統,比如:實現常規統計分析、監測預警、預測分析、風險分析等;進行數據、圖表、多媒體等各種形式的查詢;對比計劃和執行情況;對比本期和歷史情況;對比部分和總體情況;監測社會保障政策的執行情況;預測政策出臺效果;監測勞動力資源結構、市場需求、就業趨勢、就業率變化狀況;預測就業結構及變化趨勢;監測基金收繳、發放、運轉、儲備和調劑狀況;監測勞動保障待遇享受對象動態變化;預測人數變化趨勢等等。
決策分析需要的數據通常都是統計數據,但是在現有信息系統下進行決策分析會比較復雜,原因如下:
(1)數據源利用問題,做出一個決策分析往往需要查詢多個基于各種異構數據源的業務系統和外部系統,并進行大量數據分析,工作量大,數據利用率不高,且容易出現人為差錯。
(2)數據源質量問題。現有業務信息系統的數據大量為業務數據,從這些數據難以提煉出有用信息。并且已有的業務信息系統平臺及開發工具互不兼容,直接提取這些業務數據比較麻煩。
(3)數據源標準問題。各個業務系統沒有統一的數據接口,也沒有通用的數據標準和規范,各個業務數據庫無法直接集成。
(4)歷史數據問題。統計分析需要大量的歷史數據業務系統的歷史數據并不完整。
鑒于以上問題,需要建設一個數據整合平臺,按照宏觀決策的要求,利用數據整合技術,將相關數據提取、分類與整理后,經過數據計算與變換,最后形成宏觀決策所需的數據和信息,保存在數據整合資源數據庫中,為決策系統提供數據支持。
2 數據資源分析
數據整合資源庫的數據都是一些統計和分析數據,如:每月各險種基金繳費統計、各年齡段基金繳費統計等,它們來源于生產數據,所以在數據整合之前,需對現有生產數據資源進行歸類。現階段生產數據資源主要分為公共信息數據集、養老基金數據集、醫保基金數據集和就業基金數據集等。(1)公共信息數據集是實現各險種基礎信息統一管理的基礎數據集。主要包括:
個人基本信息個人信息庫、IC卡信息庫等。
單位基本信息單位基本信息庫、單位所屬分支機構信息庫、社保機構信息庫、社保機構經辦人員庫、銀行信息庫等。
參保基本信息庫單位參保信息庫和個人參保信息庫等。
參數信息庫職工平均工資信息庫、賬戶記賬利率信息庫、銀行利率信息庫、社會保險繳費比例信息庫、代碼庫、賬戶記賬利率信息庫、銀行利率信息庫等。
(2)養老基金數據集主要包括:
單位應付信息庫單位應付信息庫、單位實付信息庫等。
離退休人員信息庫離退休人員變更信息庫、離退休人員賬戶信息庫、離退休人員待遇信息庫等。
養老保險待遇信息庫養老保險待遇支付信息庫、養老補發退發信息庫、養老供養親屬基本信息庫、養老供養親屬待遇信息庫等。
(3)醫療基金數據集主要包括:
醫療參保人員信息庫醫療保險參保人員基本信息庫、醫療包干人員基本信息庫、參保人員及賬戶變動信息庫、人員就診檔案信息庫等。
醫療機構信息庫定點醫療機構結算參數庫、定點醫療服務機構信息庫、定點醫療機構預付費用信息庫、定點醫療機構應付信息庫、定點醫療機構年度結算信息庫、定點醫療機構藥品目錄庫等。
醫療待遇信息庫費用分類信息庫、醫療保險結算費用信息庫、醫療包干人員預付費用庫、醫療包干人員費用結算庫、醫療保險個人賬戶返還庫、醫療費用分段個人自付比例庫、定點醫療機構預付標準庫等。
(4)就業相關數據集主要包括:
就業服務機構信息庫社保代發機構基本信息庫、社保代發機構撥付記錄庫、就業機構服務情況庫等。
參保人員機構信息庫參保人員失業保險信息庫、人員失業情況信息庫、失業人員變更信息庫、個人職業指導和介紹就業情況庫等。
失業待遇信息庫失業待遇信息庫、失業人員待遇支付明細庫、失業保險補發退發信息庫、失業待遇金額標準庫、失業保險金享受期限標準庫等。
人才交流信息庫人才引進信息庫、人才派遣信息庫、人才就業信息庫、人才調動信息庫、再就業信息庫、人事代理信息庫、畢業生落戶信息庫、企業招聘信息庫、個人應聘信息庫等。
3 數據整合的實現方式
社會保障信息系統數據庫一般都是關系型數據庫,數據整合通常可以采用數據庫開發技術和ETL技術實現。以下分別介紹這兩種實現技術。
3.1 數據庫開發技術
利用數據庫開發技術的數據整合主要指利用數據庫本身的功能,如觸發器、PL/SQL存儲過程、DBLINK等功能,完成對各個業務系統所需數據的抽取、查詢和關聯等。
這種數據整合技術有如下優點:
(1)適合于同種數據庫之間的數據集成。
(2)投資少,基本都是靠開發人員手工編程為主,只需要一些開發費用。
但也存在一些局限性:
(1)擴展性較差。由于都是開發人員手工編程,后期的維護成本較高,特別是在決策需求發生變化時,需要開發人員修改程序源代碼。
(2)數據整合效率難以保證。由于數據庫都靠開發商編寫,在系統日趨龐大的情況下,在面對復雜的數據整合問題上,效率難以得到保證。
3.2 ETL技術
通過ETL技術及專業ETL軟件,對業務數據庫的數據經過抽取(Extract)、轉換(Transform),最后加載(Load)到目標數據庫,實現業務數據之間的整合。
這種數據整合技術有如下優點:
(1)高效率。ETL軟件的數據抽取、轉換、加載的效率非常高,特別是對于大數據量的抽取。并且支持對ORACLE9i的增量數據抽取。
(2)改進數據質量。能夠根據各種條件校驗源數據和目標數據質量,清洗垃圾數據。
(3)強大管理功能。能夠通過Web管理界面對數據抽取策略執行制定時間觸發方式,對抽取結果進行分析等。
(4)多平臺、多數據源支持。支持各種平臺、各種數據庫系統(如ORACLE、SQLServer等)以及不同版本數據庫的數據抽取。
(5)具備多種數據轉換控件,能夠完成各種非常復雜的數據轉換工作。
但是該數據整合實現技術也存在一些局限性:投資費用較為昂貴,實施周期通常較長。
4 數據整合的實施
數據整合實施工作大致可以分為4個階段:
(1)業務分析階段。該階段主要包括了解需要采集的數據結構定義,和數據表之間的業務聯系,例如:需:要了解社保個人信息及賬戶、單位個人信息及賬戶、退休人員信息等業務表的數據結構定義,表之間的相互關聯等。
(2)設計實施階段。該階段主要定義數據整合規則及策略。前者包括字段映射、合并、函數計算定義等。后者主要定義時間策略(定時策略、自動重試、手工策略、事件觸發等)。
(3)數據校驗階段。數據校驗階段是數據整合最重要的解段。由于不同業務信息資源之間的語義差別,會引起各種不完整甚至錯誤信息的產生,因此在系統正式運行之前,必須建立嚴格的數據校驗機制,以保證生產數據和整合平臺數據的一致性。建議采用如下方法:
數據的采樣每張表取出一些數據作為參照,跟轉換后數據進行比較。
數據的計數每張表記錄原始數據的記錄總數,跟轉換后數據進行比較。
數據的重要指標匯總各主要匯總指標,要跟轉換后進行比較。
(4)系統上線階段。將設計好的數據整合流程正式發布,并可設定計劃定時執行,系統管理人員可以通過監控界面,進行任務監控和跟蹤。隨著數據轉換業務逐漸增加,管理人員可以根據具體的業務需求,修改計劃,合理安排數據轉換任務,以在規定的時間內完成所有的數據轉換和加載任務。
5 數據整合實施中的管理
數據整合實施的管理,應明確指導思想、具體目標和實施步驟,對數據整合軟硬件平臺建設作出統一要求。工作中,我們切實做到了如下幾點:
(1)組織領導到位。成立了保險業務數據整合工作領導小組,統一組織、實施和部署工作進展。同時,抽調業務骨干、技術人員組成工作小組,專門負責相關具體協調事項。
(2)開展數據整合的技術較為繁雜,涉及數據整合技術和業務知識,又是一項全新的任務,對相關技術人員的業務素質要求很高。因此,我們積極組織技術業務參加各種業務知識培訓,并邀請技術專家系統講解數據整合軟件的使用方法,從人員素質方面為開展數據整合工作提供保證。
6 結束語
數據整合平臺能夠實現多個業務應用系統、多種異構數據源信息的綜合利用,為提高社會保障決策水平提供基礎數據。但是,數據整合是一項復雜而又基礎性的工作,在實際整合過程中會遇到許多想象不到的問題,只有將這些問題一一化解,對數據轉換的結果認真校驗,才能確保數據整合的準確性,才能最終達到數據整合平臺建設“完整、正確、統一、及時、安全”的要求。