姜詣勛,吳健,雷耀麟
信息資源是當今社會經濟活動中不可或缺的資源,已經得到越來越廣泛的重視,電子政務信息系統建設的主要目標之一,是實現政務信息資源的共享。電子政務信息資源的共享模式分為3種:數據集中交換模式、點對點數據交換模式和基于服務的數據交換模式[1]。陜西省公共信用信息交換平臺,是一個典型的采用數據集中模式的電子政務信息共享交換平臺。其中數據集中交換模式,是將分散在業務部門的數據歸集起來,建立一個統一的數據中心,對數據進行集中處理、存儲、交換、應用和管理。這種模式的特點是數據集中度高、處理效率高、便于管理并可向終端用戶提供更全面的信息共享服務[2]。許多垂直管理政府部門(如工商、稅務、銀行、海關等)的業務管理信息系統,都采用這種模式集中統一存儲和共享數據,取得了十分顯著的效果。這種模式的電子政務信息系統,對數據處理的質量要求非常高,這是因為數據從分散到集中再到應用必須經過采集、轉換、清洗、加工、加載和交換等數據處理和交換過程,一個過程的數據處理質量得不到保證,數據中心的數據質量就難以得到保證,而信息的共享服務完全有賴于數據中心的數據。因此,在數據處理與共享中,往往需要多方協同,共同制定數據標準、交換規則和處理機制,以保證數據中心的數據質量[3]。
而由于政府部門信息化發展參差不齊等多種原因,平臺在歸集部門數據時會遇到較多的數據質量問題,如數據標準不統一、數據項缺失、數據不一致、數據記錄之間無法或難以關聯、錯誤或無效數據、數據重復等,這些問題給信用數據的歸集和整合帶來了很多困難[4]。
陜西省公共信用信息交換平臺,處理包括企業信用信息和個人信用信息的交換,本文針對企業信用信息數據處理子系統中的數據比對模塊的設計與實現進行討論研究。企業信用信息在交換平臺中要經過采集、清洗、比對、交換四個步驟,其中清洗指的是將采集到的信用信息進行標準化、增強化、完整化[5]。標準化主要是用來對待清洗字段進行形式上的格式化,達到和國標一致的目的。有對日期格式化、電話號碼格式化、郵政編碼格式化、傳真號碼格式化。增強化主要是用來對待清洗字段中有空值、不完整的字段進行增強。對于空值的待清洗字段要設置合適的值;對于不完整的字段要補充完整的信息;對于要添加額外說明的信息,要增加字段進行說明。完整化主要是用來對待清洗字段進行檢測:字段數據類型、字段數據范圍、字段位數等。字段數據類型檢測主要是核實待清洗字段的類型合法性進行分析;字段數據范圍檢測主要是核實待清洗字段的范圍合法性進行分析;字段位數檢測主要是核實待清洗字段的位數合法性進行分析等。
所以本文討論的用于進行數據比對的信息,都是以假設數據都是標準且完整為前提的。這樣,數據比對模塊就可以將設計重心放在如何基于動態的比對規則處理數據、如何保證不同部門即使數據質量不一,但仍然能匹配識別相同企業的數據、盡管有數據清洗為前提,如何處理錯誤數據、如何保證數據一致性等問題。
數據比對模塊針對待比對數據庫中數據,以比對基準庫中的數據作為索引,完成工商、國稅、地稅、海關、質檢5個部門的數據信息核對,并將比對結果進行標注,寫入數據庫進行存儲,同時顯示在系統界面上。模塊框架如圖1所示:

圖1 企業信息數據比對模塊框架圖
比對模塊框架主要分為界面模塊、比對引擎、數據庫模塊三大模塊,界面模塊主要完成比對規則和流程的設置、待比對數據的顯示、比對結果的顯示、人工比對的處理,比對引擎具體按流程執行比對規則,產生比對結果,數據庫模塊處理所有對數據的訪問和操作并存儲比對過程中,產生的中間結果以及最終的比對結果數據。
根據項目需求,一期工程中有工商、國稅、地稅、質檢、海關5個部門的數據需要比對整合。每個部門都提供若干張表的數據,這些數據中,有些字段是相同的,但大部分是不相同的。這時有兩種比對設計思路,一種是每個后續部門的數據都依次與前面各部門的數據進行比對,這種思路準確性很高,但是系統運行效率很低,所以,經過對省信息中心提供的分部門企業信用指標和信用信息的國際規范進行的研究,決定采用建立基準信息的方式,即先由工商局與質監局整合的數據中提取關鍵字段作為基準,后續部門的數據和基準數據進行比對。這就要求提取的基準數據字段必須具有以下性質:
1.能夠精確定位到某一企業,不允許出現兩個個企業出現基準數據相同的情況。
2.所有部門都能提供這些字段,允許缺少少量字段。在實際情況中,一期工程外的部門或委辦局的國家標準數據指標中都不缺少這些關鍵字段,但是仍然要考慮數據項缺失或者有錯誤的情況。
3.基準數據中的某些子集也要能夠精確定位到某一企業。這是因為要考慮數據錯誤或缺失,在實際情況中,確實存在輸入錯誤的信息。
由此,確定為采用企業名稱、營業執照注冊號、法定代表人、法定代表人身份證號、住所、組織機構代碼這6個字段作為基準字段,其中組織機構代碼以質監局的數據為準。將采集來的數據自動提取基準字段,填寫入一張基準數據表,以備比對模塊使用。所以比對流程對于同一企業的數據來說,是先接受來自工商局的數據,然后是質監局,接著才是其他部門。工商局數據比對流程如圖2所示:

圖2 工商局數據比對流程圖
根據最新比對需求的變化,首先執行精確比對,在精確比對結果的基礎上執行模糊比對流程,再在模糊比對的基礎上,獲得需人工比對的結果集,進行存儲,后續處理。
精確比對流程
精確比對即為對所有基準數據的匹配,正式考慮到所有部門與委辦局,都能提供所有基準數據字段這一客觀事實,才需要進行如此嚴格的數據比對,另外,精確比對項是可以在系統設置中更改的,即管理用戶可以選擇不使用所有基準數據作為精確比對的規則,也就是說,精確比對其實也是一條比對規則,為用戶可編輯的。精確比對成功后,將除基準表以外的表數據更新入庫,而對于沒有匹配上的數據,則要進行模糊比對的流程
模糊比對的流程
有些數據由于業務員的失誤,數據錄入時發生了錯誤,或者考慮到有部門沒有提供所有基準字段,又或者當前數據是一條更新數據且更新的是基準字段(這種情況幾乎不存在),在這些情況下,數據一定會進入模糊比對。模糊比對基于預設的比對規則,對數據再次進行數據匹配,規則由管理用戶在頁面模塊設置,可以有多條,且規則具有優先級,為了提高效率,用戶可以將最有可能匹配成功的規則獲得最高優先級,但前提必須是這條規則能唯一定位到某一企業,如企業名稱與組織機構代碼完全匹配、企業名稱與營業執照注冊號完全匹配等。
模糊比對成功后的數據,不僅要更新入庫,還要將差異信息寫入差異信息表,差異信息將由本系統業務員人工分辨,計算機無法知道差異的原因是用戶輸入出錯還是用戶想更新這條信息。模糊比對失敗后將進入最后一次排查比對。
排查比對的流程
排查比對是用于確認當前數據是否為一條新增數據,新增數據將會在排查比對中匹配不到結果,然后該條企業記錄就會插入數據庫,如若排查比對有結果匹配項,該條記錄就被寫入人工庫,同時寫入差異信息,將由本系統業務員人工處理。
其他部門的比對流程
其他部門數據的比對流程與工商局數據比對流程大致相同,但也有差異,比如某企業在其他部門的數據先于工商局的數據被本信用信息交換平臺采集到,在排查比對失敗后,不允許插入該企業記錄,而是做標記后繼續等待,等工商局與質檢局的信息都入庫后才允許更新入庫。
數據庫結構的設計十分繁雜,本文只作文字描述,不將表結構一一列表呈現了。
1、本數據庫設計規范,是針對企業信用信息業務數據部份的相關數據設計。
2、系統數據庫表的設計,在邏輯上將按照部門前置數據庫、中心前置數據庫(即原始庫)、待比對數據庫、比對信息歷史庫、差異信息庫、中轉庫、公共信用信息庫、公共信用信息備份庫、發布應用庫、權限庫、日志庫、人工比對庫幾個部分來進行劃分。
其中,中心前置庫是數據采集后信息存放的位置,經過數據處理子系統的清洗模塊,信用信息被存放在清洗待比對數據庫中,當同一企業在所有部門和委辦局的數據都到位后,整條記錄將更新入中轉庫,中轉庫的數據最后發布到公共信用信息庫的部分,不屬于本文討論的范疇。
在清洗待比對庫中,有比對基準表、比對流程表、比對模糊規則表、委辦局代碼名稱對照表、比對差異信息表。比對基準表維護基準字段;比對流程表不僅維護所有委辦局的比對順序,還記錄所有數據表項在不同庫中的命名;比對模糊規則表則是由規則號,規則字段來維護模糊比對的規則,如果有一條優先度為 2的標識企業名稱和組織機構代碼完全匹配的規則,那么在比對模糊規則表中將有兩條數據,他們的規則號同為2。兩個字段名指示2號規則對應的是哪兩個基準字段作為本條模糊規則。比對差異信息表記錄了在比對模塊中出現的差異信息(在清洗模塊中有清洗專用的差異信息表)。
觸發比對功能界面通過按鈕事件或其他觸發方式觸發比對功能的執行。比對引擎相關界面包括:待比對數據加載界面---完成從待比對數據庫中讀取待比對的數據,并將其顯示在界面上;比對結束分別顯示比對結果,包括差異信息和一致信息;精確與模糊比對規則管理頁面;比對流程管理頁面。其中模糊比對規則管理如圖3所示:

圖3 模糊比對規則管理頁面
企業信用信息處理子系統,包括數據清洗和數據比對兩個模塊。經過數據采集的信用信息不能直接進行比對整合,而需要先經過字段的標準化、增強化、完整化處理。信用數據比對過程中,應該充分考慮到采集數據是新添企業信息還是增量企業信息,還可能是輸入錯誤的信息。通過可制定化的比對規則模型,使數據處理系統具有更好的靈活性和準確性。
[1]賀德榮,蔣白純.提高電子政務信息共享平臺數據質量的對策與方法[J].電子政務,2010.07:67-76.
[2]王彩霞.電子政務信息資源共享模式分析[J].遼寧工程技術大學學報(社會科學版),2009,(02).
[3]畢建秀.企業基礎信息共享與應用系統的設計與實現[D].山東:山東大學,2008.
[4]陳一方.電子政務中的應用集成與數據整合方法[J].計算機工程,2008,34(24):263-265.
[5]胡金柱,王小慶,王輝.基于J2EE的資源池數據訪問模式在電子政務中的應用研究[J].計算機應用研究,2006,23(7):111-113.