程 知/江蘇省昆山市檔案局
2013年1月29日,國家智慧城市試點創(chuàng)建工作會議在北京召開,國家智慧城市試點工作正式啟動。據國家信息中心收集的數據顯示,2014年全國試點城市共有409個[1]。隨著智慧城市建設快速推進,政府主導的各個業(yè)務條線在信息化建設過程中產生了大量具有保存價值的政務信息資源,如何將這些信息資源完整收集、有效管理、妥善保存、安全利用,是檔案部門需要深入思考的問題。在這其中,異構檔案信息資源的采集要特別重視。
異構檔案信息資源就是不同結構的檔案信息資源,其異構性主要體現在五方面[2]。一是計算機體系結構的異構:數據的物理存儲來源于不同體系結構的計算機,如大型機、小型機、工作站、PC或嵌入式系統(tǒng)。二是操作系統(tǒng)的異構:數據的存儲來源于不同的操作系統(tǒng),如Unix、Windows、Linux等。三是數據格式的異構:數據的存儲管理機制不同,可以是關系型數據庫系統(tǒng),如Oracle、SQL Server、DB2、DM、My SQL等;也可以是文件形二維數據,如txt、CSV、XLS等。四是數據存儲地點異構:數據存儲在分散的物理位置上,如社保檔案分別存儲在各地社保局本地系統(tǒng)中。五是數據存儲的邏輯模型異構:數據分別在不同的業(yè)務邏輯中存儲和維護,相同意義的數據存在表現的異構,如某一單位的OA系統(tǒng)和其他業(yè)務系統(tǒng)中存在部門編碼不一致的現象等。
異構檔案信息資源構成如下:一是隨著電子政務建設不斷深入而產生的有關食品安全、公共交通、社會保障、教育衛(wèi)生、氣象環(huán)境等民生檔案信息資源及各類政務信息資源;二是隨著互聯(lián)網、移動互聯(lián)網技術的發(fā)展和普及而產生的各類網站數據、社交媒體數據、電子郵件數據等;三是隨著電子商務的不斷完善和普及而產生的各類訂單數據、賬單數據、物流數據等;四是隨著大數據技術的發(fā)展和應用而產生的各類報表數據、統(tǒng)計數據、決策數據等。
如果按文件格式分類,異構檔案信息資源主要包括文本文件、圖像文件、圖形文件、音頻文件、視頻文件、多媒體文件等;如果按在系統(tǒng)中的表現形式分類,可以分為Web服務數據、關系型數據、數據包數據、接口數據等。
一是數據導入技術。數據導入技術適合源系統(tǒng)能夠生成符合相關標準規(guī)范要求的文件包格式的情況。針對這種情況,可以通過文件包向導式導入工具,將源系統(tǒng)產生的文件包導入目標系統(tǒng)中。
二是數據管道技術。數據管道技術適用于源系統(tǒng)不能生成移交文件包但可以開放數據結構的情況。在這樣的情況下,由源系統(tǒng)提供訪問其數據庫所必需的用戶名、密碼、數據字典等信息,通過數據管道工具建立源系統(tǒng)和目標系統(tǒng)數據結構的匹配關系,實現數據采集。
三是接口調用技術。接口調用技術是普遍適用的一種技術。包括兩種情況:其一是目標系統(tǒng)提供應用程序接口(API)供源系統(tǒng)調用,由源系統(tǒng)將需要提交的數據傳送至目標系統(tǒng),被稱為“推”式,實現方式包括DLL、OCX、Java Bean、Web Service等;其二是源系統(tǒng)提供應用程序接口供目標系統(tǒng)調用,主動獲取有效電子文件/檔案數據,被稱為“拉”式。
四是數據交換技術。數據交換技術適用于源系統(tǒng)能夠提供應用程序接口、數據要求有很強實時性、架構要求有很強擴展性的情況。數據交換技術通過部署數據交換引擎實現,數據交換引擎提供透明的網絡通信和透明的數據查找,采用統(tǒng)一的數據安全機制,并規(guī)定標準的數據交互方式,使構筑在數據交換引擎上的信息系統(tǒng)可以遵循統(tǒng)一的數據交互標準、使用其提供的通信機制、利用其提供的數據資源管理快速找到所要訪問的信息,進行數據交互。
五是數據抓取技術。數據抓取技術根據各源系統(tǒng)的電子文件最終頁面展現(HTML)實現數據采集。采用這種技術不需要對源系統(tǒng)的基礎數據結構進行全面分析,也不需要對源系統(tǒng)的邏輯設計進行深入了解,更不需要源系統(tǒng)生成文件包或者提供應用程序接口,只需要通過對特定數據顯示頁面結構(HTML源碼)進行解析,實現源系統(tǒng)頁面顯示內容和目標系統(tǒng)數據結構之間的對應關系,完成數據采集[3]。
從異構檔案信息資源的構成可以看出,異構檔案信息資源來源非常廣泛,表現形式也多種多樣,這給異構檔案信息資源的采集帶來了巨大挑戰(zhàn)。現階段,異構檔案信息資源采集主要存在以下問題。
第一,“信息孤島”現象嚴重。電子政務建設已經持續(xù)了相當長一段時間,由于電子政務建設早期缺乏頂層設計、統(tǒng)籌規(guī)劃和協(xié)調,也缺少標準依據,很多單位只能各行其是、各自為政,造成業(yè)務應用軟件、系統(tǒng)平臺、數據結構千差萬別、五花八門,系統(tǒng)之間、部門之間、單位之間形成“信息孤島”,難以實現異構檔案信息資源的采集和共享。
第二,各種采集技術存在局限性。針對異構信息資源的采集盡管存在多種采集技術,但是從上文對比分析可以看出,各種采集技術都存在一定的適用場景,不能滿足異構檔案信息資源的多樣化采集需求。
為解決當前異構檔案信息資源采集存在的問題,筆者提出了“數據魔方”的概念,即將數據源的多樣性和異構性比喻為魔方的一個個“面”,基于各種數據采集技術提供多種數據采集方法的組合供用戶選擇,以靈活應對不同來源、不同類型數據的采集需求;并基于數據魔方構建數據智能采集工廠模型,以實現對異構檔案信息資源的靈活與智能采集。
數據智能采集工廠模型以數據魔方為核心,通過對各種數據采集技術進行整合,以及對各種工具(格式轉換工具、數據檢測工具、OCR識別工具、EEP封裝工具等)進行集成,實現對智慧城市建設過程中各業(yè)務條線產生數據的智能采集,并將數據清洗、分類、處理后納入檔案信息資源總庫進行統(tǒng)一管理,達到異構檔案信息資源整合的目的。從體系結構上來看,數據智能采集工廠模型由控制中心、魔方適配器、主動捕獲觸發(fā)引擎、嵌入式工具集和資源池等部分組成,分別說明如下。
3.1.1 控制中心:是整個異構檔案信息資源采集工作的“大腦”,完成各類收集規(guī)則的設計與預定義,并針對各行各業(yè)、各類專業(yè)檔案設置相應的元數據方案,這樣可采集不同類型的數據,也可從不同單位的應用系統(tǒng)中抓取數據。
3.1.2 魔方適配器:由多種適配器組成魔方適配器,以加強異構檔案信息資源的收集,通過集成各種數據采集技術提供多種數據收集方式,如脫機文件包導入、數據交換引擎自動導入等。具有多面性特點,能靈活應對多種途徑、多種類型數據的采集需求。
3.1.3 主動捕獲觸發(fā)引擎:探測各業(yè)務系統(tǒng)中的數據動靜,實現快速自動采集,可完成在線檔案收集操作和離線收集及時提醒工作。
3.1.4 嵌入式工具集:是采集流程中的“加工作業(yè)車間”,能對所采集的數據進行處理,并提供多種數據處理解決方案,如格式轉換方案、EEP封裝方案、四性檢測方案等,每一類方案對應一種處理工具,這些工具都將與數據采集功能進行集成、整合并協(xié)同開展工作。
3.1.5 資源池:只有經過過濾、清洗、轉換并檢測合格的數據才能最終進入資源池,進行統(tǒng)一存儲和管理。
第一,開放獨立的模型架構。數據智能采集工廠模型可以識別各種類型的信息系統(tǒng)數據,如業(yè)務系統(tǒng)、辦公系統(tǒng)、財務系統(tǒng)、互聯(lián)網數據等,具有開放、獨立、與業(yè)務系統(tǒng)無關的特點,可實現與各種異構系統(tǒng)的集成。
第二,高效多樣的數據采集。數據智能采集工廠模型通過整合各種數據采集技術,提供了基于數據層的采集方法、基于邏輯層的采集方法和基于表示層的采集方法,通過魔方適配器的靈活配置,可以完成不同情況下的數據采集任務,盡可能地滿足各種異構檔案信息資源的采集需求。
第三,靈活多變的魔方特性。可快速、靈活設置源數據和目標數據的匹配關系,具有魔方多面性、多元性特點,根據實際業(yè)務(數據源)變化“轉動”魔方,便可快速實現匹配,從而收集多種途徑、多種類型檔案數據。
第四,全面一體的采集處理。數據智能采集工廠模型通過對各種數據采集技術以及各類嵌入式工具(如格式轉換工具、數據檢測工具、OCR識別工具、EEP封裝工具等)進行整合,可實現異構檔案信息資源的采集和處理一體化管理,便于異構檔案信息資源的統(tǒng)一管理。
第五,靈活方便的任務管理。各種數據采集方式都可以設置成“工作任務”,既可以即時啟動、立即執(zhí)行,也可以設置為定時任務、到一定時間點執(zhí)行,靈活方便。
智慧檔案館建設總體來說包括智慧收集、智慧管理、智慧利用、智慧保存四方面,其中智慧收集功能可基于數據智能采集工廠模型實現。昆山市檔案局在市智慧檔案館建設過程中,通過數據智能采集工廠模型、采用在線與離線方式,實現對立檔單位各種業(yè)務信息數據庫內容的采集,采集過程完全符合《數字檔案關系型數據庫轉換為XML格式文檔的技術規(guī)范》的要求;同時在采集過程中完成格式轉換、數據檢測等操作,能夠滿足對各種異構業(yè)務信息資源的智慧管理要求。