楊 靜
(江蘇省檔案局,江蘇南京,210008)
隨著我國電子政務建設的深入發展,電子文件數量日趨龐大,且在持續增長之中。而我國一些政府部門在進行電子政務信息資源建設時,基于業務職能及工作流程的不同,往往各自所選用的硬件、系統軟件、應用軟件也不盡相同,這必然造成各部門產生的電子政務信息在文件類型和數據格式上存在差異,導致政務系統電子文件歸檔存在著系統及文件格式不兼容的問題,成為我國電子政務建設中亟待解決的問題。
江蘇省電子檔案中心建設項目是江蘇省人民政府下發的《省政府關于進一步加快國民經濟和社會信息化的意見》中提出建設的涉及全局性的基礎性、公益性、標志性信息化工程之一。項目旨在建成數字環境下歷史檔案數字記錄遺產永久保管基地、全省電子檔案信息資源的管理與共享中心和全省政務信息公開場所。項目重點建設內容之一就是通過多種途徑實現對省級機關各單位電子政務系統中的電子文件的采集和歸檔。
轉換介質法,就是將電子政務系統中的電子信息打印出來,按照傳統的立卷歸檔方式進行歸檔。這種歸檔方式的優點是檔案工作按部就班,不會出現很大的失誤,但其缺陷也是明顯的。首先,電子政務系統中已有的數字信息資源被丟棄,此后通過對紙質檔案的重新數字化掃描著錄來獲得檔案信息化管理系統中所需的檔案數字資源,這造成資源浪費和效率低下;其次,電子政務系統中體現電子文件產生和使用過程的真實可靠性相關的電子文件元數據信息被丟棄,造成了信息的缺失和管理過程的瑕疵;再次,這種方式下一般是要在紙質檔案進館之后才能數字化掃描著錄,形成檔案數字資源,時間相對滯后,不能滿足日益發展的數字檔案查詢利用的需求。
脫機存儲法,是將電子文件存儲在軟盤、硬盤、光盤等一些光介質和磁介質上,將其按物理實體歸檔保管,與傳統的磁帶、錄像帶管理方法一致。所不同的是將電子文件信息及其背景信息(包括能夠瀏覽電子政務信息的應用環境信息,以及應用系統的背景等相關信息)一起刻錄到光盤中,進行集中存放和管理,這也是我國起初制定電子文件歸檔標準中要求的基本方式。這種歸檔方式的缺點是每張光盤上存儲的真正有價值的檔案信息比較少,并且利用效率不高,在對歸檔的電子政務信息進行查詢利用時,必須安裝各類背景應用環境軟件,然后才能夠瀏覽其全部信息內容。
接口歸檔法,通過在電子政務系統和檔案信息化管理系統之間建立數據歸檔接口來實現電子政務系統中數字信息資源的歸檔。接口歸檔法從歸檔數據的收取方式上,總的來看可以分為三類:第一類是“取”,即檔案信息化管理系統從電子政務系統抽取需要歸檔的數據;第二類是“送”,即電子政務系統將需要歸檔的數據寫入檔案信息化管理系統中;第三類是“取”“送”結合,即電子政務系統和檔案信息化管理系統約定一個中間形式,如中間文件格式或中間數據庫等,電子政務系統將需要歸檔的數據寫入中間形式,檔案信息化管理系統再從中間形式抽取這些數據。
這三類方法都存在一些共同的問題。首先,這些方法都需要對原電子政務系統進行一定技術改造,或者需要深入了解電子政務系統的數據存儲技術細節,這帶來很多跨部門的業務和技術協調工作;其次,無論是“取”還是“送”,都需要深入對方系統的數據存儲區域讀取甚至寫入數據,這帶來較大安全隱患。因此,接口歸檔法雖然應用效果好,但存在技術難度高,實施工作量大,維護困難等問題。
綜上所述,當前電子政務環境下各種電子文件歸檔的技術方式均存在一定的局限性,電子政務系統中信息資源采集歸檔技術上存在的困難已經成為制約電子政務發展與檔案信息化管理系統建設的瓶頸之一,亟待解決。
網絡信息抽取領域是近年來發展較大的研究領域,隨著INTERNET 的發展,網絡上的信息越來越多,幾乎所有的網上信息都是以結構化或半結構化的網頁的形式呈現給客戶的,因此,網絡是一個特殊的挑戰,一直在推動著信息抽取技術的向前邁進。
近幾年來,出現了多種基于Web 的信息檢索工具,如比較出名的Google、Yahoo、百度等搜索引擎工具,這些工具的出現極大地方便了人們對信息的獲取,能夠解決部分信息過載的問題,但由于它們都是基于字符串匹配和詞義相似原理進行信息查詢的,因此使用這些工具得到的查詢結果動輒成百上千條,而且有很多返回的查詢結果中包含了重復的內容,這就使用戶得到了網頁,并不等于得到了想要的信息資源。
為了更加有效地組織和獲取網上數據資料,高效地發現和利用Internet上的資源,研究人員開創了Web信息抽取這個研究領域。Web信息抽取技術的任務就是將網頁中用戶感興趣的信息準確地抽取出來,以更具有語義、更結構化的形式保存下來,供用戶查詢或其他應用程序利用。網絡信息抽取技術并不試圖全面理解整個網頁,只是對網頁中包含的相關信息的部分進行分析和處理,信息抽取是指從一塊文本中抽取指定的事件、事實等信息,并且形成結構化的數據存入到一個數據庫,供用戶查詢和使用的過程。換而言之,就是從文本中抽取用戶感興趣的事件、實體和關系,然后用結構化的形式描述抽取出來的數據,再存儲在相應的數據庫中,為情報分析、網上購物、檢測抄襲、文本分類等各方面的應用提供服務。通常信息抽取技術的抽取對象并不僅僅局限于文本,其他形式存在的信息也可作為信息抽取的對象,抽取的結果則存儲為相應的結構化數據。信息抽取技術的最終目的就是開發出實用的信息抽取系統,可以從自由文本中抽取和分析信息,最終得到有用的、用戶感興趣的信息。

圖1 可視化采集工具工作原理
信息抽取的目標是將文本中的信息抽取出來并表示為結構化、自描述的數據結構。從而將難以操縱的文本數據轉化為容易處理和分析的結構化數據。
傳統的信息抽取是針對純文本,主要使用自然語言理解的技術。但由于純文本沒有任何文本之外可利用的信息,這項工作極為困難,進展也很緩慢。隨著互聯網的出現,Web 文檔的信息抽取逐漸成為亟待解決的問題。一個Web文檔就是一個網頁,網頁與純文本的結構差別很大,主要表現為網頁中存在大量的標記,這些標記將網頁要顯示的文本內容分隔開來。
大量的標記為網頁信息抽取提供了更多可利用的信息,從而可以開發各種不同于傳統信息抽取的方法對網頁進行信息抽取。信息抽取技術目前在軍事、商業、醫學、科學研究等領域有著極大的應用空間。
通過對電子政務系統中信息資源的可視化采集歸檔技術的研究,項目組提出了一種基于各類電子政務系統數據顯示界面的電子文件數據采集歸檔的解決思路。其基本思路是,通過對電子政務系統特定數據顯示界面的解析,提取該界面下的可供歸檔的電子文件元數據信息和電子原文,以實現歸檔數據的采集。
合理化的可視化采集歸檔的具體流程是:通過特定的可視化采集軟件,使用授權的賬戶,模擬某個客戶端登陸目標電子政務系統,逐級打開系統的界面,直到打開具有需要采集歸檔的數據的系統界面,然后應用計算機技術分析此界面下的各種數據信息,從中提取或下載需要采集歸檔的電子文件元數據信息和原文信息,并將這些信息歸檔到檔案信息化管理系統。整個過程,只需要使用計算機程序模擬人機交互的界面操作,并分析和提取顯示界面數據,而無需深入了解電子政務系統的邏輯結構和底層數據存儲形式。
可視化采集歸檔方法,提出了解決電子政務系統數據歸檔問題的新特點和新思路。該方法本質上可以認為是前述“接口歸檔法”的“取”大類的一個特殊子類。由于可以避免“接口歸檔法”中需要改造電子政務系統或需要深入了解電子政務系統數據存儲結構的困難,可視化采集歸檔方法具備在實施工作量和系統安全性上的優勢。
可視化采集工具軟件的工作原理是對數據頁面進行分析、操作,把網頁中特定的數據選取保存為中間文件,再由數據處理工具將中間結果轉換為符合標準的元數據,如圖1。
可視化采集工具所面對的對象是省直機關立檔單位的電子政務系統,這些系統由不同的單位負責建設和管理的,系統之間的差異很大,系統的數據展示頁面不一致,這樣,在數據采集工作中,分析具體的采集對象情況,對采集前臺和后臺的模板配置就顯得尤為重要。
可視化數據采集工具的主要使用步驟包括:分析應用(網面)類型、配置前臺自動化模板、配置后臺元數據和電子原文采集模板、采集元數據和電子原文四個方面。
分析應用(網頁)類型:在自主研發的瀏覽器中輸入目標系統的URL路徑,分析該應用屬于哪種類型的應用,以決定應用哪種自動化采集模板。

圖2 可視化采集系統使用運行流程
配置前臺自動化模板:通過分析當前應用類型,以決定采集的模板類型,并設置模板中相應的參數,在這里針對每個不同的應用(網頁),參數是不一樣的。
配置后臺采集模板:通過分析當前應用(網頁)的源文件,配置采集的元數據和電子原文的采集規則,以及采集的層次。
數據提取:對經過結構化、排重、排錯處理的頁面進行數據提取。根據頁面的形式特點,應用相應的采集模板,從頁面上提取出相應的元數據和電子原文歸入數據庫。
借助江蘇省電子檔案中心項目建設過程中初步開發成型的可視化數據采集工具,可視化采集歸檔方法已經得到了有效應用。電子政務系統數據歸檔采集過程中,可視化采集歸檔方法在電子政務系統技術開發和協調配合方面的要求較以往傳統的接口開發方式有所降低,在安全性方面較以往的傳統方式有所提高,在實施工作量上平均而言較傳統方式有所減少。可以預期,當相關工具軟件在可配置性、交互性、自動化等方面進一步完善之后,可進一步提高可視化數據采集歸檔工作的效率。同時,由于電子政務系統數據頁面展現技術的復雜性和多樣性,新技術不斷產生、發展和應用,可視化采集歸檔方法對實施人員的技術要求較高,在一些特定的具體案例中,有可能會產生較大的實施工作量,甚至遇到難以攻克的技術難題。因此,可視化采集歸檔方法應考慮根據采集對象單位電子政務系統的情況作有選擇性的使用。
[1]王興婭,顏祥林.基于LISA數據庫的國外數字檔案資源保存與安全研究動向分析.檔案與建設,2012,02:08-11.
[2]丁國勇,李俠,王爽.OA 電子文件在線歸檔技術研究.蘭臺世界,2012,08:152.
[3]楊海霞,張永奎.網絡新聞數據可視化采集系統的設計及應用.山西科技,2006,09:34-35.
[4]吳震.數據挖掘技術在電子文件管理中的應用研究.廣西民族大學2011.
[5]屠躍民,李婉月.關于數字檔案信息采集的思考.檔案與建設,2006,09:17-20.