

摘要:將云計算應用到政府網站網頁的長期保存中,發揮其技術與管理優勢,能夠高效率、低成本地實現海量政府網頁的在線歸檔和集成管理。文章依據文件生命周期理論、OAIS參考模型等理論,設計了政府網站網頁在線歸檔的業務流程。在此基礎上,文章結合云計算服務體系結構,界定了云環境下政府網站網頁歸檔的邏輯體系,并依此構建基于云計算的政府網站網頁在線歸檔管理平臺,平臺具有云上在線采集、云下數據管理、云中資源保存、云端訪問利用等重要功能。
關鍵詞:云計算政府網站網頁存檔長期保存
Abstract: Applying cloud computing to the longterm preservation of government website pages, le? veraging its technical and management advantages, it can realize massive government web pages online archiving and integrated management with high effi? ciency and low cost. According to the theory of docu? ment life cycle and OAIS reference model, this paper designs the business process of government web? site pages online archiving. On this basis, combined with the architecture of cloud computing services, de? fines the logical system of government website pag? es archiving in cloud environment, and builds a cloud- based online archiving management platform for government website pages, which has important functions such as online cloud collection, data man? agement under cloud, resource preservation in cloud, and cloud access utilization.
Key words: Cloud computing; Government web? site; Web archive; Long-term preservation
近年來,隨著我國政府信息公開工作的不斷推進,政府部門主動公開信息的范圍和深度日益擴大,越來越多的政務信息通過政府門戶網站以網頁的形式創建、發布、傳播和利用。這些網頁作為互聯網時代政府行政過程的真實記錄,具有重要的追溯憑證、決策參考與科學研究價值。然而,由于網絡資源的易消失性、動態不穩定性,大量以“孤本”形式存在的政府網頁會因網站的整合遷移、改版更新等操作面臨“丟失”“無法顯示”的風險。2017年國務院辦公廳印發了《政府網站發展指引》的通知,要求各級政府網站做好網頁歸檔工作。[1]如何有效實現具有保存價值的政府網站網頁的長期可存取已成為當前政府面臨的新挑戰和學界探索的新課題。
云計算作為一種新型的IT服務資源,應用日益廣泛,它所采用的集約化、虛擬化、分布式計算等綠色節能技術,以及即插即用、動態架構、智能運作的服務方式,能高效、低成本地實現政府網站網頁的在線歸檔和集成管理。[2]本文將“云計算”創新性地應用到政府網站網頁的長期保存中,發揮其技術、管理與成本優勢,突破原有的網絡資源歸檔管理平臺建設模式,構建基于云計算的政府網站網頁在線歸檔管理平臺,為大數據環境下政府網站網頁長期可存取問題的解決提供新思路和新方案。
政府網站網頁是政府部門在履行行政職能和處理行政事務過程中,利用其門戶網站創作或接收的具有特定內容、結構和背景信息的原始記錄,它符合文件的基本特征,是政府電子文件的重要組成部分。[3]因此,指導電子文件歸檔管理的文件生命周期理論、開放檔案信息系統(OAIS)模型等同樣適用于政府網站網頁的歸檔管理。根據文件生命周期理論,可以將政府網頁的創建、發布、獲取、存檔、利用等視為一個完整的生命過程。OAIS模型是當前國際上公認的實現電子文件等數字資源長期可存取的標準參考模型和基本概念框架,其功能結構包含信息采集、數據管理、資源存儲、系統管控、保存規劃、訪問利用等模塊,不同功能模塊之間以信息包的形式對資源內容信息和保存描述信息等信息對象進行傳遞,從而實現歸檔資源的長久保存與利用。[4]基于以上分析,參照政府網站網頁的生命運動規律,以及OAIS模型的標準業務與功能邏輯,可將其歸檔流程劃分為采集、分類、著錄、鑒定、保存、利用等主要階段,每個階段的任務各不相同。
(一)網頁采集
網頁采集作為政府網站網頁在線歸檔的首要環節,就是利用相關工具,以既定的頻率和方式,及時選擇值得保存的政府網頁內容。網頁采集的第一步是要確定采集對象,政府網頁歸檔保存的信息采集對象是域名中含有“gov.cn”的政府網站,為確保政府網頁的采集質量,需要對目標網站進行評價,將那些信息規模大、原生性信息多、更新頻繁的政府網站選定為采集對象。[5]在確定要采集的目標政府網站之后,還應根據實際需求選擇相應的采集方式。完整性采集和選擇性采集是目前比較常用的網絡資源采集方式,它們各有優缺點,為了彌補其各自的不足,可以實現兩種采集方式的優勢互補,采用融合二者優點的混合型采集方式,在對選定的政府網站中所有網頁進行完整性采集的同時,通過人工干預的方式對網頁內容進行甄別,對其中有證據價值、歷史價值、研究價值的重要網頁,有選擇性地進行深層次的頻繁采集,這樣既考慮到了政府網頁采集面的廣度,同時又照顧到了重要網頁采集的深度。而網頁的采集與捕獲最終還需要依靠相應的網絡爬蟲工具來實現,目前面向網頁存檔的爬蟲工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來有針對性地完成對目標政府網站網頁的自動批量在線采集。
(二)數據管理
利用網絡爬蟲工具從不同目標政府網站中采集獲取的網頁是海量且無序的,還應對其實施整理、分類、著錄、編目、鑒定等數據管理操作,實現信息的規則排序,使其具備增值的潛能,為后續的資源存儲和訪問利用奠定基礎。[6]首先,資源分類。根據采集網頁資源的特點,可以按照來源機構、資源主題、格式類型等分類標準,將其中具有某種共同屬性特征的網頁資源進行歸類和整合,建立規范統一的政府網站網頁資源分類體系,通過不同類別的屬性特征來對海量的政府網頁內容進行區分。其次,編目著錄。對分類后的網頁資源還應基于統一的元數據標準對其內容及結構、來源、背景等特征進行揭示和描述,并在相關元數據之間建立聯系,形成政府網站網頁資源目錄體系,實現對海量無序網頁信息的序化組織。最后,鑒定整理。政府網頁的鑒定整理主要包括內容的識別以及內容的可用性判斷,其中內容的識別就是確保實現政府網頁長期可存取的元數據、保存策略等信息要素齊全。內容的可用性判斷即是通過人工干預來對政府網頁的形成背景、內容質量、重要程度等屬性特征進行全面分析,并根據保管期限表對要歸檔的政府網頁標記相應的鑒定標識。
(三)資源保存
資源保存是實現政府網站網頁在線歸檔的核心,與靜態的數字資源存儲不同,政府網頁資源結構復雜且動態增長,其復雜性、動態性、技術依賴性強等特點對存儲管理提出了挑戰,它更依賴能夠滿足海量歸檔網頁資源的動態存儲需求及長期可訪問要求的長久保存策略和相應的存儲架構。[7]在長久保存策略的設計上,通常可根據歸檔網頁資源的類型和結構,有針對性地選擇數據加密、檢測、備份、遷移、仿真、封裝等相結合的長期保存技術策略,確保歸檔網頁資源的安全、完整、可靠及長期可用。在存儲架構的選擇上,可以在當前數字資源長期保存采用的直接連接存儲、網絡連接存儲等傳統存儲架構的基礎上,引入云存儲技術,將分布在網絡中的數據倉庫、數據庫、文件存儲系統等不同類型的存儲設備“聯合”在一起,利用云存儲的分布式存取和存儲節點可動態擴展的技術優勢,以及云存儲服務端提供的數據備份、容災處理、數據加密等安全保障機制,實現對海量歸檔政府網頁資源的實時動態存儲和長期安全保存。
(四)訪問利用
訪問利用是政府網站網頁在線歸檔要完成的最后一個環節,這既是歸檔的最終目的,也是歸檔的價值所在。通常可以提供以下幾種服務方式,來將歸檔的政府網頁提供給用戶使用。一是檢索查詢。瀏覽檢索是用戶訪問和獲取存儲資源的基本服務,為了方便用戶快速、準確地找到所需的資源,需要提供功能完善的檢索系統。二是網頁還原。可利用網頁重現技術將歸檔存儲的網頁內容以其原有的樣貌呈現給用戶,即當用戶訪問政府網站遇到網頁無法鏈接或無法顯示等錯誤信息時,將被自動定向到對應的歸檔網頁鏈接地址,以還原歸檔網頁的原始內容。三是決策參考。利用大數據分析、Web挖掘等技術對歸檔的海量政府網頁進行深度的數據挖掘,獲取隱含其中的有用知識,為用戶決策提供參考。四是可視化分析。利用數據可視化組件、工具和技術,將歸檔存儲的海量政府網頁數據分析結果以可視化圖形或圖像的形式呈現。
云計算是在網格計算、分布式計算、并行計算的基礎上發展形成的一種新的計算模式,其核心思想是遵循數據資源即服務(DaaS)、軟件即服務(SaaS)、基礎設施即服務(IaaS)、平臺即服務(PaaS)、創新管理即服務(MaaS)、渠道即服務(CaaS)等新生的服務理念,利用先進的網絡技術整合大量計算、存儲等IT資源,通過對IT資源的集成共享與便捷利用,使終端用戶擺脫煩瑣的資源管理和系統建設,只需專注于業務。[8]基于云計算的思想,政府網站網頁歸檔的邏輯體系可以分為云技術、云業務、云服務三個層次,如圖1所示。
(一)云技術
利用虛擬化技術和分布式資源調度程序將服務器、存儲設備、網絡設備、安全防護設備等硬件資源連接起來,并進行邏輯分割,形成可以動態管理、統一調度的“資源池”,通過物理資源的集成共享,為政府網站網頁歸檔業務流程的實現提供所需的計算、存儲、服務等IT資源;進而通過整合政府網頁歸檔所需的基礎設施、平臺及軟硬件資源,使歸檔工作專注于網頁采集、數據管理、資源存儲、訪問利用等業務操作和管理,而非歸檔系統的構建和維護,實現政府網站網頁歸檔系統的云端部署與自由訪問。
(二)云業務
參照電子文件歸檔的相關標準規范,對政府網站網頁歸檔的業務流程進行拆分和封裝,使業務流程具備可復制、可重組和可遷移的特性。在此基礎上,采用基于彈性部署的云計算業務處理中間件及其提供的API接口,通過數據交互、資源共享、動態拓展、智能運作等方式實現政府網站網頁歸檔相關應用程序的整合,并對云技術支撐的網頁采集管理、元數據管理、保存策略管理、數據安全管理、訪問利用管理等業務邏輯實施協同管理,從而實現政府網頁歸檔流程的業務協同與云端處理。
(三)云服務
對政府網站網頁歸檔的體系結構與業務流程進行解構、標準化,在云技術與云業務支持下,重塑政府網頁歸檔的資源組織、流程部署和管理方式,使其可以實現按需彈性調度和分配。同時通過構建面向終端服務的瀏覽器/服務器模式,解決“云端”用戶獲取系統提供的各項業務功能服務問題。基于該模式可將系統應用程序的流程管理、資源分配、業務處理、數據存取等操作集中在云業務層進行處理。用戶利用各種終端設備,通過瀏覽器即可獲得相應的網頁采集、管理、保存、利用等業務服務。
(一)平臺構建的思路
目前學術界關于云環境下數字資源歸檔系統的構建主要借鑒OAIS模型的分層思想對系統進行設計,[9][10][11]這種思路是按照OAIS模型的功能實體與云計算服務體系結構之間的邏輯映射關系來設計的。該思路的層級維度比較清晰,可較為系統地反映數字資源歸檔過程中各個環節的功能要素與業務流程。在實踐層面,國外已經有存儲機構將云計算應用到網絡資源的長期保存中,并構建了相應的網絡服務平臺,Fedorazon、DuraCloud是其中兩個有代表性的項目,這些平臺利用云環境下的各種服務資源實現了歸檔網絡資源的實時歸檔、全程控制、長期存取及創新服務功能,主要包括采集、保存、訪問、再利用和云分享等。以上這些理論研究與實踐探索成果為平臺的構建提供了重要參考與指導。

(二)平臺的體系架構
在以上研究內容的基礎上,筆者根據云計算服務體系結構,參照國內外相關的行業標準規范,結合上述政府網站網頁在線歸檔的業務流程,以及云環境下政府網站網頁歸檔的邏輯體系,設計如圖2所示的基于云計算的政府網站網頁在線歸檔管理平臺的體系架構。
1.基礎設施層。作為平臺建構的基礎,基礎設施層主要提供政府網站網頁在線歸檔各業務流程所需的網絡、計算、存儲等IT資源。該層利用虛擬化技術對現有的物理設備資源進行邏輯分割,形成可管理、可調度的虛擬IT資源,從而將一臺服務器上的資源,合理分配給多個虛擬服務器,通過物理資源的共享提高平臺的整體運作效率,保障平臺應用層各類應用程序的最佳運行狀態。同時由于操作系統與硬件環境相互獨立,使得隸屬于不同操作系統的虛擬機,可以在相同的物理環境下獨立運行,從而方便各節點資源的全面互聯與統一調度管理,以實現較高的計算性能,滿足政府網頁在線歸檔不斷增長的計算與存儲需要。
2.平臺層。該層作為整個平臺的核心部分,包含數據庫與業務邏輯兩個部分。為了有效應對政府網頁存檔面臨的海量存儲及存檔數據的高效存取問題,該層基于分布式數據存儲管理系統,應用數據訪問組件,為政府網站網頁采集、管理、保存、利用等業務功能的實現提供相應數據庫的數據存取服務。平臺層還提供應用程序運行、監管與維護等相關的服務,包括中間件管理、元數據管理、格式轉換、數據封裝、策略管理、數據檢查、備份恢復、遷移管理、安全控制和歸檔管理等。此外,該層所提供的API接口能夠實現現有應用程序的整合以及新應用程序的加載,進而可支撐整個平臺應用功能的擴展。
3.應用層。該層以人機交互接口的形式為用戶提供政府網站網頁歸檔涉及的信息采集、數據管理、資源保存、訪問利用等各項業務相關的服務內容。應用層的主要作用就是將平臺層中的各種業務功能和各類數據庫中存儲的政府網頁數據以統一的人機交互方式呈現給用戶,通過為用戶提供簡單便捷的操作界面,方便用戶獲取所需的服務信息。同時,該層還提供可擴展的應用服務接口以及用戶管理、權限管理等通用的管理服務,并根據需要為不同類型用戶提供相應的應用接口,實現平臺的差異化功能服務。
4.表現層。表現層是平臺的最后一層,也被稱作門戶平臺,它直接面向用戶提供各類Web服務,用戶可以利用各種聯網的終端設備登錄平臺門戶網站,通過瀏覽器即可在權限允許的范圍內直接訪問平臺應用層提供的各種服務,獲取平臺層數據庫中存儲的信息。而且與傳統的網絡平臺不同,該平臺的表現層可以利用云計算高效的數據處理能力,將復雜的計算交由云端處理,極大降低了平臺對終端設備的要求。這樣用戶所使用的訪問設備只需具備簡單的交互功能即可獲得快速的平臺服務響應,從而能夠擁有良好的訪問體驗。
(三)平臺的功能模塊
與傳統的數字資源長期保存系統一樣,基于云計算的政府網站網頁在線歸檔管理平臺也同樣具備采集、管理、保存、利用等基本業務功能。
1.云上在線采集功能模塊。該模塊利用能夠兼容多種數據格式的云端數據采集接口,基于一站式云服務模式,在線完成對政府網站上的文本、圖像、音頻、視頻等不同類型網頁資源的采集任務,對采集獲取的網頁資源進行統一格式轉換處理,將其批量保存到采集數據庫中。該模塊通過新增監控與變動監控實時更新獲取目標政府網站的最新數據,確保網頁采集的質量。同時采用數據加密、安全傳輸協議等方法保證網頁傳輸安全,確保網頁數據真實、完整、可信和可用。

2.云下數據管理功能模塊。該模塊主要包括內容管理與元數據管理兩大功能。其中內容管理的功能是對云端在線采集獲取的各類政府網頁進行線下的分類、著錄、標引、編目、鑒定整理,即按照設定的分類方案,對采集獲取的海量政府網頁進行自動分類,然后將添加元數據描述信息的政府網頁保存到相應的管理數據庫。元數據管理的功能則是通過確定元數據元素以及元數據的格式,明確政府網頁內容、結構、背景和管理過程等信息與元數據之間的關系,在相關元數據之間建立聯系,實現元數據信息的序化組織,確保政府網頁信息能夠長期可利用。
3.云中資源保存功能模塊。該模塊基于云存儲動態易擴展的技術特性,通過調用云存儲服務端的應用程序,對其存儲集群中相應數據庫進行數據的插入、刪除、修改等操作,實現對海量政府網頁資源的實時動態歸檔保存。此外,該模塊還具備存儲數據的云備份、云遷移等功能,能夠根據存儲數據的更新情況,利用云存儲數據加密、云端數據隔離訪問、完整性驗證及可用性保護等方法,定期進行存儲數據的在線備份和遷移等處理,確保云環境下歸檔政府網頁數據的長期安全保存。
4.云端訪問利用功能模塊。該模塊以瀏覽器/服務器方式為用戶提供歸檔政府網站網頁的云端利用服務。通過該模塊,用戶可以通過瀏覽器直接訪問云平臺,在權限許可的范圍內,查詢、瀏覽、批量下載所需的歸檔政府網頁數據,并能夠利用輔助決策的數據挖掘、數據分析等功能,實現對歸檔網頁信息的在線統計分析與深度挖掘。同時為了實現歸檔政府網頁資源的開放共享和高效利用,該模塊為用戶之間及用戶與管理員之間提供了在線交流的機制,進而實現資源共享、參考咨詢等多種服務方式。
*本文為國家社會科學青年基金項目“基于云計算的政府網站網頁在線歸檔與開發利用研究”(項目編號:18CTQ040)研究成果之一。
注釋及參考文獻:
[1]國務院辦公廳.國務院辦公廳印發《政府網站發展指引》[EB/OL].[2019- 07- 23].http://www.gov.cn/ zhengce/content/2017-06/08/content_5200760.htm.
[2]王萍,黃新平,陳為東,等.政府網站原生數字政務信息云歸檔模型及策略研究[J].情報理論與實踐,2016,39(4):60-65.
[3]王熹.網站文件歸檔問題的若干思考[J].中國檔案, 2017(10):68-69.
[4] The Consultative Committee for Space Data Sys? tems. OAIS Reference Model [EB/OL].[2019- 07- 28]. https://public.ccsds.org/pubs/650x0m2.pdf.
[5]李宗富,黃新平.基于5W2H視角的政府網站信息存檔研究[J].檔案學通訊,2016(2):68-72.
[6]何歡歡.政府網站信息資源保存體系研究[D].武漢:武漢大學,2010.
[7]黃新平.基于集體智慧的政府社交媒體文件檔案化管理研究[J].北京檔案,2016(11):12-15.
[8]牛力,韓小汀.云計算環境下的檔案信息資源整合與服務模式研究[J].檔案學研究,2013(5):26-29.
[9]劉準.政府網絡信息存檔策略研究及系統實現[J].中國檔案,2017(12):60-61.
[10]Yan Han. Cloud storage for digital preservation: optimal uses of Amazon S3 and Glacier[J].Library Hi Tech, 2015, 33(2): 261-271.
[11]Mcleod J, Gormly B. Using the cloud for records storage: issues of trust[J]. Archival Science, 2017, 17(2):1-22.
作者單位:清華大學公共管理學院