范曉青 黃芹俠


政府網站正成為政務服務、信息公開、知識傳播與文化傳承的重要陣地,也必然會產生大量反映機構依法行政的真實記錄,需要加以收集保存以資查考利用。第49次《中國互聯網絡發展狀況統計報告》顯示,截至 2021 年 12 月,我國共有政府網站14566 個,互聯網政務服務用戶規模達 9.21 億,較 2020 年 12 月 增長 9.2%,占網民整體的 89.2%。作為電子文件存儲的網站網頁文件如何妥善保存,留下時代烙印,傳承社會文化,已經成為一個不可回避的問題。
數字檔案館(室)建設開展以來,截至2021年底,全國共創建國家級數字檔案館90家,江蘇省共有A級數字檔案館(室)1295家。數字檔案館(室)建設如火如荼地開展,各地“館室一體化”進程持續推進,為網站網頁電子文件的收集歸檔工作提供了必要的載體和平臺,也使該背景下的網站網頁歸檔具有一定范圍內的可復制參考性。
一、政府網站歸檔現狀
政府網站是由各級政府主辦、負責運行維護,在互聯網上發布政府信息和提供在線服務的綜合平臺。黨和國家對網站資源歸檔工作十分重視。2016年11月中辦、國辦印發的《國家電子文件管理“十三五”規劃》要求“推進政府網頁及電子郵件、音視頻等電子文件歸檔”。2017年5月國務院辦公廳印發的《政府網站發展指引》也明確要求要對政府網站網頁進行歸檔。
基于這些要求,一些機構對網站歸檔進行了一些研究,比較成功的網站歸檔案例,大多以圖書館、研究機構為主體,以網頁爬蟲等技術對一定主題的網頁進行采集,多為知識性采集。這種模式與檔案部門進行的網頁歸檔的憑證性采集有著很大不同。而且由于采用外部軟件進行采集,對網站的音視頻、網頁附件、3D立體展廳等內容的采集還難以實現。政府網站文件歸檔工作目前大多處于放任自流或各行其是的狀態,有的則停留在一般性文獻資源匯聚的階段。
泰州市各單位在網站歸檔這塊也存在同樣的問題,各單位網站歸檔意識不強,極少采取實際有效措施進行網站歸檔。擁有網站歸檔軟件的僅有泰州市供電公司一家,采用爬蟲軟件對部分重要欄目進行采集歸檔(該歸檔軟件為其上級主管部門統一開發)。少部分單位手動采集,通過網頁截圖的方式進行歸檔,歸檔內容為部分專題,如部分疫情防控網頁的收集歸檔。大多數單位沒有網站歸檔意識,或者認為應該歸檔,但是不知如何進行歸檔。
二、泰州市政府網站歸檔的背景
2019年國家 檔 案 局 發 布 《 政 府 網 站 網 頁 歸 檔 指 南 》(DA/T80-2019),并于2020年5月1日正式實施。為政府網站網頁歸檔提供了根本制度遵循和標準要求,對規范政府網站網頁歸檔質量、增強電子政務信息資源建設,持續推動政府網站網頁有序歸檔發揮了極其重要作用。2022年新實施的《檔案法》要求“機關、團體、企業事業單位和其他組織應當積極推進電子檔案管理信息系統建設,與辦公自動化系統、業務系統等相互銜接。”
2021年泰州市政府門戶網站全新改版, 33個市直機關部門網站統一歸口建設,統一標準,統一架構,為我們進行接口開發,統一推送網頁文件提供了便利條件。
2020年、2021年,泰州市檔案館先后建成江蘇省5A級數字檔案館、國家級數字檔案館,同步建設泰州市集中式數字檔案室,系統功能更趨完善,并在市直機關團體企事業單位中推廣,檔案室系統的使用比例約為80%。數字檔案館(室)一體化系統的廣泛使用,也為網站網頁歸檔提供了必要的平臺支撐。
三、泰州市門戶網站歸檔實踐
(一)網頁歸檔模式選擇
網頁采集目前主流的有兩種方式:一種為自動抓取,一種為主動推送。這兩種方式各有利弊,推送技術主要是將網站網頁信息主動推送至相應的信息保存單位或部門。推送技術可采集深層網站網頁以及數據庫資源,且便捷又安全。抓取技術則由采集單位運用專門軟件,將網站網頁信息采集、下載、保存至相應的服務器。一般運用第三方軟件進行操作,由于授權問題,部分信息難以獲取。
新《檔案法》實施以來,對電子檔案的有效性提出了原則性的界定,電子文件應當“來源可靠、程序規范、要素合規”。國家檔案局在管理檔案事業的組織原則是“集中統一管理”。網站網頁檔案也是電子檔案的一種,根據以上原則,我們認為網站網頁電子文件的歸檔主體應是各網站主辦單位,同時應由主辦單位檔案室集中統一進行管理。但由各機關部門分別進行網站歸檔系統的開發,一方面,各部門的檔案人員專業能力難以勝任,另一方面,也不適應集約型政府的發展方向。
基于以上觀點,我們由檔案館協調所有門戶網站群中部門網站的歸檔,并采用主動推送的方式。將政府門戶網站數據按部門推送至中間庫,數字檔案室系統從中間庫進行接收并分配至各機關部門。由檔案館提供統一的網站歸檔模式、要求及統一的檔案管理系統,由各部門授權,政府門戶網站提供數據推送技術支持,檔案管理系統提供數據接收技術支持。這種模式從一定程度上解決了網站歸檔中的制約問題,可以更好地推進網站歸檔工作,具有現實可行性。同時數字檔案館(室)系統的數據封裝功能,也能一定程度上確保歸檔數據的真實完整性。
(二)網頁電子文件類型梳理
在對網站網頁歸檔之前,我們對這33家網站的欄目進行了一個初步的分析。統計了這33個部門網站除首頁以外的一級欄目,共計198個,其中各類網頁類型占比如表1:
可以看出,政府網站正在成為信息公開、辦事服務和政策解答的重要平臺,是政府履行職能的重要陣地。
根據對這些網站內容的梳理,政府網站網頁內容格式主要有幾種類型:純文本、文字圖片、文字加附件、圖片類、表格類、PDF、音視頻類等。外部鏈接因主體不同,未列入本次歸檔范圍。
參考《政府網站網頁歸檔指南》,我們首先需要留存一份版式文件,以網頁截圖的方式,保存為PNG格式,用于固化網頁的版面及內容信息。其次需要保存一個該歸檔網頁的源代碼文件,保存為HTML格式。同時為了便于后期對該網頁信息的應用,我們還將網頁中涉及的圖片、表格、附件等信息專門進行保存。這樣我們一份網頁歸檔文件至少包含JPG、HTML兩種格式文件,根據實際情況,每個網頁歸檔的內容有所不同。
(三)網頁歸檔組織原則
為了保持網站的整體性和延續性,我們以一個部門作為一個全宗,部門下有多個網站的,分別給予網站代碼“01”“02”…以此類推。同一網站,以“年度-保管期限-類別”進行分類,以最終一級欄目作為類別,類別內按時間順序進行流水編號。類別代碼以最終一級欄目名稱的拼音首字母進行命名。檔號設置為“全宗號-門類代碼-網站代碼-年度-保管期限-類別代碼-件號”的格式。
網站網頁文件推送的頻次根據網頁電子文件的價值及重要性確定,由各單位制定網站門類的推送頻率,采用每月、每季或每年推送的方式。重要的網頁文件一月一推送,較重要的一季一推送,一般的一年一推送,網站首頁一般設置為一年推送一次。
(四)網頁元數據信息采集
網頁元數據信息采集如表2,采集的內容除了網站主動推送信息以外,利用數字檔案室的檔案預歸檔模塊,對歸檔所需元數據信息進行自動生成或智能輔助生成,提高網站網頁歸檔的自動化和可操作性。
網頁內容推送數據格式:PNG(網頁截圖)、JPG(網頁內配圖)、MP4(網頁內視頻)、HTML(網頁源代碼)、網站內附件(excel、word、pdf),鏈接文件不推送。
(五)網頁數據歸檔管理
網站網頁被推送至各機關部門檔案室后,由數字檔案室系統根據推送信息,自動生成相關元數據信息。由檔案員進行鑒定審核后,批量選擇歸檔。
保管期限制定原則一般以欄目為最小單位,同一個欄目確定為同一個保管期限。電子文件采集進數字檔案室系統預歸檔模塊后,數字檔案室系統帶有保管期限輔助鑒定功能,根據制定的保管期限表,實現網頁保管期限的自動鑒定,檔案員僅需確認無誤后,點擊歸檔按鈕,系統根據預先設定的檔號組成規則自動生成檔號,完成網站網頁的歸檔,減少人工參與,提高網站網頁歸檔的效率。
(六)網頁電子文件的存儲及利用
網頁電子文件的存儲采用建立層級文件夾的形式。以檔號中每一層級建立文件夾,在類別代碼文件夾中,存放該網站該類別下的所有電子文件。
“館室一體化”背景下,網頁歸檔信息的共享利用也更加便利。網站網頁在數字檔案室中進行歸檔后,可以在本單位部門中正常進行電子文件的借閱。在泰州市市級機關各部門之間,也可通過數字檔案室系統中的“共享利用”模塊,根據各單位申請,對歸檔網頁數據跨單位部門共享利用。
作者單位:泰州市檔案館