危婭婷?丁玲?曾婷
摘 要:文章從數據治理角度出發,從標準、主體、質量和技術等方面分析網絡信息資源歸檔難點,提出建立統一標準規范體系、形成縱橫聯動機制、構建數據質量保障策略、搭建全生命周期保障平臺等四個方面的應對策略。
關鍵詞:數據治理;網絡信息資源;數據質量
大數據時代下,人們的生產生活乃至各行業的產業模式開始互聯網化,在這些互聯網化的活動中產生了具有保存價值的海量異構數據集。據統計,截至2020年3月,我國網民規模達9.04億,手機網民規模達8.97億,互聯網普及率達64.5%,網站數量為497萬個,域名總數為5094萬個[1]。網絡已成為公民、組織和政府機構交流的平臺。在固定業務活動圈中收集與留存活動信息的檔案工作,在大數據時代如何有效收集與留存網絡活動軌跡,維護大數據時代下的社會記憶,這無疑對當前局限于在固定業務圈活動的檔案工作提出了新的挑戰。本文將在數據治理視域下探討網絡信息資源歸檔的難點,并提出應對策略。
1 數據治理與網絡信息資源
1.1 數據治理的內涵
數據治理是組織機構對數據采集、保存與使用的一套管理行為。數據治理的內涵至今還未統一,國外學者Begg和Caira[2]總結研究初期數據治理定義,認為數據治理是政策、流程、技術和職責的統一;國內學者張寧和袁勤儉[3]在研究國內外數據治理基礎上,認為數據治理是圍繞數據資產展開的系列工作,以服務組織各層決策為目標,涉及有關數據管理的技術、過程、標準和政策的集合,包括政策與標準、數據質量、數據隱私與安全等數據治理內容,其中技術已融入部分數據質量的評估與提高當中。
1.2 數據治理下的網絡信息資源歸檔
網絡信息資源是互聯網網絡行為下各種信息資源的總和,同紙質檔案一樣具有檔案屬性,記錄著國際機構、社會團體和個人在社會活動中產生的各種形式的信息,包含著對國家和社會具有工具和信息價值[4]的歷史記錄。網絡信息資源歸檔是有關主體將具有保存價值的網絡信息進行捕獲、鑒定、歸檔和保存等過程,也是相關主體對網絡信息資源進行歸檔決策行為與過程。網絡信息資源歸檔是檔案實現數據治理的節點之一,同時數據治理的核心內容為網絡信息資源歸檔工作提供了理論和方法支撐。為保障網絡信息資源歸檔決策行為執行的有效性,規范檔案數據治理中的采集與保存行為,檔案部門應從網絡信息資源標準、網絡信息資源責任主體、網絡信息資源質量、網絡信息資源保障技術四個方面開展信息資源歸檔工作。
2 網絡信息資源歸檔的難點
2.1 相關標準規范未成體系
《電子文件歸檔和電子檔案管理規范》(GB/T 18894—2016)規定郵件、網頁、社交媒體類電子文件歸檔范圍納入電子文件歸檔范疇;公務電子郵件以EML格式,網頁、社交媒體類電子文件以HTML等格式歸檔。《機關檔案管理規定》(國家檔案局令13號)規定機關檔案收集公務電子郵件、網頁信息、社交媒體檔案;要求按照公務電子郵件(YJ)、網頁信息(WY)、社交媒體(MT)設置一級門類代碼。《政府網站網頁歸檔指南》(DA/T 80—2019)明確了政府網站網頁歸檔要求,包括責任主體和責任劃分、歸檔范圍、保管期限、收集內容及元數據要素、歸檔格式等規定內容。《寧波市人民政府辦公廳關于印發寧波市政府網站歸檔管理暫行辦法的通知》(甬政辦箋[2018]339號)[5]規定了政府網站歸檔責任主體;明確采集范圍、技術保障、歸檔方式和時間;要求將MARC、OFD等格式作為歸檔格式。
從上述幾個國家、行業、地方標準看出,網絡信息資源已納入電子文件歸檔范疇,包括公務郵件、網頁、社交媒體,其中國家和地方已出臺專門的政府網站網頁歸檔管理規范,但缺乏具有廣泛適用性的網絡信息資源及其元數據的采集歸檔與保管利用標準規范,網絡信息資源采集、歸檔與保管工作只能參照相關規定執行。
2.2 主體單位采集意識薄弱
現政府機構、社會團體和個人均在各類網站、微博、微信等發布和傳播信息,但卻未認識到其在網絡活動中產生的網絡信息資源同紙質文件和業務系統電子文件一樣,對自身生產活動具有長期保存價值。究其原因,一方面,當前還無統一適用的標準規范來遵照執行;另一方面,網絡信息資源作為新型信息形態,無論是對于主體單位領導和各業務部門,還是檔案部門還說,意識到其具有長期保存價值需要時間,采集意識的延遲致使主體單位及其檔案部門還未將網絡信息資源納入各類文件材料收集歸檔范疇。
2.3 相關責任主體缺失
雖然當前已有圖書館、檔案機構、科研機構等對網絡信息資源歸檔展開了理論研究與工作實踐,同時出臺了一些相關標準規范,但是未明確網絡信息資源采集責任主體,存在網絡信息資源未及時收集或從未展開相關工作,造成具有重要保存價值的信息丟失,或重復采集,造成人力、財力等資源浪費。
2.4 數據質量受自身和技術條件制約
2.4.1 自身因素
網絡信息資源不同于紙質檔案,也不同于單位在業務工作中直接產生的電子文件,其具有自身特性,這些特性在一定程度上增加了主體單位將其采集與歸檔的工作難度。孫大東在對網絡信息歸檔難點的調查結果顯示,網絡信息本身的屬性和特點對其歸檔影響非常大,而且往往是阻礙因素[6]。
1)資源海量,形式多元。網絡信息數量龐大,還包括結構化、半結構化和非結構化的信息,并且存在語法語義上的異構性。面對海量信息資源,查找并逐一篩選有價值的信息,同時根據信息在語法語義上的特性選擇合適的歸檔格式保存,再對其進行整理,這無疑使得檔案工作面臨著人力、物力和財力的挑戰。
2)更新速度快,內容易逝。網絡信息資源更新速度快,根據相關數據顯示,網絡信息的平均壽命為44天,博客只有38.2天,而新聞網頁的壽命少至36小時[7]。此外,信息發布者可隨時對信息進行修改、刪除,這就需要信息捕獲工作者迅速、準確采集信息,若網絡信息資源被修改刪除,還需多次采集存儲,加重了歸檔工作的難度與負擔。
2.4.2 技術因素
1)價值判斷困難。馮惠玲提到,“當今時代檔案資源建設最大的機遇和挑戰是數字檔案資源的崛起,它在檔案資源觀中增添了重要的新視角和新元素。在茫茫數字海洋中,如何識別、認知具有檔案特質的文件信息,如何判斷電子文件、檔案的效力和價值,如何搭建數字資源與實體資源的關系都有許多理論和實踐問題需要明晰。”[8]查找篩選網絡信息資源,若是人工完成,則需要花費巨大的時間和精力,而且無法保障信息的完整性和全面性,若通過相關技術實現,該如何確定哪些信息是具有保存價值,應歸檔留存,在這些歸檔留存的網絡信息資源中哪些又是需要永久保存的。網絡信息資源價值判定在檔案學術界相關理論研究中并沒形成統一標準,在相關標準規范中也未明確相關內容。
2)四性與安全保障難度大。網絡信息資源的四性包括真實性、完整性、可靠性和可用性。自電子文件出現以來,其四性和安全保障探討從未間斷,同在辦公自動化系統、業務系統產生的電子文件相比,網絡信息資源產生在公共網絡上,多是通過非正式渠道發布在網上,其真實性認定困難。網絡信息資源來源、主體和傳播渠道的多元,使其四性和安全保證更具不確定性,保障難度更大。
3 面向數據治理的網絡信息資源歸檔對策
3.1 頂層設計,建立統一標準規范體系
《全國檔案事業發展“十三五”規劃綱要》中要求,“研究制定重要網頁資源的采集和社交媒體文件的歸檔管理辦法”,網絡信息資源歸檔工作亟需標準規范來參照執行。第一,統一歸檔格式和數據結構標準,網絡信息資源存在不同的信息格式和數據結構,相關捕獲系統不可能實現所有信息格式和數據結構的兼容,此外,歸檔格式和數據結構的選擇應保證網絡信息資源長期可用。第二,統一著錄與存儲標準,規范網絡信息資源元數據和格式轉換標準,保障網絡信息資源內容及其元數據收集齊全完整,并存儲規范,長期可用。第三,明確責任主體,確定網絡信息資源歸檔責任主體應是綜合檔案館及各組織機構的檔案部門,而采集主體應是政府機構和組織機構各業務部門,明確責任分工。第四,提供歸檔網絡信息資源分類方案、歸檔范圍和保管期限表,制定一般性網絡信息資源“三合一”表,根據可能存在的幾種管理情況,提供不同的網絡信息資源分類方案,提供可執行的標準參考。
3.2 多方協作,形成縱橫聯動機制
網絡信息資源歸檔不是一個機構能夠獨立完成的,需要多方協作,各自承擔相應責任。不同層級機構分工明確,自上而下形成縱向支撐機制。國家檔案局應統籌網絡信息資源采集、歸檔與保存工作,出臺統一標準規范,提供業務指導和參照;技術支持者提供網絡信息資源采集歸檔系統,實現信息歸檔格式與數據結構的自動轉化,提供技術支撐;學術界持續開展網絡信息資源歸檔管理相關研究,為其歸檔提供理論支撐。圖書館、博物館、檔案館多方合作,整合資源,形成橫向合作交流機制。2002年,在國家973和985項目支持下,北京大學網絡實驗室開發建設“中國Web信息博物館”——中國網頁歷史信息存儲與展示系統,[9]2003年,國家圖書館啟動網絡信息資源采集與保存試驗項目(WICP),2018年,國家檔案局啟動網站網頁資源歸檔試點工作,該項試點工作將為標準規范提供實踐經驗和理論依據[10]。各方機構應相互交流,協同合作,共同為網絡信息資源采集與歸檔保存提供經驗指導與理論依據。
3.3 明確思路,構建數據質量保障策略
3.3.1 構建網絡信息資源采集策略
在遵照相關標準規范外,組織機構還需建立符合自身情況的網絡信息資源采集策略,確定采集的范圍與標準、技術與頻率等。
1)范圍與標準。網絡信息資源采集策略可分為全面采集、選擇性采集、專題采集、組合采集等[11]。全面采集可利用網絡爬蟲技術定期自動采集網絡信息資源,但這種全面性也是相對的,根據地域或者域名確定范圍邊界;選擇性采集是指根據限定的標準進行采集,例如采集特定網站、主題或時間、信息的形式等等,選擇性采集適用收集相對重要信息的需求;專題采集屬于選擇性采集,基于某一事件或人物采集相關信息,例如重大活動、名人等;組合采集是使用上述兩種以上采集策略,例如可對采集對象進行完整性采集,同時選擇特定主題或事件進行專題采集。
此外,網絡信息資源的內容、形式、自身需求、法律和成本是影響組織機構采集的因素。組織機構可根據歸檔網絡信息資源內容真實性與原創性,以及來源權威性,即根據內容因素確定采集標準;也可根據信息格式,只采集特定格式標準的網絡信息資源;還可根據自身實際需求采集特定內容和形式的信息資源;可在法律規定下,采集例如不涉及個人隱私權的網絡信息資源;也可在成本的考慮下,確定采集的范圍。
2)技術與頻率。對于網絡信息資源的捕獲,可采用網絡爬蟲技術和特定應用程序接口(API)。網絡爬蟲技術是“對萬維網的信息進行自動抓取的程序或者腳本,并且采用某種規則。”[12]是一種廣泛使用的捕獲技術,捕獲速度快,同時數據庫可直接存儲捕獲到的信息;應用程序接口是一些經過了預先定義的函數,提供開發人員訪問的一些良好的程序權限,而又不要求開發人員看得懂源代碼或一定理解其內部工作機制的細節。[13]API可保持與特定社交媒體網站的數據連接,自動獲取數據,還可自動檢測格式,對格式進行統一整理。
無論選擇使用哪種技術采集網絡信息資源,都需確定采集頻率。采集頻率的確定需要考慮網站更新的頻率和網站的重要性。對于較為穩定、更新不頻繁的網站,通常認為每隔六個月進行一次采集是比較合適的。[14]但是對于更新頻繁的網站和社交媒體來說,網絡信息資源的采集頻率需要更高,同時還要結合網頁的重要程度考慮。
3.3.2 構建網絡信息資源價值篩選策略
篩選歸檔網絡信息資源,需要從主體職能與定位、信息價值表現形式、網絡信息價值判斷的粒度進行分析[15]。筆者認為向禮花提出的歸檔網絡信息價值自描述[16]可為構建網絡信息資源價值篩選策略提供借鑒。向禮花通過對歸檔網絡信息資源價值構成要素分析,形成歸檔網絡信息資源價值元數據,建立歸檔網絡信息資源價值元數據自描述的機制,由機器人自動抽取機制元數據,或將價值元數據與網絡信息資源本身建立聯系,再由機器人自動根據價值元數據篩選需要歸檔的網絡信息資源。她認為可通過在HTML的頭標簽嵌入價值元數據或者用XML描述實現歸檔網絡信息資源價值的自描述。
3.4 技術掌舵,搭建全生命周期保障平臺
網絡信息資源因其自身的特性以及技術的不斷更新換代,導致網絡信息資源歸檔與保管工作面臨著許多技術挑戰。網絡信息資源采集、鑒別、歸檔和保管涉及網絡信息資源采集技術、價值鑒別技術、存儲載體性能、信息長期保存技術和信息安全保障技術等。組織機構可根據自身實際情況選擇合適的技術展開工作,第一,如果技術條件有限,可選擇主要留存靜態網頁,若組織規模較小,采集信息量不大,可主要采用人工采集方法。第二,存儲載體的選擇可根據成本和載體穩定性等因素結合考慮,一般可考慮選擇穩定性高,成本低,壽命較長的載體,同時做好存儲載體的信息檢測與遷移工作。第三,根據相關標準要求以及組織機構自身實際情況確定長期保存格式,便于網絡信息資源保存與利用。第四,從防火墻技術、入侵檢測技術、審計技術、電子印章與電子簽名技術、動態水印技術等方面保障網絡信息資源安全。
4 結束語
信息網絡時代下,網絡成為人們生產、傳輸信息的重要渠道,網絡信息資源承載著網絡社會活動記憶與文化。如何有效采集歸檔網絡信息資源,需要從規范、主體、質量、技術等方面考慮,確保相關主體執行網絡信息資源歸檔決策的有效性,規范網絡信息資源在檔案數據治理中的采集與保存行為,為組織機構提升網絡信息資源數據治理能力奠定基礎。
參考文獻
[1]中國互聯網絡信息中心.第45次中國互聯網絡發展狀況統計報告[EB/OL].[2020-05-22] http://www.cac.gov.cn/gzzt/ztzl/zt/bg/A0920010206index_1.htm.
[2]Begg C,Caira T. Exploring the sme quandary: Data governance in practice in the small to medium-sized enterprise sector[J].Electronic Journal Information Systems Evaluation,2012(15):3-13.
[3]張寧,袁勤儉.數據治理研究述評[J].情報雜志,2017(5):129-134,163.
[4]引用湖北大學覃兆劌教授提出的“檔案雙元價值觀”
[5]寧波市政府信息公開.寧波市人民政府辦公廳關于印發寧波市政府網站網頁歸檔管理暫行辦法的通知[EB/OL].[2020-05-22]http://zfxx.ningbo.gov.cn/art/2018/10/31/art_2463_3013479.html.
[6]孫大東.我國檔案館(室)網絡信息歸檔調查研究[J].檔案學通訊,2017(4):78-83.
[7]畢云平,謝海洋.檔案學視角下網頁歸檔與保存研究綜述[J].檔案學研究,2015(4):74-78.
[8]馮惠玲.檔案記憶觀、資源觀與“中國記憶”數字資源建設[J].檔案學通訊,2012(3):4-8.
[9]百度百科.中國Web信息博物館[OL].[2020-06-01].https://baike.baidu.com/item/%E4%B8%AD%E5%9B%BDWeb%E4%BF%A1%E6%81%AF%E5%8D%9A%E7%89%A9%E9%A6%86/9823741?fr=aladdin
[10]國家檔案局.國家檔案局網站網頁資源歸檔試點工作啟動[EB/OL].(2018-07-18)[2020-06-01].http://www.saac.gov.cn/daj/daxxh/201807/b7ee27b2500a4a3cbda3c8cb5a787bda.shtml.
[11]仇壯麗,許冬玲.歸檔網絡信息資源選擇策略的影響因素研究[J].檔案學研究,2011(3):63-66.
[12][13]常家豪.基于社交媒體的安全態勢信息采集方法[J].網絡安全技術與應用,2014(7):5-9.
[14]雷安琪.社交網站網頁檔案保存研究[D].武漢:華中師范大學,2016.
[15]仇壯麗,許冬玲,卜淑芬.歸檔網絡信息價值判斷模型之研究現狀與展望[J].檔案學通訊,2010(6):61-64.
[16]向禮花.歸檔網絡信息價值的元數據描述[D].湘潭:湘潭大學,2013.