岳林恒
在大數據時代下,信息消費和主體互動產生的數據,已經呈現爆炸式增長,學術、商業和政府領域在大數據時代下也在逐步向“數據化”轉型,檔案事業也不例外。數據是作為重要的生產要素和國家的戰略資產,其中檔案數據是作為社會的隱藏財富,積極助力國家現代化建設。“十四五”規劃明確提出了“加快數字化發展”“保護數據資源產權”的戰略定位,為今后在大數據時代下開展檔案數據治理工作,提出了相應的頂層設計與策略。不僅如此,2021年甘肅省、黑龍江省、陜西省等地方“十四五”檔案事業發展規劃都明確指出檔案數據治理是重點科研攻關任務之一。可見檔案數據治理是大數據時代國家治理體系的重要手段和建設內容,也是檔案資源的數據化背景帶來的重大挑戰之一。如何進一步加強對檔案數據的治理迫在眉睫,是檔案工作者和專家需要解決的問題[1]。對檔案數據治理的研究,有利于檔案部門更好地履行新時代下的職責,也利于檔案事業本身的發展,完善檔案學科理論體系。
一、我國檔案數據治理相關研究綜述
2016年在《全國檔案事業發展“十三五”規劃綱要》中提出“推動檔案數據開放共享、保障檔案數據安全”后,加上如今大數據時代背景下,檔案數據治理問題在學界得到的關注度越來越高。首先從治理主體視角出發,劉越男[2]、 楊晶晶[3]分別從檔案部門主體、我國企業角度出發,探討了不同主體該如何參與實現檔案數據治理;楊茜茜[4]則據檔案數據特征提出了治理研究的理論坐標體系。其次從治理方法角度出發,常大偉[5]、潘娜[5]等從宏觀和微觀研究來提升檔案數據治理能力;陳永生[6]、王沐暉[6]等人從政務服務平臺出發來完善檔案治理;金波[7]、楊鵬[7]通過新興信息技術賦能檔案治理智慧化。最后,檔案數據治理的安全研究也是檔案數據治理體系的重要前提,金波[8][9]、楊鵬[8][9]、周林興[10]、韓永繼[10]等著重論述了一系列可行的檔案數據安全治理的方法與成熟度評估模型。這些研究成果涉及各種視角下的檔案數據治理,從理念內涵、意義特征、治理重點、治理安全、開發模式、方案構建等多方面揭示了檔案數據治理問題研究的豐富性。基于此,本文將圍繞我國檔案數據治理的現狀和困境,運用生命周期理論、以多元主體協同共治為落腳點來展望治理路徑,旨在為我國檔案事業與檔案數據治理工作提供有益的借鑒。
二、檔案數據治理內涵及重要性
(一)檔案數據治理的內涵
檔案數據治理,是指檔案部門以多元協作的方式,通過運用數據治理技術,在符合相關法律法規情況下,以確保檔案數據的真實完整性、安全共享、價值增值為目的,全面實施檔案數據的全生命周期治理,達到檔案數據善治的效果[11]。大數據時代下檔案數據來源廣泛、涵蓋的內容更雜亂,治理對象是具有檔案屬性的各類數據資源,不僅僅包括以往政務、企業和個人的檔案,新聞媒體、社交媒體和網頁等所產生的檔案屬性數據,也被列入檔案數據治理的范疇。對檔案部門的工作提出了更高的要求與國家治理體系相匹配。
(二)檔案數據治理的重要性與必要性
一方面,檔案數據治理在國家治理體系中占有舉足輕重的地位。檔案治理能力的內涵應與國家治理能力的內涵同源,檔案工作由于其自身的政治文化屬性,檔案數據治理既是構成國家治理體系的重要組成部分,也是實現國家治理體系現代化的重要手段。檔案數據治理要在全社會范圍內開展,加快檔案治理水平和檔案治理能力現代化,成為推進國家治理體系現代化的助推器,為實現“十四五”規劃的順利完成做出新的貢獻。
另一方面,檔案數據治理是推動檔案工作轉型的力量。從治理的主體上來看,過去檔案機構單打獨斗的工作模式,與如今的大數據時代發展不相適應。現檔案數據治理,需要以檔案機構為主體,領導社會組織機構、民眾多元主體協作共治。從治理的客體上來看,檔案數據治理是適應大數據發展的必由之路,隨著大數據的不斷發展,檔案數據的存儲、管理和服務方式也在不斷變化,社會大眾對檔案數據的需求日趨個性化、智慧化,迫使傳統檔案管理工作模式向檔案數據治理模式轉型。
三、檔案數據治理現狀及困境
我國檔案數據治理工作正在蓬勃發展,部分城市已經走在前列。近年來,檔案數據中心建設項目如雨后春筍般涌現出來,例如浙江省檔案館[12]、三明市檔案館[13]、益陽市檔案館[14]等積極建設檔案數據中心,作為全面收集、整合檔案數據的資源管理平臺,利于檔案信息化建設、政務數據的歸集和整合,大幅提升檔案數據治理水平。對于檔案館內部的數據整合,例如杭州市檔案局開發了一個數據集成平臺——杭州市電子業務數據歸檔系統,可以有效地整合、保存、管理、利用各類業務數據,增加了檔案部門保存的數據種類和數據量,彌補檔案部門間的“數據縫隙”,提升了檔案部門數據治理效能[15]。大數據時代下檔案館構建的各類檔案數據庫也積極助力檔案數據治理,例如萊州市檔案館構建的專題檔案數據庫,不僅盤活數據,提升檔案公共服務能力,還能深入挖掘資源獲得歷史啟示,為當地領導的決策增加前瞻性與檔案支持,提升治理績效[16]。
雖然我國檔案數據治理工作已經初見成效,傳統的檔案管理也正在逐步走向檔案數據治理,但是我國整體檔案數據治理情況仍參差不齊,存在滯后性和失衡性。受資金、人員、信息技術等因素的影響,特別是檔案數據治理落后的地方檔案館,很可能簡單地將檔案數據治理看作是檔案數據的整理和保存,忽略了檔案數據治理對社會的效益和價值,工作重心放在了簡單的檔案數據組織工作上,如收集、整理、電子化等基礎環節。總之,在大數據時代背景下,數據增長與治理落后、海量數據與價值開發等矛盾日益凸顯,檔案部門應積極滿足公眾的數據需求[17],提升公共服務能力與國家治理現代化相匹配,在檔案數據治理中數據質量、價值挖掘、數據安全風險等問題值得被重視起來。
(一)檔案數據質量參差不齊
一是檔案數據規模大。2021年底全國檔案部門館藏電子檔案數據1629.9TB,不僅檔案數據量大,而且目前檔案數據的處理對人工的依賴程度高,且數據處理的效率低,數據質量不易控制,會影響檔案的完整性,加上數據量大,進而影響檔案的使用效率[18]。二是來源渠道多樣化,結構各異。具有檔案屬性的信息都可以納入檔案數據治理中來,例如文檔、表格、網頁、音視頻等。檔案機構部門各自系統建設情況不同,缺乏統一的檔案數據標準,既增加了多元檔案數據整合的難度和復雜性,還容易造成檔案數據標準各異,并且容易導致整合后的數據質量參差不齊。例如,建設浙江紹興市的檔案數據中心時,經常出現檔案數據結構標準不一,極大地增加了建設難度[19]。三是影響了檔案后續的工作。對質量不一的檔案數據很難直接進行發掘開發,參差不齊的檔案數據質量增加了后續開發利用的成本,這對些檔案數據的治理又提出了新的要求。
(二)對檔案數據價值挖掘不足
一是檔案數據價值意識不高。檔案機構等單位保存了大量、豐富的檔案數據資源,但對檔案中的數據缺乏價值意識,受以往“重收藏、輕利用”理念的影響,習慣被動地去利用開發檔案,只有部分檔案數據利用頻繁,浪費了豐富的館藏資源數據,滿足不了精準化、個性化的檔案需求。二是缺少信息技術支撐檔案數據挖掘。盡管現有許多檔案機構進行數據開發,但數據開發使用模式簡單,主要是粗淺的編研材料和建立簡單的檢索框架,檔案數據的價值挖掘、關聯分析的治理技術等信息技術沒有得到充分利用,檔案數據的隱藏價值沒有被充分發現,所蘊含的經濟和社會效益沒有得到體現。
(三)檔案數據安全風險問題
數據安全是大數據時代檔案數據治理的先決條件,檔案數據安全風險能引起檔案數據的損失、價值實現受到限制以及其他不確定問題。一是檔案數據安全的法律不夠完善。2020年修訂的《中華人民共和國檔案法》檔案數據中有關版權、知識產權等問題沒有明確的規范。由于數字化的檔案數據內容信息可以被復制粘貼,與原本載體的關聯度不高,因而數字化的檔案數據不存在傳統意義上的“原件”的說法,在人為的轉移或者共享的過程中,容易發生一些數據安全性、知識產權相關的風險問題,對此相關部門缺乏必要的權屬法律體系[20]。二是信息技術風險問題。大數據時代下信息技術日新月異,不法分子利用漏洞、網絡病毒等方式入侵篡改檔案數據等風險日益突出。由于檔案數據本身的價值性、敏感性特點,極易導致其受到病毒入侵和黑客攻擊。不法分子為了進行非法牟利從而入侵攻擊、販賣泄漏檔案數據,并且檔案數據篡改后不易即時被發現。例如,2016年2月王某輝用非法手段入侵某部委醫療服務信息系統,導致個人檔案數據嚴重泄漏[21]。由此可見,檔案數據安全在大數據時代下十分依賴信息技術,存在技術帶來的風險問題。
四、大數據時代下檔案數據治理的對策
基于信息生命周期理論,從檔案數據的產生、組織和開發利用環節為切入點,來探討大數據時代下的檔案數據治理的對策,以多元主體協同共治來強化大數據時代下的檔案數據治理能力,積極打造一個契合大數據時代下的檔案數據治理安全環境。
(一)檔案數據產生階段
1.多元主體協同共治,增強收集力量
檔案部門作為檔案數據治理的領頭部門,應該積極融入大數據時代,轉變單一治理的觀念。強調多元化主體協同共治,社會組織機構與社會群眾要積極與檔案部門合作,以多樣化的收集方式來增強收集的力量[22]。檔案部門要積極發揮主導作用,近年來對于保護和開發非物質文化遺產檔案數據資源,檔案部門應該走在前面。在收集非物質文化遺產檔案數據資源時,要與圖書館和博物館保持溝通,可以通過技術手段建立統一的資源平臺,共建共治共享珍貴的數據資源。應該積極與當地大數據局達成合作意識,把數據平臺鏈接共享,實現信息化數據化,從而打破信息壁壘。協同共治涉及多方主體,檔案部門應該讓各主體之間的利益得到協調,讓各主體跨系統、跨組織、跨部門的合作形式多樣。
2. 擴大收集范圍,豐富數據構成
擴大檔案數據收集范圍,豐富非政務檔案數據收集。首先,增加大數據下檔案數據的構成種類。例如,加強對地方特色檔案的保護和收集,地方特色檔案數據資源反映了地方風俗、民俗等,是具有地方歷史文化價值的特色數據,對地方社會記憶具有重要意義。其次,加強突發公共事件檔案文獻數據的收集。檔案數據源于社會,其價值也應該回饋給社會。突發公共事件涉及社會全體成員,加強公共事件檔案數據記錄,建立更完整、更科學的國家治理體系。例如,全球性公共衛生事件新冠病毒疫情,檔案部門增強了傳染病暴發狀態檔案數據的收集,為今后突發公共衛生事件提供參考。最后,增加來自非政務性質檔案的渠道,例如一些具有檔案性質網站和媒體,提高檔案數據為群眾服務的能力[23]。
(二)檔案數據的組織階段
1. 引入數據處理技術
在大數據生命周期方面這個階段主要針對檔案數據預處理,將收集到的檔案數據進行清洗、規范化、一致性等技術處理,使檔案數據有序、統一,這一步是為了提高數據的質量,為后續的分析、利用打下基礎。一方面,數據處理技術可減少對人工的依賴,不僅降低節約成本,還能有效地提高檔案數據的處理速度。例如,浙江省檔案館使用科大訊飛的技術處理聲像檔案,實現自動編目和著錄,極大地提高了效率。另一方面,數據處理技術可以提高檔案數據的質量。例如成都市檔案館對于不能全文檢索的檔案數據資源,采用人工智能、圖像識別技術進行分析提取,不僅提升檔案數據質量也方便后續的發掘利用[24];又例如在組織檔案數據時,可以使用數據倉庫ETL工具即時刪除無效的檔案數據,把有效的檔案數據存儲在數據庫中,從而提高了檔案數據的質量。現依托于大數據的新的信息數據技術可以很好地處理檔案大數據,檔案數據作為更有價值、數量級別大的數據,引入新的數據技術是必不可少的。
2. 多主體協同組織檔案數據
一是加強與當地文化機構溝通。當地文化機構對于檔案的形成比較了解,在檔案數據組織工作中,可以分辨出有效檔案數據,也可以保障檔案數據元數據的準確性和完整性。目前少數民族檔案資料大都散落在各民族地方的文化組織中。檔案管理部門加強與各民族文化機構的溝通,高效地組織、整理少數民族檔案數據的同時,建立共享少數民族檔案平臺或數據庫、元數據標準,突破檔案數據組織的障礙。二是協同檔案研究的社會機構。研究檔案的科研所、高校、協會等社會機構在檔案數據的組織中扮演著舉足輕重的角色。例如,檔案部門與研究檔案的高校、機構,可以研究制定適用于本地區的檔案數據組織標準、規范,推動檔案數據組織的科學發展。三是發動社會公眾群體。通過媒體或檔案部門,一些檔案數據可以讓群眾自發地進行組織整理,從而實現社會公眾群體與檔案部門共治的路徑。
(三)檔案數據開發與利用階段
1. 技術賦能檔案數據發掘與利用
檔案數據的善治是為了對檔案數據更深層次地進行開發和挖掘。首先,從內容文本入手發掘。由于檔案數據具有復雜性和多樣性,適用于大數據分析技術來開發挖掘,例如機器學習實現對羅馬歷史檔案文獻的自動轉錄[25];文本挖掘還包括主題挖掘,是一種基于文本屬性特征的相關關系的分析,對專題檔案數據的特征項進行文本主題分析,實現對專題檔案數據全面分析。其次,引用新的展示技術利用檔案數據。利用全息影像、人工智能等技術,創造出一種情景化的演示,讓檔案數據更加鮮活生動地展示出來,使用戶沉浸在檔案展示的場景中,從而讓用戶自身更好地利用檔案數據的價值。最后,積極與信息技術公司協同合作。例如浙江省檔案館與阿里云計算公司達成智慧檔案研究合作協議,合作研發并且準備將電子檔案存證出證的區塊鏈技術、檔案便民服務技術等用于實踐,積極探尋檔案數據利用高效化、治理智慧化,以適應公眾對檔案利用的新要求[26]。
2.多元渠道提供個性檔案數據服務
一是通過用戶畫像提供個性化服務。在各類用戶之間收集用戶的喜好,提供個性化的服務。例如,在非物質文化遺產檔案資源開發,利用社交媒體收集檔案使用者信息,識別其動機和喜好,利用收集的信息進行用戶畫像分析,把更精確的非物質文化遺產檔案展現給用戶。二是拓寬服務平臺。可以通過微信平臺、流行的短視頻模式傳播特色檔案數據資源,使檔案資源不再局限于檔案館,改變以往被動地開發利用檔案的局面,提高群眾利用民生檔案的積極性。三是建立用戶反饋制度。檔案部門應積極調研和關心居民用戶的檔案需求,探索檔案受用群體的檔案使用軌跡和檔案使用習慣,根據反饋結果不斷調整檔案數據管理制度,進一步對服務模式進行改進,提高檔案數據的開發和利用。
(四)積極防范檔案數據治理的安全風險
1.加強檔案數據治理安全法治建設
一是加強目前檔案數據安全相關法規體系建設。我國已經有《數據安全法》《信息安全技術大數據安全管理指南》等法律法規,但是在當前的檔案數據治理中,仍然無法解決當前的安全問題。因此,制定相關政策來保障檔案數據治理的安全,新《檔案法》為出發點,確保檔案數據治理過程中有法可依。解決檔案數據在移交、儲存、管理等權責問題和涉及數據隱私、知識產權問題,為檔案數據的收集、組織、利用全生命周期提供法律依據 [27]。二是檔案部門要強化主體執法責任。在檔案數據治理的生命周期中依法管理,解決遇到的安全風險問題,做到勇于執法,違法必究。監督檔案數據治理過程中的行為規范,擺正執法主體位置,清晰地劃清權責范圍,盡可能地避免數據安全風險的發生。
2. 構建檔案數據安全治理體制機制
一是建立檔案數據安全應急機制。結合檔案部門的地理和社會環境,利用模擬虛擬技術構建應急預案,確保發生突發安全事件時,化解檔案數據所面臨的安全問題。二是建立安全協同機制。檔案部門除了獲得政府的支持,還要領導社會機構、公眾參與到檔案數據的安全治理中來,形成多元主體共治渠道。例如,檔案部門、信息技術企業、高校信息科研所等多元主體協同共治,有效降低對“大數據”“云計算”等技術開發的難度,加強對檔案工作各過程信息技術的治理力度,減少數據安全風險。三是運用信息安全技術構成技防機制。檔案數據安全技術壁壘有效地保障了數據的完整、保密。特別是在檔案數據的存儲和利用階段,運用加密技術、訪問控制技術進行身份識別,可以限制部分訪問人員對核心檔案數據的權限,從而保護關鍵檔案數據不被泄露。還可以利用隱私保護技術,防止檔案數據在開發和使用過程中的泄露問題。應對網絡攻擊時,入侵檢測技術可以幫助系統防止破解,即時檢測修復系統漏洞。
參考文獻:
[1]中辦國辦印發《“十四五”全國檔案事業發展規劃》[J].電子政務,2021.
[2]劉越男.數據治理:大數據時代檔案管理的新視角和新職能[J].檔案學研究 ,2020 (05):50-57.
[3]楊晶晶.設計企業檔案數據治理體系研究[J].北京檔案,2020(2):26-28.
[4]楊茜茜.概念、內容與定位:我國檔案數據治理研究的理論坐標[J].檔案學研究, 2021(06):28-34.
[5]常大偉,潘娜.檔案數據治理能力的結構體系與建設路徑 [J].浙江檔案 ,2020(02): 27-29
[6]陳永生,王沐暉,蘇煥寧,楊茜茜.基于互聯網政務服務平臺的文件歸檔與管理:治理觀[J].檔案學研究,2019(6):4-11.
[7]金波,楊鵬.“數智”賦能檔案治理現代化:話語轉向、范式變革與路徑構筑[J].檔案學研究,2022(02):4-11.
[8]金波,楊鵬.大數據時代檔案數據安全治理能力成熟度模型構建[J].檔案學通訊, 2022(01):29-36.
[9]金波,楊鵬.大數據時代檔案數據安全保障探究[J].檔案學通訊,2022(03):30-38.
[10]周林興,韓永繼.檔案數據安全治理能力成熟度模型構建研究[J].中國檔案,2020(12):79.
[11]金波,楊鵬.大數據時代檔案數據治理研究[J].檔案學研究,2020(04):29-37.
[12]浙江省檔案館. 浙江省檔案館啟動省檔案數據中心建設[EB/OL]. [2020-04-14]. http://www.zjda.gov.cn/art/2020/4/14/art_1229005493_42564205.html
[13] 福建省三明市檔案館辦公室. 三明市檔案館(檔案數據中心)建設項目奠基[EB/OL]. [2021-05-12]. http://www.chinaarchives.cn/home/category/detail/id/34430.html
[14] 益陽市檔案館. 市檔案館館藏檔案數字化率達100% [EB/OL]. [2022-06-24]. http://www.yiyang.gov.cn/yiyang/2/3/73/content_1607266.html
[15]梁凱.“最多跑一次”事項電子業務數據歸檔系統建 設實踐——以杭州市檔案局為例[J].浙江檔案,2017 (8):31-32.
[16] 萊州市檔案館. 山東萊州市檔案館抓牢專題檔案數據庫建設[N].中國檔案報,2022-04-25(2)
[17]何振,楊文,唐思慧,邢文明.大數據時代檔案學教育的新常態與實踐拓展[J].檔案學研究,2016(1):117-123.
[18]趙生輝,胡瑩.“檔案數據化”底層邏輯的解析與啟示[J].檔案學通訊,2021(4):20-27.
[19] 周國剛.樹牢檔案數字化思維[N]. 中國檔案報,2021-09-06(3)
[20]金波,楊鵬.大數據時代檔案數據安全治理策略探析[J].情報科學,2020,38(9):30-35.
[21] 中國新聞網.浙江松陽破獲特大侵犯公民個人信息案7億條信息遭泄露[EB/OL].[2017-4-12]. https://www.chinanews.com.cn/sh/2017/04-12/8197266.shtml
[22]金波,晏秦.從檔案管理走向檔案治理[J].檔案學研究,2019(1):46-55.
[23]錢毅.從“數字化”到“數據化”——新技術環境下文件管理若干問題再認識[J]檔案學通訊,2018(5):42-45.
[24] 成都市檔案館.成都市檔案館深入推進檔案智慧化發展加快融入智慧城市建設[EB/OL].[2022-07-12].http://www.chinaarchives.cn/home/category/detail/id/39516.html
[25]楊建梁,劉越男.機器學習在檔案管理中的應用:進展與挑戰[J]. 檔案學通訊,2019(06):48-56.
[26]省檔案館與阿里云計算有限公司簽訂智慧檔案研究合作框架協議[J].浙江檔案,2020(09):9.
[27]肖冬梅,孫蕾.云環境中科學數據的安全風險及其治理對策[J]. 圖書館論壇,2021,41(02):89-98.
作者單位:湘潭大學公共管理學院