袁蕾涵 任越
關鍵詞:大數據;檔案數據;數據治理;善治;語義技術;精準服務;智庫型服務;文化遺產
1 引言
隨著大數據、云計算、移動互聯以及社交媒體等信息技術在社會經濟發展過程中運用不斷深入,引發了全球數據爆發式增長。大量數據產生和聚集推動著社會、企業、個人不斷向數據化過渡。數據化浪潮不僅推動了新技術發展,也深刻影響著人們的生產生活方式,而數據作為核心因素,其價值越來越受到人們的認同和關注。在此背景下,國家對數據治理的關注度也在不斷提高。2015年10月,中共十八屆五中全會將大數據上升為國家戰略;2016年3月,《國民經濟和社會發展第十三個五年規劃綱要》將“實施國家大數據戰略”作為專章寫入;2023年新一輪機構改革中國務院機構改革方案提出組建國家數據局。[1]政策文本的多次提及以及國家數據局的成立使得數據治理活動作為一項行政行為與學術議題被各界所廣泛關注。在全面推進國家治理體系和治理能力現代化的今天,檔案事業作為國家治理體系的重要組成部分,在支持國家治理、社會記憶留存方面具有不可替代的作用。2021年,《“十四五”全國檔案事業發展規劃》提出“主動融入數字經濟、數字社會、數字政府建設,推動檔案全面納入國家大數據戰略”。[2]轉變傳統檔案管理方式,強化檔案數據治理,找準檔案部門在國家總體數據治理活動中的職責定位,重塑數據時代檔案工作形象,已成為當前檔案事業改革發展的一項重點工作。
2 面向現代化的檔案數據治理價值表現
信息社會背景下,數據大量產生的同時也帶來了數據的管理與利用問題。檔案作為一種重要的戰略性信息資源,檔案部門也應主動融入數據治理大潮,積極應對檔案數據化變革在管理理念、模式等方面帶來的挑戰,在數據管理理念和信息技術的支撐下不斷提升檔案數據治理能力,深入挖掘檔案數據價值,主動服務國家各項事業現代化建設需要,促進數據時代檔案工作的提質增效。
2.1 檔案管理智慧化轉型的必然趨勢。數據作為當前推動社會各項事業加速發展的一種重要資源,促使各界紛紛開始關注數據治理問題,以期發揮數據在提高生產力方面的重要價值。數智技術作為伴隨數據大量產生而興起的技術,推動著信息資源管理的數據化變革,使信息資源管理具備了知識挖掘、管理與再造的基礎和工具。同樣在檔案領域,檔案治理對象在信息技術變革的過程中,經歷了從傳統模擬態檔案向數據態檔案信息的轉變。來源廣泛、結構多樣的細粒度檔案數據資源快速增長匯集,成為驅動檔案事業數據化轉型、檔案數據治理深入推進的基礎性資源。相較傳統紙質檔案的人工管理,數據態的檔案管理在數據清洗、語義組織、數據挖掘、關聯分析、知識圖譜、人工智能等數智技術的支持下可以大大提升檔案管理利用的效率和質量,通過對大量多元異構檔案數據進行細粒度、可視化、內容級深度開發,實現檔案數據之間的信息關聯和知識發現,檔案管理因此呈現出明顯的知識管理、智慧管理趨向。與此同時,檔案數據治理現狀與檔案數據治理現代化要求之間尚存差距。檔案數據保管分散,數據孤島情況普遍存在,檔案數據價值挖掘不充分,難以滿足社會多樣化需求,檔案數據質量與安全保障問題顯著,檔案數據風險日益加深。因此,強化檔案數據治理已然成為實現檔案管理智慧化轉型的必要之舉。
2.2 檔案利用服務高質量發展的內在需要。公眾數據權利的普及與數據獲取能力的不斷提升,使得公眾對檔案利用服務的需求也呈現出多元升級的趨勢。傳統檔案服務模式下,一方面,檔案信息開放共享相對困難,難以滿足公眾的精細化、多元化檔案利用需求,服務效率相對較低;另一方面,檔案部門難以精確掌握用戶的需求,缺乏個性化服務,難以滿足公眾對便捷化、知識化服務的需求,而檔案數據化服務在細粒度的數據聚合和智能化技術的支持下,數據檢索速度得到了極大提升,能夠精準識別用戶需求,快速高效地對用戶信息訴求做出回應,并結合用戶興趣推送個性化的信息服務。同時,隨著數據存儲管理智能化水平不斷增強,數據實時采集、重組整合、關聯分析等技術在數據管理中的廣泛應用,能夠形成關于某一主題相關數據的關聯網絡,通過對這些數據關聯的提取分析,能夠更加直觀地分析數據背后所蘊含的深層次問題,進而提供精準化、知識化、智庫型的高層次服務,幫助決策者提前掌握事件發展走向,進而做到事前預測、風險規避、精準決策,這對于掌握社會發展需求、防范治理危機有著巨大價值。最后,在可視化技術和虛擬現實技術的輔助下,還可以為用戶提供沉浸式的可視化服務,全面提升用戶的體驗感和滿意度。
2.3 檔案數據內涵屬性的本質要求。大數據時代,檔案數據作為檔案學科與數據學科交融的產物,其內涵既包括檔案的數據化,也包括數據的檔案化,二者之間相互聯系、內在統一,共同構成了檔案數據的底層邏輯架構。檔案數據化作為數據時代檔案事業的創新舉措,通過將數據管理理論與技術方法融入檔案資源建設和檔案管理工作中,以推動檔案信息資源的深度開發與檔案管理流程的智慧化升級。其一,檔案數據化作為數字化的延伸形式,旨在運用全文識別、圖譜關聯、多維重組等現代信息技術手段將文本、圖像等傳統檔案、數字檔案轉換成可被機器識讀、分析、計算的結構化、細粒度字節。同時,借助大數據、人工智能技術對這些有價值的數據進行知識化開發、可視化呈現,展現檔案數據在資政育人方面的巨大價值,提升檔案數據在國家數據資源體系中的核心競爭力。其二,當前檔案數據類型仍多以非結構化、半結構化類型存在,導致檔案數據難以進行深度的知識化、資源化處理,限制了檔案數據治理融入總體數據治理的實現。這需要強化對于檔案數據的結構化、標準化處理,減少數據異構、數據孤島等問題,激活檔案數據的內在價值。數據的檔案化則是通過將檔案學理論和檔案管理方法滲透到數據管理活動之中,對海量數據中具有保存價值的數據進行檔案化管理,發揮檔案部門在數據規范化、安全化、價值化管理中的獨特優勢。一方面,在大檔案觀指導下,應從全局角度擴大數據的采集歸檔范圍,將社交媒體數據、地理信息數據等新型數據資源納入歸檔范圍,確保有價值的數據做到應收盡收,避免檔案數據資源的流失;另一方面,數據管理與檔案管理均強調管理業務流程的連貫統一。因此,有必要在文件生命周期理論和文件連續體理論的指導下,強化業務部門與檔案部門之間的協作,促進辦公業務數據系統與檔案管理系統之間的銜接融合,實現數據從產生到保管利用的全流程管理,以確保數據的語義關聯性、要素連續性、結構完整性以及價值時效性。同時,將檔案工作過程中形成的嚴密保管方法體系運用于數據長期存儲與安全管理之中,綜合考慮數據的存儲方式、存儲載體,實施安全分級、內外網隔離的管理制度,運用區塊鏈、加密技術等,構建立體化的檔案數據安全保障系統,以確保數據的實體與信息安全。[3]
3 面向現代化的檔案數據治理關鍵要素
3.1 主動融入國家大數據戰略。國家數據局的成立使得我國數據管理組織結構得到了進一步的優化完善,在此背景下作為傳統政務信息資源管理部門的檔案機構,需要把握機遇,發揮自身優勢,積極融入國家大數據戰略之中。
一方面,為國家總體數據治理提供文件檔案的管理思維和方法。當前對于數據管理的具體措施規劃較為模糊,尚未實現對數據全生命周期管理各流程的全面覆蓋。檔案部門在近些年來對電子文件管理相關問題的實踐和研究過程中,積累了大量可用于數據管理的經驗。宏觀層面,檔案管理活動與數據管理在質量要求上存在很多重合部分,將檔案管理要求融入數據管理規則當中能夠有效保障數據質量,打通數據治理與檔案管理之間的邊界。首先,檔案部門應基于自身職能設置特點主動作為,從黨政協同構建數據事業的角度,積極與數據管理部門就數據戰略規劃的制定展開合作。其次,檔案部門應融入各級數據治理協作組織框架當中。在數據管理過程中提高對檔案數據的關注,擴展數據治理活動在反映國家、社會記憶方面的功能的同時,從檔案管理方法、規則等方面為數據管理活動提供實踐指導、績效評估以及人員能力培訓。最后,推動數據治理工具的檔案思維融入。檔案部門應主動參與到數據管理平臺和系統的構建過程中,以便在功能設計時將檔案管理的要求嵌入其中,實現與檔案管理功能之間的良好銜接。微觀層面,首先,檔案部門應在公共數據歸檔方面發揮主導作用,依托檔案歸檔經驗制定公共數據歸檔方案,建設公共數據歸檔平臺,并對公共數據歸檔的各項工作進行監督指導。其次,需要結合檔案鑒定工作經驗,對政務數據進行價值鑒定,這既包括鑒定數據價值以確定其保管期限,也包括對保存期滿的數據進行鑒定以進行合理處置。同時,檔案部門還應主動承擔起數據的開放審核工作,在檔案開放鑒定工作制度的基礎上,完善數據開放審核標準機制,推動政務數據的開放共享。最后,檔案機構積累了一系列有關電子文件安全保存的經驗做法,檔案部門應針對數據丟失、數據可用性維護、涉密檔案保管等問題,從戰略規劃、技術手段、基礎設施建設等方面為數據的長期保存提供檔案智慧。[4]
另一方面,檔案機構融入數據治理活動,能夠促進檔案工作的擴展和升級。數據技術的快速發展帶來了國家社會各行各業的數字化轉型,這在給檔案機構帶來挑戰的同時,也為檔案機構帶來了職能擴展的可能。其一,數字政府建設背景下,檔案部門可以充分挖掘數字轉型過程中政府開展各項業務優化升級的新需求,將檔案服務嵌入政府工作內容當中,主動提供優質數字檔案資源、政務文件歸檔管理服務等,展現數據時代檔案部門的新形象。其二,數字技術的快速發展,也帶來了數字鴻溝、數據壁壘等一系列問題。各級各類檔案館具有的公共服務屬性,需要檔案部門積極行動消除機構自身存在的數據壁壘,在檔案服務過程中更加關注弱勢群體,提升公眾的數字素養和自身的數字服務能力,不斷推動檔案數字化服務的公平普惠。其三,檔案部門應充分發揮在文化大數據體系建設中的積極作用。檔案部門應將文化大數據建設作為一項重點工作納入整體工作規劃之中,在加強檔案文化資源數據化建設的同時,積極與不同類型的文化機構展開合作,推動不同文化數據資源的整合開發,促進中華優秀文化的全景呈現。
數據治理活動在主體層面具有多元共治、權責清晰兩大特征。在治理過程中,除涉及檔案部門外,還包括產生檔案數據的各種業務部門、數據中心、信息機構等社會組織以及檔案用戶等。當前檔案部門與數據管理部門之間依然存在一些職責交叉的問題,因此準確定位檔案部門和數據管理部門的職能,明晰各自職責劃分是檔案部門融入國家大數據體系的重要基礎。通過構建合理的協同治理參與機制,將檔案部門納入促進大數據發展部際聯席會議和地方大數據、政務信息資源管理等各類協調機制。加強職責分工和具體工作的協商與協同,建立和完善議事協調機構或主辦部門組織的部門間職責分工協商機制,建立健全檔案部門與數據管理部門間具體工作的協作機制,營造良好的治理環境。[5]
3.2 健全完善檔案數據治理方法要素。檔案數據自身的復雜性要求在其管理過程中充分運用數據科學的理論、方法、技術實現對檔案數據各要素的科學管理,構建起與大數據發展需求相適應的檔案數據治理要素體系,以最終實現對檔案數據的整體善治。由于檔案數據的歸檔階段較為模糊,基于數據生命周期嵌入業務流程成為檔案部門介入檔案數據治理的必然選擇,[6]檔案數據治理的模式正逐漸向全過程管理轉變。首先,要加強對檔案數據的前端控制,檔案部門應該主動作為,積極與檔案數據的來源機構進行合作,在機構業務系統設計之初就將檔案管理的數據質量要求與價值判斷標準融入其中。其次,優化機構業務系統與檔案數據管理系統之間的銜接,通過前置檔案管理節點,實現檔案數據生成歸檔的一體化管理,掌握檔案數據治理的主動權,有效避免檔案數據異構、檔案數據質量參差不齊等問題,確保檔案數據在形成階段的高質量,進而為后期各項檔案數據治理活動的開展奠定基礎。對于影響檔案數據治理成效的重點環節也應特別關注,確保各要素環節與檔案數據治理活動相匹配,以檔案數據治理各環節的科學規范保障檔案數據的最終善治。例如,在檔案數據的質量控制方面,既需要從制度保障、技術支持等角度全面考慮,將“四性”即真實性、完整性、可用性和安全性檢測標準嵌入數據管理系統當中,加強對數據的評估、清洗、修復,也需要關注數據的標準化、結構化問題。一方面,依托智能識別、內容標引等方法對檔案數據進行結構化、規范化轉化;另一方面,規范數據的存儲格式、訪問接口,推動不同來源、不同類型檔案數據的整合共享。最后,可通過建設數據監控系統,對檔案數據治理的各環節形成數據進行收集、記錄,通過可視化的形式展現檔案數據全生命周期的運行狀態和管理效果,形成可追溯的檔案數據治理過程數據。
除了加強檔案數據治理的過程管理,還要強化技術工具在檔案數據治理過程中的運用。檔案數據的產生、傳輸、存儲、加工都離不開數據技術的參與,在推進治理能力現代化進程中,數據技術成為優化治理生態、優化治理創新、提高治理水平的重要推手。因此,必須將技術思維融入檔案數據治理各項活動當中,不斷優化數據技術與檔案數據治理活動的融合水平。當前,數智技術快速發展,各種數智工具層出不窮,在為檔案數據治理活動提供諸多便利的同時,也帶來了許多風險與挑戰,檔案數據對于安全性和真實性有著極高要求,這就決定了并不是任何一項技術都可以運用于檔案治理活動中,在實際運用前必須對技術工具的可靠性、穩定性進行試驗論證,以保障檔案數據治理活動的安全高效開展。同時,由于檔案數據的結構多元、類型多樣,對于檔案數據治理工具的選擇也不是一勞永逸的,在選擇技術工具的過程中必須結合不同檔案數據治理實際進行個性化運用。在數據管理技術的運用方面,應加快推進優質成熟技術在檔案數據治理活動中的轉化應用,發揮數據技術在檔案數據精細化、高階化、智慧化管理中的關鍵作用,積極開發與檔案數據治理活動適配度高、操作便捷高效的檔案數據治理技術應用工具,更好地服務檔案數據治理活動的整體需要。[7]
3.3 借助語義組織激活檔案數據價值。檔案數據的語義組織包括對檔案文本的標注和對檔案數據元數據的著錄。經過OCR識別后形成的數字檔案仍然無法被計算機所理解,需要利用人工標注或自動標注對檔案文本中的人事物等具體信息進行詳細描述,識別出這些詞語所指代的具體概念,將其轉化為計算機可理解的結構化數據。對檔案文本內容的標注越細致,越便于揭示檔案內容之間相互關聯,檔案文本的知識發現、聚合挖掘的深度和效果也更顯著。檔案元數據包含檔案背景數據和結構數據,檔案元數據對于確定檔案文本的來源機構、業務流程、文件匯集以及所處生命周期階段有著重要作用。檔案元數據通常是由計算機系統自動生成的一種結構化的XML語言,需要通過語義增強將其從XML文檔轉化為RDF文檔,實現從隱式語義表達向形式化語義表達方式的轉化。在完成檔案數據語義轉化后,借助本體建立起檔案內容、結構和背景數據之間的語義關系,從而構建起一個相互關聯且可識讀的數據網絡。
從檔案數據資源語義著錄的層級來看,著錄的層級越細致,獲取的著錄數據層級越明晰,檔案數據之間的語義關聯越完整。利用多級著錄使檔案數據的檢索變得更加靈活智能,無論是利用哪一層級的著錄數據進行檢索都能實現檔案數據檢索的全方面擴展。在多級著錄的基礎上,檔案數據的語義關聯網絡呈現出縱橫分布的趨勢。由檔案全宗、類別、案卷、文件四個層級語義關聯建立起的縱向網絡作為檔案數據語義網絡的主線,能夠實現檔案數據的跨級檢索。[8]基于同級檔案數據在內容、背景、結構語義上的同級關聯建立起的橫向網絡能夠通過對基于某一主體的所有相關檔案數據進行整合關聯,全面梳理不同檔案匯集中檔案數據資源之間的相互關聯,構建起全景式的檔案數據語義關聯網絡。同時依據檔案數據的內容、來源機構、所處業務流程和生命周期階段在檔案數據語義組織過程中形成了不同的鏈式關聯,將這些關聯鏈組合起來能夠發現更多語義中心和關系網絡,從而形成非唯一中心的多維關聯網絡。不同層級的任何一個語義單元都能成為語義中心,使檔案數據互組織關聯更加靈活,知識發現圖景更為全面,實現對業務活動全流程的支持。
4 面向現代化的檔案數據治理實踐應用方向
4.1 檔案數據治理賦能檔案信息精準服務。檔案信息精準化服務是一種以用戶為中心的服務模式,數據治理為檔案信息精準化服務提供了基礎支持。檔案館不僅保存著大量檔案數據,在其服務器中也存儲著大量用戶基本數據和行為數據。通過對這些數據進行整合分析,可以有效識別出用戶的大致情況以及興趣需求。在知識挖掘技術的輔助下,挖掘館藏檔案數據中蘊含的隱性知識,將這些知識元進行關聯組合,構建檔案知識庫,實現檔案信息知識與用戶需求的綁定,為用戶提供個性化、精準化的檔案信息服務。同時檔案館還可依據用戶移動設備發出的實時信號,為用戶提供基于場景的信息服務,打造沉浸式的檔案信息服務體驗。通過對用戶需求的精準把握,檔案館能夠有針對性地進行館藏資源建設,規劃檔案信息服務未來發展方向,從而不斷提高檔案館信息服務效能,提升公眾對于檔案信息服務的滿意度。云計算技術在數據管理活動中的普遍應用使檔案信息的一站式服務成為可能。當前,云計算技術已經得到了各地政府的重視,許多城市已建設起了自己的云計算中心,檔案部門作為重要的信息存儲機構,應主動與各類云計算中心開展合作,充分利用云計算技術促進檔案信息的互聯互通。利用政務云平臺實現檔案信息在機構內部縱向層級與橫向部門之間的順暢流通,從而為公眾提供檔案信息的跨區域、跨層級、跨部門查閱利用,用戶借助互聯網即可獲取到自己所需的檔案信息。
4.2 檔案數據治理賦能檔案智庫型服務。在建設中國特色智庫政策背景下,各種信息管理機構都在積極開展智庫建設實踐,檔案館也應把握機遇在館藏檔案數據資源的基礎上,利用數據管理技術積極開展智庫型服務。檔案數據資源所具備的真實性、序列化、前瞻性與公共決策需求具有契合性,且檔案數據資源經過深層次開發能夠提供公共決策所需的外部信息和內部信息,因此檔案數據具備為公共決策提供信息服務的基礎,具有極高的資政價值。檔案知識數據是開展檔案資政服務的基礎和核心,利用跨庫存取、異構數據融合、數據庫整合技術,借助數據挖掘和知識發現采集知識點,能夠有效獲取檔案資政所需的檔案信息資源。資政服務更需要精準的解決方案以及有效的數據成果及觀點,檔案館可以結合政府和企業相關業務活動開展的現實需求,利用數據映射、數據過濾等手段對檔案原始數據進行預處理,構建檔案數據集,并對檔案數據集進行語義化規范定義,進而通過語義互操作、本體映射等技術,實現對檔案數據語義之間映射關系的串聯,挖掘檔案數據資源中蘊含的知識價值以及內容之間的關聯,開展基于檔案數據資源的知識化組織。在此基礎上,利用聚類分析、知識關聯等方法對不同檔案數據資源在內容、特征、屬性等方面所具有的關聯關系進行處理,完成檔案數據的知識重構,形成針對決策需求的各類檔案數據集類型和知識網絡,從而實現檔案數據資源與決策需求的精準契合。最后通過信息挖掘、語義分析等技術,構建檔案知識空間,呈現檔案資源中所蘊含的深層次知識要素,從而為決策者提供專業、系統、智慧的科學決策咨詢服務。[9]例如,江陰市公安局創新實踐檔案數據規模化深挖應用,通過整合海量檔案數據資源,依托智能分析手段深挖數據關聯,賦活檔案數據價值。2020年,江陰公安通過檔案內容溯源,一舉偵破14年前的命案積案;在“團圓”行動中,從本地被拐和走失案件中梳理出發案脈絡和人員信息,近年來已幫助60余個被拐家庭團圓。[10]
4.3 檔案數據治理賦能文化遺產開發保護。古建筑、古遺址等實體文化遺產往往能夠體現一個時代的社會風貌,本身具有很高的歷史價值、藝術價值。但這類遺產也很容易受到破壞,且這種破壞通常具有不可逆性。因此,有必要全面采集這些珍稀古遺產、古建筑的物理數據及空間數據,為其構建完整的數字化檔案。一方面,可以有效實現事前預防。當這些遺產不幸受到破壞時,借助這些事先收集的數字檔案,能夠快速準確地提供相關數據記錄,為文化遺產的評估與事后修復提供支持。[11 ]另一方面,文化遺產的數字化能夠有效平衡保護與傳承之間的矛盾,拓寬文化遺產傳播時空范圍,革新中華優秀傳統文化傳播模式。例如,在河南石窟寺數字化項目中,京西時代的團隊精挑細選河南古建院的古建圖紙,將文物數字化技術與3D建模技術相融合,將建筑文物3D模型拆解為多個組件,通過數字技術將其重新組合,創新性地應用于景區文創產品、虛擬導游、沉浸式體驗等多個場景。這一創新做法不僅展示了古代建筑技術的巧妙應用,更體現了文物IP應用的商業策略與文化責任的完美結合,使文物在數字化的翅膀下,煥發出無窮的藝術、文化和商業潛能。[12]
對于那些可移動的文化遺產,例如歷史檔案、稀有藏品等,其保存面臨著更大的風險。由于其載體通常具有一定的使用年限,隨著時間推移其變得非常脆弱。同時,由于其具有很高的文化價值、經濟價值,也很容易發生失竊事件。在合理規劃下對文化遺產數據進行充分采集和存儲以形成完整的數字檔案,是降低戰爭、偷竊以及自然災害對可移動文化遺產影響的有效方式。日常應該加強對這些文化遺產相關數據的采集與建檔,積極利用這些數據開展文化活動,擴大這些文化數據的流通共享范圍,以避免文化遺產在突發災害或危機中永久性消失。例如,由故宮博物院和北京觀唐大有文化創意有限公司共同打造的“行走的故宮文化——故宮《石渠寶笈》繪畫數字科技展”,以故宮《石渠寶笈》為主線,將傳統書畫作品與數字技術融合,通過采用MR混合顯示技術、AI智能人臉識別等數字科技手段,按畫作內容分類的邏輯打造了“觀山、賞花、浴馬、入宴”等主題數字體驗區,打破文化、藝術、科技界限對經典畫作進行創意詮釋,將名家畫作意境轉變為美輪美奐的感映空間,實現“實物畫作”“數字影像”“互動科技”的完美結合,呈現從虛到實,循序漸進的觀展體驗,讓觀眾沉浸在中國傳世名畫的意境之中,與古人進行一場超越時空的文化對話體驗。[13]
5 結語
數據作為一種全新的生產要素,正深刻影響著社會生活的各個層面,而檔案數據作為其中最具權威性和憑證性的原始信息,對國家、社會各項事業發展有著更大價值,當前推進檔案數據治理意義重大。未來,檔案部門應緊跟國家現代化建設發展要求,在日常工作中厚植數據觀念,借助數智技術不斷挖掘檔案數據價值,積極與數據管理部門、政府信息部門之間展開合作,主動思考檔案部門如何在國家總體數據治理活動中重塑擴展機構職能,充分發揮檔案數據在公共信息服務、政府決策輔助、數字文化建設中的重要作用。在融入國家總體數據治理活動的過程中不斷提升檔案數據治理能力,進而助推我國檔案事業實現跨越式發展。