摘要:隨著數據要素價值的社會共識不斷加強,人工智能對高質量、大規模數據需求的凸顯,數據概念和數據工作不斷發展,促使檔案界從數據的視角來思考檔案資源建設問題。論文從需求升級、結構擴張、內容拓展三個方面分析了數智轉型背景下檔案數據資源體系建設的整體性變化。即檔案資源體系由檔案數字資源體系向檔案數據資源體系轉變,其結構由檔案原文數據向衍生檔案數據資源擴展,其建設內容在收集保管的基礎上新增數據生產和數據治理,由此形成新的實踐空間和研究空間。
關鍵詞:檔案資源體系 檔案數據化 數據生產 數據治理 數智轉型
Abstract: The societal consensus on the val? ue of data elements continues to strengthen, and the increasing demand for high- quality, large- scale data by artificial intelligence, along with the ongoing development of data concept and data work, have led the archival community to think about archival resources system from a data perspective. This article analyzes the issues related to the overall changes of the archival data resources system in the context of digital-intelli? gent transformation from three aspects: demand upgrade, structural transformation, and content expansion. Specifically, the archival resources system is transforming from a digit-oriented dig? itsystem to a data-oriented system, and its struc? ture is expanding from original data to derivative data. Data production and data governance are standing out in the process of the construction of the archival data resources system besides collection and custody, thereby creating new practical and research spaces.
Keywords: Archival resources system;Archi? val datafication;Data production;Data governance; Digital-Intelligent transformation
檔案資源體系建設是檔案事業的基石,因而也是我國檔案事業的政策部署和實踐開展的關鍵內容。隨著信息化工作的推進,檔案資源體系建設不斷推進數字化轉型。首部全國檔案信息化工作專項規劃《全國檔案信息化建設實施綱要》將“目錄數據庫建設”“機讀目錄移交”“檔案全文數據庫和多媒體數據庫建設”“電子文件歸檔”“電子檔案接收、保管、利用”“檔案數字化”作為信息化背景下檔案資源建設的主要任務。[1]這奠定了數字時代檔案資源體系建設的基本格局,即將數字形式的檔案原文、檔案目錄及其數據庫作為建設對象,將移交接收、保管利用作為建設環節。隨著“利用體系”概念的興起,利用逐漸從檔案資源體系建設任務中剝離,收集保管成為其核心內容,“存量數字化”和“增量電子化”成為數字檔案資源建設的代表性表述。《“十四五”全國檔案事業發展規劃》要求“加快檔案資源數字轉型。加強國家檔案數字資源規劃管理,逐步建立以檔案數字資源為主導的檔案資源體系。大力推進‘增量電子化’……繼續做好‘存量數字化’”[2]。這意味著從21世紀第3個10年開始,檔案數字資源將是檔案資源的主要構成。
恰好就在這個時期,人類社會進入數智轉型驅動新質生產力發展的新階段。數據要素價值的社會共識不斷加強,人工智能對高質量、大規模數據需求的凸顯,數據概念和數據工作不斷發展,促使檔案界從數據的視角來審視檔案資源和檔案數字資源。檔案數據概念興起,相關研究比重不斷加大。在此語境下,檔案資源體系數字化轉型即檔案數據資源體系的建設。從檔案資源體系到檔案數字資源體系,再到檔案數據資源體系,并非僅僅是適應當下形勢的、簡單的概念替換,而是意味著檔案資源體系視角的轉變、構成的變革及建設環節的拓展。馮澤宇等[3]提出構建“制度、組織、業務、技術、人才”五位一體的檔案數據資源體系建設策略;丁家友等[4]提出動態平衡的檔案數據資源生態要素、多主體協同的檔案內容服務、多源異構檔案數據共享等檔案數據資源生態圈構建維度;金培中等[5]分享了嘉興市檔案館數據資源建設的成果。但是,尚未有研究對檔案資源體系建設整體變革加以體系化梳理和方向性建構。本文從檔案數據資源體系建設需求變化入手,闡述數智化演進過程中其結構變化和建設內容的拓展。
《“十四五”全國檔案事業發展規劃》中所明確的檔案資源體系的主導——檔案數字資源是《中華人民共和國檔案法》中的概念,根據權威釋義,檔案數字資源是對“電子檔案、傳統載體檔案數字化成果以及其他具有檔案屬性或檔案價值的數字資源的統稱”[6],該概念側重強調檔案作為數字形式的數據資源的全面覆蓋性。而檔案行業標準《檔案數字資源備份實施規范》(DA/T 99—2024)則指出,檔案數字資源是“以數字形式存在的各類檔案信息資源,包括電子檔案及其元數據、檔案目錄數據、傳統載體檔案數字化成果等”[7],該概念則強調數字形式的檔案及其元數據、目錄數據。
檔案數據資源是從數據視角對檔案數字資源概念的豐富、深化和發展。我們當然可以顧名思義地理解為由檔案數據構成的資源體系。鑒于學界和業界現有多種關于“檔案數據”的理解,其邊界寬窄不同,既有將其界定為數字檔案(包含原生性電子文件和檔案數字化成果)及元數據和目錄,也有將其描述為檔案數據化的結果,還可能包括檔案管理業務的數據。[8]面對數智轉型時代背景下國民經濟和社會發展對數據資源質量和規模的迫切需求,本文提倡立足資源定位,即以檔案資源為基礎,盡可能包容地來建構檔案數據和檔案數據資源體系的概念。檔案數據資源體系是指通過采集、整合、加工等方式所構建起來的檔案及其衍生、關聯數據的有機整體,其體系性不僅表現在多種類型的數字檔案上,也表現在由數字檔案衍生、與數字檔案關聯的其他數據上,包括元數據(目錄)、檔案數據化結果、相關數據等。
從檔案資源體系到檔案數據資源體系的概念轉變,是實施數字中國戰略的需要。2023年2月,中共中央、國務院聯合頒布《數字中國建設整體布局規劃》,[9]數據資源體系成為數字中國的兩大基礎之一。雖然廣義的數據是任何形式的信息記錄,[10]但作為在數字時代不斷加強的概念,數據自帶數字屬性,在數字空間,數據通常是數字數據的代名詞。檔案是經過選擇的、有保存價值的業務信息記錄,具有真實性、關聯性和不可再生性,因而也是重要的、法定的數據類型。從數據的視角來看,數字空間中的檔案資源體系是無可爭議的檔案數據資源體系,因而也是數字中國數據底座重要的構成。
從檔案資源體系到檔案數據資源體系的概念轉變,也是激活檔案數據要素價值的需要。中國是最早提出數據要素的國家,2019年10月,黨的十九屆四中全會首次將數據納入生產要素范疇,《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》《中共中央國務院關于構建數據基礎制度更好發揮數據要素作用的意見》《“數據要素×”三年行動計劃(2024—2026年)》等數據政策相繼出臺,通過數據資源流通應用發揮其經濟價值的政策路線非常堅定。檔案界也掀起檔案數據要素研究的熱潮。[11]人工智能技術的發展進一步激發了檔案數據價值的潛能。數智轉型不斷發展形勢下,要求更多從價值實現的角度推動檔案數據資源體系的建設。
如果說傳統環境下檔案資源體系的構成主要是“檔案+目錄”,數字環境下檔案資源體系的構成變為“原文數據庫+目錄數據庫”,到了數據作為人工智能重要燃料和產出內容的數智時代,檔案數據資源體系的構成不應止步于此,而要在面向業務場景發揮檔案數據價值觀念的引導下不斷豐富資源體系構成。在橫向上,在“應歸盡歸,應收盡收”的工作導向下不斷優化資源結構,同時加強對其他信息記錄、文獻數據的主動收集;在縱向上,伴隨“存量數字化”和“增量電子化”的不斷推進,以獲得可供計算機理解、分析和計算的數據為目標的檔案數據化不斷深入,面向新一代用戶的檔案數據產品不斷發展,檔案數據資源體系以原文數據及其描述性數據為基礎,通過加工處理不斷衍生,擴展至包括多維標簽、知識單元、檔案信息產品等多層次資源在內的復雜體系。
(一)檔案數據資源體系的構成
檔案數據資源體系的構成如圖1所示。該圖左側反映的是檔案數據資源體系建設初級階段的構成,右側則揭示檔案數據資源體系建設高級階段的構成,其包含的資源類型并無明顯變化,改變的是各類數據資源的占比。在初級階段,原始檔案數據資源占比最高,而隨著檔案數據資源體系建設的推進,經衍生、加工形成的檔案數據不斷增多,體現了檔案領域對數據資源建設的主動作為。
完整的檔案數據資源體系構成包括四類資源。
一是原始檔案數據,這是資源體系的基座。其主體是數字檔案,即作為檔案的數字數據,包括原生性電子文件和傳統載體檔案的數字化成果,以及伴隨數字檔案一起接收的、描述數字檔案的元數據(目錄)、說明文檔等數據。
二是外聯數據,是指與原始檔案數據相關聯的數據資源。這類數據包括但不限于文獻、標準、互聯網數據等信息。外聯數據是否收集,主要視數據查詢利用和產品開發的需要。
三是衍生檔案數據,是由原始檔案數據經過數據化、知識化加工而來的產物。這類數據包括但不限于對檔案資源進行轉錄識別、模態轉換后的數據,如文字識別、聲音識別的結果,圖像識別的標注;增強描述的標簽;原始文檔解構后產生的關于文檔主題(如人、事、時、地、物等)、特征、式樣等知識單元,“實體—屬性—值”三元組是其經典表現;由知識單元關聯形成的知識圖譜等;還包括數據庫、專題庫、知識庫、向量庫等各類組織有序的數據集合。
四是檔案數據產品,是指按照用戶需求和應用場景需要,對原始、衍生、外聯數據進行整合開發并提供應用的數據資源。比如數據集、數字出版物、數字展陳、數字游戲等多類型內容產品及與服務集成在一起的多渠道服務產品等。
(二)檔案數據資源體系的特性
檔案數據資源體系具有以下四個特性。
一是層次性。檔案數據資源體系具有多層次的結構,從基礎性的原始檔案數據,拓展性的外聯數據,到細顆粒度、高集合度的衍生檔案數據,再到多樣化的檔案數據產品,檔案數據資源體系內容不斷豐富,其建設也是一個逐步深化和擴展的過程,在此過程中,檔案數據資源的價值得以提升。
二是開放性。檔案數據資源體系并非封閉的,一方面,它能接納多種外部來源數據的不斷融入,歸檔、移交、采集、征集等檔案收集工作的正常開展是檔案數據資源體系開放性的基本保證。隨著文件歸檔、檔案移交接收政策的完善,檔案管理系統對接業務系統能力的加強,檔案資源的種類不斷豐富,如多地檔案館加強對民生相關的專業檔案的收集和音視頻資料的采集。另一方面,它能結合當下技術的應用輸出多種形式、形態的數據和數據產品。如某企業利用人工智能技術對特定公文進行結構分解,形成知識庫,以開展此類公文作者群體、主題分布的分析。

三是關聯性。不同層級的檔案數據資源并非孤立存在,檔案之間、檔案及其描述數據之間,檔案及其加工數據之間具有緊密的內在聯系。檔案數據資源建設的一項重要的任務就是揭示并序化檔案聯系,通過檔案分類、專題匯聚、關聯數據、知識圖譜、數字敘事等方式呈現關聯。
四是生長性。檔案數據資源體系的生長性是其開放性和關聯性的結果。隨著檔案資源的增加、數據化程度的加深,數據關聯的挖掘及業務需求、利用方式的改變,檔案數據資源體系持續擴展和演變。
數智轉型對檔案數據資源體系提出了構成更為豐富、質量和規模相匹配的建設要求,檔案界需在“掌握檔案數據形成機理、流轉規律與演化趨勢的基礎上……重構檔案數據‘收管存用’的業務環節與方法模式”,重組檔案數據管理流程。[12]在2024檔案數據產教融合大會暨第十四屆中國電子文件管理論壇上,《檔案管理》期刊主編劉永教授用“從收、存、用到生、治、慧”形容檔案管理關鍵環節的變化。其中“生”即生產,“治”即治理,“慧”即智慧服務。在收集保管的基礎上,檔案數據資源體系建設的工作內容新增數據生產和數據治理,由此形成新的實踐空間和研究空間。
(一)面向數據要素的檔案數據生產
圖1所示的檔案數據資源體系構成中,自下而上不同類型檔案數據資源之間的內在邏輯,已經彰顯了數據生產任務的必要性。這意味著在從外部收集檔案之余,檔案部門作為數據生產者,由收集而來的檔案數據加工生產出更多的檔案數據,將成為數智時代掌握檔案數據資源的另一條途徑。
數據已經成為繼土地、勞動力、資本、技術之后的第五大生產要素。但數據并非天然成為生產要素,必須經過加工使其具有使用價值并與業務場景相銜接的“要素化”過程。清華大學金融科技研究院院長廖理認為數據要素化包括將“原始數據加工成機器可讀的,具備投入生產使用條件的生產數據”和“讓數據可以通過流通進入到社會化大生產中”兩個過程。[13]在檔案學語境中,能夠將其落實為“可機用”和“可流通”兩個方面,前者泛指將原始數據轉化為機器可以識讀、理解和分析的衍生數據,加工成業務和用戶需要的產品數據;后者包括檔案數據開放、共享、授權運營、交易、服務等若干檔案利用體系建設的任務。由此可見,保證檔案數據“可機用”是面向數據要素價值實現的檔案數據資源體系建設任務,具體可包括數字化、數據化、知識化、語料化、產品化等工作內容。其要點如表1所示。
1.數字化:生產機器可讀數據。數字化是將傳統載體檔案轉化為數字數據的過程。數字化是檔案數據的初級生產。數字化的時機可能在歸檔、移交之前,也可能在接收檔案之后,無論何種情況,均需要保證數字化成果的質量,技術指標符合相關規定,檔案原文與目錄之間能夠準確掛接,避免因精度不夠、掛接不明、著錄不準等問題出現二次加工的情況。

2.數據化:生產機器可算數據。數據化是對非結構化檔案原文進行加工處理,將文檔轉變為機器可識別、可分析、可計算的數據的過程,完整的數據化工作包括轉錄識別、描述增強、關聯構建和矢量處理等環節。[14]數據化是面向人機協同利用的數據結構化和粒度細化,是數智轉型背景下檔案數據生產的核心環節。當下階段檔案界強調的數據化工作以轉錄識別和描述增強為主。其中轉錄識別是將文檔的內容數據變為機器可操作的數據,比如通過光學字符識別技術將掃描后的紙質檔案圖像轉換為文本數據,以提高檔案內容數據的可訪問性和可搜索性。描述增強是對檔案及其內容進行標注的工作,可以通過自然語言處理技術、大語言模型等技術對檔案內容進行語義分析和標注,形成富語義描述數據庫和標注數據集。
3.知識化:生產新知識。知識化是對檔案數據資源進行整合、分析的基礎上,面向用戶形成不同于原始數據新的知識發現的過程。知識化是對檔案、檔案內容、元數據、檔案標注數據之間關聯加以揭示的過程,也可以被理解為構建檔案數據之間多維關聯的工作,是檔案數據生產的高階環節。其覆蓋面較廣,既包括相對傳統的檔案分類、聚類,生成分類索引、專題數據庫等;也包括基于細粒度數據的知識關聯構建,如關聯數據、語義網、知識圖譜、知識網絡等。在知識關聯構建中,本體、詞表、知識圖譜是信息資源管理領域知識化的常規方法,主要過程包括本體建模、詞表構建、實體識別、關系抽取、圖譜呈現等,在干部人事檔案[15]、家譜檔案[16]、地質資料[17]等多類型資源中得到實證應用。知識化的過程雖然是人機協同的,但知識化的結果最終是為人服務的。
4.語料化:構建數據集。語料化是將檔案數據作為人工智能算法模型開發原料加以匯集處理的過程。面對不同類型的、不同階段的模型訓練和測試任務,可提供的語料包括多模態檔案原文及其元數據、標注數據、檔案知識單元等。語料化不僅僅是檔案數據的簡單收集,也涉及檔案數據的深度加工,從而生產出能夠直接支持機器學習和人工智能應用的高質量數據集。語料化是人工智能應用這一特定場景下的檔案數據生產,是對數字化、數據化、知識化成果的綜合應用,可視作一種特定用途的產品化。語料集可以免費公開,也可以上市交易,前者如美國國家檔案與文件署在開放數據網站上公布了50個數據集;[18]后者如我國2023年7月上海數據交易所正式上線語料庫,3個月后語料數據集達218個,占比高達86.5%。[19]
5.產品化:開發用戶所需數據。產品化是在綜合應用各類原始、關聯和衍生檔案數據的基礎上,形成滿足用戶需求的最終產品的過程。如果說語料化是面向人工智能用戶的產品化,那么一般的檔案數據產品化則以人類用戶需求的滿足為目標。數智時代下的檔案數據產品開發,依托的是經過數字化、數據化、知識化等步驟加工處理后的顆粒度更細、數據體量更大、知識關聯更強的數據成果,故而可以突破編研、展覽等傳統檔案開發的局限,產出更具文化內涵、科技屬性和經濟價值的產品,產出更具交互性、沉浸感、趣味性,更加適應網絡原住民使用習慣的新型數據產品。如上海市檔案館推出“跟著檔案觀上海”數字人文平臺,以50多個上海地標為基點,將記錄相關建筑、人物、事件的千余份檔案文獻建立時空關聯,反映城市發展的變遷。[20]南京市檔案館和南京大數據集團合作南京云錦、南京金箔兩大類非遺檔案專題數據庫,率先在國內開展非遺檔案數據資產轉化試點。[21]
(二)面向數據質量的檔案數據治理
隨著檔案數據資源數量、類型的不斷增加,原始檔案數據之外的檔案數據類型的豐富,檔案數據資源的規模劇增,將引發海量檔案數據的治理問題。這里的治理不僅是對接收檔案的質量把關,對數字檔案長期保存過程的風險防范,更是圍繞著多類型檔案數據的真實性、完整性、可用性、安全性、一致性、規范性等綜合質量目標開展的一系列管控活動。數據治理旨在實現檔案數據質量和規模的同步發展。
檔案數據治理是近幾年檔案學界關注較多的研究領域。相關研究集中在宏觀的檔案數據治理內涵、檔案數據治理體系[22]、檔案數據治理能力體系[23]等方面,亦關注具體的檔案數據治理策略問題,包括完善檔案數據治理的制度框架,健全檔案數據治理的組織架構,創新檔案數據治理的參與機制,優化檔案數據治理的方法體系[24],注重元數據管理工具、區塊鏈技術[25]等治理技術的應用[26]等。本文則立足檔案數據資源體系建設者的角度,參照國際數據協會的數據治理框架,闡述檔案數據資源體系治理工作的框架和內容,以建立對該項工作的完整認識,涉及檔案數據資源建設戰略、治理架構以及治理活動三個層面,如圖2所示。三個層面的數據治理相互銜接,互為支撐。

1.明確檔案數據資源體系建設戰略。戰略是根據選擇和決策的集合繪制出一個高層次的行動方案,以實現高層的目標。與在檔案領域內部的火熱推行相比,檔案數據在政府數據治理、公共數據治理、企業數據治理等領域則面臨邊緣化的風險。與金融、醫療等數據密集型行業相比,檔案數據在數據驅動的決策和創新中的作用尚未得到廣泛認可。在國家和地方相關數據法規政策中,檔案數據也表現出不同程度地被“忽略”問題。檔案數據資源因其真實可信在數據資源體系中具有獨特的價值,一定規模的檔案數據補充能夠有效擴展數據要素池,提升數據整體質量。面向數智時代發展的新要求,檔案部門需要實現從數據保管者向數據生產者的角色擴展,兼顧數據要素可機讀、可流通、可確權、可計量等要求和檔案的特有屬性及工作邏輯,從整體全局的高度審視檔案數據治理的重要性和必要性。一方面,聚焦檔案資源體系建設的關鍵問題,對接國家戰略需求、地方和行業的發展重點,制定數據資源體系建設的規劃,明確數據治理目標和主要任務;另一方面,通過內外協作,將檔案數據資源體系建設切實納入國家、地方和行業數據資源體系建設、數據要素化的政策和實踐中,積極加入數字化轉型、人工智能應用試點、數據資產評估、公共文化服務等相關工作中,通過項目推動和帶動檔案數據資源體系建設。
2.建立檔案數據治理架構。治理架構確立檔案數據資源建設的組織、標準和技術等核心要素,從而形成數據治理的基本格局。具體工作內容包括:其一,明確檔案數據治理部門、人員及其職責分工。數據治理不是一個單獨的流程性環節,而是面向檔案全生命周期,覆蓋所有檔案數據資源類型,因此需要數據治理一方面要有高層領導直接負責,另一方面需要數據收集、生產、保存、服務等各部門的職責分擔和工作協同。其二,制定數據治理的相關標準。檔案部門需要深入理解所藏檔案數據資源的特性,掌握檔案管理環節、應用場景、訪問權限等方面的治理需求,制定覆蓋檔案數據治理標準規范,細化檔案數據收集、生產、保存、利用方面的具體流程與操作要求,明確數據質量管理、元數據管理、分級分類、數據安全合規等方面的規范細則。其三,明確檔案數據治理的技術路徑,涉及技術選型、系統接口、數據庫設計等方面,涵蓋一致性檢查、格式遷移、區塊鏈存證、數據脫敏等技術應用。實際開展工作中,為了一項數據治理任務,可能會同時選擇兩個以上的治理方案,比如采用多個廠商的OCR工具開展數據校核。其四,開展檔案數據治理評估和改進。定期評估數據質量、系統性能、用戶滿意度等檔案數據治理效果,識別檔案數據治理中可能存在數據錯誤、數據冗余、訪問延遲、安全漏洞等問題,調整檔案數據治理的策略和流程,以解決存在的問題。
3.開展檔案數據治理活動。數據質量管理、元數據管理、分級分類、安全保障、合規保障等治理活動是基礎性、通用性數據治理活動,檔案數據治理的相關工作需結合檔案資源、檔案工作的特點和實際情況展開,確保檔案數據保持高質量和可訪問。在數據質量管理方面,需要在真實性、完整性、可用性和安全性的基礎上,針對檔案數據資源體系規模大、層級多、類型繁的特點,增加數據一致性、準確性、規范性等數據質量目標,實施嚴格的數據質量控制流程,定期開展數據質量審計,確保檔案數據資源體系在兼具檔案與數據雙重屬性的同時,滿足其雙重質量要求,從而發揮雙重價值。在元數據管理方面,需要開發和維護一個全面的元數據框架,為各類檔案數據提供包括來源、內容、格式、日期等在內的詳細描述,并利用元數據提高檔案數據的可發現性、可檢索性和可理解性,支持有效的檔案數據管理和利用。在分級分類方面,需要確保分類系統與機構內外的安全政策和法規要求相一致,根據檔案數據的重要性、敏感性和使用頻率對其進行分級分類,以便實施差異化的管理和開發。安全合規是每個機構開展數據治理的底線保障,檔案數據治理也不例外。檔案內容涉密涉敏情況較為普遍,檔案開放審核工作難度較大,檔案利用服務受到一定的限制,由檔案數據化、知識化、語料化、產品化之后的成果數據,也需規制其使用范圍、使用條件,并采取數據脫敏、數據摘錄等技術規避涉密數據、敏感數據的使用。
檔案數據資源體系是數據視角下檔案資源體系的深化發展。本文從檔案數據資源體系建設需求變化入手,對檔案資源體系建設整體變革加以體系化梳理和方向性建構。數智轉型的時代發展提出了從檔案數字資源體系向檔案數據資源體系升級的需求,其結構正在經歷從檔案原文數據到衍生檔案數據的擴展,其建設則面臨從收集保管到生產治理的內容拓展。由此可見,檔案與數據屬性的碰撞與統合給檔案數據資源體系建設帶來廣闊空間。
但與此同時,檔案工作具有鮮明的內向型特征,多在遵守保密屬性與安全意識的前提下從供給端對檔案數據進行可信管理;數據要素化則具有顯著的外向性,強調以用戶為中心從需求端對數據資源進行利用和復用。[27]檔案與數據交融也面臨發展難題,本文對這些難題并未深入展開,如外聯數據捕獲范圍如何確定;在人工智能不斷發展、用戶需求不斷提級的背景下,數據化、知識化、語料化等檔案數據生產方式方法如何升級;檔案數據治理如何融合數據治理和檔案治理的思維和方法等。在面向數智轉型的檔案數據資源體系建設發展中,上述問題尚需進一步探索與應對。
*本文系國家社科重大項目“新一代人工智能背景下的計算檔案學研究”(項目編號:24ZD326)的階段性研究成果。
注釋及參考文獻:
[1]國家檔案局中央檔案館.全國檔案信息化建設實施綱要[EB/OL].(2002-11-25)[2024-12-02].https:// www.saac.gov.cn/zt/2010-03/18/content_3205.htm.
[2]中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL].(2021- 06- 09) [2024- 12- 02] .https://www.saac.gov.cn/daj/ toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[3]馮澤宇,郭若涵,徐擁軍.“檔案數據化”與“數據檔案化”雙向融合視角下的檔案數據資源體系建設[J].浙江檔案,2024(7):24-29.
[4]丁家友,周涵瀟.數字敘事視域下檔案內容管理的發展趨勢——檔案數據資源生態圈的構建探索[J].檔案學研究,2022(6):80-85.
[5]金培中,慈波.強化檔案數據資源治理提升檔案公共服務效能——以嘉興市檔案館為例[J].浙江檔案,2023(12):16-17;20.
[6]袁杰.中華人民共和國檔案法釋義[M].北京:中國民主法制出版社,2020:86.
[7]中華人民共和國國家檔案局.檔案數字資源備份實施規范:DA/T 99—2024[S/OL].(2024- 10- 14)[2024-12-02]. https : // www.saac.gov.cn/daj/hybz/ 202410/79d6bc3062a944ca815b384336a7f2f8.shtml.
[8]何思源,劉珂.檔案與數據關系的多維解析——兼論檔案數據的概念定位[J].檔案學通訊,2024(1):37-44.
[9]新華社.中共中央國務院印發《數字中國建設整體布局規劃》[EB/OL].(2023- 02- 27) [2024- 12- 02].https://www.gov.cn/ zhengce/2023-02/27/content_5743484.htm.
[10]第十三屆全國人民代表大會常務委員會.中華人民共和國數據安全法[EB/OL].(2021-06-10)[2024-12-02].http://www. npc.gov.cn/c2/c30834/202106/t20210610_311888.html.
[11]趙躍,李琪,王月.關于檔案數據要素若干基本問題的思考[J].檔案與建設,2024(5):3-11.
[12]金波,楊鵬.檔案數據治理賦能的思維意象與行動具象[J].檔案學研究,2024(3):4-12.
[13]清華大學金融科技研究院.數據要素化100問:可控可計量與流通交易[M].北京:人民日報出版社,2022:序6-7.
[14]楊建梁,劉越男,祁天嬌.文檔數據化:概念、框架與方法[J].中國圖書館學報,2022,48(3):63-78.
[15]周娟娟,李澤鋒,劉竟一.基于知識圖譜的干部人事檔案知識化服務研究[J].檔案管理,2021(6):87-89.
[16]朱蘭蘭,霍婕,高玉婷.館藏家譜文獻知識化開發:價值、主體與過程[J].數字圖書館論壇,2023,19(11):38-45.
[17]廉永海,王斌,胡瑞斌,等.成果地質資料知識化方法初探[J].中國礦業,2023,32(6):175-182.
[18] 50 datasets found [EB/OL]. [2024-12-22]. https://catalog.data.gov/organization/nara-gov.
[19]袁炯賢,紀依.語料含“原材料”和“半成品”要讓大模型“吃”得下能“消化”[EB/OL].(2024- 11- 29) [2024- 12- 22]. https:// www.163.com/dy/article/JI58DGO905129QAF.html.
[20]周程祎.“跟著檔案觀上海”,走進城市歷史“元宇宙”[EB/OL].(2024-06-14)[2024-12-22].https:// www.workercn.cn/c/2023-06-14/7876245.shtml.
[21]徐光平,呂永明.市檔案館率先在國內開展非遺檔案數據資產轉化試點[EB/OL].(2024- 11- 29) [2024- 12- 22]. https:// www.163.com/dy/article/JI58DGO905129QAF.html.
[22]金波,楊鵬.大數據時代檔案數據治理研究[J].檔案學研究,2020(4):29-37.
[23]楊智勇,謝雨欣.面向善治的檔案數據治理能力體系構建[J].檔案與建設,2022(2):9-13.
[24]常大偉,潘娜.檔案數據治理能力的結構體系與建設路徑[J].浙江檔案,2020(2):27-29.
[25]周林興,林凱.大數據時代檔案數據質量治理:因素、框架和路徑[J].檔案學研究,2023(2):111-119.
[26]胡曉慶.信息生命周期理論視角下的檔案數據治理策略研究[J].山西檔案,2020(6):58-61.
[27]許曉彤,張嘉瑋,李照川.檔案數據要素化的歷史源流、關鍵問題與價值空間[J].檔案與建設,2024(5):12-21.
作者單位:1.中國人民大學信息資源管理學院2.中國人民大學電子文件管理研究中心3.多模態檔案保護與開發國家檔案局重點實驗室