人工智能生成合成內容的可信存檔策略研究基于對電子檔案“四性”的思考

2025-05-29 00:00:00王玉玉樊靜雅溫翰英

北京檔案 2025年4期

Abstract：The widespread application of generative artificial intelligence has triggered profound changes worldwide，and more collaborative records between humans and intelligence havebecomeanew source ofarchives.The traditional four characteristics of electronic archives are no longer sufficient to meet the requirements for their trustworthy management.Based on the changes in the formation subject and generation logic of archival records in the new context，this article explores the challenges brought bythe inclusion of artificial intelligence generated content （AlGC）within the scope of archives. Furthermore， the research analyzes the connotation changesof the\"four characteristics\"ofelectronic archives，including authenticity，integrity， availability，andsecurity，in theera ofartificial intelligence.In orderto meetthe trustworthy management needs，the research proposes threeresponse approaches：extending the control chain， emphasizing information disclosure，and applying technological means.

Keywords：Artificial intelligence；Electronic archives； Four characteristics testing； Archival management

“數字技術正以新理念、新業態、新模式全面融入人類經濟、政治、文化、社會、生態文明建設各領域和全過程。\"自21世紀10年代以來，人工智能生成內容（ArtificiallntelligenceGeneratedContent，AlGC）進入快速發展階段2，根據《生成式AI：一個創造性的新世界》（Generative Al：A Creative NewWorld）的分析，AIGC有潛力產生數萬億美元的經濟價值。以ChatGPT、Gemini、Kimi、文心一言、通義千問、DeepSeek等為代表的國內外生成式人工智能技術，已經從自然語言生成、圖像生成與加強、音視頻合成、模型設計與構建等多個方面，深度參與人類社會記錄的生成，其中不乏具有長期保存價值、應當被歸檔的內容，《“十四五\"全國檔案事業發展規劃》也高度重視檔案信息化建設與管理現代化，提出要\"加強大數據、人工智能等新一代信息技術在數字檔案館（室）建設中的應用\"4。歸檔范疇的擴大對檔案事業的發展提出了新的問題：人工智能生成合成內容與人類所形成的內容相比，生成邏輯存在顯著差異、證據效力保障鏈條更加復雜，傳統的電子檔案“四性”已難以涵蓋對其可信的要求。應當如何保障此類內容在法律、管理與技術上的合法性、有效性與可信性，也亟須區別于傳統語境的討論。

國內外學者一方面圍繞人工智能生成合成內容的法律效力進行廣泛探索，辨析AIGC的可版權性與權利歸屬，并在能否取得證據地位上，針對此類內容提出新的適用效力因素與審查規則；另一方面，也對人工智能生成合成內容的可信程度進行多維思考，確立合規性、公平性、可追溯性、可問責性°與安全性1等關鍵可信指標，并在管理與技術層面，提出明確人工智能開發與使用的風險責任主體12、建立包容審慎監管機制13、通過混合技術檢測AI生成文本4等措施，以進行切實可信保障。然而，以上研究多數集中于通用領域，雖然已有檔案學者關注到人工智能生成合成內容檔案身份的認定存在風險[1、傳統鑒定理論難以適應人工智能生成合成內容的可信需求，但研究數量相對較少，且多聚焦于理論層面的廣泛性概念辨析，尚未就電子檔案“四性”的評估與保障對人工智能生成合成內容進行針對性、具體性的深入探討。

人工智能深度應用的背景下，檔案業務場景相較以往更加復雜，傳統的電子檔案“四性”已難以適應當前的需求，亟須管理范式的變革。因此，本文從人工智能生成合成內容的可信困境出發，探討在此語境下由人工智能參與構建的電子檔案“四性\"內涵的延展，并分別從制度與技術層面，提出具體的保障措施，以期為全球技術革命背景下，人工智能生成合成內容的歸檔管理提供一定的參考與借鑒。

一、新挑戰一人工智能生成合成內容作為檔案記錄的可信管理需求

DeepSeek等生成式人工智能一經推出便得到廣泛應用，以新主體的身份介入文件生成的最前端，并進一步地滲入檔案領域。然而，不同于人類，生成式人工智能主要依托對海量數據集的深度學習及訓練，能夠在相對較短時間內迅速掌握并輸出大量知識，其合成內容相較于傳統情境下人工生成的內容，表現出同數據集顯著關聯、形成邏輯難以解釋，以及同質性與規律性現象凸顯的特征。在此背景下，人工智能生成合成內容相較傳統人工生成的內容，在真實性、情感性與公正性等方面，都存在著更多不可信因素。當此類內容進入檔案范疇時，由于形成主體與形成邏輯的變遷，其“四性\"的概念也對應地發生變化與延展。[17]

首先，需要監督的行為主體擴充到“人工智能”這一新的對象。在人工智能出現之前的傳統語境下，電子檔案“四性”檢測的核心在于人類在創建記錄時的行為真實可靠，并在其運行過程中無非法的人為篡改行為。然而，生成式人工智能的參與意味著新主體的出現：由于算法能夠基于對數據集的學習自主輸出內容，且具體運作邏輯超出人類直接理解與解釋范圍，人工智能同樣具備自主對原始記錄進行“加工或修改”的可能性，其行為的合規性與正當性，同樣是保障可信性不可或缺的一環。因此，在生成式人工智能參與的語境下，檔案可信保障的核心應擴充為“禁止非法干擾檔案記錄的人類行為與人工智能行為”。其次，對人類主體行為的要求也被進一步延展。新語境下同時存在“人\"與“人工智能”兩類主體，在設計電子檔案“四性\"檢測內容時，還需將主體之間的相互作用納入考慮范疇，充分考慮人類通過作用于另一主體（即人工智能）來間接干擾檔案記錄的可能性。具體而言，由于人工智能技術的應用，人類還可以通過控制訓練數據集、調整算法規則等間接控制輸出內容。因此，對于此類記錄而言，電子檔案的合法有效意味著既要求禁止直接的人類非法篡改，也要求禁止以上間接的非法篡改。

然而，人工智能的行為是否可信在傳統檔案管理模式下難以直接判斷。由于算法的復雜性，生成式人工智能底層深度學習模型通常具有非線性、多層次的特征。這會導致模型信息處理與決策制定的具體過程表現出顯著的不可解釋性，其內部參數的微調和權重的分配機制難以通過人類可直觀理解的邏輯路徑進行追溯，即所謂的“黑箱\"特征。例如，由于決策依據和過程的不可見，而檔案的本質屬性“原始記錄性\"強調檔案在生成之后便未經非法篡改，當檔案的描述權與解釋權被部分移交至這種不可解釋的算法決策時，在傳統的檔案管理流程下，人工智能是否在此過程中對檔案數據進行非法處理無從得知，原本嚴密的證據效力保障鏈條便可能遭遇斷裂。

另一方面，在人工智能深度介入下的人類新行為是否可信，在現有流程下同樣難以評估。人工智能這一新主體的出現，使得人類影響檔案內容的可能途徑在數量上顯著增加，在形式上更加難以察覺。具體而言，算法的開發團隊是否有傾向性，服務提供商是否保障人工智能服務的合法性，以及用戶在使用過程中的操作流程是否符合既定規范等，都會直接或間接對內容的形成過程與結果產生影響，如人工智能系統通常由特定背景的開發者設計和訓練，或基于特定領域的樣本數據集進行迭代1，在男性占據開發團隊主導地位的背景下，亞馬遜的AI招聘系統就對女性候選人有明顯歧視現象[19]。這種對開發團隊、服務提供商與用戶行為的考察實際上已經涉及計算機科學、數據科學等其他領域，在當前檔案工作管理的范疇下，評估、查證難度較大。

當前，國內外針對生成式人工智能的可信管理，已經有了一系列的探索。在生成式人工智能可信評估規范上，歐盟《人工智能法案》《可信賴的人工智能道德準則》、我國《人工智能安全治理框架》《生成式人工智能服務管理暫行辦法》英國《支持創新的人工智能監管方式》、美國《美國人工智能倡議》、意大利《人工智能戰略》、日本《關于AI的初步討論》等國內外政策法規提出的要求，主要集中在“真實準確、安全穩健、合法規范與透明可\"四個方面。在生成式人工智能的可信保障方面，國內外政策法規主要聚焦于涵蓋技術保障、制度建設、合規監管與權責分配等多個維度，主要措施包括以下四個方面。一是明確人工智能生成合成內容標識制度，如歐盟《人工智能法案》、意大利《人工智能戰略》與我國《人工智能生成合成內容標識辦法》等，都要求對人工智能生成的文本、圖片與音視頻進行明確的標識（如水印）。二是對生成式人工智能進行全方位監管，歐盟要求實行貫穿人工智能的系統設計、系統開發、系統使用與系統運行的全流程評估，意大利《人工智能戰略》則規定了倫理委員會、國家與歐洲三個層面的監督。三是強化技術手段以提升風險應對能力，具體措施包括鼓勵生成式人工智能算法、框架、芯片及配套軟件平臺等基礎技術的自主創新、通過進行對抗性測試和設置“漏洞賞金\"發現系統的漏洞和弱點等。四是根據實際需求建立細分行業標準，歐盟《人工智能白皮書》、日本《關于AI的初步討論》與中國《生成式人工智能服務管理暫行辦法》都強調，生成式人工智能在不同場景下的應用有著不同的風險程度與服務需求，應有針對性地形成相應的行業標準。

然而，以上內容多集中于通用領域，國內外信息管理領域針對人工智能生成合成內容的探索處于起步階段，在檔案領域針對人工智能應用的專門性政策僅有澳大利亞維多利亞州《人工智能技術與文件管理》和加拿大《人工智能與數據法案》。對于檔案視域下人工智能生成合成內容的可信程度，學術界也尚缺乏針對性的探討。基于國內外已有的人工智能生成合成內容可信評估與保障的研究進展，同時結合電子檔案自身特性與實際工作管理需求，本文對其真實性、完整性、可用性與安全性的具體內涵進行拓展，并從制度規范與技術應用等方面提出針對性的保障措施，以適應生成式人工智能深度參與語境下的電子檔案管理需求。

二、新要求電子檔案“四性”檢測內涵在人工智能時代的豐富

（一）真實性：人工智能可靠程度被納入檢測范疇

“真實性\"指電子檔案的內容、邏輯結構和背景與形成時的原始狀況相一致的性質，要求電子檔案能夠反映社會各項活動的歷史原貌，檢測內容包括來源真實性、內容真實性、元數據真實性以及元數據與內容關聯真實性等。在生成式人工智能應用的語境下，記錄產生主體從人類轉移至人工智能系統，并由此產生更多的不確定性，真實性的內涵也由此在以下幾個方面較之以往發生延展。

一是人工智能系統本身應被作為檔案來源真實性的重要驗證內容。首先，人工智能系統應具備可解釋性。具體而言，當算法的信息處理過程完全脫離人類直接識讀視野時，確認其合成內容是否與形成時的原始狀況相一致難度較大，在此背景下，可解釋人工智能的發展與應用則是應對“黑箱”、維系檔案信任的重要工具2，人工智能系統應能夠提供可視化解釋、特征重要性排序與輸出結果的置信區間或概率分布等，具備從數據處理、建模、部署到決策的全流程關鍵信息均能夠被追蹤和記錄的能力[21]。此外，人工智能系統還應具備中立性。人工智能生成合成內容可信度與訓練集、算法運行規則直接相關聯，由于當前AI和數據科學領域的專業人士中女性與少數族裔人數占比較少，“性別的陰影\"（GenderShades）項目就發現，Al系統對女性與深色皮膚面孔的識別存在顯著偏差22，而當這種偏差滲入檔案領域時，其背后的權力壓迫結構也將隨之潛藏在檔案敘事之中，造成文化與記憶的霸權23。因此，人工智能系統的開發團隊應具備一定的社會多樣性，以防正先置偏見與歧視的產生，從而保證其生成內容能夠“真實反映社會活動”。

二是檔案內容的準確性與邏輯性需被著重審查。檔案所記錄的信息應能客觀反映相應的社會活動，而對于生成式人工智能而言，由于其生成合成內容高度依賴訓練數據集，在存在數據偏差與不足的情況下，學習錯誤模式的模型極易產生虛假信息。同時，算法存在不可解釋的“黑盒\"特征，這種不透明的內部運作機制也進一步增加了大模型提供的信息存在偏差或謬誤的風險。例如，普渡大學（PurdueUniversityWestLafayette）的研究就表明，ChatG-PT生成的編程類答案之中，有 5 2 % 是錯誤的。在使用此類工具合成記錄、并作為檔案進行長期保存時，對所生成內容是否符合事實、是否邏輯連貫的要求應當被顯著強調。[24]

三是檔案元數據中需與內容關聯一致的內容有所增加。對人工智能生成合成內容而言，為保障其透明度與可溯性，需將人工智能系統及其使用信息一并納入檔案著錄元數據體系之中。因此，檔案工作人員在進行一致性核對時，還需要關注以上元數據著錄內容是否與實際情況相符，即由人工智能參與合成的部分是否全部被正確標注、人工智能使用信息是否翔實準確，從而支持對人工智能參與合成檔案真實性的驗證與追溯。

（二）完整性：檔案背景信息需反映人工智能行為

“完整性”是指電子檔案的內容、結構和背景信息齊全且沒有破壞、變異或丟失的性質，檢測內容包括電子檔案數據總量完整、元數據完整、內容完整與移交包完整等。而人工智能生成合成內容涉及更加復雜的主體行為，只有同時具備詳盡準確的過程信息作為支撐，才能夠被作為有效的檔案記錄進行歸檔，這對此類檔案記錄的“完整性\"也提出了新的要求。

一是人工智能系統運行與使用情況需在檔案著錄元數據之中被完整體現。首先，背景信息應當能夠反映人工智能系統的自身運行信息，即清晰展示決策路徑、完整記錄數據流、保存充分的技術文檔。斯瓦蒂·阿亞（SwatiArya）等人就在研究中發現，可解釋人工智能（XAI）能夠有效提高決策信任級別一一尤其是對醫療保健、金融與司法等領域而言25，此類專門檔案的憑證價值，也由此能夠得到相應的保障。其次，在生成式人工智能參與的背景下，為判斷輸出內容的可靠程度，在系統本身之外對參與使用者行為的追溯同樣不可或缺。2即檔案著錄內容除了要反映參與人員基本的文件辦理情況之外，還需要能夠反映人工智能使用過程信息，包括使用人員、算法模型的選擇、使用時間節點、參數設置及調整、具體指令與相應輸出內容等，對算法規則、訓練數據與指令交互過程等信息生成的決策軌跡有充分的說明。[27]

二是記錄之中的人工智能生成合成內容標識需被完整保存。《人工智能生成合成內容標識辦法》已經明確規定，對于由人工智能參與創作的部分，均需進行必要的標識以明確說明：人工智能生成合成內容標識包括顯式標識和隱式標識，服務提供商應提供必要的顯式標識，鼓勵其添加隱式標識28，以客觀反映文件生成過程、維護公共權益。因此，生成式人工智能生成合成記錄的“完整”，既指內容本身的數據沒有缺失，也指記錄之中由文件生成者所添加的文字提示、通用符號提示、數字水印等標識信息的完備，即當此類記錄進入檔案管理范疇時，“內容完整性”要求除了內容本體的保存之外，相應的顯式標識以及隱式標識也需要被一并原狀留存。

（三）安全性：人工智能應用下新風險點亟待管控

安全性是指電子檔案的管理過程可控、數據存儲可靠，未被破壞、未被非法訪問的性質，通常檢測內容包括移交信息包病毒、移交載體安全性與移交過程安全性等。隨著生成式人工智能技術的廣泛引入，算法偏見、數據泄露與技術更迭等帶來了區別于傳統安全威脅形態的風險，也促使電子檔案安全性的概念邊界進一步拓展。

一是檔案移交管理過程需考慮更多的直接/間接篡改行為。在人工智能參與的背景下，檔案移交管理過程中的非法篡改風險點顯著增加，過程安全性的要求也相應更新。一方面，過程安全所需監督的直接人為篡改行為進一步延展，除了擅自修改、刪除或添加內容外，還須額外審查是否對模型的輸出內容進行平滑處理、閾值調整等后處理；另一方面，不同于以往，在人工智能深度參與的背景下，過程安全還應考慮間接的非法人為篡改行為，即私自調整人工智能系統的關鍵參數，如訓練數據集、模型參數與訓練算法等。英國《衛報》的一項調查就發現，當用戶提供給ChatGPT的需處理信息包含第三方指令等隱藏內容時，輸出內容可能會受到操控、具有傾向性，甚至返回惡意代碼2，如此形成的記錄顯然難以具備“原始記錄性”、發揮“證據效力”，因此有必要針對間接篡改的風險點，通過加強信息留存、擴大檔案元數據涵蓋范圍等途徑，加強對檔案前端業務階段的可信管控，防止證據鏈存在缺漏30。

二是需高度重視人工智能技術帶來的檔案信息泄露潛在風險。由于算法對信息的處理過程超越人類可視范圍，其對生成記錄的后續管理是否存在非法操作，諸如未經授權的存儲行為、用戶未知的二次處理與輸出復用，也呈現出高度未知性。例如，某檔案中部分內容為人工智能系統合成，在此檔案未解密期間，該人工智能系統將同樣的內容再次作為輸出結果，就有可能導致檔案信息的泄露。因此，人工智能時代，電子檔案的安全性也同樣需要對人工智能系統的保密性能提出要求，被用作檔案的數據須被禁止在其開放期限前被以復用等方式泄露。

（四）可用性：確保人工智能系統及運行環境穩定

可用性是指電子檔案可以被檢索、呈現和理解的性質，是電子檔案存在與具有保存價值的基礎，需要檢測的內容主要包括電子檔案元數據可用性、內容可用性、軟硬件環境可用性與移交信息包可用性。當人工智能生成合成內容被納入檔案范疇長期保存時，人工智能系統的運行過程對于理解檔案的內容同樣至關重要，這也對電子檔案的可用性提出了新的要求。

一是人工智能系統運行穩定性需被納入檔案可用性指標。由于“算法黑箱\"“算法幻覺”“算法歧視\"等現象的存在，生成式人工智能所生成或合成的檔案記錄較以往在審查層面呈現出更高的復雜度，這要求人工智能系統須處于穩定運行、可正常調用的狀態，從而為后續的審計、驗證與理解提供基礎。因此，人工智能系統應當滿足以下條件，以具備穩定運行的能力：能夠高效運行，及時響應并完成任務；能夠在長時間運行中保持良好性能，為用戶提供持續的服務和支持；具有一定的魯棒性，在出現故障時能夠自動檢測、定位或修復；支持數據保護，能夠應對非法訪問與惡意攻擊。[31

二是檔案部門需檢測并跟蹤人工智能系統軟硬件環境可用性。除了電子檔案運行和存儲的軟硬件環境，為確保可追溯性與可理解性，人工智能系統運行的軟硬件環境可用程度同樣需被納入可用性管理體系之中。尤其需要考慮軟件環境迭代對人工智能系統運行的影響，如版本的頻繁更新是否導致人工智能系統兼容性問題、新的操作系統版本是否提供對當前硬件設備的支持。

三、新舉措電子檔案“四性\"維護途徑在人工智能時代的拓展

（一）延伸控制鏈條：從AI系統開發源頭全流程管理

鑒于生成式人工智能系統的特征，為保障記錄的可信性，檔案管理人員不僅需要在記錄生成后進行相應的審查與監管，還需要進一步延伸前端控制鏈條、前溯至其生成的源頭，實行貫穿人工智能的系統設計、系統開發、系統使用與系統運行的全流程評估。

其一，檔案工作者應合理介入人工智能系統的審查。進入電子文件時代之后，檔案學界針對電子文件的特點提出，應當對電子文件的運動過程進一步加強全程管理和前端控制，將文件生命周期的起點延伸到電子文件管理系統的設計之中。而隨著人工智能時代的全面來臨，文件生命周期也將隨之迎來又一次變革，其起點有必要進一步向前延伸：當前電子檔案的可信管理通常僅覆蓋后端，即歸檔環節起始。然而，由于人工智能系統信息處理與內容生成具有不可解釋的“黑箱\"特征，AIGC是否可信與人工智能系統本身的可靠程度密切關聯。在此背景下，對人工智能參與生成文件的質量管控應開始于其生成之先，即人工智能系統的構建階段。一方面，檔案館需要結合人工智能高度依賴訓練集、語義理解去語境化的特征，通過專家咨詢、技術測試等方式，審查大模型的訓練數據集是否足夠準確全面、訓練過程是否合乎規范。另一方面，檔案館也需要對開發團隊開展必要的背景調查，例如評估團隊的技術水平、文化背景、性別比例與過往開發經歷等，對大模型的穩定運行能力以及先置偏見存在概率作出判斷，從而為判斷其生成合成內容是否能夠被納入檔案的范疇，提供一定的決策依據。

其二，檔案工作者需參與對人工智能服務提供商的監督。人工智能的主體行為涉及算法決策、數據處理等多個層面，其透明可溯需要足夠的背景信息作為支撐，根據國內《生成式人工智能服務管理暫行辦法》等規定，服務商應提供必需的人工智能系統信息，主要涵蓋以下內容。（1）人工智能版本信息：著錄項中應包含大模型版本號、發布日期、模型架構、算法規則、代碼表、參數規模、訓練數據集、優化其余訓練算法、兼容性信息、更新日志以及版權與許可信息；（2）運行軟硬件環境：信息包中應同時封裝計算設備、網絡設備等硬件信息，以及操作系統、依賴庫、環境配置以及工具與平臺等軟件信息。32在核查所涉及的人工智能服務提供商是否提供以上信息之外，還需要審查服務提供者是否切實履行安全義務，具體包括：明確適用的人群、場合與用途；依法進行內容標識；合法處理用戶個人信息；提供安全、穩定、持續的服務；及時處理違法內容。

（二）強調信息披露：人智協同下的多主體行為記錄

可信性的核心之一在于確保主體行為的透明可溯，這需要足夠的背景信息作為支撐。人工智能參與的背景下，主體行為更加復雜多樣，在傳統的人工操作之外，還涉及算法決策、數據處理等多個層面。因此，所披露的信息應全面覆蓋人工智能系統的運行流程、決策依據與使用細節等關鍵要素。

其一，人工智能生成合成內容標識制度需被納入檔案著錄體系。歐盟《人工智能法案》意大利《人工智能戰略》以及我國《人工智能生成合成內容標識辦法》等通用領域法規，都已經明確提出，應對人工智能生成合成的文本、圖片與音視頻進行明確的標識（如水印），并針對人工智能系統的模型信息與使用過程，進行必要的信息披露。為保證生成內容作為檔案記錄的可查、可溯與長期可用，歸檔過程中同樣有必要建立人工智能生成合成內容標識制度。立檔單位應參照相應規范，將所有由人工智能參與的地方均進行必要的顯隱式標識，并在檔案整理、編目與著錄的過程中，提供人工智能使用過程信息，需要增加的基本著錄條目包括：人工智能使用責任主體；算法模型的名稱與版本號；模型參數設置及調整；軟硬件環境配置；使用時間節點；使用具體用途；指令內容與對應生成內容；審核意見；風險提示。當前，《科學》《歷史研究》等知名期刊與曼徹斯特大學、復旦大學等知名高校，均已要求作者在寫作過程中，要明確披露AI工具的使用過程，并保留相關重要材料以備檢查和質詢。在此之外，為保證檔案“在社會活動中直接生成“的原始記錄性，標識內容之中還需要有立檔單位使用者的“一致性確認聲明”，表明人工智能生成合成內容與其想表達的內容相一致。

其二，對人工智能生成合成內容信息披露的監察應被納入國家檔案主管部門職能。對于生成式人工智能生成合成內容而言，其必要的背景信息涵蓋人工智能系統的構建、運行與使用等環節，相應的信息披露義務則涉及系統開發者、服務提供商與技術應用者等多方主體。在此背景下，僅靠單一機構或行業難以實現全鏈條的信息披露，需要國家層面通過法規調控、行政監督等手段，實現不同主體之間的標準對齊與統一管控。檔案部門作為可信資源部門，在AI生態之中具有獨特優勢，承擔生成式人工智能可信保障與監督的責任更加義不容辭。33然而，當前從我國中央檔案館與國家檔案局下轄局館機關的組織架構與職能配置來看，對于生成式人工智能技術在檔案領域的應用尚未作出專門監管。鑒于此，有必要增設部門，統一負責生成式人工智能在檔案領域應用的規范性與安全性。具體而言，其職能包括以下幾個方面：一是協同政策法規司，參與檔案法規、政策與標準的制定與修訂，確保所制定的規范能夠適應人工智能時代的檔案工作需求，并與《生成式人工智能服務管理暫行辦法》等通用領域法規保持體系一致性；二是負責實施人工智能版本信息管理工作，指導并監督生成式人工智能開發者的檔案部門，定期進行版本信息的歸檔保存；三是承擔行政監督職責，根據檔案工作的背景信息需求，依法監管生成式人工智能開發者與服務提供商的信息披露情況是否符合歸檔要求。

（三）應用技術手段：深度追蹤AI語境下的篡改行為

人工智能生成合成內容的不可信，既可能來源于人工智能系統的內生風險，也可能來源于應用風險。在進入歸檔階段之后，文件的可信性也因此面臨著更多的干擾。人工智能深度參與語境下的篡改、攻擊與偽造行為都更加復雜而隱匿，人工難以直接識別，須借助技術手段強化檔案管理工作，以確保可信性。

其一，鑒定人工智能生成合成內容的可信程度。由于訓練數據偏差、算法自身局限以及模型不確定性等原因，算法可能出現不符合常識或邏輯的推斷，導致人工智能生成合成內容中存在大量難以由人工直接識別的虛假信息。對此，在傳統的人工審核之外，檔案部門同樣需引入技術，對人工智能協同參與開展檔案內容真實性的審查。例如，借助自然語言處理（NLP）技術，深入理解并解析文本內容，確認合成信息的真實性與準確性。再如，充分借助區塊鏈、時間戳、哈希值校驗和數字簽名等技術，構建安全可追溯的檔案數據存儲與驗證系統，防范AI語境下人為或非人為的篡改行為。

其二，鑒定人工智能生成合成內容標識的可信程度。除了檔案本身的真實性之外，內容與元數據的一致性同樣需要被重點核查。為防止對人工智能參與部分進行虛假標識、標識闕漏等情況，檔案工作者也需要借助一系列技術工具，檢測檔案記錄之中哪些記錄為人工智能生成，并基于此核對實際情況與業務部門所標注說明的情況是否一致。34具體而言，檔案部門可利用深度偽造監測技術，通過計算機視覺算法精準捕捉并分析圖像或視頻中的細微偽造痕跡，判斷其生成來源；結合多模態特征提取技術與跨模態驗證技術，從不同維度提取內容的獨特特征后，將其與預設標準或參考信息進行比對，通過一致性驗證分析其是否為人工智能生成。

四、結語

正如國際檔案理事會（ICA）現任主席、盧森堡國家檔案館館長何塞·吉普斯（JoseeKirps）所指出的那樣：“人工智能和其他現代技術可以在保存、記錄和存檔記錄方面發揮關鍵作用。\"35生成式人工智能正在全球掀起新一輪的技術變革，大模型產出內容已日益成為社會記錄的重要來源。面對歸檔范疇的擴大與記錄構建主體的延展，有必要以多維視角重新審視“可信性”這一檔案的本質概念，綜合考慮人類與人工智能兩類參與主體，從源頭可信、結構完整與穩健可用三個評估維度出發，建立自AI系統開發而始的全流程管理鏈路，強調對人工智能相關主體行為的信息披露，綜合采用多種技術防止篡改行為。未來，還會有更多的人工智能生成合成內容涌入檔案管理的領域，在可信性之外，更多的檔案基礎理論將遇到挑戰，檔案事業在人工智能時代正在面臨多方位的重塑。檔案工作者必須積極學習人工智能的底層邏輯與核心技術，加強與其他學科的交流與合作，確保檔案事業在技術洪流中穩步前進，與社會發展契合、與時代脈絡共振。

注釋及參考文獻：

[1]中國政府網.習近平向2021年世界互聯網大會烏鎮峰會致賀信[EB/OL]. （2021-09-26）[2025-03-21]. https ： // www.gov.cn/xinwen/2021-09/26/content_5639378.htm.

[2]中國信息通信研究院，京東探索研究院.人工智能生成內容（AIGC）白皮書（2022年）[R/OL].（2022-09）[2025-03-21].https：//www.caict.ac.cn/english/research/whitepapers/202211/P020221111501862950279.pdf.

[3]Sequoia Capital. Generative AI： A creative new world[EB/OL]. （ 2 0 2 2 - 0 9 - 1 9 ）二 21]. https：//www.sequoiacap.com/article/generative-aia-creative-new-world/.

[4]中華人民共和國國家檔案局.中辦國辦印發《\"十四五\"全國檔案事業發展規劃》[EB/OL].（2021-06-09）[2025-03-21].https：//www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.

[5]熊琦，張文窈.人工智能生成內容著作權規制的全球趨向與本土路徑[J].知識產權，2024（11）：59-76.

[6]熊曉彪.生成式人工智能證據認定的困境與規范進路[J].法律科學（西北政法大學學報），2025（43）：72-93.

[7]余鵬文.刑事訴訟中人工智能證據的法律性質和運用規則[J].中國刑事法雜志，2024（5）：36-54.

[8]MCCORMACK L，BENDECHACHE M. Ethical AI governance： methods for evaluating trustworthy AI[EB/OL]. （2024- 08-28）[2025- 03- 21]. https：//arxiv.org/abs/2409.07473.

[9][26] MORA-CANTALLOPS M，SANCHEZALONSOS，GARCiA-BARRIOCANALE，etal.Traceabilityfortrustworthy AI： a review of models and tools[J].Big Data and Cognitive Computing，2021（2）：20.

[10]楊建軍.可信人工智能發展與法律制度的構建[J].東方法學，2024（4）：95-108.

[11]黃河燕，李思霖，蘭天偉，等.大語言模型安全性：分類、評估、歸因、緩解、展望.智能系統學報，2025（20）：2-32.

[12]鄭煌杰.可信的人工智能：技術倫理風險下AIGC的治理基點[J/OL].科技進步與對策，1-11[2025-04-02].http：//kns.cnki.net/kcms/detail/42.1224.G3.20241101.1042.002.html.

[13]徐磊.發展與安全并重：生成式人工智能風險的包容審慎監管[J].理論與改革，2024（4）：67-83；176.

[14] GHIURAU D，POPESCU D E. Distinguishing reality from AI： approaches for detecting synthetic content[J].Computers，2024（1）：1.

[16]徐擁軍，陳曉婷，閆靜.人工智能大模型對檔案學基礎理論的挑戰及其回應[J].圖書情報知識，2025，42（1）：57-69.

[17]陳艷紅，李健.新一代人工智能生成內容檔案身份的認定風險及規制研究：基于對ChatG-PT生成內容的思考[J].檔案學研究，2023（5）：4-12.

[18]加小雙，姚靜，韋雪茹.人工智能在檔案事業中的倫理審視[J/OL].北京檔案，1-7[2025-03-18].http：//kns.cnki.net/kcms/detail/11.2783.G2.20250314.0756.002.html.

[19] LAVANCHY M. Amazon’s sexist hiring algorithm could still be better than a human： expecting algorithms to perform perfectly might be asking too much of ourselves[EB/OL]. [2025-03-21].https：// www.imd.org/research-knowledge/digital/articles/ amazons- sexist-hiring- algorithm- could-still-bebetter-than-a-human/.

[20]李思藝，王振杰，陳子憶.可解釋人工智能在檔案領域的應用初探[/OL].檔案與建設，1-10[2025-03-24].http：// kns.cnki.net/kcms/detail/32.1085.G2.20250228.1537.002.html.

[21]ELFMAN L.What is AI traceability？ Benefits，tools best practices[EB/OL].（2024- 09- 25） .https：//data.world/blog/what-is-aitraceability-benefits-tools-best-practices/.

[22]BUOLAMWINI J.Project Gender Shades.[EB/OL]. [2025- 03- 21].https：//www.media.mit.edu/projects/gendershades/overview/：text The% 20Gender% 20Shades%20project%20pilots%20an%20intersectional%20approach，and% 20further%20exacerbate%20inequality%20if%20left%20to%2Ofester.

[23]CARBAJALI A，CASWELL M.Critical digital archives：areview from archival studies[J].The American Historical Review，2021（5）：20.

[24]ADARLO S.Study Finds That 52 Percent of ChatGPT Answers to Programming Questions Are Wrong.[EB/OL].[2025-03-21].https：//futurism.com/ the-byte/study-chatgpt-answers-wrong.

[25]ARYAS，AGGARWALS，SONIN，etal.Explainable Artificial Intelligence （XAI） in Critical Decision- Making Processes[C]//HASSANIEN AE， ANANDS，JAISWAL A，etal.InternationalConference On Innovative Computing And Communication. Singapore： Springer Nature Singapore，2O24： 445-454.

[27]支振鋒.生成式人工智能大模型的信息內容治理[J].政法論壇，2023（41）：34-48.

[28]中華人民共和國國家互聯網信息辦公室.關于印發《人工智能生成合成內容標識辦法》的通知[EB/OL]. （2025-03-14）[2025-03-21].https：//www.cac.g0v.cn/2025-03/14/c_1743654684782215.htm.

[29]SILVA C.Hidden content tricks ChatGPT into rewriting search results，Guardian shows[EB/OL]. （2024-12-25）[2025-03-21]. https：//mashable.com/ article/hidden- content- trick- gchatgpt- rewritingsearch.

[30]畢建新，鄔靜嫻，余亞榮，等.面向證據效力維護的電子檔案可信管理探析[J].檔案學通訊，2023（6）：78-85.

[31]李功源，劉博涵，楊雨豪，等.可信人工智能系統的質量屬性與實現：三級研究D]軟件學報，2023（34）：3941-3965.

[32]中華人民共和國中央人民政府.生成式人工智能服務管理暫行辦法[EB/OL].（2023-07-10）[2025-03-21].https：//www.gov.cn/zhengce/zhengceku/202307/content_6891752.htm.

[33]劉越男，錢毅，王平，等.挑戰與展望：Deep-Seek對檔案工作的影響及應用前景[].浙江檔案，2025（2）：5-13.

[34]HASHEMI-POURC.6stepsin fact-checking AI-generated content[EB/OL]. （2024-08-06）[2025- 03-21].https：//www.techtarget.com/WhatIs/feature/ Steps-in-fact-checking-AI-generated-content.

[35]WAM.UAE a global destination for envisioning future：ICAPresident[EB/OL].（2023-10-09）[2025- 03-29]https：//www.wam.ae/en/details/1395303207358.

作者單位：1.武漢大學信息管理學院2.武漢大學文化遺產智能計算實驗室