生成式人工智能對檔案工作的影響
——從ChatGPT 談起

2023-12-11 12:17:06劉麗吉林省檔案館

浙江檔案 2023年9期

劉麗/吉林省檔案館

王兆偉/吉林省延吉市檔案館

張明智/ 上海桉源文化信息咨詢有限公司

劉謹銘/上海民橋精密科學儀器有限公司

《“十四五”全國檔案事業發展規劃》對數智時代檔案數字化管理提出了新的要求和挑戰。檔案作為基礎性文化資源和戰略性信息資源，對國家各項事業的支撐作用愈加明顯。近年來，以互聯網、大數據、區塊鏈、機器學習和web3.0等技術的出現為檔案行業帶來了諸多的變革，而ChatGPT（Chat Generative Pre-trained Transformer）的橫空出世更是給檔案工作創造了無盡的可能和想象空間。借助新技術新方法，創新檔案治理理念、范式和路徑，推動檔案事業數字化轉型和智慧化升級顯得重要而迫切。作為奮斗在檔案事業一線30余年的檔案工作者，筆者認為ChatGPT深度影響檔案事業已經成為必然，今日之ChatGPT就是“掀起波瀾”導致檔案事業發展模式嬗變之肇始，橫空出世的ChatGPT就是“未來已來”的重要標志。

1 ChatGPT給檔案工作帶來新機遇

Chat GPT的基本原理。Chat GPT是由Open AI公司于2022年底推出的一款基于深度學習技術的人工智能模型， Chat GPT 的基礎架構是Transformer，使用多頭自注意力機制，采用大規模文本語料的無監督訓練方式，模擬人類自然語言處理能力，直接根據前文內容，對文本進行編碼和解碼，自動生成后續文本，是典型的生成式人工智能。截至2023年3月15日已迭代至GPT-4版本，該版本回答準確性顯著提升，全面支持多模態輸入和輸出，文字輸入達2.5萬字，在歌詞生成、創意文本和風格多樣方面有質的飛躍。

Chat GPT在多行業和多場景中均表現驚人，在各種基準測試中表現出超過人類平均水平。例如在模擬律師資格考試中分數排在前10%；在醫學診斷方面與經驗豐富的醫生相當；在創意寫作方面可以生成比較高水平的故事、詩歌和歌詞。上述技術特點可以廣泛運用于檔案領域，將是對傳統檔案信息化手段的全面而徹底的革新。如在檔案智能搜索、智能推薦、智能解釋、精準分析等方面提供檔案利用智能化服務，根據檔案數據分析和挖掘的結果，生成可視化報告，為政府決策提供支持。其優異表現使程序員、編輯、科研人員等專業化崗位的從業人員感受到了前所未有的挑戰和機遇。筆者認為，Chat GPT在檔案領域的廣泛應用必將大大提高檔案管理的智能化水平。

1.1 ChatGPT與檔案事業發展的需求高度匹配

作為歷史文化遺產的重要組成部分，檔案具有極其重要的文化價值，具有超乎尋常的特殊性和復雜性；檔案管理工作兼具知識密集型和勞動密集型特點，既需要極其豐富的專業知識，又需要完成大量程式化、機械化的重復勞動。一直以來，檔案信息的數字化處理和智能化利用都是世界級難題。而ChatGPT為人類完成海量程式化、機械化的重復勞動提供了可能。

第一，檔案行業可為ChatGPT提供巨量數據。ChatGPT通過對海量的信息進行深度學習，模擬人類的反應做出回答。ChatGPT 作為信息整合和轉譯的載體，高度依賴于其學習和參考數據的質量，但卻缺乏甄別和篩選能力，常常陷于“低劣數據”和“數據污染”的泥淖；而檔案信息作為歷史的真實記錄，能夠在較大程度上保持原始性、真實性和完整性，彌補ChatGPT的技術難題。筆者認為，檔案領域特別適合ChatGPT “訓練容量大”“支持多元輸出”“專業領域內學習能力更強”的新特點，將給ChatGPT等生成式人工智能技術發展提供更廣闊的空間。

第二，ChatGPT可以彌補傳統技術的缺陷。ChatGPT具有的非結構化提取、海量信息訓練、跨專業跨語言輸入輸出等特點，能夠較好地解決檔案智能化管理中的傳統難題。傳統的技術對數據的結構化程度較高，但檔案材料往往是以文本、圖片、視頻等非結構化形式存在，ChatGPT則無結構化數據要求；傳統的技術對海量數據處理效果并不理想，而ChatGPT則與海量信息相輔相成、相得益彰；ChatGPT能夠適應檔案材料語言種類繁多，無需進行翻譯處理；ChatGPT能夠全面充分地抽取檔案材料中蘊含的歷史、文化、政治等各方面信息，降低檔案館等文化機構的檔案整理、數字化、分類、索引和智能化處理工作強度，提高檔案材料的管理和利用效率，最大化發掘其中的知識價值。

1.2 ChatGPT在檔案領域的應用方向

筆者認為，ChatGPT可以極大地提高檔案管理的現代化水平，為檔案管理提供新的思路和技術支持，可大幅度提高檔案管理的效率、質量和效果。

1.2.1 助力檔案信息智能檢索。檔案信息檢索是檔案管理的基本環節。檔案館館藏檔案涵蓋不同歷史階段形成的不同內容和載體的檔案，采用關鍵詞檢索等傳統檢索方式，查全率和查準率都不高，遠遠無法滿足檔案利用需要。ChatGPT具備去偽存真、去粗取精的加工和匯總能力，可以通過對用戶提供的查詢語句進行分析和理解，更好地理解用戶的意圖和需求，并在對話過程中不斷修正、聚焦、鎖定，根據查詢語句和檔案記錄之間的相似度，匹配最佳的檔案記錄給用戶利用。ChatGPT解決“搜不準、搜不到、搜不好”的問題，使人們能夠定位自己希望解決的關鍵問題，進而提高檔案檢索效率和實際效果。

1.2.2 創新檔案編研模式。檔案編研工作是檔案基本任務之一。傳統的檔案編研工作是以編研人員對檔案資料的熟練掌握為基礎，而檔案資料的質量、數量又從客觀上制約著檔案編研成果的質量。筆者認為，創新檔案編研模式，引領傳統人工編研為主走向自動化智能化編研為主，大幅提高編研效率，并能夠克服殘缺破損不完整等檔案“先天不足”帶給編研工作的困難，能夠根據大量數據在不同的專業領域中構建知識圖譜，發現編研脈絡及相關資源，大幅提高編研效率，得出具有高可靠性的結論，產生優秀的調研成果。

以吉林省檔案館館藏的日本侵華檔案為例，該檔案館館藏日本侵華時期檔案10萬余卷（件），真實地記錄了日本帝國主義對華的侵略活動，是揭露日本軍國主義罪行的鐵證。但由于日軍的銷毀破壞，目前仍有部分檔案內容殘缺或者不成體系，導致檔案編研人員無法還原侵華日軍的罪行，成為難以產生編研成果的“孤品”和“孤證”。ChatGPT的應用將會大幅度還原日本侵華的種種罪行，產生大量無可辯駁的編研成果，對中華民族和世界反法西斯勝利具有重大意義。

1.2.3 深度挖掘海量檔案潛在價值。ChatGPT具有迅速識別文本并將相近文本內容進行關聯的功能。檔案部門借助ChatGPT不僅能夠大量節約人力，而且能通過系統對比檔案內容形成新發現，發現海量檔案信息間的共性或緊密關聯，為深入研究提供新的切入點和靈感。通過深度挖掘海量檔案信息，幫助用戶快速了解檔案信息，形成檔案資源開發新成果。西班牙國家圖書館通過將每部匿名作品與350名作家使用的精選詞語進行對比，確定每部作品的作者身份。荷蘭烏特列支大學最近發布了一款基于機器學習的開源系統綜述軟件ASReview（https://asreview.nl/），通過該軟件可自動形成系統綜述。

1.2.4 提升政府信息公開和資源共享水平。群眾申請公開政府信息，需要到制作或獲取該政府信息的行政機關進行申請，并需要提供該政府信息的名稱、文號或者其他特征性描述。實踐中，各行政機關提供的政府信息往往是文件原文，需要申請者自己進行加工整理，并且一次能夠獲取的數量有限制。若是進行科研，需要大量政府信息，不僅會對研究者自身形成較大壓力，而且也會對有關政府部門形成較大壓力。通過引入ChatGPT等生成式人工智能技術，可有效化解上述問題，提高政府信息公開和資源共享水平，為政府與民眾溝通開辟新的智能界面。

1.2.5 輔助檔案開放審核效率。數量龐大的檔案數據開放審核是檔案共享利用的重要基礎。傳統的開放審核又稱為劃控鑒定、開放鑒定，主要依靠檔案管理人員長年累積的劃控經驗，審核標準具有一定的主觀性。ChatGPT能夠有效解決長期制約館藏檔案開放的基礎性業務瓶頸問題，取代簡單和重復的公共部門工作。。福建省檔案館承擔的科技項目《基于數字檔案的人工智能檔案開放審核系統實現研究》通過國家檔案局專家組驗收，該項目設計訓練了深度神經網絡輔助開放審核算法模型，編制了檔案開放審核關鍵詞表，提出了檔案開放審核工作流程，有助于提升檔案開放審核工作效率，解決制約館藏檔案開放的業務瓶頸。

1.2.6 增加檔案知識趣味和文化魅力。助力檔案宣傳，講好檔案故事，能夠為檔案工作營造良好環境。ChatGPT通過對大量的檔案文本和相關圖片進行處理和分析，從檔案材料中提取相關的知識和信息，發掘出充滿生機活力的有趣檔案故事，能夠通過檔案的存史事實、檔案人的敬業形象，向世人講述檔案里的中國精神、檔案記錄的民族情感、檔案蘊含的人生道理，更有利于通過事實說服人，通過形象打動人，通過情感感染人，通過道理影響人，通過作用帶動人，引導社會各界和人民群眾參與檔案事業，充分發揮檔案工作存史、資政、育人的重要作用。

2 生成式人工智能應用于檔案領域存在的風險

ChatGPT發布以來，全球各行業競逐AI賽道。然而，自2023年5月以來，似乎無所不能、顛覆行業、成為未來發展趨勢的ChatGPT也迎來了越來越多的爭議之聲。當前，人們對ChatGPT擔憂主要表現在以下四個方面。

2.1 信息安全問題

ChatGPT 擁有超強的信息匯總、整理和分析能力，這一能力打破了傳統的政府信息保密形式。在中美競爭日趨激烈、美國叫囂“脫鉤斷鏈”的背景下，我國需要對ChatGPT可能引發的國家信息安全問題需要高度警惕。當前的ChatGPT被國際金融大資本支持的跨國高科技企業所研發，對我國來說存在巨大的技術“黑箱”。

2.2 網絡犯罪問題

ChatGPT可能被不法分子惡意使用，對開放性公共平臺的登錄頁面進行修改，從而肆意地進行網絡犯罪行為。犯罪分子可以利用 ChatGPT 強大的編程能力，極大地縮短編寫軟件的時間和提高自身的編程能力，可以快速生成木馬程序或密碼破譯程序，對城市電子信息平臺和城市基礎設施網絡展開攻擊。

2.3 侵犯隱私問題

隱私本來就已經是網絡或者是人工智能誕生以來一個讓人焦頭爛額的問題，ChatGPT 更加惡化了這種狀態。ChatGPT需要使用大量的文本數據進行訓練和處理，如果數據泄露或被惡意利用，將會對個人隱私造成威脅。更讓人擔心的是，人們現在無法清楚判斷個人隱私在什么樣的程度上可以得到保護，因為ChatGPT用的數據可能都是公開的合成數據，對是否構成侵犯隱私權較難定性。

2.4 知識產權問題

ChatGPT依據海量的語料數據庫和人對話、互動，完成撰寫各種文本、翻譯、代碼等任務，甚至能生產出極好的文本，但它使用的語料數據庫是否存在對原創知識生產的貶低和褻瀆，甚至是剽竊，這是一個值得關注的問題。以復制使用文本數據為例，ChatGPT抓取大量受著作權法保護的第三方文字作品內容投入數據庫作為訓練素材，將觸及著作權侵權、挖掘行為授權、二次創作許可等問題。

3 檔案工作者擁抱生成式人工智能技術的對策建議

我們應當理性看待科技的進步，既要看到機遇，也要看到風險挑戰，以理性的眼光審視科技進步帶來的挑戰，做好積極的應對防范措施。檔案部門應積極接受突破性技術的賦能，推動檔案事業發展現代化。

第一，高舉旗幟，努力踐行習近平新時代中國特色社會主義思想，走檔案發展正確道路。做好新時代檔案工作，關鍵是要深學細悟習近平關于檔案工作重要批示精神及習近平新時代中國特色社會主義思想的核心要義、精神實質、豐富內涵和實踐要求，做到了然于胸、融會貫通，堅定歷史自信，把握歷史主動，強化歷史擔當，牢牢錨定“國之大者”，把政治標準放在首位，堅持黨管檔案的原則，不斷提高政治判斷力、政治領悟力、政治執行力，守正創新、真抓實干，不斷提高解決問題、化解矛盾、深化改革、推動發展能力，為黨和國家事業發展做出積極貢獻。

第二，開放包容，積極探索ChatGPT在檔案領域的應用，實現檔案事業發展現代化。

一是應對“黑箱”，把握科技自主，維護國家安全。當前的ChatGPT等生成式人工智能技術背后是數據和算法。ChatGPT背后的數據算法是具有不透明、不穩定、不可靠、權力再造等特性的 “黑箱”；ChatGPT技術還為大規模集成生產虛假的、誤導的、偽造的信息，進行輿論操控和信息戰等提供了很大便利；類 ChatGPT 的行為可能超出人類所預設、理解、可控的范圍，對人類安全產生負面影響。美國的技術壁壘使得我們無從得知也無法監管。檔案工作者應該時刻關注ChatGPT等生成式人工智能技術發展，從檔案專業角度積極參與相關領域制度建設建言獻策，推動我國應盡快將“人工智能法”提上立法清單，以應對日漸復雜的人工智能發展現狀。

二是爭取試點，大膽探索和主動訓練檔案領域專用生成式人工智能工具。ChatGPT展示了強大的語言生成能力和語言理解能力。其作用的發揮依賴于訓練數據的質量。豐富的檔案資源能成為人工智能程序訓練的素材，人工智能程序在訓練過程中也將形成更豐富的檔案資源開發成果。訓練與反饋的過程實則是檔案部門與技術企業資源互惠的過程，也是檔案部門與人工智能開發企業的資源互惠方式。檔案部門可以在保障國家信息安全的前提下，適當開展人工智能技術的應用試點，為技術企業提供用于人工智能訓練的檔案資源，及時總結先進經驗并加以推廣，為我國的科技自主貢獻力量。在這一點上，北歐一些國家已經做出了前沿的探索，可以作為我們借鑒的范例。瑞典國家圖書館以儲存著26 PB 可讀格式存檔的瑞典語聞名世界。該館正在借助AI技術將數萬億的檔案信息轉化為數字資產，并將其提供給研究人員用于訓練AI模型。AI 研究人員使用NVIDIA DGX系統開發了20多個開源 Transformer 模型。使用此模型，研究人員可以創建專門的數據集，幫助語言分析人員回顧瑞典語幾個世紀以來的變化，高效輔助研究人員開展歷史、語言學、媒體等方面的研究。三是奠定基礎，加快檔案數字化，為迎接生成式人工智能技術奠定堅實基礎。ChatGPT逐漸融入社會生活的方方面面。在這樣的大趨勢下，檔案部門應以開放包容的態度去面對，積極主動探索新技術與檔案工作的融合。我國的檔案數字資源在數據格式、數據來源、數據庫類型、數據真實完整性等方面已經取得了階段性成果，但也仍然存在一些不適應ChatGPT的問題，需要各級檔案部門整合異構資源，促使館藏資源向機器可讀邁進，提高檔案數字資源的可用性。需要特別說明的是，筆者認為應該以機器可讀為目標，降低結構化要求，因為隨著技術發展，生成式人工智能技術將像人一樣并超越人能夠閱讀各種各樣的數據。

四是轉變角色，遵循“人機協同”發展原則，全面提升檔案工作人員的智能科技素養。明確自然人在高度數字技術化的環境當中的角色定位非常值得思考。“機器換人”“機器取代人”是無法繞過的一種恐慌悲觀情緒，但實踐告訴我們“人有人用，機有機用”。因此，ChatGPT在檔案管理領域的落地需要人和機器的共同參與，缺一不可。檔案機構應進一步厘清檔案管理任務中的人機邊界，實現“人機結合、知行合一、虛實一體”。檔案人員在將ChatGPT應用于檔案管理的同時，也應加強自身自主創新能力，不斷提高自身的核心競爭力，向檔案數據工程師、檔案知識工程師、檔案業務架構設計師等角色轉變。

綜上所述，Chat GPT在檔案領域的應用為檔案管理的發展提供了新的思路和技術支撐。但與此同時，也需要考慮新技術應用過程中存在的風險和挑戰。政府機構、檔案機構和人民群眾都應當持有理性的支持態度，積極參與到新技術的應用和體驗中來。政府方面應該及時合理制定相應的政策法規來服務和監管新技術的運用和推廣；檔案館需結合自身業務定位和階段發展規劃，既要繼承經典的研究范式，也要創新應用新技術新方法，助力自身發展，服務行業進步；人民群眾應持有科技向善的理念，努力培養自身的數字檔案的素養，提升自身信息獲取和處理利用的能力。除此之外，促進國際合作與共享，尋求廣泛的國際合作和共享科技成果，確保人工智能的公平使用和可持續發展在全球范圍內的也是非常重要的方面。人工智能的社會治理是一個開放性的、國際性的問題，廣泛的國際合作可以促進達成共識，形成人工智能發展的基本原則和治理框架，確保數據的使用價值、流通價值、學問自由、人的尊嚴、促進革新、保護隱私、經濟成本，保證聯結性、透明性、可控性、安全性、隱私性、公正性等原則。

與其擔心未來被人工智能操縱歷史，更需要擔心的是現在我們是否會被這么大數據級別的信息給壓垮。澳大利亞籍的檔案專家Frank Upward在《網絡化時代的文件信息學》（Record Keeping Informatics for a Networked Age）中提醒檔案界關注新技術的應用，否則淹沒在海量數據中將是必然的結局。

生成式人工智能對檔案工作的影響——從ChatGPT 談起