陳 亮 秦玉婷 費鴻虹 王 夢
(南通大學檔案館,江蘇南通, 226019)
在人工智能和自然語言處理領域,GPT(Generative Pre-trained Transformer)模型系列已經成為一項“里程碑”式的成就。[1]2022 年11 月,基于GPT-3.5 的微調版本ChatGPT推出,用戶量在短短一周內便突破了百萬大關,凸顯了GPT技術在實際應用中的巨大潛力。[2]2023 年3月,OpenAI發布了支持多模態輸入和輸出(如文本、圖像、音頻、視頻等)的GPT-4模型,預示著該技術正向著更為全面和復雜的應用場景邁進。與此同時,中國也展示了顯著的研發活力。自2023 年8 月31 日起,首批8 家大模型產品如百度的“文心一言”等獲得了官方備案,正式對公眾提供服務。GPT問世后引起檔案學界的關注:周文歡認為,ChatGPT可以用于執行多種檔案管理任務[3];楊智勇提出,檔案界應該順應技術發展的趨勢,在理論和實踐中積極探索數據智能技術與檔案工作的融合[4];岳幸暉等認為,人工智能在檔案管理中的應用圖景廣闊,但也面臨著制度風險、技術風險、倫理風險、監管風險[5]。總體而言,大多學者認為GPT能夠為檔案館提供技術支持,符合技術環境的發展趨勢。
檔案館智慧服務是指檔案館基于用戶的信息需求,以更加自動化和智能化的服務方式提供檔案信息服務。[6]其內涵可以概括為:借助于前沿信息技術充分挖掘檔案館特有的文獻資源,為用戶提供泛在化、細微化、個體化、差異化且隨時、隨地、隨心的利用服務。當前,檔案館服務在新技術賦能、信息化建設、便民服務等方面仍具有一定的滯后性。一方面,傳統檔案館服務僅能接收用戶簡單的搜索關鍵詞或查詢語句,難以準確捕捉用戶真實需求,導致在處理復雜問題時難以保證準確性;另一方面,公眾對檔案服務質量的要求日益提升,檔案查閱、檔案咨詢、檔案編研、檔案展覽等傳統服務方式難以滿足“數智”時代檔案用戶便捷化、知識化、高效化的服務需求,檔案服務需要由以資源為中心的“供給導向”轉向以用戶為核心的“需求導向”。如何提升檔案館服務水平,創新服務方式,滿足公眾的檔案需求,成為當下亟待解決的問題。GPT技術的應用恰逢其時。據此,本文旨在探討GPT技術在檔案館智慧服務中的應用,以及其對檔案管理效率和用戶體驗的潛在影響,通過深入剖析GPT技術的特點和優勢,為檔案學界和檔案館管理者提供關于智慧服務優化的實用見解和建議。
GPT具有創造性的內容生成能力、對話情景理解能力、序列任務執行能力以及多語言解析能力。[7]利用GPT,檔案館可以有效應對服務中的互動、推薦、傳播以及反饋等問題,從而提高檔案館的服務效能。
多源數據融合指的是將多樣化、異構性的數據源整合成統一的知識庫。檔案館擁有多種資料,這些資料可能具有不同的格式、結構和語義,因此其整合和應用具有復雜性。而GPT展示了其在多源數據融合方面的強大潛力。自然語言處理能力使其能夠對紙質檔案的數字化版本和電子檔案等文本數據進行語義理解和信息提取,從中提煉出關鍵的實體、事件和時間信息。且目前已上線的大模型Bing Chat、文心一言以及通義千問等,都具備聯網搜索功能,能夠進一步豐富檔案館內部的知識庫。在整合多源數據時,GPT通過文本處理技術將不同來源的數據進行自動轉換和歸一化,從而實現表達和語義的一致。借助GPT的數據融合能力,研究者可以更全面地了解歷史事件、人物和文物,實現多角度的深入分析和研究。
傳統的語言模型通常只能處理單個句子或短文本,而GPT通過Transformer架構中的自注意力機制,能夠捕捉長距離的依賴關系,實現對整個對話歷史的全局理解。這種全局視野使GPT在對話系統中展現出優異的上下文感知能力。第一,面對用戶的信息需求,相較于傳統的單輪問答模型,GPT能夠理解用戶之前的問題和對話歷史,可以更準確地滿足用戶的多樣化需求。第二,個性化服務是GPT多輪對話處理的另一重要應用。因其可以理解和記憶先前的對話內容,故而GPT能夠根據用戶的興趣和偏好為他們推薦相關的檔案信息和資源。
多模態處理意味著GPT不僅擅長處理文本數據,而且能夠處理多種其他類型的數據。GPT通過融合這些多模態數據,實現了跨模態信息的綜合理解和生成。例如,搭載GPT-4 內核的Bing Chat能為歷史照片生成相應的文字描述,或者解析錄音文件,使這些多模態資源更加容易理解和利用。值得一提的是,科大訊飛推出的智能大模型“訊飛星火”也具有相似的多模態處理能力。它可以根據語音或文字輸入內容生成圖片或視頻,并用于實現更為高級的多模態應用。多模態處理還有助于豐富檔案館的展示形式,提高用戶參與度。
多語言處理是指GPT能夠處理多種語言的文本,實現跨語言的交互和轉換。傳統的文本處理模型往往局限于單一語言的文本,GPT則具有較強的跨語言泛化能力,可以適應多種語言場景,靈活地處理多種語言文本,滿足不同語言用戶的需求。
在檔案館智慧服務中,GPT可以利用多源數據融合、多輪對話處理、多模態處理和多語言處理等技術特征,形成多樣化的應用場景,促進檔案館的智能化發展。GPT驅動檔案館創新場景將主要體現在四個方面:智能檔案咨詢與問答服務場景(Ask and Answer)、多媒體資源智能化管理與展示場景(Intelligent Multimedia)、跨領域知識融合與跨語言服務場景(Multidisciplinary Integration)、個性化檔案資源定制與推薦場景(Personalized Services)。基于此,本文構建了GPT賦能的檔案館服務應用場景,并命名為“AIMP”框架圖,詳見圖1。

圖1 GPT賦能檔案館服務應用場景“AIMP”框架圖
GPT在檔案館中可用作智能問答系統,以多輪對話處理技術為用戶提供咨詢與問答服務。用戶不再受限于特定的查詢方式,按照自己的意愿如實陳述需求,GPT便能快速推斷其可能希望得到的信息結果,并作出相應反饋。若結果不符合需求,用戶無需從頭調整查詢方式,只需告知軟件錯誤之處,GPT便可根據反饋調整檢索結果,大大提高了查詢效率。
GPT能夠利用多模態處理能力,對檔案館的多種媒體資源進行智能處理,實現圖文聯合的智慧展示,從而優化用戶的使用體驗,同時提高檔案資源的利用效率。現代科學技術的綜合應用能夠更好地幫助用戶營造出符合閱讀資源主題的閱讀環境,增強檔案文化編研產品的閱讀體驗感。[8]GPT能夠處理不同載體形式的檔案,幫助檔案館更好地組織和管理多媒體資源。在展示過程中,GPT可以將文字描述與圖像、音頻、視頻等媒體內容相結合,實現多媒體全方位展示。例如,在檔案展覽中,GPT可以為圖像提供文字說明,為音頻和視頻提供字幕或文字解釋,從而幫助用戶更好地理解和欣賞多媒體資源的內容和意義。
GPT利用多源數據融合技術,整合不同領域的檔案數據和知識,實現跨領域的知識交叉,促進檔案資源的跨學科研究。檔案館可以利用GPT的數據挖掘和分析功能,構建智慧決策咨詢體系,實現整合多源數據實時采集、大數據分析處理、數據可視化展示等功能。這一體系不僅能夠提供實時的數據分析與展示,而且能進行數據挖掘和語義關聯,從而揭示數據中潛藏的規律。借助GPT的跨領域融合能力,檔案館將從“檔案庫”轉變為“思想庫”“參謀部”“智囊團”,為決策提供前瞻性、有效性、科學性的支持。
同時,GPT的多語言處理技術賦予其處理多種語言的能力,實現跨語言文獻處理和多語言用戶服務,從而擴展檔案館的受眾范圍。美國圣路易斯華盛頓大學圖書館的“Interactive Exhibit”應用結合了類似GPT工具與增強現實技術,讓用戶可以跟虛擬文物互動,獲取文物相關的智能化解釋和介紹,享受沉浸式的跨文化體驗。[9]這一創新應用充分展示了GPT在檔案領域的前瞻性應用潛力。
在這個場景中,GPT利用多輪對話處理和多源數據融合技術,為用戶提供個性化的智慧服務,定制化展示和推薦符合用戶偏好的檔案資源。此外,GPT能夠整合來自不同渠道的檔案數據和知識,建立檔案用戶的興趣模型,結合用戶畫像特征,提供更加個性化的檔案資源定制和推薦服務。GPT也能根據紀念日、節日等特殊時期,智能推送相關內容。同時,用戶的檔案服務反饋得以智能收集和分析,從而動態調整服務,不斷更新、匹配,最大限度地滿足用戶需求。
檔案館推進GPT賦能智慧服務的落地應用時,可通過技術路徑、資源路徑、人才路徑和管理路徑四個方面來提升檔案館服務效能,加速智慧檔案館建設,實現智慧服務。
第一,建立高性能計算平臺和穩定的存儲系統。高性能計算平臺可以提升數據分析、處理和模型訓練的速度,從而實現更快速、高效的智能服務響應。通過結合云計算技術,檔案館可以根據實際需求彈性地調整計算資源,避免資源浪費,還能應對突發的計算需求,確保智能服務的穩定性和可靠性。第二,構建強大的存儲系統。云計算技術提供了高度可擴展的存儲方案,能夠根據檔案館的需求提供適當的存儲容量,同時實現數據的備份和冗余,確保數據的安全性和持久性。[10]這為GPT等智能應用提供了堅實的數據支持,保證了應用所需數據的及時性和可靠性。第三,GPT技術具有極快的進化速度,處于不斷迭代和更新狀態。檔案館需要密切關注生成式AI大模型技術的發展動態,不斷拓展檔案資源應用場景,提供創新性服務。
第一,加大數字化處理力度。數字化處理可以將檔案資料轉換為易于保存、管理和利用的電子文檔或數字數據,為GPT提供更廣闊的信息來源。通過數字化處理,檔案館可以將各類檔案資料進行整合存儲,建立豐富的數字化檔案庫。同時,檔案館通過構建知識圖譜可以形成全面且統一的知識網絡,這將為GPT提供更豐富的知識背景,使其在智慧服務中更加準確和全面地回答用戶問題。
第二,推動合作共享。檔案館可以通過與其他機構和平臺的合作,共享多方的數據、技術和業務優勢,拓展自身的資源來源,提高數據支持能力,為智慧服務提供更強有力的支撐。同時,檔案機構可以利用區塊鏈、人工智能、云計算等數智技術,打破數據壁壘和信息孤島,為跨省異地檔案信息資源的獲取和處理提供技術支持。例如,滬蘇浙皖檔案部門共同簽署了《長三角地區檔案部門重點協同項目備忘錄》,明確了全面推進長三角地區查檔“一網通辦”的總目標,市民只需通過實名驗證,即可在線查詢上海本地及蘇浙皖三省部分城市國家綜合檔案館的相關民生檔案,從而節省了大量時間成本和人力成本。[11]
隨著GPT等人工智能技術逐漸取代重復性、程序化的工作崗位,部分檔案館工作者將面臨職業風險,這必須引起高度重視。檔案數字人才隊伍的建設需要內部培養和外部引進兩方面的努力。一方面是人才引進。由于GPT等人工智能技術需要大量的數據支撐和算法優化,檔案館需要引進掌握信息技術的人才,以提高檔案數據資源的質量和價值,實現數據資源的深度開發和多元化利用。同時,檔案館也需要引進具有新媒體運營、用戶體驗設計、知識服務、參考咨詢等專業技能的人才,以提高檔案服務的創新性和互動性,實現檔案服務的個性化和智能化。另一方面是人才培養。檔案館需要培養員工的持續學習能力和創新精神,以適應數字時代的檔案工作轉型。檔案機構應加強協同[12],通過組織內部培訓、參與外部交流、開展項目合作等方式,提高檔案人員對GPT等人工智能技術的理解力和掌握力,增強檔案人員對檔案數據資源和檔案服務創新的能力和信心。
同時,檔案館需要強調人才的人文社會價值。盡管人工智能技術在發展,但人類的情感和人際溝通能力仍然不可替代。檔案工作者可以利用人工智能工具如GPT等賦能檔案服務,同時保持對用戶的同理心,用人類特有的情感和交流能力彌補技術的不足,增強用戶對檔案館的信任和依賴。
第一,規劃和戰略是智慧服務的引導和支撐。檔案館需要明確智慧服務的發展目標和路徑,制定詳細的發展規劃和實施方案。第二,用戶互動和溝通是智慧服務的需求和反饋。檔案館需要加強與用戶的互動和溝通,及時了解用戶需求,不斷優化和改進智慧服務。這包括收集用戶反饋意見,開展用戶滿意度調查,建立用戶意見反饋渠道等。通過與用戶的互動,檔案館可以了解用戶對智慧服務的需求和期望,發現問題和不足之處,并及時進行改進和優化。第三,項目管理和數據安全是智慧服務的保障。檔案館需要建立科學的項目管理機制,確保智慧服務項目的進度和效果。同時,需建立完善的數據管理和安全機制,保障檔案數據的安全和隱私。