楊晶晶/中國計量大學檔案館
人工智能生成內容(Artificial Intelligence Generate Content,下簡稱AIGC),通過人工智能實現文本、圖像、音頻、視頻及其跨模態間的內容生成,可用于繪畫創作、文本寫作、音像生成、游戲開發等多種類型的內容創作。AIGC技術是生成算法、預訓練模型、多模態等人工智能(AI)技術的累積融合[1]。傳統AI利用機器學習技術學習數據分布,在文本識別、語音識別、圖像識別、運營決策、風險評估和醫療診斷等領域廣泛應用。生成式人工智能[2]在歸納數據分布的基礎上,學習數據產生的模式并創造新樣本,實現在文字創造、圖像語音生成、代碼生成等領域的技術應用。AI領域正在經歷從感知、理解到生成、創造的躍遷。
截至2 0 2 3 年5 月2 6 日,在中國學術期刊網以“AIGC”“ChatGPT”“生成式人工智能”“生成式AI”為主題檢索近三年發表學術期刊675篇,與檔案學相關文獻2篇,探討了ChatGPT實現檔案數字化、檔案鑒定、檔案分類和檢索、檔案保護和安全等多種檔案管理任務[3],提出了ChatGPT火爆背后的冷思考[4]。從文獻學的角度,AIGC技術在檔案領域的研究和應用還剛剛起步。《“十四五”檔案事業發展規劃》提出“推動檔案工作與新技術深度融合,為檔案事業發展提供持續動力”。AIGC作為一種新型內容創作方式,給文化、教育、金融、娛樂和公共服務等諸多領域帶來了積極影響,本文擬在檔案視角下探索AIGC技術的多種應用場景,為數字時代下的智慧檔案建設創新尋找新的思路。
AIGC具有三大前沿能力:智能數字內容孿生能力、智能數字內容編輯能力和智能數字內容創作能力[5]。技術被廣泛應用于文本、音頻和視覺等不同模態數據,形成了豐富多樣的技術應用,在檔案的視角下,AIGC技術可深度賦能檔案文化遺產保護、服務利用及資源開發、公共教育與文創開發等領域。
智能數字內容孿生能力構建了現實世界到數字世界的映射,是通過對客觀世界內容感知、理解的基礎上,以多模態數字化內容呈現的形式實現對原物理世界的模擬復刻和場景再現。
一是數字修復還原新視覺。AIGC視覺模型通過對作品屬性特征和元素搭配的理解,在海量數據中進行知識和分布學習,實現高質量的數字修復。《富春山居圖》被毀于300多年前,百度文心利用“視覺生成大模型+單樣本微調”的技術策略,完成了高清晰度、高還原度的殘卷修復。數字智能增強能力可應用于照片、音頻、視頻等聲像檔案的修復,采用大模型去除破壞干擾因素,實現多維音、畫質增強和提升。在三維視覺領域,智能增強技術克服了傳統數字化采集的局限,保留了三維世界的深度、材質和光照等重要信息,對場景及細節進行快速和精準的復刻。全球首個超時空參與式博物館“數字藏經洞”真實再現了敦煌百年前藏經洞及室藏6萬余卷文物的珍貴歷史場景,項目還開發了沉浸式遠程會診系統,實現無障礙遠程文物會診。互動紀錄片《古籍尋游記》在不傷害文物的低噪情況下重建了敦煌石窟中文物的三維結構。
二是聲像檔案傳承新聲音。語音智能轉譯技術已用于重大活動的實時建檔、口述檔案的實時轉寫、音視頻檔案數據化以及實時字幕輔助等場景。2019年,浙江省檔案館在全國率先使用科大訊飛檔案機,實現口述歷史采集室建設運行、重點檔案保護與開發等工作中的成果轉化及推廣。AIGC語音合成、圖像合成等多模態融合技術的應用可實現“故人重現”“經典回溯”“古今同臺”等場景[6],使深藏在檔案館里的偉人聲音、非遺藝術等聲像檔案“活”起來。世界首部人工智能配音紀錄片《創新中國》通過AI學習已逝著名配音藝術家李易老師過往紀錄片的聲音資料合成配音,讓李易的聲音重現。技術的應用還有助于民間聲像檔案的動態傳承,我國“地方方言檔案資料庫”由于開發缺乏方言元數據標準和國標音標著錄等因素影響,庫內資源大都停留在靜態保存的階段[7],借助AIGC技術可生成形式多樣的方言學習素材,讓即將消失的鄉音重新發聲,使豐富的地方文化得到有效的傳承。
AIGC智能數字內容編輯能力構建了數字世界與物理世界間的交互通道。新一代知識增強大語言模型(LLM),以谷歌BERT、OpenAI的GPT和百度文心等為代表,為人機交流提供了智能的交互方式。自然語言處理技術的引入,可實現文本信息的抽取、自動摘要分類和數據分析等操作,通過對內容的語義理解,從研究問題中衍生出新的發現,實現對資源的開發。
一是檔案智能檢索交互新轉變。傳統的檔案信息檢索通過輸入檢索詞等方式進行模糊檢索,增加了非專業利用者的搜索和利用難度。大語言模型的運用,用戶可通過自然語言交互的方式獲得需要的信息,還可對后續問題展開更深層的知識拓展。搜索引擎正逐步實現從“模糊搜索”到“精準推送”的轉變。ChatGPT是文本生成式AIGC的典型代表,基于人類反饋的強化學習(RLHF)技術解決了如何使AI模型產生與人類常識和認知、需求和價值觀保持一致的難題,它的出現將計算機理解人類語言和反饋解決方法水平提高到全新的層次[8]。微軟集成ChatGPT的新版Bing根據用戶的想法調整搜索查詢,能通過對話的方式調整搜索結果,優化檢索體驗。
二是檔案社會關懷價值新體現。AIGC技術在文本、圖像和音視頻間多模態的相互轉化,將檢索結果按照用戶所能接受的最佳模態呈現,為我國數量龐大的視障、聽障、感官逐漸衰退的老年群體以及智能設備使用無力的邊緣人群提供多維感官的交互體驗[9],可實現個性化檔案服務與社會化人文關懷的完美結合。對于特殊群體,智能檢索在社會關懷價值上的體現也更趨多元化,百度輸入法搭載文心PLATO對話大模型推出AI侃侃功能,為用戶提供真實的情感陪伴式聊天服務,用戶在知識獲取的同時,體驗真實的情感陪伴,讓冰冷的知識更有溫度。
三是檔案編研開發挖掘新深度。傳統的信息組織思路是基于學科、主題、關鍵詞等所反映的少量特征信息,而生成式AI可依據的特征維度更豐富,知識組織之間細粒度和關聯性更突出。通過對文本的數據分析與知識發現,識別文本信息共性并關聯相近內容,實現深入內容層面的檔案開發,形成豐富的檔案資源開發成果,促進人文研究領域從文本梳理到知識鏈接、從信息檢索到知識發現的轉變。耶魯大學“讓二戰大屠殺受害者發聲(Let Them Speak)”項目,在近3000份大屠殺幸存者留下的視聽材料和文字證詞中,以文本挖掘和可視化技術幫助研究者探尋檔案記錄背后更深層次的語義關系和集體記憶[10]。瑞典國家圖書館使用開源Transformer模型對26PB的瑞典語數據創建數據集,幫助語言分析人員回顧瑞典語幾個世紀的演變。
AIGC智能數字內容創作能力使計算機從對數據的理解上升到對數據的創作。從數據中學習抽象概念,并基于概念創作出新的內容,包括了AI視頻創作、數字人、劇本創作、游戲開發等。我國檔案館公共教育活動多以參觀庫房、觀看展覽、影片、聽講解等傳統形式為主,未充分考慮教育群體的特點和需求[11]。AIGC技術的應用為不同群體策劃知識服務活動,實現知識傳授和互動實踐的良性循環。
一是檔案主題動漫啟蒙新思路。“檔案教育從娃娃抓起”,針對年齡段較小的教育群體,檔案動漫等形式更容易被接受。AI短片制作可實現AI動畫表演、場景和角色生成、細節動態效果生成、自動布光渲染、虛擬拍攝及衍生品開發等。微軟NUWA-XL人工智能僅用16句描述詞生成了長達11分鐘的2D動畫。Netflix、微軟小冰日本分部、WIT STUDIO共同創作了首部發行級別AIGC動畫短片《犬與少年》。首部AIGC中文漫畫《ARES覺醒》已在騰訊動漫平臺上連載,藝術家王睿將高澤龍小說《元宇宙2086》文本轉化為可視圖像,實現了AIGC生成完整情節的漫畫[12]。以AIGC輔助開展檔案主題動漫的創作為幼兒檔案文化和意識的啟蒙開拓了新的思路。
二是檔案數字人互動新體驗。針對青少年群體,兼具知識性和互動性的虛擬數字人更符合其發展特點。2021年元宇宙概念盛行,國內外虛擬數字人扎堆出現。這一階段,虛擬人大多存在“動作神態僵硬、對話交互性弱、視頻效果粗糙”等缺陷,宣傳意義大于實踐。隨著AIGC技術發展,技術平臺依靠短時間的視頻素材進行多模態預訓練,可實現小樣本快速定制虛擬人產品,在人像驅動、智能對話和語音交互等領域也逐漸成熟。通過給予數字化檔案訓練語料,虛擬數字人可充當不同年齡段學習群體的檔案數字助教和孿生學伴,提供檔案智能問答、沉浸式情境教學、交流研討等知識服務,為青少年群體提供更逼真、更人性化的交互體驗。
三是檔案劇本創作開發新視角。數字內容創作為歷史文化檔案的開發創造了新的視角。技術通過對多模態歷史檔案數據的分析歸納,按照預設風格快速生成劇本方案,為檔案開發人員進行篩選和二次加工開拓創作思路,以文案設計、劇本創作、游戲開發等形式實現歷史的重現。“世界記憶·中國文獻遺產創意競賽”獲獎項目:劇本殺《歷獄1665》,根據中國第一歷史檔案館藏的24件清朝內閣秘本檔為劇本創作對象,實現了歷史事件的創新開發。除了文案、劇本設計等形式,AIGC技術還可應用于游戲中的智能NPC、場景建模、AI劇情、AI繪圖等方面,為檔案故事創作的解密游戲、劇情游戲提供技術支持。
檔案系統的部署和使用大都在局域網或者政務網,調用檔案數據的敏感性、安全和合規性最為關鍵。現行較為流行的直接調用外部模型接口的方式可能引發檔案資源的跨境泄露,如檔案信息被惡意使用或濫用,將引發深度合成詐騙、誹謗、假冒身份等新型違法犯罪行為。同時,在利用AIGC技術向用戶提供在線檔案服務與多場景交流互動過程中留下的個性特征、常用服務、辦事習慣等用戶隱私信息會通過人工智能跟蹤、統計、分析等途徑留下痕跡,在更好地為用戶提供信息檢索、業務問答、文創推薦等智能服務的同時也增加了用戶隱私泄露的風險。因此,在確保檔案數據信息和用戶隱私安全的前提下,自主研發部署適合于檔案部門的訓練模型,妥善應對數據來源、訓練、組織、輸出等各個環節的風險挑戰。
AIGC技術可完成語音轉寫、多語言音畫同步、智能視頻剪輯、概念圖優化、劇本生成等多項創作初期任務,將部分流程性、重復性勞動的工作自動化,提高工作效率和準確度。但對于類似紅色檔案精神挖掘、特色檔案記憶傳承、傳統檔案價值觀體現等具有深層次價值導向的編研及利用開發無法發揮人類在提升內容價值、精準分析事物、妥善處理情感元素等方面的優勢,無法替代人類完成決策性的生成任務。因此,需要創作者在生成技術的輔助下進行篩選和二次加工,采用人機協作的工作方式,深度挖掘檔案中蘊含的歷史、文化、精神等獨特價值。
生成式人工智能輸出數據的可信性很大部分取決于原始訓練語料數據集的專業性。檔案中存在著較多非標準化語言和文檔格式,小部分數據化后的文本檔案數據質量欠佳以及檔案中因不同地區語言及背景文化產生的差異等等,都容易產生非專業性、非標準化訓練語料,導致生成輸出數據產生虛假、瑕疵信息和不專業信息。因此,需要加強檔案數據標準化和規范化建設,構建高質量、專業性的訓練數據集和生成內容質量評價標準。
生成式AI模型的實現需要強大的計算資源和存儲設備來支撐訓練和推理過程,自建IDC數據中心等基礎設施的成本昂貴,對于檔案部門來說是難以承受的。同時,為保證模型的精度,參數訓練量一般需達到百億、千億到萬億級別,對文本和聲像檔案數據化的數據量和準確度要求極高,檔案部門現有的電子檔案數據量難以滿足。為此,需進一步加強檔案數據化建設,合理選擇預訓練模型、高性能芯片和AI服務器集群,抽取生成場景化、定制化、個性化的輕量級模型,實現在不同功能場景的開發和部署。
人工智能生成作品存在侵權和被侵權雙重風險。我國現行知識產權法律體系對權利享有法律主體的邏輯界定導致AIGC作品存在著著作權歸屬不清的現實困境;此外著作權法未對數據挖掘等智能化分析行為的合規使用性進行明確,此類行為執行過程極可能構成著作權侵權。《生成式人工智能服務管理暫行辦法》將于2023年8月15日正式施行,從監督制度上促進生成式人工智能服務的健康發展和規范應用。