999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成式人工智能輔助檔案編研工作的實現路徑構建

2024-01-01 00:00:00周海
北京檔案 2024年6期

摘要:生成式人工智能是指具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術。論文從政策基礎、技術基礎、實踐基礎三個方面分析生成式人工智能輔助檔案編研工作的可行性,并構建數據處理層、模型訓練層、智能應用層、機制保障層,為生成式人工智能輔助檔案編研工作提供方案。

關鍵詞:ChatGPT 生成式人工智能 檔案編研工作

2022年,ChatGPT(Chat Generative Pretrained Transformer)橫空出世,成為引爆輿論的焦點。它是Open AI推出的聊天機器人程序,是在模仿人類語言的大型預訓練語言模型(LLM)基礎上產生的一種生成式人工智能語言模型。經過多次版本迭代,ChatGPT從GPT-1進化到了GPT-4,可以執行多種任務,如多語種翻譯、文章摘要、角色扮演問答等。這種革命性的創新,掀起人們應用生成式人工智能創作內容的浪潮。在此背景下,生成式人工智能創新檔案編研模式,將促進傳統人工編研向自動化、智能化編研轉變,根據大量數據在不同的專業領域中構建知識圖譜,發現編研脈絡及相關資源,大幅提高編研效率,得出具有高可靠性的結論,產生優秀的編研成果。[1]

一、生成式人工智能概述

2023年7月13日,我國多部門聯合公布了《生成式人工智能服務管理暫行辦法》(以下簡稱《辦法》),指出生成式人工智能是指具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術。從現有的生成式人工智能模型來看,其功能特征主要體現為三個方面:一是強大的自然語言理解與交互能力。用戶可以使用自然語言與人工智能進行互動,實現“人機智能交互”。二是多元化應用場景的自適應能力。通過對數據集進行預訓練,并根據不同的應用場景進行微調,模型能夠適應各種不同的應用場景。三是開放場域的多模態內容創造能力。生成式人工智能能夠輸出文本、音像、數字人等不同模態的內容,實現了從“決策AI”到“生成式AI”,從“用戶生成內容”到“人工智能生成內容”,從“時空革命”到“知識革命”的技術躍遷。[2]從工作內容看,檔案編研工作實質上也是一項內容生成工作。生成式人工智能憑借其強大的數據分析和處理能力,為檔案編研工作提供了全新的輔助手段,能夠大幅提升檔案編研工作的質量和效率。

二、生成式人工智能輔助檔案編研工作的可行性分析

(一)政策基礎

《“十四五”全國檔案事業發展規劃》(以下簡稱《規劃》)指出:“創新檔案工作理念、方法、模式,加快全面數字轉型和智能升級”“積極探索知識管理、人工智能、數字人文等技術在檔案信息深層加工和利用中的應用?!薄掇k法》同時也是全球首部生成式人工智能領域的監管法規。除此之外,我國在科技發展、網絡安全、個人信息保護、互聯網信息等多個方面已發布了多項法律、行政法規等規范性文件,構成了人工智能領域多層級、立體化的規范治理體系,[3]為生成式人工智能在檔案編研工作中的應用提供了強有力的政策保障。

(二)技術基礎

從生成式人工智能的運行機制看,生成式人工智能的運行機制主要包括三個步驟:首先,數據收集與處理,包括數據收集、數據清洗、數據轉換等過程。其次,模型預訓練與模型微調。加工處理后的數據使用機器學習算法進行模型訓練,并根據應用場景特色和數據特征進行微調。最后,生成內容。模型訓練完成后,生成式AI可以利用已學習到的“知識”,根據輸入的指令,輸出新的內容。這與檔案編研工作的流程(選題、選材、加工、編寫)十分契合。從生成式人工智能的技術支撐看,人工神經網絡、深度學習和生成式對抗網絡(GAN)是生成式人工智能三個重要的技術支撐。這些技術積累為生成式人工智能在檔案編研工作的應用提供了良好的技術基礎,使生成式人工智能實現“思維類人”和“行為類人”,從而高質高效地完成檔案編研工作。

(三)實踐基礎

過去,單一的以紙質為載體的出版物是傳統編研成果的主要表現形式,其加工過程以文字校稿、圖片排版、布局調整為主,在形式上很難有突破和創新。[4]隨著新一代信息技術的發展,檔案編研呈現出編研素材廣泛化、編研手段技術化、成果形式豐富化、利用途徑多樣化的特征。[5]“AI+檔案”逐漸成為檔案事業發展的新趨勢。人工智能在檔案編研工作方面得以活化延展,針對檔案資源,收集信息需求,利用數據分析技術在原有檔案編目的基礎上進行二次、三次編研加工,形成系統全面的匯編成果,主動為機構工作提供參考。[6]以國網江蘇省電力公司為例,該公司已經建成一體化工程檔案利用平臺,包含基礎服務、系統首頁、全景展示、檔案利用、系統管理、權限管理6個模塊,以及42個核心功能,初步實現了基于線路工程檔案的智能輔助編研應用,并形成電子化、網絡化的編研成果。[7]

三、生成式人工智能輔助檔案編研工作的實現路徑

(一)數據處理層

1.多模態數字化采集。多模態數字化采集,即對各種不同形式的檔案信息資源進行數字化轉化,實現機器可識讀和處理。在新的信息環境下,信息技術的發展使信息形態愈發多樣化,檔案信息呈現出多媒體、多格式、多粒度的多模態特征。以名人檔案為例,其形式包括文本、照片、視頻等多種媒體,不同媒體的格式也各不相同,如視頻有AVI、WMV、Mpeg-4等多種格式。在信息粒度方面,浙江省檔案館建立了地方名人專題數據庫,并按時代、行業等維度進行細分,而江西省檔案館將收錄的數字名人檔案按行業和類別進行了劃分,[8]形成多種粒度的檔案信息?!兑巹潯访鞔_指出,要建設以檔案數字資源為主導的檔案資源體系,推進“存量數字化、增量電子化”。在檔案編研工作中,不同模態的數字檔案資源能為模型進行多模態訓練奠定資源基礎,使模型可以實現多種異構模態數據協同推理,有利于多模態數據傳播外需與高級認知智能內需相互促進。

2.多層級數據化組織。檔案資源數字化轉化后的數據,通過文字轉換規則利用“one-hot”編碼進行“詞向量”轉化,進而被模型識讀和處理。模型則通過“注意力機制”計算不同層級的“詞向量”編碼,即提取話語間的語義,從而輸出內容。因此,多層級數據化組織應包含兩方面的內容:一是數據預處理;二是數據深加工。前者是對所采集數字檔案資源進行預處理。后者即對預處理后的檔案數據進行文本挖掘和語義分析。基于深度學習算法提取檔案的特征信息,通過“檔案語義參照框架”[9]自動對非結構化檔案數據進行聚類整合,并按照文本、音頻、視頻、圖像等不同形式進行分布設計,形成分布式的具有語義關聯的結構化檔案數據集,即“檔案語境知識庫”[10]。檔案資源從“數字化”到“數據化”再到“知識化”,既有利于確保選材的真實可靠和齊全完整,又有利于快速檢索到所需要的檔案數據,大幅提升模型計算效率,使生成式人工智能輔助檔案編研工作成為可能。

(二)模型訓練層

1.基礎模型預訓練。生成式人工智能之所以“智能”,一是因為其基于大量的樣本數據進行了預訓練,通過訓練獲得理解人類意圖的能力,而不必額外執行理解自然語言的任務;二是因為其在預訓練中學到的“知識”沉淀在了大量的模型參數中,而模型越大,越智能。以ChatGPT為例,從GPT-1到GPT-3,參數從1.5億個增長到1750億個,增長了1000多倍。因此,模型預訓練成為生成式人工智能輔助檔案編研工作的關鍵環節。這關乎檔案編研工作是否足夠“智能”,能否生成高質量的檔案編研成果。由于檔案形式多樣,單一模態的模型不符合多樣化檔案編研成果需求的實際情況,應選擇融合模型訓練,如自然語言文本可以選擇RNN或LSTM模型,圖像可以選擇GAN、VAE、neural-en? hance或擴散模型。經過訓練的模型,可以從未見過的數據中做出有用的“預測”,即生成內容。

2.訓練方法與優化。首先,從已有的檔案編研成果中,選擇數量多且質量高的樣本數據對模型進行訓練,使模型學習檔案編研的“知識”,而海量的數據樣本能夠使模型在不同場景下通過對參數的調整來適應下游多種任務,進而提升學習語言結構的能力。高質量的樣本數據,能夠避免模型出現“幻覺”,即形成非基于真實數據生成的內容或信息。其次,選擇合適的訓練方法。根據訓練的檔案數據集是否有標簽,訓練方法可以劃分為監督學習(使用帶有標簽的數據來訓練模型)和無監督學習(使用沒有標簽的數據來訓練模型)。從數據類型看,檔案數據可分為結構化數據和非結構化數據。前者具有嚴格的格式和長度規范,更易于機器識別,可使用無監督學習進行訓練。后者需要人工對檔案數據進行標注,再使用監督學習進行訓練。最后,微調與優化模型。檔案編研模型需要根據檔案編研工作的特性和原則進行微調,并通過“強化學習+人類反饋”機制持續優化模型,以適應不同的檔案編研主題。

(三)智能應用層

1.智能人機交互。智能人機交互是生成式人工智能較為普遍的功能之一。在檔案編研工作中,智能人機交互應具備以下四個特性:第一,易用性。編者可以直接使用自然語言對生成式人工智能輸入指令,如檔案編研的工作規劃、主題挖掘、關鍵詞提取、內容總結等。第二,即時性。生成式人工智能實時響應編者的請求和反饋,不需要等待人工干預,還可以根據歷史對話分析上下文語境,進行多輪交互。第三,個性化。生成式人工智能可以根據編者對編研主題的個性化需求和偏好,提供定制化的服務和解決方案,從而更好地滿足編者的需求。第四,多模態。編者可以通過多種方式(如語音、圖像、文本等)與用戶進行交互,如輸入一張照片或一段語音,要求AI分析或總結其中的內容。

2.智能內容生成。一般意義上的機器學習或深度學習,可以分為生成式和判別式。以大事記編研為例,判別式人工智能需要先編寫“大事記”的規則,才能識別“何為大事記”,主要用于分類。而生成式人工智能通過訓練“大事記”標簽數據和非標簽數據,構建基礎模型,根據編者輸入的指令或內容,輸出新的“大事記”內容。因此,智能內容生成是生成式人工智能最大的特色。按照內容生成的類型,生成式人工智能可以分為以下四種類型:一是文本處理類。這種類型的生成式人工智能主要用于文本的處理和生成。例如,在國外,搜索引擎Bing和辦公軟件Office一般會接入GPT-4,實現檢索和辦公的智能化。二是計算機視覺類。這種類型的生成式人工智能主要用于圖像和視頻的處理與生成,如Midjourney、Stable Diffusion。三是音頻創作類。這種類型的生成式人工智能主要用于音頻的處理與生成,如Boomy、Riffusion。四是智能體類。這種類型的生成式人工智能主要用于模擬人類行為或進行智能決策。這些技術可以根據輸入的環境數據和其他相關信息,自動生成符合特定目標的新行為或決策。例如,PeopleAI和Historical Figures可以通過模擬與名人的聊天來教授學生歷史。隨著讀圖時代的到來,人們更加傾向于可視、可聽的信息接收模式,如新媒體與檔案編研工作的交融,催生了新的編研形式——微編研。[11]因此,檔案編研成果不應僅僅為單一模態的紙質檔案編研成果,檔案編研模型應集成多模態輸入和跨模態輸出功能應用,產出更多類型或復合型的編研成果,如文本到文本、圖像、視頻、音頻,或圖像到文本、圖像、視頻、音頻等。

(四)機制保障層

1.資源共享機制。資源共享機制是生成式人工智能輔助檔案編研工作的核心機制。資源共享機制主要包括兩個方面。一方面是檔案資源共享。由于各地經濟發展水平、管理水平、政策的影響,檔案資源共享問題始終制約著檔案工作水平。要發揮檔案存史、資政、育人的作用,實現檔案的價值,檔案編研工作必須走檔案資源共建共享的發展道路,為建設檔案知識庫進行檔案編研模型訓練奠定資源基礎。另一方面是模型資源共享。據統計,1760億參數的語言模型BLOOM的完整訓練需要排放大約24.7噸二氧化碳,而GPT-3一次完整訓練的二氧化碳排放量達到了驚人的502噸,提高了20倍。[12]因此,各自為政建設獨立的檔案編研模型顯然不符合我國綠色發展的道路。國外已有相關建設經驗,瑞典國家圖書館團隊利用NVIDIA DGX系統,開發了20多個開源的Transformer模型。這些模型每月被多達20萬名開發者下載,可以支持圖書館和其他學術機構的研究。[13]資源共享機制既可以減少重復建設成本,又可以避免各自為政的“信息孤島”現象的出現。

2.確權免責機制。確權免責機制是生成式人工智能輔助檔案編研工作的基礎機制。生成式人工智能在展現創造力的同時,也帶來了諸多風險和挑戰。以著作權為例,我國還未有對生成式人工智能著作權方面的規定。根據《中華人民共和國著作權法》,人工智能不是“人”且不足以成為“擬制人”。雖然人工智能生成的文字、音樂、繪畫、圖形等生成物具有作品的外觀,但是歸根結底屬于人類的智力勞動成果,其著作權也就屬于人類主體。[14]可見,生成式人工智能僅僅是一項輔助檔案編研工作的科技工具,檔案編研成果的著作權仍屬于檔案編研工作者或檔案編研機構。盡管生成式人工智能在技術上取得了巨大突破,在檔案編研工作中應用生成式人工智能時仍應盡量規避數據濫用、數據違規等風險。此外,還需要構建相關免責機制,為生成式人工智能輔助檔案編研保駕護航,讓檔案工作者以更加開放的心態積極擁抱新技術。

3.人機對齊機制。人機對齊機制是生成式人工智能輔助檔案編研工作的重要機制。人機對齊機制的核心是確保機器學習系統的目標與人類設計意圖相吻合?!掇k法》第四條第一款“堅持社會主義核心價值觀,不得生成煽動顛覆國家政權、推翻社會主義制度,危害國家安全和利益……以及虛假有害信息等法律、行政法規禁止的內容”;2021年9月25日,《新一代人工智能倫理規范》提出了增進人類福祉、促進公平公正、保護隱私安全、確??煽乜尚?、強化責任擔當、提升倫理素養等6項基本倫理要求。檔案工作具有政治性和機密性,涉及國家利益、社會利益和個人利益?;诖?,生成式人工智能輔助檔案編研工作應當嚴格遵守人機對齊機制,不得將其用于違反法律、違背道德的用途。正如喬布斯所言:“人工智能對未來社會起到重要作用,每一項技術都有可能被濫用。我們必須遵守正確的道德準則,確保人工智能的應用成果是有益的。”

四、結語

以ChatGPT為代表的生成式人工智能勢必會改寫內容創作的生態。利用生成式人工智能輔助檔案編研工作是時代潮流。理論上,生成式人工智能與檔案編研工作流程相契合。技術上,生成式人工智能可以通過自然語言處理、深度學習等技術,將大量的歷史文獻資料進行自動化處理,提取其中的關鍵信息,如時間、地點、人物、事件等,從而為檔案編研提供更加豐富、全面的數據支持??梢姡墒饺斯ぶ悄茉跈n案編研工作中具有廣泛的應用前景和技術基礎。

*本文系國家社會科學基金項目“中共云南地方組織沿革檔案資料整理及專題數據庫建設(1926—1950)”(項目編號:22BTQ084)的研究成果之一。

注釋及參考文獻:

[1]劉麗,王兆偉,張明智,等.生成式人工智能對檔案工作的影響——從ChatGPT談起[J].浙江檔案,2023(9):47-50.

[2]郭小東.生成式人工智能的風險及其包容性法律治理[J].北京理工大學學報(社會科學版),2023,25(6):93-105;117.

[3]劉紅林.中國AIGC創業,法律監管、政策匯總[EB/OL].(2023- 07- 31)[2023- 09- 30].https://mp. weixin.qq.com/s/A70bzUCi2K-wW_6WQtYUFA.

[4]李莎莎.信息化條件下檔案編研工作新思考[J].北京檔案,2021(4):25-27.

[5]吳志杰.新技術環境下檔案編研工作探析[J].北京檔案,2019(6):25-27.

[6]牛力,黎安潤澤,劉慧琳.融合、延展、重構:物理與數字雙空間業務轉型視角下的檔案信息技術應用思考[J].檔案學通訊,2023(5):19-27.

[7]王永梅,孫平.線路工程檔案智能輔助編研[J].中國檔案,2016(2):60-61.

[8]李耕華,鄒政民,田常清.我國檔案館數字名人檔案資源建設現狀研究——基于對31個省級綜合檔案館網站的調查[J].浙江檔案,2022(4):60-62.

[9]趙生輝,胡瑩,宋和平.檔案語義參照框架:邏輯、架構與實證[J].檔案學通訊,2023(1):53-60.

[10]趙生輝,胡瑩,宋和平.檔案文本語境知識庫建設理論與實踐研究[J].檔案學研究,2023(1):132-139.

[11]胡吉明,羅行,陳曄.新媒體環境下的檔案微編研內容結構研究[J].北京檔案,2022(6):16-20.

[12]車萬翔,竇志成,馮巖松,等.大模型時代的自然語言處理:挑戰、機遇與發展[J].中國科學:信息科學,2023,53(9):1645-1687.

[13] nvidia.瑞典國家圖書館利用AI解讀百年數據[EB/OL].(2023- 10- 13)[2023- 10- 15].https://mp. weixin.qq.com/s/sWWdQp-ek-aNACkivSCFVQ.

[14]徐家力.人工智能生成物的著作權歸屬[J].暨南學報(哲學社會科學版),2023,45(4):37-49.

作者單位:云南大學歷史與檔案學院

主站蜘蛛池模板: www.国产福利| 一本久道久综合久久鬼色| 免费一级大毛片a一观看不卡| 亚洲综合久久成人AV| 欧美成人精品高清在线下载| 亚洲欧美在线看片AI| 99热这里只有免费国产精品| 免费全部高H视频无码无遮掩| 欧美啪啪精品| 在线观看亚洲精品福利片| 激情综合婷婷丁香五月尤物| 亚洲国产成人超福利久久精品| 波多野吉衣一区二区三区av| 国外欧美一区另类中文字幕| 国产精品综合色区在线观看| 免费大黄网站在线观看| 亚洲色精品国产一区二区三区| 日本成人在线不卡视频| 久久久波多野结衣av一区二区| 新SSS无码手机在线观看| 欧美第二区| 熟女视频91| 福利视频一区| 伊人色综合久久天天| 亚洲乱码在线视频| 国产精品无码在线看| 亚洲午夜福利精品无码不卡| 国产毛片片精品天天看视频| 波多野结衣一级毛片| 国产三级国产精品国产普男人| 国产精品高清国产三级囯产AV| 日韩成人在线一区二区| 久久99久久无码毛片一区二区 | 日韩福利视频导航| 色婷婷视频在线| 久久一日本道色综合久久| 亚洲高清中文字幕| 免费毛片全部不收费的| 久久精品只有这里有| 亚洲va在线∨a天堂va欧美va| 自偷自拍三级全三级视频| 呦视频在线一区二区三区| 免费国产不卡午夜福在线观看| 国产区福利小视频在线观看尤物| 亚洲精品国产自在现线最新| 国产精品xxx| 亚洲国产成人在线| 素人激情视频福利| 青青草原国产精品啪啪视频| 高清久久精品亚洲日韩Av| 亚洲人成色在线观看| 日韩经典精品无码一区二区| 国产亚洲精品自在线| 国产综合无码一区二区色蜜蜜| 亚洲男人的天堂在线观看| 中文字幕丝袜一区二区| 热思思久久免费视频| 青青草一区二区免费精品| 中国一级特黄大片在线观看| 国产高清国内精品福利| 亚洲国产精品国自产拍A| 欧美怡红院视频一区二区三区| 天堂在线www网亚洲| 日韩天堂视频| 狠狠做深爱婷婷久久一区| 欧美一级夜夜爽| 国产精品久久久久久久久| 狠狠五月天中文字幕| 狂欢视频在线观看不卡| 国产青榴视频| 免费人成视网站在线不卡| 亚洲欧美一区在线| 久久黄色视频影| 伊人激情综合| 亚洲高清中文字幕| 黄色网址手机国内免费在线观看| 亚洲一级毛片| 国产美女一级毛片| 1769国产精品视频免费观看| 成人永久免费A∨一级在线播放| 日韩高清成人| 亚洲区视频在线观看|