



摘 " 要:目前,我國古籍文獻的數字化以文獻掃描、粗粒度文件管理等淺層知識服務為主,生成式人工智能技術的發展為古籍文獻數字化的深度化提供了新的機遇。文章基于框架語義學理論構建置標語義邏輯結構框架,以生成式邏輯向大語言模型提出問題,遞歸提取古籍語料中深層語義內容,并將其輸出為符合置標語義框架的結構化數據,使古籍文本在基礎語義層面獲得統一的處理邏輯。古籍自動置標語義框架能夠實現大規模自動化古籍文獻內容結構生成式表征,為古籍整理智能化轉型提供一種自動可行的技術方案。
關鍵詞:古籍文本;生成式表征;自動置標語義框架;大語言模型
中圖分類號:G255.1 " 文獻標識碼:A " DOI:10.11968/tsyqb.1003-6938.2024025
Research on the Construction and Application of Automated Semantic Framework for Ancient Texts Based on Generative Logic
Abstract Currently, the digitalization of ancient Chinese texts primarily involves basic document scanning and coarse-grained file management. However, the development of generative artificial intelligence technologies offers new opportunities for advancing the depth of digitalization of ancient texts. Based on the theory of frame semantics, this article constructs a semantic logical structure framework for semantic tagging. It poses questions to large language models using generative logic, recursively extracts deep semantic content from ancient text corpora, and outputs it as structured data conforming to the semantic tagging framework. This enables ancient texts to be processed with a unified semantic logic at the basic semantic level. The automatic semantic tagging framework for ancient texts can achieve large-scale, automated generative representation of the content structure of ancient documents, providing an automatically viable technical solution for the intelligent transformation of ancient text organization.
Key words ancient texts; generative representation; automatic semantic tagging framework; large language models
古籍為中華文明之瑰寶,亦為賡續中華文脈之基石,我國作為一個擁有悠久歷史的文明古國,古籍文獻類型多樣、卷帙浩繁。新中國成立伊始,黨和國家就高度重視古籍工作,成立專門機構負責古籍的系統整理和出版規劃。改革開放以來,中央進一步強調了古籍整理工作的重要性,發出《關于整理我國古籍的指示》[1],并建立了相關規劃小組,以推進古籍事業的進步。黨的十八大之后,黨中央從民族復興的戰略視角出發,做出了一系列促進傳統文化傳承與古籍保護的決策部署,古籍工作取得新的顯著成果。2022年,隨著《關于推進新時代古籍工作的意見》的發布和全國古籍工作會議的召開,古籍保護和傳承工作得到了全面部署,并明確了具體的要求[2]。隨著信息技術的飛速發展,數字化手段已成為保護與傳承古籍資源的核心路徑,古籍數字化作為新時代古籍保護與利用的重要增長點與著力點,應充分利用先進科技為古籍工作注入新動能,進一步激發古籍的生機與活力[3]。
雖然古籍文獻數字化工作已得到了學界和業界的廣泛關注,但整體而言,中國古籍數字化還處于初級階段。據統計,我國現存的20多萬種古籍中,只有40%完成了影像數字化掃描,接近20%完成了文本數字化[4]。實現古籍文獻由紙本形式向數字化的轉變,僅是發掘這些珍貴文化遺產的初步舉措,要深度挖掘古籍文獻中蘊藏的文化精髓,亟待對其內容結構進行精準而有效的表征,以此提升古籍文獻數字化與生成式人工智能技術的融合度,同時適應數字化時代的需求。
古籍文獻內容結構的生成式表征,是指借助先進的人工智能與自然語言處理技術,以結構化的模型為參照,深入剖析古籍文獻的內容結構,進而形成具備結構化特征的表示形式。這一表征方式不僅有助于人們深入理解古籍文獻的內在組織邏輯,而且能夠生成古籍文本數據,以供計算機高效處理,為文獻數字化、索引、檢索及深入分析提供堅實的基礎,從而推動古籍文獻在現代社會的廣泛傳播與利用。2022年11月,以美國公開人工智能實驗室(OpenAI)推出的ChatGPT為代表的生成式人工智能模型取得革命性突破,標志著人類正式進入生成式人工智能(Artificial Intelligence Generated Content,AIGC)時代,古籍數字化建設的智能轉型迎來了前所未有的新機遇。此背景下,本研究旨在揭示古籍文獻的內容結構,并基于生成式人工智能技術,構建一套自動化古籍內容結構生成式表征參照框架——自動置標語義框架,以期為古籍文獻的發掘工作提供全新的技術手段和方法,從而推動我國古籍信息化建設的智能轉型。
1 " 相關研究回顧
1.1 " "古籍文獻的序化整理相關研究
中國古代文獻整理多采用分類方式。西漢劉歆編纂的《七略》是中國首部官修目錄和目錄學著作,標志著圖書分類法的開端,并引入了學術源流的小序方式。此后,包括《崇文總目》《通志·校讎略》《文淵閣書目》《校讎通義》《四部叢刊目錄》在內的多部作品繼續沿用并發展了這一體系。特別是《永樂大典》和《四庫全書》,不僅體量龐大、內容廣泛,且成為后世研究中國歷史與文化的重要資料,為古籍研究提供了豐富的歷史資料和珍貴的文化遺產。
在源遠流長的中華優秀傳統文化傳承歷程中,以目錄學為代表的古籍序化整理方法(收集、分類、編目),固然發揮了不可或缺的作用,也推動了古籍文獻資源的傳承、發掘與利用。隨著古籍文獻數字化的推進,古籍的物質載體與文本信息得以相對獨立,顯著提高了跨時間的文獻流通和共享效率,開啟了古籍保護與利用的新篇章[5]。然而,迄今為止,無論是傳統的目錄學方法,還是數字化技術的應用,仍然面臨諸多缺陷:首先,現有古籍數字化方法主要依賴于傳統古籍文獻的掃描、整理和知識庫構建[6],這些方法以粗粒度的文檔/文件管理為主,缺乏對古籍內容的細粒度數據管理。其次,現有古籍數據挖掘方法主要依賴于淺層統計,缺少先進技術的應用。第三,現有序化整理方法主要以古籍文獻的檢索查詢為主[7],用戶檢索得到的結果是“文檔/文件條目”,而不是主題高度相關、內容邏輯關聯的“知識發現”。第四,古籍文獻的內容往往晦澀難懂,其中蘊含著深厚的專業知識壁壘,其獨特的語法規則、紀年方式、地理名稱、機構名稱以及人員名稱等要素,與現代社會存在顯著差異。更為復雜的是,古籍文獻中還存在“一詞多義”和“多詞一義”的現象,這使得古籍文獻的語義消歧問題變得尤為突出。若不對這一問題加以妥善解決,后續的古籍數字化應用服務將難以順利開展,這無疑將嚴重制約古籍文獻在新時代的傳承與利用。
當前古籍文獻的序化整理亟待由形式特征的描述轉向自動化、大規模的深度內容挖掘與表征。生成式人工智能技術的快速發展,為上述問題提供了一個可能的解決方案。
1.2 " "生成式人工智能技術的興起和古籍數字化的新趨勢
2014年,生成式人工智能技術取得重大進展,Goodfellow等人提出了生成對抗網絡(Generative adversarial network,GAN)[8],由生成器和判別器組成,通過互相競爭不斷優化,最終生成逼真的數據。此技術推動了包括變分自編碼器和自回歸模型在內的生成式模型的發展。近年來,隨著技術與算力的提升,生成式人工智能技術得到顯著突破,催生了如ChatGPT和文心一言等多種模型,得益于其豐富的訓練數據和先進的注意力機制,這些大語言模型展現出了卓越的語言處理、提煉、整合和生成能力[9]。
我國古籍數字化的工作已經發展了三十多年[10],古籍數字化的核心任務是將幾千年的古籍文字符號轉換為計算機能夠識別的數字符號[11]。近年來,隨著數字人文研究的日益興盛,眾多學者紛紛指出,古籍數字化工作不應僅僅滿足于淺層次的轉換與呈現,而應朝著更深層次的研究與發展方向邁進,主張衍生出一種全新的古籍整理范式,即古籍知識的數據化整理,以期更為精準、全面地挖掘和傳承古籍中蘊含的深厚文化內涵[12]。學者們進行了深入地思考,在基礎技術和實踐計算兩個方面都取得了一些進展(1)在基礎技術研究方面,古籍整理呈現出對古籍文獻內容細化編目的需求,將古籍文獻轉化為可分析、可處理、可挖掘的古籍數據。周文杰、文玉鋒等分別基于時間維度和地域維度對百年簡牘研究的主題特征進行了分析,為古籍文獻的內容挖掘與動態表征提供了依據[13-14]。劉暢等深入探討了古籍分詞技術,開發了一款適用于繁體古文的分詞工具,為數字人文領域的研究貢獻了文本處理方法[15]。趙連振等研究了古籍自動標點技術,基于深度學習構建的模型在標點預測方面的準確率和召回率達到了95%[16]。胡昊天等研究古籍殘本分類,在《四庫全書》的子部分類中構建了自動分類模型,準確率高達95.3%[17]。(2)在實踐計算研究方面,通過知識組織、本體構建、數據挖掘等手段,旨在實現古籍內容從數字化到數據化的轉變。吳茗采用地理信息系統的思路對古籍信息進行挖掘,結合古籍的空間數據和屬性數據,通過地圖數據與文本內容的融合,為用戶提供了一種立體的資源檢索和可視化展示方式,改變了文史研究的視角和維度,還通過構建古籍時空分布系統,強調了時間和空間維度的特征[18]。夏翠娟等深入研究了關聯數據技術,探討了其實踐應用路徑[19]。上述研究為古籍數據化整理開發提供了整體實踐框架,具有重要的學術價值。
古籍文獻數量龐大,結構復雜,內容晦澀,開展大規模細粒度整理開發仍是個巨大挑戰。但生成式人工智能技術通過海量古籍訓練數據和強大算力,突破了物理載體的限制,實現了大規模古籍文本的語義關聯處理,是推動粗粒度、淺層次古籍文檔化整理開發走向細粒度、深層次古籍文本數據化整理開發的必由之路。面向古籍文本整理需求和存在缺陷,本研究設計了一個基于生成式人工智能的通用自動置標語義架構,該架構能夠深入揭示原始古籍文本的內容結構,這對加速古籍資源的轉化和利用、推動古籍整理的智能化轉型升級至關重要。
2 " 古籍文獻自動置標語義框架原理解析
置標語義框架原理由理論基礎和構建邏輯兩部分所組成,前者決定了其核心理念,以現代認知語言學當中的框架語義學理論為指導,后者決定了其基礎結構和規則。簡言之,古籍文獻自動置標語義框架是一種工具性元語言符號系統,采用YAML語言設計[20]借助生成式人工智能技術,對古籍內容進行結構化表征的參照框架。所謂工具性元語言符號系統指的是用于描述和定義古籍文獻語義信息的一種語言系統,它不直接表示古籍文獻的實際內容,而是提供了一套元數據模型和關聯規則,用于指導生成式人工智能如何解釋、處理和生成古籍文獻中的結構語義信息,它是作為古籍生成式結構化表征和生成式人工智能技術間邏輯中介的工具,致力于在生成式人工智能技術的支撐下,實現古籍文本的結構化、語義化。
2.1 " "框架語義學理論基礎
“框架理論”由美國麻省理工學院人工智能實驗室的馬文·明斯基于1975年提出。在這一理論中,框架是指存儲在人的大腦中與典型情境相關的基本知識結構,構成了基于以前記憶的“知識空框”,用來限定認知范疇的大致結構,具體內容則根據不同的認知情境進行填充、修改或更新[21],使得人們能夠快速理解并處理各種信息??蚣芾碚撜J為,人們之所以能夠迅速理解文本含義,是因為大腦中已經存儲了與同類文檔相關的認知框架,對于熟悉認知框架的人來說,他們能夠快速將文字符號與其代表的語義信息聯系起來,從而快速完成對文本內容的結構化解析。要使計算機系統具備類似于人類的高質量且合理的閱讀和理解檔案文本的能力,不僅需要將大量的古籍文檔提供給計算機,還需要將人們閱讀古籍文本所依賴的認知框架提供給計算機,即構建古籍領域置標語義框架。通過引入語義框架,生成式人工智能可以更好地理解生成內容的語義信息,從而更準確地生成符合語義規范的內容。
2.2 " "古籍文獻自動置標語義框架構建邏輯
古籍文獻自動置標語義框架的構建邏輯首先涉及將復雜的古籍文本通過邏輯降維簡化為結構化數據。其次,為每個語義元素賦予唯一標識符以消除歧義,并通過邏輯關聯整合不同維度的數據以形成統一的語義體系。最后,采用邏輯嵌套進一步細化文本結構,使得生成的數據既精確又具有層次性,從而有效支持古籍的數字化處理和智能化分析。
第一,古籍文本邏輯降維。這一過程的主要目的是將古籍文本中包含的各種細粒度語義要素轉換為數據形式,這意味著將原始文本數據進行降維,將其分解為數量有限且單一維度的數據集合。這種處理方式使得原本復雜的自然語言文本被轉換為計算機可以有效處理的結構化形式。然而,古籍文本往往十分復雜,無法完全轉換為數據形式,因此需要參考置標語義框架,提取出較為重要的關鍵信息進行轉換,如在古籍文本“呂不韋者,陽翟大賈人也。往來販賤賣貴,家累千金。秦昭王四十年,太子死”中,若將古籍生成式置標語義框架設計為lt;人物gt;lt;時間gt;lt;事件gt;三個單一維度,則上文提到的古籍文本可以根據此語義框架通過生成式人工智能技術進行自動邏輯降維和信息表征,生成結果為“人物:{lt;人物gt;呂不韋lt;人物gt;}、時間:{lt;時間gt;秦昭王四十年lt;時間gt;}、事件描述:{lt;事件描述gt;太子死lt;事件描述gt;}”。
第二,古籍語義要素邏輯指代。這一過程要求語義框架為古籍語義要素賦予唯一標識符,消除歧義,更準確地標注和表征古籍內容。如在古籍文獻中存在著人物稱呼、地名重名等情況,如孔子、孔丘、孔仲尼,金陵、江寧等,雖然人類能夠根據上下文和相關領域知識有效地區分這些語義沖突,但對于計算機而言,僅依據文本差異進行信息分析可能會出現理解偏差或歧義。因此,語義框架對每個語義要素設置唯一標識符,用于在系統中準確地標識和區分該實體,以確保古籍語義要素在整個系統中是唯一的,不會產生混淆或歧義。
第三,古籍語義化邏輯關聯。語義化邏輯關聯是指以事件場景或主謂賓邏輯為中心,通過結構化語義框架將分別位于不同維度的古籍數據聯結為同一邏輯體系。如原始古籍文本“呂不韋者,陽翟大賈人也。往來販賤賣貴,家累千金”,其語義架構由lt;主語gt;lt;謂語gt;lt;賓語gt;語義邏輯要素構成。邏輯關聯指根據語義架構,將經過降維處理的多個單一維度古籍數據整合關聯起來,以構建出對特定文本的全面描述,“lt;主語gt;呂不韋lt;主語gt;,lt;謂語gt;販賤賣貴lt;謂語gt;,lt;賓語gt;家累千金lt;賓語gt;”就是由古籍文本中抽取的多維度數據基于事理語義邏輯進行關聯之后形成的語義數據集。通過上述邏輯關聯的有效運用,能夠將原始古籍文獻中散亂無序的信息進行有機整合,形成關于特定事件或場景完整且結構化的視圖。
第四,古籍文本層級邏輯嵌套。文本層級化是指對古籍文本的逐層細化過程,其中每一層都將原本作為整體存在的文本或模塊劃分為若干更小的模塊[22]。文本層級邏輯嵌套是指在古籍置標語義框架中,信息以嵌套的形式組織,每個層級的信息都可以包含更詳細的子層級信息。如lt;主語gt;呂不韋lt;主語gt;,lt;謂語gt;販賤賣貴lt;謂語gt;,lt;賓語gt;家累千金lt;賓語gt;。對于非邏輯嵌套形式的簡單語義要素,如本例中的動作要素“販賤賣貴”,可以直接映射到語義架構中相應的位置,而對于被指定為邏輯嵌套內聯形式的主體要素,如“呂不韋”,則需要進一步解析其內部的細節信息。假設“呂不韋”中嵌套了“人物”語義要素,需要遞歸地分析這些細節,如籍貫、性別、職務等。通過文本層級嵌套形式構建的置標語義框架可以遞歸調用生成式人工智能模型,從而實現對古籍文獻內容結構的深度和層次化信息表征。
因此,古籍生成式表征基本思路首先應該將古籍領域文本邏輯結構知識予以“外化”,形成可供參考的古籍文獻生成式置標語義框架。其次參照置標語義框架,依托于生成式人工智能在古籍文本中自動嵌入結構或者語義標記,將人對古籍文本結構的理解轉換為生成式人工智能可以識別、共享和處理的形式。最后,利用生成式人工智能技術和置標語義框架,古籍文本能夠自動生成符合置標語義框架的深層次結構化表征數據。
3 " 古籍文獻自動置標語義框架設計
生成式邏輯下古籍文獻置標語義框架需要對古籍文本的邏輯結構予以“外化”,并轉化為符合生成式人工智能處理邏輯的結構化形式。梁繼紅提出的歷史文本數字化整理方法是一個逐步深化的多層次建構過程,從“文本的基礎閱讀層”起步,將“元數據層構建”作為橋梁,逐步實現“文本內部數據化加工”,最終演化為“知識探索層的數據分析和可視化”[23]。本研究借鑒上述漸進式數字化整理過程,對古籍文獻自動置標語義框架應用過程和古籍文獻生成式表征過程進行了解析。該過程主要包括古籍文獻數字化、基于生成式人工智能語義框架以及古籍文本內容結構表征。
(1)古籍文獻數字化處于上述漸進式數字化整理過程的底層(即第一層次),類似于過去紙張曾經取代了竹木、紙莎草和羊皮等作為書寫材料的歷史演變一樣,古籍文獻數字化是指實體古籍文獻正在經歷從紙質形態到數字形態的轉變,形成古籍文本數字化掃描文件。
(2)第二層次作為連接古籍文獻數字化與古籍文本內容表征的關鍵橋梁,在自動置標語義框架的設計中發揮著至關重要的作用。在此過程中,采用YAML語言來精確描述古籍文本的邏輯結構,這主要包括預定義的元數據模型和關聯規則集合,通過這一方式,將古籍文本的邏輯結構進行“外化”,從而構建出一個可供計算機和人工智能系統參考的古籍置標語義框架。這一框架的建立,使得古籍文本內容與置標語義框架之間能夠進行有效映射。在此基礎上為古籍文本的語義結構化表征提供了標準化的標簽體系和命名實體的唯一標識符,為后續古籍文獻發掘、整理與研究工作奠定堅實的基礎。
(3)第三層次主要是對古籍文本內容進行大規模表征,形成結構化數據集。古籍文獻數量龐大,且內容晦澀難懂,由國內古籍數字化整理的實踐追溯可知,僅依靠人工很難深入到文本內部作細粒度的揭示。鑒于生成式人工智能在古漢語領域內接受了海量古籍文本的訓練,表現出對自然語言的理解能力和上下文推理的能力[24],能夠更好地處理復雜的古籍文本數據。參照第二層次置標語義框架,通過生成式人工智能模型和YAML語言設計的元數據模型和標準化關聯規則對古籍文本進行理解、全面描述和關聯標注,形成古籍文本結構化數據集。
基于上述原理解析,置標語義框架構建需要根據古籍文本的邏輯結構來定義語義框架中各個層級的語義標簽,并對屬性類型和關聯規則進行限定。參照前人研究[25],將古籍置標語義框架分為實體維度語義要素和關系維度語義邏輯兩個不同維度。實體維度語義要素代表古籍文本中出現的實體類,如人物、地點、時間等,其中每個實體要素類都有不同屬性,用于描述實體的具體信息。關系維度語義邏輯主要描述實體語義要素之間的關系和邏輯連接。如lt;地點gt;發生lt;事件gt;、lt;人物gt;發生lt;事件gt;等。通過定義關系維度的語義標簽和關聯規則,可以準確地捕捉古籍文獻中的語義關聯。
如古籍文本的實體語義要素NamedEntity中定義Person的Label標簽屬性為“人物名稱”。生成式人工智能中Prompt允許用戶以指令的方式指導和抽取數據規則[26],設置該人物實體Label的Prompt屬性特征為“請提取上述文本中的人物名稱”,設置該人物實體Label的Range屬性特征為“str”,表明人物名稱被視為文本字符串。針對古籍文本的關系語義邏輯,按照主謂賓三元組語義邏輯定義主體實體和客體實體,設置其語義標簽Label屬性為Subject(主體實體)和Object(客體實體),設置Range屬性特征為“NamedEntity”,表明這些主體實體和客體實體繼承自上文定義的人名、事件、或其他類似的實體要素,用于標識關系邏輯的兩端。上述語義框架對于實體維度語義要素和關系維度語義邏輯的每個屬性都提供了適用于生成式人工智能的特定提示詞,根據語義框架中定義的規則,以生成式邏輯遞歸表征古籍內容結構。由此,基于YAML的古籍文本置標語義框架的詳細語義標簽和關聯規則設計(見表1)。
基于上述語義框架設計過程,構建一個具體例子(見表2),說明如何使用YAML語言設計古籍文獻人物實體要素People及其屬性特征。
4 " 古籍自動化置標語義框架生成實例
以《史記·呂不韋列傳》(卷85)部分文本為例,使用OpenAI提供的ChatGPT-4 Turbo大語言模型API實現對生成式大語言模型的調用,演示自動置標語義框架在古籍文本內容生成式表征的應用過程。
4.1 " "應用過程
自動置標語義框架在古籍文本內容生成式表征的具體應用流程包括以下幾個步驟:
(1)文本與古籍置標語義框架準備。原始文本來自《史記》(點校修訂本)的《呂不韋列傳》(卷85)[27],上述設計的置標語義框架作為表征古籍文本邏輯結構中實體語義要素、關系語義邏輯的參照框架,以YAML數據格式存儲。
(2)遞歸提示詢問。置標語義框架的每個類和屬性中均包含Prompt特征,用于設置提取語義內容的提示詞。根據置標語義框架生成提示文本,遞歸地對大語言模型執行提示詢問。根據提示詢問生成與置標語義框架匹配的結構化輸出。如古籍文本為“呂不韋者,陽翟大賈人也。往來販賤賣貴,家累千金。秦昭王四十年,太子死。其四十二年,以其次子安國君為太子。安國君有子二十馀人。安國君有所甚愛姬,立以為正夫人,號曰華陽夫人。華陽夫人無子。”,若要提取上述文本中實體間的關系CausalRelationship,則生成的提示是:
從以下古籍文本中提取以分號分隔的三元組語義邏輯鏈接列表,其中每個邏輯都是通過關系類型連接兩個古籍實體的三重鏈接:
實體間語義邏輯:請準確提取出以分號分隔的關系語義邏輯鏈接列表
主實體:請準確識別上述古籍文本中的主體,作為三元組的頭部實體
關系:請準確識別上述古籍文本中的謂語,作為三元組的邏輯關聯
尾實體:請準確識別上述古籍文本中的客體,作為三元組的尾部實體
Text:呂不韋者,陽翟大賈人也。往來販賤賣貴,家累千金。秦昭王四十年,太子死。其四十二年,以其次子安國君為太子。安國君有子二十馀人。安國君有所甚愛姬,立以為正夫人,號曰華陽夫人。華陽夫人無子。
根據上述提示指導大語言模型生成符合預期格式的內容。如Causal_Relationships:lt;呂不韋-為-陽翟大賈人gt;;lt;安國君-子-子楚gt;;lt;子楚-母-夏姬gt;;lt;秦昭王-派發-王璠gt;等內容,至此,遞歸提示詢問完成。
(3)解析匹配提取。上述步驟已經根據大語言模型的輸出進行了初步的解析和結構化,但在結果生成步驟中,大語言模型高度創造性和學習性會導致其提供的結果并不一定嚴格遵守預先設定的格式,因此需要進一步處理或映射輸出結果以確保所有提取的數據都符合特定的格式。首先將輸出結果進行初步結構化處理,將數據分解為可管理的單元。針對每個單元,識別并提取出主體實體、謂語關系和客體實體數據項,根據基于YAML置標語言中的定義來處理和解析每個數據項,將這個處理后的數據項賦給主體實體、謂語關系和客體實體。如lt;呂不韋-為-陽翟大賈人gt;可以解析為:
古籍主體實體:呂不韋
古籍謂語關系:為
古籍客體實體:陽翟大賈人
然后進行關系遞歸提取。對于那些包含更復雜信息的數據項,采用遞歸調用SPIERS算法的方法[28],進一步細化和深入解析,如果屬性“主體語義要素”包含了更深層次的細節,如筆名和化名,會持續解析這些信息直到達到非嵌套的終點。至此,實體及關系被深入挖掘并準確歸檔。
(4)YAML數據存儲。通過大語言模型和YAML語言設計的置標語義框架對古籍文本內容進行表征,所形成的結構化結果以YAML格式進行存儲(具體形式見4.2節),可以方便地進行數據讀取、編輯和傳輸,同時保持數據的結構性和可讀性,以便后續進行大規模古籍文本的結構表征,以及本體和知識圖譜的構建和分析工作。
通過上述流程,利用自動置標語義框架并結合生成式方法,成功實現了古籍文本內容表征。
4.2 " "古籍文本語義置標框架結構化表征示例
遵循YAML的語法規范,參照上述置標語義框架設計和應用過程后自動形成古籍文本語義信息的結構化數據描述,將沒有明確結構的古籍自然語言文本表達為由多個層次語義標簽和文本單元組成的樹形數據框架。古籍《史記·呂不韋列傳》(卷85)參照置標語義框架進行結構化內容表征(見表3)。為簡潔起見,輸入文本和部分結果被截斷,完整輸入可在《史記·呂不韋列傳》(卷85)獲取。
上表中,依托于生成式人工智能技術,在置標語義框架的指導下,古籍文本《史記·呂不韋列傳》(卷85)進行了結構化數據描述,分為實體語義要素和關系語義邏輯兩類數據項,對這兩類數據項進一步細化,實體語義要素由時間、地點、人物、事件等數據項組合而成,關系語義邏輯由主語、謂語、客體和語義邏輯關系鏈接數據項組合而成。在每個數據項值對中(subject-label:安國君),屬性以粗體顯示,后跟冒號,其后是標簽值。依托于置標語義框架,進行了古籍文本語義結構化表征,將具有相同命名實體且潛在語義關系的文本相互連接。這種方法使得不同古籍文本之間的邏輯界限變得模糊,為古籍文獻的智能化處理和深度挖掘提供了新的可能性。
5 " 結語
自動置標語義框架定義并描述了古籍文獻語義信息的元數據模型和關聯規則,以現代認知語言學的框架語義學理論為導向,通過邏輯降維、邏輯指代、邏輯關聯及邏輯嵌套等核心理念,使用YAML語言對古籍文本的邏輯結構進行建模。該語義框架作為生成式人工智能技術的邏輯中介,旨在引導生成式人工智能理解、處理并生成古籍文獻中的實體語義元素和關系邏輯信息,實現古籍文獻內容的自動表征。
盡管自動置標語義框架為古籍文獻從“數字化”到“數據化”的轉換提供了精細且復雜的邏輯參照體系,并在生成式人工智能技術支持下實現了大規模自動化的內容結構表征,但在語義框架構建和具體應用方面仍面臨挑戰。一方面,當前語義框架構建聚焦于標簽而非屬性的深入描述,未來研究需擴展屬性的含義和特征,增加邏輯嵌套層級,進而更完整地表達語義信息。另一方面,本研究語義框架應用依賴于通用人工智能模型,可能不足以適應特定古籍領域的語言風格和知識,未來研究需確保語義框架能夠靈活適應垂直領域大語言模型,以提高生成式表征的準確性和質量。
在古籍置標語義框架的引領下,借助生成式人工智能技術,必將促進古籍整理與研究工作向廣度、深度、精度與效度持續發展,為新時期古籍工作的發展提供技術力量和支撐。在后續研究中將基于此框架,結合大語言模型構建古籍領域的本體和知識圖譜,促進知識的多維重組和可視化表征,充分發揮置標語義框架和生成式人工智能技術的耦合優勢,塑造古籍數據化、智能化處理的新維度,形成智能化與認知框架共生的新磁場。
參考文獻:
[1] "中華人民共和國國家民族事務委員會.中共中央關于整理我國古籍的指示[EB/OL].[2024-02-15].https://www.neac.gov.cn/seac/zcfg/201012/1075080.shtml.
[2] "中共中央辦公廳,國務院辦公廳.關于推進新時代古籍工作的意見[N].新華社,2022-04-12(1).
[3] "章紅雨.高質量做好新時代古籍工作 為建設社會主義文化強國提供有力支撐[N].中國新聞出版廣電報,2022-10-13 (3).
[4] "劉圓圓.人工智能讓古籍“活”起來[N].人民政協報,2022-10-14(10).
[5] "趙生輝,胡瑩,廖月妮.構建超文本史料:歷史檔案置標語言HAML設計與應用初探[J].檔案學通訊,2024(1):45-51.
[6] "李明.數字人文驅動下我國古籍數字化研究的演進特征及內在邏輯分析[J].圖書館理論與實踐,2023(4):121-127.
[7] "王紅,楊晴.數字人文視域下圖書館古籍資源的開發與利用[J].圖書情報導刊,2022,7(7):1-6.
[8] "Chatterjee P.What Excites Yoshua Bengio about the Future of Generative AI[EB/OL].[2023-02-12].https://analyticsindiamag.com/what-excites-yoshua-bengio-about-the-future-of-gener ative-ai/.
[9] "陸偉,劉家偉,馬永強,等.ChatGPT 為代表的大模型對信息資源管理的影響[J].圖書情報知識,2023(2):6-9,70.
[10] "胡艷杰.古籍數字化資源的交換及其意義初探[J].圖書館工作與研究,2014(12):45-47.
[11] "段澤勇,李弘毅.古籍數字化的回顧與展望[J].圖書館理論與實踐,2004(2):37-39.
[12] "李明杰.數字環境下古籍整理范式的傳承與拓新[J].中國圖書館學報,2015(9):99-110.
[13] "文玉鋒,劉蕾.百年簡牘研究主題流變考:基于地域維度[J].西北師大學報(社會科學版),2024,61(3):132-144.
[14] "周文杰.百年簡牘研究主題流變考:基于時間維度[J].西北師大學報(社會科學版),2024,61(3):122-131.
[15] "劉暢,王東波,胡昊天,等.面向數字人文的融合外部特征的典籍自動分詞研究——以 SikuBERT 預 訓 練 模 型 為 例[J].圖書館論壇,2022,42(6):44-54.
[16] "趙連振,張逸勤,劉江峰,等.面向數字人文的先秦兩漢典籍自動標點研究——以 SIKU-BERT預訓練模型為例[J].圖書館論壇,2022,42(12):120-128,137.
[17] "胡昊天,張逸勤,鄧三鴻,等.面向數字人文的《四庫全書》子部自動分類研究——以SikuBERT和SikuRoBERTa預訓練模型為例[J].圖書館論壇,2022,42(12):138-148.
[18] "吳茗.GIS技術在古籍數字化資源建設中的應用[J].圖書館學刊,2016,38(4):55-58.
[19] "夏翠娟,劉煒,趙亮,等.關聯數據發布技術及其實現——以Drupal為例[J].中國圖書館學報,2012,38(1):49-57.
[20] "Oren Ben-Kiki,Clark Evans,Ingy D?觟t Net.YAML ain’t markup language(YAMLTM)version 1.2.YAML specification[J].2009.
[21] "張仰森.人工智能教程[M].北京:高等教育出版社,2013:42.
[22] "趙生輝,胡瑩.檔案文本結構化:概念、原理與路徑[J].浙江檔案,2019(12):23-25.
[23] "梁繼紅.走向文本的歷史檔案數字整理:歷史追溯與時代轉型(下)[J].檔案學通訊,2022(1):60-66.
[24] "Zhao W X,Zhou K,Li J Y,et al.A survey of large language models[J].arXiv perprint arxiv:2303.18223,2023.
[25] "趙生輝,胡瑩,宋和平.檔案語義參照框架:邏輯、架構與實證[J].檔案學通訊,2023(1):53-60.
[26] "HENDRIK S,ALBERT W,VICTOR S,et al.Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models[J].IEEE transactions on visualization and computer graphics,2022,29(1):1146-1156.
[27] "司馬遷.史記(點校本二十四史修訂本)[M].北京: 中華書局,2013.
[28] "Caufield J H,Hegde H,Emonet V,et al.Structured prompt interrogation and recursive extraction of semantics(SPIRES):A method for populating knowledge bases using zero-shot learning [J].Bionformatics,2024,40(3):btae 104.
作者簡介:文玉鋒,男,西北師范大學管理學院副教授,研究方向:數據分析與數據挖掘、情報分析;趙悅言,女,四川大學公共管理學院博士研究生,研究方向:公共部門數據分析與數據挖掘、政府信息資源管理。