999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古漢語通假字資源庫的構建及應用研究

2024-05-09 02:57:02王兆基張詩睿胡韌奮張學濤
中文信息學報 2024年3期
關鍵詞:模型

王兆基,張詩睿,胡韌奮,張學濤

(北京師范大學 國際中文教育學院,北京 100875)

0 引言

與現代漢語及其他語種不同的是,古籍文本中的文字通假較為常見,這為準確理解文意造成了困難。具體來說,通假指的是古人本有其字而不用,反而借用一個音同或音近字的現象,其中,被借用的字稱作通假字,被代替的字稱為正字或本字[1-2]。例如,在“莊公寤生,驚姜氏。”(出自《左傳》)中,“寤”為通假字,所通正字為“牾”,“牾生”即逆生,表示難產。

通假現象不僅常見于傳世古籍,在出土文獻中也有較高頻率。據錢玄等人[3]統計,現存《老子》(據唐傅奕校《道德經古本篇》) 約 5 500余字,其中用通假字30多個,而馬王堆帛書《老子》( 乙本) 使用通假字320個,占全書的6%。整理古籍時,通假字識別對于準確理解文意來說十分重要,如王引之在《經義述聞·經文假借》中所述, “學者改本字讀之,則怡然理順;依借字解之,則以文害辭。”除了專業學者整理古籍時需要釋讀通假字,在中學文言文教學中,通假字也是一項重點和難點,掌握文言文常見通假字的用法是文言文閱讀的基本功[4]。值得一提的是,對于漢語史研究來說,通假字與被通假字之間的音同或音近關系可以為漢語古音和語音史研究提供寶貴的參考資料[5-6];同時,字與字之間的通假關系亦有助于厘清詞匯形式和詞義演變的脈絡,從而服務于詞匯發展變化和詞匯語義研究[7]。可以說,無論是服務于通假字識別,還是漢語史研究,高質量的通假字資源庫都必不可少。柳建鈺和周曉文[8]從輔助校勘需求出發,提出了構建通假字資源庫的設想,擬基于各類通假字字典搜集整理通假字表,預計收錄字頭6 000個左右,涵蓋傳世文獻和出土文獻的通假字。然而,目前除了字典和辭書以外,通假字相關數據資源的建設仍十分罕見。

近年來,伴隨古籍整理利用的轉型升級,古漢語信息處理資源建設和算法研究受到了越來越多的關注,涉及任務包括句讀標點、分詞和詞性標注、詞義消歧、命名實體識別、自動校勘和文本生成等[9-15]。需要指出的是,在古漢語信息處理研究中,通假字識別是詞義注釋、文本校勘和文白翻譯等技術的基礎,目前學界尚無針對通假字自動識別的研究。當下,即使ChatGPT、GPT-4等大模型具備極強的自然語言理解能力,其處理包含通假字的文本時仍會“以文害辭”,如表1所示。因此,對于古漢語信息處理來說,通假字資源庫的建設及自動識別技術研究具有其現實價值和迫切性。

表1 基于GPT-4的文白翻譯實例

為了更好地輔助通假字的人工判別和機器處理方法等,本文首先構建了一個涵蓋標注語料庫、知識庫和評測數據集的通假字資源庫。其中,標注語料庫收錄了11 000余條包含通假字用例標注的語料,知識庫以漢字為節點,通假關系為邊,從字音、字形、字義多個角度對通假字與正字的屬性進行加工,共包含4 185個字節點、7 700對通假字關聯信息、650對通假字之間的形聲關系信息;評測數據集分為基礎版和拓展版,支持通假字檢測和正字識別兩個子任務的評測,收錄評測數據19 678條。在此基礎上,本文搭建基線模型,開展了通假字檢測和正字識別實驗,并探討了資源庫在古籍整理、人文研究和文言文教學中的應用。

1 通假字資源庫構建

為了讓資源庫更好地服務于與通假字有關的文史研究和自動識別算法研發,本文設計并構建了三個開源資源庫,均以JSON格式發布(1)數據下載地址: github.com/frederick-wang/tongjiazi-resources,包括通假字標注語料庫、通假字知識庫與通假字識別評測集。

1.1 通假字標注語料庫

目前,學界尚無專門標注通假字的文言文語料庫,包含通假字的句篇信息主要見于各類辭書,其中也包括專門的通假字字典,如高亨《會典》收錄了傳世文獻材料中的通假字用法,《簡帛古書通假字大系》側重于依據戰國秦漢出土簡帛文獻。考慮到與通假字相關的辭書存在應用場景區別,為兼顧古漢語信息處理、文史研究與文言文教學的一般性需求,本文選擇以《漢語大詞典》為數據源,構建通假字標注語料庫。該庫可為通假字相關研究和應用提供高質量的基礎性數據,亦可結合具體需求進行篩選、優化和擴充。

《漢語大詞典》所收條目分為單字條目與多字條目。多字條目按“以字帶詞”的原則,列于單字條目之下。一個單字有兩個以上字頭的,在字頭旁以阿拉伯數字標注序號。字頭下依次標注現代音與古音,其中,現代音用漢語拼音字母標注,古音用反切標注。釋義時,通假義用“通‘×’”和“‘×’的被通假字”表示。據此,我們以《漢語大詞典》的標注為準,采集通假現象涉及的釋義及例句,例如,在《漢語大詞典》中,字頭“耗3”的內容如表2所示,該字可通“眊1”,表示“昏亂不明”,詞典收錄了來自《荀子·修身》與《漢書·景帝紀》的兩則包含通假字的例句。

表2 通假字標注語料庫語料原文示例

表3 通假字標注語料庫語料示例

經自動提取和人工校對,我們從《漢語大詞典》中采集了較大規模的通假字屬性及用例數據,在此基礎上構建了高質量的通假字標注語料庫,共包含11 000余句繁體中文語料,覆蓋2 479個通假字。其中,用例最多的為“辨”,存在通“辯”“變”“班”“般”等字的126條用例,同時,也有不少通假字的例句數量較少,例如,有833個通假字僅包含1條用例語料。

如表2所示,語料庫中的每一條語料包含11個屬性: 語料ID、語料文本、標注位置、通假字字頭、正字(2)資源庫中采用“正字”標識被通假字。字頭、出處、時代、釋義、拼音、注音和古音。

1.2 通假字知識庫

本文采用圖數據結構設計通假字知識庫,其中,漢字為節點(Node),通假關系和形聲關系為邊(Edge)。在漢語史研究中,對通假這種字用現象的分析往往會從字音、字形、字義等多個角度展開,因此,我們在構建知識庫時也分別針對音、形、義進行了屬性標注。

在字音方面,我們在通假關系邊中標記了與其對應的注音和古音屬性,同時參考胡韌奮等人[16]加工的形聲字數據,添加了字和字之間的形聲關系邊。

在字形方面,我們在字節點上標記了部首、部件和結構信息,其中漢字部件信息參考了Yan等人[17]構建的數據集。

在字義方面,字節點之間的通假關系考慮了義項的差別,即A字通B字時根據語境差別有多種含義,因此一對字節點之間允許有多個通假關系邊相連。通假字知識庫的詳細規范參見附錄A。

為了更好地服務于漢語史及通假字自動識別研究,本文在《漢語大詞典》的基礎上,進一步從康熙字典(3)使用“漢典”版的《康熙字典》數據。、漢典(4)漢典: www.zdic.net、國學大師網漢語字典(5)國學大師網漢語字典: www.guoxuedashi.net/zidian/中采集了與通假用法相關的多源異構數據,共計315萬字,融合構建了通假字知識庫。在融合數據時,對字而言,以字形為標準與其他來源的數據合并。對通假關系而言,以通假字、正字、釋義為標準與其他來源的數據合并。最終,通假字知識庫收錄了4 185個字節點、7 700對通假關系、650對形聲關系。

圖1以“辟”為例,展示了知識庫中節點和邊的屬性。其中,字節點屬性標注在點劃線框內;實線有向邊表示通假關系, 通假關系的詳細屬性參見實線框,與通假關系相關聯的語料以點線框標注;短劃線有向邊表示形聲關系,對應的短劃線框為形聲關系的具體屬性。

圖1 通假字知識庫示例“辟”限于空間,圖中僅展示了“辟”與“譬”之間的詳細關系及部分關聯語料,與“辟”有通假或形聲關系的其他字僅在圖中呈現節點,如“擗”、“繴”等。

由圖中內容可見,“辟”與“譬”之間存在3條通假關系連邊,對應三種釋義,同時,二者之間還包括一條形聲關系連邊,標識“辟”是“譬”的聲符。

通假字知識庫對通假字與正字之間的關系進行了詳細加工,相關信息可以從數據和特征兩個維度為通假字的自動識別提供支持(參見本文第2節)。同時,通假字與正字之間的音、形、義關聯也可為漢語史領域的相關研究提供參考。首先,它可以幫助相關研究者更高效地開展傳統研究,常見的應用場景包括:

(1) 字詞考證通假字知識庫可以幫助我們迅速辨別出通假字,識別出這是常用的通假還是在特定語境中出現的借字。例如,在圖1中,“辟”字與“譬”字之間的通假關系,可以幫助我們了解到“辟”字在某些語境下可以作為“譬”的通假字使用。

(2) 詞匯語義研究通假字知識庫可以幫助我們將某些和本義無關的假借義從詞義引申中剔除,例如圖1中“辟”通“譬”對應的三種釋義。此外,通假字關聯網絡還能幫助系聯同義、近義或詞義相關的詞,從而輔助詞匯語義研究。

(3) 形聲字研究知識庫中的字節點之間除了通假關系邊,還有形聲關系邊,如在圖1中,“譬”字是一個形聲字,其聲旁為“辟”。通假與形聲關聯數據可以輔助我們進一步研究形聲字及語音的發展規律。

值得一提的是,通假字知識庫能夠提供傳統辭書無法呈現的大規模通假字關聯網絡信息,這也為漢語史研究提供了新的視角,潛在的應用場景包括:

(1) 量化通假強度在傳統研究中,字與字之間的通假關系僅分為“有”和“無”,但這種粗粒度的判斷方式并不精確。事實上,有些通假關系應用廣泛,而有些僅為辭書中的孤例。基于通假字圖知識庫,我們可以通過字與字之間不同義項的通假關系數量(邊數)以及相關聯的語料數量來量化“通假關系的強度”,為后續研究提供更多可能性。

(2) 利用子圖探究通假規律在傳統研究范式下,由于人的時間和精力有限,研究通常僅針對一個字的通假關系及其相關的幾個被通假字進行,相當于僅能研究圖中的幾個節點及其邊。借助圖數據庫,我們可以根據分割條件迅速將所有數據劃分為多個子圖,研究子圖中所有通假字節點與通假關系邊的內在規律,并探討子圖間的聯系。這將有助于我們發現更多的通假規律。例如,研究一個通假字的所有通假變化軌跡,實際上就是尋找該節點所在的子圖并獲得一個子圖的生成樹。

(3) 輔助古漢語語音演變研究通假關系存在的前提是字之間的音同或音近,而不少漢字的讀音在歷史上經歷了較大變化。利用通假字圖知識庫,我們可以為相關語音研究提供支持。例如,我們可以根據通假關系邊關聯語料的“出處”數據,獲取不同時期的字與字之間的通假關系并生成關聯子圖,進而量化估計在某一特定時代兩個字的發音可能相同,而在另一時代這兩個字的發音可能不同。如此一來,我們便能從歷史角度利用圖知識庫為語音演變研究提供支持。

1.3 通假字識別評測集

為了推動通假字自動識別算法研究,我們基于高質量的通假字標注語料庫構建了通假字識別評測集。評測集分為兩個子任務: 通假字檢測與正字識別。為了更好地評估模型的泛化能力,每個子任務均分為基礎版與拓展版,其中,基礎版任務的訓練集與測試集覆蓋的目標字范圍一致,而拓展版任務的測試集中則包含訓練集未出現的通假用法,其自動探測和識別的難度更高。接下來,本節將介紹兩個評測子任務的形式及評測數據集的構建方法。

1.3.1 評測任務設計

表4給出了兩個子任務的示例,其中,通假字檢測任務旨在識別古漢語文本中的通假字位置,即給定一段輸入文本,需輸出文本中所有通假字的位置(從0開始計數)。如果該文本中沒有通假字,則輸出“[]”。計算精確率和召回率時,使用(句子,位置)二元組作為計算單位。

表4 評測任務示例

正字識別任務的目標是識別出古漢語文本中通假字所對應的正字,輸入一段文本和通假字位置,需輸出該位置的通假字所對應的正字。計算精確率和召回率時,使用(句子,位置,正字)三元組作為計算單位。

1.3.2 評測數據集的構建

考慮到通假字標注語料庫主要收錄目標字作為通假字使用的數據,為了評測模型的判別能力,兼使其適應真實應用情境,我們從詞典中的其他義項例句中補充了目標字非通假用法的數據,構成正負例,如下面示例所示。

例1:惠心燭千仞,雄風扇八區。(正例,通“慧”,表“明慧”含義。)

例2: 必也君亂之,君終之,君之惠也。(負例,表“恩惠”含義)

考慮到通假字的常用度存在差異,且有必要對模型的泛化能力進行評估,本文構建了基礎版和拓展版兩類評測數據集。基礎版評測旨在識別常用通假用法,其中,每個通假字收錄至少10條正例,最多不超過20條(6)為確保數據分布的均衡性,如果通假字在標注語料庫中的例句大于20條,則隨機抽取20句。。同時,盡量補充與正例數量相等的負例,即目標字非通假用法的例句。進一步地,將每個通假字的正例和負例均按照8∶2的比例拆分,分別劃入訓練集和測試集,從而保證訓練集與測試集的數據分布相同。最終,基礎版數據集覆蓋了279個常見通假字,包含7 962條語料,其中,訓練集6 190條,測試集1 772條。

針對用例并不充足的通假字,我們又額外構建了拓展版評測數據。拓展版訓練集與基礎版訓練集保持一致,拓展版測試集則在基礎版測試集的基礎上,額外補充了2 200個通假字的正例和負例,其中,每個通假字的正例少于10句,負例與其數量相當,共計增補了11 716條語料,因此拓展版測試集共收錄13 488條語料。由于拓展版測試集中收錄了大量訓練集未覆蓋的通假用法,這便要求模型結合語境識別出訓練時未見過的通假字,無疑挑戰性極高,也更加接近真實的應用情境。

2 通假字自動識別評測

基于上節介紹的評測任務和數據,我們就通假字的自動識別開展了初步探索,以期為未來學界的相關研究提供基線結果(7)github.com/frederick-wang/tongjiazi-evaluation。接下來,將首先介紹本文引入的基線方法,然后將分別報告通假字檢測(基礎版)、通假字檢測(拓展版)、正字識別(基礎版)和正字識別(拓展版)任務的評測結果,并展開分析和討論。

2.1 實驗方法

為了服務于通假字探測和正字識別,我們首先參考文本糾錯的實驗,設定構建了一個“通假字-正字”混淆集。混淆集數據采集自通假字知識庫和評測訓練集中的“通假字-正字”字對。由于測試集中的語料來自《漢語大詞典》,為避免測試數據的字對信息泄露,我們在使用通假字知識庫中的字對數據時,排除了來自《漢語大詞典》的數據。

2.1.1 通假字檢測任務

在通假字檢測任務中,我們采用了四類基線模型:N-gram語言模型、GPT-2語言模型、BERT MLM語言模型和基于BERT的通假字檢測微調模型。

基于GPT2語言模型的通假字檢測方法與N-gram 模型類似,即利用困惑度和混淆集信息標記通假字位置。實驗采用了Hugging Face中兩個開源的古漢語GPT-2模型,分別基于殆知閣和四庫全書語料訓練,后文用DaizhigeGPT2(8)huggingface.co/uer/gpt2-chinese-ancient和SikuGPT2(9)huggingface.co/JeffreyLau/SikuGPT2指代。

利用BERT MLM語言模型進行實驗時,我們依次判斷句中的每一個字是否位于混淆集中。若在,則將該位置用[MASK]遮罩,并輸出Mask LM的預測結果,從而得以比較原字與混淆集中對應字的預測概率,如果存在混淆字的預測概率高于原字,則將該字所處位置標記為通假字位置。

除了BERT MLM模型外,我們還引入了BERT微調方法。具體來說,通假字檢測可建模為token序列標注任務,句中非通假字對應的標簽為0,通假字的標簽為1。微調階段,采用BERT+全連接層的結構進行token標簽學習。訓練模型時,Torch、NumPy和random模塊的隨機數種子數設為42,Batch大小設為8,Epoch數設為5,采用AdamW優化器、學習率設為5×10-5。按照9∶1的比例將訓練數據劃分為訓練集與驗證集,RandomState同樣設為42。推理階段,如果句中某字既被模型標記為1,又是混淆集中收錄的通假字,則將該字所在的位置標記為通假字位置。同時,我們也引入了一個無需混淆集的版本,只要該字被模型標記為1,就將對應位置標記為通假字位置。實驗中,為了與前面三種方法對應,我們采用了基于殆知閣語料庫訓練的古漢語BERT模型和Hugging Face上開源的SikuBERT模型(10)huggingface.co/SIKU-BERT/sikubert,經微調,得到了TongjiaziDetection-DaizhigeBERT模型與TongjiaziDetectionSikuBERT模型。

2.1.2 正字識別任務

與檢測任務類似,正字識別任務也可基于N-gram 語言模型、GPT-2語言模型、BERT MLM語言模型和BERT微調模型實現。

對于N-gram、GPT-2模型來說,我們將判斷句中給定位置的字符是否在混淆集中,如果不在,將該字符直接作為識別的正字;如果在,則依次計算混淆字替換該字符后的句子困惑度,并與句子的初始困惑度進行比較,取句子困惑度最小的字作為識別的正字。BERT MLM模型的識別方法與之類似,如果給定位置的字符不在混淆集中,則將該字符作為識別的正字;如果在,則將該字符用[MASK]遮罩,利用Mask LM獲取原字符與所有混淆字的預測概率,取預測概率最大的字作為識別的正字。

關于BERT微調方法,我們借鑒Mask LM任務的形式,要求模型預測出句中通假字所對應的正字,其余位置的字符不參與訓練。在微調模型時,Torch、NumPy和Random模塊的隨機數種子、Batch大小、Epoch數、優化器,學習率、訓練數據劃分方法均與前文的TongjiaziDetectionBERT模型相同。經過微調,模型加強了正字和上下文語境信息之間的關聯,在推理階段,采用與上述BERT MLM模型一致的方法獲取正字識別結果。后文用ZhengziRecognition指代經微調訓練的識別模型。

2.2 實驗結果

2.2.1 通假字檢測任務

表5和表6分別列出了通假字檢測任務在基礎版和拓展版數據集上的評測結果。在基礎版測試集上,模型檢測最優F1值達到66.94%,拓展版測試集的最優檢測F1值為21.63%,可見通假字檢測是一個極有挑戰性的任務,在處理模型訓練未見過的通假用法時尤為困難。通過對比不同模型,我們發現以下幾個要素或對模型的檢測性能產生影響。

表5 通假字檢測任務(基礎版)實驗結果 (單位:%)

表6 通假字檢測任務(拓展版)實驗結果 (單位:%)

(1) 模型結構與復雜度

實驗結果顯示,預訓練語言模型具有較好的語境信息編碼能力,在一定程度上能夠輔助探測通假字。其中,基于BERT模型的方法效果普遍最優,GPT-2模型次之,N-gram模型最弱。推測這一方面與模型的復雜程度有關,N-gram模型最為簡單,對上下文信息的捕捉能力最弱;另一方面,這與和模型結構有關,與GPT-2單向自回歸訓練機制不同,BERT在預訓練階段的雙向編碼機制使其更擅長利用上下文語境信息進行字符判斷。

(2) 預訓練數據

在不同類型的模型上,基于文淵閣版繁體四庫全書數據訓練的模型表現普遍優于基于殆知閣數據訓練的模型。殆知閣語料庫規模更大,繁簡混合,而文淵閣版四庫全書(繁體)數據規模偏小,全部為繁體。考慮到我們的評測數據均為繁體中文,因而與四庫版預訓練模型更為匹配。

(3) 微調機制的引入

在基礎版評測數據集上,無論是DaizhigeBert還是SikuBERT,微調后精確率和召回率均有顯著提升,相較之下,精確率提升幅度更大,這意味著微調前,模型傾向于將非通假用法識別為通假字,而經過在訓練數據上的微調,模型熟悉了常見通假字的用法,探測精確率得到顯著提高。

在拓展版評測數據集上,微調同樣提升了BERT模型的精確率,但也使其召回率出現了明顯下降,推測這主要是由于拓展版測試集中收錄了大量訓練集未覆蓋的通假用法,在訓練集上微調使得模型聚焦于用例較多的常見通假字,對訓練中未見過的通假用法不再關注,從而降低了識別的召回率。

(4) 混淆集的使用

在通假字檢測任務(基礎)中,使用混淆集的TongjiaziDetectionBERT精確率略高于無混淆集版,召回率二者幾乎一致。但是,在拓展版任務中,無混淆集的TongjiaziDetectionBERT無論是精確率還是召回率都優于帶混淆集版,這主要是由于拓展版數據集中存在不少混淆集未覆蓋的通假用法,使用混淆集反而在一定程度上限制了模型的識別效果。

2.2.2 正字識別任務

表7為正字識別的實驗結果,在基礎版測試集上,模型最優準確率為65.64%,在拓展版評測集上,模型最優準確率為19.88%。與通假字檢測任務類似,BERT系列模型普遍表現最優,同時,引入微調機制能夠進一步提升識別效果,微調給基礎版測試集帶來的性能提升比拓展版更為顯著。對于未經微調的模型來說,基于四庫全書訓練的模型效果普遍優于基于殆知閣語料訓練的模型。

表7 正字識別任務實驗結果 (單位:%)

2.3 實驗分析

由前文實驗結果可見,對現有基線模型來說,通假字檢測和正字識別均為十分具有挑戰性的任務,拓展版評測集的難度大大高于基礎版。為了進一步探析模型的識別能力和泛化能力,我們將拓展版測試集按照目標字是否在訓練集中收錄分為兩部分,分別計算了通假字檢測和正字識別的實驗結果,分別如表8和表9所示。

表8 TongjiaziDetectionSikuBERT(無混淆集)模型的通假字檢測任務(拓展版)實驗結果 (單位:%)

表9 ZhengziRecognitionSikuBERT模型的正字識別任務(拓展版)實驗結果

對于通假字檢測任務來說,從表8可以發現,首先,對于訓練數據中未出現的通假字,模型也可以檢測出來一部分,并且具有較高精確率,這說明模型具有一定的泛化能力,能夠探測出少量訓練階段未見過的通假用法,如例3中的“考”字。其次,對于訓練數據收錄的常見通假字,模型探測的召回率較高,但精確率卻不理想,經過進一步分析,發現主要有兩點原因: (1)模型傾向于將在訓練數據中見過的通假字的非通假用法也判定為通假字,如例4中的“皇”字。(2)模型實際預測正確,《漢語大詞典》中的例句僅針對字頭標注通假用法,句中還可能包括其他通假字,數據標注存在少量缺失情況,如例5中的“皇皇”。

例3陳登者,善術,夜過吉甫家,羣即捕登掠考,上言吉甫陰事。(“考”通“拷”,“考”字通假用法在訓練集中未出現,模型正確預測其為通假字)

例4真宗皇帝爲之嘉嘆,面可其奏。(訓練集中收錄了“皇”的通假用法,但此處“皇”字并非通假,模型錯誤預測其為通假字)

例5孔子三月無君,則皇皇如也,出疆必載質。(此處“皇”通“惶”,模型正確預測其為通假字,但由于該句取自《漢語大詞典中》“質”通“贄”的例句,其中“皇”的通假用法未被標注,導致評測時誤將此例計為誤探測條目。)

在正字識別任務中,如表9所示,ZhengziRecognitionSikuBERT模型同樣具有一定的泛化能力。對于訓練數據中未覆蓋的通假字,來自通假字知識庫的混淆集發揮了作用,幫助模型將它們識別了出來。對于未識別出的正字,經分析,發現主要包括兩種錯誤類型: 第一,模型認為該位置填通假字比填正字更合適,如表10所示,在識別句中“臺”的正字時,只有常見的通“鮐”被成功識別,而相對罕見的通“嗣”未被識別;第二,一個通假字對應著多個正字,模型錯誤地識別為其他正字,例如在識別“共”的正字時,存在通“恭”和通“供”兩種通假用法,模型將部分通“恭”用法識別為了通“供”,如表10中的最后一例:“唯是桃弧、棘矢以共王事。”進一步查閱文獻發現,不同學者對通假釋讀方式的理解存在差異: 唐代陸德明《經典釋文》注此句中“共”音“恭”,成為清代之前學者共識,《漢語大詞典》亦用此說。而以清代俞樾《群經平議》為代表的清人觀點認為該字通“供”,并為現代人所繼承,如楊伯峻《春秋左傳注》、中華書局版《左傳》(郭丹等譯注)皆同此觀點。可見,模型判定雖不同于“標準答案”,但有其合理之處。

表10 拓展評測集上的正字識別結果示例

總之,通假字的檢測和識別是一個復雜的問題,本文搭建的基線模型能夠識別部分通假用法,但泛化能力尚顯不足,對微調訓練時未能覆蓋的通假字,往往無法檢測到或準確識別出本字。在識別本字時,對于不常見的通假關系,模型也往往無法正確識別。未來我們仍需要在設計模型時充分集合上下文語義信息與通假字、正字的釋義信息,提升模型泛化能力,加強其對不常見通假關系的識別能力。

3 總結

通假是古漢語中的一種常見用字現象,為了服務于通假字的人工判別和機器處理,本文構建了一個涵蓋標注語料庫、知識庫和評測數據集的多維度通假字資源庫。在此基礎上,本文基于N-gram、BERT和GPT-2等主流語言模型開展了通假字自動檢測和正字識別實驗,為通假字檢測和正字識別任務提供了基線結果: 在收錄常見通假字用法的基礎版測試集上,通假字檢測的F1值達到66.94%,正字識別的準確率達到65.64%;在拓展版測試集上,模型具備一定泛化能力,能夠識別出少量在訓練集中未見過的通假字及其正字,但識別效果遠遠低于基礎版評測集。通過對比不同的基線模型,本文發現,模型結構、預訓練數據、微調機制和混淆集的使用均會對兩個子任務產生不同程度的影響。進一步地,本文對模型的預測誤例及原因進行了初步分析。

需要指出的是,本文所開展的通假字資源庫建設和通假字識別算法的研究只是該領域的初步探索性工作,研究還存在不少待改進之處。例如,在資源庫的建設上,本研究基于《漢語大詞典》采集基礎性標注語料,但該詞典僅針對字頭給出通假例句,例句中仍可能存在其他通假字,有待在后續工作中通過人工標注進行補充;同時,《漢語大詞典》所收錄的通假用法旨在覆蓋基礎性、一般性需求,未來還有必要基于面向出土文獻和傳世文獻的通假字辭書資源引入更大范圍的通假用例數據,對現有的語料庫和知識庫進行擴充,從而更好地輔助漢語史領域的相關研究。在自動識別技術方面,本研究搭建了通假字檢測和正字識別的基線方法,由實驗結果可見,通假字檢測和正字識別是極具挑戰性的自然語言處理任務,目前模型具有一定識別能力,但其準確性和泛化能力還有待進一步提升。此外,基于GPT-4等大模型開展通假字識別是一個值得探索的方向。

最后,在資源庫和識別技術的應用上,仍有不少可以開展的工作。例如,通假字資源庫及識別算法可以接入古籍整理或古文獻檢索平臺,為該領域研究者提供可能的通假字用例及相關語料信息,輔助專家釋讀文獻,提升古籍整理效率。如前文所述,基于圖結構的知識庫能夠提供傳統辭書無法呈現的大規模漢字通假關系網絡信息,從而可為古漢語字用現象、詞匯發展、詞義關聯、語音演變等研究提供新視角、新方法。此外,資源庫中的高頻常用通假字數據可以為文言文教學材料編寫、考試命題提供參考,基于該資料庫和其他古漢語領域現有語言資源(如詞性標注語料庫、詞義標注語料庫、文白翻譯平行語料庫等)還可進一步研發輔助文言文學習的工具應用,提升學生的文言文閱讀理解能力。

附錄A 通假字知識庫體例

通假字知識庫采用圖數據結構,以漢字為節點(node),字節點之間有通假關系和形聲關系兩類連邊(edge),節點、邊及其屬性均以JSON Object形式存儲。通假關系邊屬性會引用語料信息,這些語料沒有像“通假字標注語料庫”中的語料那樣經過詳細的標注與校對,只是將不同來源的語料去重后,解析為簡單的結構化對象并存儲。

字節點具有以下五個屬性:

(1) 節點ID: 用于唯一標識字對象的編號,如“248”“1764”。

(2) 字形: 字的書寫形態,如“辟”“譬”。

(3) 部首: 漢字的構造部分,用于分類和檢索字,如“辛”“言”。

(4) 部件: 漢字的基本構成單元,包括部首和其他部分,如“卩口辛”“辟言”。

(5) 結構: 漢字的構造方式,如“左右結構”“上下結構”等。

通假關系邊具有以下八個屬性:

(1) 通假字關系ID: 用于唯一標識通假關系對象的編號,如“638”。

(2) 通假字: 在該通假關系中通其他字的字,是有向邊的起點,如“辟通譬”通假關系中的“辟”。

(3) 正字: 被通假的字,是有向邊的終點,如“辟通譬”通假關系中的“譬”。

(4) 拼音: 該通假關系中字音的拼音表示,如“pì”。

(5) 注音: 該通假關系中字音的注音表示。

(6) 古音: 該通假關系中字音的古代發音。

(7) 釋義: 該通假關系中字的意義或用法解釋,如“墨子提出的邏輯推理的方法之一。謂舉旁例以喻所說的論題。”。

(8) 關聯語料ID: 與通假關系對象相關的語料對象的編號列表,用逗號分隔,如“8440, 8804”。

形聲關系邊具有以下三個屬性:

(1) 形聲關系ID: 用于唯一標識形聲關系對象的編號,如“644”。

(2) 形聲字: 具有特定形聲構造的漢字,是有向邊的起點,如“譬”。

(3) 聲旁: 形聲字的聲旁,是有向邊的終點,如“辟”。

關聯語料具有以下四個屬性:

(1) 語料ID: 用于唯一標識語料對象的編號,如“8806”。

(2) 語料文本: 包含通假字與通假關系的文本內容。

(3) 語料出處: 語料的來源文獻,如“《荀子·王霸》”。

(4) 語料來源: 語料的來源,為“漢語大詞典”“漢典”或“國學大師網漢語字典”。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人福利视频网| 精品人妻AV区| 欧美一级夜夜爽| 亚洲欧美极品| 亚洲国语自产一区第二页| 久久精品国产亚洲AV忘忧草18| 国产成人精品综合| 一本大道香蕉高清久久| 99热在线只有精品| 国产午夜一级淫片| 毛片免费高清免费| 成年人福利视频| 女人av社区男人的天堂| 欧美成人精品高清在线下载| 国产va在线观看免费| 永久免费无码日韩视频| A级毛片高清免费视频就| 亚洲乱码视频| 久久人人爽人人爽人人片aV东京热| 毛片在线看网站| 视频二区国产精品职场同事| 国产乱子伦视频在线播放| 欧美精品亚洲精品日韩专区va| 亚洲最新地址| 日韩二区三区| 九色视频在线免费观看| 特级aaaaaaaaa毛片免费视频| 亚洲人成在线免费观看| 欧美有码在线观看| 欧美日韩另类在线| 欧美日韩在线亚洲国产人| 在线视频亚洲欧美| 热思思久久免费视频| 欧美精品亚洲日韩a| 欧美色丁香| a色毛片免费视频| 这里只有精品免费视频| 97久久精品人人做人人爽| 干中文字幕| 亚洲精品图区| 国产一在线观看| 国产欧美精品一区二区 | 丰满人妻一区二区三区视频| 青青青视频91在线 | 久久特级毛片| 国产拍在线| www亚洲天堂| 国产无码性爱一区二区三区| 欧美a在线看| 成人免费视频一区二区三区| 97精品久久久大香线焦| 免费看一级毛片波多结衣| 九九热精品视频在线| 中日无码在线观看| 精品久久久久无码| 国产乱人伦偷精品视频AAA| 国产精品永久久久久| 欧美精品成人| 久久semm亚洲国产| 91免费国产在线观看尤物| 99视频免费观看| 在线永久免费观看的毛片| 免费不卡视频| 国产精品一区二区国产主播| 亚洲va在线观看| 亚洲水蜜桃久久综合网站| 夜夜拍夜夜爽| 成人第一页| 99精品在线看| 中文字幕2区| 国产欧美日韩精品综合在线| 亚洲人成网站18禁动漫无码| 国产a v无码专区亚洲av| 久久夜色精品国产嚕嚕亚洲av| 成年人免费国产视频| 国产成人福利在线视老湿机| 国产在线欧美| 免费无码网站| 国产午夜人做人免费视频| 国产成人成人一区二区| 91av成人日本不卡三区| 国产精品区网红主播在线观看|