







摘 要:共指消解是確定上下文中的代詞或名詞短語所指的具體對象或實體,是自然語言處理(Natural LanguageProcessing,NLP)的基本任務之一,對理解文本語義具有重要意義?,F有的方法主要集中在一般領域的代詞、所有格和名詞短語的解析上,針對法律領域的研究較少。為了更好地學習法律文本中的知識,并消除共同指代現象,提出一種基于圖神經網絡的法律文本共指消解模型(Graph Neural Network for Coreference Resolution,CRGNN)。所提CRGNN 可以促進法律文本挖掘中的一系列后續任務。利用預訓練語言模型和雙向門控循環單元(Bidirectional Gate RecurrentUnit,BiGRU)對法律文本進行編碼;使用基于元任務的動態圖卷積網絡(Meta Dynamic Graph Convolutional Network,MDGCN)整合實體之間的引用關系;使用前饋神經網絡(FeedForward Neural Network,FFNN)和Biaffine 模型為候選對進行加權評估。CRGNN 可以有效識別實體之間的引用關系,并對實體依賴關系進行建模。在法庭記錄文件數據集上進行大量實驗,結果表明所提CRGNN 模型達到89. 76% 的F1 分數,均高于現有基準模型。
關鍵詞:自然語言處理;共指消解;法律文本;預訓練語言模型;圖神經網絡
中圖分類號:TP311 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3114(2024)03-0587-10
0 引言
共指消解是自然語言處理(Natural LanguageProcessing,NLP)的一項基本任務[1-4],對于許多NLP 下游任務至關重要,例如信息提?。郏担?、問答[6]和機器翻譯[7]等。共指消解的目的是將文檔中的實體聚類到不同的簇中。Choubey 等[8]提出一種事件共指解析的迭代方法,該方法通過訓練兩個不同的分類器來逐步構建事件的聚類過程,以識別文檔內和跨文檔的事件提及。
近年來,隨著開源的高質量法律文本數量增多,NLP 被廣泛應用于法律文本挖掘的各種任務中,例如法律判決預測、法律文本分類、法人實體識別和案例事實分析。然而,基于法律文本的共指消解研究仍有待發展。Gupta 等[9]使用條件隨機場來檢測數據集中的提及,首先使用二元分類器來生成候選提及對,并使用規則模板進一步創建參考組。然而,該方法嚴重依賴手工提取的特征,無法捕獲連續的上下文信息。
NLP 已廣泛應用于法律領域的文本挖掘任務。例如,Chalkidis 等[10]使用邏輯回歸和支持向量機,以解決合同成分提取問題。實驗表明,將機器學習與手動編寫的后處理規則相結合,通過混合方法可以獲得最佳結果。Merchant 等[11]提出一種基于潛在語義分析的自動文本摘要系統,可從冗長的文本中提取要點,并減少編輯的工作量。最近,Yang 等[12]提出一種多視角雙反饋網絡,該網絡由法律判決預測任務的前向預測和后向驗證組成,并利用多個子任務之間的拓撲依賴關系來提高預測性能。Ji 等[13]提出一種端到端模型來學習庭審記錄中不同句子中的證據鏈,采用共享編碼器和獨立解碼器進行多任務學習。
共指消解在許多領域得到了廣泛的研究。Clark 等[14]提出一種整合實體級信息的方法,構建集群排名模型,對由集群層編碼的分布式表示進行評分。文獻[15]使用生物醫學文本的端到端模型,并結合特定領域的特征來提高模型性能。Luan 等[16]通過利用不同句子的關系執行多任務學習,共同識別科學文章中的實體、關系和共指簇。Chen 等[17]在英語數據集上為共指消解任務提供了幾個基準模型,該數據集基于中國初高中學生的英語閱讀理解測試構建。Cardellino 等[18]提出一種將特定領域實體與通用領域本體對齊的方法,以增強法律領域本體表示。然而,在法律領域,針對發言人的共指消解研究較少[19]。
本文利用提及排序模型探討了法庭筆錄文件中說話者的共指消解問題。不同于起訴狀、傳票、公證文書等法律文書,訴訟文書是當事人在司法活動中所作的事實陳述和辯論的記錄。
現有模型無法直接用于法律文本的共指消解,原理如下:① 與普通文本不同,法律文本嚴謹,專業性強,知識豐富。② 數據集內的文件來自不同省份的真實法律案件,雖然格式類似,但記錄方式不同(比如縮略語)。換句話說,法庭筆錄文件涉及多個發言人,每個發言人都可以用多種方式提及。③ 法庭筆錄文件描述了解決民事糾紛的司法程序。該文件以雙方對話的形式記錄,沒有標準化的書面格式。
由于涉及事實陳述和反對意見的段落相對較長,并且冗長的文本增加了模型的計算復雜度,導致實體分散在文本中。如何充分利用上下文信息并對實體依賴關系進行建模,是亟需解決的關鍵問題。為此,提出一種基于圖神經網絡的法律文本共指消解模型(Graph Neural Network for Coreference Resolu-tion,CRGNN),該模型包含四個步驟:① 由于冗長文本帶有稀疏實體,選擇包含預定義實體的句子作為模型的輸入;② 采用預訓練的語言模型ELMo(Embeddings from Language Models)[20]和BERT(Bidirectional Encoder Representation from Transformers)[21]作為詞向量的來源,雙向門控循環單元(BidirectionalGate Recurrent Unit,BiGRU)[22]和注意力機制[23]用于生成實體表示;③ 為了有效地利用上下文信息,構建包含實體及其提及關系、映射關系的文檔級別圖譜;④ 采用多重評分機制,對先行詞之間的依賴關系進行建模,生成候選分數。
1 相關定義
針對發言人的共指消解任務是共指消解任務的一個重要子任務,目的是在法庭筆錄文件中與發言人相關的三種實體(縮略語實體、姓名實體和身份實體)之間建立共指鏈接。
定義1 映射方案。提出兩種解決方案來形式化發言人的共指消解問題:① 縮略語實體與姓名實體的映射記為A-N,即在縮略語實體和姓名實體之間建立共指鏈接;② 縮略語實體與身份實體的映射記為A-S,即在縮略語實體和身份實體之間建立共指鏈接。其中,姓名實體和身份實體之間的映射關系可以通過自定義規則從句子中提取出來。上述兩種映射方案按不同順序解決實體共指問題,將實體之間的關系提取轉化為基于文檔的共指消解問題。