999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖神經網絡的法律文本共指消解模型

2024-09-06 00:00:00劉冬張曉
無線電通信技術 2024年3期

摘 要:共指消解是確定上下文中的代詞或名詞短語所指的具體對象或實體,是自然語言處理(Natural LanguageProcessing,NLP)的基本任務之一,對理解文本語義具有重要意義?,F有的方法主要集中在一般領域的代詞、所有格和名詞短語的解析上,針對法律領域的研究較少。為了更好地學習法律文本中的知識,并消除共同指代現象,提出一種基于圖神經網絡的法律文本共指消解模型(Graph Neural Network for Coreference Resolution,CRGNN)。所提CRGNN 可以促進法律文本挖掘中的一系列后續任務。利用預訓練語言模型和雙向門控循環單元(Bidirectional Gate RecurrentUnit,BiGRU)對法律文本進行編碼;使用基于元任務的動態圖卷積網絡(Meta Dynamic Graph Convolutional Network,MDGCN)整合實體之間的引用關系;使用前饋神經網絡(FeedForward Neural Network,FFNN)和Biaffine 模型為候選對進行加權評估。CRGNN 可以有效識別實體之間的引用關系,并對實體依賴關系進行建模。在法庭記錄文件數據集上進行大量實驗,結果表明所提CRGNN 模型達到89. 76% 的F1 分數,均高于現有基準模型。

關鍵詞:自然語言處理;共指消解;法律文本;預訓練語言模型;圖神經網絡

中圖分類號:TP311 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):

文章編號:1003-3114(2024)03-0587-10

0 引言

共指消解是自然語言處理(Natural LanguageProcessing,NLP)的一項基本任務[1-4],對于許多NLP 下游任務至關重要,例如信息提?。郏担?、問答[6]和機器翻譯[7]等。共指消解的目的是將文檔中的實體聚類到不同的簇中。Choubey 等[8]提出一種事件共指解析的迭代方法,該方法通過訓練兩個不同的分類器來逐步構建事件的聚類過程,以識別文檔內和跨文檔的事件提及。

近年來,隨著開源的高質量法律文本數量增多,NLP 被廣泛應用于法律文本挖掘的各種任務中,例如法律判決預測、法律文本分類、法人實體識別和案例事實分析。然而,基于法律文本的共指消解研究仍有待發展。Gupta 等[9]使用條件隨機場來檢測數據集中的提及,首先使用二元分類器來生成候選提及對,并使用規則模板進一步創建參考組。然而,該方法嚴重依賴手工提取的特征,無法捕獲連續的上下文信息。

NLP 已廣泛應用于法律領域的文本挖掘任務。例如,Chalkidis 等[10]使用邏輯回歸和支持向量機,以解決合同成分提取問題。實驗表明,將機器學習與手動編寫的后處理規則相結合,通過混合方法可以獲得最佳結果。Merchant 等[11]提出一種基于潛在語義分析的自動文本摘要系統,可從冗長的文本中提取要點,并減少編輯的工作量。最近,Yang 等[12]提出一種多視角雙反饋網絡,該網絡由法律判決預測任務的前向預測和后向驗證組成,并利用多個子任務之間的拓撲依賴關系來提高預測性能。Ji 等[13]提出一種端到端模型來學習庭審記錄中不同句子中的證據鏈,采用共享編碼器和獨立解碼器進行多任務學習。

共指消解在許多領域得到了廣泛的研究。Clark 等[14]提出一種整合實體級信息的方法,構建集群排名模型,對由集群層編碼的分布式表示進行評分。文獻[15]使用生物醫學文本的端到端模型,并結合特定領域的特征來提高模型性能。Luan 等[16]通過利用不同句子的關系執行多任務學習,共同識別科學文章中的實體、關系和共指簇。Chen 等[17]在英語數據集上為共指消解任務提供了幾個基準模型,該數據集基于中國初高中學生的英語閱讀理解測試構建。Cardellino 等[18]提出一種將特定領域實體與通用領域本體對齊的方法,以增強法律領域本體表示。然而,在法律領域,針對發言人的共指消解研究較少[19]。

本文利用提及排序模型探討了法庭筆錄文件中說話者的共指消解問題。不同于起訴狀、傳票、公證文書等法律文書,訴訟文書是當事人在司法活動中所作的事實陳述和辯論的記錄。

現有模型無法直接用于法律文本的共指消解,原理如下:① 與普通文本不同,法律文本嚴謹,專業性強,知識豐富。② 數據集內的文件來自不同省份的真實法律案件,雖然格式類似,但記錄方式不同(比如縮略語)。換句話說,法庭筆錄文件涉及多個發言人,每個發言人都可以用多種方式提及。③ 法庭筆錄文件描述了解決民事糾紛的司法程序。該文件以雙方對話的形式記錄,沒有標準化的書面格式。

由于涉及事實陳述和反對意見的段落相對較長,并且冗長的文本增加了模型的計算復雜度,導致實體分散在文本中。如何充分利用上下文信息并對實體依賴關系進行建模,是亟需解決的關鍵問題。為此,提出一種基于圖神經網絡的法律文本共指消解模型(Graph Neural Network for Coreference Resolu-tion,CRGNN),該模型包含四個步驟:① 由于冗長文本帶有稀疏實體,選擇包含預定義實體的句子作為模型的輸入;② 采用預訓練的語言模型ELMo(Embeddings from Language Models)[20]和BERT(Bidirectional Encoder Representation from Transformers)[21]作為詞向量的來源,雙向門控循環單元(BidirectionalGate Recurrent Unit,BiGRU)[22]和注意力機制[23]用于生成實體表示;③ 為了有效地利用上下文信息,構建包含實體及其提及關系、映射關系的文檔級別圖譜;④ 采用多重評分機制,對先行詞之間的依賴關系進行建模,生成候選分數。

1 相關定義

針對發言人的共指消解任務是共指消解任務的一個重要子任務,目的是在法庭筆錄文件中與發言人相關的三種實體(縮略語實體、姓名實體和身份實體)之間建立共指鏈接。

定義1 映射方案。提出兩種解決方案來形式化發言人的共指消解問題:① 縮略語實體與姓名實體的映射記為A-N,即在縮略語實體和姓名實體之間建立共指鏈接;② 縮略語實體與身份實體的映射記為A-S,即在縮略語實體和身份實體之間建立共指鏈接。其中,姓名實體和身份實體之間的映射關系可以通過自定義規則從句子中提取出來。上述兩種映射方案按不同順序解決實體共指問題,將實體之間的關系提取轉化為基于文檔的共指消解問題。

主站蜘蛛池模板: 亚洲国产精品无码AV| 日本91视频| 中文字幕在线日本| 欧美一区国产| 免费看久久精品99| 欧美丝袜高跟鞋一区二区| 一本大道AV人久久综合| 国产SUV精品一区二区| 狠狠色噜噜狠狠狠狠色综合久| 日韩二区三区无| 国产精鲁鲁网在线视频| 中国特黄美女一级视频| av尤物免费在线观看| AV不卡在线永久免费观看| 色偷偷男人的天堂亚洲av| 久久久久亚洲av成人网人人软件| 制服丝袜亚洲| 亚洲精品在线91| 2020久久国产综合精品swag| 国产精品久久国产精麻豆99网站| 亚洲天堂首页| 伊人成人在线| 精品人妻一区二区三区蜜桃AⅤ| 99精品视频九九精品| 亚洲第一页在线观看| 国产精品亚洲欧美日韩久久| 久久中文字幕不卡一二区| 97成人在线视频| 伊人久综合| 欧美一级高清片久久99| 免费在线色| 日韩毛片免费| 国产高清精品在线91| 国产在线日本| 99精品视频在线观看免费播放| 国产在线观看一区精品| 超薄丝袜足j国产在线视频| 在线观看国产黄色| 夜夜操国产| 99r在线精品视频在线播放| 天天婬欲婬香婬色婬视频播放| 国产呦精品一区二区三区下载| 一本一道波多野结衣av黑人在线| 国产成人av一区二区三区| 综合色在线| 精品小视频在线观看| 97se亚洲综合不卡| 免费人成视网站在线不卡| 国内精品一区二区在线观看| 色综合婷婷| 色综合五月婷婷| 免费激情网址| 日本高清在线看免费观看| 亚洲成A人V欧美综合| 中文字幕在线永久在线视频2020| 国产视频 第一页| 2020亚洲精品无码| 无码内射在线| 久久久久亚洲AV成人网站软件| 国产男人天堂| 亚洲天堂久久| 在线永久免费观看的毛片| 宅男噜噜噜66国产在线观看| 日本手机在线视频| 成人精品午夜福利在线播放| 国产毛片一区| 亚洲中文字幕无码爆乳| 久久五月天国产自| 欧美 亚洲 日韩 国产| 亚洲最猛黑人xxxx黑人猛交| 91亚瑟视频| 国产午夜无码片在线观看网站| 天天色天天综合| 亚洲无码四虎黄色网站| 欧美成人精品一级在线观看| 亚洲天堂网站在线| 最新痴汉在线无码AV| 在线免费看片a| 久久精品丝袜| 18禁黄无遮挡免费动漫网站| 中文字幕亚洲专区第19页| 久久香蕉国产线看观看精品蕉|