999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多粒度增強和答案驗證的法律文書閱讀理解模型

2025-04-10 00:00:00王婧蕾徐建
計算機應用研究 2025年3期

摘 要:近年來法律文書閱讀理解逐漸成為一個研究熱點,它要求模型能夠利用有限的數據完成答案分類以及證據和答案的提取,然而現有模型編碼粒度單一,且問題和法律文書之間仍缺乏充分的交互。為了解決上述問題,提出了一種基于多粒度增強和答案驗證的法律文書閱讀理解模型。該模型首先使用多粒度編碼模塊,以字符、詞語和序列三種粒度來捕捉輸入文本中多層次的信息,提高模型提取信息的能力;然后引入基于問題和證據的注意力,增強問題和法律文書之間的交互,深入挖掘答案分類的線索信息;最后受到人類閱讀過程的啟發,該模型采用答案驗證機制結合局部和全局信息來預測答案。在中文法律閱讀理解數據集CAIL2019、CAIL2020和CAIL2020-Enhanced以及英文數據集HotpotQA上的實驗結果表明,所提方法的joint F1分別為76.48%、64.16%、70.82%和69.39%,優于基線模型。

關鍵詞:法律文書閱讀理解; 多粒度編碼模塊; 注意力機制; 答案驗證機制

中圖分類號:TP391.1"" 文獻標志碼:A

文章編號:1001-3695(2025)03-007-0700-08

doi:10.19734/j.issn.1001-3695.2024.09.0314

Legal text reading comprehension model based onmulti-granularity enhancement and answer verification

Wang Jinglei, Xu Jian

(School of Computer Science amp; Engineering, Nanjing University of Science amp; Technology, Nanjing 210094, China)

Abstract:In recent years, legal text reading comprehension has gradually become a research hotspot, requiring models to complete answer classification and extraction of evidence and answers with limited data. However, existing models encode only at a single granularity and still lack sufficient interaction between questions and legal texts. In order to solve these problems, this paper proposed a legal text reading comprehension model based on multi-granularity enhancement and answer verification. The model firstly used the multi-granularity encoding module to capture multi-level information from the input texts at three granularities: character, word and sequence, which improved the model’s ability to extract information. Then, it introduced an attention based on questions and evidence to enhance the interaction between questions and legal texts and to deeply mine the clues for answer classification. Finally, it proposed an answer verification mechanism inspired by the human reading process to predict answers by integrating local and global information. Experimental results on the Chinese legal reading comprehension datasets CAIL2019, CAIL2020, CAIL2020-Enhanced and the English dataset HotpotQA show that the proposed method achieves 76.48%, 64.16%, 70.82% and 69.39% joint F1 respectively, outperforming the baseline models.

Key words:legal text reading comprehension; multi-granularity encoding module; attention mechanism; answer verification mechanism

0 引言

機器閱讀理解(machine reading comprehension,MRC)是自然語言處理領域重要的研究方向,要求模型能夠根據給定的問題和段落輸出對應的答案。法律文書閱讀理解利用MRC技術閱讀理解法律文書,幫助法官、律師和普通大眾獲取所需信息,不僅提高了人們的工作效率,還促進了MRC的發展。

相較于通用領域,法律領域專業性強,答案和證據的標注都需要專業人員來進行,成本較高,而且法律文書不易公開這一特點更是加劇了創建高質量法律閱讀理解數據集的難度,因此,法律閱讀理解數據集不僅數量比通用領域少,規模也比通用數據集小得多。此外,法律文書通常使用更加專業化和正式的語言,用詞嚴謹簡潔,而且存在“擔保/保釋”“證明/證據”等形似異義詞,雖然具有相同的字符但詞語之間的語義相差較大,提高了模型理解法律文書的難度。同時,法律文書中通常會涉及大量人物關系和條款的使用,邏輯關系復雜,進一步增加了模型理解復雜法律文本的難度,而且與其他領域相比,法律領域更加注重有證據支撐的結果,即對模型的可解釋性也提出了較高要求。總體來說,法律文書閱讀理解要求模型能夠充分利用有限的標記數據進行訓練,進而具備理解包含形似異義詞和復雜邏輯關系的法律文書的能力,從而預測答案類型、證據句子和答案跨度,得到可解釋性更強的結果。所以面對有限的法律數據集,法律文書閱讀理解所面臨的挑戰主要是:如何盡可能充分地利用輸入問題和法律文書中的信息,訓練一個高性能的法律文書閱讀理解模型來完成答案分類、證據提取和答案提取三項任務。

目前,針對上述挑戰,相關研究人員陸續提出了一些解決方法。例如,Lin等人[1]提出的FETSF-MRC模型,基于RoBERTa編碼表示,利用證據權重和反饋再訓練機制實現了證據提取和答案提取任務之間的數據共享,在一定程度上提高了模型對輸入信息的利用率,但是該模型在編碼時僅采用字符這一種粒度進行編碼,大大限制了模型對詞語義和序列語義的理解能力,導致模型對輸入信息的利用不夠充分,進而對模型性能造成一定的影響。類似地,李芳芳等人[2]提出的多任務聯合訓練模型、朱海飛等人[3]提出的多層次信息融合模型等,大多數也都采用編碼層、交互層和輸出層的模型架構。首先通過BERT[4]等預訓練模型將輸入的問題和法律文書編碼成向量,然后使用注意力機制、CNN等模塊進一步提取特征,充分交互問題和法律文書,最后通過全連接層和softmax等得到最終的預測答案。總之,FETSF-MRC等現有方法雖然使用預訓練模型得到了較好的字符向量表示,但是模型對文本語義的編碼粒度單一,無法充分提取文本中多層次信息,導致模型提取的語義缺乏多樣性,而且也忽略了中文詞語和序列中所攜帶的重要信息,大大限制了模型的性能。因此,采用多粒度編碼對于提高模型對輸入信息的利用率是十分有必要的。

此外,現有研究還缺乏對答案分類任務的重視。答案分類任務用于區分跨度類、是否類和無答案類問題,決定了模型是否要進行答案跨度提取,對模型性能具有非常重要的作用。但是現有的FETSF-MRC模型,僅將其視為一個獨立的輔助任務,與其他任務之間的關聯性較弱,缺少信息的共享,可能存在信息的重復提取,進而導致模型對信息的利用率不高;而且該模型只使用簡單的線性分類器進行分類,問題和法律文書之間缺乏充分的交互,導致答案分類不準確甚至對證據和答案的提取造成較大影響。同樣地, HF-Reader[5]等許多現有工作也都獨立地完成答案分類任務,缺乏與其他任務之間的信息共享,導致模型對信息的利用率較低。綜上所述,現有模型獨立完成答案分類任務,雖然也取得了不錯的結果,但是輸入文本之間仍缺乏充分的交互、而且不同任務之間的關聯性也較弱,模型性能仍存在較大的提升空間。因此,豐富文本的編碼粒度、增強文本之間的交互,增加不同任務之間的信息共享,對于充分利用輸入文本信息進而提升模型性能十分重要。

針對上述問題,為了提高模型對輸入信息的利用率,本文受到FETSF-MRC的啟發,提出了一種基于多粒度增強和答案驗證的法律文書閱讀理解模型(MGEAV-MRC),其主要思想是:首先,在編碼層使用多粒度編碼模塊,以字符、詞語和序列三種粒度從輸入文本中提取多層次的信息,提高模型對詞語義和序列語義的理解能力和捕捉多層次信息的能力;其次,在答案分類任務中引入基于問題和證據的注意力,加強問題和法律文書之間的交互,同時增加答案分類任務與證據提取任務之間的信息共享,提高模型捕捉序列中相關線索信息的能力;最后,受到人類閱讀理解行為的啟發,先利用局部和全局信息分別預測答案,然后通過答案驗證機制對之前得到的兩個答案進行驗證進而得到最終答案。在中文法律文書閱讀理解數據集CAIL2019[6]、CAIL2020[7] 和CAIL2020-Enhanced以及英文數據集HotpotQA上的實驗結果驗證了該方法的有效性。

1 相關工作

1.1 抽取式閱讀理解

自2016年Rajpurkar等人[8]提出第一個大規模抽取式閱讀理解數據集SQuAD 1.1以來,就受到了相關研究人員的廣泛關注,他們先后提出了BiDAF[9]、R-Net[10]、QANet[11]等經典的模型。對于輸入的問題和段落文本,這些模型先使用預訓練的詞向量模型得到問題和段落的向量表示,然后經過注意力機制進行交互,使模型充分理解問題和段落語義,最后通過分類器得到預測答案。考慮到現實中并不是所有問題都有答案,還存在一些無答案的問題,Rajpurkar等人[12]又提出了SQuAD 2.0,在之前的基礎上加入了無答案類問題,增加了數據集的難度。同年Devlin等人[4]提出了預訓練模型BERT,大大提高了模型對自然語言文本的編碼能力,且在多項自然語言處理任務中取得了最佳性能。后來,研究人員基于BERT又提出了RoBERTa[13]、DeBERTa[14]、PERT[15]等預訓練模型,進一步提高了模型理解自然語言的水平。雖然預訓練模型性能較好,但是其可解釋性相對較差。

1.2 多跳閱讀理解

為了提高模型的可解釋性,研究人員又陸續提出了HotpotQA[16]、CAIL2020[7]等多跳閱讀理解數據集,要求模型提供答案對應的證據。針對這類任務,相應的方法大致可分為基于預訓練模型、基于注意力機制和模仿人類行為三類。

基于預訓練模型的方法利用預訓練模型優越的編碼能力來提取特征,進而完成問答任務。李芳芳等人[2]在RoBERTa的基礎上利用雙向注意力流進行問題和法律文書之間的交互,進而預測答案;丁美榮等人[5]基于RoBERTa采用泛讀和精讀模塊,以句子和字符兩種粒度獲取輸入文本的語義信息; FETSF-MRC模型[1]使用RoBERTa進行字符編碼,并通過證據權重和預測答案反饋機制來增強略讀和精讀兩階段之間的交互;朱海飛等人[3]在RoBERTa編碼的基礎上借助CNN和多種注意力機制多層次地提取輸入文本中的信息。但是,這些基于預訓練模型的方法存在一個問題:僅以字符為單位進行編碼,粒度單一,無法充分提取文本的重點信息,甚至對模型最終的性能造成了一定程度的限制。

基于注意力機制的方法靈活使用注意力機制,為不同分詞賦予不同的注意力得分,使模型能夠關注到文本中不同層次的信息。FETSF-MRC模型[1]使用Transformer進一步提取特征進而得到證據,同時利用傳統自注意力和證據注意力來預測答案;Wu等人[17]將動態卷積與自注意力相結合,同時捕捉文本中的局部和全局信息;孫媛等人[18]和朱斯琪等人[19]采用詞級注意力、自注意力等多種注意力來提取文本信息。雖然這些模型都取得了不錯的結果,但是它們僅將答案分類任務視為輔助任務,僅使用簡單的線性分類器進行分類,問題和段落之間仍缺乏充分的交互,導致模型捕捉相關線索信息的能力相對較差。

模仿人類行為的方法仿照人類閱讀理解的過程設計模型,提高其理解和推理能力。Wang等人[20]模仿人類從多個候選答案中選擇最終答案的行為,提出了候選答案再思考模型;Yuan等人[21]模仿人類的預習過程;DFGN模型[22]模仿人腦中展現實體關系的網絡結構,構建圖結構進行推理;Tang等人[23]模擬人類關注短語而非單一實體的閱讀行為,構建短語關系圖捕捉文本間的關系;Seonwoo等人[24]模仿人類簡化復雜問題的思想,將閱讀理解任務簡化為檢索任務;邱婉春等人[25]模仿人類多角度提取信息的行為,從全局和局部兩方面充分捕捉所需信息;Jia等人[26]模擬人類關注關鍵詞的行為,利用關鍵詞指導模型推理。受此啟發,本文模仿人類綜合考慮局部和全局信息進而得出最終答案的過程,提出了一種答案驗證機制,對由局部和全局信息分別得到的答案進行驗證,進而得到最終的預測答案。

為了解決上述問題、進一步提高模型對輸入信息的利用率,本文提出了一種基于多粒度增強和答案驗證的法律文書閱讀理解模型。

2 模型設計

為了使模型能夠盡可能充分地利用輸入文本中的信息,進而提高模型在多跳閱讀理解數據集上的性能,受到FETSF-MRC的啟發,本文提出了一種基于多粒度增強和答案驗證的法律文書閱讀理解模型MGEAV-MRC,主要包括編碼層、交互層和預測層,具體結構如圖1所示。a)針對現有模型編碼粒度單一,無法充分提取輸入文本信息的問題,本文在編碼層使用多粒度編碼模塊進行編碼,以字符、詞語和序列三種粒度獲取多層次的文本信息,并在全局共享,有效提高模型對輸入信息的利用率;b)針對答案分類任務中問題和法律文書之間缺乏充分交互的問題,本文在交互層引入證據提取任務得到的證據,使用基于問題和證據的注意力增強文本間的交互,提高模型捕捉關鍵線索信息的能力;c)受到人類閱讀行為的啟發,在預測層,本文利用局部和全局信息分別預測答案,然后通過答案驗證機制對這兩個答案進行驗證,進而得到最終的預測答案。

2.1 編碼層

編碼層的主要功能是利用多粒度編碼模塊對輸入的問題和法律文書進行編碼,將其轉換成相應的向量表示,以便之后模型對其進行進一步處理。

法律文書中存在“擔保/保釋”“證明/證據”等形似異義詞,雖具有相同字符但現實中它們之間的語義相差較大,而在現有單一字符編碼表示下,它們之間的差距較小,導致模型無法準確理解這些詞語之間的差異,而綜合詞級語義和序列級語義,則可以更為準確地表示這些形似異義詞的含義。此外,考慮到字符并不能準確表達文本語義,例如,“存”有“存在”“保存”“剩余”等語義,僅根據一個字符無法確定其具體含義,而根據詞語、序列則可以準確獲取其語義,因此詞語義和序列語義對于理解文本十分重要。但是目前,現有模型大多使用預訓練模型進行編碼,僅以字符為單位來理解文本,粒度單一,不僅無法獲取準確語義,還無法提取文本中的多層次信息,導致模型獲取的信息十分有限,對輸入信息的利用不夠充分。針對這一問題,本文提出了一種多粒度編碼模塊,以字符、詞語和序列三種粒度來提取文本中多層次的信息,并以加和的方式實現不同粒度之間的信息共享與融合,進而增強模型對詞語義和序列語義的理解能力,同時提高模型對輸入信息的利用率。

令輸入的問題Q={q1,q2,…,qm},法律文書P={p1,p2,…,pn},并以T=[CLS]+Q+[SEP]+P+[SEP]格式輸入到多粒度編碼模塊中。首先經過預訓練模型RoBERTa,即可得到字符粒度的編碼表示H:

H=RoBERTa(T)

(1)

其次,計算詞語粒度的編碼表示。利用結巴對問題和法律文書進行分詞,對于第t個分詞wt,其長度為lt,根據預訓練的中文詞向量模型ew可以得到分詞wt對應的向量表示xt:

xt=ew(wt)

(2)

在不同粒度編碼表示的信息共享與融合方面,一般的做法有拼接和加和兩種方式。考慮到由RoBERTa編碼得到的字符表示的維度較大,而拼接的方式會使最終編碼表示的長度過長,大大增加了計算的難度和資源消耗,為此,本文采用加和的方式對不同粒度的編碼表示進行融合,將詞語義和序列語義融入到字符語義中,進而實現不同粒度語義的信息共享。

在字符粒度的編碼表示與詞粒度的編碼表示進行融合的過程中,考慮到詞向量的維度可能會與字符向量的維度不同,因此使用兩個線性層進行維度變換,使詞向量維度與字符向量維度相同,這樣就可以將詞向量平均后加入到詞中每個字符對應的向量上,進而實現詞語義和字符語義的融合:

最后,對于序列粒度的編碼表示,本文使用“[CLS]”對應的向量來表示,由于其維度與字符表示相同,所以可以直接將其疊加到序列中的每個字符表示中,實現序列粒度的編碼表示與字符粒度的編碼表示之間的融合:

為了提高信息的復用率,避免模型對相同信息進行重復編碼,本文使證據提取、答案分類和答案提取三個任務共享多粒度編碼模塊的表示。

2.2 交互層

交互層的主要功能是:在編碼層向量表示的基礎上,根據任務的不同需要分別進行相應的信息提取與交互,使模型能夠充分理解輸入文本中的語義,進而提高模型預測結果的準確率。

在交互層,使用Transformer對編碼層的向量表示進行進一步的編碼,以充分捕捉法律文書中不同句子與問題之間的相關性,以便之后預測相應的證據句子。考慮到證據對于答案分類和答案提取任務均有一定的輔助作用,因此本文分別通過基于問題和證據的注意力和證據注意力機制將證據信息引入其余兩任務中加以輔助。以下將分任務進行詳細介紹。

對于證據提取任務,本文將其看作二分類問題,即判斷每個分句是否是證據句子。于是,對編碼層得到的表示H進行最大池化,得到序列中每個分句的表示,然后使用兩層的Transformer進一步編碼,捕捉序列中分句級別的特征,主要計算公式如式(7)(8)所示。

對于答案分類任務,現有研究大多將其視為輔助任務,只使用簡單的線性分類器進行分類,問題和法律文書之間缺乏充分的交互,進而導致答案分類不準確甚至對證據提取和答案提取任務造成影響。針對這一問題,本文提出了一種基于問題和證據的注意力,利用證據提取任務提取的證據輔助進行答案分類,并利用注意力機制增強問題和法律文書之間的交互,充分利用文本信息的同時,提高模型對文本信息的理解能力和對關鍵線索信息的捕捉能力,具體介紹如下:

首先將多粒度編碼模塊的輸出H與問題的mask向量相乘得到問題表示q:

(12)

其中:logitjevid是第j個句子的證據權重。然后進行與自注意力相同的操作得到表示Htype。

對于答案提取任務,與答案分類類似,利用證據提取任務得到的證據權重Aevid,可求得經過證據增強的序列表示Hspan:

Hspan=softmax(Aevid×Aori)×H

(13)

至此,就得到了用于證據提取任務的Hevid、用于答案分類任務的Htype和用于答案提取任務的Hspan。

2.3 預測層

預測層的主要作用是:在交互層結果的基礎上,利用線性層進行預測,并根據不同任務的需要輸出相應的預測結果。

對于證據提取任務,使交互層得到的Hevid經過線性層和softmax歸一化,即可得到模型預測的證據句子evid。該任務的損失可由二分類交叉熵來計算,如式(14)所示。

lossevid=BCE(evid,yevid)

(14)

對于答案分類任務,使交互層得到的Htype經過線性層和softmax歸一化,即可得到預測的答案類型type。該任務可使用預測類型和真實類型之間的交叉熵來計算損失:

losstype=CE(type,ytype)

(15)

對于答案提取任務,人在做閱讀理解時,通常會根據全文得到一個答案,再根據關鍵句得到一個答案,然后綜合比較這兩個答案進而得到最終答案。受到該行為啟發,本文提出了一種答案驗證機制,將模型根據局部信息得到的答案與根據全局信息得到的答案進行驗證,得到最終的答案。具體過程如下:

首先,得到根據證據句子預測的答案。使交互層得到的Hspan經過線性層,即可得到預測的答案開始和結束位置:

se=Linearspan(Hspan),ee=Linearspan(Hspan)

(16)

同理,根據多粒度編碼模塊的輸出表示H經過線性層可以得到根據全局信息預測的答案開始位置sg和結束位置eg。然后將上述兩個答案跨度按一定的權重進行融合,得到最終的答案開始和結束位置:

s=αese+αgsg,e=αeee+αgeg,且αe+αg=1

(17)

此外,考慮到根據全局信息得出的答案應該與根據證據句子得出的答案非常相似,所以在lossspan中加入一項——兩個答案之間的距離Dis,使兩個答案在訓練過程中不斷接近:

Dis=Euclidean(se,sg)+Euclidean(ee,eg)

(18)

因此,該任務的損失函數可計算如下:

lossans=CE(s,ys)+CE(e,ye)+Dis

(19)

分析可知,答案跨度所在分句肯定是證據句子。因此,本文將預測的答案反饋給證據提取任務進行再訓練,進一步提高證據提取的準確率。

本文將每個分句看作一個獨立的文檔來計算得分α,判斷其是否可作為證據:

3 實驗

3.1 數據集

本文在中文法律閱讀理解數據集CAIL2019、CAIL2020和CAIL2020-Enhanced以及英文數據集HotpotQA上進行實驗,具體介紹如下:

CAIL2019和CAIL2020中的數據均來自“中國法律文書網”公開的法律文書,格式與SQuAD類似,包括跨度類、是/否類和無答案類問題。兩者的不同之處在于,CAIL2019總共約10 000條數據,其答案可由單步推理得出,且無須提供相應的證據;而CAIL2020共約有5 000條數據,其答案需要對多處段落文本進行多步推理才能得出,而且需要提供相應的證據,難度較大。

CAIL2020-Enhanced是借助于CAIL2019對CAIL2020進行數據增強后得到的數據集,其中,采用基于TF-IDF的文本相似度匹配方法為CAIL2019增加證據標注,以使增強數據集在數組組織形式上與原數據集保持一致。

HotpotQA是一個大規模的面向通用領域的英文多跳閱讀理解數據集,其任務類型與數據組織形式均與CAIL2020類似。

3.2 基線模型

在數據集CAIL2019、CAIL2020和CAIL2020-Enhanced上,本文選擇五個基線模型進行對比實驗,分別為:

a)HotpotQA Baseline[16]:是數據集HotpotQA官方提供的基線模型。本文使用結巴進行分詞,使用預訓練的中文詞向量初始化詞嵌入表示。

b)DFGN[22]:由問題實體動態提取段落實體構建圖,并使用融合模塊對圖進行建模以及實體和文本之間的信息傳遞,最終得到一條推理鏈,并據此預測答案。

c)Baseline-BERT(RoBERTa)[7]:是CAIL2020閱讀理解比賽官方提供的基線模型,分別以BERT和RoBERTa作為編碼器,然后經過線性層進行預測。

d)FETSF-MRC[1]:基于RoBERTa編碼表示,通過證據權重和反饋再訓練機制增強略讀和精讀兩階段之間的交互,通過多任務聯合學習方式對模型進行訓練。

為了更好地評估本文方法在數據集HotpotQA上的性能,除HotpotQA Baseline[16] 、DFGN[22] 和FETSF-MRC[1]外,本文還增加了專為HotpotQA設計的IP-LQR[23]和LOUVER[24]模型作為基線模型。

a)IP-LQR[23]:提取文本中的短語而非單一實體來構建圖,并利用LQR技術對問題進行重寫,避免模型受到無關信息的影響。

b)LOUVER[24]:是一種弱監督多跳檢索預訓練方法,采用基于密集編碼器的結構,以問題和子問題嵌套的結構來生成數據,進而得到復雜問題的向量表示。

3.3 評價指標

抽取式閱讀理解任務的評價指標主要是準確率F1,可由精確率P和召回率R計算得到。由于多跳閱讀理解數據集CAIL2020要求模型完成答案分類、證據提取和答案提取三項任務,所以本文的評價指標采用ans F1、sup F1和joint F1,分別表示答案提取、證據提取和聯合任務的準確率,其中,joint F1的計算過程如式(25)~(27)所示。

Pjoint=Pans×Psup

(25)

Rjoint=Rans×Rsup

(26)

joint F1=2×Pjoint×Rjoint(Pjoint+Rjoint)×100%

(27)

其中:Pjoint,Pans,Psup分別表示聯合任務、答案提取和證據提取的精確率;Rjoint,Rans,Rsup分別表示聯合任務、答案提取和證據提取的召回率。

3.4 實現方法

對于本文模型MGEAV-MRC的實現方法,主要從數據處理、模型訓練和測試三方面進行說明。

在數據處理過程中,本文使用RoBERTa的分詞器和結巴對輸入的問題和法律文書進行分詞,然后將分詞結果組織成“[CLS]Q[SEP]P[SEP]”的格式輸入模型,其中“[CLS]”是序列開始的標記,“[SEP]”是用于分隔問題和法律文書的標記,Q表示問題的分詞結果,P表示法律文書的分詞結果。此外,本文將輸入序列的最大長度設置為512,若長度大于512則將超出部分截斷,以保證輸入序列的長度不超過模型所能處理的最大序列長度。

在模型訓練過程中,本文使用預訓練模型Chinese-RoBERTa-wwm-ext和預訓練的中文詞向量模型tencent-ailab-embedding-zh-d200-v0.1.0得到字符級、詞級和序列級的向量表示,以用于下游任務的計算。在超參數設置方面,在CAIL2020 數據集上,本文設置learning rate為3E-5,batch_size為4,λevid為5,λtype為3,λfb為5,αe為0.9,αg為0.1,KL散度中的溫度T為5,epoch為10;在CAIL2019數據集上設置λtype為2,epoch為2,其余超參數取值與CAIL2020相同;在CAIL2020-Enhanced和HotpotQA數據集上,模型超參數的設置均與CAIL2020數據集上的設置相同。此外,本文對答案分類、證據提取和答案提取三個任務進行聯合訓練,并使用驗證集對訓練過程中模型的性能進行評估,將結果最好的模型進行保存,以便測試。

在測試過程中,首先加載訓練過程中保存的具有最佳結果的模型,然后對測試集中的數據進行處理,并將處理后的測試數據輸入到模型編碼層,再經過交互層對問題和法律文書進行充分地交互,最后通過預測層得到模型預測的答案類型、證據和答案跨度。

3.5 實驗結果

3.5.1 總體性能分析

在法律文書閱讀理解數據集CAIL2019和CAIL2020上,本文采用HotpotQA Baseline[16]、DFGN[22]、Baseline-BERT[7]、Baseline-RoBERTa[7]和FETSF-MRC[1]作為基線模型,與本文模型MGEAV-MRC進行比較,具體結果如表1、2所示。

觀察表1、2中的結果可以發現,MGEAV-MRC模型在CAIL2019和CAIL2020兩個數據集上都取得了比基線更好的結果。在CAIL2020數據集上,MGEAV-MRC的joint F1為64.16%,比最佳基線提高了1.53%;在CAIL2019數據集上,MGEAV-MRC的joint F1為76.48%,比最佳基線提高了1.16%,驗證了MGEAV-MRC在中文法律閱讀理解數據集上的有效性。同時,各模型在CAIL2019上的性能均優于它們在CAIL2020上的性能,這進一步說明了CAIL2020數據集的難度較大。

3.5.2 敏感性分析

為了進一步研究超參數取值對MGEAV-MRC模型性能的影響,本文在CAIL2020數據集上,對超參數迭代輪數epoch和學習率learning rate取不同值時模型的性能進行了比較,并繪制了如圖2、3所示的模型joint F1隨epoch和learning rate變化的折線圖,由曲線的變化趨勢可知,當epoch=10、learning rate=3E-5時,模型joint F1值達到最優,為64.16%。

此外,本文還對超參數αg、λtype、λevid和λfb進行了研究,并在數據集CAIL2019和CAIL2020上進行了對比實驗,結果如圖4~6和表3所示。觀察圖4~6中曲線變化趨勢可知,當αg=0.1時,在數據集CAIL2019和CAIL2020上,模型joint F1均達到最優;同樣對于超參數λevid,模型在CAIL2019和CAIL2020上性能達到最優時的取值均為5;而對于超參數λtype,當其取值為2時,模型在CAIL2019上的性能達到最佳,而其取值為3時,模型在CAIL2020上的性能達到最佳。

分析表3中不同λfb取值對模型在數據集CAIL2019和CAIL2020上性能的影響可知,對于數據集CAIL2019,當λfb取值為7.0時,模型性能達到最優,joint F1為76.48%;對于數據集CAIL2020,當λfb取值為5.0時,模型性能最佳,joint F1為64.16%。

3.5.3 消融實驗

為了評估MGEAV-MRC模型中多粒度編碼模塊、基于問題和證據的注意力和答案驗證機制三部分對模型性能的貢獻,本文在CAIL2020數據集上進行了消融實驗,結果如表4所示。

由表4可以看出,MGEAV-MRC中的三個模塊都很重要,都對模型最終的結果有所貢獻。當模型去掉多粒度編碼模塊后,joint F1下降了2.45%;當模型去掉基于問題和證據的注意力機制后, joint F1下降了1.09%;當模型去掉答案驗證機制后,joint F1下降了1.35%。由此可知,多粒度編碼模塊對于模型性能的貢獻最大,而基于問題和證據的注意力對模型性能的貢獻最小。通過以上對消融實驗結果的分析,證明了本文模型的有效性。

3.5.4 有效性分析

為了進一步驗證MGEAV-MRC的有效性,本文以CAIL2020數據集中的一個法律文書為例進行詳細說明。如表5所示,法律文書經過了分句處理,并為分句標明序號。分析可知,該問題需要經過兩步推理:第一步,找到“準備與孫7交易的人”;第二步,找到他是“以什么價格獲得發票”的。本文模型閱讀理解法律文書,根據分句(11)(14)可以判斷出“準備與孫7交易的人”是“呂1”(如表5中劃單橫線的部分),再由分句(8)可得價格是“400元”(如表5中劃波浪線的部分)。

圖7(a)(b)依次是FETSF-MRC和MGEAV-MRC模型在答案分類任務經過線性層后概率得分熱力圖,圖中方塊從左到右依次表示答案為跨度類、是類、否類和無答案類。仔細觀察可以發現,圖(a)中最右邊方塊顏色最深,即FETSF-MRC模型認為答案屬于無答案類;而圖(b)中最左邊方塊顏色最深,即MGEAV-MRC認為答案屬于跨度類,然后執行答案跨度提取任務。根據圖8中答案開始和結束位置的概率得分熱力圖以及輸入文本序列可得,最終預測的答案跨度為“400元”。

法律文書……(5)票面金額合計200萬元,(6)并約定由被告人呂1將4張假發票送到蚌埠市長途汽車站。(7)次日10時6,(8)被告人呂1以400元的價格從他人處購買了4份非法制造的安徽增值稅普通發票,(9)票面金額合計210萬元。(10)當日17時6,(11)被告人呂1到達蚌埠市長途汽車站后電話聯系購買發票的人,(12)購買發票的人讓其到淮上區通城國貿廣場,(13)其就乘坐出租車到達本市淮上區通城國貿廣場,(14)準備和孫7交易時,(15)被孫7等人抓獲。(16)2016年2月29日,……

問題準備與孫7交易的人是以什么價格獲得發票的?

真實答案答案:以400元的價格證據:[8,14]

MGEAV-MRC答案:400元證據:[8,11,14]

FETSF-MRC答案:unknown證據:[]

Baseline-RoBERTa答案:unknown證據:[]

由上述分析可以看出,相較于其他模型,MGEAV-MRC可以更準確地判斷答案類型,并據此進行多步推理,預測得到證據和答案。由此,可以驗證本文模型的有效性。同時,以上案例中FETSF-MRC由于答案類型判斷錯誤而導致證據和答案預測錯誤,說明了準確的答案分類對于正確提取證據和答案的重要性,同時也再次說明了本文工作的必要性。

3.5.5 可解釋性分析

為了進一步驗證基于問題和證據的注意力與多粒度編碼模塊對MGEAV-MRC結果的影響,本文對兩個樣例的關鍵過程進行了可視化展示,如圖9~11所示。

圖9直觀地展示了模型在回答問題時對法律文書中不同片段的注意力可視化結果,其中,顏色越深代表模型對該片段的關注度越高。圖9(a)表示不加該注意力時模型注意力的可視化結果,圖9(b)表示加入該注意力后模型注意力的可視化結果。

對比圖9(a)(b)的結果可以發現,當加入基于問題和證據的注意力機制之后,模型可以更好地關注法律文書中答案分類相關的關鍵線索信息,例如“可疑貨幣”“假人民幣”等;而不加基于問題和證據的注意力時,模型只關注“在該房間內”“高x1”等在問題中出現過的信息,而忽略了關鍵的線索信息,進而導致模型預測錯誤。由此可以說明,加入基于問題和證據的注意力可以使模型更好地捕捉法律文書中答案分類相關的關鍵線索信息,進而提高模型預測的準確率。

本文對圖10中樣例的答案預測過程中問題與法律文書之間的相關性進行了可視化,結果如圖11所示。其中,圖11(a)表示不加多粒度編碼模塊時問題與法律文書之間的相關性;圖11(b)表示加入多粒度編碼模塊后問題與法律文書之間的相關性。

觀察圖11(a)(b)可以發現,加入多粒度編碼模塊后,模型可以綜合字符、詞和序列三種粒度的編碼表示,多層次地理解法律文書,能夠更深刻地理解“昵稱”“李小藥師”等短語的意義以及問題的整體內涵,進而預測得到正確答案;而不加多粒度編碼模塊時,模型只能通過字符編碼表示理解法律文書,對于短語和問題的理解缺乏整體性,進而導致答案預測錯誤。因此,引入多粒度編碼模塊可以使模型更好地理解短語和問題的整體意義,有助于提高模型預測的準確性。

此外,對于法律文書中的形似異義詞,表6以“擔保/保釋”“證明/證據”為例,展示了加入多粒度編碼模塊前后它們之間的距離,其中,距離的計算采用歐氏距離,“字符編碼”表示不加多粒度編碼模塊時的情況,“多粒度編碼”表示加入多粒度編碼模塊的情況。

對比表6結果可以發現,加入多粒度編碼模塊后,模型可以更好地理解詞語的整體含義,形似異義詞在語義空間中的距離較遠,符合現實中形似異義詞含義相差較大的情況;而不加多粒度編碼模塊時,形似異義詞在語義空間中的距離較近,與現實不符。這進一步證明了加入多粒度編碼模塊有助于模塊更好地理解文本中的詞語義,進而提高模型預測結果的準確性。

3.5.6 在增強數據集上的實驗

為了進一步驗證MGEAV-MRC在更大規模數據集上的性能,考慮到法律數據集創建困難且數量有限,本文決定采用數據增強技術對現有法律數據集進行擴充。調整語句順序、使用近義詞替換等數據增強方法可能會導致案件文本前后語義不連貫,因此為了保證數據集的質量,本文使用現有數據集CAIL2019對CAIL2020進行增強。具體來說,與李芳芳等人[2]相同,本文利用TF-IDF計算法律文書中每個分句與問題之間的相似度,并將得分最高的分句標注為證據,得到增強后的數據集CAIL2020-Enhanced,總共包含約35 000條數據,格式及問題類型均與原數據集保持一致,具體的數據劃分如表7所示。本文在CAIL2020-enhanced上進行了實驗,結果如表8所示。

觀察表8不同模型在CAIL2020-Enhanced上的表現可知,本文MGEAV-MRC取得了比基線模型更好的性能,其joint F1達到了70.82%,說明本文模型在面向更大規模的數據集時仍具有一定的競爭力,進一步驗證了其優越性和有效性。此外,與在CAIL2020上的結果相比,各模型在CAIL2020-Enhanced上明顯取得了更好的性能,這也說明了在一定范圍內,數據集規模的擴大有助于提高模型的性能。

3.5.7 泛化性分析

為了進一步測試MGEAV-MRC在其他語言或領域中的適用性,本文在大規模的面向通用領域的英文多跳閱讀理解數據集HotpotQA上進行實驗,該數據集總共包含約90 000條數據,其數據組織形式和任務類型均與CAIL2020一致。同時為了更好地測試模型的性能,本文還增加了專為HotpotQA數據集設計的IP-LQR[23]和LOUVER[24]作為基線模型,具體的實驗結果如表9所示。

分析表9可以發現,本文MGEAV-MRC在HotpotQA上也取得了比基線更好的性能,證明了本文模型在英文通用領域也具有一定的競爭力,說明中文法律文書中嚴謹簡潔的語言、形似異義詞這種語法現象以及復雜邏輯關系的存在,確實能夠提高模型理解復雜自然語言文本的能力,進而在面對通用領域文本時,能夠深入理解其中的語義,預測出更為準確的結果。由此可以說明,本文模型具有較好的泛化性。

4 結束語

本文提出了一種基于多粒度增強和答案驗證的法律文書閱讀理解模型MGEAV-MRC。面對中文法律領域標注數據有限和對可解釋性要求較高的需求,針對現有模型對輸入信息利用不夠充分的問題,在FETSF-MRC的基礎上,提出了多粒度編碼模塊、基于問題和證據的注意力和答案驗證機制,以多種粒度提取輸入中不同層次的信息,同時利用問題和證據信息進行答案分類,并結合局部和全局信息預測答案跨度,提高模型對輸入信息的利用率。在中文法律閱讀理解數據集CAIL2019、 CAIL2020和CAIL2020-Enhanced以及英文數據集HotpotQA上的實驗驗證了本文模型的有效性。

在證據提取任務中,雖然使用了多粒度編碼模塊和Transformer進行特征提取,但是模型對文本中的語義特征和句子之間關系的理解還不夠充分,未來可以嘗試采用命名體識別與圖結構相結合的方法,或者引入句法、詞法關系來進一步加強模型對深層語法結構和句子間關系的理解水平。

參考文獻:

[1]Lin Zhiqiang, Yang Fan, Wu Xuyang, et al. A feedback-enhanced two-stage framework for judicial machine rea-ding comprehension[J]. Engineering Applications of Artificial Intelligence, 2023, 123: 106178.

[2]李芳芳, 任星凱, 毛星亮, 等. 基于多任務聯合訓練的法律文本機器閱讀理解模型[J]. 中文信息學報, 2021, 35(7): 109-117,125. (Li Fangfang, Ren Xingkai, Mao Xingliang, et al. A reading comprehension model for judical texts based on multi task joint training[J]. Journal of Chinese Information Processing, 2021, 35(7): 109-117,125.)

[3]朱海飛, 段宗濤, 王全偉, 等. 基于多層次信息融合的多跳機器閱讀理解[J]. 計算機系統應用, 2024,33(7): 239-247. (Zhu Haifei, Duan Zongtao, Wang Quanwei, et al. Multi-hop machine reading comprehension based on multi-level information fusion[J]. Computer Systems amp; Applications, 2024, 33(7): 239-247.)

[4]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding[C]//Proc of Confe-rence of the North American Chapter of the Association for Computatio-nal Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.

[5]丁美榮, 劉鴻業, 徐馬一, 等. 面向機器閱讀理解的多任務層次微調模型[J]. 計算機系統應用, 2022, 31(3): 212-219. (Ding Meirong, Liu Hongye, Xu Mayi, et al. Multi-task hierarchical fine-tuning model toward machine reading comprehension[J]. Computer Systems and Applications, 2022, 31(3): 212-219.)

[6]Duan Xingyi, Wang Baoxin, Wang Ziyue, et al. CJRC: a reliable human-annotated benchmark dataset for Chinese judicial reading comprehension[C]//Proc of the 18th China National Conference, CCL. Berlin: Springer, 2019: 439-451.

[7]Meng Qingye, Wang Ziyue, Chen Hang, et al. Augmented and challenging datasets with multi-step reasoning and multi-span questions for Chinese judicial reading comprehension[J].AI Open,2022,3: 193-199.

[8]Rajpurkar P, Zhang Jian, Lopyrev K, et al. SQuAD: 100,000+ questions for machine comprehension of text[C]//Proc of Conference on Empirical Methods in NaturalLanguage Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2383-2392.

[9]Seo M, Kembhavi A, Farhadi A, et al. Bidirectional attention flow for machine comprehension[EB/OL]. (2016-11-05). https://arxiv.org/abs/1611.01603.

[10]Wang Wenhui, Yang Nan, Wei Furu, et al. Gated self-matching networks for reading comprehension and question answering[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 189-198.

[11]Yu A W, Dohan D, Luong M T, et al. QANet: combining local convolution with global self-attention for reading comprehension[EB/OL]. (2018-04-23). https://arxiv.org/abs/1804.09541.

[12]Rajpurkar P, Jia R, Liang P. Know what you don’t know: unanswerable questions for SQuAD[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 784-789.

[13]Liu Y, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. (2019-07-26). https://arxiv.org/abs/1907.11692.

[14]He Pengcheng, Liu Xiaodong, Gao Jianfeng, et al. DeBERTa: decoding-enhanced Bert with disentangled attention[EB/OL]. (2020-07-05). https://arxiv.org/abs/2006.03654.

[15]Cui Yiming, Yang Ziqing, Liu Ting. PERT: pre-training BERT with permuted language model[EB/OL]. (2022-05-14). https://arxiv.org/abs/2203.06906.

[16]Yang Zhilin, Qi Peng, Zhang Saizheng, et al. HotpotQA: a dataset for diverse, explainable multi-hop question answering[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2369-2380.

[17]Wu Chunyan, Li Li, Liu Zhigui, et al. Machine reading comprehension based on SpanBERT and dynamic convolutional attention[C]//Proc of the 4th International Conference on Advanced Information Science and System. New York: ACM Press, 2023: 1-5.

[18]孫媛, 陳超凡, 劉思思, 等. Ti-Reader: 基于注意力機制的藏文機器閱讀理解端到端網絡模型[J]. 中文信息學報, 2024, 38(2): 61-69. (Sun Yuan, Chen Chaofan, Liu Sisi, et al. Ti-Reader: an end-to-end attention based model for Tibetan machine reading comprehension[J]. Journal of Chinese Information Processing, 2024, 38(2): 61-69.)

[19]朱斯琪, 過弋, 王業相, 等. TransformerG: 基于層級圖結構與文本注意力機制的法律文本多跳閱讀理解[J]. 中文信息學報, 2022, 36(11): 148-155,168. (Zhu Siqi, Guo Yi, Wang Yexiang, et al. TransformerG: multi-hop reading comprehension of legal texts based on hierarchical graph structure and attention mechanism[J]. Journal of Chinese Information Processing, 2022, 36(11): 148-155,168.)

[20]Wang Yong, Lei Chong. QANet-based candidate answer rethink mo-del for machine reading comprehension[J]. International Journal of Wireless and Mobile Computing, 2021, 20(3): 246-254.

[21]Yuan Chenchen, Liu Kaiyang, Zhang Xulu. Pre-reading activity over question for machine reading comprehension[C]//Proc of the 34th International Conference on Tools with Artificial Intelligence. Pisca-taway, NJ: IEEE Press, 2022: 1411-1418.

[22]Qiu Lin, Xiao Yunxuan, Qu Yanru, et al. Dynamically fused graph network for multi-hop reasoning[C]//Proc of the 57th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 6140-6150.

[23]Tang Jiuyang, Hu Shengze, Chen Ziyang, et al. Incorporating phrases in latent query reformulation for multi-hop question answering[J]. Mathematics, 2022, 10(4): 646.

[24]Seonwoo Y, Lee S W, Kim J H, et al. Weakly supervised pre-trai-ning for multi-hop retriever[C]//Proc of Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Stroudsburg, PA: Association for Computational Linguistics, 2021: 694-704.

[25]邱婉春, 徐建. 融合全局—局部特征的多粒度關系檢測模型[J]. 計算機應用研究, 2023, 40(2): 476-480. (Qiu Wanchun, Xu Jian. Multi-granularity relation detection incorporating global-local features[J]. Application Research of Computers, 2023, 40(2): 476-480.)

[26]Jia Meihuizi, Liao Lejian, Wang Wenjing, et al. Keywords-aware dynamic graph neural network for multi-hop reading comprehension[J]. Neurocomputing, 2022, 501: 25-40.

主站蜘蛛池模板: 精品国产成人av免费| 99热亚洲精品6码| 色噜噜在线观看| 国产成人精品视频一区视频二区| 19国产精品麻豆免费观看| 91亚瑟视频| 亚洲国产精品一区二区第一页免| 国产女人在线视频| 最新国产网站| 亚洲第七页| 亚洲天堂成人在线观看| 中文字幕亚洲第一| 国产麻豆精品在线观看| 免费一极毛片| 日本精品影院| 日韩资源站| 亚洲免费福利视频| 97影院午夜在线观看视频| 亚洲综合色吧| 手机精品视频在线观看免费| 日本成人一区| 国产主播在线一区| 国产玖玖玖精品视频| 久久无码高潮喷水| 在线观看免费国产| 人妻精品全国免费视频| 日日噜噜夜夜狠狠视频| 免费全部高H视频无码无遮掩| 日韩精品亚洲精品第一页| 国产91蝌蚪窝| 无码粉嫩虎白一线天在线观看| 欧美另类第一页| 999精品色在线观看| 无码AV日韩一二三区| 最新日本中文字幕| 久久性妇女精品免费| 97一区二区在线播放| 欧美丝袜高跟鞋一区二区| 视频在线观看一区二区| 亚洲区一区| 亚洲综合18p| 老色鬼久久亚洲AV综合| 四虎免费视频网站| 国产精品开放后亚洲| 找国产毛片看| 久久成人免费| 亚洲美女一区| 一区二区午夜| 国产浮力第一页永久地址 | 欧美日本激情| 亚洲精品在线影院| 久爱午夜精品免费视频| 看看一级毛片| 亚洲人成网站在线观看播放不卡| 又爽又大又黄a级毛片在线视频| 91免费在线看| 国产欧美视频在线| 亚洲av综合网| 色丁丁毛片在线观看| 污网站免费在线观看| 国产一区二区三区免费观看| 嫩草国产在线| 午夜激情福利视频| 国内精自视频品线一二区| 亚洲第一成网站| 国产杨幂丝袜av在线播放| 亚洲日本中文字幕乱码中文 | 日韩区欧美国产区在线观看| 伊人久久大香线蕉综合影视| 亚州AV秘 一区二区三区| 国产精品lululu在线观看| 日本欧美成人免费| 91麻豆精品视频| 国产欧美在线视频免费| 国产丝袜第一页| 国产成人免费手机在线观看视频| av在线无码浏览| 99视频在线观看免费| 国产三级毛片| 91九色国产porny| 精品国产三级在线观看| 99精品国产高清一区二区|