黃思嘉,彭艷兵
(1. 武漢郵電科學(xué)研究院,湖北 武漢 430074;2. 南京烽火天地通信科技有限公司,江蘇 南京 210019)
法律領(lǐng)域是一個(gè)由大量數(shù)據(jù)積累的領(lǐng)域,非常適合運(yùn)用由數(shù)據(jù)驅(qū)動(dòng)的各項(xiàng)人工智能技術(shù)。與金融、醫(yī)療等其他垂直領(lǐng)域相比,法律文書(shū)擁有高質(zhì)量的文本信息,不僅表述嚴(yán)謹(jǐn)規(guī)范,且具有豐富的數(shù)據(jù)支撐。按照訴訟性質(zhì)的不同,法律文書(shū)可以分為兩類(lèi): 刑事案件文書(shū)和民事案件文書(shū)。基于這些法律文書(shū),本文將法官判決結(jié)果作為標(biāo)準(zhǔn)答案,將案情事實(shí)描述作為訓(xùn)練樣例,期望以數(shù)據(jù)驅(qū)動(dòng)的方法學(xué)習(xí)法律體系的相關(guān)信息,以形成一套較為有效的自動(dòng)判決預(yù)測(cè)系統(tǒng)。
智能法因預(yù)測(cè)的目的是根據(jù)案情事實(shí)描述預(yù)測(cè)刑事案件的罪名或民事案件的糾紛類(lèi)型。其作為法律自動(dòng)判決體系的一項(xiàng)代表性工作,有望推動(dòng)諸如自動(dòng)量刑、智能法官助理、案情關(guān)系網(wǎng)絡(luò)構(gòu)建等一系列現(xiàn)實(shí)應(yīng)用。但目前這一工作并不樂(lè)觀(guān),表現(xiàn)如下:
(1) 基于民事案件的研究較少。由于民事案情較刑事案件更為復(fù)雜多樣,判決結(jié)果無(wú)法簡(jiǎn)單地用分類(lèi)或回歸建模,因此現(xiàn)有的工作主要集中在對(duì)刑事案件的研究上,基于民事案件的研究相對(duì)較少。
(2) 一些低頻、易混淆法因難以預(yù)測(cè)。本文針對(duì)中國(guó)裁判文書(shū)網(wǎng)(1)https://wenshu.court.gov.cn/中的刑事和民事數(shù)據(jù)集的分布情況進(jìn)行了統(tǒng)計(jì)分析,分析結(jié)果如圖1所示??梢钥闯?該分布是典型的長(zhǎng)尾分布,極少數(shù)法因標(biāo)簽具有較高的數(shù)據(jù)量,而大部分法因標(biāo)簽數(shù)據(jù)量較少。這種極不平衡的分布現(xiàn)象使得預(yù)測(cè)低頻類(lèi)別變得十分困難。

圖1 刑事、民事數(shù)據(jù)分布統(tǒng)計(jì)圖
現(xiàn)有的預(yù)測(cè)系統(tǒng)針對(duì)高頻類(lèi)別能夠充分發(fā)揮作用,但對(duì)于低頻類(lèi)別的處理效果并不理想,而且案件事實(shí)描述部分存在著許多極為相似的易混淆原因?qū)?。例?在我國(guó)刑事案件語(yǔ)境中,采用模型區(qū)分“強(qiáng)迫他人吸毒罪”和“容留他人吸毒罪”的關(guān)鍵,是能否從事實(shí)描述中確定被告在他人吸食、注射毒品時(shí)是否存在暴力脅迫行為,而該工作需要基于文本的語(yǔ)義差異性進(jìn)行建模。
(3) 案情事實(shí)描述存在數(shù)罪并罰問(wèn)題。由于犯罪嫌疑人在一條案例中可能存在多種指控,因此法因預(yù)測(cè)并非簡(jiǎn)單的單標(biāo)簽分類(lèi)任務(wù),案情事實(shí)描述中也存在著部分?jǐn)?shù)罪并罰問(wèn)題,需要作多標(biāo)簽分類(lèi)處理。Boutel等人[1]指出目前主流的多標(biāo)簽文本分類(lèi)方法,主要包括: 標(biāo)簽 powerset、分類(lèi)器鏈和二元關(guān)聯(lián)策略。其中,標(biāo)簽powerset是通過(guò)額外添加預(yù)測(cè)類(lèi)別的方式將每一組共現(xiàn)的標(biāo)簽組合歸一為一種新類(lèi)別。分類(lèi)器鏈方法則適用于標(biāo)簽之間存在特定關(guān)聯(lián)的場(chǎng)景(總分、承接關(guān)系等),這種作法是將上層分類(lèi)器的預(yù)測(cè)結(jié)果鏈入后層分類(lèi)器以實(shí)現(xiàn)關(guān)聯(lián)性的多標(biāo)簽分類(lèi)方法。二元關(guān)聯(lián)策略則是將多標(biāo)簽中的每一個(gè)標(biāo)簽拆分為一個(gè)單獨(dú)類(lèi)別,并對(duì)每個(gè)類(lèi)別進(jìn)行二元分類(lèi)?;谶@些多標(biāo)簽的學(xué)習(xí)算法,我們可以將數(shù)罪并罰問(wèn)題進(jìn)行轉(zhuǎn)化。
(4) 現(xiàn)有模型可解釋性差。現(xiàn)有的法律文書(shū)自動(dòng)研判模型已經(jīng)具有良好的性能,但模型的判斷過(guò)程難以解釋,結(jié)果并不可靠。這種不可解釋性使得法律自動(dòng)判研系統(tǒng)難以為法律專(zhuān)業(yè)人士提供良好的技術(shù)支撐,從而影響系統(tǒng)的實(shí)際應(yīng)用。
圖2為部分法因?qū)哟谓Y(jié)構(gòu)示意圖。從圖2可知,無(wú)論是刑事罪名還是民事糾紛類(lèi)型,都存在著顯著的層次依賴(lài)關(guān)系。這種層次結(jié)構(gòu)能夠?yàn)楦鞣N法因提供有效的信息,特別是對(duì)于那些低頻、易混淆類(lèi)別而言,每個(gè)葉子節(jié)點(diǎn)(法因),都有唯一一條路徑將其與根節(jié)點(diǎn)(案情描述)連接起來(lái)。因此本文借鑒多標(biāo)簽分類(lèi)問(wèn)題的分類(lèi)器鏈思想來(lái)進(jìn)行法因預(yù)測(cè),并將法因的外部層次依賴(lài)關(guān)系作為模型可解釋性的來(lái)源,在預(yù)測(cè)法因路徑的過(guò)程中通過(guò)父法因來(lái)區(qū)分低頻、易混淆法因。

圖2 部分法因?qū)哟谓Y(jié)構(gòu)示意圖
此外,法律領(lǐng)域的法因通常十分明確,它們的每一個(gè)名稱(chēng)可以被視為對(duì)某類(lèi)案例準(zhǔn)確和精煉的描述。而這種關(guān)鍵的文本信息可以被用來(lái)過(guò)濾掉事實(shí)描述中的噪聲信息,僅保留影響判決結(jié)果的關(guān)鍵部分,為準(zhǔn)確預(yù)測(cè)提供可能。然而,現(xiàn)有的分類(lèi)模型只是將每個(gè)法因視為一個(gè)分類(lèi)標(biāo)簽,而忽略了其名稱(chēng)中隱含的內(nèi)部信息,具有不可靠性。
需要說(shuō)明的是,數(shù)罪并罰任務(wù)屬于多標(biāo)簽分類(lèi)問(wèn)題,會(huì)增加模型預(yù)測(cè)的難度,故本文將該任務(wù)作為后續(xù)工作的研究方向,在本文中不做深入討論。
總之,本文針對(duì)法律智能體系的現(xiàn)狀提出了IHLCP模型,該模型融入了法因的外部層次依賴(lài)關(guān)系,在提升模型可解釋性的同時(shí),基于內(nèi)部文本信息對(duì)法因進(jìn)行預(yù)測(cè),期望打破自動(dòng)判決預(yù)測(cè)系統(tǒng)在低頻易混淆法因預(yù)測(cè)上的瓶頸。具體來(lái)說(shuō),本文將法因路徑作為模型可解釋性的來(lái)源,將每個(gè)法因轉(zhuǎn)換為從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑,提出了一個(gè)基于內(nèi)部文本注意的Seq2Seq模型,并通過(guò)事實(shí)描述的語(yǔ)義差異性來(lái)預(yù)測(cè)法因路徑。
目前主流的傳統(tǒng)深度學(xué)習(xí)模型需要大量的數(shù)據(jù)進(jìn)行支撐,而少樣本學(xué)習(xí)的提出則是為了解決缺少足夠多訓(xùn)練數(shù)據(jù)的特定場(chǎng)景問(wèn)題。少樣本學(xué)習(xí)主要有兩種方法,一種是構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)或圖結(jié)構(gòu)。借鑒人眼可以自動(dòng)提取物體特征并進(jìn)行比較學(xué)習(xí)的思想,Sung等人[2]提出了一種關(guān)系網(wǎng)絡(luò)來(lái)將嵌入單元和關(guān)系單元進(jìn)行聯(lián)合比較,并根據(jù)比較的結(jié)果判斷測(cè)試數(shù)據(jù)所屬的類(lèi)別。另一種是增加額外的附加信息,如 Hu 等人[3]通過(guò)引入一些罪名的區(qū)分屬性(盈利、買(mǎi)賣(mài)行為、死亡情節(jié)、暴力行為等)作為事實(shí)描述到罪名之間的內(nèi)部映射來(lái)捕捉與特定屬性相關(guān)的關(guān)鍵事實(shí)信息,進(jìn)行低頻罪名預(yù)測(cè)任務(wù)。
近年來(lái),諸如 BERT[4]、XLNet[5]等各種預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),使得我們可以憑借大規(guī)模的外部知識(shí)或數(shù)據(jù)在無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行學(xué)習(xí)。
深度學(xué)習(xí)技術(shù)的快速發(fā)展,使得各種神經(jīng)網(wǎng)絡(luò)模型在NLP 任務(wù)中表現(xiàn)出了良好的性能。
Luo等人[6]將罪名預(yù)測(cè)任務(wù)和相關(guān)法條提取任務(wù)用一個(gè)統(tǒng)一的框架進(jìn)行建模。該模型采用一個(gè)兩階段式的注意力機(jī)制從案件事實(shí)描述預(yù)測(cè)相關(guān)法律條款,并進(jìn)一步預(yù)測(cè)罪名,通過(guò)使用一系列注意力組件來(lái)建模單詞和句子之間的相關(guān)性,從而捕捉整個(gè)案件的重要細(xì)節(jié)。Hu 等人[3]引入了一些罪名的區(qū)分屬性作為事實(shí)描述到罪名的內(nèi)部映射,并將這些屬性感知表示與無(wú)屬性表示相結(jié)合,以預(yù)測(cè)最終罪名。
受這些工作的啟發(fā),本文在模型中引入了刑法和民法體系中所有法因的依賴(lài)結(jié)構(gòu),這種直接的層次依賴(lài)關(guān)系能夠緩解刑法和民法數(shù)據(jù)分布不平衡的現(xiàn)象,并有助于區(qū)分不同父節(jié)點(diǎn)下的易混淆法因。同時(shí)由于Seq2Seq模型在層次化依賴(lài)建模方面的優(yōu)勢(shì),本文利用法因的名稱(chēng)作為注意的Query值,達(dá)到逐級(jí)過(guò)濾實(shí)際描述中噪聲信息的效果。
可解釋性是指模型解釋其預(yù)測(cè)的能力,目前已經(jīng)引起了越來(lái)越多的關(guān)注。Hendricks等人[7]將解釋的概念分為自省解釋和正當(dāng)解釋。
所謂自省解釋,即解釋模型如何確定其最終輸出??紤]到罪名和法條之間的高度相關(guān)性,Luo等人[6]將該次預(yù)測(cè)相關(guān)的法條視為對(duì)罪名預(yù)測(cè)的一種解釋性,采用事實(shí)和法條之間的注意力機(jī)制進(jìn)行罪名預(yù)測(cè)。另外一種內(nèi)省解釋為定罪要素,通過(guò)標(biāo)注事實(shí)描述中的定罪要素作為判決的中間結(jié)果,也能夠起到解釋最終判決結(jié)果的作用。Zhong等人[8]基于無(wú)罪推論和要素審判原則,對(duì)定罪要素進(jìn)行預(yù)測(cè),并直接基于要素預(yù)測(cè)結(jié)果進(jìn)行罪名預(yù)測(cè),使整個(gè)系統(tǒng)更具透明性和可解釋性。
所謂正當(dāng)解釋,則是通過(guò)生成一些句子,作為支撐系統(tǒng)預(yù)測(cè)結(jié)果的相關(guān)依據(jù)。Ye等人[9]將庭審意見(jiàn)作為罪名預(yù)測(cè)的解釋性來(lái)源,使用Seq2Seq模型,根據(jù)案件的事實(shí)描述和給定的罪名標(biāo)簽來(lái)生成庭審意見(jiàn)。
本文將罪名之間的層次依賴(lài)關(guān)系作為模型可解釋性的來(lái)源,通過(guò)預(yù)測(cè)法因路徑來(lái)提升模型的可解釋性。
本節(jié)首先給出法因預(yù)測(cè)的任務(wù)定義,再詳細(xì)介紹本文提出的IHLCP模型。
本文維護(hù)了刑事和民事法律文書(shū)的詞表V,及層次結(jié)構(gòu)中所有法因的集合Y。定義輸入的案情事實(shí)描述序列X={x1,…,xm,…,xM},其中xm∈V。
如圖2所示,將待預(yù)測(cè)法因沿外部層次結(jié)構(gòu),轉(zhuǎn)化為從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑,即法因序列y={y1,…,yi,…,yI} ,其中,yi∈Y。定義每個(gè)法因yi的簡(jiǎn)短描述為nyi={x1,…,xl,…,xLy},用于過(guò)濾事實(shí)描述中的噪聲信息。
綜上所述,模型定義法因序列y的預(yù)測(cè)概率如式(1)所示。
(1)
如圖3所示,IHLCP模型由事實(shí)編碼器和法因預(yù)測(cè)器兩部分組成。事實(shí)編碼器負(fù)責(zé)將案情事實(shí)描述X進(jìn)行編碼,法因預(yù)測(cè)器則按照法因的層次結(jié)構(gòu)解碼出法因序列y,本文將在接下來(lái)的部分進(jìn)行詳細(xì)介紹。

圖3 IHLCP模型流程示意圖
由于案情事實(shí)描述文檔包含較長(zhǎng)的文本,且文本上下文之間關(guān)聯(lián)性較強(qiáng),本文在事實(shí)編碼器部分采用改進(jìn)的XLNet-DPCNN模型,將事實(shí)描述的詞序列進(jìn)行編碼,作為法因預(yù)測(cè)器的輸入。
其中,XLNet[5]模型采用了Transformer-XL[10]進(jìn)行編碼。相較于Transformer[11]模型,Transformer-XL的段循環(huán)機(jī)制[10]和相對(duì)位置編碼[10]策略使得模型更具上下文語(yǔ)義相關(guān)性,且具有更低的評(píng)估代價(jià)。XLNet 模型使用了雙流自注意力機(jī)制[5]和段緩存機(jī)制[5]來(lái)建模,以應(yīng)對(duì)更長(zhǎng)的距離依賴(lài),打破了BERT模型無(wú)法有效處理超長(zhǎng)文本的弊端。
DPCNN[12]模型則通過(guò)不斷交替卷積層和下采樣層來(lái)使模型在加深網(wǎng)絡(luò)層次的過(guò)程中捕獲更多全局信息。DPCNN模型采用了Region Embedding[12]的詞嵌入方法,該方法類(lèi)似于Text-CNN[13],是對(duì)一個(gè)文本區(qū)域段進(jìn)行多尺度卷積的結(jié)果。但Region Embedding無(wú)法充分理解語(yǔ)義,當(dāng)把詞壓縮到低維稠密的語(yǔ)義空間之后,相似意義的詞會(huì)出現(xiàn)共線(xiàn)問(wèn)題,即擁有相同的詞向量。因此本設(shè)計(jì)采用XLNet模型生成詞向量來(lái)替代DPCNN模型中原有的Region Embedding詞向量。
網(wǎng)絡(luò)層次的不斷加深,會(huì)使模型的整體分布逐漸向激活函數(shù)不敏感的區(qū)域靠近。而把每一層神經(jīng)元的激活值作批標(biāo)準(zhǔn)化BN[14]處理,能夠使模型保留更多的信息,有效避免梯度消失現(xiàn)象,加快模型訓(xùn)練速度。因此本文在 DPCNN 模型的每一個(gè) Block 中引入一層BN[14]來(lái)加速模型的收斂過(guò)程,使模型訓(xùn)練更加穩(wěn)定。
DPCNN原模型中采用了ReLU[15]激活函數(shù),與sigmoid等激活函數(shù)相比,ReLU[15]收斂更快,能夠在一定程度上能夠緩解梯度消失和過(guò)擬合現(xiàn)象,如式(2)所示。
fReLU(x)=max(0,x)
(2)
由式(2)可以看出,ReLU的輸出均為非負(fù)值,當(dāng)參數(shù)初始化不當(dāng)時(shí),可能會(huì)導(dǎo)致訓(xùn)練過(guò)程中某些神經(jīng)元無(wú)法被激活,相應(yīng)參數(shù)無(wú)法被更新的結(jié)果。
為了解決ReLU激活函數(shù)的弊端,本文在DPCNN模型中采用 Mish 激活函數(shù)[16],如式(3)所示。
fMish(x)=x·thanh(ln(1+ex))
(3)
與ReLU激活函數(shù)相比,Mish 激活函數(shù)理論上對(duì)負(fù)值有輕微允許,這種相對(duì)平滑的激活函數(shù)允許更好的信息進(jìn)入神經(jīng)網(wǎng)絡(luò),從而提升模型的準(zhǔn)確性和泛化能力。隨著網(wǎng)絡(luò)層數(shù)的加深,ReLU的精度會(huì)迅速下降,而Mish 激活函數(shù)仍然能夠保持良好性能[16]。


圖4 事實(shí)編碼器模型架構(gòu)圖
(4)
然后采用等長(zhǎng)卷積[12]生成特征,設(shè)卷積核W∈Rkf×(w×k),偏置b∈Rkf,其中kf為濾波器大小,w為濾波器寬度,fMish代表使用Mish激活函數(shù)進(jìn)行非線(xiàn)性激活,則詞向量Xi: i+w-1產(chǎn)生的特征vi如式(5)所示。
vi=fMish(W·Xi: i+w-1+b)
(5)

h0,j=max(v1,j,…,vM,j), ?j∈[1,kf]
(6)

hf,j=mean(v1,j,…,vM,j), ?j∈[1,kf]
(7)
本模塊基于seq2seq[17]模型的解碼器進(jìn)行法因預(yù)測(cè),并在其中加入注意力機(jī)制,模型結(jié)構(gòu)如圖5所示。

圖5 法因預(yù)測(cè)器模型架構(gòu)圖
時(shí)間步i中LSTM單元的輸入由兩部分組成: 法因表示yi和法因感知事實(shí)表示ci。其中,法因表示yi是法因名稱(chēng)nyi的表示,由上一時(shí)間步預(yù)測(cè)得到的法因編碼得到,如式(8)所示。
yi=vec(nyi)
(8)


其中,U、W0、W1和b均為訓(xùn)練參數(shù),則法因感知事實(shí)表示ci如式(11)所示。
(11)
同時(shí)為了保證預(yù)測(cè)的法因序列與法因的層次結(jié)構(gòu)一致,本文借鑒Teacher Forcing[19]的思想,采用mask分類(lèi)來(lái)限制模型的預(yù)測(cè)范圍。對(duì)于每一時(shí)間步中解碼器單元的輸出hi,本文使用一個(gè)權(quán)重共享全連接層將其映射到法因空間。對(duì)于法因yi,若其不是yi-1的子節(jié)點(diǎn),將被mask到負(fù)無(wú)窮。因此,在Softmax操作后,這些不符合法因?qū)哟我蕾?lài)關(guān)系的法因的概率將為0。這意味著當(dāng)前預(yù)測(cè)范圍中的法因必須是之前預(yù)測(cè)法因的子節(jié)點(diǎn)。該操作可以形式化為式(12)、式(13)所示。
p(yi|y1: i-1,x)=Softmax(Mask(Wphi+bp,yi-1))
(12)

(13)
其中,Wp和bp為全連接層參數(shù),π(y)代表y的父法因。
綜上,本模塊在法因預(yù)測(cè)器部分采用法因類(lèi)型作為注意的Query值來(lái)過(guò)濾事實(shí)描述中的噪聲信息,并引入了法因之間的層次依賴(lài)關(guān)系,來(lái)有效解決由于標(biāo)簽數(shù)據(jù)長(zhǎng)尾分布導(dǎo)致的數(shù)據(jù)不平衡問(wèn)題,同時(shí)來(lái)區(qū)分那些事實(shí)描述部分極為相似卻位于不同父節(jié)點(diǎn)下的易混淆法因。
由于刑法和民法體系數(shù)據(jù)分布極不平衡,本文在Sequence Loss[17]中結(jié)合了焦點(diǎn)損失[20]的思想,訓(xùn)練目標(biāo)是最小化待預(yù)測(cè)的法因序列與真實(shí)值之間的損失,損失函數(shù)如式(14)所示。
(14)

為了證明本文提出的IHLCP模型的有效性,本文在幾個(gè)刑事和民事數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
針對(duì)我國(guó)公開(kāi)發(fā)布的刑事法律文書(shū)和民事法律文書(shū)搜集整理了3個(gè)大規(guī)模數(shù)據(jù)集: CAIL[21]、FSC[3]和CIVIL。其中,CAIL[21]是我國(guó)第一個(gè)用于判決預(yù)測(cè)的大規(guī)模法律競(jìng)賽數(shù)據(jù)集。FSC[3]是Hu等人構(gòu)建的側(cè)重于對(duì)我國(guó)刑法數(shù)據(jù)集中的低頻易混淆罪名學(xué)習(xí)的數(shù)據(jù)集。CIVIL數(shù)據(jù)集是從中國(guó)裁判文書(shū)網(wǎng)上收集的民法數(shù)據(jù)集。
基于中國(guó)裁判文書(shū)網(wǎng)中公布的刑事罪名和民事糾紛的層次結(jié)構(gòu),本文維護(hù)了刑事案件和民事案件的法因序列分布。三種數(shù)據(jù)集的具體細(xì)節(jié)見(jiàn)表1。

表1 刑事/民事數(shù)據(jù)集細(xì)節(jié)統(tǒng)計(jì)表
其中父節(jié)點(diǎn)為葉子節(jié)點(diǎn)的概括性法因。由于本設(shè)計(jì)不對(duì)數(shù)罪并罰問(wèn)題作深入研究,本文在所有數(shù)據(jù)集中過(guò)濾掉這些案件,以便專(zhuān)注探索法因之間的層次關(guān)系對(duì)于模型性能的影響。
為了驗(yàn)證模型的有效性,本文設(shè)計(jì)了三種類(lèi)型的基線(xiàn):
經(jīng)典文本分類(lèi)模型: Text-CNN[13]、LSTM-attention、DPCNN[12]、HAN[22]、FastText[23];
經(jīng)典序列生成模型: seq2seq[17];
LJP任務(wù)的前期工作: Fact-Law Attention (FACT)[6]、 Attribute charge (ATCH)[3]。
對(duì)于IHLCP模型,本文在三個(gè)數(shù)據(jù)集中統(tǒng)一使用XLNet模型的SentencePiece[24]方法進(jìn)行切詞。由于FSC[3]數(shù)據(jù)集中包含了詞嵌入文檔,本文在該數(shù)據(jù)集的基線(xiàn)模型中嚴(yán)格按照該模型上的實(shí)驗(yàn)設(shè)置進(jìn)行實(shí)驗(yàn),以得到和該模型相似的效果。對(duì)于其他數(shù)據(jù)集的其他基線(xiàn)模型,我們統(tǒng)一使用THULAC分詞器(2)http://thulac.thunlp.org/進(jìn)行分詞。
我們將所有LSTM單元的隱藏大小設(shè)置為256,對(duì)于IHLCP模型,設(shè)置DPCNN單元卷積核大小為3,步長(zhǎng)為2,集束寬度為5,焦點(diǎn)損失函數(shù)的γ值為2。
在訓(xùn)練階段,我們統(tǒng)一使用Adam作為優(yōu)化器,文檔的最大長(zhǎng)度設(shè)置為500字,初始學(xué)習(xí)率設(shè)置為0.001。批大小設(shè)置為256,drop out rate設(shè)置為0.5,最大迭代次數(shù)設(shè)置為100,并使用早停策略以防止模型過(guò)擬合。同時(shí)本文通過(guò)復(fù)制部分低頻法因樣本并向其中加入隨機(jī)噪聲的形式對(duì)數(shù)據(jù)進(jìn)行過(guò)采樣,并采用加權(quán)隨機(jī)采樣算法對(duì)數(shù)據(jù)進(jìn)行重采樣來(lái)緩解數(shù)據(jù)分布的不平衡現(xiàn)象。
本文使用準(zhǔn)確率(ACC)、宏觀(guān)精度(MP)、宏觀(guān)召回率(MR)和宏觀(guān)F1值(F1)作為評(píng)價(jià)指標(biāo)。
通過(guò)跟蹤法因?qū)哟谓Y(jié)構(gòu),我們可以將所有模型的輸出轉(zhuǎn)換為法因序列。因此,我們能夠在不同層次上比較HLCP模型和基線(xiàn)模型的性能。
如表2所示,本文比較了IHLCP模型和基線(xiàn)模型在驗(yàn)證集上的性能(“*”代表模型不適用該數(shù)據(jù)集,“-”代表模型在最大迭代次數(shù)內(nèi)無(wú)法收斂),我們發(fā)現(xiàn): IHLCP模型在所有數(shù)據(jù)集上的性能均顯著優(yōu)于基線(xiàn)模型,證明了該模型的魯棒性和實(shí)用性。

表2 模型效果對(duì)比表 (單位: %)
其中,模型在包含最多父因的CIVIL數(shù)據(jù)集中的ACC和F1值分別提升了6.6%和12.3%,在數(shù)據(jù)分布極不平衡的CAIL數(shù)據(jù)集中,ACC和F1值分別提升了3.5%和13.4%。同時(shí)我們可以看出,模型在FSC數(shù)據(jù)集上相較于需要人為設(shè)計(jì)罪名屬性的ATCH模型的F1值提高4.2%,證明了該模型在利用法因之間的層次依賴(lài)關(guān)系和內(nèi)部的文本信息來(lái)應(yīng)對(duì)數(shù)據(jù)分布不平衡導(dǎo)致的低頻、易混淆法因難以預(yù)測(cè)的問(wèn)題上具有一定效果。
為了更為直觀(guān)地說(shuō)明IHLCP模型對(duì)于低頻法因的預(yù)測(cè)性能,本文根據(jù)法因類(lèi)別的樣本數(shù)據(jù)量將CAIL數(shù)據(jù)集中的刑事罪名和CIVIL數(shù)據(jù)集中的民事糾紛類(lèi)型分別劃分為低頻、中頻和高頻三個(gè)等級(jí),在驗(yàn)證集中測(cè)試模型的MP值和F1值。實(shí)驗(yàn)結(jié)果如表3所示。

表3 不同類(lèi)別的模型效果對(duì)比表 (單位: %)
由表3可以看出,刑事和民事樣本數(shù)據(jù)分布不均衡,會(huì)導(dǎo)致低頻法因類(lèi)別特征難以學(xué)習(xí),檢測(cè)性能較低。IHLCP模型相較于其他基線(xiàn)模型,在高頻和中頻法因預(yù)測(cè)上的效果提升不太明顯,但在低頻法因預(yù)測(cè)上得到了顯著提升,由此可以看出IHLCP模型能夠有效應(yīng)對(duì)數(shù)據(jù)分布不平衡導(dǎo)致的低頻法因難以預(yù)測(cè)的問(wèn)題。
同時(shí),為了驗(yàn)證IHLCP模型引入的法因?qū)哟谓Y(jié)構(gòu)的合理性,本文對(duì)于待預(yù)測(cè)法因序列的后4層法因預(yù)測(cè)的性能進(jìn)行了實(shí)驗(yàn),其中第4層法因即為子法因(葉子節(jié)點(diǎn)),1~3層法因是子法因的父法因(父節(jié)點(diǎn)),實(shí)驗(yàn)結(jié)果見(jiàn)表4。

表4 IHLCP模型法因序列預(yù)測(cè)性能評(píng)估表 (單位: %)
由表4可以看出,IHLCP模型在集束搜索的過(guò)程中,根據(jù)法因的層次依賴(lài)關(guān)系,采用Softmax分類(lèi)的方式使模型在每個(gè)時(shí)間步都能便捷地找到條件概率分布最大的候選路徑。同時(shí),法因的層次依賴(lài)結(jié)構(gòu)作為模型的正當(dāng)解釋,使得預(yù)測(cè)結(jié)果更具說(shuō)服力。
為了直觀(guān)地說(shuō)明IHLCP模型的層次結(jié)構(gòu)在易混淆法因預(yù)測(cè)上的巧妙性,本文從我國(guó)刑事和民事數(shù)據(jù)集中選取了6對(duì)位于不同父法因節(jié)點(diǎn)下的易混淆法因進(jìn)行測(cè)試,這6對(duì)易混淆法因在事實(shí)描述中極為相似,難以區(qū)分,其對(duì)應(yīng)的父法因如表5所示。

表5 易混淆法因-父法因關(guān)系映射表
本文分別在DPCNN、FACT及IHLCP模型中對(duì)于選取的易混淆法因的預(yù)測(cè)效果進(jìn)行了對(duì)比實(shí)驗(yàn),其中模型對(duì)于6個(gè)易混淆法因預(yù)測(cè)的準(zhǔn)確率如圖6所示。

圖6 易混淆法因預(yù)測(cè)準(zhǔn)確率
將6個(gè)法因預(yù)測(cè)成其對(duì)應(yīng)的易混淆法因的誤判率如圖7所示。

圖7 易混淆法因誤判率
從圖6和圖7能夠看出,IHLCP模型相較于其他基線(xiàn)模型,對(duì)于易混淆法因的識(shí)別能夠達(dá)到較高的準(zhǔn)確性和較低的誤判率。這說(shuō)明法因的層次結(jié)構(gòu)及其名稱(chēng)所含的內(nèi)部信息能夠有效應(yīng)對(duì)易混淆法因難以預(yù)測(cè)的問(wèn)題。通過(guò)層次預(yù)測(cè),我們可以直接在其父法因上加以選擇,并不需要花費(fèi)太大的代價(jià)就可以對(duì)易混淆法因進(jìn)行有效區(qū)分。
同時(shí)我們引入的層次結(jié)構(gòu)可以緩解數(shù)據(jù)不平衡現(xiàn)象,通過(guò)將法因劃分為更小的組,使每個(gè)法因在更小的區(qū)域內(nèi)競(jìng)爭(zhēng),進(jìn)而提升模型預(yù)測(cè)性能。
此外,本文還通過(guò)刑事、民事的具體案例來(lái)驗(yàn)證法因的層次結(jié)構(gòu),展現(xiàn)該模型的良好性能,具體細(xì)節(jié)如圖8所示。

圖8 個(gè)案分析效果示意圖
對(duì)于輸入的案例,模型可以預(yù)測(cè)對(duì)應(yīng)的法因鏈路,該鏈路可以作為模型的正當(dāng)解釋,支撐模型預(yù)測(cè)結(jié)果。
本文針對(duì)當(dāng)前法律智能體系可解釋性差、低頻易混淆法因預(yù)測(cè)效果不佳、民事糾紛研究過(guò)少的問(wèn)題提出了IHLCP模型。該模型對(duì)于刑事和民事領(lǐng)域的案例進(jìn)行了研究,基于改進(jìn)的XLNet-DPCNN模型對(duì)具有語(yǔ)義差異性的事實(shí)描述進(jìn)行編碼,法因內(nèi)部的文本信息用于消除事實(shí)描述中的噪聲信息。在解碼器部分引入了法因的層次依賴(lài)結(jié)構(gòu)來(lái)有效解決刑法和民法數(shù)據(jù)分布不平衡導(dǎo)致的低頻、易混淆法因難以預(yù)測(cè)的問(wèn)題。同時(shí)本文采用法因路徑作為模型可解釋性的來(lái)源,從而開(kāi)拓了我國(guó)法律智能體系的應(yīng)用場(chǎng)景。
實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的IHLCP模型能夠緩解數(shù)據(jù)分布的不平衡現(xiàn)象,無(wú)論是整體性能還是對(duì)于低頻、易混淆法因的預(yù)測(cè)性能,均優(yōu)于基線(xiàn)模型,證明了該模型的有效性和魯棒性。
未來(lái)工作中,我們將從以下幾方面對(duì)法律智能領(lǐng)域進(jìn)行探索: ①數(shù)罪并罰問(wèn)題; ②將原告主張納入民事事由的預(yù)測(cè)任務(wù); ③基于聯(lián)合學(xué)習(xí)或投票策略的類(lèi)案匹配和刑期預(yù)測(cè)任務(wù)。