李錦燁,黃瑞章,秦永彬,陳艷平,田小瑜
基于反繹學(xué)習(xí)的裁判文書(shū)量刑情節(jié)識(shí)別
李錦燁1,黃瑞章1,2*,秦永彬1,2,陳艷平1,2,田小瑜1
(1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025; 2.公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)),貴陽(yáng) 550025)(*通信作者電子郵箱rzhuang@gzu.edu.cn)
針對(duì)司法領(lǐng)域標(biāo)記數(shù)據(jù)匱乏、標(biāo)注質(zhì)量不高、存在強(qiáng)邏輯性導(dǎo)致裁判文書(shū)量刑情節(jié)識(shí)別效果不佳的問(wèn)題,提出一種基于反繹學(xué)習(xí)的量刑情節(jié)識(shí)別模型ABL-CON。首先結(jié)合神經(jīng)網(wǎng)絡(luò)與領(lǐng)域邏輯推理,通過(guò)半監(jiān)督學(xué)習(xí)方法,使用置信學(xué)習(xí)方法表征情節(jié)識(shí)別置信度;然后修正無(wú)標(biāo)簽數(shù)據(jù)經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)產(chǎn)生的不合邏輯的錯(cuò)誤情節(jié),重新訓(xùn)練識(shí)別模型,以提高識(shí)別精度。在自構(gòu)建的司法數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,使用50%標(biāo)注數(shù)據(jù)與50%無(wú)標(biāo)注數(shù)據(jù)的ABL-CON模型在Macro_F1值和Micro_F1值上分別達(dá)到了90.35%和90.58%,優(yōu)于同樣條件下的BERT和SS-ABL,也超越了使用100%標(biāo)注數(shù)據(jù)的BERT模型。ABL-CON模型通過(guò)邏輯反繹修正不符合邏輯的標(biāo)簽?zāi)軌蛴行岣邩?biāo)簽的邏輯合理性以及標(biāo)簽的識(shí)別能力。
量刑情節(jié)識(shí)別;半監(jiān)督學(xué)習(xí);多標(biāo)簽分類(lèi);反繹學(xué)習(xí);置信學(xué)習(xí)
裁判文書(shū)是人民法院審理案情過(guò)程和結(jié)果的載體,其中記載了被告人信息、案情描述以及判決結(jié)果等內(nèi)容,而相關(guān)量刑情節(jié)則蘊(yùn)含在其中。因此,對(duì)裁判文書(shū)的分析與挖掘是量刑情節(jié)的重要手段之一。結(jié)合自然語(yǔ)言處理技術(shù),量刑情節(jié)識(shí)別可為刑期預(yù)測(cè)、司法問(wèn)答、類(lèi)案推薦等場(chǎng)景提供有效支持和應(yīng)用,裁判文書(shū)的結(jié)構(gòu)如圖1所示。
量刑情節(jié)識(shí)別旨在利用計(jì)算機(jī)技術(shù)從半結(jié)構(gòu)化的裁判文書(shū)描述的被告人信息、案情描述以及判決要素中識(shí)別被告人的犯罪情節(jié)和犯罪事實(shí),如被告人“是否有當(dāng)庭認(rèn)罪”情節(jié)等來(lái)為后續(xù)計(jì)算刑期提供相關(guān)要素。目前,受限于司法領(lǐng)域開(kāi)放數(shù)據(jù)集規(guī)模以及規(guī)則庫(kù)的專業(yè)性,以裁判文書(shū)為核心的量刑情節(jié)識(shí)別研究仍面臨極大的困難與挑戰(zhàn)。其難點(diǎn)在于:1)量刑情節(jié)多蘊(yùn)含在語(yǔ)義中,且少有單憑固定實(shí)體詞描述的情況;2)單句描述中通常存在多個(gè)量刑情節(jié)以及相同情節(jié)以不同的描述方式在文書(shū)的不同位置出現(xiàn);3)量刑情節(jié)之間存在邏輯關(guān)系等。

圖1 裁判文書(shū)結(jié)構(gòu)示例
如圖2所示,這些片段為同篇裁判文書(shū)的內(nèi)容,每句都包含了兩種類(lèi)型的量刑情節(jié),其中“使用工具”采用了語(yǔ)義描述和實(shí)體描述兩種方式。因此,裁判文書(shū)包含了高密度分布的量刑情節(jié),并且描述方式多樣,若僅使用實(shí)體詞特征(如“手提包”)則易與“扒竊情節(jié)”混淆,而“扒竊”與“入戶”在單次犯罪經(jīng)過(guò)中是相互矛盾的。在僅有標(biāo)注信息的支撐下,一旦模型缺乏表征句級(jí)別語(yǔ)義信息的能力以及邏輯推理能力,就很難在捕捉量刑情節(jié)特征的同時(shí)兼顧情節(jié)間的邏輯關(guān)系。此外,由于專業(yè)領(lǐng)域標(biāo)注數(shù)據(jù)量的缺乏,訓(xùn)練變得極其困難,大量領(lǐng)域知識(shí)的存在也希望模型能夠利用推理去約束模型的擬合,使識(shí)別結(jié)果更符合實(shí)際流程。有關(guān)裁判文書(shū)的簡(jiǎn)要示例以及說(shuō)明如表1所示,邏輯關(guān)系簡(jiǎn)要示例如表2所示。

圖2 案情描述片段示例
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,研究人員開(kāi)始嘗試使用深度學(xué)習(xí)模型,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)等來(lái)提取文本特征。相較傳統(tǒng)機(jī)器學(xué)習(xí),深度學(xué)習(xí)通過(guò)非線性變換將特征有效地集成到模型擬合過(guò)程中,不依賴于人工篩選特征。然而,這些通用領(lǐng)域的方法無(wú)法利用到一階邏輯規(guī)則,也無(wú)法解決裁判文書(shū)特殊描述結(jié)構(gòu)的問(wèn)題。Zhou等[1]提出的反繹學(xué)習(xí)方法能夠利用領(lǐng)域知識(shí)庫(kù)來(lái)監(jiān)督模型訓(xùn)練。根據(jù)上述對(duì)裁判文書(shū)文本特點(diǎn)以及司法領(lǐng)域規(guī)則的分析,本文在已有算法的基礎(chǔ)上,提出一種更有效的量刑情節(jié)識(shí)別模型ABL-CON(ABductive Learning in CONfidence),主要工作如下:1)提出一種更符合司法應(yīng)用場(chǎng)景的多標(biāo)簽學(xué)習(xí)方法,以更有效提取句級(jí)別的文本特征,利用特定領(lǐng)域規(guī)則來(lái)修正錯(cuò)誤標(biāo)簽。2)提出一種能有效提高標(biāo)簽質(zhì)量的置信學(xué)習(xí)方法,利用裁判文書(shū)中量刑情節(jié)以不同描述方式多次出現(xiàn)在文本中的特性以及量刑情節(jié)間的邏輯關(guān)系,針對(duì)標(biāo)簽本身的質(zhì)量問(wèn)題,結(jié)合反繹學(xué)習(xí)來(lái)評(píng)估量刑情節(jié)識(shí)別的可信程度,以此來(lái)表征錯(cuò)誤的標(biāo)簽并修正,從而有效提高標(biāo)簽的質(zhì)量。相比原先的SS-ABL(Semi-Supervised ABductive Learning)[2]模型,本文模型能夠更有效地檢測(cè)出識(shí)別錯(cuò)誤并且提高識(shí)別精度。

表1 裁判文書(shū)量刑情節(jié)描述示例

表2 部分量刑情節(jié)規(guī)則
作為判決預(yù)測(cè)的重要步驟,量刑情節(jié)識(shí)別結(jié)果會(huì)直接影響后續(xù)的刑期計(jì)算流程,例如“累犯應(yīng)增加基準(zhǔn)刑的20%”等。現(xiàn)有的判決預(yù)測(cè)方法大多是轉(zhuǎn)化為文本分類(lèi)任務(wù),如使用法律文本的淺層文本特征[3]、隨機(jī)森林(Random Forest)[4]、多任務(wù)拓?fù)湟蕾噷W(xué)習(xí)模型TOPJUDGE[5]結(jié)合量刑屬性進(jìn)行判決預(yù)測(cè)。這些方法多以文本級(jí)特征為主,以其他信息(如法條描述)為輔,尚未針對(duì)司法底層信息作挖掘,而量刑情節(jié)作為支撐各項(xiàng)任務(wù)的信息基礎(chǔ),多以短句形式描述,用這些方法很難進(jìn)行有效的特征提取。此外,由于司法領(lǐng)域主流信息抽取任務(wù)主要集中在命名實(shí)體識(shí)別[6-7],用于識(shí)別法律文書(shū)中描述的實(shí)體詞以及文本分類(lèi)[8-9],而有關(guān)多標(biāo)簽學(xué)習(xí)[10-13]方法的應(yīng)用少有涉及,對(duì)于描述不固定的相關(guān)量刑情節(jié)很難做到有效學(xué)習(xí)。Huang等[2]利用反繹學(xué)習(xí)通過(guò)識(shí)別裁判文書(shū)的量刑情節(jié)實(shí)現(xiàn)判決預(yù)測(cè),但由于優(yōu)化目標(biāo)是量刑誤差,導(dǎo)致對(duì)于句級(jí)別的量刑情節(jié)識(shí)別效果仍有欠缺。
目前來(lái)看量刑情節(jié)識(shí)別面臨的技術(shù)挑戰(zhàn)有:
1)特征提取不充分。相比普通分類(lèi),量刑情節(jié)的描述集中于句級(jí)別的特征,CNN模型的方法缺乏對(duì)時(shí)序信息以及全局信息的掌握,RNN模型缺乏對(duì)語(yǔ)義特征的有效建模。
2)標(biāo)注數(shù)據(jù)集缺乏。由于深度學(xué)習(xí)模型參數(shù)多,傳統(tǒng)監(jiān)督學(xué)習(xí)需要通過(guò)大量數(shù)據(jù)的擬合才能達(dá)到良好的效果,半監(jiān)督學(xué)習(xí)方法[14]使用易獲取的無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),而裁判文書(shū)的量刑情節(jié)標(biāo)注工作需要具備專業(yè)的法律知識(shí),很難獲取大量的高質(zhì)量標(biāo)注數(shù)據(jù)。
3)無(wú)法利用邏輯規(guī)則。量刑情節(jié)間存在排斥性與相關(guān)性,譬如“累犯”與“偶犯”不能同時(shí)存在等,但現(xiàn)有的深度學(xué)習(xí)方法無(wú)法利用這些規(guī)則。反繹學(xué)習(xí)框架為存在領(lǐng)域規(guī)則的識(shí)別任務(wù)提供了一種新的解決思路,無(wú)需大量的標(biāo)注數(shù)據(jù)也能夠達(dá)到傳統(tǒng)監(jiān)督學(xué)習(xí)的訓(xùn)練效果。因此,本文針對(duì)裁判文書(shū)文本的特殊性以及差異性,同時(shí)考慮到傳統(tǒng)方法難以利用領(lǐng)域的一階邏輯規(guī)則,提出一種識(shí)別模型ABL-CON,用于提升多標(biāo)簽學(xué)習(xí)在裁判文書(shū)量刑情節(jié)識(shí)別方面的性能表現(xiàn)。
本章先簡(jiǎn)要介紹反繹學(xué)習(xí)的思路,并著重描述本文模型框架在裁判文書(shū)量刑情節(jié)識(shí)別方法中的運(yùn)用以及置信學(xué)習(xí)模塊。圖3詳細(xì)展示了本文模型的整體結(jié)構(gòu),其中左邊的虛線框內(nèi)是框架的機(jī)器學(xué)習(xí)部分,右邊虛線框內(nèi)為框架的邏輯推理部分,整體結(jié)構(gòu)主要包含以下核心組件:
1)輸入層:以裁判文書(shū)按句切分作為輸入。
2)特征抽取器:使用BERT(Bidirectional Encoder Representations from Transformers)[15]來(lái)捕捉序列的語(yǔ)義特征,本文將其遷移到量刑情節(jié)識(shí)別任務(wù)上。


圖3 基于反繹學(xué)習(xí)的裁判文書(shū)量刑情節(jié)識(shí)別模型框架





BERT預(yù)訓(xùn)練模型在自然語(yǔ)言處理的多個(gè)任務(wù)都取得了突破性的性能表現(xiàn),所使用的Transformer[16]的Encoder框架,有效地利用了文本的雙向信息。在輸出部分,[CLS]的輸出能夠得到整個(gè)序列固定維度的全局表征,本文方法將其作為分類(lèi)層的輸入,并使用Sigmod激活函數(shù)。


算法1 置信學(xué)習(xí)(Confidence Learning)。

本文依據(jù)《最高人民法院關(guān)于常見(jiàn)犯罪的量刑指導(dǎo)意見(jiàn)》,構(gòu)建了基于量刑情節(jié)的線性回歸模型,分別用于計(jì)算基準(zhǔn)刑和基準(zhǔn)刑調(diào)節(jié)幅度,如算法2所示。
算法2 刑期計(jì)算(Sentence Calcluation)。

基于BERT的識(shí)別模型需要定義一個(gè)適當(dāng)?shù)膿p失函數(shù),以作為參數(shù)優(yōu)化的方向。本文選用交叉熵作為損失函數(shù),通過(guò)式(6)計(jì)算。

2.6 反繹學(xué)習(xí)目標(biāo)函數(shù)
反繹學(xué)習(xí)的損失函數(shù)由置信學(xué)習(xí)的置信度及其產(chǎn)生的對(duì)應(yīng)情節(jié)矩陣所得到的刑期誤差構(gòu)成,計(jì)算方式如式(7)所示。

本章分別從反繹學(xué)習(xí)框架和置信學(xué)習(xí)模塊進(jìn)行測(cè)試與分析。
本文選用貴州省最高人民法院提供的裁判文書(shū)作為實(shí)驗(yàn)數(shù)據(jù)集,由于盜竊案件占比最高,達(dá)到23%左右,所以選取其中1 000份盜竊案件裁判文書(shū)作為實(shí)驗(yàn)數(shù)據(jù)集,表3詳細(xì)描述了相關(guān)量刑情節(jié)的統(tǒng)計(jì)信息。

表3 數(shù)據(jù)集統(tǒng)計(jì)信息
表3中共有九種量刑情節(jié)類(lèi)別:案發(fā)前后退還、賠償、認(rèn)罪態(tài)度良好、案發(fā)前自首、具有前科記錄,犯罪人涉未成年人、犯罪人獲得被害人諒解、犯罪人攜帶工具實(shí)施盜竊、犯罪人入戶實(shí)施盜竊、犯罪人扒竊。以裁判文書(shū)為單位按9∶1的比例進(jìn)行訓(xùn)練集與測(cè)試集的劃分,訓(xùn)練集再以5∶4的比例進(jìn)行有標(biāo)簽數(shù)據(jù)與無(wú)標(biāo)簽數(shù)據(jù)的劃分。將本文提出的ABL-CON模型與兩種基線模型BERT和SS-ABL作比對(duì),訓(xùn)練設(shè)置有兩種:50%和100%的帶標(biāo)簽數(shù)據(jù),分別表示為ABL-CON-50和ABL-CON-100。
從表4可以看出,使用50%標(biāo)注數(shù)據(jù)與50%無(wú)標(biāo)注數(shù)據(jù)的ABL-CON模型的Macro_F1值和Micro_F1值分別達(dá)到了90.35%和90.58%,比使用50%標(biāo)注數(shù)據(jù)的BERT分別提高了2.22個(gè)百分點(diǎn)和2.43個(gè)百分點(diǎn);比使用50%標(biāo)注數(shù)據(jù)SS-ABL模型分別提升了6.03個(gè)百分點(diǎn)和5.13個(gè)百分點(diǎn);同時(shí)也優(yōu)于使用100%標(biāo)注數(shù)據(jù)的BERT模型。可以看出本文模型在標(biāo)注數(shù)據(jù)量較少的情況下,也能夠充分利用領(lǐng)域知識(shí)利用符合邏輯規(guī)則的反繹數(shù)據(jù)提升模型的擬合精度。

表4 不同模型的性能對(duì)比 單位:%
為了能更進(jìn)一步體現(xiàn)置信學(xué)習(xí)在本文模型中對(duì)于修正標(biāo)簽的有效性,表5詳細(xì)展示了單類(lèi)別量刑情節(jié)的F1值,結(jié)合表3對(duì)數(shù)據(jù)集類(lèi)別分布的統(tǒng)計(jì)情況可以直觀地發(fā)現(xiàn):相比SS-ABL模型,本文模型對(duì)于小類(lèi)別的識(shí)別能力有顯著提升,例如tool、theft等,其原因在于,在反繹推理的過(guò)程中,由于此類(lèi)樣本數(shù)量較少且不像同樣數(shù)量少的surrender一樣描述方式較為固定,起初模型對(duì)于這些類(lèi)別的擬合能力有限,結(jié)合裁判文書(shū)的多處描述特點(diǎn),在置信度計(jì)算下這些類(lèi)別的置信分?jǐn)?shù)較低,從而使模型更加關(guān)注這些類(lèi)別的標(biāo)簽質(zhì)量,進(jìn)而提升了整體的識(shí)別能力。

表5 單類(lèi)別量刑情節(jié)的F1值 單位:
本文提出并驗(yàn)證了ABL-CON模型在裁判文書(shū)量刑情節(jié)識(shí)別任務(wù)上的有效性,通過(guò)引入置信學(xué)習(xí)方法,并圍繞反繹學(xué)習(xí)框架來(lái)提升對(duì)裁判文書(shū)文本特點(diǎn)的表征與學(xué)習(xí)能力。本文模型利用BERT進(jìn)行特征提取,并提出了一種融合司法規(guī)則計(jì)算量刑情節(jié)識(shí)別置信度的置信學(xué)習(xí)算法,以此結(jié)合量刑刑期以及邏輯推理來(lái)表征錯(cuò)誤標(biāo)簽,該算法的目標(biāo)函數(shù)能有效提升對(duì)小樣本類(lèi)別的擬合能力。在未來(lái)的工作中,將進(jìn)一步探索量刑情節(jié)的分布特征以及情節(jié)之間的邏輯關(guān)系(如前科在細(xì)粒度下可分為有前科記錄和有累犯記錄),并擴(kuò)展更多類(lèi)型的量刑情節(jié)(如:犯罪動(dòng)機(jī)“為吸毒盜竊”等)。由于裁判文書(shū)文本相比通用領(lǐng)域仍存在許多差異性(如法官的專業(yè)術(shù)語(yǔ)),對(duì)裁判文書(shū)文本特征的表達(dá)能力和多標(biāo)簽學(xué)習(xí)領(lǐng)域仍有很大的研究與提升空間,這也是在未來(lái)的研究中待解決的問(wèn)題。
[1] ZHOU Z H. Abductive learning: towards bridging machine learning and logical reasoning[J]. Science China Information Sciences, 2019, 62(7): No.76101.
[2] HUANG Y X, DAI W Z, YANG J, et al. Semi-supervised abductive learning and its application to theft judicial sentencing[C]// Proceedings of the 2020 IEEE International Conference on Data Mining. Piscataway: IEEE, 2020: 1070-1075.
[3] LIU C L, HSIEH C D. Exploring phrase-based classification of judicial documents for criminal charges in Chinese[C]// Proceedings of the 2006 International Symposium on Methodologies for Intelligent Systems, LNCS 4203/LNAI 4203. Berlin: Springer, 2006: 681-690.
[4] KATZ D M, BOMMARITO M J, II, BLACKMAN J. A general approach for predicting the behavior of the Supreme Court of the United States[EB/OL]. (2017-01-17)[2021-05-22].https://arxiv.org/pdf/1612.03473v2.pdf.
[5] ZHONG H X, GUO Z P, TU C C, et al. Legal judgment prediction via topological learning[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 3540-3549.
[6] ANGELIDIS I, CHALKIDIS I, KOUBARAKIS M. Named entity recognition, linking and generation for Greek legislation[C]// Proceedings of the 31st International Conference on Legal Knowledge and Information Systems. Amsterdam: IOS Press, 2018: 1-10.
[7] CARDELLINO C, TERUEL M, ALEMANY L A, et al. Legal NERC with ontologies, Wikipedia and curriculum learning[C]// Proceedings of the 15th European Chapter of the Association for Computational Linguistics, Volume 2 (Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 254-259.
[8] 馬建剛,張鵬,馬應(yīng)龍. 基于知識(shí)塊摘要和詞轉(zhuǎn)移距離的高效司法文檔分類(lèi)[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(5):1293-1298.(MA J G, ZHANG P, MA Y L. Efficient judicial document classification based on knowledge block summarization and word mover’s distance[J]. Journal of Computer Applications, 2019, 39(5):1293-1298.)
[9] 馬建剛,馬應(yīng)龍. 語(yǔ)義驅(qū)動(dòng)的司法文檔學(xué)習(xí)分類(lèi)方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(6):1696-1700.(MA J G, MA Y L. Semantic-driven learning and classification method of judicial documents[J]. Journal of Computer Applications, 2019, 39(6):1696-1700.)
[10] GIBAJA E, VENTURA S. Multi‐label learning: a review of the state of the art and ongoing research[J]. WIREs Data Mining and Knowledge Discovery, 2014, 4(6): 411-444.
[11] LIU W W, WANG H B, SHEN X B, et al. The emerging trends of multi-label learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021(Early Access): 1-1.
[12] TSOUMAKAS G, KATAKIS I. Multi-label classification: an overview[J]. International Journal of Data Warehousing and Mining, 2007, 3(3): 1-13.
[13] 張洛陽(yáng),毛嘉莉,劉斌,等. 基于貝葉斯模型的多標(biāo)簽分類(lèi)算法[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(1): 52-56, 71.(ZHANG L Y, MAO J L, LIU B, et al. Multi-label classification algorithm based on Bayesian model[J]. Journal of Computer Applications, 2016, 36(1): 52-56, 71.)
[14] ZHU X J. Semi-supervised learning literature survey: TR1530[R]. Madison, WI: University of Wisconsin-Madison, Department of Computer Sciences, 2005: 10.
[15] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[16] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[17] ROOYEN B van, MENON A K, WILLIAMSON R C. Learning with symmetric label noise: the importance of being unhinged[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 10-18.
[18] JIANG L, ZHOU Z Y, LEUNG T, et al. MentorNet: learning data-driven curriculum for very deep neural networks on corrupted labels[C]// Proceedings of the 35th International Conference on Machine Learning. New York: JMLR.org, 2018: 2304-2313.
[19] NORTHCUTT C, JIANG L, CHUANG I. Confident learning: estimating uncertainty in dataset labels[J]. Journal of Artificial Intelligence Research, 2021, 70: 1373-1411.
Recognition of sentencing circumstances in adjudication documents based on abductive learning
LI Jinye1, HUANG Ruizhang1,2*, QIN Yongbin1,2, CHEN Yanping1,2, TIAN Xiaoyu1
(1,,550025,;2(),550025,)
Aiming at the problem of poor recognition of sentencing circumstances in adjudication documents caused by the lack of labeled data, low quality of labeling and existence of strong logicality in judicial field, a sentencing circumstance recognition model based on abductive learning named ABL-CON (ABductive Learning in CONfidence) was proposed. Firstly, combining with neural network and domain logic inference, through the semi-supervised method, a confidence learning method was used to characterize the confidence of circumstance recognition. Then, the illogical error circumstances generated by neural network of the unlabeled data were corrected, and the recognition model was retrained to improve the recognition accuracy. Experimental results on the self-constructed judicial dataset show that the ABL-CON model using 50% labeled data and 50% unlabeled data achieves 90.35% and 90.58% in Macro_F1 and Micro_F1, respectively, which is better than BERT (Bidirectional Encoder Representations from Transformers) and SS-ABL (Semi-Supervised ABductive Learning) under the same conditions, and also surpasses the BERT model using 100% labeled data. The ABL-CON model can effectively improve the logical rationality of labels as well as the recognition ability of labels by correcting illogical labels through logical abductive correctness.
sentencing circumstance recognition; semi-supervised learning; multi-label classification; abductive learning; confidence learning
This work is partially supported by Natural Science Foundation of China (62066008), Key Project of Science and Technology Foundation of Guizhou Province (Qianke Hejichu [2020] 1Z055).
LI Jinye, born in 1997, M. S. candidate. His research interests include abductive learning.
HUANG Ruizhang, born in 1979, Ph. D., professor. Her research interests include data mining, text mining, machine learning, information retrieval.
QIN Yongbin, born in 1980, Ph. D., professor. His research interests include intelligent computing, machine learning, algorithm design.
CHEN Yanping, born in 1980, Ph. D., associate professor. His research interests include artificial intelligence, natural language processing.
TIAN Xiaoyu, born in 1997, M. S. candidate. Her research interests include abductive learning.
TP391.1
A
1001-9081(2022)06-1802-06
10.11772/j.issn.1001-9081.2021091748
2021?10?12;
2021?11?18;
2021?11?26。
國(guó)家自然科學(xué)基金資助項(xiàng)目(62066008);貴州省科學(xué)技術(shù)基金重點(diǎn)項(xiàng)目(黔科合基礎(chǔ)[2020]1Z055)。
李錦燁(1997—),男,江蘇泰州人,碩士研究生,主要研究方向:反繹學(xué)習(xí);黃瑞章(1979—),女,天津人,教授,博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、文本挖掘、機(jī)器學(xué)習(xí)、信息檢索;秦永彬(1980—),男,山東招遠(yuǎn)人,教授,博士,主要研究方向:智能計(jì)算、機(jī)器學(xué)習(xí)、算法設(shè)計(jì);陳艷平(1980—),男,貴州長(zhǎng)順人,副教授,博士,CCF會(huì)員,主要研究方向:人工智能、自然語(yǔ)言處理;田小瑜(1997—),女,重慶人,碩士研究生,主要研究方向:反繹學(xué)習(xí)。