文章編號:2096-1472(2022)-02-06-03
DOI:10.19644/j.cnki.issn2096-1472.2022.002.002
摘? 要:為了應對智慧法院項目中刑期預測任務的實際需求,提出了基于BERT與改進BP神經網絡的刑期預測模型。以盜竊案為切入點,剖析相關案情要素,介紹刑期預測的整體框架和具體過程?;诖罅空鎸嵃讣祿Y合法官的審理流程,首先使用BERT識別裁判文書中的案情要素,然后基于規則抽取對應的涉案金額,最后使用改進的BP神經網絡預測刑期,并與傳統模型對比。實驗證明,提出的模型刑期預測的平均誤差小于2.5 個月,優于進行對比的傳統模型。
關鍵詞:神經網絡;刑期預測;盜竊案件;BERT
中圖分類號:TP39? ? ?文獻標識碼:A
Research on Prediction Model of Sentence for Theft based on?BERT and Improved BP Neural Network
GUO Binbin1,2
(1. College of Computer Science and Technology, Guizhou University, Guiyang 550025, China;
2.State Key Laboratory of Public Big Data, Guiyang 550025, China)
gbb96@qq.com
Abstract: In order to meet the actual needs of sentence prediction task in the smart court project, this paper proposes a sentence prediction model based on BERT (Bidirectional Encoder Representation from Transformers) and improved BP neural network. Starting the theft cases, relevant case elements are analyzed, and the overall framework and specific process of sentence prediction are introduced. Based on a large amount of real case data and the judge's trial process, BERT is used to identify the case elements in the judgment documents. Then the amount of money involved based on the rules is extracted. Finally, the improved BP neural network is used to predict the sentence period and the proposed model is compared with the traditional one. Experiments show that the average error of the proposed sentence prediction model is less than 2.5 months, which is better than the traditional model used for comparison.
Keywords: neural network; sentence prediction; theft case; BERT
1? ?引言(Introduction)
智慧法院是我國2016 年提出的一項任務,主要目的是提高案件受理、審判、執行、監督等環節的信息化水平,推動司法信息公開,促進司法公平正義。在當前的“智慧法院”建設中,刑期預測是其中一項重要任務,其核心目標是通過分析裁判文書中案情描述部分,自動預測出案件的判決刑期。該任務的實現結果可以作為補充來提高法官的審判效率,且促進同案同判。
早在20 世紀,自動法律判決預測就已經引起研究者的關注,這個時期主要是利用數學模型和統計學原理對法律案件進行分析[1-3]。這種方法對專業性知識要求較高,且效率低下。隨著人工智能的發展,研究人員逐漸將AI應用到法律方面。KATZ[4]使用隨機森林(Random Forest)從案情描述中提取有效特征對美國最高法院的判決結果進行預測。王文廣等[5]將層次注意力網絡[6](Hybrid Attention Network, HAN)應用到刑期預測模型中,提出混合注意力和卷積神經網絡模型(Hybrid Attention and CNN model, HAC)。譚紅葉等[7]采用多模型投票方法結合量刑屬性進行刑期預測。ZHONG等[8]認為法律審判的多個子任務之間存在依賴關系,提出了多任務拓撲依賴學習模型TOPJUDGE。YANG等[9]基于多個子任務之間的拓撲依賴關系,引入詞與詞之間的組合語義關系,提出了多視角雙向反饋網絡MPBFN。以上這些模型均是基于分類的方法進行刑期預測,并沒有給出最終的預測刑期;且不同類型的案件存在一定的差異,缺乏對某一類型案件的針對性。
本文獲取了近十年某省的裁判文書,分析發現其中盜竊案件占比最大,達到27%以上,且盜竊案件審判流程和案情要素較為清晰,因此以盜竊案為切入點進行刑期預測實驗。
真實的盜竊案審判中,法官的審判流程如圖1所示。首先從案情描述中識別對應的案情要素和涉案金額,然后根據相關法條和涉案金額確定基準刑期,再根據案情要素對基準刑期進行修改,最終在修改后的基準刑期的一定幅度內確定宣告刑期。由于法官自身的影響,本模型的任務是預測修改后的基準刑期。根據法官的要求,刑期預測的誤差在3 個月以內是可以被認可的。
本文借鑒了法官的真實審判流程,使用當下性能較強的預訓練模型BERT作為要素識別模型,將要素識別作為多標簽分類任務;然后使用基于規則的方法獲取裁判文書中的涉案金額,將涉案金額和要素識別的結果作為BP神經網絡的輸入,最終輸出預測刑期。經實驗證明,本文所提出的盜竊案刑期預測方法平均誤差達到2.5 個月以內,已經具有實用價值。
2? ?數據集和案情要素(Data set and case elements)
2.1? ?數據集
本文數據集使用由貴州省高級人民法院提供的盜竊案件裁判文書,共包含8,000余篇帶有標簽的裁判文書。由于數據標注可能存在不規范或者標注錯誤的情況,因此對數據進行清洗。首先刪除數據集中某些非初審案件的數據,原因在于非初審案件的裁判文書中一般不包含案情描述或者只有較少的案情描述;然后去除某些標注數據明顯錯誤的文本,通過規則識別案情描述中的涉案金額和刑期的比例,剔除某些明顯錯誤的案例,如涉案金額1,000 元、審判刑期10 年;最終選取6,000 篇裁判文書作為本次實驗的數據集。
2.2? ?案情標簽
案情標簽是審理過程中的重要組成部分,主要是依據相關案情確定是否符合某一法條的某一部分,如未成年、累犯、扒竊等。對于某一案件,可能有多個案情標簽同時存在,因此,案情要素的識別任務是一個多標簽分類任務。
根據法官和相應法律文書的指導,本文選取了16 個案情標簽作為BP神經網絡的輸入,這些標簽及標簽相應的數量如表1所示。
3? ?模型構建(Model building)
模型構建分為兩部分,分別是案情要素識別部分和刑期預測部分。案情要素識別的結果將會作為刑期預測模型的輸入。
3.1? ?基于BERT的案情標簽識別
2019 年,谷歌提出了預訓練模型BERT,在自然語言處理領域各個方面都具有非常好的效果。圖2展示了基于BERT的案情要素識別模型圖。
本文所使用的BERT模型為谷歌官方發布的中文版,最大句子長度設為128。根據BERT模型的設置,句子長度超過該設置的部分將會被截斷,同時該參數如果設置過大,將會影響訓練效率及增加設備內存要求。因此,無法將整段裁判文本放入模型。
將裁判文書以句子為單位進行劃分,使用句子中所包含的案情要素作為標簽。在BERT模型的最后添加一個768×16的輸出層,同時以Sigmoid作為激活函數,設置0.5為閾值,計算方法如公式(1)所示。多標簽分類事實上可以看作多個二分類問題的集合,因此可以直接使用二分類的交叉熵損失函數,計算方法如公式(2)所示。
3.2? ?基于自適應學習率的BP神經網絡
BP神經網絡是目前應用最為廣泛的神經網絡之一,其特點是可以很好地擬合一些非線性的函數。根據對盜竊案審判流程的分析,法官依據案情要素對基準刑期的修改過程就可以看作一個非線性函數的計算過程。因此,本文選取BP神經網絡作為最終的刑期計算模型。
圖3展示了具有三個隱藏層的簡單BP神經網絡。其中即是隱藏層的計算過程,后面的兩個隱藏層的計算方式相同,所使用的是Relu激活函數。最終的輸出相當于是對輸入的矩陣X的一個函數映射。
在模型的輸入中,將會增加一個維度,即通過規則提取出的金額,相當于一個特殊的要素。最終的輸出節點只有一個,使其可以做回歸分析。
本文所使用BP模型共有17 個輸入節點,1 個輸出節點,289 個隱藏節點,以及三層隱藏層。通過輸入層、隱藏層、輸出層進行前向傳播得到預測值,利用MSE損失函數來衡量真實值和預測值之間的誤差。MSE損失函數的計算方法如公式(3)所示。利用梯度下降的方法來不斷更新權重參數和偏置參數,不斷縮小誤差,最終獲取和真實值最接近的預測結果。
在梯度下降的過程中,學習率的設置會對結果和效率產生一定的影響。學習率設置過大,有可能會錯過極值點,且有一定可能無法收斂。學習率設置過小,將會消耗大量的時間來收斂,或者由于梯度的消失而無法收斂,即梯度趨近0,且固定學習率也有可能會使函數陷入局部最小值。因此,本文使用自適應學習率方法,主要思路是使用前后兩次迭代的誤差來確定是增加還是減少學習率。同時根據差值的大小,確定學習率的變化幅度,最終使用差值的log函數值作為學習率變化的參考值。使用對數函數可以減緩變化的速度,同時減少網絡發散的可能。
如圖4所示,固定學習率的梯度下降曲線較為平滑,但有可能會陷入局部最小值,且隨著loss越來越小,相對較大的學習率還會使曲線出現振蕩。而可變學習率雖然下降曲線波動幅度較大,但最終也會趨向最小值,且可以探測到更多的極值點。
4? ?實驗與結果分析(Experiment and result analysis)
本文按照7∶3的比例劃分訓練集和測試集,同時采用保留交叉驗證,每次隨機選擇數據作為訓練集和測試集。在進行10 次訓練后,選取模型在測試集上的平均值作為模型最終得分。模型在要素識別部分的最終結果如表2所示。可以看到,其他模型在要素識別部分的效果均低于BERT模型,BERT模型的F1值可以達到0.89。其中,全文輸入的BERT模型效果較差,原因便是上文所說的最長句子截斷問題,導致輸入和輸出不再匹配。
使用效果最優的BERT模型的預測結果作為BP神經網絡的輸入,在衡量模型的優越性方面使用直觀的MAE誤差,即真實值和預測值的平均絕對值偏差。最終模型的效果如表3所示。同樣可以看到,BP神經網絡的MAE偏差小于其他模型,達到了2.5 個月以內。
5? ?結論(Conclusion)
刑期預測作為當前智慧法院建設的重要組成部分,引起了眾多學者的關注,無論是案情要素識別還是最終的刑期預測,都提出了很多新方法。本文所提出的刑期預測方法以盜竊案為切入點,將刑期預測的誤差縮小到了2.5 個月以內,具有實用價值,且本文對盜竊案裁判文書所預測的案情要素可以在法官判案時提供較多的參考。本文同樣存在一定的不足:盜竊案件案情要素較為清晰,相對其他類型案件更易識別。如果拓展到其他類型的案件,需要對案情要素進一步分析,劃分更具細粒度的案情要素,以保證刑期預測的準確率。此外,需要重新篩選案情要素,才能應用到其他類型的案件中。
參考文獻(References)
[1] KORT F. Predicting supreme court decisions mathematically: A quantitative analysis of the "right to counsel" cases[J]. American Political Science Review, 1957, 51(1):1-12.
[2] RINGQUIST E J, EMMERT C E. Judicial policymaking in published and unpublished decisions: The case of environmental civil ligaton[J]. Political Research Quarterly, 1999, 52(1):7-37.
[3] LAUDERDALE B E, CLARK T S. The supreme court's?many median justices[J]. American Political Science Review, 2012, 106(4):847-866.
[4] KATZ D M. Quantitative legal prediction-or-how I learned to stop worrying and start preparing for the data-driven future of the legal services industry[J]. Emory Law Journal, 2012, 62:909.
[5] 王文廣,陳運文,蔡華,等.基于混合深度神經網絡模型的司法文書智能化處理[J].清華大學學報(自然科學版),2019,59(07):505-511.
[6] YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]// KNIGHT K. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California: ACL, 2016:1480-1489.
[7] 譚紅葉,張博文,張虎,等.面向法律文書的量刑預測方法研究[J].中文信息學報,2020,34(03):107-114.
[8] ZHONG H, GUO Z, TU C, et al. Legal judgment prediction via topological learning[C]// RILOFF E. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: EMNLP, 2018:3540-3549.
[9] YANG W M, JIA W J, ZHOU X J, et al. Legal judgment prediction via multi-perspective bi-feedback network[J/OL].(2019-05-16) [2021-10-04]. https://arxiv.org/abs/1905.03969.
作者簡介:
郭彬彬(1996-),男,碩士生.研究領域:自然語言處理.