改進KG-BERT算法的涉毒案件法條預測方法

2022-05-26 08:56:18楊通超唐向紅

軟件導刊 2022年5期

關鍵詞：模型

楊通超，唐向紅，2

（1.貴州大學計算機科學與技術學院；2.貴州大學省部共建公共大數據重點實驗室，貴州貴陽 550025）

0 引言

司法判決預測任務主要包含法條預測、罪名預測和刑期預測，其中法條預測旨在根據案情信息，尋找出適用于案情描述的法條。案情描述信息往往錯綜復雜，致使法官和律師不得不反復閱讀與分析案情，從眾多法條中尋找適合于該案情的法條，從而大大延長了案件審判周期，增加了審判難度。法條預測作為智慧法院建設的重要一環，一方面減輕了法官和律師審判的負擔，造就更高效的法庭；另一方面，法條預測的好壞會直接影響罪名預測和刑期預測結果。因此，法條預測意義重大。

特別地，程豪等［1］指出了涉毒法條的易混淆性，其案情描述存在差異性很小的情況，但這種細微差別可能對應不同的法條規定，使得審判結果截然不同。如圖1 所示的案情描述差異性示例，兩個案情都包含“駕駛”“車”“車內查獲”等元素，但是分別被判為運輸和非法持有毒品罪，在相同毒品級別的情況下，其刑期卻相差巨大。法條預測大體可分為基于規則、基于機器學習和基于神經網絡三大類。

Fig.1 Examples of similarity in case descriptions圖1 案情描述相似性示例

基于規則的法條預測：通過手動定義大量規則，當案情滿足某些條件時，根據規則匹配相應法條，其特點是人力資源耗費多、泛化能力差［2］；基于機器學習的法條預測：采用隨機森林、支持向量機、樸素貝葉斯等方法對案情文本作分類，其特點是具有一定的可解釋性，可取得較穩定的效果［3-5］；基于神經網絡的法條預測：此類方法利用神經網絡從不同角度挖掘與增強案情信息，或尋找法條之間的相關性，并一條條地輸出法條。由于其具有較強的泛化能力和優異性能，基于神經網絡的方法是目前法條預測的主流方法［6-12］。

然而，現有方法并未充分利用涉毒案件法條的文本知識。為了解決該問題，本文引入知識圖譜補全算法KGBERT，將其改進后成為KG-Lawformer 算法，將案情描述和法條文本分別看作三元組中的頭實體和尾實體描述信息，使用KG-Lawformer 算法進行其之間連接關系的學習，預測出案情與法條之間的對應關系。實驗結果證明，該方法有效提升了涉毒案件法條預測的有效性。

1 相關工作

1.1 KG-BERT

KG-BERT（BERT for Knowledge Graph Completion）［13］是應用于知識圖譜補全領域的算法。傳統補全算法僅探索實體與實體之間的連接關系［14］，KG-BERT 將實體進行語義上的擴充，并將擴充后的語義描述作為實體特征，如將實體“蘋果”的語義擴充為“蘋果為世界四大水果之一，性味甘酸而平，無毒，具有生津止渴、益脾止瀉、和胃降逆的功效。”然后將擴充后的語義特征輸入BERT 預訓練神經網絡模型，進行特征提取與分類預測。

1.2 BERT與Lawformer異同

BERT 和Lawformer 同為預訓練語言模型，BERT 預訓練數據是公共領域的維基百科［15］，而Lawformer 采用法律領域真實的民事和刑事案件數據作為預訓練語料庫［16］。兩者在預訓練過程中的異同如表1所示。

2 KG-Lawformer模型

2.1 模型結構

KG-Lawformer 模型結構如圖2 所示，輸入格式為頭實體、關系和尾實體描述組成的三元組，將輸入序列第一個字符［CLS］的輸出作為分類結果輸出。頭實體（Head Entity）對應案情描述的字序列，如“王某在房間販賣毒品給李某”，尾實體（Tail Entity）對應法條描述的字序列，如“明知是毒品而非法銷售……”，關系（Relation）對應“正確連接”或“錯誤連接”的字序列，實體和關系序列固定用［SEP］字符隔開。整體輸入是由各個部分的字序列、位置順序序列和句子標識序列進行向量嵌入后的聯合輸入，詳情可參考文獻［15］。

Table 1 Similarities and differences between BERT and Lawformer表1 BERT與Lawformer異同

不同于原生BERT，這里實體都采用相同的句子標識向量eA，關系用向量eB表示，位置向量i∈{1，2，3，...，512}由［SEP］隔開后重新開始計算，并對字向量、位置標識向量和句子標識向量3 部分向量輸入原生的雙向Transformer編碼機制。隱藏層最后一層第一個字符C 的輸出向量為C∈RH，H 為BERT 模型隱藏狀態的向量維度大小。在字符C 處接入一個全連接層的分類網絡，參數W∈RH。最終，對于輸入的一組頭、尾實體和關系三元組s=(h，r，t)，其得分函數為st=f(h，r，t)=sigmoid(CWT)。其中，st是一個二維向量，滿足st0，st1∈[0，1]，且st0+st1=1。給定正例三元組集合D+和負例三元組集合D-，交叉熵損失函數計算公式如式（1）所示。

式中，yt∈{0，1}為三元組標簽（負例或正例），負例t′由隨機替換尾實體產生，如式（2）所示。

其中，Et為所有法條描述組成的尾實體集合。如果隨機負例三元組已經在正例三元組集合中，則拋棄該負例三元組，最后輸入模型通過梯度下降優化模型參數。

Fig.2 KG-Lawformer model structure圖2 KG-Lawformer模型結構

2.2 數據輸入結構

模型輸入為知識圖譜中三元組結構對應的描述字符串，其中知識圖譜由若干結點和邊組成，三元組由兩個結點和一個關系構成，表達了兩個結點之間的事實關系。如“［拜登，總統，美國］”表達了“拜登是美國總統”這一事實，正確的事實標簽為1。相反的，如果將連接關系改為“平民”，組成三元組“［拜登，平民，美國］”，就會得到一個不成立的三元組，對應標簽為0。

模型三元組的結點分為案情描述結點和法條描述結點，例如案情描述結點“2014 年5 月份以來，被告人陳某在貞豐縣珉谷鎮多次販賣毒品大麻給吸毒人員曾某人吸食，并容留吸毒人員易某在自家倉庫內吸食毒品海洛因”和法條描述結點“明知是毒品而非法銷售…”。模型三元組的關系有“正確連接”和“錯誤連接”兩種，如上示例可構成一個正例“［被告人陳某在貞豐縣珉谷鎮多次販賣…，正確連接，明知是毒品而非法銷售…］”，和一個負例［被告人陳某在貞豐縣珉谷鎮多次販賣…，錯誤連接，明知是毒品而非法銷售…］”。為了讓法條描述結點更具特征性，本文構建并加入了不同犯罪類型的高頻語義特征信息，如表2 所示，例如“非法種植毒品原植物罪”相應的強語義特征詞有種植、播種、種在、撒在等。

在多標簽分類任務（一個案例對應一個或多個標簽）中，區別于傳統方法，KG-Lawformer 能快速預測法條而不用訓練多個二分類模型，具體做法是：①模型訓練階段：對于一個訓練集中的案例，分別與所有標簽進行1-1 的輸入（其中有正例和負例），從而訓練模型；②模型預測階段：對于一個需要預測的案例，分別與所有標簽進行1-1 的輸入（其中有正例和負例），取所有輸出結果中1 所對應的標簽作為該案例對應的預測標簽集合；③整個過程只需要訓練一個模型。

Table 2 High-frequency semantic features of different crime types表2 不同犯罪類型高頻語義特征

3 應用實驗

3.1 數據集及評價指標

實驗數據集來源于貴州省高級人民法院2010-2019年有關單被告人多犯罪類型的涉毒案件，共16 480 條。為聚焦涉毒法條預測，只對《刑法》中有關涉毒的法條，即第347～357 條進行預測。數據集總表如表3 所示，訓練集與測試集按7.5：2.5的比例進行隨機抽取。

Table 3 Overview of data set表3 數據集總表

從表3 可以看出，真實數據的分布是極不均衡的。各標簽案件數量中，最多數據和最少數據量比達到127：1，因而考驗了模型對少量數據的識別能力。為驗證模型是否能均衡識別出各個法條，評價指標采用準確率accuracy（Acc）、宏精確率macro-precision（MP）、宏召回率macro-recall（MR）和宏macro-F1（MF1）作為評價指標，分別為Acc=其中，，n表示數據的標簽數量。

3.2 基線模型及參數

TFIDF+SVM：淺層模型，使用詞頻—逆文本頻率（TFIDF）提取輸入的文本特征，并采用支持向量機（SVM）作為分類［17］。

TextCNN：采用卷積神經網（Convolutional Neural Networks）對句子級別進行語義抽取與分類，在一些自然處理任務中具有不錯的表現［18］。

BiLSTM：能獲取句子的長距離依賴，是自然語言處理任務中比較常用的方法，在一些任務中具有較好性能［19］。

BERT：基于雙向Transformer 層模型，一經推出，在包括文本分類、閱讀理解等各項自然語言處理任務中展現出強大的性能［15］。

對于以上所有模型，設置案件文本最大長度為128 個字；對于淺層模型，采用詞袋TF-IDF 作為特征輸入；對于所有神經網絡模型，使用Adam 優化器優化損失函數，設置學習率為0.001。特別地，BiLSTM 中每個LSTM 大小為128。TextCNN 模型卷積核窗口為（1，2，3，4），大小為128。

3.3 實驗結果

實驗結果如表4 所示，從表中可以看出，各項指標中KG-Lawformer 都優于對比模型。分析實驗結果可得到以下結論：①該模型能有效提升法條預測性能；②由于數據稀疏性較強，法條編號為“第347 條”的案件數量占總案件的93%，導致測試級的精確率（Acc）都大于90%；③宏準確率（MP）和宏召回率（MR）作為兩個相互均衡、相互制約的指標，除本文模型外，BiLSTM 也取得了不錯的結果，原因是其在長文本語義提取中具有優勢；④宏F1 值（MF1）是最能反映模型優劣的指標，本文模型的該值最大，反映了其在數據不均衡情況下依然有良好的學習表現，且能較好地學習到小量數據特征；⑤KG-BERT 模型性能最差，甚至不如只使用BERT 模型，造成該情況的原因為：使用單BERT模型的預測方法是同時訓練多個二分類模型，降低了預測難度，使BERT 取得了接近0.5 的MF1 值，而KG-BERT 只使用一個模型預測多標簽任務，在KG-BERT 模型基于維基百科語料庫進行預訓練且實驗數據標簽分布十分稀疏的背景下，KG-BERT 無法有效區分各個標簽之間微小的差異，從而惰性地將大部分案件都分類到數量較多的“347”標簽上，造成Acc高而其他指標低的現象。

Table 4 Experimental results表4 實驗結果

3.4 消融實驗分析

本文對KG-Lawformer 進行消融實驗，驗證法條知識在法條預測中是否有效。KG-Lawformer 模型輸入包含案情信息和法條信息兩部分，Lawformer 模型輸入只包含案情信息。消融實驗所使用的評價指標與3.1 節一樣，都為Acc、MP、MR 和MF1，模型輸入文本長度均為128，2 個epoch，學習率為10e-5。消融實驗結果如表5 所示，可以看出在每個指標上，KG-Lawformer 都優于僅輸入案情信息的模型，體現了法條知識在法條預測任務中的有效性。

Table 5 Results of ablation experiments表5 消融實驗結果

4 結語

本文針對涉毒案件法條預測任務中存在案情信息易混淆的問題，提出使用基于KG-BERT 改進后的KG-Lawfromer 模型。實驗結果證明，該方法有效提升了涉毒案件法條的預測性能，同時該方法作為多標簽分類模型，區別于傳統模型需要進行多次二分類實驗，該模型僅需進行一次訓練與預測，從而大大提升了效率。本文模型還存在以下問題：法條文本的定義靈活多樣，哪個定義能最大程度提升法條預測的性能尚不明確；知識圖譜補全算法如何結合矢量偏移模型進一步提升模型性能。在未來工作中，將嘗試將不同法條文本作為輸入特征，同時探索結合transE模型［15］等矢量偏移模型的可能性。