楊品莉,謝志長
(四川大學電子信息學院,成都610065)
司法領域中,司法文件存在數(shù)據(jù)量大,文件種類繁多,案件涉及面廣等問題,所以實現(xiàn)司法領域中的信息自動化是司法領域發(fā)展的必然趨勢。司法領域中的信息自動化可以減輕司法從業(yè)人員的工作負擔,有助于提高司法行業(yè)辦事效率,有利于實現(xiàn)司法領域的信息共享[1]。
近年來,隨著各種自然語言處理技術的不斷提出,以及司法領域?qū)崿F(xiàn)司法信息自動化的迫切需要,越來越多的自然語言處理技術應用到司法領域中,如實體識別、關系抽取等[2]。在法律案例文本中存在著大量的司法領域?qū)嶓w,如“張三”、“四川省人民法院”、“成都市中級人民檢察院”等專用名詞,這些司法領域?qū)嶓w的識別是實現(xiàn)司法領域信息自動化的基礎,是后續(xù)實現(xiàn)司法信息抽取,構(gòu)建司法領域知識圖譜等技術的前提。因而,司法領域?qū)嶓w識別的研究對司法領域的發(fā)展顯得尤為重要。
目前,命名實體識別作為自然語言處理的一項基礎研究,在很多領域都取得了大量的研究成果[3-4]。但是由于中文字符相較于英文字符的特殊性,中文字符存在一詞多義的現(xiàn)象以及中文字符詞與詞的聯(lián)系比較緊密,中文領域?qū)嶓w識別的研究成果目前相對比較少[5-6]。由于司法領域的特殊性,具有專用名詞多,訓練數(shù)據(jù)難以獲取等特點,因此司法領域的實體識別研究成果相對更少。最早的命名實體方法有以下幾種:①基于詞典和規(guī)則的方法[7],此類實體識別方法需要專家手動創(chuàng)建規(guī)則模板,利用模式和字符串匹配識別命名實體;②基于統(tǒng)計的中文命名實體識別方法,包括條件隨機場(Con?ditional Random Fields,CRF)[8]、最大熵模型(Maximum Entropy,ME)[9]、隱馬爾可夫模型(Hidden Markov Mode,HMM)[10]、支持向量機(Support Vector Machine,SVM)[11]等,基于統(tǒng)計的方法需要從訓練語料中統(tǒng)計分析出特征,并將特征加入到特征向量中。以上兩類方法都對語料庫的要求比較高,需要專家手動從數(shù)據(jù)集中提取特征,并且兩類方法的可移植性和準確率也比較差。隨著深度學習技術在自然語言處理中的應用越來越廣泛,以及詞的分布式表示[12]的提出,基于深度學習的命名實體識別技術也取得了一些成果[13],并逐漸應用到各類領域?qū)嶓w識別中。然而,基于深度學習的方法根據(jù)一系列給定的特征獨立的對每個字符進行預測,沒有考慮上文已經(jīng)預測的標簽,這可能造成預測到的標簽序列無效[14],這在一定程度上降低了實體預測結(jié)果的準確性。
基于此,本文提出了一種基于BiLSTM-CRF[15-17]網(wǎng)絡模型的司法實體識別方法,并采用Adam 優(yōu)化器對模型進行優(yōu)化。基于BiLSTM-CRF 的網(wǎng)絡模型除了能夠保留基于深度學習方法的優(yōu)點,將字符作為基本的處理單位,對每個字符分配類別標記外,還引入了一些約束條件,避免了基于深度學習的方法存在的問題,能夠獲得比較高的實體識別準確率。方法的總體流程圖如圖1 所示,首先處理司法案例文本,獲取數(shù)據(jù)集,然后將數(shù)據(jù)集放入BiLSTM-CRF 網(wǎng)絡模型訓練,選取最優(yōu)的優(yōu)化器,并與其他模型比較,實驗結(jié)果表明我們提出的模型在司法領域?qū)嶓w識別上是有效的。

圖1 本文實現(xiàn)司法實體識別方法總覽
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)[18]是一種典型的處理序列化語句的深度學習網(wǎng)絡模型,其在理論上能夠處理任意長度的序列,學習到任意長度的上下文信息。但經(jīng)實踐證明,如果序列的長度過長,會出現(xiàn)梯度消失問題而無法繼續(xù)進行優(yōu)化。由此可得出RNN 存在長度依賴問題,并不能獲取任意長度的上下文特征信息。
針對這個問題,長短期記憶模型(Long Short-Term Memory,LSTM)[19]被提出,LSTM 模型實際上是RNN 模型的一種改進模型。LSTM 模型及LSTM 單元工作流程如圖2 所示,該模型利用門機制改變傳送到細胞狀態(tài)的信息來保持信息傳遞的持久性,從而能夠?qū)W到長距離上下文特征,有效解決RNN 的長度依賴問題。

圖2 LSTM單元工作流程
LSTM 模型由三個用sigmoid 作為激活函數(shù)的門結(jié)構(gòu)及一個細胞狀態(tài)組成,三個門結(jié)構(gòu)分別為輸入門,遺忘門和輸出門。LSTM 一個單元的工作流程為:

其中當前時刻的輸入為xt;前一時刻的隱層狀態(tài)為ht-1;當前時刻的隱層狀態(tài)為ht;臨時細胞狀態(tài)為;當前時刻細胞狀態(tài)為Ct;上一刻細胞狀態(tài)為Ct-1。遺忘門的作用是選擇要遺忘的信息,遺忘門的輸入為ht-1和xt,輸出為遺忘門的值ft。計算當前時刻細胞狀態(tài),輸入的值為it,ft,以及Ct-1,輸出為當前時刻細胞狀態(tài)Ct。計算輸出門和當前時刻隱層狀態(tài),輸入為ht-1,xt以及Ct,輸出為輸出門的值Ot以及隱層狀態(tài)ht。最終,得到與句子長度相同的隱層狀態(tài)序列:

但是單向LSTM 模型只能編碼從前到后的信息,不能編碼從后到前的信息。為了獲得更多的信息,BiL?STM[20]被提出,BiLSTM 模型由前向LSTM 模型(提取過去的特征)和后向LSTM 模型(提取未來的特征)組成,可以得到雙向的語義信息。本文在后續(xù)實驗中采用BiLSTM 模型,對每個句子都執(zhí)行前向和后向操作。
為了解決從BiLSTM 模塊中輸出的標簽序列可能無效的問題,我們提出將CRF 模塊連接到BiLSTM 模塊的隱層輸出,對BiLSTM 模塊輸出的標簽序列聯(lián)合解碼,進行句子級的序列標注,而不是單獨解碼每個標簽。
CRF 一般用于計算整個序列的聯(lián)合概率。CRF 的參數(shù)化形式定義如下:


圖3 BiLSTM-CRF模型
式中,tk,δl是特征函數(shù),λk,μl為相應的權(quán)重,Zx是規(guī)范因子。上式指根據(jù)輸入序列x,得到輸出序列y的條件概率。tk是定義在邊上的特征函數(shù),稱為轉(zhuǎn)移特征,依靠當前詞及前一個詞判斷是否符合該特征,由當前位置及前一個位置決定。δl是定義在節(jié)點上的特征函數(shù),稱為狀態(tài)特征,由當前位置決定。tk,δl都由具體位置決定,所以是局部特征函數(shù)。通常,特征函數(shù)的取值為1 或0;當條件滿足時取1,條件不滿足時取0。因此,CRF 輸出結(jié)果完全由特征函數(shù)tk,δl及權(quán)重λk,μl決定。
CRF 模塊可以通過從訓練集學習到一些約束,以確保最終預測到的實體標簽序列是有效的,從而解決基于神經(jīng)網(wǎng)絡方法的預測標簽序列可能無效的問題。在CRF 模塊的損失函數(shù)中,輸出分數(shù)最大的序列為標簽預測序列,我們假設給定序列X,設序列標注結(jié)果為y,則定義分數(shù)為:

其中,P是BiLSTM 模塊隱層輸出經(jīng)線性操作后得到的初試得分矩陣,A是轉(zhuǎn)換得分矩陣。Ai,j為標簽i后面的標簽為標簽j的概率,Pi,j為詞Wi映射到標簽j的概率。對輸入序列X對應的輸出標簽序列y計算分數(shù),最終的預測標簽序列為得分最高的序列。
本文的BiLSTM-CRF 網(wǎng)絡結(jié)構(gòu)如圖3 所示,該網(wǎng)絡結(jié)構(gòu)由BiLSTM 和CRF 兩部分組成。首先,查找輸入文本序列中每個字符對應的字符向量,將查找得到的字符向量序列作為模型中BiLSTM 模塊的輸入,分別通過該模塊前向LSTM 及后向LSTM 得到字符向量的隱層編碼表示,然后通過CRF 層為每個字符分配標記,計算初試得分和轉(zhuǎn)換得分兩類分數(shù),最終輸出的標記序列為總分最高的序列。
本文實驗數(shù)據(jù)集來自從裁判文書網(wǎng)上下載的1000份裁判文書,主要包括減刑案件、假釋案件以及暫予監(jiān)外案件三種案件的裁判文書,我們將其中600 份裁判文書作為訓練集,200 份作為驗證集,200 份作為測試集。首先,將1000 份裁判文書規(guī)范格式,去掉空格,然后在法學專家的幫助下利用語料標注工具YDEEA 將裁判文書標記為BIO 字標簽形式作為模型的輸入。在本文中,我們定義了5 類實體類別(姓名,地點,司法單位,案卷編號,犯罪類型)以及11 類字標簽,如表1所示。

表1 BIO 字標簽類別
本文基于NVIDIA 1080TI 顯卡及CUDA 9.0 提供的GPU 運算支持實現(xiàn)了對BiLSTM-CRF 網(wǎng)絡模型的訓練及測試。本文設計實現(xiàn)的司法實體識別系統(tǒng)基于Python 程序設計語言開發(fā),神經(jīng)網(wǎng)絡模型的開源工具使用的是TensorFlow 框架。
實驗中使用的超參數(shù)設置如表2 所示。其中,詞向量維度設置為200,最大序列長度設置為300,epoch設置為300,Batch_size 設置為16,dropout 設置為0.5,learning rate 設置為0.001。

表2 訓練BiLSTM-CRF 模型參數(shù)設置
為了本文的模型進行評估,在本文中采用準確率(precision),召回率(recall)以及F1 值(F-measure)作為評價指標。評價指標的計算公式如下所示:

在實驗中,我們采用目前主流的優(yōu)化器自適應矩估計(Adam)優(yōu)化實驗結(jié)果。Adam 具有計算不同參數(shù)的自適應學習率的能力,以及低內(nèi)存需求和高計算效率,適用于較大規(guī)模的數(shù)據(jù)集。為了驗證Adam 優(yōu)化器的效果,我們在對比實驗中采用GD,RMS prop 優(yōu)化器分別對模型進行優(yōu)化,比較不同優(yōu)化器對實驗結(jié)果的影響。
門循環(huán)單元(GRU)[21]是LSTM 的變體。GRU 中只有更新門(獲取序列中長距離依賴關系)和重置門(獲取序列中短距離依賴關系)。本文為了體現(xiàn)BiLSTM 在特定司法文本數(shù)據(jù)集上的效果,對比實驗將BiLSTM 模塊替換為GRU 模塊,對網(wǎng)絡重新訓練。
在基于BiLSTM-CRF 的網(wǎng)絡模型上訓練數(shù)據(jù)集,準確率,召回率以及F1 值等幾項評價指標都取得了比較好的結(jié)果,其中準確率為0.876,召回率為0.858,F(xiàn)1值為0.855。如表3 所示,使用Adam 優(yōu)化器相較于其他優(yōu)化器取得了更好的實驗結(jié)果,準確率、召回率及F1 值都明顯高于其他優(yōu)化器。

表3 不同優(yōu)化器在數(shù)據(jù)集下的評價指標比較
根據(jù)表4,模型中使用BiLSTM 模塊比使用GRU模塊,準確率提升了0.038,召回率提升了0.06,F(xiàn)1 值提升了0.028。對比實驗表明在司法文本數(shù)據(jù)集上,采用BiLSTM 來輸出標簽序列可以獲得更好的實體識別效果。

表4 不同模型在數(shù)據(jù)集下的評價指標比較
本文對減刑、假釋以及暫予監(jiān)外的裁判文書中的姓名、地點、司法單位、案卷編號、犯罪類型等5 類實體進行識別。表5 比較了裁判文書中不同實體類型的識別效果,結(jié)果顯示案卷編號的幾項評價指標比較低,這可能是由于案卷編號的描述比較復雜,既有數(shù)字、文字,有的可能還含有括號,比較難找到一種通用的規(guī)則。

表5 不同實體的評價指標比較
本文設計實現(xiàn)了基于BiLSTM-CRF 的司法領域?qū)嶓w識別系統(tǒng),該系統(tǒng)能識別出減刑案件,假釋案件及暫予監(jiān)外案件的裁判文書中的姓名,司法單位,地點,案卷編號,犯罪類型等實體,在各項評價指標上都取得了比較好的結(jié)果,為實現(xiàn)司法信息自動化,研究司法事件抽取,構(gòu)建司法領域知識圖譜打下了基礎。
另外,該系統(tǒng)也存在一些待改進的地方,例如可以通過增加語料,實現(xiàn)更多司法實體類別例如法條等的識別。還可以通過細分實體類別來獲得更準確的實體識別結(jié)果。因此下一步計劃采用通用數(shù)據(jù)集與司法領域數(shù)據(jù)集相結(jié)合的方式擴充數(shù)據(jù)集,以期提高實體識別效果和識別更多在司法領域中比較關鍵的實體。