基于BiLSTM-CRF 的司法領域?qū)嶓w識別研究

2020-10-13 08:58:32楊品莉謝志長

現(xiàn)代計算機 2020年25期

楊品莉，謝志長

（四川大學電子信息學院，成都610065）

0 引言

司法領域中，司法文件存在數(shù)據(jù)量大，文件種類繁多，案件涉及面廣等問題，所以實現(xiàn)司法領域中的信息自動化是司法領域發(fā)展的必然趨勢。司法領域中的信息自動化可以減輕司法從業(yè)人員的工作負擔，有助于提高司法行業(yè)辦事效率，有利于實現(xiàn)司法領域的信息共享[1]。

近年來，隨著各種自然語言處理技術的不斷提出，以及司法領域?qū)崿F(xiàn)司法信息自動化的迫切需要，越來越多的自然語言處理技術應用到司法領域中，如實體識別、關系抽取等[2]。在法律案例文本中存在著大量的司法領域?qū)嶓w，如“張三”、“四川省人民法院”、“成都市中級人民檢察院”等專用名詞，這些司法領域?qū)嶓w的識別是實現(xiàn)司法領域信息自動化的基礎，是后續(xù)實現(xiàn)司法信息抽取，構(gòu)建司法領域知識圖譜等技術的前提。因而，司法領域?qū)嶓w識別的研究對司法領域的發(fā)展顯得尤為重要。

目前，命名實體識別作為自然語言處理的一項基礎研究，在很多領域都取得了大量的研究成果[3-4]。但是由于中文字符相較于英文字符的特殊性，中文字符存在一詞多義的現(xiàn)象以及中文字符詞與詞的聯(lián)系比較緊密，中文領域?qū)嶓w識別的研究成果目前相對比較少[5-6]。由于司法領域的特殊性，具有專用名詞多，訓練數(shù)據(jù)難以獲取等特點，因此司法領域的實體識別研究成果相對更少。最早的命名實體方法有以下幾種：①基于詞典和規(guī)則的方法[7]，此類實體識別方法需要專家手動創(chuàng)建規(guī)則模板，利用模式和字符串匹配識別命名實體；②基于統(tǒng)計的中文命名實體識別方法，包括條件隨機場（Con?ditional Random Fields，CRF）[8]、最大熵模型（Maximum Entropy，ME）[9]、隱馬爾可夫模型(Hidden Markov Mode，HMM)[10]、支持向量機（Support Vector Machine，SVM）[11]等，基于統(tǒng)計的方法需要從訓練語料中統(tǒng)計分析出特征，并將特征加入到特征向量中。以上兩類方法都對語料庫的要求比較高，需要專家手動從數(shù)據(jù)集中提取特征，并且兩類方法的可移植性和準確率也比較差。隨著深度學習技術在自然語言處理中的應用越來越廣泛，以及詞的分布式表示[12]的提出，基于深度學習的命名實體識別技術也取得了一些成果[13]，并逐漸應用到各類領域?qū)嶓w識別中。然而，基于深度學習的方法根據(jù)一系列給定的特征獨立的對每個字符進行預測，沒有考慮上文已經(jīng)預測的標簽，這可能造成預測到的標簽序列無效[14]，這在一定程度上降低了實體預測結(jié)果的準確性。

基于此，本文提出了一種基于BiLSTM-CRF[15-17]網(wǎng)絡模型的司法實體識別方法，并采用Adam 優(yōu)化器對模型進行優(yōu)化。基于BiLSTM-CRF 的網(wǎng)絡模型除了能夠保留基于深度學習方法的優(yōu)點，將字符作為基本的處理單位，對每個字符分配類別標記外，還引入了一些約束條件，避免了基于深度學習的方法存在的問題，能夠獲得比較高的實體識別準確率。方法的總體流程圖如圖1 所示，首先處理司法案例文本，獲取數(shù)據(jù)集，然后將數(shù)據(jù)集放入BiLSTM-CRF 網(wǎng)絡模型訓練，選取最優(yōu)的優(yōu)化器，并與其他模型比較，實驗結(jié)果表明我們提出的模型在司法領域?qū)嶓w識別上是有效的。

圖1 本文實現(xiàn)司法實體識別方法總覽

1 方法

1.1 BiLSTM

循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）[18]是一種典型的處理序列化語句的深度學習網(wǎng)絡模型，其在理論上能夠處理任意長度的序列，學習到任意長度的上下文信息。但經(jīng)實踐證明，如果序列的長度過長，會出現(xiàn)梯度消失問題而無法繼續(xù)進行優(yōu)化。由此可得出RNN 存在長度依賴問題，并不能獲取任意長度的上下文特征信息。

針對這個問題，長短期記憶模型（Long Short-Term Memory，LSTM）[19]被提出，LSTM 模型實際上是RNN 模型的一種改進模型。LSTM 模型及LSTM 單元工作流程如圖2 所示，該模型利用門機制改變傳送到細胞狀態(tài)的信息來保持信息傳遞的持久性，從而能夠?qū)W到長距離上下文特征，有效解決RNN 的長度依賴問題。

圖2 LSTM單元工作流程

LSTM 模型由三個用sigmoid 作為激活函數(shù)的門結(jié)構(gòu)及一個細胞狀態(tài)組成，三個門結(jié)構(gòu)分別為輸入門，遺忘門和輸出門。LSTM 一個單元的工作流程為：

其中當前時刻的輸入為xt；前一時刻的隱層狀態(tài)為ht-1；當前時刻的隱層狀態(tài)為ht；臨時細胞狀態(tài)為；當前時刻細胞狀態(tài)為Ct；上一刻細胞狀態(tài)為Ct-1。遺忘門的作用是選擇要遺忘的信息，遺忘門的輸入為ht-1和xt，輸出為遺忘門的值ft。計算當前時刻細胞狀態(tài)，輸入的值為it，ft，以及Ct-1，輸出為當前時刻細胞狀態(tài)Ct。計算輸出門和當前時刻隱層狀態(tài)，輸入為ht-1，xt以及Ct，輸出為輸出門的值Ot以及隱層狀態(tài)ht。最終，得到與句子長度相同的隱層狀態(tài)序列：

但是單向LSTM 模型只能編碼從前到后的信息，不能編碼從后到前的信息。為了獲得更多的信息，BiL?STM[20]被提出，BiLSTM 模型由前向LSTM 模型（提取過去的特征）和后向LSTM 模型（提取未來的特征）組成，可以得到雙向的語義信息。本文在后續(xù)實驗中采用BiLSTM 模型，對每個句子都執(zhí)行前向和后向操作。

1.2 CRF

為了解決從BiLSTM 模塊中輸出的標簽序列可能無效的問題，我們提出將CRF 模塊連接到BiLSTM 模塊的隱層輸出，對BiLSTM 模塊輸出的標簽序列聯(lián)合解碼，進行句子級的序列標注，而不是單獨解碼每個標簽。

CRF 一般用于計算整個序列的聯(lián)合概率。CRF 的參數(shù)化形式定義如下：

圖3 BiLSTM-CRF模型

式中，tk，δl是特征函數(shù)，λk，μl為相應的權(quán)重，Zx是規(guī)范因子。上式指根據(jù)輸入序列x，得到輸出序列y的條件概率。tk是定義在邊上的特征函數(shù)，稱為轉(zhuǎn)移特征，依靠當前詞及前一個詞判斷是否符合該特征，由當前位置及前一個位置決定。δl是定義在節(jié)點上的特征函數(shù)，稱為狀態(tài)特征，由當前位置決定。tk，δl都由具體位置決定，所以是局部特征函數(shù)。通常，特征函數(shù)的取值為1 或0；當條件滿足時取1，條件不滿足時取0。因此，CRF 輸出結(jié)果完全由特征函數(shù)tk，δl及權(quán)重λk，μl決定。

CRF 模塊可以通過從訓練集學習到一些約束，以確保最終預測到的實體標簽序列是有效的，從而解決基于神經(jīng)網(wǎng)絡方法的預測標簽序列可能無效的問題。在CRF 模塊的損失函數(shù)中，輸出分數(shù)最大的序列為標簽預測序列，我們假設給定序列X，設序列標注結(jié)果為y，則定義分數(shù)為：

其中，P是BiLSTM 模塊隱層輸出經(jīng)線性操作后得到的初試得分矩陣，A是轉(zhuǎn)換得分矩陣。Ai,j為標簽i后面的標簽為標簽j的概率，Pi,j為詞Wi映射到標簽j的概率。對輸入序列X對應的輸出標簽序列y計算分數(shù)，最終的預測標簽序列為得分最高的序列。

1.3 BiLSTM-CRF

本文的BiLSTM-CRF 網(wǎng)絡結(jié)構(gòu)如圖3 所示，該網(wǎng)絡結(jié)構(gòu)由BiLSTM 和CRF 兩部分組成。首先，查找輸入文本序列中每個字符對應的字符向量，將查找得到的字符向量序列作為模型中BiLSTM 模塊的輸入，分別通過該模塊前向LSTM 及后向LSTM 得到字符向量的隱層編碼表示，然后通過CRF 層為每個字符分配標記，計算初試得分和轉(zhuǎn)換得分兩類分數(shù)，最終輸出的標記序列為總分最高的序列。

2 實驗準備與實驗結(jié)果

2.1 數(shù)據(jù)集準備

本文實驗數(shù)據(jù)集來自從裁判文書網(wǎng)上下載的1000份裁判文書，主要包括減刑案件、假釋案件以及暫予監(jiān)外案件三種案件的裁判文書，我們將其中600 份裁判文書作為訓練集，200 份作為驗證集，200 份作為測試集。首先，將1000 份裁判文書規(guī)范格式，去掉空格，然后在法學專家的幫助下利用語料標注工具YDEEA 將裁判文書標記為BIO 字標簽形式作為模型的輸入。在本文中，我們定義了5 類實體類別（姓名，地點，司法單位，案卷編號，犯罪類型）以及11 類字標簽，如表1所示。

表1 BIO 字標簽類別

2.2 實驗環(huán)境

本文基于NVIDIA 1080TI 顯卡及CUDA 9.0 提供的GPU 運算支持實現(xiàn)了對BiLSTM-CRF 網(wǎng)絡模型的訓練及測試。本文設計實現(xiàn)的司法實體識別系統(tǒng)基于Python 程序設計語言開發(fā)，神經(jīng)網(wǎng)絡模型的開源工具使用的是TensorFlow 框架。

2.3 實驗參數(shù)設置

實驗中使用的超參數(shù)設置如表2 所示。其中，詞向量維度設置為200，最大序列長度設置為300，epoch設置為300，Batch_size 設置為16，dropout 設置為0.5，learning rate 設置為0.001。

表2 訓練BiLSTM-CRF 模型參數(shù)設置

2.4 對比實驗與評價指標

為了本文的模型進行評估，在本文中采用準確率（precision），召回率（recall）以及F1 值（F-measure）作為評價指標。評價指標的計算公式如下所示：

在實驗中，我們采用目前主流的優(yōu)化器自適應矩估計（Adam）優(yōu)化實驗結(jié)果。Adam 具有計算不同參數(shù)的自適應學習率的能力，以及低內(nèi)存需求和高計算效率，適用于較大規(guī)模的數(shù)據(jù)集。為了驗證Adam 優(yōu)化器的效果，我們在對比實驗中采用GD，RMS prop 優(yōu)化器分別對模型進行優(yōu)化，比較不同優(yōu)化器對實驗結(jié)果的影響。

門循環(huán)單元（GRU）[21]是LSTM 的變體。GRU 中只有更新門（獲取序列中長距離依賴關系）和重置門（獲取序列中短距離依賴關系）。本文為了體現(xiàn)BiLSTM 在特定司法文本數(shù)據(jù)集上的效果，對比實驗將BiLSTM 模塊替換為GRU 模塊，對網(wǎng)絡重新訓練。

2.5 實驗結(jié)果

在基于BiLSTM-CRF 的網(wǎng)絡模型上訓練數(shù)據(jù)集，準確率，召回率以及F1 值等幾項評價指標都取得了比較好的結(jié)果，其中準確率為0.876，召回率為0.858，F(xiàn)1值為0.855。如表3 所示，使用Adam 優(yōu)化器相較于其他優(yōu)化器取得了更好的實驗結(jié)果，準確率、召回率及F1 值都明顯高于其他優(yōu)化器。

表3 不同優(yōu)化器在數(shù)據(jù)集下的評價指標比較

根據(jù)表4，模型中使用BiLSTM 模塊比使用GRU模塊，準確率提升了0.038，召回率提升了0.06，F(xiàn)1 值提升了0.028。對比實驗表明在司法文本數(shù)據(jù)集上，采用BiLSTM 來輸出標簽序列可以獲得更好的實體識別效果。

表4 不同模型在數(shù)據(jù)集下的評價指標比較

本文對減刑、假釋以及暫予監(jiān)外的裁判文書中的姓名、地點、司法單位、案卷編號、犯罪類型等5 類實體進行識別。表5 比較了裁判文書中不同實體類型的識別效果，結(jié)果顯示案卷編號的幾項評價指標比較低，這可能是由于案卷編號的描述比較復雜，既有數(shù)字、文字，有的可能還含有括號，比較難找到一種通用的規(guī)則。

表5 不同實體的評價指標比較

3 結(jié)語

本文設計實現(xiàn)了基于BiLSTM-CRF 的司法領域?qū)嶓w識別系統(tǒng)，該系統(tǒng)能識別出減刑案件，假釋案件及暫予監(jiān)外案件的裁判文書中的姓名，司法單位，地點，案卷編號，犯罪類型等實體，在各項評價指標上都取得了比較好的結(jié)果，為實現(xiàn)司法信息自動化，研究司法事件抽取，構(gòu)建司法領域知識圖譜打下了基礎。

另外，該系統(tǒng)也存在一些待改進的地方，例如可以通過增加語料，實現(xiàn)更多司法實體類別例如法條等的識別。還可以通過細分實體類別來獲得更準確的實體識別結(jié)果。因此下一步計劃采用通用數(shù)據(jù)集與司法領域數(shù)據(jù)集相結(jié)合的方式擴充數(shù)據(jù)集，以期提高實體識別效果和識別更多在司法領域中比較關鍵的實體。