999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM-CRF 的司法領域?qū)嶓w識別研究

2020-10-13 08:58:32楊品莉謝志長
現(xiàn)代計算機 2020年25期
關鍵詞:優(yōu)化實驗模型

楊品莉,謝志長

(四川大學電子信息學院,成都610065)

0 引言

司法領域中,司法文件存在數(shù)據(jù)量大,文件種類繁多,案件涉及面廣等問題,所以實現(xiàn)司法領域中的信息自動化是司法領域發(fā)展的必然趨勢。司法領域中的信息自動化可以減輕司法從業(yè)人員的工作負擔,有助于提高司法行業(yè)辦事效率,有利于實現(xiàn)司法領域的信息共享[1]。

近年來,隨著各種自然語言處理技術的不斷提出,以及司法領域?qū)崿F(xiàn)司法信息自動化的迫切需要,越來越多的自然語言處理技術應用到司法領域中,如實體識別、關系抽取等[2]。在法律案例文本中存在著大量的司法領域?qū)嶓w,如“張三”、“四川省人民法院”、“成都市中級人民檢察院”等專用名詞,這些司法領域?qū)嶓w的識別是實現(xiàn)司法領域信息自動化的基礎,是后續(xù)實現(xiàn)司法信息抽取,構(gòu)建司法領域知識圖譜等技術的前提。因而,司法領域?qū)嶓w識別的研究對司法領域的發(fā)展顯得尤為重要。

目前,命名實體識別作為自然語言處理的一項基礎研究,在很多領域都取得了大量的研究成果[3-4]。但是由于中文字符相較于英文字符的特殊性,中文字符存在一詞多義的現(xiàn)象以及中文字符詞與詞的聯(lián)系比較緊密,中文領域?qū)嶓w識別的研究成果目前相對比較少[5-6]。由于司法領域的特殊性,具有專用名詞多,訓練數(shù)據(jù)難以獲取等特點,因此司法領域的實體識別研究成果相對更少。最早的命名實體方法有以下幾種:①基于詞典和規(guī)則的方法[7],此類實體識別方法需要專家手動創(chuàng)建規(guī)則模板,利用模式和字符串匹配識別命名實體;②基于統(tǒng)計的中文命名實體識別方法,包括條件隨機場(Con?ditional Random Fields,CRF)[8]、最大熵模型(Maximum Entropy,ME)[9]、隱馬爾可夫模型(Hidden Markov Mode,HMM)[10]、支持向量機(Support Vector Machine,SVM)[11]等,基于統(tǒng)計的方法需要從訓練語料中統(tǒng)計分析出特征,并將特征加入到特征向量中。以上兩類方法都對語料庫的要求比較高,需要專家手動從數(shù)據(jù)集中提取特征,并且兩類方法的可移植性和準確率也比較差。隨著深度學習技術在自然語言處理中的應用越來越廣泛,以及詞的分布式表示[12]的提出,基于深度學習的命名實體識別技術也取得了一些成果[13],并逐漸應用到各類領域?qū)嶓w識別中。然而,基于深度學習的方法根據(jù)一系列給定的特征獨立的對每個字符進行預測,沒有考慮上文已經(jīng)預測的標簽,這可能造成預測到的標簽序列無效[14],這在一定程度上降低了實體預測結(jié)果的準確性。

基于此,本文提出了一種基于BiLSTM-CRF[15-17]網(wǎng)絡模型的司法實體識別方法,并采用Adam 優(yōu)化器對模型進行優(yōu)化。基于BiLSTM-CRF 的網(wǎng)絡模型除了能夠保留基于深度學習方法的優(yōu)點,將字符作為基本的處理單位,對每個字符分配類別標記外,還引入了一些約束條件,避免了基于深度學習的方法存在的問題,能夠獲得比較高的實體識別準確率。方法的總體流程圖如圖1 所示,首先處理司法案例文本,獲取數(shù)據(jù)集,然后將數(shù)據(jù)集放入BiLSTM-CRF 網(wǎng)絡模型訓練,選取最優(yōu)的優(yōu)化器,并與其他模型比較,實驗結(jié)果表明我們提出的模型在司法領域?qū)嶓w識別上是有效的。

圖1 本文實現(xiàn)司法實體識別方法總覽

1 方法

1.1 BiLSTM

循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)[18]是一種典型的處理序列化語句的深度學習網(wǎng)絡模型,其在理論上能夠處理任意長度的序列,學習到任意長度的上下文信息。但經(jīng)實踐證明,如果序列的長度過長,會出現(xiàn)梯度消失問題而無法繼續(xù)進行優(yōu)化。由此可得出RNN 存在長度依賴問題,并不能獲取任意長度的上下文特征信息。

針對這個問題,長短期記憶模型(Long Short-Term Memory,LSTM)[19]被提出,LSTM 模型實際上是RNN 模型的一種改進模型。LSTM 模型及LSTM 單元工作流程如圖2 所示,該模型利用門機制改變傳送到細胞狀態(tài)的信息來保持信息傳遞的持久性,從而能夠?qū)W到長距離上下文特征,有效解決RNN 的長度依賴問題。

圖2 LSTM單元工作流程

LSTM 模型由三個用sigmoid 作為激活函數(shù)的門結(jié)構(gòu)及一個細胞狀態(tài)組成,三個門結(jié)構(gòu)分別為輸入門,遺忘門和輸出門。LSTM 一個單元的工作流程為:

其中當前時刻的輸入為xt;前一時刻的隱層狀態(tài)為ht-1;當前時刻的隱層狀態(tài)為ht;臨時細胞狀態(tài)為;當前時刻細胞狀態(tài)為Ct;上一刻細胞狀態(tài)為Ct-1。遺忘門的作用是選擇要遺忘的信息,遺忘門的輸入為ht-1和xt,輸出為遺忘門的值ft。計算當前時刻細胞狀態(tài),輸入的值為it,ft,以及Ct-1,輸出為當前時刻細胞狀態(tài)Ct。計算輸出門和當前時刻隱層狀態(tài),輸入為ht-1,xt以及Ct,輸出為輸出門的值Ot以及隱層狀態(tài)ht。最終,得到與句子長度相同的隱層狀態(tài)序列:

但是單向LSTM 模型只能編碼從前到后的信息,不能編碼從后到前的信息。為了獲得更多的信息,BiL?STM[20]被提出,BiLSTM 模型由前向LSTM 模型(提取過去的特征)和后向LSTM 模型(提取未來的特征)組成,可以得到雙向的語義信息。本文在后續(xù)實驗中采用BiLSTM 模型,對每個句子都執(zhí)行前向和后向操作。

1.2 CRF

為了解決從BiLSTM 模塊中輸出的標簽序列可能無效的問題,我們提出將CRF 模塊連接到BiLSTM 模塊的隱層輸出,對BiLSTM 模塊輸出的標簽序列聯(lián)合解碼,進行句子級的序列標注,而不是單獨解碼每個標簽。

CRF 一般用于計算整個序列的聯(lián)合概率。CRF 的參數(shù)化形式定義如下:

圖3 BiLSTM-CRF模型

式中,tk,δl是特征函數(shù),λk,μl為相應的權(quán)重,Zx是規(guī)范因子。上式指根據(jù)輸入序列x,得到輸出序列y的條件概率。tk是定義在邊上的特征函數(shù),稱為轉(zhuǎn)移特征,依靠當前詞及前一個詞判斷是否符合該特征,由當前位置及前一個位置決定。δl是定義在節(jié)點上的特征函數(shù),稱為狀態(tài)特征,由當前位置決定。tk,δl都由具體位置決定,所以是局部特征函數(shù)。通常,特征函數(shù)的取值為1 或0;當條件滿足時取1,條件不滿足時取0。因此,CRF 輸出結(jié)果完全由特征函數(shù)tk,δl及權(quán)重λk,μl決定。

CRF 模塊可以通過從訓練集學習到一些約束,以確保最終預測到的實體標簽序列是有效的,從而解決基于神經(jīng)網(wǎng)絡方法的預測標簽序列可能無效的問題。在CRF 模塊的損失函數(shù)中,輸出分數(shù)最大的序列為標簽預測序列,我們假設給定序列X,設序列標注結(jié)果為y,則定義分數(shù)為:

其中,P是BiLSTM 模塊隱層輸出經(jīng)線性操作后得到的初試得分矩陣,A是轉(zhuǎn)換得分矩陣。Ai,j為標簽i后面的標簽為標簽j的概率,Pi,j為詞Wi映射到標簽j的概率。對輸入序列X對應的輸出標簽序列y計算分數(shù),最終的預測標簽序列為得分最高的序列。

1.3 BiLSTM-CRF

本文的BiLSTM-CRF 網(wǎng)絡結(jié)構(gòu)如圖3 所示,該網(wǎng)絡結(jié)構(gòu)由BiLSTM 和CRF 兩部分組成。首先,查找輸入文本序列中每個字符對應的字符向量,將查找得到的字符向量序列作為模型中BiLSTM 模塊的輸入,分別通過該模塊前向LSTM 及后向LSTM 得到字符向量的隱層編碼表示,然后通過CRF 層為每個字符分配標記,計算初試得分和轉(zhuǎn)換得分兩類分數(shù),最終輸出的標記序列為總分最高的序列。

2 實驗準備與實驗結(jié)果

2.1 數(shù)據(jù)集準備

本文實驗數(shù)據(jù)集來自從裁判文書網(wǎng)上下載的1000份裁判文書,主要包括減刑案件、假釋案件以及暫予監(jiān)外案件三種案件的裁判文書,我們將其中600 份裁判文書作為訓練集,200 份作為驗證集,200 份作為測試集。首先,將1000 份裁判文書規(guī)范格式,去掉空格,然后在法學專家的幫助下利用語料標注工具YDEEA 將裁判文書標記為BIO 字標簽形式作為模型的輸入。在本文中,我們定義了5 類實體類別(姓名,地點,司法單位,案卷編號,犯罪類型)以及11 類字標簽,如表1所示。

表1 BIO 字標簽類別

2.2 實驗環(huán)境

本文基于NVIDIA 1080TI 顯卡及CUDA 9.0 提供的GPU 運算支持實現(xiàn)了對BiLSTM-CRF 網(wǎng)絡模型的訓練及測試。本文設計實現(xiàn)的司法實體識別系統(tǒng)基于Python 程序設計語言開發(fā),神經(jīng)網(wǎng)絡模型的開源工具使用的是TensorFlow 框架。

2.3 實驗參數(shù)設置

實驗中使用的超參數(shù)設置如表2 所示。其中,詞向量維度設置為200,最大序列長度設置為300,epoch設置為300,Batch_size 設置為16,dropout 設置為0.5,learning rate 設置為0.001。

表2 訓練BiLSTM-CRF 模型參數(shù)設置

2.4 對比實驗與評價指標

為了本文的模型進行評估,在本文中采用準確率(precision),召回率(recall)以及F1 值(F-measure)作為評價指標。評價指標的計算公式如下所示:

在實驗中,我們采用目前主流的優(yōu)化器自適應矩估計(Adam)優(yōu)化實驗結(jié)果。Adam 具有計算不同參數(shù)的自適應學習率的能力,以及低內(nèi)存需求和高計算效率,適用于較大規(guī)模的數(shù)據(jù)集。為了驗證Adam 優(yōu)化器的效果,我們在對比實驗中采用GD,RMS prop 優(yōu)化器分別對模型進行優(yōu)化,比較不同優(yōu)化器對實驗結(jié)果的影響。

門循環(huán)單元(GRU)[21]是LSTM 的變體。GRU 中只有更新門(獲取序列中長距離依賴關系)和重置門(獲取序列中短距離依賴關系)。本文為了體現(xiàn)BiLSTM 在特定司法文本數(shù)據(jù)集上的效果,對比實驗將BiLSTM 模塊替換為GRU 模塊,對網(wǎng)絡重新訓練。

2.5 實驗結(jié)果

在基于BiLSTM-CRF 的網(wǎng)絡模型上訓練數(shù)據(jù)集,準確率,召回率以及F1 值等幾項評價指標都取得了比較好的結(jié)果,其中準確率為0.876,召回率為0.858,F(xiàn)1值為0.855。如表3 所示,使用Adam 優(yōu)化器相較于其他優(yōu)化器取得了更好的實驗結(jié)果,準確率、召回率及F1 值都明顯高于其他優(yōu)化器。

表3 不同優(yōu)化器在數(shù)據(jù)集下的評價指標比較

根據(jù)表4,模型中使用BiLSTM 模塊比使用GRU模塊,準確率提升了0.038,召回率提升了0.06,F(xiàn)1 值提升了0.028。對比實驗表明在司法文本數(shù)據(jù)集上,采用BiLSTM 來輸出標簽序列可以獲得更好的實體識別效果。

表4 不同模型在數(shù)據(jù)集下的評價指標比較

本文對減刑、假釋以及暫予監(jiān)外的裁判文書中的姓名、地點、司法單位、案卷編號、犯罪類型等5 類實體進行識別。表5 比較了裁判文書中不同實體類型的識別效果,結(jié)果顯示案卷編號的幾項評價指標比較低,這可能是由于案卷編號的描述比較復雜,既有數(shù)字、文字,有的可能還含有括號,比較難找到一種通用的規(guī)則。

表5 不同實體的評價指標比較

3 結(jié)語

本文設計實現(xiàn)了基于BiLSTM-CRF 的司法領域?qū)嶓w識別系統(tǒng),該系統(tǒng)能識別出減刑案件,假釋案件及暫予監(jiān)外案件的裁判文書中的姓名,司法單位,地點,案卷編號,犯罪類型等實體,在各項評價指標上都取得了比較好的結(jié)果,為實現(xiàn)司法信息自動化,研究司法事件抽取,構(gòu)建司法領域知識圖譜打下了基礎。

另外,該系統(tǒng)也存在一些待改進的地方,例如可以通過增加語料,實現(xiàn)更多司法實體類別例如法條等的識別。還可以通過細分實體類別來獲得更準確的實體識別結(jié)果。因此下一步計劃采用通用數(shù)據(jù)集與司法領域數(shù)據(jù)集相結(jié)合的方式擴充數(shù)據(jù)集,以期提高實體識別效果和識別更多在司法領域中比較關鍵的實體。

猜你喜歡
優(yōu)化實驗模型
一半模型
記一次有趣的實驗
超限高層建筑結(jié)構(gòu)設計與優(yōu)化思考
民用建筑防煙排煙設計優(yōu)化探討
關于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产免费一级精品视频| 欧美一级专区免费大片| 国内精品视频在线| 久久青草热| 999福利激情视频| 麻豆国产原创视频在线播放| 青青青国产视频手机| 日本国产在线| 欧美成人日韩| 欧美另类视频一区二区三区| 久青草免费在线视频| 久久久久亚洲AV成人人电影软件| 91精品在线视频观看| 91免费观看视频| 精品国产毛片| 亚洲美女一级毛片| 丁香六月激情综合| 亚洲第一视频免费在线| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲欧美综合另类图片小说区| 成人av专区精品无码国产| 久久黄色一级片| 欧美成人免费午夜全| 成人福利在线视频| 秋霞午夜国产精品成人片| 免费国产不卡午夜福在线观看| 精品乱码久久久久久久| 国产第二十一页| 91最新精品视频发布页| 国产视频 第一页| 国产成人在线无码免费视频| 国产AV无码专区亚洲A∨毛片| 欧美一级专区免费大片| 国产精品国产三级国产专业不| 国产一区在线视频观看| 日本黄色a视频| 激情国产精品一区| a级毛片毛片免费观看久潮| 午夜不卡福利| 国产精品视频3p| 一级毛片网| 国产小视频在线高清播放| 国产一区二区丝袜高跟鞋| 国产一区成人| 伊人91在线| 久久亚洲国产最新网站| 国产乱子精品一区二区在线观看| 国产一级二级三级毛片| 久久精品中文无码资源站| 亚洲精品午夜无码电影网| 亚洲h视频在线| 波多野结衣在线se| 人人澡人人爽欧美一区| 欧美午夜一区| a级毛片视频免费观看| 国产成人亚洲精品蜜芽影院| 国产精品久久久久久影院| 亚洲国产成人无码AV在线影院L | 亚洲国产高清精品线久久| 精品中文字幕一区在线| 五月婷婷丁香色| 69国产精品视频免费| 日本福利视频网站| 伊人成人在线| 国产一级毛片在线| 日韩成人免费网站| 国产电话自拍伊人| 高清亚洲欧美在线看| 国产熟睡乱子伦视频网站| 国产在线自在拍91精品黑人| 91福利免费视频| av一区二区无码在线| 日韩欧美中文在线| 国产91小视频在线观看| 国语少妇高潮| 色综合天天综合中文网| 国产精品视频3p| 天堂在线视频精品| 成人国产精品2021| 久久精品国产精品一区二区| 99久久国产精品无码| 91av国产在线|