999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義驅動的司法文檔學習分類方法

2019-08-27 02:26:02馬建剛馬應龍
計算機應用 2019年6期

馬建剛 馬應龍

摘 要:基于海量的司法文書進行的高效司法文檔分類有助于目前的司法智能化應用,如類案推送、文書檢索、判決預測和量刑輔助等。面向通用領域的文本分類方法因沒有考慮司法領域文本的復雜結構和知識語義,導致司法文本分類的效能很低。針對該問題提出了一種語義驅動的方法來學習和分類司法文書。首先,提出并構建了面向司法領域的領域知識模型以清晰表達文檔級語義;然后,基于該模型對司法文檔進行相應的領域知識抽取;最后,利用圖長短期記憶模型(Graph LSTM)對司法文書進行訓練和分類。實驗結果表明該方法在準確率和召回率方面明顯優于常用的長短期記憶(LSTM)模型、多類別邏輯回歸和支持向量機等方法。

關鍵詞:司法大數據;領域知識模型;文本分類;智慧檢務;圖長短期記憶模型

中圖分類號: TP309

文獻標志碼:A

Abstract: Efficient document classification techniques based on large-scale judicial documents are crucial to current judicial intelligent application, such as similar case pushing, legal document retrieval, judgment prediction and sentencing assistance. The general-domain-oriented document classification methods are lack of efficiency because they do not consider the complex structure and knowledge semantics of judicial documents. To solve this problem, a semantic-driven method was proposed to learn and classify judicial documents. Firstly, a domain knowledge model oriented to judicial domain was proposed and constructed to express the document-level semantics clearly. Then, domain knowledge was extracted from the judicial documents based on the model. Finally, the judicial documents were trained and classified by using Graph Long Short-Term Memory (Graph LSTM) model. The experimental results show that, the proposed method is superior to Long Short-Term Memory (LSTM) model, Multinomial Logistic Regression (MLR) and Support Vector Machine (SVM) in accuracy and recall.

Key words: judicial big data; domain knowledge model; text categorization; smart procuratorate; Graph Long Short-Term Memory (Graph LSTM) model

0 引言

司法機關通過多年的信息化建設應用已經積累了海量的司法文書,如最高檢察院檢察信息公開網2016年一年就發布起訴書779478份,最高法院的中國裁判文書網已發布判決書4677萬份(截止2018年6月),為開展司法智能化建設應用(如智慧法院、智慧檢務[1])提供了數據基礎。基于海量的司法文書進行高效的司法文檔分類對目前的司法智能化應用極富價值,如類案推送、文書檢索、判決預測和量刑輔助等。

由于司法文檔本身的復雜結構司法文檔分類是一項具有挑戰性的任務[2]。文本自動分類在自然語言處理領域是經典的問題。常用的傳統文本分類方法有詞頻逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)[3]、詞袋(Bag Of Words, BOW)模型[4]、向量空間模型(Vector Space Model, VSM)[5]、LDA (Latent Dirichlet Allocation)主題模型[6]等;然而,這些方法往往由于其文本表示通常是高維度高稀疏而導致特征表達能力很弱,針對司法文本的分類結果并不理想。許多研究基于機器學習方法的分類器來分類司法文檔[7-8],如K最近鄰(K-Nearest Neighbors, KNN)、支持向量機(Support Vector Machine, SVM)[9-10]、最大熵[11]、決策樹[12]等。

面向司法領域的文本分類方法需要考慮特定司法領域文本的復雜結構和知識語義以提高司法文本分類的效能[13]。司法文書的文本分類應用對分類準確率有著極高的要求,且司法領域文本數量大、文本結構復雜。馬建剛等[14]結合司法文檔語義背景知識提出了一種基于知識塊摘要和詞轉移距離的高效司法文檔分類方法,針對詞轉移距離模型在處理短文本時具有更好效能的特點,抽取司法文檔的核心知識塊摘要,進而將針對司法文檔的分類轉換成針對司法文檔知識塊摘要的分類,提高了分類的效能;然而,文獻[14]中對于確定從司法文檔所抽取的知識塊摘要中哪些屬于對分類至關重要的核心知識塊摘要還需要領域專家人工干預和確認,在一定程度上降低了司法文檔分類的自動化程度、增加了相應的人工成本開銷。

針對上述問題,本文提出了一種語義驅動的深度學習方法來進行司法文本分類。首先,針對具體司法領域構建對應的司法領域知識本體以清晰表達文檔級語義;然后,基于領域本體檢測司法文檔中是否存在與領域知識本體中的術語對應或相似的知識信息,為每一個司法文檔生成對應的向量模型;接著,利用圖長短期記憶(Graph Long Short-Term Memory, Graph LSTM)模型[15]對司法文書進行訓練和分類;最后,通過實驗驗證了所提方法的有效性。實驗結果表明,該方法要顯著優于常用的長短期記憶模型、多類別的邏輯回歸模型和支持向量機方法。本文方法與文獻[14]方法雖然都利用了領域背景知識,但處理方法上有以下不同:1)本文方法利用領域本體生成司法文檔對應的向量表示而不用獲取知識塊摘要;2)在領域知識本體構建后,本文方法的司法文檔分類后續過程皆可以自動化進行,無需領域專家進一步人工干預;最后,本文方法利用Graph LSTM深度學習模型進行司法文檔自動化分類。

1 司法文書領域知識模型

一個司法文書包含大量信息,但文檔中不同部分的信息對分析司法文檔的價值是不一樣的。因此,構造一個司法文書領域的知識模型對分析司法文書有很大幫助。基于犯罪構成理論構建司法文書領域知識模型,模型包含犯罪構成的四要件,即:主體、客體、主觀方面、客觀方面。客觀方面又包括危害行為和危害結果,同時還包括文書基本信息(如文號)和判決結果信息。本文以交通肇事罪為例建立了司法文書領域知識模型(Legal Document Model, LDM),如圖1所示。交通肇事罪的判決書主要包括文檔基本信息、主體、客觀方面、判決結果等部分。其中文檔基本信息包括判決書文號、審判機關、公訴機關、審判員和審判日期等信息。主體和客觀方面這兩個概念來自刑法中的犯罪構成要件。主體指被告人的信息,包括姓名、職業、年齡、出生日期、是否有前科、是否累犯等信息。交通肇事罪的客觀方面會涉及機動車輛類型、危害行為和危害結果等,危害行為包括醉酒駕駛、追逐競駛等,危害結果則包括人員傷亡、財產損失等。交通肇事罪的判決結果的主刑包括拘役、有期徒刑等。

2 基于LDM的司法文書自動化知識抽取

自動化知識抽取包括兩部分:一是抽取出客觀方面部分,這部分內容主要決定了案件的判決結果。二是抽取出司法文書中的判決結果部分,并標準化判決結果,依此為司法文書分類,獲得可供實驗用的帶標簽的數據集。對每一個司法文書,使用一個可擴展標記語言(eXtensible Markup Language, XML)文件來保存抽取得到的知識,XML文件的樹結構取自于LDM的結構,并與之完全相同。XML文件中的各元素所存儲的正是一個司法文書中與LDM的各節點相關的信息,如在圖1所示的LDM中,客觀方面分支下存有一個酒駕節點,若在一個判決書中檢測到犯罪嫌疑人存在酒駕行為,那么在與該判決書對應的XML文件中代表酒駕的元素的值將被設置為1;若未檢測到,將被設置為0。

本文采用基于詞語相似度匹配和規則的方法來抽取客觀方面部分的知識。需要抽取的知識由LDM確定,不同罪名對應的LDM不同。從圖1所示的LDM中可以看到,客觀方面中存在兩種需要抽取的知識:一是定性的知識,如酒駕、追逐競駛,只有兩種結果,在XML文件中用0代表沒有,用1代表有;二是定量的知識,如死亡人數、重傷人數,這種知識需要提取具體的數字。對于定性的知識,首先將判決書分詞,然后使用編輯距離判斷判決書中的各詞與代表待抽取知識的詞是否相似,若檢測到存在這樣一個相似的詞,則將XML文件中該元素的值設置為1,否則為0。編輯距離是一種計算詞語相似度的算法,計算式如下:

例如在抽取酒駕時,如果判決書中存在“喝酒”“酒駕”“醉酒駕駛”等詞語時,那么通過編輯距離就能將這些詞語判定為酒駕的相似詞,就能判定犯罪嫌疑人存在酒駕行為,并在XML文件中將對應元素的值設置為1,這種做法,也是基于判決書中可能存在的用詞不規范以及自然語言的多樣性考慮的。對于定量的知識,則采用基于規則的方法抽取,如死亡人數,會利用“死亡*人”這一規則在判決書中尋找符合的句子,其中“*”代表死亡人數,若能找到,則將“*”的值填入XML文件的元素中;若無法找到,則填入0,代表無人死亡。

同樣的,本文采用基于規則的方法抽取審判結果。在司法文檔中,審判結果具有固定的用語和結構,即被告人+姓名+犯+罪名+判處+判決結果。利用這個規則,很容易就能提取出判決結果。本文所抽取的審判結果主要是主刑部分,這樣就能得到形如“有期徒刑五年六個月”的判決結果部分。這里的“五年六個月”中的五和六在文檔中是漢字而不是阿拉伯數字,審判結果的標準化指的是將漢字轉化為阿拉伯數字,同時將月轉換為年,即將“五年六個月”轉化為5.5年。這樣做是為了方便根據刑期對司法文檔進行分類。

對于一個保存了抽取所得知識的XML文件來說,可以很容易地使用一個向量來表示整個XML的重要信息,如XML中含有n個元素,那么可以用一個n維的向量來代表這個XML文件,向量的每一個分量表示XML文件的一個元素值。這個向量可以被認為是保存了一個判決書的關鍵特征,基于此向量,可以作進一步的研究,如分類、聚類等。這種做法簡單明了,不足的是會丟失XML的結構信息。

3 基于Graph LSTM的司法文書分類

3.1 LSTM模型

LSTM是一種循環神經網絡(Recurrent Neural Network, RNN)的變體,主要用于序列建模,其使用門機制處理信息,解決了RNN學習過程中的梯度消失問題,從而有效地學習到長距離依賴信息。在LSTM網絡內部,存在三種門:輸入門、遺忘門和輸出門。此外,相較于普通RNN模型,LSTM內部除了狀態h之外還有單元狀態c。LSTM用兩個門來控制單元狀態c的內容:一個是遺忘門,它決定了上一時刻的單元狀態ct-1有多少保留到當前時刻ct;另一個是輸入門,它決定了當前時刻網絡的輸入xt有多少保存到單元狀態ct。LSTM用輸出門來控制單元狀態ct有多少輸出到LSTM的當前的輸出值ht。遺忘門公式為:

3.2 基于Graph LSTM的司法文書表示和分類

3.2.1 Graph LSTM

Graph LSTM是一種使用LSTM對圖類型的數據進行編碼的方式,通常來說這里的圖指的是有向無環圖,對于無向圖和帶環的圖,可以通過拆分的方法將其轉換為有向無環圖。在Graph LSTM中,一個節點的向量表示是通過其子節點的向量表示學習得來的,具體而言,若一個節點q擁有n個子節點,則將這n個子節點視為一個序列,然后通過LSTM進行序列建模,即將n個子節點的向量表示輸入到一個LSTM中,最終LSTM的輸出即為q的向量表示。對圖中所有節點做如此遞歸的操作,最終可得到整個圖的向量表示。除無子節點的節點之外,每個節點都有一個與之相對應的LSTM,即不同節點的LSTM參數不共享。

3.2.2 司法文書表示和分類

對一份判決書進行基于LDM的自動化知識抽取后可以得到一個XML文件。以圖1所示的交通肇事罪為例,得到的XML文件包括兩部分:一是客觀方面部分;二是審判結果部分。其中:客觀方面部分經過Graph LSTM處理,得到一個向量表示,被認為是判決書所描述案情的高級特征;審判結果部分中主刑的刑期,則被用來當作分類的標準,即分類結果。希望本文的模型能對一個判決書中的案情,也就是案件的客觀方面部分進行分類,得出相應的結果,即刑期。

圖2展示了Graph LSTM對XML信息處理的部分內容,生成的XML文件是樹結構,樹是一種簡單意義上的圖,所以也可使用Graph LSTM對其處理。圖中空心小圓代表葉子節點,XML中屬于同一個父節點的葉子節點組成了一組序列信息,將這組序列信息輸入到一個LSTM中,即可得到其父節點的表示,如圖2中,h人員傷亡代表“人員傷亡”節點的表示,是由“死亡人數”“重傷人數”節點的信息經由一個LSTM生成的,而“人員傷亡”“財產損失”等節點的表示又能生成節點“危害結果”的表示,按這種方式即可遞歸地得到客觀方面的表示,即h客觀方面,最后即可通過softmax層完成分類,目標函數是負對數似然函數。

對于一個未經審判的案件,給出其情節,也就是判決書的客觀方面部分,訓練好的模型可以對其自動分類,即給出其刑期,或者推送類似情節的已判決案件,以供司法人員參考,具體分類過程如圖3所示。其中多層感知機(Multi-Layer Perceptron, MLP)是為了增強模型的特征表達能力。

4 實驗驗證與分析

4.1 數據集

實驗所用數據集為交通肇事罪判決書,來源于中國裁判文書網(http://wenshu.court.gov.cn/),共10000份,使用其中的80%作為訓練集,10%作為驗證集,10%作為測試集,數據集的劃分是通過隨機選擇實現的。如前文所說,根據判決結果中主刑的刑期進行分類,具體而言,根據最高人民法院《關于審理交通肇事刑事案件具體應用法律若干問題的解釋》中的規定將其刑期劃分為4個區間,即:0到6個月,6個月以上到3年,3年以上到7年,以及7年以上。

4.2 對比的算法

將本文提出的LDM+Graph LSTM模型與多個算法進行了比較,包括傳統的機器學習方法和基于深度學習的算法,傳統方法有多類別邏輯回歸(Multinomial Logistic Regression, MLR)和SVM,深度學習方法有普通的LSTM。

4.2.1? 多類別邏輯回歸

多類別的邏輯回歸無法處理圖數據結構,一種方法是使用一個n維向量(n-vector)作為特征,該向量來自于經知識提取之后得到的XML文件,具體可見第2章節所述。在本實驗中,根據交通肇事罪的LDM,n取30。另一種方法是使用經典的TF-IDF方法,對于一篇判決書,首先去除審判結果部分,然后將剩余文本的TF-IDF向量作為特征輸入到多類別邏輯回歸中。

4.2.2 SVM

與多類別邏輯回歸相同,基于SVM的方法的輸入也是兩種,即n維向量和TF-IDF向量。

4.2.3 普通LSTM

普通LSTM對去掉審判結果之后的剩余文本進行序列建模。首先,對文本進行分詞等預處理,得到一組詞;然后,將所有詞按順序輸入到一個LSTM中,得到文本的向量表示,繼而通過SoftMax函數進行分類。詞由詞向量表示,詞向量使用的是Word2Vec,在整個數據集上訓練得到,維度為200。

4.3 模型參數和訓練

使用JIEBA[16]分詞作為分詞工具,在實驗中,Graph LSTM中各LSTM的隱藏層單元數設置為50,并且使用帶動量的隨機梯度下降法優化目標函數,批處理的大小為64,學習率設為0.01,動量大小為0.9。

4.4 結果分析

實驗中使用準確率、召回率和F值作為指標衡量分類效果,其中,F值為準確率和召回率的調和平均值,F值= 準確率*召回率*2/(準確率+召回率)。在各數據集上不同方法的實驗結果如表1所示,表中的Graph LSTM代表本文使用的基于LDM和Graph LSTM的模型。實驗結果表明,相較其他方法,本文的模型在準確率和召回率上都得到了最好的結果。

對于基于傳統機器學習的文本分類方法來說,影響分類效果的因素除了分類方法之外,特征的選擇也是很重要的。從表1中可以看到,對于多類別的邏輯回歸和SVM這兩種方法,使用經過基于LDM的知識提取得到的n維向量作為特征比使用TF-IDF特征能顯著地提高分類效果,這證明了經知識提取之后的特征能有效地表達案件情節。

本文模型的分類效果相較于上述使用了n維向量作為特征的兩種方法也有很大提升,原因是經過提取所得的知識具有特定結構,而n維向量丟失了這種結構信息,但Graph LSTM能較好地考慮結構信息,因此其分類效果更好。

本文還通過實驗探索了數據集的規模大小對Graph LSTM分類效果的影響,并與傳統機器學習方法對比,結果如圖4所示。由圖4可以看出,在樣本數量較少的情況下,Graph LSTM受限于數據集規模,分類效果不如傳統的機器學習方法;當逐漸增大數據集規模后,Graph LSTM的分類效果迅速提升,在數據集規模達到6000份之后,分類效果不再提升,這也是深度學習模型的常見現象。而SVM的分類效果始終變化不大,也就是說,SVM對數據集規模并不敏感。

5 結語

本文針對司法文書的相似性分析、實現類案推送為司法人員提供智能輔助辦案服務的應用場景,提出了一種語義驅動的司法文檔學習分類方法。該方法使用司法領域知識構建了基于領域知識的模型LDM;基于LDM使用結合詞語相似度和規則的自動化方法從原始司法文件中提取結構化的知識,并保存到XML文件中;將抽取得到的知識作為原始文本的高級語義特征,并使用Graph LSTM進行分類,相比傳統分類方法,顯著地提高了分類的效果。

參考文獻 (References)

[1] 馬建剛.檢察實務中的大數據[M].北京:中國檢察出版社,2017:17-23.(MA J G. Procuratorial Big Data [M]. Beijing: China Procurational Press, 2017: 17-23.)

[2] BOELLA G, CARO L D, HUMPHREYS L, et al. Eunomos, a legal document and knowledge management system for the Web to provide relevant, reliable and up-to-date information on the law [J]. Artificial Intelligence and Law, 2016, 24(3): 245-283.

[3] JING L P, HUANG H K, SHI H B. Improved feature selection approach TF-IDF in text mining [C]// Proceedings of the 2003 International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE, 2003: 944-946.

[4] GALGANI F, COMPTON P, HOFFMANN A. LEXA: building knowledge bases for automatic legal citation classification [J]. Expert Systems with Applications, 2015, 42(17/18): 6391-6407.

[5] HAMMOUDA K M, KAMEL M S. Phrase-based document similarity based on an index graph model [C]// Proceedings of the 2002 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2002: 203-210.

[6] BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.

[7] ROITBLAT H L, KERSHAW A, OOT P. Document categorization in legal electronic discovery: computer classification vs. manual review [J]. Journal of the American Society for Information Science and Technology, 2010, 61(1):70-80.

[8] NOORTWIJK K V, NOORTWIJK K C. Automatic document classification in integrated legal content collections [C]// ICAIL 2017: Proceedings of the 16th International Conference on Artificial Intelligence and Law. New York: ACM, 2017: 129-134.查不到

[9] SULEA O, ZAMPIERI M, MALMASI S, et al. Exploring the use of text classification in the legal domain [C]// ASAIL 2017: Proceedings of the Second Workshop on Automated Detection, Extraction and Analysis of Semantic Information in Legal Texts. New York: ACM, 2017: 419-424. https://arxiv.org/pdf/1710.09306.pdf. 查不到

[10] SARIC F, DALBELO BASIC B, MOENS M F, et al. Multi-label classification of croatian legal documents using EuroVoc thesaurus [C]// SPLeT 2014: Proceedings of the 2014 Workshop on Semantic Processing of Legal Texts. Reykjavik: European Language Resources Association, 2014: 716-723.

[11] BAJWA I S, KARIM F, NAEEM M A, et al. A semi supervised approach for catchphrase classification in legal text documents [J]. Journal of Computers, 2017, 12(5): 451-461.

[12] SILVESTRO L D, SPAMPINATO D, TORRISI A. Automatic classification of legal textual documents using C4.5 [EB/OL]. [2018-10-15]. Catania: ITTIG:1-8. http://www.ittig.cnr.it/Ricerca/Testi/Spampinato-Di_Silvestro-Torrisi2009.pdf.

[13] NALLAPATI R, MANNING C D. Legal docket-entry classifica-tion: where machine learning stumbles [C]// EMNLP 2008: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 438-446.

[14] 馬建剛,張鵬,馬應龍.基于知識塊摘要和詞轉移距離的高效司法文檔分類[J].計算機應用,2019,39(5):1293-1298.(MA J G, ZHANG P, MA Y L. Efficient judicial document classification based on knowledge block summarization and word movers distance [J]. Journal of Computer Applications, 2019, 39(5):1293-1298.)

[15] PENG N, POON H, QUIRK C, et al. Cross-sentence n-ary relation extraction with graph LSTMs [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 101-115.

[16] SUN J J. Jieba Chinese word segmentation tool [EB/OL]. [2018-10-15]. https://github.com/fxsjy/jieba.

主站蜘蛛池模板: 亚洲第一中文字幕| 欧美日韩精品在线播放| 成人欧美在线观看| 无码一区二区波多野结衣播放搜索 | 日韩在线播放欧美字幕| 一级一级特黄女人精品毛片| 韩日无码在线不卡| 国产一在线| 中国一级特黄大片在线观看| 污网站在线观看视频| 欧美一区福利| 亚洲精品第一在线观看视频| 欧美午夜视频在线| 国产成人精品一区二区不卡| 亚洲久悠悠色悠在线播放| 久久99精品久久久大学生| 高清无码不卡视频| 在线观看91香蕉国产免费| 精品第一国产综合精品Aⅴ| 55夜色66夜色国产精品视频| 黄色网在线| 久久免费成人| 999精品视频在线| 视频二区亚洲精品| 日韩国产综合精选| 国产精品亚洲综合久久小说| 亚洲日本中文字幕乱码中文 | 伊伊人成亚洲综合人网7777| 亚洲婷婷丁香| 亚洲国产天堂久久综合| 欧美色综合网站| 蜜臀AV在线播放| 亚洲va在线观看| 欧美97色| 亚洲永久色| 国产精品欧美激情| 丰满的少妇人妻无码区| av一区二区三区在线观看| 亚洲无码视频一区二区三区| 色噜噜综合网| 精品国产一区91在线| 沈阳少妇高潮在线| 亚洲欧美精品一中文字幕| 国产高清免费午夜在线视频| 久久精品一卡日本电影| 五月天在线网站| 久久综合伊人 六十路| 欧美午夜小视频| 香蕉视频国产精品人| 成人韩免费网站| 国产你懂得| 日本午夜精品一本在线观看| 91亚洲精品第一| 麻豆国产在线不卡一区二区| 亚洲国产成人在线| 亚洲不卡网| 国产精品第一区| 视频二区亚洲精品| 91美女视频在线| 国产极品美女在线| 少妇精品久久久一区二区三区| 国产xxxxx免费视频| 无码中文字幕加勒比高清| 精品三级在线| 99久久精品视香蕉蕉| 久久亚洲国产最新网站| 国产小视频在线高清播放 | 色综合日本| 久久青草视频| 精品三级网站| 九九视频在线免费观看| 天堂成人在线视频| 国产成人高精品免费视频| 97在线免费| 91精品国产丝袜| 国产欧美视频综合二区 | 中文字幕不卡免费高清视频| 中文字幕66页| 在线观看91精品国产剧情免费| 综合色区亚洲熟妇在线| 欧美国产综合视频| 精品亚洲国产成人AV|