999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語義處理的裁判文書分割系統

2018-03-29 08:20:00鄭少婉陸培民
網絡安全與數據管理 2018年2期
關鍵詞:語義模型

鄭少婉,陸培民

(福州大學 物理與信息工程學院,福建 福州 350002)

0 引言

現如今,各大法律數據庫內文書都達到了千萬份的數量級別,通過統計發現平均達到1 200萬余份。不管是制作文書還是文書的判決方面,每一篇文書至少需要一名律師進行代理以及一名法官參與制作。因此,這龐大的裁判文書庫中就蘊含著千萬人次的律師與法官的參與。

立法存有一定的滯后性,不同的法院、法官對案件裁判的準則、尺度都存在差異,因此人們對案件的檢索、案件分析和利用都變得困難。然而,對于剛入行的訴訟律師而言,通過搜索查找相似案例的方法,對案件進行分析以及對自身新案件進行策略制定、案件預判,都是至關重要的。對于不是訴訟律師的人來說,通過對案例的分析來了解當下的法律條文,可以避免公司運營、合同合約條款中存在的法律風險點。因此,對于法律案件的查找、分析、利用,不僅僅是法律人所需求的,也是當今很多人的需求。

通過以上需求,本文試圖在法律專業垂直領域構建面向自然語義處理的裁判文書分割系統,對裁判文書按字段進行分析。針對案件的分析,首先利用SVM分詞之后,通過同義詞分析等技術實現語句的含義分析,將文書分割為判決書信息、原告信息、被告信息、案由信息、案件事實、原告訴求、被告辯稱、證據信息、法院認定證據、法院觀點、法律依據、判決結果等字段,進而提升裁判文書的查找速度以及案例分析的效率。

1 系統總體設計

1.1 系統框架

圖1 系統框架

系統主要由后臺的Java端和前臺的Android端構成,兩端通過Socket進行通信。設計框圖如圖1所示,Android端輸入裁判文書,然后傳輸給Java服務端,Java服務端對收到的裁判文書首先按模型進行分詞、詞性標志等操作,再將分詞等處理之后的文書進行語義基礎上的分割。最后把處理得到的裁判文書結果傳輸給Android客戶端,客戶端將其顯示到文本框界面。

1.2 系統功能設計

將裁判文書分割系統設計成兩個部分,一部分為線下語料庫的分詞、詞性標志等訓練;另外一部分為線上的分析預測,即對分詞等預處理后的文書進行分割處理。如圖2所示,線下的語料庫訓練:通過爬蟲技術從裁判文書網上采集到裁判文書存于MySQL數據庫中,接著利用SVM、CRF等模型對文書進行中文分詞、詞性標志、依存句法分析等訓練;線上分析預測部分,將分詞、詞性標志、依存句法分析之后的裁判文書進行語義方面的處理,包括語句處理、關鍵詞提取、關鍵詞相似度計算等,最后將裁判文書進行斷句分割以及多個斷句多次分割,其分割信息存于MySQL中,或顯示在Android界面。

圖2 語料庫訓練模塊

上述系統中主要研究的是裁判文書通過自然語義理解的方法自動識別語句中的關鍵詞,如“被告”、“原告”、“原告訴求”、“原告依法提起訴訟”等。其中最為關鍵的是系統能在語義基礎上將“原告訴求”、“原告依法提起訴訟”等類似詞,在分割字段信息中進行同等處理,將其劃分為原告訴求字段。

2 系統模塊

2.1 裁判文書線下模塊

裁判文書線下模塊包含語料庫采集模塊和裁判文書訓練模塊。裁判文書語料庫模塊包括采集模塊和裁判文書語料抽取模塊[1]。其中采集模塊主要是從裁判文書網采集到盡可能多并且全面的中文裁判文書。裁判文書線下訓練模塊包括利用機器學習算法對裁判文書的句法成分進行分析以及結合傳統的匹配法則進行語義關鍵信息提取。

2.2 裁判文書線上分析模塊

語義理解是一種建立在詞向量基礎之上的相似度計算方法。它可以自動獲取一些特定領域的未登錄名詞的對應語義模式,通過相似度計算方法,解決在一些特定領域的未登錄詞的相似問題。 然而相似度計算最大的關鍵點正是詞向量的構建。因此,系統在法律專業領域上,首先利用Word2vec對裁判文書進行詞向量構建,接著再利用余弦方法進行相似度計算,最后得到相似度值。

Word2vec的思想也如神經網絡,它的結構為輸入層-隱層-輸出層的形式。Word2vec的關鍵部分是由Huffman編碼構成詞頻。在其作用下,一些詞頻相似的詞語的隱藏層激活的內容基本一致。當一些詞語出現的頻率越高時,它們激活的隱藏層數目會越少。因此通過Huffman編碼可以有效地降低計算的復雜度。Word2vec不僅對語言模型進行建模,也可將詞轉化成向量。對于普通詞語,如“過錯”和“過失”在詞語本身就只有一點點的差異,毋庸置疑將其定義為相似詞。而對于“飛單”和“銀行工作人員私自理財”這兩詞,單單按普通的匹配方式,它們差別很大,完全得不到相關性。而利用Word2vec的方法,從詞頻和詞向量的方式計算可知兩詞具有很高的相關性。因此,對于這種將單詞轉化成向量的數值計算方法,可以得到意想不到的結果。

Word2vec構建詞向量的方法包括“CBOW”和“Skip-gram”兩種語言模型[2]。單純地使用這兩個模型中的一個模型來說,它們利用了Softmax函數,將會使時間復雜度變大,計算代價變大,而且對于大批量的文書訓練,訓練時間較長。

系統結合Skip-gram模型和 Hierarchical Softmax來降低時間復雜度。具體其網絡結構如圖3所示。

圖3 Skip-gram 模型的結構示意圖

Skip-gram模型處理的是在已知當前詞W的基礎上,預測其上下文Context(w)的詞,則其語言模型的概率函數為:

(1)

其中,u表示w的上下文中的一個詞語。

(2)

(3)

3 系統整體性能評估

3.1 語料庫實現效果

裁判文書的分詞、詞性標注、依存句法分析的準確率是關鍵詞提取以及文書分割準確率的前提。因此本系統在分詞上采用了層疊HMM-viterbi模型對語料庫進行了命名實體分詞、未登錄名詞的訓練[3],詞性標志上采用了CRF模型進行訓練以及利用SVM模型進行依存句法分析訓練等操作。系統結合了這三者的訓練,對裁判文書進行結構以及語句上的分析訓練。此系統的分詞效果可由以下例子進行分析,例如:“北京莊勝房地產開發有限公司”通過此方法進行分詞時,結果如下:北京/ns, 莊勝/nz, 房地產/n, 開發/vn, 有限公司/nis,從這個分詞結果中可看到,嵌套的機構名中,對人名、地名都可識別出來。最后將系統的分詞、詞性標志以及依存句法分析的結果與哈工大的LTP進行對比,準確率比較如表1~表3所示。

表1 中文分詞準確率

表2 詞性標注準確率

表3 依存關系準確率

其中準確率計算由如下方法得出:

準確率=正確分詞(標志正確、依存關系分析正確)數目/實際進行分詞(詞性標志、依存關系)數目

3.2 分割效果

Android端輸入裁判文書如圖4所示。最初始輸入完整的裁判文書,經模型分詞、詞性標志等處理之后,再送由Word2vec將各分詞結果轉化成詞向量形式,進行各字段的信息的前后匹配、計算,得到分割結果。圖5展示了分割之后的法院判決的觀點和判決結果信息。

圖4 Android端輸入 圖5 分割效果

4 結束語

本文使用了自然語義處理技術來提取裁判文書的關鍵信息,從而對案例的查找、分析及使用起到關鍵的輔導作用。

在本系統中,核心問題在于裁判文書關鍵信息的提取部分,采用了基于Word2vec基礎上的自然語義處理技術來實現。利用Word2vec提取各字段中關鍵詞并進行邊界詞識別、各字段內容分割。訓練語料庫時,對47 000余條的裁判文書進行了封閉式的訓練,其訓練結果使分詞、詞性標志、依存關系的準確率都達到了98%以上。外部輸入文書的開放性測試,均達到了97%以上的準確率。

[1] 向李興.基于自然語義處理的裁判文書推薦系統設計與實現[D].南京:南京大學,2015.

[2] 李躍鵬,金翠,及俊川.基于word2vec的關鍵詞提取算法[J].科研信息化技術與應用,2015(4):54-59.

[3] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲 欧美 偷自乱 图片 | 九九热免费在线视频| 国产区在线观看视频| 在线观看无码av五月花| 国产97视频在线| 亚洲成人网在线播放| 99精品伊人久久久大香线蕉| 波多野结衣一区二区三视频| 国产欧美日韩18| 国产女人在线观看| 999精品免费视频| 高h视频在线| 高清色本在线www| 午夜免费小视频| 亚洲天堂网2014| 久久青草精品一区二区三区| 日韩国产亚洲一区二区在线观看| 久久一色本道亚洲| 日本欧美一二三区色视频| 国产精品yjizz视频网一二区| 亚洲无码视频一区二区三区| 亚洲不卡影院| 国产成人欧美| 国产精品极品美女自在线| 91极品美女高潮叫床在线观看| 全色黄大色大片免费久久老太| 91久久偷偷做嫩草影院电| 国产在线一区二区视频| 91视频99| 尤物视频一区| 国产精品毛片在线直播完整版| 2020精品极品国产色在线观看| 国产在线无码一区二区三区| 亚洲欧美国产视频| 97狠狠操| 亚洲无限乱码一二三四区| 欧美一级在线播放| 综合天天色| 国产乱子伦精品视频| 亚洲区一区| 日本三级精品| 国产91小视频| 午夜影院a级片| 亚洲视频二| 久久人搡人人玩人妻精品| 亚洲清纯自偷自拍另类专区| 日韩精品成人网页视频在线| 国产一级二级在线观看| 国产理论精品| 亚洲日韩精品无码专区97| 国产精品爆乳99久久| 国产91无毒不卡在线观看| 中文字幕在线看| 国产手机在线观看| 99999久久久久久亚洲| 波多野结衣无码视频在线观看| 国产精品一区二区在线播放| 亚欧乱色视频网站大全| 国产精品久久精品| 亚洲一区二区约美女探花| 国产呦视频免费视频在线观看| 日韩毛片免费观看| 人与鲁专区| 日韩精品一区二区三区中文无码 | 国产91蝌蚪窝| 亚洲自偷自拍另类小说| 成人va亚洲va欧美天堂| 欧美自拍另类欧美综合图区| 女人18一级毛片免费观看| 999精品色在线观看| 久热re国产手机在线观看| 91在线播放免费不卡无毒| 亚洲欧洲日产无码AV| 免费看久久精品99| 亚洲天堂网在线观看视频| 亚洲精品无码抽插日韩| 亚洲美女视频一区| 日本在线视频免费| 亚洲精品无码抽插日韩| 日韩精品一区二区三区swag| 欧美在线视频不卡第一页| 永久天堂网Av|