鄭少婉,陸培民
(福州大學 物理與信息工程學院,福建 福州 350002)
現如今,各大法律數據庫內文書都達到了千萬份的數量級別,通過統計發現平均達到1 200萬余份。不管是制作文書還是文書的判決方面,每一篇文書至少需要一名律師進行代理以及一名法官參與制作。因此,這龐大的裁判文書庫中就蘊含著千萬人次的律師與法官的參與。
立法存有一定的滯后性,不同的法院、法官對案件裁判的準則、尺度都存在差異,因此人們對案件的檢索、案件分析和利用都變得困難。然而,對于剛入行的訴訟律師而言,通過搜索查找相似案例的方法,對案件進行分析以及對自身新案件進行策略制定、案件預判,都是至關重要的。對于不是訴訟律師的人來說,通過對案例的分析來了解當下的法律條文,可以避免公司運營、合同合約條款中存在的法律風險點。因此,對于法律案件的查找、分析、利用,不僅僅是法律人所需求的,也是當今很多人的需求。
通過以上需求,本文試圖在法律專業垂直領域構建面向自然語義處理的裁判文書分割系統,對裁判文書按字段進行分析。針對案件的分析,首先利用SVM分詞之后,通過同義詞分析等技術實現語句的含義分析,將文書分割為判決書信息、原告信息、被告信息、案由信息、案件事實、原告訴求、被告辯稱、證據信息、法院認定證據、法院觀點、法律依據、判決結果等字段,進而提升裁判文書的查找速度以及案例分析的效率。

圖1 系統框架
系統主要由后臺的Java端和前臺的Android端構成,兩端通過Socket進行通信。設計框圖如圖1所示,Android端輸入裁判文書,然后傳輸給Java服務端,Java服務端對收到的裁判文書首先按模型進行分詞、詞性標志等操作,再將分詞等處理之后的文書進行語義基礎上的分割。最后把處理得到的裁判文書結果傳輸給Android客戶端,客戶端將其顯示到文本框界面。
將裁判文書分割系統設計成兩個部分,一部分為線下語料庫的分詞、詞性標志等訓練;另外一部分為線上的分析預測,即對分詞等預處理后的文書進行分割處理。如圖2所示,線下的語料庫訓練:通過爬蟲技術從裁判文書網上采集到裁判文書存于MySQL數據庫中,接著利用SVM、CRF等模型對文書進行中文分詞、詞性標志、依存句法分析等訓練;線上分析預測部分,將分詞、詞性標志、依存句法分析之后的裁判文書進行語義方面的處理,包括語句處理、關鍵詞提取、關鍵詞相似度計算等,最后將裁判文書進行斷句分割以及多個斷句多次分割,其分割信息存于MySQL中,或顯示在Android界面。

圖2 語料庫訓練模塊
上述系統中主要研究的是裁判文書通過自然語義理解的方法自動識別語句中的關鍵詞,如“被告”、“原告”、“原告訴求”、“原告依法提起訴訟”等。其中最為關鍵的是系統能在語義基礎上將“原告訴求”、“原告依法提起訴訟”等類似詞,在分割字段信息中進行同等處理,將其劃分為原告訴求字段。
裁判文書線下模塊包含語料庫采集模塊和裁判文書訓練模塊。裁判文書語料庫模塊包括采集模塊和裁判文書語料抽取模塊[1]。其中采集模塊主要是從裁判文書網采集到盡可能多并且全面的中文裁判文書。裁判文書線下訓練模塊包括利用機器學習算法對裁判文書的句法成分進行分析以及結合傳統的匹配法則進行語義關鍵信息提取。
語義理解是一種建立在詞向量基礎之上的相似度計算方法。它可以自動獲取一些特定領域的未登錄名詞的對應語義模式,通過相似度計算方法,解決在一些特定領域的未登錄詞的相似問題。 然而相似度計算最大的關鍵點正是詞向量的構建。因此,系統在法律專業領域上,首先利用Word2vec對裁判文書進行詞向量構建,接著再利用余弦方法進行相似度計算,最后得到相似度值。
Word2vec的思想也如神經網絡,它的結構為輸入層-隱層-輸出層的形式。Word2vec的關鍵部分是由Huffman編碼構成詞頻。在其作用下,一些詞頻相似的詞語的隱藏層激活的內容基本一致。當一些詞語出現的頻率越高時,它們激活的隱藏層數目會越少。因此通過Huffman編碼可以有效地降低計算的復雜度。Word2vec不僅對語言模型進行建模,也可將詞轉化成向量。對于普通詞語,如“過錯”和“過失”在詞語本身就只有一點點的差異,毋庸置疑將其定義為相似詞。而對于“飛單”和“銀行工作人員私自理財”這兩詞,單單按普通的匹配方式,它們差別很大,完全得不到相關性。而利用Word2vec的方法,從詞頻和詞向量的方式計算可知兩詞具有很高的相關性。因此,對于這種將單詞轉化成向量的數值計算方法,可以得到意想不到的結果。
Word2vec構建詞向量的方法包括“CBOW”和“Skip-gram”兩種語言模型[2]。單純地使用這兩個模型中的一個模型來說,它們利用了Softmax函數,將會使時間復雜度變大,計算代價變大,而且對于大批量的文書訓練,訓練時間較長。
系統結合Skip-gram模型和 Hierarchical Softmax來降低時間復雜度。具體其網絡結構如圖3所示。

圖3 Skip-gram 模型的結構示意圖
Skip-gram模型處理的是在已知當前詞W的基礎上,預測其上下文Context(w)的詞,則其語言模型的概率函數為:

(1)
其中,u表示w的上下文中的一個詞語。

(2)
(3)
裁判文書的分詞、詞性標注、依存句法分析的準確率是關鍵詞提取以及文書分割準確率的前提。因此本系統在分詞上采用了層疊HMM-viterbi模型對語料庫進行了命名實體分詞、未登錄名詞的訓練[3],詞性標志上采用了CRF模型進行訓練以及利用SVM模型進行依存句法分析訓練等操作。系統結合了這三者的訓練,對裁判文書進行結構以及語句上的分析訓練。此系統的分詞效果可由以下例子進行分析,例如:“北京莊勝房地產開發有限公司”通過此方法進行分詞時,結果如下:北京/ns, 莊勝/nz, 房地產/n, 開發/vn, 有限公司/nis,從這個分詞結果中可看到,嵌套的機構名中,對人名、地名都可識別出來。最后將系統的分詞、詞性標志以及依存句法分析的結果與哈工大的LTP進行對比,準確率比較如表1~表3所示。

表1 中文分詞準確率

表2 詞性標注準確率

表3 依存關系準確率
其中準確率計算由如下方法得出:
準確率=正確分詞(標志正確、依存關系分析正確)數目/實際進行分詞(詞性標志、依存關系)數目
Android端輸入裁判文書如圖4所示。最初始輸入完整的裁判文書,經模型分詞、詞性標志等處理之后,再送由Word2vec將各分詞結果轉化成詞向量形式,進行各字段的信息的前后匹配、計算,得到分割結果。圖5展示了分割之后的法院判決的觀點和判決結果信息。


圖4 Android端輸入 圖5 分割效果
本文使用了自然語義處理技術來提取裁判文書的關鍵信息,從而對案例的查找、分析及使用起到關鍵的輔導作用。
在本系統中,核心問題在于裁判文書關鍵信息的提取部分,采用了基于Word2vec基礎上的自然語義處理技術來實現。利用Word2vec提取各字段中關鍵詞并進行邊界詞識別、各字段內容分割。訓練語料庫時,對47 000余條的裁判文書進行了封閉式的訓練,其訓練結果使分詞、詞性標志、依存關系的準確率都達到了98%以上。外部輸入文書的開放性測試,均達到了97%以上的準確率。
[1] 向李興.基于自然語義處理的裁判文書推薦系統設計與實現[D].南京:南京大學,2015.
[2] 李躍鵬,金翠,及俊川.基于word2vec的關鍵詞提取算法[J].科研信息化技術與應用,2015(4):54-59.
[3] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.