法律自然語言處理技術的當前發展*

2019-12-14 06:00:45章華娟汪承昊

法制博覽 2019年36期

章華娟汪承昊

1.廣東省人民檢察院，廣東廣州 510623；2.北京大學，北京 100871

一、基礎：自然語言處理技術在智慧司法中的地位

(一)自然語言技術的基礎性角色

通俗來講，自然語言技術(NLP)完成的是這樣一個任務，即構建人機聯系的橋梁。更加學術規范的表達，則為“研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。①”這些方法具體包括中文分詞。詞性標注、詞匯語義、句法解析等等，目標是能夠將人的半結構化語言轉化為機器能夠處理的結構化信息。

法律領域作為人工智能應用的細分領域，離不開自然語言處理技術的基礎性作用，即當前國內產業界很流行的一句話“讓機器習得法律人的習慣”，在此基礎上自動閱卷、智能檢索，甚至炒作更為火熱的“機器裁判”等才可能有進一步的發展。

實際上，自然語言技術的起源要早于人工智能的興盛，在計算機誕生時就面臨如何解析人類語言的問題。當前解析的方法分支主要有兩個，稱之為規則派和統計派。規則派的基礎是語言學理論，采用的是規則形式描述或解釋歧義行為或歧義特征，它通過語言必須遵守的一系列原則來描述語言。此種方法下必須事先對大量的語言現象進行研究，歸納出一系列的語言規則。然后再形成一套復雜的規則集。而另一種方式則是以統計學為基礎，輸入的是一段文本和事先有的分類，通過有監督或無監督的分類器，給出文本歸屬于哪一類的概率，并在此基礎上可生成代表該類的一些特征詞。在人工智能領域，前一種更傾向于規則驅動，后一種更傾向于數據驅動。

這兩種方式，在當前的法律領域都有所適用，但適用的普遍性、受認可程度不盡相同，并且存在較多誤區，這些都是本文試圖加以厘清的問題。

(二)智慧司法的建設目標

近年來，各司法機關都意識到技術革新給工作帶來的意義，開始加強了信息化的投入，試圖通過辦案的信息化武裝，來提高工作效率、緩解案多人少的壓力。比如最高人民檢察院《“十三五”時期科技強檢規劃綱要》(下稱《規劃綱要》)，就明確了將來一段時期內檢察技術科技強檢的目標、任務，提出了構建智慧檢務、實現從數字化向智慧化躍升，強化司法辦案智能信息服務等重點任務②。再比如法院的信息化建設，在最新的“五五綱要”(第五個五年改革綱要)中，也以單獨一章篇幅論述了“智慧法院”的建設任務(這在前幾次改革綱要中，都是沒有過的重視程度)，其中提到推進智慧法院基礎設施建設、科技創新手段深度運用、電子訴訟覆蓋范圍、電子卷宗生成和歸檔機制、司法大數據管理和應用機制等五大方面發力，整體的任務就是要牢牢把握新一輪科技革命歷史機遇，充分運用大數據、云計算、人工智能等現代科技手段破解改革難題、提升司法效能，推動人民法院司法改革與智能化、信息化建設兩翼發力，為促進審判體系和審判能力現代化提供有力科技支撐③。

從技術發展和智慧司法所提出的目標兩相比較來看，建設任務和差距仍然是不小的。從技術角度來看，其中面臨幾大矛盾點，首先是面臨通用技術如何向法律領域特別技術發展，量身定做一套適合法律領域的技術系統；其次是當前的政府預算、購買者的應用場景能否與當前的技術發展匹配。

自然語言處理，作為智能化中必不可少的一環，同樣面臨上述困惑。典型比如自然語言技術，主要發源于西方國家，主要針對的是英語，移植到處理漢語就需要開發漢語的分詞、標注等詞庫、規則，這方面國內近年來有所發展，但仍然相對不足。其次，法律領域又因為追求表述的嚴謹性，有一套嚴密的法律概念體系，這些法言法語明顯地不同于日常用語，針對后者開發的自然語言技術在直接套用于前者時，效果難以保證。如此看，自然語言處理技術，就智慧司法的適用而言，主要是一個如何量身定做一套適合法律表述特點的技術解決方案。

二、分析：實踐的適用場景及障礙

(一)司法領域的特殊性

法言法語本身有其特殊性。首先表現為文書本身要求一定的體例格式，不論是基于規則的還是基于概率的方式，能夠準確定位所需要采集的信息在文本中精確的位置都是有利因素。兩種理解文本的方法有不同，前者是采取一行或一段式遍歷的方法提取滿足規則的信息，后者則是以分段、分詞，對文本加以理解。縮小遍歷或分詞的范圍，能夠顯著提升語言處理的效率和理解的精度。其次表現為法律語言多數實詞都是法律領域特有的詞匯和概念，典型比如民事上的“承諾”、“要約”，刑事中的各種罪名，這些都是有特定含義且在日常會話中使用頻率比較低的用詞，而且其中有些概念甚至是晦澀的、不能望文生義的。特有法律概念的存在，給自然語言處理制造了障礙，非有一定法律專業背景的標注員(主要指有監督學習下，機器學習需要)、沒有完整的法律詞匯庫，都會對最終的語言理解能力造成負面影響。

(二)主要的適用領域

智能檢索、類似推送是人工智能落地的主要細分領域。智能檢索和類案推送基于一定相似的場景，即根據客戶輸入的特定需求或者在辦案件的場景，推送用戶最需要的、和場景最貼近、最相似的案例。從技術上來看，和自然語言相關的主要三個步驟，分別是解析用戶請求的、查詢數據庫中的文本包括哪些，以及用戶請求同文本間的匹配④。首先是對已有的語料(如果是案例推送，就主要是以案例為單元的文本)要預處理，拆解成各功能部分(component)，并對各文本標注各種為滿足檢索需求用的標簽。其次是對檢索需求(類似推送和智能檢索只是主動、被動的區別，本質上都可以理解為是一種檢索)進行解析，同樣也需要拆解為段落、句子和詞語，并根據語義分析得出可能檢索意圖；最后是檢索意圖和數據庫標簽進行匹配⑤。兩個理解的匹配，都離不開自然語言的先期處理和即時處理的技術支撐，下面以一些案例說明自然語言處理的兩大方法，是如何融合期間發揮作用的。

任務一：法規的適時推送和檢索。任務的構造遵循上述的一般原理，即首先要對規則進行預處理，對功能、話題進行分類，國外的科研項目中比如把意大利的消費者權益保護法分為十二個等級，義務、禁止、權利和定義等四大功能⑥。在此期間，機器學習和NLP各有分工，前者主要是獲得了法規的功能性分類，后者則主要是提取了法規的特征詞(這些特征詞，可以作為發起的檢索，用于匹配標簽)。用戶在檢索法條時，多數情況下是模糊檢索，是基于案件事實的法條匹配需要產生的檢索，因此輸入的并不完全是具體哪部法律的哪一條(這其實也是某個文本的特征，不過這只是基本特征)，該任務已經在初級版本的法條檢索系統中實現了該功能。當前主要是如何理解模糊檢索背后，用戶的真正意圖方面缺乏有效辦法。司法領域用戶的特殊之處還在于，法律規定具有時效性，新舊法律之間存在變化，需要進行及時更新，避免推送陳舊信息。

任務二：裁判結果預測。這是人工智能在法律領域應用一直以來的熱點，也是學術、社會關注的重點方向。就預測的實現路徑來看，當前主要有兩種思路，一種是基于邏輯、規則的推理，一種則是基于統計的模型建構。從發展趨勢來看，更趨近于機器學習的后者更加受到開發者的青睞，市面上將此類產品稱為“量刑輔助產品”，主要就是通過測試，尋找出影響量刑的主要因素，并通過模型調試將因素和最終的量刑結果的輸出間構建起模型上的聯系。這一過程中同樣離不開自然語言處理的支持，國內的項目中自然語言處理的過程主要在研發階段完成，比如通過裁判文書的信息提取，就是人類語言向機器語言轉變的過程。但在用戶層面，呈現的直接是結構化數據的輸入界面。在國外的產品中，已經能夠實現一定程度的用戶層面即時的自然語言處理，smile+IBP系統就是其中的典型，用戶可以輸入一段文本來描述一個問題，smile系統將其拆解并表示為一組特征，并作分類，將分類結果傳至IBP系統中，由IBP系統實現預測輸出。該套系統實際上是兩個模型的嵌套，smile系統的任務是對自然語言解析，完成分類，并將分類的結果傳給IBP系統，由其完成系統的主任務(這是第二個分類器)。上述兩套系統的根本區別在于用戶輸入的是結構化的數據還是自然語言。

此外，還有一些自然語言技術的簡單應用，包括文書生成、文書屏蔽、文書校對等等，需要人工整理大量的文本規則，并且帶來一定的智能化體驗。在具體的業務場景中，自然語言技術的不同組合，能夠形成更好的支撐能力，比如綜合性的辦案平臺，集成知識檢索、統計、文書編寫、結果預測等等為一體，是司法信息化的發展方向。

自然語言技術的非結構化信息抽取能力，還帶來了新的智能化發展機會，能否采用文書數據，來分析特定犯罪案件犯罪嫌疑人的羈押風險？這是一個較為前沿的題目。

三、探索：羈押必要評估系統的嘗試

為借鑒自然語言處理技術國外的成熟經驗，并在法律領域作一定探索，研究中結合了工作的實際需要、當前的改革熱點，嘗試開發一套實際應用系統，并在其中嘗試改進自然語言處理的能力。

2.2兩組患者產后情況比較:產婦產后2小時血量、月經恢復情況、乳脹及泌乳、胎盤胎膜殘留結果顯示,兩組間差距較大,觀察組各項指標數據更優,兩組對比差異具備統計學意義,P<0.05。詳見表2。

本研究主要分析了刑事案件的庭前強制措施決定問題，學界和實務中都對該問題十分關注，尤其是對逮捕率太高、程序缺乏平等對抗、審查主體缺乏中立等問題詬病不少。審查機關對于是否逮捕也十分犯難，主要對犯罪嫌疑人的非羈押時人身危險性缺乏足夠證據，擔心無法保障追訴、產生社會危險是審查機關作出逮捕的重要原因之一。

本系統研發即在于挖掘影響是否逮捕的主要因素，并將其納入輸入指標中，在輸出中給出是否逮捕的建議，并提示不逮捕時的風險提示。基于本文主要討論自然語言處理的問題，重點闡釋其中的自然語言處理的問題。

(一)系統開發中主要的自然語言處理問題

在系統開發過程中，自然語言處理的主要任務是把自然語言句子這樣的非結構數據轉換為結構數據，然后再利用強大的查詢功能，如SQL實現最終匹配。上述過程稱之為信息提取⑦。

1.文書格式不統一，影響提取質量。本次系統開發主要采用的語料是已經公開的裁判文書，因此面臨自然語言處理的諸多問題。首先是文本的格式體例不統一，影響了提取的效率；其次是文書數據項的不直接呈現，有數據的二次處理需要；最后是文本中部分數據項的缺失，導致缺省值的出現，需要對此單獨處理。

2.數據項有不同特點，增加了自然語言處理的難度。在我們的輸入指標中，有類型數據、日期數據、連續數據，對不同數據的處理，適合不同的處理方式。

3.模型中的數據輸出，也存在不同的處理方式。采用不同的數據呈現方式，取決于客戶的需要。就本系統而言，就是要兼顧逮捕的預計取保風險、降低低風險案件的逮捕率兩大目標看，我們優化了輸出數據的輸出方式。

(二)主要的做法

1.循環改進規則。因為語料的結構不一致，表述多樣，我們采取了反復循環提煉規則，提高匹配效果。該部分我們吸納了大量具有法律學位背景的工程師參與工作，將各數據項在文書中的表現形式進行歸納。

2.將適合機器學習的類型，我們采用有監督學習的方式，多次嘗試文本分類的任務。有些任務適合機器學習的方式提取，典型的是一種語義型的、表述方式多元的分類任務，可以采取機器學習的方式，我們的任務中就有部分的數據指標，采取了此種方式。

3.對自然語言處理經驗的積累。積累的方法有兩種，一種是通過機器學習模型的方式固定，即通過規則提取的精確部分，可以作為有監督學習的人工標簽語料，用于訓練概率的模型；第二種是通過構建詞典的方式，將數據指標的文書表達用詞構建了字典，進行分類保存。在研發過程及后續升級中，該詞庫的形成將起到關鍵作用，可以提高自然語言分詞、識別的能力。

4.數據的輸入和輸出設計。從機器學習的思路看，輸入的指標都是反映案件信息的特征，原則上講數據指標越體系、全面，越能夠反映案件情況，所得出的輸出結果頁能夠更準確。但這也有一個悖論，這給輸入體系造成了負擔。基于準確性的考慮，本研究開發的系統主要以輸入結構化數據為主，過多的輸入項將給用戶造成負擔。因此輸入端的核心問題是如何對輸入指標做取舍，這部分體現了我們開發該系統的核心能力。輸出端的問題在于給出的建議傾向性程度如何把握，眾所周知機器學習的結果給出的只是概率，并由人調整閾值。因此，如何設計閾值，背后有系統研發者的刑事政策考慮，也有基于當前的逮捕現狀、目標的考慮，這部分離不開資深法律人的介入，也充分說明機器系統本身是為人所服務，由人所把控的輔助理念。

四、結語：依靠制度完善實現能力提升

在法律領域開展人工智能的開發應用，自然語言處理技術是關鍵點。原因主要是法律活動圍繞文書展開，以文本為載體的語料主要是書面的自然語言，這明顯有別于金融領域(圍繞價格，大量的結構化數據)，也不同于醫療領域(圖像是其重要的語料類型)。因此，法律領域適用人工智能的相關前沿技術，首要前提即是自然語言處理的任務。從當前看，有以下困難，造成進一步發展出現了不少的障礙：一是語料的范圍有限，且缺乏交叉驗證；法律人工智能之所以近年來在國內有所發展，得益于司法公開，尤其是裁判文書的公開。但在后續，其他一些司法文書公開并未有實質跟進，即使是在政法機關內部各家，公開程度也不一致；這造成了可以依據的主要是公開的裁判文書。但作為案件的事實信息而言，裁判文書能夠反映的十分有限，仍以羈押必要性的系統開發為例，是否具有人身危險性、逮捕必要性，需要結合案件、嫌疑人的全面信息綜合判斷，裁判文書中的案件信息多于個人信息，信息的缺失、缺少其他語料來源的交叉驗證，都使得系統的預測準確性大打折扣。二是語料的質量不高，仍然缺乏對裁判文書的統一格式要求，目前能夠統一的主要文書一級結構，但在具體的日期、金額等關鍵信息表述方式上，仍由法官各自發揮。這對于自然語言處理而言，人為制造了不小麻煩，比如金額中首先需要對于金額的含義、金額間的關系，類型過多都是導致計算機分類準確度降低的因素。三是語料的公開程度與結構仍然處于黑箱狀態，即公開的比例、選擇性等都處于不可知狀態，導致根據公開部分的文書所得出的模型也可能并不符合實際情況。四是文書的部分概念的字面含義，和辦案場景中的分類并不相同，比如取保候審中的“在逃”的表述，并不代表實際案件中的嫌疑人即是故意違反取保規定，有可能只是短暫的失去聯系。上述問題，部分是技術問題，部分則是業務中對詞語的尺度把握問題，但都給了自然語言處理及構建模型造成了很大困擾。

因此，突破法律自然語言處理的瓶頸障礙，離不開技術的進一步提升，更重要的是相關部門的制度配合。與之相關的制度包括，統一文書格式的強制要求、案件的各類文書的精準關聯和公開使用，辦案人在用詞上的標準基本一致的要求等。這些都將有助于提高語料的質量和內容提取的精準性。而從當前的現實來看，我們既要保持對法律人工智能足夠的信心，又應當對通過裁判文書得出的模型使用場合有理性認識，現階段主要將其定位為一種輔助工具、減少人工查找的負擔等方面，基于當前的語料狀況下是有希望實現的。

[ 注釋 ]

①鄭捷.NLP漢語自然語言處理處理原理與實踐[M].電子工業出版社，2018，5：1.

②最高人民檢察院.《多措并舉促進基層院信息化建設》[EB/OL].http： // www.s pp. gov. cn/ ztk/ dfld/ 2017dfld/ dfld98_4843/ywtt/ 201705/ t20170525_191464.shtml.

③最高人民法院.關于深化人民法院司法體制綜合配套改革的意見——人民法院第五個五年改革綱要(2019—2023).

④Charniak，Eugene.1991.Bayesian networks without tears[J].AI Magazine，12(4)：50-63.

⑤Turtle，Howard.1995.Text retrieval in the legal world[J].Artificial Intelligence and Law，3(1-2)：5-54.

⑥Biagioli，Carlo，Francesconi，Enrico，Passerini，Andrea，Montemagni，Simonetta，and Soria，Claudia.2005.Automatic semantics extraction in law documents.In：ICAIL ’05：7th International Conference on AI and Law.New York，NY：ACM.；Francesconi，Enrico and Passerini，Andrea.2007.Automatic classification of provisions in legislative texts[Z].Artificial Intelligence and Law，15，1-17.

⑦具體流程圖，可參見Steven bird，ewan klein：《python 自然語言處理》[M].人民郵電出版社，2018：282.