張云婷,葉 麟,方濱興,張宏莉
(哈爾濱工業大學 計算機科學與技術學院,哈爾濱150001)
隨著普法率的不斷提高,普通民眾的法律意識日益增強,法務系統的建設變得愈發重要,人們對公共法律服務的需求也呈上升趨勢。由于現階段面向公共法律服務的專業隊伍規模有限,且分布在偏遠地區的專業人員相對較少,很多民眾對公共法律服務的需求無法得到很好的滿足。在此情況下,智慧法務系統和智慧檢務系統應運而生。無論是普通民眾還是法官、律師等法律從業人員,均可從中得到所需的服務,這將為緩解專業隊伍規模不夠及分布不均的問題,提供有效的系統和技術支撐。其中,相似案例檢索又是法務系統中一項基礎且必要的需求。相似案例檢索是指檢索出與用戶輸入案例相似的案例,其在法官判案、民眾普法、案件分類等方面均起著重要的作用。但是,傳統的基于關鍵詞的檢索方式只能實現字面意義上的相似,并不能實現語義層面上的相似;而由于法律案例本身涉及很多知識領域,導致其和一般文章有所不同,因此僅依靠基于關鍵詞的檢索方式,無法實現非專業人員的精確檢索。為此,本文提出了一種基于詞頻-逆文檔頻率(TFIDF)和法律本體的相似案例檢索算法。該方法引入案例要素替代傳統的關鍵詞,使其能夠實現語義上的相似文本匹配。其中,案例要素是指法律案例中的關鍵元素,如嫌疑人的個人背景、性格特點、心理特征以及行為表現等。基于案例要素的檢索方式將法律案例的研究重點從關鍵詞轉移到了案例要素上,由于案例要素的法律語義遠遠強于關鍵詞,在專業性上必定優于基于關鍵詞的查找方式,進而更能滿足非專業人員對相似案例更加精確的檢索需求。
本文主要貢獻如下:
(1)提出了一種基于語義的相似案例檢索算法,提升了相似案例檢索結果的準確性。
(2)引入了基于法條的案例要素,以公共法律服務中的監獄教改案例為例,搭建了案件模型,并構建了相關字典,提升了相似案例檢索結果的專業性。
基于Berners-Lee在1998年于國際萬維網聯盟提出的語義網的概念,本體這一概念逐漸從中衍生出來。本體是一種重要的知識表示手段,文本相似中的本體不僅包括狹義上的本體,也包括通用詞典、詞匯表等具有本體知識的知識庫[1]。本體可以根據其通用性分為通用本體和領域本體。研究中常用的通用本體包括《知網》[2](HowNet)、WordNet[3]等;領域本體包括醫學本體[4]、法律本體[5]等。
本體知識一般用樹狀結構表示,相關算法大都基于“IS_A”關系樹狀分類體系。學者們通常將基于本體的文本相似度算法分為基于距離(Edge Counting Measures)、基 于 信 息 內 容(Information Content Measures)、基 于 屬 性(Feature-based Measures)以及混合式(Hybrid Measures)文本相似度計算[6]。
基于距離的文本相似度計算的基本思想為,利用概念之間的路徑長度來度量概念之間的語義距離。其最基礎的算法為Shortest Path法[7],在其基礎上,加入權重、最近公共父節點、樹的深度、路徑方向的改變次數等方面的考量,衍生出了Weighted Links[8]、Wu and Palmer[9]等方法。
基于信息內容的文本相似度計算的基本思想是,利用兩概念詞共享的信息量,來度量其之間的語義相似性。其最具代表性的算法為Lord等人[10]提出的基于最近公共父節點計算共享信息量的算法;在此基礎上,加入對其它公共父節點、自身結點的考量,分別衍生出Resnik[11]和Lin[12]法。
基于屬性的文本相似度計算的基本思想為,利用兩概念詞的公共屬性數,來度量其之間的語義相似性。其最具代表性的算法為Tversky算法[13]。在此基礎上,衍生出了基于概念釋詞的方法[14],此類算法通過在釋詞(gloss)集合中提取公共屬性或劃分屬性的相似程度,來計算2個概念的語義相似程度。
混合式文本相似度計算的基本思想為,綜合以上3種方法,進行文本相似度的計算。目前研究出的文本相似度算法,大部分都為混合式算法。
TF-IDF技術是一種被廣泛使用的特征詞提取技術,也是生成詞向量的主要手段之一。TF-IDF技術最早在文獻[15]中提出,該技術用于評估詞語對于文檔集或語料庫中文本的重要程度,是自然語言處理中提取文檔主題或關鍵詞的重要技術。其基本思想是:如果某個詞語在某篇文檔中出現頻率很高,而在語料庫里其它文檔中出現頻率很低,則這個詞語在某種程度上可以作為該文檔的特征詞。因此,該技術可以用作文檔分類、文本相似度計算以及信息檢索等用途。
詞頻(TF)指的是某個詞語w在某篇文檔d中出現的次數(count(w,d))與文檔d中總詞語數(size(d))的比值,可用式(1)來進行計算:

逆文檔頻率(IDF)指的是語料庫中的文檔總數N與詞語w所出現文件數docs(w)比值的對數,可以用式(2)來進行計算:

而詞語w在文檔d中的TF-IDF值可以用式(3)計算:

為了生成每篇文檔的詞向量,需要對語料庫中的所有文檔進行特征詞的抽取,總結出一串由n個特征詞組成的特征詞串w0,w1,...,wn;再針對每篇文檔,依次計算這些特征詞在該文檔中的TF-IDF值,這些值就組成了該文檔的詞向量。
例如,對于文檔d來說,其詞向量就為(tfidf(w0,d),tf-idf(w1,d),...,tf-idf(wn,d))。 利用這種方法,對語料庫中的每篇文檔,計算其對應的詞向量,即可生成語料庫中所有文檔的詞向量集合。
案例要素是能夠描述案例特征的關鍵元素。由于公共法律服務案例基本都是用自然語言描述的,若想利用計算機對其進行處理,就需要將其中的各案例要素進行抽象化表示,再將抽象化表示后的案例要素進行量化,繼而抽取每件案例中的案例要素,最終形成計算機可以處理的詞向量(即本文引入的案例要素向量)。
案例要素的選取與算法的準確率密切相關。由于案例要素需要有一定的專業性,因此,筆者依據相關法律法規、對應領域內的專業知識及近千篇具體案例來選擇合適的案例要素。
以監獄教改類案例為例,根據司法部2003年6月13日發布的《監獄教育改造工作規定》第四條:“監獄教育改造工作,應當根據罪犯的犯罪類型、犯罪原因、惡性程度及其思想、行為、心理特征,堅持因人施教、以理服人、循序漸進、注重實效的原則。”,筆者共選擇了4類案例要素,分別為犯人的個人背景、犯人的性格特點、犯人的心理特征以及犯人的行為表現。其中由于罪犯犯罪類型過于繁雜,且對于監獄教改案例而言代表性較弱,因此未將犯人的犯罪類型加入到案例要素類別中。而犯人的個人背景很大程度上決定了犯罪原因及惡性程度,犯人的性格特點與其思想行為有很緊密的聯系,犯人的心理特征及行為表現也與該法律條款的心理特征和行為一一對應。因此,筆者所選取的案例要素類別非常具有代表性,能將整個案例的關鍵要素全部表征出來。
表1列出了這4個案例要素類別中各案例要素的選取依據。

表1 案例要素選取依據Tab.1 Case elements selection basis
由于基于TF-IDF技術提取出的案例要素法律語義較弱,并不能真正做到語義查詢。因此,還需要結合法律本體提取一部分案例要素,以達到增強法律語義的目的。本文將通過TF-IDF和法律本體提取出的案例要素相結合,再利用量化后的案例要素,計算輸入案例和語料庫中案例的歐氏距離,即可得到兩者間的相似度。
在結合法律本體提取案例要素的過程中,首先需要進行法律本體的案例建模。案例要素的抽象化表示和量化過程即為案例建模的過程。在案例要素的抽象化表示過程中,需要以法律法規及大量案例為基礎,將某類案例的特點分層抽象出來,進而建立案例要素表示體系。以監獄教改案例為例,對該類案例進行建模,每個監獄教改案例向量Cjyjg均可用式(4)的形式表示:

其中,B、P、H、A分別代表犯人的個人背景、性格特點、心理特征以及行為表現。
為了使案例要素的表示體系更加充實,對案例要素四維特征中的每個特征進行了二次抽象。通過這種分層抽象的方式使得建立的案件模型更加完整,抽取出的詞向量不會太稀疏。在對監獄教改案例模型的四類特征進行二次抽象后,監獄教改案例的具體模型可以表示為式(5)-式(8)所示:

其中,各維度的含義及值域見表2。

表2 監獄教改案例要素量化表Tab.2 Quantification of case elements for prison education reform cases
表中值域為{0,1},0表示犯人沒有該特征,1表示犯人有該特征;犯人的文化程度b3的值域為{0,1,2,3,4,5},0-5的數字分別表示犯人文化程度為小學文化、初中文化、高中文化、中專文化以及接受過高等教育。
在建立某類案例模型后,需要在該類所有案例中一一提取所有的案例要素,將每個案例用詞向量的形式表示。下文利用監獄教改類案例進行舉例,介紹基于法律本體的案例要素提取方式。
由于每個案例要素都有各自的特點,無法一概而論,因此對于不同的案例要素,需要用不同的方法來進行提取。基于法律本體的案例要素提取主要有4種方法:基于正則表達式的案例要素提取方法、基于常識字典的案例要素提取方法、基于專業字典的案例要素提取方法、基于混合方法的案例要素提取方法。
3.2.1 基于正則表達式的案例要素提取方法
利用正則表達式提取案例要素的兩種情況:
(1)被提取的案例要素在所有案例中的描述雖然不一致,但都遵循一定規律。例如,在提取“犯人是否為未成年”這一案例要素時,每個犯人的出生時間并不一樣,且對出生時間的描述也不同。如,甲犯的出生時間描述為1989年生;乙犯的出生時間描述為1989年2月出生;丙犯的出生時間描述為1989年2月5日生等。從中可以看出,雖然每個案例對出生時間的描述不同,但是其遵循的格式規律是一致的,其格式都是最前面是4個數字,最后是一個“生”字。因此,可以通過相應的正則表達式抽取出所需的出生年份的信息。同理,如果有些案例中沒有出生日期信息,但是有犯人年齡的信息,也可以用正則表達式將犯人的年齡抽取出來。
(2)被提取的案例要素在所有案例中的描述,無法通過一個或幾個關鍵詞判斷,還需要考慮關鍵詞的上下文,過濾掉不符合條件的情況。例如,在提取“犯人是否強迫”這一案例要素時,很容易知道“強迫”一詞肯定是判斷犯人是否強迫的必要不充分條件。因為很多案例中有“強迫”一詞,但卻并不能說明犯人就是有強迫傾向的。如,在案例描述中,該犯人因強迫婦女賣淫罪而被捕,該描述中也有“強迫”一詞,但并不能說明該犯人有強迫傾向。因此,需要通過正則表達式將不符合強迫條件的信息過濾掉,剩下的就是所需信息。另外,該情況通常與基于常識的案例要素提取結合使用。
3.2.2 基于常識字典的案例要素提取方法
有些案例要素在所有案例中的描述可以通過一個或幾個關鍵詞來進行判斷,即在某一案例中,只要匹配到所有對應關鍵詞中的一個,就能夠判斷該案例擁有相應的案例要素。而這些關鍵詞所構成的字典,則需要在閱讀大量監獄教改類案例的基礎上,結合常識進行總結,這種方式即為基于常識字典的案例要素提取。此種方式適用于關鍵詞較少、在文中的描述較為規范且無需考慮上下文的情況。例如,在提取“犯人的文化程度”這一案例要素時,由于該案例要素在文中的描述大都為“小學文化”、“初中文化”、“高中一年級文化”等,這樣的描述形式規范且無需考慮上下文,而文化程度的范圍只是小學到高等教育,相應的關鍵詞較少,常識字典很好建立,因此可以用此方法來對這一案例要素進行提取。
3.2.3 基于專業字典的案例要素提取方法
與常識字典相似,專業字典也是由關鍵詞構成的,運用方式也與常識字典相同。而與常識字典不同的是,專業字典所包含的關鍵詞數量極大,且專業性很高,通常為互聯網中可獲取的專業性細胞詞庫。例如,在提取“犯人是否患病”這一案例要素時,就需要收集所有疾病的名稱。而這些疾病的名稱顯然無法用常識總結出來,因此筆者從互聯網中下載了搜狗細胞詞庫中關于疾病名稱的詞庫,通過與該詞庫中的疾病名稱進行匹配,即可完整抽取出這一案件要素。
3.2.4 基于混合方法的案例要素提取方法
該方法是將上述3種方式中的2種方式進行混合使用,以達到更精確地提取案例要素的目的。如在基于正則表達式的案例要素提取方式的第二種情況中的舉例,即為基于正則表達式的案例要素提取方式與基于常識字典或專業字典的案例要素提取方式的混合使用。
為了便于理解,將基于混合方法的案例要素提取進行如下偽代碼表示。
輸入:案例文本、常識(專業)字典
輸出:對應抽取元素標志位(flag)
對不同案例要素,進行對應的前期處理

在基于TF-IDF的案例要素提取算法中,停用詞表沒有經過任何的人工改動。這樣雖然減少了人工操作,但會使得一些沒有區分能力的詞語被抽取到特征詞串中。這些詞語通常是一些普遍出現在公共法律服務案例中,但卻無法作為案例要素的詞語。例如,“監獄”、“民警”等。因此,需要通過人工的方式,將它們添加到停用詞表中,這樣可以在很大程度上排除非特征詞的干擾,使提取的案例要素更具有代表性。
值得注意的是,雖然非特征詞可以通過調節max_df參數(該參數可忽略在閾值以上的文檔數量中出現過的詞語)進行去除,然而這種去除方式也會過濾掉那些普遍出現在各文檔中、卻仍能作為一篇案例的案例要素的詞語。例如,“焦慮”、“抑郁”等詞語。因此,人工增加停用詞在去掉非特征詞的基礎上,不會去掉真正有用的案例要素,從而使得后續計算相似度時得到的結果更加準確。
通過上文的方法,將用自然語言描述的案例量化為詞向量后,即可進行文本相似度的計算。該思想來自于向量空間模型(VSM)。VSM的基本思想是:假設詞與詞之間是不相關的,以向量來表示文本,從而簡化了文本中關鍵詞之間的復雜關系,使得模型具備了可計算性[16]。當模型具備可計算性之后,即可利用數學中向量的計算方法,計算2個向量之間的距離。利用歐氏距離計算空間中2個向量之間的距離。若2個向量之間的歐氏距離越小,則2個向量在空間坐標系中就越近。具體的計算方法如下:
設:向量A為(a1,a2,...,an),向量B為(b1,b2,...,bn),則二者之間的歐氏距離S可以用式(9)進行計算:

本文使用F1作為評估指標,其主要計算方法如下所示:

其中,P為精準率;R為召回率;TP表示預測為正樣本,實際為正樣本的結果數量;FN表示預測為負樣本,實際為正樣本的結果數量;FP表示預測為正樣本,實際為負樣本的結果數量。
在本實驗中,正樣本取監獄教改類案例,負樣本取非監獄教改類案例。具體的實驗方法為,選擇某一案例,分別利用本文所提方法和TF-IDF方法(下稱傳統方法),計算該案例和語料庫中所有監獄教改案例的相似程度,并選擇與該案例最相似的案例進行分析。若檢索出的最相似案例與輸入案例之間的歐氏距離大于某一距離參數,則將輸入案例分類到非監獄教改案例中;反之,則將輸入案例分類到監獄教改案例中。
本文所選數據集為12348中國法網司法行政(法律服務)案例庫中的案例。其中語料庫中的語料為該案例庫中的監獄教改類案例,被試語料為該案例庫中的監獄教改類、監獄減刑類、法律援助類、人民調解類、律師工作類案例。其中監獄教改類別共有1 082篇文檔,非監獄教改類別共有2 225篇文檔。
實驗主要針對本文提出的基于TF-IDF和法律本體的案例要素提取算法,以及傳統的基于TF-IDF案例要素提取算法進行測試,從而驗證本文算法對相似案例檢索結果的準確性及專業性。
(1)本文方法對數據集測試。首先利用人工操作,在哈爾濱工業大學停用詞表的基礎上,增加法律方面的停用詞。之后將語料庫中的所有文檔進行分詞處理,并去除停用詞。利用基于法律本體所建立的案件模型,對未經分詞處理的原始文檔進行第一次案例要素提取,并將每次提取到的案例要素,以詞語的形式添加到對應分詞后的文檔尾部,即可得到補充完案例要素的文檔集合,建立詞向量TF-IDF值的計算模型;再由該模型自動進行第二次案例要素提取,利用3.4節所述的方法,計算出各輸入案例與語料庫中各案例的相似程度,進而進行案例分類。
(2)傳統方法對數據集測試。直接對語料庫中的所有文檔進行分詞處理,建立TF-IDF詞向量,并利用該詞向量進行案例要素提取,最后利用3.4節所述的方法計算出各輸入案例與語料庫中各案例的相似程度,進而進行案例分類。
將上述2種方法分類結果的F1值進行對比,即可對本文所提算法的性能進行分析與評估。
在建立TF-IDF詞向量的過程中,將參數設定為min_df=0.1的含義是,忽略那些僅在10%以下的文檔數量中出現過的詞語。例如,某語料庫中有100篇文檔,某個詞語僅在其中的9篇文檔中出現過,那么則不將其放入語料庫的特征詞串中,否則,最終得到的TF-IDF詞向量矩陣將過于稀疏。在利用歐式距離的大小進行分類的過程中,使用的參數值為1.1,該參數為筆者通過多次實驗及經驗得出的距離參數。
由圖1中數據分別可以看出,傳統方法將78.33%的監獄減刑案例錯誤地分類成監獄教改案例,而本文所提方法的此概率僅為7.51%。由于監獄減刑和監獄教改同屬監獄工作大類案例,因此,在案例細分類這一方面,本文方法遠勝于傳統方法。

圖1 各案例分類情況Fig.1 Classification by category
由圖2中數據可以計算出,本文所提方法的精準率為84.60%,高于傳統方法的精準率49.95%;本文所提方法的召回率為96.95%,傳統方法的召回率為99.26%,兩者相差無幾;本文所提方法的F1值為0.90,而傳統方法的F1值則為0.66,可知本文所提方法在監獄教改類案例的分類上,將F1值提高了36.36%。以上數據可以有效說明,利用本文所提方法計算相似度的效果比利用傳統方法計算相似度的效果更佳。

圖2 總體分類情況Fig.2 Classification of all cases
本文提出了一種公共法律服務領域內的相似案例檢索算法。該算法結合TF-IDF和法律本體,且其為基于語義的案例檢索。算法中引入描述案件特征的案例要素代替傳統的關鍵詞,以增強案例的法律語義。本文搭建了公共法律服務中監獄教改案例的案件模型,并構建了該類案例的字典。最后,通過與傳統方法比較F1值驗證了本文所提方法的優越性。