周裕林 鹿安琪 周雯童 劉林紅
(1.公共大數據國家重點實驗室 貴陽 550025)(2.貴州大學計算機科學與技術學院 貴陽 550025)
近年來,人工智能技術在司法審判案件中受到日益關注,相繼提出了許多法律人工智能任務,例如,司法摘要自動生成[1]、案件多標簽分類[2]和法律智能問答[3]等。而證據作為了解案件事實的依據,在司法審判過程中起著至關重要的作用。從裁判文書中抽取證據實體有利于支撐證據鏈的自動構建,從而支持“智慧法院”的建設。因此,抽取證據實體成為法律人工智能中極為重要的任務。
當前證據抽取模型主要基于神經網絡的命名實體識別(NER)方法,NER在過去數十年以及取得了飛速進步。NER方法采用序列標注形式,而傳統的序列標注模型有CRF[4]、LSTM[5]、CNN-CRF[6]、LSTM-CRF[7]以及楊健等[8]提出基于邊界組合的證據抽取模型,它們在信息抽取上都取得了不錯的性能。近幾年來,隨著大規模語言模型BERT[9]以及ELMo[10]等面世,自然語言處理的信息抽取任務上進一步刷新了性能。由于證據實體在不同案件環境下存在判別的不同,傳統的序列標注模型很難捕獲句子的長距離語義而導致輸入特征使用不充分,使得在裁判文書中的證據實體抽取上性能較差。Levy等[11]將關系抽取任務轉換成智能問答任務。Li等[12]將Levy等[11]的方法應用于命名實體識別任務中,他將每一個實體類型轉換成帶有問題及答案的形式。此外,由于問題編碼了豐富的先驗知識,實驗結果表明它能豐富輸入特征。McCann等[13]也將情感分析任務轉換成智能問答任務。
本文在以上研究的基礎上,面向傳統的序列標注模型很難捕獲句子的長距離語義而導致輸入特征使用不充分,使得在裁判文書中的證據實體抽取上性能較差的問題,提出融合標簽信息的的裁判文書證據抽取方法。在2293篇裁判文書數據集上進行驗證,實驗結果表明了本文提出方法的有效性。本文的主要貢獻如下:
1)采用基于機器閱讀理解模型的方法,通過融合證據的標簽信息作為先驗知識輸入模型,來解決序列標注模型特征使用不充分問題。
2)本文首次將融合標簽信息的方法應用于裁判文書證據抽取任務中,為證據抽取任務提供一種新思路。
Transformer架構最早是由Vaswani等[14]提出的。它通過利用注意力機制,學習句子中詞與詞之間的關聯程度,從而增強上下文特征的學習能力。其注意力機制公式為

其中,Q、K、V表示3個矩陣向量;d為Q向量的維度;通過softmax對得到的分數歸一化。由于此部分不是本文的重點,這里不作過多的敘述。
BERT預訓練模型是在Transformer的基礎上進行改進的。它由3層Embedding拼接而成,分別為Token Embeddings、Segment Embeddings和Position Embeddings。它們分別表示為詞向量、句向量和位置向量。通過拼接3層向量,增強了模型學習文本語義特征的能力。
本文是在BERT預訓練模型的基礎上構建融合標簽信息的證據抽取模型。給定一個句子X={x1,x2,…,xn},其中xn代表在句子X中的第n個字。為解決序列標注模型格式在拼接標簽信息上存在困難的特點,首先,需要將序列標注格式轉換為(LABEL_INFO,ANSWER,CONTENT)三元組的格式,其中,LABEL_INFO表示為標簽信息,ANSWER表示為答案對應的下標索引,CONTENT表示為輸入的文本。由于標簽信息定義的不同,會產生不同的特征輸入,從而影響最終證據抽取的性能。在本文中,采用問句式、定義式和標注指南來構建標簽信息。3種標簽信息構建內容如表1所示。

表1 標簽信息構建內容
融合標簽信息的證據抽取模型結構如圖1所示。在BERT預訓練模型的基礎上,融合證據實體的標簽信息,輸入到BERT編碼器中得到隱藏層向量,最后通過解析輸出結果。

圖1 融合標簽信息的證據抽取模型
輸入包含了標簽信息以及文本內容,通過BERT預訓練模型,通過Embedding的拼接輸出隱藏表征矩陣:

其中,L為標簽信息;C為文本內容;E為模型輸出的表征矩陣。
通過多層感知機(MLP)[15]解析表征矩陣得到預測的證據實體的下標索引。在MLP中,獲得句子中每個字是證據開始和結束下標的概率公式為

其中,Tstart和Tend是學習權重。對Pstart和Pend每一行使用argmax函數,得到預測的每個證據實體的開始和結束索引,公式為

最后,訓練一個二元分類器來預測句中每一個證據實體匹配的概率來組成范圍概率矩陣,并定義一個學習權重m,公式為

本次實驗數據集均來自貴州省人民法院提供的2293篇裁判文書。其中,包括刑事裁判文書1696篇和民事裁判文書597篇,并將數據集按8:2劃分為訓練集和測試集。通過人工標注的方式對2293篇裁判文書進行標注得到本文所用數據集,如表2所示。

表2 數據集統計信息
所有實驗所用指標均為精準率(P)、召回率(R)和F1值。計算公式如下所示:

其中,TP是預測結果為正,樣本也為正;FP是預測結果為正,樣本為負;FN是預測結果為負,樣本為正。
超參數選擇的不同,對模型結果會產生較大的影響。本文優化算法使用Adam,初始學習率為5e-5,以0.05速度進行衰減。設置每個batch_size為32,迭代10輪。最后獲得的span概率分布矩陣閾值threshold設置為0.5。選擇BERT中的base版本。如表3所示。

表3 超參數設置
在本文實驗中,比較了5個傳統的序列標注模型,分別為CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT。實驗結果如表4所示。

表4 模型對比實驗結果
實驗結果表明,5個傳統序列標注模型CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT的F1值分別為78.16%、82.83%、85.39%、86.16%、87.19%,而本文模型取得的F1值為89.12%,為所有實驗中最高。比CRF模型的F1值高了10.96%,比BiLSTM模 型 的F1值 高 了6.29%,比BiLSTM-CRF模型的F1值高了3.73%,比ATT-BiLSTM-CRF模型的F1值高了2.96%,比BERT模型的F1值高了1.93%。其原因在于:1)本文模型是基于BERT大規模預訓練,它區別于傳統詞向量模型,能夠更好地理解文本語義信息;2)本文模型是在BERT模型的基礎上,融合證據實體的標簽信息,豐富了模型的輸入特征,使得模型能更好地識別證據實體;3)對數據集格式轉換的有效預處理。
在進一步實驗中發現,如何定義標簽信息,成為影響模型在證據抽取性能上的關鍵。本文根據表1提出的3種標簽信息定義方式進行實驗對比,如表5所示。

表5 標簽信息對模型實驗結果影響
從表5中可以看出,標注指南的標簽信息定義方式取得了最高的F1值。比問句式的F1值高了0.81%,比定義式的F1值高了0.62%。原因在于:標注指南的方式相較于問句式和定義式,具有更為豐富的語義信息,能為模型的輸入帶來更多的標簽信息特征,從而提高了模型在證據抽取上的性能。
由于融合了標簽信息從而豐富了模型的輸入特征,本文在訓練集樣本數量少的情況下進行了實驗對比,實驗結果證明了本文方法的有效性。本文將訓練集按10%、20%、40%、80%的比例劃分,測試集保持不變,如表6所示。

表6 小樣本下標簽信息對模型的影響結果
從表6中可以看出,在訓練集比例10%、20%、40%和80%情況下,本文模型相較于BERT的序列標注模型,分別提高了2.70%、2.87%、2.02%和1.73%。充分證明了本文方法在BERT基礎上融合標簽信息的有效性,也為小樣本學習提供了一種新思路。
本文提出了一種融合標簽信息的證據抽取方法,解決了序列標注模型很難捕獲句子的長距離語義而導致輸入特征使用不充分,使得抽取裁判文書中的證據實體性能較差的問題。本文通過定義證據實體的標簽信息,與文本想融合來增強輸入特征,進而提高證據實體的抽取性能。實驗結果表明本文的方法相比于傳統的序列標注抽取模型更具優勢。
本文方法還有進一步改進的空間。在未來工作中,可以設計新的模型架構來更好捕捉文本間的語義信息,進一步提升模型在證據抽取上的性能。