999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合標簽信息的裁判文書證據抽取方法研究*

2022-11-09 02:34:52周裕林鹿安琪周雯童劉林紅
計算機與數字工程 2022年9期
關鍵詞:融合實驗信息

周裕林 鹿安琪 周雯童 劉林紅

(1.公共大數據國家重點實驗室 貴陽 550025)(2.貴州大學計算機科學與技術學院 貴陽 550025)

1 引言

近年來,人工智能技術在司法審判案件中受到日益關注,相繼提出了許多法律人工智能任務,例如,司法摘要自動生成[1]、案件多標簽分類[2]和法律智能問答[3]等。而證據作為了解案件事實的依據,在司法審判過程中起著至關重要的作用。從裁判文書中抽取證據實體有利于支撐證據鏈的自動構建,從而支持“智慧法院”的建設。因此,抽取證據實體成為法律人工智能中極為重要的任務。

當前證據抽取模型主要基于神經網絡的命名實體識別(NER)方法,NER在過去數十年以及取得了飛速進步。NER方法采用序列標注形式,而傳統的序列標注模型有CRF[4]、LSTM[5]、CNN-CRF[6]、LSTM-CRF[7]以及楊健等[8]提出基于邊界組合的證據抽取模型,它們在信息抽取上都取得了不錯的性能。近幾年來,隨著大規模語言模型BERT[9]以及ELMo[10]等面世,自然語言處理的信息抽取任務上進一步刷新了性能。由于證據實體在不同案件環境下存在判別的不同,傳統的序列標注模型很難捕獲句子的長距離語義而導致輸入特征使用不充分,使得在裁判文書中的證據實體抽取上性能較差。Levy等[11]將關系抽取任務轉換成智能問答任務。Li等[12]將Levy等[11]的方法應用于命名實體識別任務中,他將每一個實體類型轉換成帶有問題及答案的形式。此外,由于問題編碼了豐富的先驗知識,實驗結果表明它能豐富輸入特征。McCann等[13]也將情感分析任務轉換成智能問答任務。

本文在以上研究的基礎上,面向傳統的序列標注模型很難捕獲句子的長距離語義而導致輸入特征使用不充分,使得在裁判文書中的證據實體抽取上性能較差的問題,提出融合標簽信息的的裁判文書證據抽取方法。在2293篇裁判文書數據集上進行驗證,實驗結果表明了本文提出方法的有效性。本文的主要貢獻如下:

1)采用基于機器閱讀理解模型的方法,通過融合證據的標簽信息作為先驗知識輸入模型,來解決序列標注模型特征使用不充分問題。

2)本文首次將融合標簽信息的方法應用于裁判文書證據抽取任務中,為證據抽取任務提供一種新思路。

2 融合標簽信息的證據抽取模型

2.1 BERT預訓練模型

Transformer架構最早是由Vaswani等[14]提出的。它通過利用注意力機制,學習句子中詞與詞之間的關聯程度,從而增強上下文特征的學習能力。其注意力機制公式為

其中,Q、K、V表示3個矩陣向量;d為Q向量的維度;通過softmax對得到的分數歸一化。由于此部分不是本文的重點,這里不作過多的敘述。

BERT預訓練模型是在Transformer的基礎上進行改進的。它由3層Embedding拼接而成,分別為Token Embeddings、Segment Embeddings和Position Embeddings。它們分別表示為詞向量、句向量和位置向量。通過拼接3層向量,增強了模型學習文本語義特征的能力。

2.2 標簽信息標注

本文是在BERT預訓練模型的基礎上構建融合標簽信息的證據抽取模型。給定一個句子X={x1,x2,…,xn},其中xn代表在句子X中的第n個字。為解決序列標注模型格式在拼接標簽信息上存在困難的特點,首先,需要將序列標注格式轉換為(LABEL_INFO,ANSWER,CONTENT)三元組的格式,其中,LABEL_INFO表示為標簽信息,ANSWER表示為答案對應的下標索引,CONTENT表示為輸入的文本。由于標簽信息定義的不同,會產生不同的特征輸入,從而影響最終證據抽取的性能。在本文中,采用問句式、定義式和標注指南來構建標簽信息。3種標簽信息構建內容如表1所示。

表1 標簽信息構建內容

2.3 融合標簽信息的證據抽取模型

融合標簽信息的證據抽取模型結構如圖1所示。在BERT預訓練模型的基礎上,融合證據實體的標簽信息,輸入到BERT編碼器中得到隱藏層向量,最后通過解析輸出結果。

圖1 融合標簽信息的證據抽取模型

輸入包含了標簽信息以及文本內容,通過BERT預訓練模型,通過Embedding的拼接輸出隱藏表征矩陣:

其中,L為標簽信息;C為文本內容;E為模型輸出的表征矩陣。

通過多層感知機(MLP)[15]解析表征矩陣得到預測的證據實體的下標索引。在MLP中,獲得句子中每個字是證據開始和結束下標的概率公式為

其中,Tstart和Tend是學習權重。對Pstart和Pend每一行使用argmax函數,得到預測的每個證據實體的開始和結束索引,公式為

最后,訓練一個二元分類器來預測句中每一個證據實體匹配的概率來組成范圍概率矩陣,并定義一個學習權重m,公式為

3 實驗結果及分析

3.1 數據集

本次實驗數據集均來自貴州省人民法院提供的2293篇裁判文書。其中,包括刑事裁判文書1696篇和民事裁判文書597篇,并將數據集按8:2劃分為訓練集和測試集。通過人工標注的方式對2293篇裁判文書進行標注得到本文所用數據集,如表2所示。

表2 數據集統計信息

3.2 評測指標

所有實驗所用指標均為精準率(P)、召回率(R)和F1值。計算公式如下所示:

其中,TP是預測結果為正,樣本也為正;FP是預測結果為正,樣本為負;FN是預測結果為負,樣本為正。

3.3 超參數設置

超參數選擇的不同,對模型結果會產生較大的影響。本文優化算法使用Adam,初始學習率為5e-5,以0.05速度進行衰減。設置每個batch_size為32,迭代10輪。最后獲得的span概率分布矩陣閾值threshold設置為0.5。選擇BERT中的base版本。如表3所示。

表3 超參數設置

3.4 實驗結果及分析

在本文實驗中,比較了5個傳統的序列標注模型,分別為CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT。實驗結果如表4所示。

表4 模型對比實驗結果

實驗結果表明,5個傳統序列標注模型CRF、BiLSTM、BiLSTM-CRF、ATT-BiLSTM-CRF、BERT的F1值分別為78.16%、82.83%、85.39%、86.16%、87.19%,而本文模型取得的F1值為89.12%,為所有實驗中最高。比CRF模型的F1值高了10.96%,比BiLSTM模 型 的F1值 高 了6.29%,比BiLSTM-CRF模型的F1值高了3.73%,比ATT-BiLSTM-CRF模型的F1值高了2.96%,比BERT模型的F1值高了1.93%。其原因在于:1)本文模型是基于BERT大規模預訓練,它區別于傳統詞向量模型,能夠更好地理解文本語義信息;2)本文模型是在BERT模型的基礎上,融合證據實體的標簽信息,豐富了模型的輸入特征,使得模型能更好地識別證據實體;3)對數據集格式轉換的有效預處理。

在進一步實驗中發現,如何定義標簽信息,成為影響模型在證據抽取性能上的關鍵。本文根據表1提出的3種標簽信息定義方式進行實驗對比,如表5所示。

表5 標簽信息對模型實驗結果影響

從表5中可以看出,標注指南的標簽信息定義方式取得了最高的F1值。比問句式的F1值高了0.81%,比定義式的F1值高了0.62%。原因在于:標注指南的方式相較于問句式和定義式,具有更為豐富的語義信息,能為模型的輸入帶來更多的標簽信息特征,從而提高了模型在證據抽取上的性能。

由于融合了標簽信息從而豐富了模型的輸入特征,本文在訓練集樣本數量少的情況下進行了實驗對比,實驗結果證明了本文方法的有效性。本文將訓練集按10%、20%、40%、80%的比例劃分,測試集保持不變,如表6所示。

表6 小樣本下標簽信息對模型的影響結果

從表6中可以看出,在訓練集比例10%、20%、40%和80%情況下,本文模型相較于BERT的序列標注模型,分別提高了2.70%、2.87%、2.02%和1.73%。充分證明了本文方法在BERT基礎上融合標簽信息的有效性,也為小樣本學習提供了一種新思路。

4 結語

本文提出了一種融合標簽信息的證據抽取方法,解決了序列標注模型很難捕獲句子的長距離語義而導致輸入特征使用不充分,使得抽取裁判文書中的證據實體性能較差的問題。本文通過定義證據實體的標簽信息,與文本想融合來增強輸入特征,進而提高證據實體的抽取性能。實驗結果表明本文的方法相比于傳統的序列標注抽取模型更具優勢。

本文方法還有進一步改進的空間。在未來工作中,可以設計新的模型架構來更好捕捉文本間的語義信息,進一步提升模型在證據抽取上的性能。

猜你喜歡
融合實驗信息
記一次有趣的實驗
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产91导航| 丁香婷婷综合激情| 欧美亚洲一区二区三区在线| 一级成人欧美一区在线观看| 成人无码区免费视频网站蜜臀| 亚洲欧州色色免费AV| 在线日韩一区二区| 再看日本中文字幕在线观看| 国产白浆视频| 自偷自拍三级全三级视频| 天堂岛国av无码免费无禁网站 | 久久精品无码一区二区日韩免费| 波多野吉衣一区二区三区av| 免费在线成人网| 色香蕉影院| 亚洲女同一区二区| 不卡视频国产| 中文字幕有乳无码| 99国产在线视频| 91小视频在线| 成人在线观看不卡| 亚洲六月丁香六月婷婷蜜芽| 欧美精品三级在线| 午夜视频免费试看| 99这里只有精品在线| 国产在线视频自拍| 青青青伊人色综合久久| v天堂中文在线| 国产精品免费露脸视频| 国产高清在线精品一区二区三区| 欧美亚洲香蕉| 粉嫩国产白浆在线观看| 国产欧美视频在线| 国产一级特黄aa级特黄裸毛片 | a级免费视频| 凹凸国产熟女精品视频| 九九热精品在线视频| av在线手机播放| 日日碰狠狠添天天爽| 日韩不卡高清视频| 国产精品无码久久久久久| 日韩欧美91| 乱人伦中文视频在线观看免费| 免费在线成人网| 欧美日韩成人| 亚洲视频无码| 亚洲国模精品一区| 五月天久久婷婷| 国产区网址| 久久亚洲综合伊人| 啊嗯不日本网站| 秋霞一区二区三区| 欧美色99| 伊人福利视频| 亚洲欧美另类专区| 久久国产精品国产自线拍| 国产精选自拍| 扒开粉嫩的小缝隙喷白浆视频| 99热在线只有精品| 青青草原国产| 国产成人综合日韩精品无码首页| 白丝美女办公室高潮喷水视频| 国产精品嫩草影院av| www亚洲天堂| 91精品国产一区| 狼友视频一区二区三区| 亚洲精品不卡午夜精品| 国产美女丝袜高潮| 真实国产精品vr专区| 手机在线免费不卡一区二| 免费高清毛片| 91亚洲精品国产自在现线| 91在线一9|永久视频在线| 成人av手机在线观看| 欧美日本不卡| 免费无码一区二区| 999国内精品视频免费| 国产91在线|中文| 亚洲婷婷丁香| 成人亚洲国产| 不卡午夜视频| 日韩欧美色综合|