999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于堆疊模型的司法短文本多標(biāo)簽分類

2021-04-06 10:53:18聞英友孔為民
關(guān)鍵詞:分類特征文本

何 濤,陳 劍,聞英友,孔為民

(1.東北大學(xué) 東軟研究院,遼寧 沈陽 110169;2.定陶區(qū)人民檢察院,山東 菏澤 274100)

0 引 言

隨著國內(nèi)司法業(yè)務(wù)信息化的發(fā)展,司法領(lǐng)域產(chǎn)生了巨量的文本數(shù)據(jù),目前辦案人員主要依靠手工分析案件卷宗、提取案件要素的工作方式,效率低下,已無法滿足智慧司法的客觀需要。如何在海量司法文書數(shù)據(jù)中自動抽取出有價值的信息,具有巨大的社會意義和商業(yè)價值。一種可行的方式是將司法文書進(jìn)行細(xì)粒度分割,生成短文本子集,并通過深度學(xué)習(xí)等智能化方法對短文本進(jìn)行多標(biāo)簽分類,將案件要素抽取出來呈現(xiàn)給辦案人員。高效地將大規(guī)模司法短文本數(shù)據(jù)進(jìn)行正確的歸類,是智慧司法系統(tǒng)的基本任務(wù),也是其他司法過程的基礎(chǔ)。

近年來,隨著計算能力和深度學(xué)習(xí)算法的快速發(fā)展,深度學(xué)習(xí)在人工智能的多個領(lǐng)域都取得了顯著的進(jìn)展。通過使用非線性網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)復(fù)雜的函數(shù)表達(dá),并在特征表達(dá)時使用分布式特征輸入,使深度學(xué)習(xí)憑借強(qiáng)大的特征學(xué)習(xí)能力,在自然語言處理領(lǐng)域取得令人矚目的成績。

Arevian[1]使用真實(shí)世界中的文本對循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,完成文本分類。Chen等人[2]采用擴(kuò)展短文本特征的方式派生特定粒度的暗含主題,并在在多個主題粒度上,利用多主題來更精確的進(jìn)行短文本建模。Fu等人[3]使用卷積神經(jīng)網(wǎng)絡(luò)對司法文書進(jìn)行分類,達(dá)到了比傳統(tǒng)的基于Logistic回歸和支持向量機(jī)更好的效果。Kim[4]提出的TextCNN模型在文本分類方面取得了很好的效果,使得該模型成為CNN在自然語言處理中應(yīng)用最廣泛的模型。Kalchbrenner等[5]提出了動態(tài)的k-max pooling機(jī)制,使得文本特征提取能力進(jìn)一步增強(qiáng)。Lei等[6]在標(biāo)準(zhǔn)卷積層使用基于張量的詞間操作代替串接詞向量的線性運(yùn)算。Zhang等人[7]使用N-Gram模型擴(kuò)展短文本,通過詞語之間的相似度閾值判定文本的分類。陳釗等人[8]使用情感詞典識別構(gòu)成二值特征作為外部輔助特征,提高了CNN模型的處理能力。Shi等人[9]提出了卷積循環(huán)神經(jīng)網(wǎng)絡(luò),在處理序列對象時比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型具有一些優(yōu)點(diǎn)。Vaswani等人[10]提出基于多頭自注意力機(jī)制的Transformer模型,大大提高了文本特征提取能力,為序列標(biāo)注任務(wù)提出新的解決方法。Yang等[11]在LSTM模型運(yùn)用Attention機(jī)制進(jìn)行文本級分類,取得了較好的分類效果。Xiao等人[12]提出結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方式提取文本特征,結(jié)合了兩種神經(jīng)網(wǎng)絡(luò)的特點(diǎn)。Hassan等人[13]針對卷積神經(jīng)網(wǎng)絡(luò)在捕獲文本特征長期依賴問題時需要多層網(wǎng)絡(luò),提出聯(lián)合CNN和RNN網(wǎng)絡(luò)模型。Yin等人[14]提出一個更為細(xì)化的卷積神經(jīng)網(wǎng)絡(luò)ATTCONV,該算法使用注意力機(jī)制擴(kuò)展了卷積運(yùn)算的上下文范圍。2018年10月底,Google公布BERT(bidirectional encoder representation from transformers)[15]預(yù)訓(xùn)練模型在11項(xiàng)NLP任務(wù)中刷新紀(jì)錄,引起業(yè)界的廣泛關(guān)注。

然而,現(xiàn)有的方法應(yīng)用于司法短文本多標(biāo)簽分類時,還存在分類準(zhǔn)確率不高的問題,主要原因是提取文本特征的方式仍然過于單一。為此,該文提出了一種基于深度學(xué)習(xí)堆疊模型的多標(biāo)簽分類方法,融合了Transformer、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等各種深度學(xué)習(xí)算法的優(yōu)勢,解決了提取特征角度單一的問題,進(jìn)一步提升了短文本多標(biāo)簽分類性能。

1 短文本分類堆疊模型

提出的堆疊模型整體架構(gòu)如圖1所示。

圖1 短文本分類堆疊模型整體架構(gòu)

這種模型的優(yōu)勢在于,首先分別使用3種不同類型的深度學(xué)習(xí)網(wǎng)絡(luò)從不同角度提取文本特征,其次將不同模型的輸出結(jié)果以多標(biāo)簽概率值進(jìn)行融合,可以獲得比分類結(jié)果更加豐富的信息。第一基礎(chǔ)分類模型與第二基礎(chǔ)分類模型使用相同的結(jié)構(gòu)、相同的訓(xùn)練參數(shù),只是使用了不同的訓(xùn)練數(shù)據(jù),應(yīng)用在不同的過程中。

為驗(yàn)證該方法的有效性,第一層分類模型分別使用BERT預(yù)訓(xùn)練模型、單通道TextCNN模型、Bi-GRU模型,混合分類模型使用自定義的包含兩個隱藏層的深度神經(jīng)網(wǎng)絡(luò)。

1.1 BERT預(yù)訓(xùn)練模型

BERT預(yù)訓(xùn)練模型是在多層Transformer編碼器的基礎(chǔ)上實(shí)現(xiàn)的。Transformer編碼器作為文本特征提取器,其特征提取能力遠(yuǎn)遠(yuǎn)大于RNN和CNN模型,這也是BERT模型的核心優(yōu)勢所在。

Transformer是一個完全依賴自注意力來計算輸入和輸出的表示,而不使用序列對齊的遞歸神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換模型。自注意力的計算方法如下:需要從編碼器的每個輸入向量中創(chuàng)建三個向量,一個Query向量、一個Key向量和一個Value向量。這些向量是通過將詞嵌入向量與3個訓(xùn)練后的矩陣Wq、Wk、Wv相乘得到的,維度默認(rèn)為64。為了便于計算,將三個向量分別合并成矩陣,得到自注意力層的計算公式:

(1)

在Transformer的基礎(chǔ)上,BERT使用Masked LM來進(jìn)行無監(jiān)督預(yù)訓(xùn)練。一個深度雙向模型,要比單向的“左-右”模型,或者淺層融合“左-右”和“右-左”的模型更高效。為了解決雙向訓(xùn)練中每個詞在多次上下文可以間接看見自己的問題,BERT采用隨機(jī)遮掩一定百分比的輸入token,然后通過預(yù)測被遮掩的token進(jìn)行訓(xùn)練。

1.2 單通道TextCNN模型

TextCNN使用雙通道,引入通道的目的是希望防止過擬合,可以在不同的通道中使用不同方式的詞向量嵌入方式,達(dá)到在小數(shù)據(jù)集合獲得比單通道更好的性能。其實(shí)直接使用正則化效果更好,該文使用單通道的TextCNN模型,其結(jié)構(gòu)如圖2所示。

圖2 TextCNN模型結(jié)構(gòu)

整個模型由四部分構(gòu)成:輸入層、卷積層、池化層、全連接層。TextCNN模型的輸入層需要輸入一個定長的文本序列,通過分析語料集樣本指定一個輸入序列的長度L,比L短的樣本序列需要填充,比L長的序列需要截取。對于詞向量的表示使用預(yù)訓(xùn)練好的word2vec作為輸入。

在自然語言處理領(lǐng)域,因?yàn)樵谠~向量上滑動提取特征沒有意義,所以每個卷積核在整個句子長度上進(jìn)行一維滑動,即卷積核的寬度與詞向量的維度等寬,高度與步長可以自定義。通常,在TextCNN模型中使用多個不同尺寸的卷積核。卷積核的高度,可以理解為局部詞序的長度,窗口值是需要設(shè)置的超參數(shù),一般選取2~6之間的值。

在卷積層保留了特征的位置信息,為了保證特征的位置信息在池化層不被丟失,TexCNN模型選用k-max pooling池化方法。相比于最大池化方法,k-max pooling針對每個卷積核都保留前k個最大值,并且保留這些值出現(xiàn)的順序,即按照文本中的位置順序來排列這k個最大值,對于文本分類精度提升有很大作用。卷積層與池化層的核心作用就是特征提取,從定長文本序列中利用局部詞序信息,提取初級的特征,并組合初級的特征為高級特征。

1.3 Bi-GRU層

GRU單元保持了LSTM的效果,同時又使結(jié)構(gòu)更加簡單。GRU只剩下更新門和重置門兩個門限。更新門用于控制前一時刻的狀態(tài)信息被帶入到當(dāng)前狀態(tài)的程度,更新門的值越大說明前一時刻的狀態(tài)信息帶入越多。重置門用于控制忽略前一時刻的狀態(tài)信息的程度,值越小說明忽略得越多。GRU單元結(jié)構(gòu)如圖3所示,GRU單元的計算公式為:

(2)

(3)

(4)

(5)

其中,Wxz、Wxr、Wxg是每一層連接到輸入向量xg的權(quán)重矩陣,Whz、Whr、Whg是每一層連接到前一個短期狀態(tài)h(t-1)的權(quán)重矩陣。

圖3 GRU單元結(jié)構(gòu)

在處理文本分類問題時,神經(jīng)網(wǎng)絡(luò)模型不僅要關(guān)注上文信息,同樣也要關(guān)注下文信息,將前向GRU和后向GRU結(jié)合起來,使得每一個訓(xùn)練序列向前和向后分別是兩個循環(huán)神經(jīng)網(wǎng)絡(luò),而且這兩個網(wǎng)絡(luò)連接著同一個輸出層,這便是Bi-GRU的優(yōu)點(diǎn)。

1.4 多標(biāo)簽分類概率融合

針對訓(xùn)練集,使用5折交叉驗(yàn)證方法,首先將訓(xùn)練數(shù)據(jù)隨機(jī)分割成5個不同的子集,每個子集稱為一個折疊。使用第一層文本分類模型對數(shù)據(jù)進(jìn)行5次訓(xùn)練和評估,每次使用4個折疊進(jìn)行訓(xùn)練,使用另外一個折疊進(jìn)行評估,評估的結(jié)果為每個類別的多標(biāo)簽概率值,而不是分類結(jié)果。目前的堆疊模型,初級學(xué)習(xí)器都是輸出分類結(jié)果,讓混合器在此數(shù)據(jù)上進(jìn)行投票,多標(biāo)簽概率值數(shù)據(jù)遠(yuǎn)比分類結(jié)果值包含更加豐富的信息。

(6)

將多個交叉驗(yàn)證產(chǎn)生的多標(biāo)簽概率值進(jìn)行融合,對于單個樣本來說,相當(dāng)于將該樣本產(chǎn)生的三個多標(biāo)簽概率值向量進(jìn)行拼接,拼接后的數(shù)據(jù)作為下一層分類器的輸入數(shù)據(jù),標(biāo)記仍然使用原來的label。對任意輸入樣本m,新數(shù)據(jù)標(biāo)簽集表示為:〈sm;Pm;x1,x2,…,xQ〉 。

其中,Pm為經(jīng)過3個分類器的概率聯(lián)合,表示為:

(7)

經(jīng)過DNN混合器得到:Pm→Lm,Lm表示最終計算出的多標(biāo)簽分類結(jié)果。

1.5 DNN混合器

混合器采用自定義的深度神經(jīng)網(wǎng)絡(luò),輸入是基礎(chǔ)分類模型計算的聯(lián)合多標(biāo)簽概率值,輸出為樣本的多標(biāo)簽分類,其網(wǎng)絡(luò)結(jié)構(gòu)包含兩個隱藏層,每個隱藏層256個神經(jīng)元,采用He初始化方法;Dropout設(shè)置為0.5,使用ReLU激活函數(shù)。

2 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證所提多標(biāo)簽分類模型的有效性,使用中國裁判文書網(wǎng)公開的裁判文書,以從長文本中抽取案件要素為例,比較該模型與常用模型在分類性能上的差別。

2.1 標(biāo)注語料

本實(shí)驗(yàn)搜集到中國裁判文書網(wǎng)公開的裁判文書10萬余份。為實(shí)現(xiàn)對文本進(jìn)行分割并分類,需要定義復(fù)雜的短文本類別標(biāo)簽集,針對不同的犯罪類型,標(biāo)簽集包含的內(nèi)容也各不相同。以盜竊罪為例,需要定義的類別有:盜竊時間點(diǎn)、盜竊工具、手段方法、公然竊取、秘密竊取、入戶扒竊、造成其他損害、被盜物品價值、失竊者損失后果、處理情況、是否返還、如何到案、強(qiáng)制措施、認(rèn)罪認(rèn)罰情況、上訴抗訴等共15類標(biāo)簽。由于目前并沒有公開的司法文書標(biāo)注語料庫可供使用,因此從語料庫中選取盜竊類型且內(nèi)容較為詳實(shí)的2 900份文書進(jìn)行標(biāo)注,所有的標(biāo)注工作均由經(jīng)過專業(yè)培訓(xùn)的人員手工標(biāo)注完成。盡管不排除主觀因素對多標(biāo)簽標(biāo)注邊界的影響,但總體而言標(biāo)注質(zhì)量較高,非常適合用于模型的訓(xùn)練。

標(biāo)注工作完成后,短文本樣本的表示方式為: 〈sm,x1,x2,…,xQ〉,其中sm為輸入第m個的文本序列,xi為是否屬于標(biāo)簽i的示性函數(shù),如果xi=1,表示sm屬于分類i,否則xi=0。

2.2 樣本分布

盜竊案件各要素標(biāo)簽樣本分布如表1所示。

表1 盜竊案標(biāo)簽樣本分布

從數(shù)據(jù)集中隨機(jī)抽取三部分作為訓(xùn)練集、驗(yàn)證集、測試集,文書數(shù)量比例約為4∶1∶1。第一基礎(chǔ)分類模型主要用于獲取所有樣本的多標(biāo)簽概率分布矩陣,每次使用80%的訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練。第二基礎(chǔ)分類模型,則使用全部的訓(xùn)練集數(shù)據(jù)重新訓(xùn)練3個第一層分類器,在原來分配的驗(yàn)證集上獲取最佳模型。混合器使用多標(biāo)簽概率矩陣進(jìn)行訓(xùn)練,在訓(xùn)練第二基礎(chǔ)分類模型后,使用同一個混合器。兩個過程分布完成以后,在最終在測試集上得到整個堆疊模型的性能指標(biāo)。

2.3 結(jié)果對比

在機(jī)器學(xué)習(xí)中評估模型的性能通常使用精度P、召回率R、F1分?jǐn)?shù)三個指標(biāo),計算公式分別為:

Pi=TPi/(TPi+FPi)

(8)

Ri=TPi/(TPi+FNi)

(9)

Fi=2Pi×Ri/(Pi+Ri)

(10)

其中,TP表示真正類的數(shù)量,F(xiàn)P表示假正類的數(shù)量,F(xiàn)N表示假負(fù)類的數(shù)量。由公式可知,P表示精度,R表示召回率,F(xiàn)1分?jǐn)?shù)是精度和召回率的諧波平均值,只有當(dāng)召回率和精度都很高時,才能獲得較高的F1分?jǐn)?shù)。為了證明提出的模型在性能方面的優(yōu)越性,在相同數(shù)據(jù)集上,分別與TextCNN、BiGRU、BERT等幾個模型進(jìn)行比較,比較結(jié)果如表2所示。

表2 不同模型在測試集上分類性能

從統(tǒng)計數(shù)據(jù)可以看出,堆疊模型綜合計算BERT、TextCNN、BiGRU等強(qiáng)模型輸出的分類概率值,在F1分?jǐn)?shù)上獲得進(jìn)一步的提升,F(xiàn)1分?jǐn)?shù)的加權(quán)平均值達(dá)到87.2%,比性能最好的BERT模型提高了3個百分點(diǎn)。

3 結(jié)束語

為提高短文本多標(biāo)簽分類性能,提出一種融合深度學(xué)習(xí)與堆疊模型的短文本多標(biāo)簽分類方法,該方法采取多層分類器結(jié)構(gòu),使用BERT、TextCNN、Bi-GRU等差異化較大、準(zhǔn)確性較高的強(qiáng)分類器作為第一層學(xué)習(xí)模型,生成的多標(biāo)簽概率矩陣用來訓(xùn)練第二層的混合器。

實(shí)驗(yàn)表明,該方法優(yōu)于目前主流的幾種短文本多標(biāo)簽分類模型,在性能上得到了進(jìn)一步的提升。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 91高清在线视频| 香蕉eeww99国产精选播放| 黄色在线不卡| 欧美不卡视频在线| 在线免费看黄的网站| 无码久看视频| 激情影院内射美女| 色婷婷亚洲综合五月| 九色综合视频网| 亚洲人成日本在线观看| 欧美精品1区| 1769国产精品免费视频| 40岁成熟女人牲交片免费| 国产极品粉嫩小泬免费看| 亚洲伦理一区二区| 成人年鲁鲁在线观看视频| 99热这里只有成人精品国产| 一本二本三本不卡无码| 97精品伊人久久大香线蕉| 亚洲一区波多野结衣二区三区| 欧美国产中文| 特级精品毛片免费观看| 亚洲精品亚洲人成在线| 男女男精品视频| 国产亚洲欧美日韩在线一区二区三区| A级毛片高清免费视频就| 性欧美精品xxxx| 国产精品亚洲五月天高清| 国产精品任我爽爆在线播放6080| 中文天堂在线视频| 免费无遮挡AV| 在线观看国产黄色| 国产91成人| 成人午夜视频在线| AV在线麻免费观看网站 | 小13箩利洗澡无码视频免费网站| 国产专区综合另类日韩一区| 午夜国产精品视频黄| 久久五月天综合| 国产69囗曝护士吞精在线视频| 91午夜福利在线观看精品| 亚洲午夜福利精品无码不卡 | 色屁屁一区二区三区视频国产| 亚洲视屏在线观看| 美女被操黄色视频网站| 国产亚洲日韩av在线| 99精品免费在线| 91青青在线视频| 伊人久综合| 欧美在线黄| 中文字幕永久视频| a级毛片一区二区免费视频| 91黄视频在线观看| 激情综合婷婷丁香五月尤物 | 亚洲日韩图片专区第1页| 成人在线观看一区| 人妻丰满熟妇αv无码| 欧美国产日韩另类| 国产一区二区人大臿蕉香蕉| 精品国产一区91在线| 精品一区二区三区无码视频无码| 国产在线精品人成导航| 网久久综合| 久草性视频| 亚洲浓毛av| 亚洲国产中文综合专区在| 国产无码高清视频不卡| 人妻精品全国免费视频| 成人午夜视频免费看欧美| 一级毛片在线播放免费| 又黄又湿又爽的视频| 亚洲人成网站色7799在线播放| 一级做a爰片久久免费| 91九色视频网| 亚洲天堂在线免费| 久久精品国产999大香线焦| 免费不卡视频| 欧美成一级| 亚洲最大看欧美片网站地址| 高清久久精品亚洲日韩Av| 亚洲—日韩aV在线| 亚洲美女一区|