999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合圖卷積神經(jīng)網(wǎng)絡(luò)和BiGRU-TextCNN的罪名預(yù)測(cè)模型*

2023-03-18 11:40:48江操安德智馬雪潔
科學(xué)與信息化 2023年5期
關(guān)鍵詞:特征文本融合

江操 安德智 馬雪潔

甘肅政法大學(xué) 甘肅 蘭州 730000

引言

隨著人工智能的發(fā)展和司法信息化體系的構(gòu)建,將人工智能引入到司法領(lǐng)域成為近年來(lái)研究熱點(diǎn)。自2013年以來(lái),中國(guó)司法部門通過(guò)互聯(lián)網(wǎng)向公眾開放了一系列裁判文件,以期通過(guò)社會(huì)的力量獲得輔助法律判決預(yù)測(cè)的新方法。法律判決預(yù)測(cè)一般包括多類子任務(wù):罪名預(yù)測(cè)、法條預(yù)測(cè)和刑期預(yù)測(cè)等[1]。本文主要關(guān)注于罪名預(yù)測(cè)任務(wù),以刑事案件為研究對(duì)象,主要目標(biāo)是基于刑事法律文書中的案情描述和事實(shí)部分,使模型能夠準(zhǔn)確預(yù)測(cè)案件所涉及的罪名。具有較大的應(yīng)用價(jià)值[2]。

本文提出了一種融合了圖卷積神經(jīng)網(wǎng)絡(luò)[3]和BiGRUTextCNN的罪名預(yù)測(cè)系統(tǒng)模型。本文利用訓(xùn)練好的詞向量將文本序列化后輸入到BiGRU-CNN模型中,提取到案情描述的特征,依此進(jìn)行分類得到對(duì)測(cè)試集樣本的各標(biāo)簽的分?jǐn)?shù)。再將文本數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)輸入到GCN模型中,同樣對(duì)測(cè)試集樣本各標(biāo)簽進(jìn)行評(píng)分,最后將二者的分?jǐn)?shù)相加,取最高分作為最后的預(yù)測(cè)結(jié)果。

1 相關(guān)工作

1.1 數(shù)據(jù)預(yù)處理

對(duì)于BiGRU-CNN模型預(yù)測(cè)部分,需要對(duì)數(shù)據(jù)進(jìn)行分詞、去除停用詞、構(gòu)建詞典、文本序列化。完成以上操作后即可輸入到BiGRU-CNN模型中,而GCN模型只能處理結(jié)構(gòu)化數(shù)據(jù),因此對(duì)于案情描述文本需要將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),把每一條案情描述轉(zhuǎn)變成圖數(shù)據(jù)的鄰接矩陣的形式,首先對(duì)分詞去停用詞后的案情描述進(jìn)行詞頻統(tǒng)計(jì)如表1。

表1 部分詞頻統(tǒng)計(jì)表

選取出現(xiàn)最多的前一千個(gè)詞,并根據(jù)這一千個(gè)詞排列順序,對(duì)分詞去停用詞后的案情描述進(jìn)行替換,將每一條文字描述替換成相應(yīng)的數(shù)字序列,流程如圖1。

圖1 文本轉(zhuǎn)換流程圖

這些序列中的每一個(gè)數(shù)字視為圖結(jié)構(gòu)中的點(diǎn)。本文需要依據(jù)數(shù)字序列構(gòu)建包含文本結(jié)構(gòu)信息的鄰接矩陣。為了建立點(diǎn)與點(diǎn)之間的聯(lián)系,本文將數(shù)字序列中相鄰的兩個(gè)點(diǎn)設(shè)為相關(guān)聯(lián),同時(shí)每個(gè)點(diǎn)也與自身相關(guān)聯(lián),以此為規(guī)則生成鄰接矩陣中的坐標(biāo)。同時(shí)考慮到在中文文本中每個(gè)詞匯都是有相應(yīng)的詞性的,若是不區(qū)分詞性將所有節(jié)點(diǎn)默認(rèn)為一類將失去部分文本信息,因此本文依據(jù)中文詞匯中的名詞、代詞、動(dòng)詞、形容詞、數(shù)詞、量詞、區(qū)別詞、副詞、介詞、連詞、冠詞、助詞這十二種詞性,將這一千個(gè)詞代表的點(diǎn)分為了十二類。本文依據(jù)上述方式將文本數(shù)據(jù)轉(zhuǎn)化成了圖卷積神經(jīng)網(wǎng)絡(luò)可以處理的圖數(shù)據(jù)。

1.2 圖卷積神經(jīng)網(wǎng)絡(luò)

圖數(shù)據(jù)的每個(gè)結(jié)點(diǎn)都受到其鄰居節(jié)點(diǎn)的影響,圖卷積神經(jīng)網(wǎng)絡(luò)就是利用鄰居結(jié)點(diǎn)的信息來(lái)推導(dǎo)該結(jié)點(diǎn)的信息,從而得到圖數(shù)據(jù)的特征。這一過(guò)程中又需要用到兩個(gè)理論工具拉普拉斯矩陣與傅立葉變換。為了得到數(shù)據(jù)的圖域卷積,需要先對(duì)圖和卷積核做傅立葉變換后相乘,再傅立葉反變換回來(lái),這樣就得到了圖域卷積。因此得到了圖卷積的計(jì)算公式如式1。

其中, 為鄰接矩陣與單位矩陣的和, 為 的度矩陣,H是每一層的特征,W是權(quán)重矩陣,再經(jīng)過(guò)非線性激活函數(shù)σ就得到了圖卷積提取的圖數(shù)據(jù)特征。

1.3 BiGRU

GRU是LSTM網(wǎng)絡(luò)的一種效果很好的變體,它繼承了LSTM模型和RNN模型的特性,一定程度上解決了RNN的梯度問(wèn)題,同時(shí)解決了梯度反傳過(guò)程由于逐步縮減而產(chǎn)生的梯度消失問(wèn)題,能夠?qū)W習(xí)長(zhǎng)期的規(guī)律。而BiGRU 是由兩個(gè)反向的GRU 組成的神經(jīng)網(wǎng)絡(luò)模型,BiGRU能夠提供額外的上下文特征信息,有助于捕捉時(shí)間序列里長(zhǎng)期的依賴關(guān)系。在GRU模型中只有兩個(gè)門:分別是更新門和重置門。具體結(jié)構(gòu)如下圖2所示:

圖2 GRU結(jié)構(gòu)單元

計(jì)算過(guò)程如式2、3、4、5。

而雙向GRU(BiGRU)BiGRU是由單向的、方向相反的、輸出由這兩個(gè) GRU 的狀態(tài)共同決定的 GRU組成的神經(jīng)網(wǎng)絡(luò)模型,這種形式能獲取某一時(shí)刻前、后兩個(gè)方向的數(shù)據(jù)信息并加以利用,使得預(yù)測(cè)值更加接近真實(shí)值。

1.4 Text-CNN

卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks),是深度學(xué)習(xí)的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類,因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)”。圖像上的CNN模型主要是依靠輸入圖片的平移不變性,利用卷積核提取圖片特征,而在文本上CNN模型種卷積核提取的是相鄰兩個(gè)或多個(gè)個(gè)單詞向量的特征,與傳統(tǒng)的CNN卷積核相比Text-CNN的卷積核不是正方形的,寬度跟詞向量維度相等。文本分類模型text-CNN與傳統(tǒng)CNN網(wǎng)絡(luò)相比網(wǎng)絡(luò)結(jié)構(gòu)上沒(méi)有任何變化。

2 模型架構(gòu)

本文使用BiGRU-TextCNN模型和GCN模型分別完成對(duì)數(shù)據(jù)的預(yù)測(cè),再將二者的結(jié)果匯總成最后的預(yù)測(cè)結(jié)果。這里是兩個(gè)模型分別進(jìn)行訓(xùn)練預(yù)測(cè)的過(guò)程如圖3,首先將文本數(shù)據(jù)傳入到BiGRU-TextCNN模型中得到預(yù)測(cè)的分?jǐn)?shù),再將文本數(shù)據(jù)處理成圖數(shù)據(jù)放入GCN模型中得到該模型的預(yù)測(cè)分?jǐn)?shù),最后將2個(gè)預(yù)測(cè)的分?jǐn)?shù)相加,選取最大的作為最后的預(yù)測(cè)結(jié)果。

圖3 模型結(jié)構(gòu)圖

2.1 BiGRU-TextCNN模型預(yù)測(cè)

這一部分使用了 BiGRU-TextCNN模型對(duì)數(shù)據(jù)集進(jìn)行特征提取訓(xùn)練和預(yù)測(cè),首先將數(shù)據(jù)分詞去停用詞,再經(jīng)過(guò)詞嵌入層獲得文本的向量表示,這時(shí)就可以輸入到BiGRU中進(jìn)行特征提取,再將提取出來(lái)的時(shí)序特征傳入下層的Text-CNN模型中再次提取特征,最后經(jīng)過(guò)全連接層得到一個(gè)包含了預(yù)測(cè)結(jié)果的向量。

2.2 GCN模型預(yù)測(cè)

這一部分使用了GCN模型對(duì)數(shù)據(jù)集進(jìn)行特征提取訓(xùn)練和預(yù)測(cè)。因?yàn)镚CN只能處理非歐式數(shù)據(jù),所以需要根據(jù)前文所述的方法將文本轉(zhuǎn)化成圖數(shù)據(jù)的形式。數(shù)據(jù)處理完成后將其輸入到GCN模型中,本文使用的模型有三個(gè)圖卷積層,將三組特征相拼接組合成了最后的特征,輸入到池化層中,本文使用的是基于自注意力的池化機(jī)制的思想,是通過(guò)圖卷積從圖中自適應(yīng)地學(xué)習(xí)每個(gè)節(jié)點(diǎn)的重要性。最后一樣經(jīng)過(guò)全連接層得到一個(gè)包含了預(yù)測(cè)結(jié)果的向量。

2.2 特征融合

特征融合是模式識(shí)別領(lǐng)域的一種重要方法,主要應(yīng)用于計(jì)算機(jī)視覺(jué)中的圖像識(shí)別上,特點(diǎn)是實(shí)現(xiàn)多特征的優(yōu)勢(shì)互補(bǔ)增加結(jié)果的準(zhǔn)確性,特征融合的方式有兩種分別是早融合和晚融合。

本文采用的是晚融合的特征融合方法,即通過(guò)GCN模型和BiGRU-Text-CNN模型分別預(yù)測(cè)出兩個(gè)包含結(jié)果的向量大小為128×10,將這兩個(gè)向量按40%和60%的比重對(duì)應(yīng)相加得到融合二者的新的預(yù)測(cè)向量,經(jīng)過(guò)激活函數(shù)后得到最后的預(yù)測(cè)結(jié)果。

3 實(shí)驗(yàn)驗(yàn)證與分析

3.1 數(shù)據(jù)集介紹

本次實(shí)驗(yàn)使用了法研杯2018的數(shù)據(jù)集,該數(shù)據(jù)包含了20多萬(wàn)條各種罪名文本,每一條數(shù)據(jù)由8個(gè)部分組成,包括事實(shí)描述、被告、罰款、罪名、相關(guān)法條、是否死刑、是否無(wú)期、有期徒刑刑期。本文主要使用了事實(shí)描述和罪名部分,選取了數(shù)據(jù)集中出現(xiàn)最多的十種犯罪罪名,包括盜竊、搶劫、故意傷害、非法持有或私藏槍支彈藥、詐騙、危險(xiǎn)駕駛、制造販賣傳播淫穢物品、交通肇事、受賄、組織強(qiáng)迫引誘容留介紹賣淫,數(shù)據(jù)集結(jié)果如下表2。

表2 數(shù)據(jù)集組成

3.2 模型評(píng)價(jià)標(biāo)準(zhǔn)

本文采用了宏平均來(lái)評(píng)價(jià)模型首先分別計(jì)算各自分類的Precision和Recall如式6、7、8,得到各自的F1值,然后取平均值得到Macro-F1,其中TP表示將正類預(yù)測(cè)為正類的個(gè)數(shù),F(xiàn)N表示將正類預(yù)測(cè)為負(fù)類的個(gè)數(shù),F(xiàn)P表示將負(fù)類預(yù)測(cè)為正類的個(gè)數(shù),TN表示將負(fù)類預(yù)測(cè)為負(fù)類的個(gè)數(shù)。

3.3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)是對(duì)2018年法研杯數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,按照數(shù)據(jù)集中文本個(gè)數(shù)的80%進(jìn)行訓(xùn)練和20%進(jìn)行測(cè)試的規(guī)則進(jìn)行數(shù)據(jù)劃分,分別對(duì)Text-CNN模型、RNN模型、LSTM模型、RNNAttention模型,BiGRU模型、BiGRU-Text-CNN模型和本文使用的GCN-BiGRU-Text-CNN模型進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表3。

表3 各算法實(shí)驗(yàn)結(jié)果

從實(shí)驗(yàn)結(jié)果來(lái)看,Text-CNN模型的效果要優(yōu)于RNN模型,但是融合了注意力機(jī)制后RNN-Attention模型要比RNN模型強(qiáng)一些。BiGRU模型繼承了LSTM模型和RNN模型的特性,一定程度上解決了RNN的梯度問(wèn)題。BiGRU-TextCNN模型融合了CNN和BiGRU的特點(diǎn)有了更好的結(jié)果,本文使用的模型在此基礎(chǔ)上還另外融合了GCN模型,在最后的實(shí)驗(yàn)數(shù)據(jù)上有一定的提升,證明的本文提出的方法的可行性。

4 結(jié)束語(yǔ)

本研究由甘肅省教育廳創(chuàng)新基金項(xiàng)目(2022CYZC-57)資助。本文使用的融合圖卷積神經(jīng)網(wǎng)絡(luò)和BiGRU-CNN的模型,較以往的方法F1有所提升,往后對(duì)二者進(jìn)行特征融合達(dá)到更好的結(jié)果是我們未來(lái)的研究方向。

猜你喜歡
特征文本融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 免费人成网站在线高清| 99久久国产自偷自偷免费一区| 97se亚洲| 亚洲成人手机在线| 香港一级毛片免费看| 伊人91视频| 色噜噜久久| 中文字幕在线欧美| 真人高潮娇喘嗯啊在线观看| 国产亚洲精品资源在线26u| 天天色天天操综合网| 国产精品成人第一区| 成年人国产视频| 日本免费福利视频| 国产乱人乱偷精品视频a人人澡| www.亚洲色图.com| 一级毛片基地| 色网在线视频| a色毛片免费视频| 免费99精品国产自在现线| 国产精品视频导航| 亚洲日韩精品无码专区97| 一级毛片在线播放免费观看| 亚洲国产中文精品va在线播放| 日本免费a视频| 国产jizzjizz视频| 一级毛片a女人刺激视频免费| 91免费观看视频| 久久青草免费91观看| 国产自在线拍| 伊人久久大香线蕉成人综合网| 国产迷奸在线看| 毛片网站观看| www.av男人.com| 在线不卡免费视频| 永久免费无码日韩视频| 日本久久网站| 欧美日在线观看| 福利视频久久| 亚洲黄色激情网站| 亚洲一区二区黄色| 国产精品成人AⅤ在线一二三四| 日韩人妻少妇一区二区| 天天综合天天综合| 亚洲成人动漫在线观看| 五月天丁香婷婷综合久久| 999福利激情视频| 亚州AV秘 一区二区三区| 99热这里只有精品国产99| 亚洲精品午夜无码电影网| 亚洲三级a| 98超碰在线观看| 在线观看国产精品第一区免费| 中文字幕亚洲第一| 日韩高清中文字幕| 亚洲人精品亚洲人成在线| 18禁不卡免费网站| 午夜精品区| 亚洲伊人电影| 女人18毛片水真多国产| 国产综合色在线视频播放线视| 91精品国产一区自在线拍| 老司机午夜精品视频你懂的| 丝袜无码一区二区三区| 精品国产污污免费网站| 欧美特黄一级大黄录像| 人人妻人人澡人人爽欧美一区| 老司国产精品视频91| 国产精品亚欧美一区二区三区| 58av国产精品| 久久精品中文字幕免费| 色噜噜久久| 亚洲成肉网| 免费国产不卡午夜福在线观看| 国产一区二区精品福利| 美女国产在线| 国产成人免费视频精品一区二区| 中文字幕永久视频| 人妻精品久久久无码区色视| 女人天堂av免费| 中国国产高清免费AV片| 国产第一福利影院|