裘凱凱?丁偉杰?鐘南江



摘? 要:近年來自然語言處理領(lǐng)域發(fā)展迅猛,文本分類任務(wù)作為其中的基本任務(wù)出現(xiàn)了重大突破,但并未輻射到公安工作實(shí)務(wù)之中。目前文本分類領(lǐng)域以采用基于統(tǒng)計(jì)和概率的模型為主,但是相比于使用大量語料訓(xùn)練的預(yù)訓(xùn)練模型,其分類效果并不理想。文章采取預(yù)訓(xùn)練ERNIE作為特征提取模型,并以SA-Net結(jié)合ERNIE模型中的注意力機(jī)制,最后以DPCNN作為深度學(xué)習(xí)網(wǎng)絡(luò)形成ERNIE-SA-DPCNN算法。實(shí)驗(yàn)證明,ERNIE-SA-DPCNN在涉網(wǎng)新型犯罪案件案情文本分類任務(wù)上的表現(xiàn)優(yōu)于其他模型。
關(guān)鍵詞:涉網(wǎng)新型犯罪;文本分類;ERNIE;SA-Net;DPCNN
中圖分類號(hào):TP391? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)06-0069-06
Research on Text Classification Based on ERNIE-SA-DPCNN
—Take the Text of New Network Related Crime Cases as an Example
QIU Kaikai1,3, DING Weijie2,3, ZHONG Nanjiang1,3
(1.Department of Computer and Information Security, Zhejiang Police College, Hangzhou? 310053, China; 2.Research Institute of Dig Data and Network Security, Zhejiang Police College, Hangzhou? 310053, China; 3.Key Laboratory of the Ministry of Public Security for Public Security Informatization Application Based on Big Data Architecture, Hangzhou? 310053, China)
Abstract: In recent years, the field of natural language processing has developed rapidly. As one of the basic tasks, text classification task has made a major breakthrough, but it has not radiated into the practice of public security work. At present, the field of text classification mainly adopts the model based on statistics and probability, but compared with the pre training model trained with a large number of corpus, its classification effect is not ideal. Pre training ERNIE is used as the feature extraction model, and SA-Net is combined with the attention mechanism in ERNIE model. Finally, DPCNN is used as the deep learning network to form ERNIE-SA-DPCNN algorithm. Experiments show that ERNIE-SA-DPCNN performs better than other models in the task of case text classification of new online crime cases.
Keywords: new network related crime; text classification; ERNIE; SA-Net; DPCNN
0? 引? 言
2021年7月28日,浙江省公安廳召開“凈網(wǎng)2021”新聞發(fā)布會(huì)[1],通報(bào)稱截至2021年7月28日,全省共偵辦各類網(wǎng)絡(luò)違法犯罪案件2.4萬余起,抓獲犯罪嫌疑人2.6萬余人。在涉網(wǎng)新型犯罪頻發(fā)的嚴(yán)峻態(tài)勢下,公安采取“專人專辦”的方式來提高公安民警辦理相關(guān)案件效率。本團(tuán)隊(duì)前往杭州市公安局蕭山分局進(jìn)行實(shí)地調(diào)查,發(fā)現(xiàn)目前案情主要由人工進(jìn)行錄入和分類流轉(zhuǎn),雖然人工處理準(zhǔn)確率相對(duì)較高,但手工流轉(zhuǎn)通報(bào)方式對(duì)辦案效率依然造成了負(fù)面影響。本文設(shè)計(jì)了一種ERNIE-SA-DPCNN涉網(wǎng)新型犯罪案件文本分類器,能自動(dòng)將涉網(wǎng)新型犯罪案件從全部案件中分離出來,以提高流轉(zhuǎn)通報(bào)效率,從而提高公安民警辦理涉網(wǎng)新型犯罪案件效率。
目前國內(nèi)并沒有對(duì)涉網(wǎng)新型犯罪案件分類專門進(jìn)行的研究,其中孟令慈[2]針對(duì)裁判文書分類提出了BERT-LSTM模型,平均識(shí)別率約為85%。但這類學(xué)術(shù)研究對(duì)公安工作僅有指導(dǎo)性作用,可以作為研判分析的依據(jù),但并對(duì)公安實(shí)戰(zhàn)并沒有實(shí)質(zhì)性的幫助。
目前國內(nèi)提出了許多文本分類方案。程盼等[3]針對(duì)中文專利文本,建立了Word2vec-logistic回歸算法。而Word2vec等模型不能解決一詞多義問題,且基于統(tǒng)計(jì)和概率的算法難以充分表示文本間關(guān)系。目前常用的LSTM算法并行處理的能力較弱,而CNN算法無法獲取長距離的文本依賴關(guān)系。同時(shí)BERT模型在中文文本特征提取的表現(xiàn)并不理想。本研究將通過加入中文實(shí)體預(yù)訓(xùn)練的ERNIE模型,解決中文文本特征提取的問題;通過結(jié)合SA-Net加深特征提取深度,創(chuàng)新注意力機(jī)制從而深度提取文本特征;通過DPCNN算法進(jìn)行深度學(xué)習(xí),解決長距離特征提取問題和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法運(yùn)行效率較低的問題,從而達(dá)到更好的分類效果,并在接下來的實(shí)驗(yàn)中證明。280B69BA-0ECD-42F9-945A-C04E85844B36
1? 相關(guān)工作
1.1? 文本分類發(fā)展歷程
國外對(duì)文本分類的研究起步較早,早在20世紀(jì)60年代,來自IBM的LUHN H P[4]首次提出統(tǒng)計(jì)詞頻的方法,開創(chuàng)了文本分類的先河,為以后文本分類的發(fā)展打下基礎(chǔ)。但這種方法對(duì)詞頻詞語的選擇提出了較高要求,需要由具有專業(yè)知識(shí)的專家學(xué)者方可實(shí)施,其泛用性和準(zhǔn)確性依然較低。
直至20世紀(jì)80年代,基于知識(shí)的文本分類占主導(dǎo)地位。分類器需要大量的專家參與,不但開發(fā)時(shí)間長且開發(fā)所需經(jīng)費(fèi)開銷大,另外即使專家和知識(shí)工程師都具有很豐富的經(jīng)驗(yàn),也很難證實(shí)規(guī)則與知識(shí)是正確的,并且二者之間的一致性也很難保證。
自從20世紀(jì)90年代開始,伴隨著數(shù)學(xué)的發(fā)展,基于統(tǒng)計(jì)和概率的方法被提出,這種方法相對(duì)于知識(shí)工程的方法,在準(zhǔn)確率和穩(wěn)定性方面都有著明顯的優(yōu)勢。1993年,Igor KONONENKO I [5]第一次使用樸素貝葉斯算法進(jìn)行分類工作。1994年,SALZBERG S L[6]詳細(xì)介紹了J.Ross Quinlan的第二代決策樹算法——C4.5。1995年,Cortes C.和VAPNIK V N[7]提出了軟邊距的非線性支持向量機(jī)并應(yīng)用于手寫字符識(shí)別問題。1996年[8]對(duì)KNN進(jìn)行剖析并著重研究了其在分類問題中的性能表現(xiàn)。此后,越來越多的研究人員開始關(guān)注基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本分類方法。
1.2? 中文分詞現(xiàn)狀
雖然基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本分類方法依然適用于當(dāng)下的文本分類任務(wù),但是這些方法都是將文本向量化后的根據(jù)其坐標(biāo)位置進(jìn)行聚類。相比于其他語種,中文文本中的詞句結(jié)構(gòu)要復(fù)雜得多,所以中文文本依然沒有一個(gè)明確的泛用分詞方法。目前,中文分詞方法主要分為基于詞典分詞算法以及基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法。
常見的基于詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。其本質(zhì)就是將文本與詞典進(jìn)行匹配從而進(jìn)行分詞,而文本分詞的準(zhǔn)確度與詞典掛鉤,但由于詞典的限制,分詞工具在使用上都有著一定的局限性。
當(dāng)前深度學(xué)習(xí)快速發(fā)展,基于其強(qiáng)大的表示學(xué)習(xí)的能力,越來越多的預(yù)訓(xùn)練模型被提出,這些預(yù)訓(xùn)練模型在發(fā)表前已經(jīng)經(jīng)過了大量語料學(xué)習(xí),其準(zhǔn)確度和速度均優(yōu)于基于詞典的分詞算法,同時(shí)也彌補(bǔ)了當(dāng)前中文文本分詞方法的缺點(diǎn)。
2? 本文方法
本文所設(shè)計(jì)的ERNIE-SA-DPCNN模型結(jié)構(gòu)如圖1所示。其中,警情文本句子自輸入層進(jìn)入ERNIE層后,由ERNIE模型預(yù)訓(xùn)練的分詞模型進(jìn)行分詞操作,并同時(shí)進(jìn)行中文實(shí)體檢測。詞語序列進(jìn)行MASK掩碼預(yù)測學(xué)習(xí),通過兩層多頭自注意力層將該語句轉(zhuǎn)化為包含上下文信息的詞向量,同時(shí)檢測到的中文實(shí)體的語義信息也會(huì)通過兩層多頭自注意力層轉(zhuǎn)化為和詞向量結(jié)構(gòu)相同的語義向量,最后將對(duì)齊位置的詞向量和語義向量進(jìn)行信息融合,就得到了該語句包含語義信息和上下文信息的詞向量,至此一句語句變成了一個(gè)二維矩陣,將固定數(shù)量的二維矩陣進(jìn)行堆疊形成一個(gè)三維矩陣。此時(shí)該三維矩陣可以看作是一張多通道圖片,便可以使用SA-Net的圖像注意力機(jī)制對(duì)其進(jìn)行特征強(qiáng)化提取。將三維矩陣沿著通道方向進(jìn)行分組形成亞特征圖,并將每個(gè)亞特征圖再沿通道方向平均分為兩個(gè)部分,分別進(jìn)行通道注意力和空間注意力的提取并組合,其注意力結(jié)果矩陣的形狀與亞特征圖相同,然后對(duì)所有亞特征圖進(jìn)行channel shuffle,就得到了SA-Net強(qiáng)化提取特征的文本詞向量三維矩陣此時(shí)再將其沿語句數(shù)方向進(jìn)行劃分,就得到了每個(gè)語句的SA-Net強(qiáng)化特征提取后的詞向量,將其作為DPCNN層的region embeddings輸入,DPCNN通過循環(huán)兩個(gè)等長卷積層和一個(gè)1/2池化層進(jìn)行長距離特征綜合,同時(shí)引入殘差連接防止網(wǎng)絡(luò)退化,最后將包含長距離特征的詞向量輸入全連接層進(jìn)行學(xué)習(xí)分類,最后得到分類結(jié)果。
2.1? ERNIE層
輸入層將警情文本按每批次訓(xùn)練樣本大小sample_size輸入到ERNIE層中。ERNIE層得到sample_size長度的語句序列,將每個(gè)語句通過已預(yù)訓(xùn)練過的分詞模型進(jìn)行分詞,得到每個(gè)語句的詞嵌入表示{t1,t2,t3,…,tn},其中n為句子最大長度。
然后ERNIE層采用動(dòng)態(tài)詞向量對(duì)文本進(jìn)行分析,得到詞語與上下文之間的關(guān)系,比如在語句“我是誰”中,“是”字在靜態(tài)詞向量中表示為一個(gè)確定的向量:是=(x1,x2,…,xn),其中n為該詞向量矩陣的總維度數(shù);而在動(dòng)態(tài)詞向量中,其可以簡單表示為:
其中n為該語句字符總數(shù),fi為影響函數(shù),Ci為第i個(gè)字符,pi即該字符與“是”的相對(duì)位置,在例句中表示為:
是=f1(我,-1)+f2(誰,1)
而基于動(dòng)態(tài)詞向量的模型通過對(duì)大量語料的學(xué)習(xí),便可以分析出每個(gè)字受其他字的影響程度,從而可以在缺省文本中預(yù)測出缺省字,ERNIE層中的底層文本編碼器就是利用這種機(jī)制得到上下文信息向量。
然后多頭自注意力層對(duì)詞向量和上下文信息向量進(jìn)行混合,將輸入向量矩陣T進(jìn)行位置編碼得到矩陣X,并通過與三個(gè)權(quán)重矩陣相乘得到詞語間關(guān)聯(lián)度:
Q=XWq
K=XWk
V=XWv
然后將Q和K相乘除以K的秩dK的算術(shù)平方根以穩(wěn)定梯度,歸一化后對(duì)V 加權(quán)求和,就得到了單頭自注意力層輸出:
將不同權(quán)重的單頭自注意力層進(jìn)行混合得到多頭自注意力層,并最后歸一化為輸出w,可以充分提取詞語間關(guān)系。
而ERNIE層也會(huì)對(duì)語句與預(yù)訓(xùn)練實(shí)體庫進(jìn)行對(duì)比,獲取到的詞義信息以向量形式進(jìn)入兩層多頭自注意力層得到與混合詞向量維度一致的語義向量。然后,將中文實(shí)體的語義信息與詞向量的采用相同方法進(jìn)行混合,最后得到了語句詞向量{W1,W2,W3,…,Wn},每個(gè)語句詞向量都是hidden_size大小的一維向量,其中hidden_size指隱藏層數(shù),而每個(gè)語句都是(hidden_size,n)大小的二維向量矩陣,最終ERNIE層的輸出為(hidden_size,n,sample_size)大小的三維矩陣。280B69BA-0ECD-42F9-945A-C04E85844B36
2.2? SA-Net層
SA-Net是一個(gè)基于圖像的注意力機(jī)制,其輸入和輸出都是相同大小的三維矩陣,所以它可以內(nèi)嵌在任一環(huán)節(jié),對(duì)已提取出的特征矩陣進(jìn)行再提取改良。Yang等[9]證明了SA-Net對(duì)圖像識(shí)別的提升,并且其效率和準(zhǔn)確度相比主干網(wǎng)絡(luò)ResNet都有所提升。
將(hidden_size,n,sample_size)大小的三維矩陣輸入SA-Net層,將hidden_size看作圖片通道數(shù),n和sample_size看作圖片像素長寬。按照SA-Net的方法將三維矩陣沿hidden_size方向進(jìn)行切割,將原三維矩陣分割為G個(gè)亞特征圖,假設(shè)原三維矩陣為X∈RC×H×W,那X=[X1,…,XG],Xk∈RC/G×H×W。對(duì)于每個(gè)亞特征,會(huì)將亞特征圖再分割成兩個(gè)分支,即Xk1,Xk2∈RC/2G×H×W,將這兩個(gè)分支分別輸入通道注意力模塊和空間注意力模塊,如圖2所示。
圖2? SA-NET的注意力機(jī)制
在通道注意力中,通過全局平均池化,沿著空間維度H×W收縮Xk1計(jì)算,嵌入全局信息,生成通道統(tǒng)計(jì)數(shù)據(jù):
然后再通過sigmoid函數(shù)來創(chuàng)建一個(gè)緊致特征來自適應(yīng)選擇,最終通道注意力的輸出為:
其中W1,b1∈RC/2G×1×1用于縮放平移s使得能充分表達(dá)通道間相互關(guān)系。
而空間注意力,主要是用于補(bǔ)充通道注意力,提取局部豐富特征。在SA-Net中,通過對(duì)Xk2使用Group Norm來獲取空間統(tǒng)計(jì)數(shù)據(jù),同樣通過FC(·)來增強(qiáng)Xk2的特征表示,空間注意力的輸出為:
最后只需要將這兩個(gè)注意力連接起來,就使得分組后的輸入輸出結(jié)構(gòu)一致,即:
隨后通過channel shuffle,沿著通道維度實(shí)現(xiàn)跨組信息交流,最后形成與輸入特征圖結(jié)構(gòu)一致的輸出特征圖(hidden_size,n,sample_size)。
2.3? 深層金字塔卷積神經(jīng)網(wǎng)絡(luò)(DPCNN)層
SA-Net輸出的特征圖再沿sample_size分割為語句(hidden_size,n),作為DPCNN的region embeddings。取卷積核的大小為3,即將輸入序列的每位及其相鄰位的特征信息壓縮為該位的embedding。假設(shè)輸入序列的長度為seq_len,那每進(jìn)行一次壓縮,輸出序列的長度就會(huì)比輸入序列少2,DPCNN層采取等長卷積所以需要在輸出序列的兩端補(bǔ)0從而使得長度一致。進(jìn)行兩次壓縮后,當(dāng)前輸出序列里的每個(gè)實(shí)體位其實(shí)包含了前后共9個(gè)實(shí)體的上下文信息,顯然如果要通過這種方式來使得每個(gè)實(shí)體位提取遠(yuǎn)距離的實(shí)體信息,需要經(jīng)過較深的網(wǎng)絡(luò)層數(shù)。所以在每兩次等長卷積后,加入一次二分之一池化,直接合并了兩個(gè)相鄰實(shí)體從而極大降低了網(wǎng)絡(luò)層數(shù)。
但是由于在初始化深度CNN時(shí),各層賦權(quán)往往都會(huì)初始化一個(gè)很小值,這就會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)開始迭代時(shí),后續(xù)層的輸出都幾乎為零,在這種時(shí)候網(wǎng)絡(luò)的輸出就變得沒有意義,而過小的權(quán)重也會(huì)阻礙梯度傳播,導(dǎo)致網(wǎng)絡(luò)需要長時(shí)間反復(fù)迭代后才能啟動(dòng)。而且接近連乘的連接方式極有可能造成梯度爆炸或梯度彌散。所以這里加入ResNet中的殘差連接來解決DPCNN的冷啟動(dòng)問題。即直接把region embedding連接到各卷積層,從而把原先深度的網(wǎng)絡(luò)退化,大大降低了DPCNN層的啟動(dòng)時(shí)間,從而解決DPCNN層的冷啟動(dòng)問題。
3? 對(duì)比實(shí)驗(yàn)
3.1? 實(shí)驗(yàn)基礎(chǔ)設(shè)置
3.1.1? 實(shí)驗(yàn)數(shù)據(jù)集
本研究所選取的實(shí)驗(yàn)語料為2019年7月至2020年7月某市公安局某區(qū)公安分局警情文本數(shù)據(jù)集,數(shù)據(jù)集詳情如表1所示。該中文文本數(shù)據(jù)集中,類別分為涉網(wǎng)新型犯罪案件案情文本和傳統(tǒng)犯罪案件案情文本。因?yàn)槎诸惾蝿?wù)數(shù)據(jù)相對(duì)較好處理,不容易產(chǎn)生分類交叉的情況,日后公安機(jī)關(guān)使用時(shí)更具可靠性。該中文文本數(shù)據(jù)集總數(shù)據(jù)量為100 000條,其中訓(xùn)練數(shù)據(jù)90 000條,測試數(shù)據(jù)10 000條。
3.1.2? 模型參數(shù)設(shè)置
ERNIE-SA-DPCNN模型中,ERNIE模型使用“ERNIE-GEN base”,其中參數(shù)如表2所示。
SA-Net中,僅有分組數(shù)G和用于放縮擬合的W1,b1,W2,b2共5個(gè)參數(shù),其中只有分組數(shù)G需要手動(dòng)設(shè)定,值一般為32或64,為了區(qū)分不同分組數(shù)的SA-Net對(duì)ERNIE-SA-DPCNN模型的影響,下文將以ERNIE-SA(32)-DPCNN和ERNIE-SA(64)-DPCNN分別指代分組數(shù)為32和64的SA-Net。
DPCNN設(shè)定卷積核個(gè)數(shù)為默認(rèn)的250,殘差連接將根據(jù)實(shí)際實(shí)驗(yàn)中出現(xiàn)的冷啟動(dòng)問題進(jìn)行調(diào)整。
3.2? 評(píng)價(jià)指標(biāo)
為了評(píng)估中文文本分類模型的分類效果,本研究采用準(zhǔn)確率(Accuracy)、精度(Precision)、召回率(Recall)和F1分?jǐn)?shù)作為評(píng)價(jià)指標(biāo)。其中準(zhǔn)確率用以評(píng)價(jià)分類器預(yù)測分類結(jié)果與實(shí)際分類結(jié)果之間的差異;精度指分類器預(yù)測結(jié)果為正的樣本中實(shí)際結(jié)果也為正的概率,用以評(píng)價(jià)分類器僅返回相關(guān)實(shí)例的能力;召回率指實(shí)際結(jié)果為正的樣本中分類器預(yù)測正確的概率,用以評(píng)價(jià)分類器識(shí)別所有相關(guān)實(shí)例的能力;F1分?jǐn)?shù)是對(duì)精度和召回率的調(diào)和平均,從而綜合評(píng)價(jià)分類器的分類效果,其公式為:
3.3? 對(duì)比實(shí)驗(yàn)設(shè)置
為評(píng)價(jià)ERNIE-SA-DPCNN模型以及各部分具體效能,本研究主要從ERNIE-SA-DPCNN模型與主流文本分類模型對(duì)比實(shí)驗(yàn)、ERNIE-SA-DPCNN模型各部分效能對(duì)比實(shí)驗(yàn)著手進(jìn)行研究。
3.3.1? ERNIE-SA-DPCNN模型與主流文本分類模型對(duì)比實(shí)驗(yàn)設(shè)置280B69BA-0ECD-42F9-945A-C04E85844B36
為評(píng)價(jià)ERNIE-SA-DPCNN模型分類表現(xiàn),本文選取了5種預(yù)訓(xùn)練模型和2種基于統(tǒng)計(jì)和概率的模型進(jìn)行對(duì)比實(shí)驗(yàn),其中預(yù)訓(xùn)練模型參數(shù)如表3所示,基于統(tǒng)計(jì)和概率的模型參數(shù)如表4所示,ERNIE-SA(32)-DPCNN和ERNIE-SA(64)-DPCNN共用參數(shù)如表5所示。
3.3.2? ERNIE-SA-DPCNN模型各部分效能對(duì)比實(shí)驗(yàn)設(shè)置
為證明ERNIE-SA-DPCNN模型各部分在中文文本分類上都具有優(yōu)勢,本研究采用控制變量法進(jìn)行對(duì)比實(shí)驗(yàn),其中ERNIE模型與BERT模型進(jìn)行對(duì)比,DPCNN與TextCNN進(jìn)行對(duì)比,對(duì)比實(shí)驗(yàn)各模型參數(shù)如表6所示。
3.4? 實(shí)驗(yàn)結(jié)果及分析
3.4.1? ERNIE-SA-DPCNN模型與主流文本分類模型對(duì)比實(shí)驗(yàn)結(jié)果
ERNIE-SA-DPCNN模型與主流文本分類模型對(duì)比實(shí)驗(yàn)各項(xiàng)評(píng)價(jià)指標(biāo)結(jié)果如表7所示。由表7可知ERNIE-SA-DPCNN模型在涉網(wǎng)新型犯罪案件案情文本分類任務(wù)上的表現(xiàn)非常優(yōu)秀,兩種ERNIE-SA-DPCNN模型在該任務(wù)上的F1分?jǐn)?shù)均超過了95%,遠(yuǎn)超目前主流文本分類模型。其中,預(yù)訓(xùn)練模型的表現(xiàn)均優(yōu)于基于統(tǒng)計(jì)和概率的模型,說明依托于強(qiáng)大算力的深度學(xué)習(xí)網(wǎng)絡(luò)所訓(xùn)練的模型更加接近于人類希望達(dá)到的分類效果。而2018年提出的BERT模型相比于之前主流的TextCNN模型也有了較大提升,說明char-mix-level的向量提取方式優(yōu)于word-level的向量提取方式。SA-Net分組數(shù)G為32和64的ERNIE-SA-DPCNN在各項(xiàng)評(píng)價(jià)指標(biāo)上的差別不大,但是SA-Net分組數(shù)G為64的表現(xiàn)相對(duì)更好。
3.4.2? ERNIE-SA-DPCNN模型各部分效能對(duì)比實(shí)驗(yàn)結(jié)果
ERNIE-SA-DPCNN模型各部分效能對(duì)比實(shí)驗(yàn)各項(xiàng)評(píng)價(jià)指標(biāo)結(jié)果如表8所示。對(duì)比各組SA-Net不同分組數(shù)的各項(xiàng)評(píng)價(jià)指標(biāo),發(fā)現(xiàn)在ERNIE-SA-DPCNN模型、BERT-SA-DPCNN模型和ERNIE-SA-TextCNN模型中,分組數(shù)G為64的模型分類效果普遍優(yōu)于分組數(shù)G為32的模型,而對(duì)比ERNIE-SA(64)-DPCNN模型和ERNIE-DPCNN模型發(fā)現(xiàn),SA-Net在涉網(wǎng)新型犯罪案件案情文本分類任務(wù)
上可行且有效。對(duì)比ERNIE-SA-DPCNN模型和BERT-SA-DPCNN模型分類效果,說明ERNIE模型在涉網(wǎng)新型犯罪案件案情文本分類任務(wù)中效果優(yōu)于BERT模型,說明ERNIE模型的substance-mixed-level向量提取方法相比BERT模型的char-mixed-level向量提取方法更適合中文文本分類任務(wù)。而DPCNN和TextCNN的分類效果差異并不明顯,但是實(shí)際運(yùn)行過程中,使用殘差連接的DPCNN運(yùn)行速度約比TextCNN高12%,說明DPCNN對(duì)ERNIE模型的提升比TextCNN更大;同時(shí)對(duì)比ERNIE模型,使用CNN的ERNIE模型各項(xiàng)評(píng)價(jià)指標(biāo)比不使用CNN的ERNIE模型約高2%,說明DPCNN對(duì)ERNIE模型有效。
綜上來看,本研究提出的ERNIE-SA(64)-DPCNN模型在涉網(wǎng)新型犯罪案件案情文本分類任務(wù)上具有優(yōu)越性,相比目前主流中文分類模型提升較大。同時(shí)通過對(duì)比實(shí)驗(yàn),證明ERNIE-SA(64)-DPCNN模型中每一個(gè)部分都具有相對(duì)優(yōu)越性,尤其是使用SA-Net這種原本僅用于圖片識(shí)別的注意力機(jī)制,當(dāng)其使用在文本特征提取上時(shí)依然有效。
4? 結(jié)? 論
本研究將ERNIE模型、SA-Net和DPCNN相結(jié)合,建立ERNIE-SA-DPCNN中文文本分類模型。為了證明該模型在中文文本分類上的有效性,本團(tuán)隊(duì)將該模型與當(dāng)前主流中文文本分類模型進(jìn)行實(shí)驗(yàn)對(duì)比,得出該模型優(yōu)于當(dāng)前主流中文文本分類模型的結(jié)論。同時(shí),為了證明該模型每個(gè)部分的有效性,本團(tuán)隊(duì)將該模型與BERT-SA-DPCNN、ERNIE-DPCNN和ERNIE-SA-TextCNN分別進(jìn)行對(duì)比,結(jié)果表明ERNIE-SA-DPCNN模型中的每個(gè)部分均能有效提高中文文本分類器的性能。
但是,本研究還存在一些不足之處,本研究所使用的數(shù)據(jù)集以長文本為主,并不能證明在短文本處理上,DPCNN優(yōu)于TextCNN,同時(shí)對(duì)于DPCNN中word-level的Region embeddings提取研究不夠深入,沒有把BERT模型的char-mixed-level和ERNIE模型的substance-mixed-level提取方式進(jìn)行對(duì)比,從而對(duì)文本向量化缺乏更細(xì)致的研究。同時(shí)對(duì)于每一個(gè)模型的預(yù)訓(xùn)練時(shí)間和分類運(yùn)行時(shí)間,本團(tuán)隊(duì)沒有基于此進(jìn)行參數(shù)上的調(diào)整以提高模型整體運(yùn)行速度。而對(duì)于ERNIE-SA-DPCNN,本研究并沒有進(jìn)行調(diào)參對(duì)比實(shí)驗(yàn)。后續(xù)本團(tuán)隊(duì)會(huì)在這三個(gè)方面繼續(xù)研究,并基于研究成果對(duì)文本向量化和特征提取進(jìn)行進(jìn)一步提升,并通過訓(xùn)練不同類型的文本,觀察ERNIE-SA-DPCNN模型在其他類型文本和其他自然語言處理任務(wù)上的表現(xiàn)。
參考文獻(xiàn):
[1] 李維和.浙江公安通報(bào)“凈網(wǎng)2021”行動(dòng)成果 [N].杭州日報(bào),2021-07-29(A10).
[2] 孟令慈.基于Bert-LSTM模型的裁判文書分類的研究 [D].南昌:華東交通大學(xué),2021.
[3] 程盼,徐弼軍.基于word2vec和logistic回歸的中文專利文本分類研究 [J].浙江科技學(xué)院學(xué)報(bào),2021,33(6):454-460.
[4] LUHN H P. Pioneer of Information Science [J].Selected Works,1968,320.
[5] KONONENKO I. Successive Naive Bayesian Classifier [J].Informatica (Slovenia),1993,17(2):167-174.280B69BA-0ECD-42F9-945A-C04E85844B36
[6] SALZBERG S L. C4.5:Programs for Machine Learning by J. Ross Quinlan. Morgan Kaufmann Publishers,Inc.,1993 [J].Machine Learning,1994,16(3):235-240.
[7] CORTES C,VAPNIK V N. Support-vector networks [J].Machine learning,1995,20(3):273-297.
[8] . Performance Relationship Between the kNN Classifier and Neural Networks in Feature Extraction [J].,1996.
[9] YANG Y B. SA-Net:Shuffle Attention for Deep Convolutional Neural Networks [J/OL].arXiv:2102.00240 [cs.CV].[2022-01-03].https://arxiv.org/abs/2102.00240v1.
[10] 劉凱洋.結(jié)合Bert字向量和卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類方法 [J].電腦知識(shí)與技術(shù),2020,16(1):187-188.
[11] 張海豐,曾誠,潘列,等.結(jié)合BERT和特征投影網(wǎng)絡(luò)的新聞主題文本分類方法 [J].計(jì)算機(jī)應(yīng),2022,42(4):1116-1124.
[12] 鄧維斌,朱坤,李云波,等.FMNN:融合多神經(jīng)網(wǎng)絡(luò)的文本分類模型 [J].計(jì)算機(jī)科學(xué),2022,49(3):281-287.
[13] 齊凱凡.基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類問題研究 [D].西安:西安理工大學(xué),2018.
[14] 張航.基于樸素貝葉斯的中文文本分類及Python實(shí)現(xiàn) [D].濟(jì)南:山東師范大學(xué),2018.
[15] 李榮陸,王建會(huì),陳曉云,等.使用最大熵模型進(jìn)行中文文本分類 [J].計(jì)算機(jī)研究與發(fā)展,2005(1):94-101.
作者簡介:裘凱凱(1999—),男,漢族,浙江寧波人,本科在讀,主要研究方向:涉網(wǎng)犯罪文本挖掘;通訊作者:丁偉杰(1980—),男,漢族,河南西平人,副教授,碩士生導(dǎo)師,博士研究生在讀,主要研究方向:警務(wù)大數(shù)據(jù)分析、涉網(wǎng)犯罪治理;鐘南江(1991—),男,漢族,湖南祁陽人,助教,碩士研究生,主要研究方向:謠言識(shí)別、欺詐檢測、網(wǎng)絡(luò)空間安全。280B69BA-0ECD-42F9-945A-C04E85844B36