摘" 要: 為解決郵政安全監(jiān)管部門在對大量申訴事件原因進(jìn)行分類匯總時耗時耗力、效率低下等問題,提出應(yīng)用Word2vec和TextCNN模型,實現(xiàn)對大量快遞申訴文本事件進(jìn)行申訴原因自動分類。首先對自采集的申訴文本做預(yù)處理,申訴原因分為延誤、投遞、丟失短少、損毀、其他共五種類型,再使用Word2vec進(jìn)行詞向量的轉(zhuǎn)換,構(gòu)建TextCNN模型,對其進(jìn)行訓(xùn)練得到申訴文本的分類模型。在真實數(shù)據(jù)上的實驗結(jié)果表明,該方法能夠?qū)ι暝V文本進(jìn)行有效分類,準(zhǔn)確率達(dá)到94.05%,召回率93.03%,F(xiàn)1值0.9325。
關(guān)鍵詞: 快遞業(yè)申訴事件; 文本分類; Word2vec; TextCNN
中圖分類號:TP391.1" " " " " 文獻(xiàn)標(biāo)識碼:A" " "文章編號:1006-8228(2023)12-120-05
TextCNN based appeal text event classification for postal express delivery industry
Ning Yibo, Chen Jingxia, Zhang Pengwei, Wang Meijia
(Shaanxi University of Science and Technology, Xi'an, Shaanxi 710021, China)
Abstract: To solve the problems of time-consuming, labor-intensive, and inefficient classification and summary of the causes of a large number of appeal incidents by postal security regulatory authorities, a Word2vec and TextCNN combined method is proposed to achieve automatic classification of appeal reasons for a large number of express delivery industry appeal texts. Firstly, the self-collected appeal text is preprocessed and divided into five types: delay, delivery, loss or shortage, damage, and others. Then, Word2vec is used to convert the text into word vectors, and TextCNN model is constructed and trained to obtain a classification model for the appeal text. The experimental results on real data show that this method can effectively classify appeal texts, with an accuracy of 94.05%, a recall rate of 93.03%, and an F1 value of 0.9325.
Key words: appeal events in the express delivery industry; text classification; Word2vec; TextCNN
0 引言
郵政快遞業(yè)與我們的日常生活密切相關(guān),但一部分快遞企業(yè)在追求利益的同時,難免忽略了一些客戶體驗,缺件丟件、包裹損壞、時效延長等問題也經(jīng)常被提及,客戶對快遞服務(wù)的不滿成為制約快遞業(yè)發(fā)展的一大原因。郵政快遞業(yè)的申訴渠道每月都會收到大量針對各類郵政快遞事件的申訴信息。這些申訴信息以工單的形式進(jìn)行采集,其中,申訴事件描述字段是本文將要處理和分類的對象,該字段包含申訴當(dāng)事人描述的事發(fā)地點(diǎn)、發(fā)生日期以及對事件經(jīng)過的詳細(xì)描述等重要信息。但是在實際采集過程中,存在數(shù)據(jù)量大、描述信息缺失、格式和內(nèi)容不統(tǒng)一等問題,導(dǎo)致目前人工進(jìn)行申訴關(guān)鍵信息提取與分類匯總效率低下,誤報或漏報情況時有發(fā)生,且為郵政業(yè)安全中心對快遞業(yè)的監(jiān)管和決策帶來諸多不變。為了解決這些問題,本文采用文本特征提取與深度學(xué)習(xí)模型對上述從平臺導(dǎo)出的大量快遞業(yè)申訴工單中的事件描述文本進(jìn)行快速準(zhǔn)確的自動分類,明確每個申訴事件的原因。
文本分類是自然語言處理中的一個重要分支,二十世紀(jì)九十年代,機(jī)器學(xué)習(xí)的方法逐漸成熟,例如決策樹[1],樸素貝葉斯[2],支持向量機(jī)[3]等,這些方法在一定程度上實現(xiàn)了文本的自動分類,也在各個領(lǐng)域得到了廣泛的應(yīng)用。但傳統(tǒng)機(jī)器學(xué)習(xí)方法在構(gòu)建分類器之前需要進(jìn)行復(fù)雜的人工特征抽取,而深度學(xué)習(xí)算法解決了這一問題。因此,目前深度學(xué)習(xí)的方法飽受研究者們的關(guān)注[4]。GolVe和Word2vec等[5]詞向量模型的提出,為深度學(xué)習(xí)算法在文本分類領(lǐng)域的推廣應(yīng)用奠定了基礎(chǔ)。Mikolov等人[6]提出的Word2vec方法能夠?qū)卧~表示為空間詞向量,進(jìn)而輸入到模型中去進(jìn)行下游任務(wù),之后又建立了基于RNN的語言模型,在文本分類任務(wù)中取得了好的效果。Kim等人使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了文本分類[7],提出了TextCNN模型,經(jīng)過在七個公開的文本分類和情感分析數(shù)據(jù)集上的實驗,TextCNN模型相比其他算法取得了更高的準(zhǔn)確率,研究結(jié)果證明了單詞向量的無監(jiān)督預(yù)訓(xùn)練是NLP深度學(xué)習(xí)的重要組成部分,淺層的神經(jīng)網(wǎng)絡(luò)也能夠在文本分類任務(wù)上進(jìn)行準(zhǔn)確分類。Liu P等人[8]重點(diǎn)研究了RNN模型對高并發(fā)情況的處理能力,使用多任務(wù)學(xué)習(xí)框架來跨多個相關(guān)任務(wù)進(jìn)行聯(lián)合學(xué)習(xí),并簡化了特征工程環(huán)節(jié)的工作。Joulin A等提出了一種準(zhǔn)確率較高,而且模型的訓(xùn)練速度超快的FastText分類模型[9],大大節(jié)約了訓(xùn)練成本。Rie Johnson等提出一種用于文本分類的低復(fù)雜度單詞級深度卷積神經(jīng)網(wǎng)絡(luò)[10]即DPCNN模型,可以有效地表示文本中的長距離關(guān)聯(lián),在情緒分類和主題分類的六個基準(zhǔn)數(shù)據(jù)集上,模型的表現(xiàn)優(yōu)于之前的最佳模型。
本文使用TextRNN等深度學(xué)習(xí)模型進(jìn)行對比實驗,實驗結(jié)果表明,相比于人工分類和其他對比方法,本文所采用的方法分類性能更優(yōu),為解決郵政部門海量申訴信息的自動分類匯總和評判決策提供了一種有效途徑,具有重要的理論意義和應(yīng)用價值。
1 研究方法
本文在收集到申訴事件文本數(shù)據(jù)后,首先進(jìn)行數(shù)據(jù)的預(yù)處理[11],再對文本數(shù)據(jù)進(jìn)行向量化處理,最后輸入到構(gòu)建的深度學(xué)習(xí)模型中進(jìn)行深度特征提取與分類。具體步驟如下:
⑴ 通過郵政安全中心12345申訴平臺,收集到快遞業(yè)相關(guān)申訴事件的描述文本。
⑵ 對收集到的文本數(shù)據(jù)進(jìn)行預(yù)處理,包括去除停用詞,中文分詞等,接著使用Word2vec模型對文本數(shù)據(jù)向量化處理,作為embedding層。
⑶ 利用TextCNN模型對embedding詞向量,使用大小分別為2*2,3*3,4*4的三種尺寸的卷積核,經(jīng)過卷積層和池化層對向量做進(jìn)一步的文本特征提取。
⑷ 將提取到的文本特征輸入softmax層做具體的事件分類。本文的研究路線如圖1所示。
1.1 數(shù)據(jù)集的制作
本文的數(shù)據(jù)來自12345申訴平臺推送的真實申訴數(shù)據(jù)。由于收到的快遞業(yè)申訴事件的文本中,包含許多無意義的標(biāo)點(diǎn)符號,停用詞等,因此在進(jìn)行實驗之前,需要對收集到的文本數(shù)據(jù)進(jìn)行清洗等預(yù)處理,之后再進(jìn)行標(biāo)注,具體步驟如下:
⑴ 去除停用詞
快遞業(yè)申訴文本中包括許多與分類任務(wù)無關(guān)的詞,去停用詞可以有效提高句子理解和文本處理的效率和準(zhǔn)確性。本文基于百度停用詞表對照,對文本數(shù)據(jù)中的停用詞做了刪除處理。
⑵ 中文分詞
在本文所需要處理的快遞業(yè)申述事件文本中,有許多快遞行業(yè)的專有名詞,比如“菜鳥驛站”,“轉(zhuǎn)運(yùn)中心”,“派送站點(diǎn)”等,因此在數(shù)據(jù)預(yù)處理階段,對文本進(jìn)行分詞顯得尤為重要。分詞是指將申訴文本進(jìn)行劃分,得到一個最基本的特征單元,比如一個字或是一個詞語。目前的中文分詞方法主要有三種[12],分別為基于字符串匹配的分詞方法,基于統(tǒng)計的分詞方法以及基于理解的分詞方法。本文采用jieba分詞工具對快遞業(yè)申訴文本進(jìn)行分詞處理,在通用詞庫的基礎(chǔ)上導(dǎo)入快遞業(yè)相關(guān)的部分名詞,將快遞業(yè)申訴事件文本關(guān)鍵詞進(jìn)行優(yōu)化分詞,并與申訴事件文本候選關(guān)鍵詞進(jìn)行比照,再進(jìn)行權(quán)重排序,最終作為特征關(guān)鍵詞輸入模型。
⑶ 人工標(biāo)注類別
將申訴事件文本進(jìn)行人工類別標(biāo)注,按照事件的申訴原因,分別標(biāo)記為延誤、投遞、丟失短少、損毀、其他共五類,并按照該順序標(biāo)記為0-4的標(biāo)簽。
為了保持各類別文本數(shù)據(jù)數(shù)量基本平衡,本文共抽取了10535條文本數(shù)據(jù)進(jìn)行實驗。每條申訴事件文本的長度不超過200字,并且在實驗過程中以8:1:1的比例隨機(jī)抽取文本數(shù)據(jù)分別作為訓(xùn)練集、驗證集和測試集。
用“XX”屏蔽掉了申訴人的個人信息和具體快遞網(wǎng)點(diǎn)的信息,去除停用詞并進(jìn)行中文分詞后的部分?jǐn)?shù)據(jù)展示如表1所示。
1.2 文本向量化
本文所處理快遞業(yè)申訴文本數(shù)據(jù)是不可計算的非結(jié)構(gòu)化的數(shù)據(jù),因此在進(jìn)行分類之前需要將文本數(shù)據(jù)轉(zhuǎn)化為計算機(jī)可以識別的、可計算的向量。詞嵌入模型是目前實現(xiàn)詞語到其特征向量映射的一種最有效的方法[13]。
基于Word2vec模型來獲取詞向量特征,通過詞向量的表示,向量之間的空間距離就可以體現(xiàn)出詞與詞之間的相似度。Word2vec提供了兩種訓(xùn)練模型,即CBOW(Continuous Bag-of Words)連續(xù)詞袋模型和Skip-gram連續(xù)跳字模型[14]。
CBOW模型是根據(jù)一個詞的前后詞去預(yù)測中間詞的概率。對于一個詞wt,該模型分別利用它左邊及右邊的k個詞,來預(yù)測它對于詞典中屬于某個詞的概率P,進(jìn)行預(yù)測的目標(biāo)函數(shù)L可表示為:
[L=t=1Tp(wt-k,...,wt-1,...,wt+k)]" ⑴
其中,T表示詞典中的詞匯數(shù),CBOW模型訓(xùn)練就是求L目標(biāo)函數(shù)的最大值。
Skip-gram模型與CBOW模型則恰恰相反,它是利用中間詞去預(yù)測前后詞的概率,對于一個詞,用它來預(yù)測其左右k個詞在詞典中屬于某個詞的概率P,用于預(yù)測的目標(biāo)函數(shù)L’可表示為:
[L'=t=1Tp(wt-k,...,wt-1,...,wt+k|wt)]" ⑵
其中,T同樣表示詞典中詞匯的數(shù)量。Skip-gram模型與CBOW模型類似,都是由輸入層、隱層和輸出層構(gòu)成,并且Word2vec模型為了提高對概率的計算速度,提供了層次化softmax和負(fù)采樣進(jìn)行優(yōu)化[15]。
本文選擇了CBOW模型進(jìn)行文本的向量化處理,訓(xùn)練詞向量的維度設(shè)置為100,窗口移動大小設(shè)置為5,利用 min_count對詞頻小于5的詞進(jìn)行了過濾,其余參數(shù)為默認(rèn)參數(shù)。與其他普通神經(jīng)網(wǎng)絡(luò)的語言模型相比,它能夠在較快的訓(xùn)練速度下仍然保持較好的訓(xùn)練精度。
1.3 TextCNN分類模型的構(gòu)建
本文采用文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN模型進(jìn)行文本分類,該模型可以通過定義不同的卷積核大小,來提取不同的局部特征,從而可以得到比較具代表性和多樣性的特征[16]。TextCNN模型中包括:卷積層Convolutional layer、池化層Pooling layer、全連接層Fully Connected layer。其模型的結(jié)構(gòu)如圖2所示。
使用Word2vec模型訓(xùn)練得到相應(yīng)的詞向量作為分類模型的embedding層,將其輸入到TextCNN模型當(dāng)中。考慮到快遞業(yè)事件文本的領(lǐng)域特殊性,針對Word2vec訓(xùn)練的詞向量,本文自定義了Word embedding的訓(xùn)練權(quán)重矩陣。TextCNN模型的卷積核共設(shè)置了2*2、3*3、4*4 三種尺度,卷積核的數(shù)量均設(shè)置為256,經(jīng)卷積后對得到的向量進(jìn)行最大池化,之后再輸入全連接層,最后通過softmax層完成分類。
卷積層是TextCNN模型的核心所在,通過卷積核可以提取到申訴文本數(shù)據(jù)中不同層次的深度特征,卷積層的計算公式為:
[hi=f(x=13y=13wi(x,y)×cx,y+bi)] ⑶
其中,f表示激活函數(shù),wi(x,y)表示其輸出矩陣第i個節(jié)點(diǎn)對應(yīng)輸入節(jié)點(diǎn)的權(quán)重,cx,y表示輸入節(jié)點(diǎn)的值,bi表示該輸入節(jié)點(diǎn)對應(yīng)的偏置值,通過卷積核來實現(xiàn)特征提取,hi即為卷積核輸出的結(jié)果[18]。
池化層將卷積層各通道的輸出進(jìn)行最大池化計算,然后利用具有256個隱單元的全連接層將池化層提取到的特征進(jìn)行拼接融合,得到最終的較為全面的組合特征。最后將其輸入到softmax分類器中進(jìn)行申訴事件文本分類。
2 實驗及結(jié)果分析
2.1 實驗環(huán)境及設(shè)置
基于Windows11上的PyTorch深度學(xué)習(xí)框架進(jìn)行實驗,配置的CUDA環(huán)境為CUDA11.1,語言版本為Python3.7。
實驗過程中,將數(shù)據(jù)集隨機(jī)劃分為十個子集,每次選取其中一個子集作為測試集,其余九個子集作為訓(xùn)練集,交叉驗證重復(fù)十次,直至每個子集都已作為一次訓(xùn)練集。最終選取了一組實驗效果最佳的參數(shù)設(shè)置,如表2所示。
2.2 模型性能評估
在模型測試階段,通常通過模型在測試集上的表現(xiàn)來檢驗?zāi)P偷姆夯芰Γ捎梦谋痉诸惾蝿?wù)中常用的評估指標(biāo)進(jìn)行模型性能評估,具體包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1測評值[19]。各指標(biāo)計算公式如下。
準(zhǔn)確率:
[ACC=TP+TNTP+FN+FP+TN]" ⑷
精確率:
[P=TPTP+FP]" ⑸
召回率:
[R=TPTP+FN]" ⑹
F1評測值:
[F1=2×R×RR+P]" ⑺
其中,TP表示真正例,TN表示為真反例,F(xiàn)P表示為偽正例,F(xiàn)N表示為偽反例。
2.3 本文方法實驗結(jié)果
如表3所示,展示了本文方法對每個類別數(shù)據(jù)的分類準(zhǔn)確情況,各項指標(biāo)為十折交叉驗證的最優(yōu)值。
從表3可以看出,在對申訴事件文本進(jìn)行分類時,投遞、丟失短少、損壞這三類(表1)的事件描述更為明了,分類的準(zhǔn)確率也更高一些,在“其他”這一類別的數(shù)據(jù)中,數(shù)據(jù)的組成較為復(fù)雜,涉及多種情況,因此分類的準(zhǔn)確率也較其余四類更低。實驗結(jié)果表明,基于Word2vec和TextCNN模型的方法,能夠?qū)Ρ疚牡目爝f業(yè)申訴事件文本進(jìn)行有效的申訴原因分類,并且分類效果良好,模型也具有較強(qiáng)的泛化能力,在未學(xué)習(xí)過的測試數(shù)據(jù)集上也能展現(xiàn)出良好的預(yù)測效果,模型檢測精確率高。
2.4 不同方法的分類對比
在各項實驗中,先通過Word2vec對已經(jīng)預(yù)處理過的文本進(jìn)行詞向量處理,再作為詞嵌入層輸入到各個深度學(xué)習(xí)模型中進(jìn)行特征提取及分類,各個對比模型的最終分類效果如表4所示。
由表4可見,本文使用的TextCNN模型,比其他模型的分類準(zhǔn)確率更高。TextCNN模型在此次分類任務(wù)中,準(zhǔn)確率達(dá)到了94.05%,在相同的參數(shù)設(shè)置下,大多評估指標(biāo)均高于其他方法,模型準(zhǔn)確率平均高出2.12%,并且模型泛化能力強(qiáng),在未學(xué)習(xí)過的訓(xùn)練集上也能保持較高的準(zhǔn)確率,這些實驗結(jié)果均表明本文所采用的Word2vec模型結(jié)合TextCNN模型的分類方法結(jié)果最優(yōu),能得到良好的分類結(jié)果。
3 結(jié)論
本文針對郵政安全中心對收集到的大量申訴事件處理效率低下的問題,提出應(yīng)用Word2vec和TextCNN模型的方法,對海量的申訴事件文本進(jìn)行了有效的分類,從而減輕人工分類的負(fù)擔(dān),為部門和企業(yè)更好更快地解決申訴問題提供數(shù)據(jù)支持。未來的研究中,將會探索如何進(jìn)一步提升分類準(zhǔn)確率,并且不斷擴(kuò)充完善數(shù)據(jù)集,嘗試加入半監(jiān)督或者無監(jiān)督的方法對特征提取和分類模型進(jìn)行改進(jìn)優(yōu)化。
參考文獻(xiàn)(References):
[1] Li H,Yamanishi K. Text classification using ESC-based
stochastic decision lists[J].ACM,1999:122-130.
[2] KIM S B,HAN K S,RIM H C, et al. Some effective
techniques for naive Bayes text classification[J]. IEEE Transaction on Knowledge and Data Engineering,2006,1(11):1457-1466.
[3] JOACHIMS T. Text categorization with support vector
machines:learning with many relevant features[M]. NewYork,USA:SpringerUS,1998.
[4] 何力,鄭灶賢,項鳳濤,等.基于深度學(xué)習(xí)的文本分類技術(shù)研究
進(jìn)展[J].計算機(jī)工程,2021,47(2):1-11.
[5] PENNINGTON J,SOCHER R,MANNING C. GloVe:global
vectors for word representation. Proceedings of 2014 Conferenceon Empirical Methodsin Natural Language Processing[C].San Diego,USA:ACL,2014:1532-1543.
[6] Mikolov T, Martin Karafiát,Burget L,et al. Recurrent neural
network based language model. Interspeech, Conference of the International Speech Communication Association[C]. Makuhari, Chiba, Japan,September.DBLP,2015.
[7] Yoon Kim.Convolutional neural networks for sentence
classification. In Proceedings of Empirical Methods in Natural Language Processing (EMNLP),2014:1746-1751.
[8] Liu P,Qiu X,Huang X. Recurrent Neural Network for Text
Classification with Multi-Task Learning,2016.
[9] Joulin A, Grave E, Bojanowski P,et al.Bag of Tricks for
Efficient Text Classification[J].2017.
[10] Johnson R, Zhang T.Deep Pyramid Convolutional Neural
Networks for Text Categorization. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics[C].Vancouver, Canada,2017:562-570.
[11] BAO Yujia, WU MenghuaCHANG Shiyu,et al. Few-shot
text classification with distributional signatures.Proceedings of the 8th International Conference on Learning Representation[C].Ethiopia:[s.n.],2020:1-5.
[12] 楊秀璋,武帥,張苗,等.基于TextCNN和Attention的微博
輿情事件情感分析[J].信息技術(shù)與信息化,2021(7):41-46.
[13] 王方偉,柴國芳,李青茹,等.基于參數(shù)優(yōu)化元學(xué)習(xí)和困難樣
本挖掘的小樣本惡意軟件分類方法[J].武漢大學(xué)學(xué)報(理學(xué)版),2022,68(1):17-25.
[14] 熊富林,鄧怡豪,唐曉晟.word2vec Parameter Learning
Explained[J].南京師范大學(xué)學(xué)報(工程技術(shù)版),2015(2):43-48.
[15] 李玉.基于深度學(xué)習(xí)的文本分類方法研究與應(yīng)用[D].南京:
南京郵電大學(xué),2021.
[16] 楊飛洪,王序文,李姣.基于BERT-TextCNN模型的臨床試
驗篩選短文本分類方法[J].中華醫(yī)學(xué)圖書情報雜志,2021,30(1):54-59.
[17] Yoon Kim. Convolutional neural networks for sentence
classification. In Proceedings of Empirical Methods in Natural Language Processing (EMNLP),2014:1746-1751.
[18] Le H T,Cerisara C,Denis A.Do Convolutional Networks
need to be Deep for Text Classification[J].2017.
[19] 盧欣,李旸,王素格.融合語言特征的卷積神經(jīng)網(wǎng)絡(luò)的反諷
識別方法[J].中文信息學(xué)報,2019,33(5):31-38.