谷文靜
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,海量數(shù)據(jù)是其最顯著的特征之一。同時,隨著互聯(lián)網(wǎng)媒體平臺的建設(shè)與發(fā)展,移動互聯(lián)網(wǎng)的日趨普及,人們逐漸喜歡通過互聯(lián)網(wǎng)平臺來發(fā)表自己的觀點,這也造成了網(wǎng)絡(luò)文本數(shù)據(jù)的激增。對這些數(shù)據(jù)進行有效的篩選和分類,有助于網(wǎng)絡(luò)提供商對用戶的喜好進行發(fā)掘。因此,對自然語言的文本數(shù)據(jù)分析已成為當(dāng)前業(yè)界研究的熱點[1]。
單從文本分類而言,其指的是在人為規(guī)定好的分類標(biāo)準(zhǔn)下,根據(jù)文本自身含義對文本數(shù)據(jù)進行分類的過程[2]。文本分類是搜索引擎、消息過濾等功能的重要實現(xiàn)部分,其應(yīng)用場景比較廣泛,例如消息分類、評價分類以及分析垃圾消息等。
傳統(tǒng)的文本分類方法使用機器學(xué)習(xí)技術(shù),這些方法對于英文自然語言通常有文本特征不明顯、訓(xùn)練周期長、詞序丟失等缺點[3]。針對以上不足,文中對Word2vec 算法與TF-IDF 算法進行融合,改進為TF-Word 算法,同時應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)組成混合神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)文本分類,該方法可以有效提高傳統(tǒng)文本分類方法對于英語語言的處理精度。
圖1 是當(dāng)前文本分類的主流處理過程,分為文本預(yù)處理、文本特征提取、文本特征表示以及文本表示幾大步驟,各個步驟的研究現(xiàn)狀介紹如下。

圖1 文本處理流程圖
文本預(yù)處理:該步驟為文本分類前的預(yù)處理步驟,主要是對句子進行成分的分離。句子分離算法分為基于語義句法和基于統(tǒng)計學(xué)的方法,而隨著人工智能技術(shù)的發(fā)展,目前基于機器學(xué)習(xí)的算法,例如LSTM、CRF 等,成為當(dāng)前主流的算法[4]。
文本特征提取:一般常用的算法為信息增益法與卡方檢測法,即通過檢測詞頻,對出現(xiàn)頻率較低的特征詞進行刪除和區(qū)分處理。而隨著技術(shù)的發(fā)展,基于Word2vec 向量的算法成為該階段熱門的選擇,較多學(xué)者均使用該方法提高特征提取的精度[5-7]。
文本特征表示:常用的算法為組網(wǎng)法和逆詞頻法。組網(wǎng)法指的是對當(dāng)前已知的詞匯詞性進行分類,之后組成語義網(wǎng),對文本的特征進行表示。該算法可以提升句子本身的語義性質(zhì),但計算量龐大,算法成本相對較高。而逆詞頻法通過對詞語的重要性進行排序,進而實現(xiàn)特征表示,也有學(xué)者使用該方法對詞語進行詞性、聚類分析,效果較優(yōu)[8-9]。
文本表示:該方法包含離散表示法和獨立表示法。常見的算法為詞袋模型,該模型將分割好的詞語看作是沒有規(guī)則順序的詞語集合,通過分類器(神經(jīng)網(wǎng)絡(luò)、向量機、KNN 等)訓(xùn)練這些集合,進而達(dá)到文本表示的目的[10-11]。
Word2vec 模型是統(tǒng)計語言學(xué)模型的一種,該模型由Mikolov 提出[12],模型可以對句子單詞與單詞中的關(guān)聯(lián)程度進行衡量。同時可以準(zhǔn)確、高速地對詞向量模型進行訓(xùn)練,該模型的目的是從大量的文本數(shù)據(jù)中對高質(zhì)量的詞向量進行訓(xùn)練。模型內(nèi)部架構(gòu)關(guān)系如圖2 所示,該模型的內(nèi)部由CBOW 與Skip_gram 兩個子模型構(gòu)成,該算法在特征提取方面具有突出的優(yōu)勢。

圖2 CBOW模型和Skip_gram模型示意圖
在句子中,最基本的元素就是單詞,單詞的詞頻指的是某一個特定的單詞在句子中出現(xiàn)的次數(shù)。統(tǒng)計學(xué)公式如式(1)所示。

而逆向文檔頻率(IDF)表示的是某一個單詞在句子中的特殊性與重要性,具體表示為句子總數(shù)目和包含此單詞句子數(shù)目的比值,如式(2)所示。

在使用時,若一個單詞在句子中出現(xiàn)的頻率較高,則該單詞可以對句子的特征進行表示,即該單詞的TF-IDF 值較高;若一個單詞在句子中出現(xiàn)的頻率較低,則單詞的TF-IDF 值較低,該單詞不能對句子的特征進行表示。
文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)是文本分類領(lǐng)域中被廣泛使用的承載算法模型,下面對其結(jié)構(gòu)進行介紹[13]。
神經(jīng)網(wǎng)絡(luò)模型的主要結(jié)構(gòu)有:
1)嵌入層:該層為模型的輸入層,輸入數(shù)據(jù)格式為詞語向量矩陣。
2)卷積層:該層使用卷積計算對文本的特征進行提取,是神經(jīng)網(wǎng)絡(luò)的算法核心。詞卷積的計算,如式(3)所示。

3)池化層:該層是對卷積層的輸出結(jié)果進行簡化采樣,進而優(yōu)化卷積層的運算步驟,減少模型中的參數(shù),通常使用的池化模型為K-max,即選擇卷積層輸出的k個特征,對這些特征進行分析,使用最大的特征向量代替其他向量。
4)輸出層:輸出層為最終輸出的詞向量,輸出概率分布結(jié)果,該結(jié)果使用梯度下降公式進行計算,如式(4)所示。

由上文分析可知Word2vec和TF-IDF算法的優(yōu)缺點。Word2vec 算法可以對句子中單詞與單詞的關(guān)系進行表示,但是卻無法反映單詞在句子中的重要程度。而TF-IDF 算法卻恰好相反,該算法可以反映單詞在句子中的重要程度,卻無法反映單詞與單詞之間的關(guān)系。因此,文中將這兩種算法的優(yōu)勢結(jié)合,如式(5)所示。

對于某個單詞數(shù)量m個的句子而言,使用TFIDF 算法的判斷,可以得到長度為m的向量,上式中tm為單詞的TF-IDF 值。而在Word2vec 模型中,句子中的詞語均可以被一個固定長度的向量進行表征。因此,可以得到如式(6)所示的矩陣。

對這兩種模型進行結(jié)合,即對每個詞語的TFIDF 值和Word2vec 值進行結(jié)合,得到如式(7)所示的矩陣。

該矩陣既可以對單詞之間的相互聯(lián)系進行表征,又可以對單詞的詞頻進行表示,將改進后的模型命名為TF-Word 算法。
將TF-Word 作為神經(jīng)網(wǎng)絡(luò)的輸入層,構(gòu)建混合神經(jīng)網(wǎng)絡(luò)模型,如圖3 所示。

圖3 整體模型構(gòu)建示意圖
算法的執(zhí)行過程如下:
1)單詞庫構(gòu)建。單詞庫包括訓(xùn)練所需的樣本集合,單詞庫的獲取一般有兩種方式,包括使用開源的詞匯庫以及自行訓(xùn)練詞匯庫。該文使用RCV1-V2數(shù)據(jù)集合,該數(shù)據(jù)集中的內(nèi)容大多為英文的新聞文本,數(shù)據(jù)集合數(shù)量約為70 萬個,足夠算法訓(xùn)練模型使用。
2)得到模型的權(quán)重公式。首先對輸入的數(shù)據(jù)進行分詞處理,處理完后計算單詞的權(quán)重數(shù)據(jù),如式(8)所示。

3)構(gòu)建卷積網(wǎng)絡(luò)模型。卷積網(wǎng)絡(luò)模型如圖4所示。

圖4 卷積神經(jīng)網(wǎng)絡(luò)示意圖
卷積網(wǎng)絡(luò)模型如上文所述,由輸入層、卷積層、池化層、輸出層四部分組成。其中,輸入層數(shù)據(jù)為經(jīng)過TF-Word 算法處理過后的數(shù)據(jù),則輸入模型為一個單詞向量矩陣。卷積層使用長卷積方式,如式(9)所示。

池化層使用1/2 池化算法,這樣可以將卷積層輸出的數(shù)據(jù)長度減少一半,有效減少模型計算的工作量。
該次實驗數(shù)據(jù)集選擇RCV1 數(shù)據(jù)集合,實驗環(huán)境使用PyTorch 對卷積神經(jīng)網(wǎng)絡(luò)進行編程。RCV1 數(shù)據(jù)集合為新聞文本數(shù)據(jù)集,該集合有大約70 萬條的新聞文章條數(shù)。文中測試環(huán)境如表1 所示。

表1 測試環(huán)境說明
卷積神經(jīng)網(wǎng)絡(luò)按照3.2 節(jié)中所述進行搭建。神經(jīng)網(wǎng)絡(luò)的參數(shù)如表2 所示。

表2 神經(jīng)網(wǎng)絡(luò)參數(shù)說明
通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型,使用RCV1 訓(xùn)練集對該次搭建的模型進行訓(xùn)練,再使用測試集合對模型進行多個方面的測試,測試指標(biāo)分別為精確度、召回率以及F1測量值[14-15]。其中,精確度定義為在分類之后,樣本能被正確歸類的比率;召回率指的是分類后正確的測試樣本個數(shù)占據(jù)所有正確測試樣本的比率;F1 即為精確度和召回率的綜合加權(quán)結(jié)果。對不同領(lǐng)域的詞進行分類評價,評價指標(biāo)如表3 所示。
由表3 可知,此次測出的精確度、召回率以及F1測量值指標(biāo)平均值為96.92%、95.43%與96.22%。

表3 模型測試結(jié)果
對比的實驗方法使用傳統(tǒng)機器學(xué)習(xí)文本分類方法,對英文自然語言進行處理,分別采用樸素貝葉斯算法(NB)、支持向量機(SVM)、K 近鄰法(KNN)展開測試[16]。測試結(jié)果如圖5 所示。

圖5 對比測試結(jié)果
由圖5 可知,文中所構(gòu)建算法模型的F1 值相比于NB 算法提升了18.5%,相比于KNN 算法提升了14.3%,相比于SVM 算法提升了12.9%。
圖6 所示為訓(xùn)練的文本數(shù)量對F1 值的影響。由圖可知,訓(xùn)練文本數(shù)量越多,算法準(zhǔn)確度越高。

圖6 文本數(shù)量對F1值的影響
綜上所示,文中構(gòu)建的模型準(zhǔn)確度要優(yōu)于傳統(tǒng)的機器學(xué)習(xí)算法。故將文中所提出的自然語言處理方法應(yīng)用在機器翻譯領(lǐng)域時,可以有效提高英文長句的翻譯準(zhǔn)確度。
傳統(tǒng)文本分類方法對英語語言進行智能分析處理時,存在文本特征不明顯、訓(xùn)練周期長、詞序丟失等缺點,文中通過將Word2vec 算法與TF-IDF 算法進行改進融合,提出了一種TF-Word的新算法。同時應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)組成混合神經(jīng)網(wǎng)絡(luò)模型,最終實現(xiàn)文本分類。由實驗結(jié)果可以看出,對英文自然語言的智能化處理而言,文中所構(gòu)建的算法模型相比于傳統(tǒng)算法模型,在性能上有顯著提高。