999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對低頻詞進行改進的中文短文本分類方法

2022-01-01 00:00:00羅孝波林佳瑜梁祖紅王漳
計算機應用研究 2022年2期

摘 要: "中文短文本分類中存在大量低頻詞,利用好低頻詞中的信息能有效提高文本分類效果,針對基于詞向量的文本分類研究中低頻詞不能被有效利用的問題,提出一種針對低頻詞進行數據增強的方法。首先,利用受限文本生成模型產生的數據來微調低頻詞的詞向量,再利用一種詞向量的構造算法將高頻詞的更新信息遷移到低頻詞中,使低頻詞獲取更準確且符合訓練集分布的詞向量表示;其次,引入相似詞和實體概念等先驗知識來補充上下文信息;最后,利用改進的卡方統計去除明顯的噪聲詞,以及設計詞注意力層對每個詞進行加權,減少無關噪聲對分類的影響。在多個基礎分類模型上進行實驗,結果表明各基礎模型經改進后都有明顯提升,體現了提出方法的有效性,同時也說明了短文本分類任務中低頻詞能改善分類的效果。

關鍵詞: "短文本; 低頻詞; 數據增強; 去噪; 卡方統計

中圖分類號: "TP391 """文獻標志碼: A

文章編號: "1001-3695(2022)02-024-0468-06

doi:10.19734/j.issn.1001-3695.2021.08.0385

Improved Chinese short text classification method for low frequency words

Luo Xiaoboa, Lin Jiayub, Liang Zuhonga, Wang Zhanga

(a.School of Computer Science amp; Technology, b.Library, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: "A large number of low-frequency words existed in Chinese short text classification,reasonable development and utilization could effectively improve the effect of text classification.Aiming at the problem that low-frequency words couldn’t be effectively used in the research of text classification based on word vector,this paper proposed a method of data enhancement based on low-frequency words.Firstly,it used the data generated by the restricted text generation model to fine tune the word vector of low-frequency words,and then used a word vector construction algorithm to transfer the updated information of high-frequency words to low-frequency words,so that low-frequency words could obtain a more accurate word vector representation that conformed to the distribution of training set.Secondly,it introduced prior knowledge such as similar words and entity concepts to supplement context information.Finally,it used the improved Chi-square statistics to remove the obvious noise words,and designed the word attention layer to weight each word to reduce the impact of irrelevant noise on classification.Experiments on several basic classification models show that each basic model has been significantly improved after applying the improved method.It not only shows the effectiveness of the proposed method,but also shows that low-frequency words can improve the classification effect in short text classification task.

Key words: "short text; low frequency words; data enhancement; noise reduction; Chi-square statistic

0 引言

近年來,隨著社交網絡的發展,人們能夠非常便捷地在社交平臺上發布和獲取消息,社交平臺已經成為了新的信息聚集地[1]。社交平臺上每天會產生海量的數據,其中大部分文本形式的數據是短文本,例如微博、聊天信息、新聞主題、觀點評論、問題文本、手機短信等,對這些短文本進行準確分類具有重要的理論意義和現實應用價值[2],有利于信息抽取、情感分析等下游任務的研究發展。

在中文短文本分類任務中,由于短文本篇幅較短,內容口語化較重,未登錄詞偏多,與長文本相比,短文本進行分詞后低頻詞的數量更多,甚至有些文本分詞后全是低頻詞,所以,利用好短文本中低頻詞所含有的分類信息能夠有效地提高短文本分類的效果。然而在基于詞向量的文本分類研究中,低頻詞一般被刪除,即使不刪除,由于低頻詞詞向量表示本身是錯誤的,低頻詞的信息同樣無從獲取。其次,低頻詞中含有的噪聲信息更多,利用低頻詞的同時還要考慮大量噪聲的影響。因此,怎樣有效地利用低頻詞中的信息還有待研究。

自從文本表示模型由傳統的詞袋模型發展為神經網絡語言模型[3]、word2vec模型[4]等序列表示模型后,深度學習技術被廣泛應用于文本分類任務中,如基于卷積神經網絡(CNN)的分類模型[5,6]、基于長短期記憶網絡(LSTM)[7]以及其變體門控循環單元(GRU[8])等循環神經網絡(RNN)的分類模型[9]、結合CNN和RNN的文本分類模型[10,11]、基于圖卷積網絡、膠囊網絡的文本分類模型[12,13],利用注意力機制來改善模型效果的研究[14~16]。

上述研究都是在改善特征提取網絡的效果,利用不到文本中低頻詞的信息,因為低頻詞的詞向量在訓練時得不到穩定的梯度信息,其詞向量無法表達出低頻詞的信息,這樣文本表示層中未包含低頻詞信息,所以無論怎么改善特征提取網絡的效果,都利用不到低頻詞的信息。

受到小樣本學習的啟發,本文通過數據增強[17]技術來處理上述無法獲取文本中低頻詞信息的問題。數據增強分為數據擴充和特征增強[18],本文將從這兩個角度進行研究來改善低頻詞的問題。關于特征增強,是在原樣本的特征空間中添加便于分類的特征,增加特征多樣性,其在文本分類上的應用研究包括:陳珂等人[19]引入詞性信息豐富文本特征,改善中文微博情感分類的效果;Wang等人[20]結合知識庫中的先驗知識來豐富文本特征,改善短文本分類的效果;Li[21]運用傳統機器學習方法挖掘隱含知識來豐富文本的主題信息,提高了分類的效果;程婧等人[22]利用預訓練的詞向量模型來構造低頻詞的詞向量,獲得了文本中低頻詞的信息,與本文出發點相同,然而該方法需要低頻詞存在于外部預訓練的詞向量中,且存在詞向量相近的高頻詞,其語義可能不同的問題,此外其只引入了預訓練詞向量中的知識,因此在短文本分類的應用中,該方法還需改善。關于數據擴充,是通過生成樣本數據來擴充訓練數據,其在文本分類的應用研究包括:廖勝蘭等人[23]利用一種文本生成模型SeqGAN生成大量無標簽文本數據作為擴充數據,改善了意圖分類的效果;張一珂等人[24]利用對抗生成網絡生成的數據擴充原始數據,豐富了原始數據的文法現象,增強了語言模型參數估計的魯棒性;Miyato等人[25]利用對抗訓練產生對抗樣本改善了文本分類的效果;張曉輝等人[26]將文獻[25]應用到語言模型上,得到了更加魯棒的詞向量,改善了文本分類的效果。

綜上,本文提出了一種針對低頻詞進行數據增強的方法,改善了低頻詞的問題,提升了中文短文本分類的效果。提出方法可分為兩部分:a)數據擴充,利用詞受限的文本生成模型來生成包含低頻詞的文本數據,這些生成數據用于低頻詞詞向量的構造過程,同時考慮到生成數據的質量,生成數據僅用于低頻詞詞向量的構造;b)特征增強,引入低頻詞的相似詞以及文本中相關實體的知識,尤其是低頻實體的知識,以此豐富文本特征,彌補短文本缺乏上下文信息的不足;c)為了處理上述過程中噪聲詞過多的問題,利用改進的卡方統計去除明顯的噪聲詞以及設計詞注意力層減少噪聲詞的影響。最后在不同模型上進行實驗,證明了改進方法的有效性。

1 改進方法

a)生成包含低頻詞的文本數據。利用受限文本生成模型生成包含低頻詞的文本數據,生成的數據用于初步改善低頻詞的詞向量。

b)將文本中的低頻詞分為兩類進行特征增強。一類為存在于預訓練詞向量模型中的詞,本文稱之為A類低頻詞;一類為不存在于預訓練詞向量模型中的詞,本文稱之為B類低頻詞。對兩類詞的處理如下:

(a)構造A類低頻詞的詞向量。利用步驟a)中生成的數據微調改善低頻詞的詞向量后,以原始數據微調得到的預訓練詞向量模型為基礎,并結合文獻[22]構造的算法來構造A類低頻詞的詞向量。

(b)基于B類低頻詞進行相似詞擴展。相似詞擴充使用的是哈工大詞林和中文近義詞工具包。

對所有文本進行實體識別,引入實體知識。這一步主要針對任務場景中的低頻實體,實體知識引入使用的是復旦大學開發的CN-DBpedia。

c)利用特征選擇方法自動去除擴展詞中的強噪聲詞即含義與文本類別明顯不同的噪聲詞。為每個類別選擇出與之具有很強相關性的一些詞組成詞集,一個類別對應一個詞集,本文稱這些詞集為類別特征詞典。利用這些詞典中的詞自動篩選掉一些噪聲詞。

d)建立文本表示。一條文本中的詞分成三類,各類詞的詞向量使用不同的構造方法。具體如下:(a)文中非低頻詞,利用原始數據集微調后的預訓練詞向量模型來得到詞向量;(b)A類低頻詞,利用步驟b)中所述方法得到詞向量;(c)B類低頻詞,使用擴展相似詞和實體知識后的文本數據微調預訓練詞向量模型,得到擴展詞的詞向量,擴展詞的詞向量就能代表低頻詞所蘊涵的信息。注意以上詞向量同樣處于一個特征空間中,可以一起輸入到模型中。

e)添加詞注意力層對詞進行加權。對詞嵌入進行加權,再次減少噪聲的影響,同時還能夠提取句子中隱藏的語義信息。最后將經過注意力加權后的詞嵌入輸入到基于神經網絡的分類模型中進行測試即可。

1.1 數據擴充

本節主要通過受限文本生成模型來生成包含低頻詞的文本數據,增加低頻詞出現的次數,因此在詞向量模型的微調過程中,低頻詞就能得到相對穩定的梯度信息,得到更準確且符合訓練集分布的詞向量表示。然而,由于生成文本的質量問題,其他非低頻詞可能會獲得錯誤的梯度信息,所以這些生成數據僅用于構造低頻詞的詞向量。

受限文本生成技術廣泛應用于機器翻譯、文本摘要、對話問答等場景中,是文本生成研究中的重點。各種各樣的技術被應用在受限文本生成的模型中,Liu等人[27]提出了一個詞受限句子生成前向后向對抗生成網絡(BFGAN),還有基于遷移學習、可變自動編碼(VAE)、強化學習等技術的一些模型。綜合對比各類模型,本文選擇的是文獻[28]提出的一個自監督的受限文本生成方法,該方法將一個CoCon(content-conditioner)模塊插入到基于tansformer的預訓練語言模型中,可以通過CoCon模塊將想要的內容加入到文本的生成中,使得生成的文本是人們所需要的。如將詞或者主題屬性加入到生成的文本中,就會生成指定主題以及包含指定詞的文本。

1.1.1 模型介紹

1)模型結構 模型結構如圖1所示,其中LM α和LM β是由預訓練語言模型拆分得到的兩部分,如式(1)所示。將CoCon模塊插入到語言模型中后,等價于將基于前 t -1個詞預測第 t 個詞的式(1)換成了式(2)。圖1中的attention模塊與原語言模型的差別就是將由控制內容 c決定的K(c)和V(c)與輸入內容x決定的K與V合并成新的K^=[K(c);K]和V^=[V(c);V] ,其余的與transformer一致,注:這里的 K與V 與1.3節中提到的 K與V 具有相同含義。

o t =LM( x ":t-1) =LM β(LM α( x ":t-1)) =LM β( h ":t-1) ""(1)

o t =LM( x ":t-1) =LM β( h ′ :t-1) =LM β (CoCon( h (c) :l c, h ":t-1)) ""(2)

其中: x ":t-1 代表輸入序列的前 t -1個字符,即代表文本中第 t 個詞前的所有詞; h ":t-1是LM α 編碼后的中間表達;式(2)中的 h (c) :l c =LM a (c) 為輸入的控制內容通過LM α編碼后的中間表達, l c 為控制內容序列的長度;式(2)中的 h ′ :t-1是 經過CoCon模塊后的中間表達,代表的是基于前 t -1個字對第 t 個字的預測。式(1)(2)中相同的符號具有相同的含義。

2)自監督學習 該模型采用的是自監督學習進行訓練。自監督學習就是使用大量無標簽數據進行有監督訓練,通過設計無須進行數據標注的訓練方法進行實現,如在BERT模型中,將文本中一個詞掩蓋住,模型利用該詞的上下文去預測這個被掩蓋住的詞進行參數學習。

本文選擇的模型將長度為 L的句子X分成兩個部分,Xa={x 1,…,x t-1}和Xb={x t ,…,x L} ,設計了四種自監督的訓練方法:a)重構,使控制內容 c=Xb ,讓模型根據輸入的 Xa和c去生成Xb ;b)1 content,使控制內容 c 為空,同樣讓模型學會根據輸入的 Xa和c生成Xb ,讓模型在預訓練的基礎上微調,學會生成流暢的句子;c)循環重構,使控制內容 c等于另一個句子的X^b ,讓模型學會根據輸入的 Xa和c去生成一個句子Y,然后讓c=Y,再讓模型根據輸入X^a(與X^b 對應的另一部分)和 c生成X^b ,這個訓練方式的思想就是在現實生活中給出前半句,能與之銜接的后半句非常多,通過這樣的訓練后,模型能根據給出的控制內容去生成指定的后半句并且能與前半句流暢地銜接;d)對抗訓練,讓模型能夠學到與真實文本接近的文本,其中的生成器就是上述模型,鑒別器用的是一層卷積層加一層全連接層的二分類模型。

要實現上述訓練,只需設計四種損失函數(loss),然后最小化四種損失函數,模型就能學會上述能力,生成指定控制內容的文本。式(3)就是訓練的目標,學到使四個損失項最小的參數 θ 。

θ *=arg min "θ (b 1L 1+b 2L 2+b 3L 3+b 4L 4) ""(3)

其中: L i(i =1,2,3,4)分別代表上述四種訓練方式的損失,由于篇幅有限這里不再給出 L i 的公式,可參考文獻[28]; b i 則對應它們各自在總損失中所占的權重。

1.1.2 受限文本生成

利用上述模型生成包含低頻詞的數據,步驟如下:

a)下載預訓練的語言模型,將之加載到上述模型中,進行下一步微調操作。

b)將數據集每條文本從文本長度的1/3處劃分為兩部分,即1.1.1節中提到的 Xa、Xb ,對模型進行微調。

c)對于數據集中包含低頻詞的文本,將其中非重復的低頻詞作為提示文本,該文本的類別作為目標主題即控制內容 c 1,選一個文本中其他的低頻詞作為控制內容 c 2(無其他低頻詞則無控制內容 c 2)然后輸入到模型,以1.1.1節中提及的四種方式進行訓練,即最小化式(3)的函數值。

d)微調完畢后,開始進行數據生成輸入同步驟c)一樣的內容到模型,得到生成的數據。

1.2 特征增強

1.2.1 A類低頻詞詞向量構造

取原始訓練集中總詞頻低于10的詞作為低頻詞。A類低頻詞為存在于預訓練詞向量模型中的詞,且被生成數據改善過其詞向量,使得獲得的高頻詞相似詞更準確且更符合訓練集分布。對這些詞進行詞向量的構造,步驟如下:a)對于每一個A類低頻詞 W i ,利用余弦相似度從預訓練詞向量空間(其中低頻詞的詞向量被生成的數據微調過)中找到距離它最近的 k個高頻詞(k =3最佳)并記錄預訓練詞向量空間中詞 W i的詞向量 E "0[w i] ;b)用原始訓練集對預訓練詞向量模型進行微調,記錄這 k 個高頻詞更新前的詞向量 E "0[w h]和更新后的詞向量 E "1[w h] ,通過式(4)求得低頻詞的詞向量。

E "1[W i]= ∑ k h=1 "E "1[W h]- E "0[W h] k + E "0[W i] ""(4)

1.2.2 基于B類低頻詞進行詞擴展

B類低頻詞正好與A類詞相反,為不存在于預訓練詞向量模型中的詞,而這類詞大部分都是低頻詞,無法獲取正確的詞向量,同樣也無法利用預訓練詞向量模型進行知識遷移。本文對B類低頻詞進行近義詞擴展和實體詞的知識引入,將包含同樣信息的詞代替低頻詞。具體操作就是使用中文近義詞工具包Synonyms獲取前 n 個近義詞,將之添加到文本的末尾即完成相似詞擴展。示例如表1所示。

1.2.3 對所有文本進行實體知識引入

使用復旦大學開發的CN-DBpedia的API傳入包含低頻詞的文本,得到相關實體以及實體對應的知識,將代表知識的詞添加到該文本末尾即完成實體詞的知識引入。示例如表2所示。由于實驗使用的詞向量是訓練word2vec模型獲取,而word2vec訓練是不考慮詞序的,并且短文本詞數少,所以將擴展詞放于文本末尾后再用于微調預訓練的詞向量是有效的。

引入的知識 [馬來西亞,羽毛球,男子,單打,運動員,中國,世界,名將](對上述小括號中的句子進行分詞后的結果)

1.2.4 利用卡方統計進行去噪

由于這些擴展的詞具有強噪聲詞(與文本的類別明顯不同的詞),為了減少這些強噪聲詞對文本分類的影響,還需進行篩選處理,即對每個文本進行遍歷刪除噪聲詞中的強噪聲詞。分為如下兩步:

a)為每個類別構造類別特征詞典。在傳統的文本分類方法中,特征選擇這一步要借助各種特征選擇方法來完成,盡管現在基于深度學習的文本分類方法不需要它來完成特征選擇,然而在文本分類中各種特征選擇方法仍然有著可利用的價值。馮勇等人[29]利用特征選擇方法TF-IDF和隱含狄利克雷分布(LDA)來改進FastText文本分類模型,證明了該想法的有效性。不同的特征選擇方法有著不同適用場景,如文檔頻率DF會忽略包含信息的低頻詞;卡方統計(Chi)不關心詞頻,忽略詞頻的信息;信息增益(IG)考慮的是詞對全局的貢獻,不管具體的類別的信息;互信息(MI)偏向于選擇低頻詞。研究表明Chi和IG的表現更好,但信息增益(IG)提取出來的特征是不區分類別的,不符合本文要求,同時短文本中各詞的頻率基本都是1,對低頻詞敏感的問題基本不存在。因此本文采用基于卡方統計的特征選擇方法,同時根據特征的總詞頻進行改動,因為總詞頻越大,即參與統計的文本數越大,可性度更高。卡方統計的公式為

χ2(t k,c i)= n(AD-BC)2 (A+C)(B+D)(A+B)(C+D) ""nbsp;(5)

其中: n為訓練集大??;t k表示一特征詞;c i表示類別;A為訓練集中類別為c i而且包含t k的文本數;C為訓練集中類別為c i但不包含t k的文本數;B為訓練集中非類別c i但包含t k的文本數;D為訓練集中非類別c i且不含t k 的文本數。

本文需要為每個類構造特征詞典,對公式進行如下改進:(a)對于每個 c i中的A+C和B+D都是相等的,n 自然也是相同的,因此直接去除;(b) (A+B)乘以(C+D)是關于含有特征t k的文本數x的一元二次方程,然而在短文本中x的大小基本小于訓練集的一半,因此該式的值隨著x的增加而增加,即導致卡方值減小,顯然這對總詞頻大的詞不友好,因此去除代表x的A+B 。綜上,特征提取的公式如式(6)所示。

χ2(t k,c i)= (AD-BC)2 C+D "AD-BCgt;0 ""(6)

其中: AD-BC lt;0時是負相關,直接去除; AD-BC gt;0時是正相關,保留下來。對每一個類 c i,t k 只取出現次數大于10的特征詞按式(6)計算并從大到小排序,從前1 000(由相關論文和實驗而定)個詞中選取其中 A/(A+B) 大于0.8的詞,選擇出來的詞就是與該類別具有強相關性的詞,將這些詞組合成詞集,就得到了一個類別的類別特征詞典,重復得所有類別的特征詞典。下面舉個具體實例:6 325條文本出現“基金”,其中屬于經濟類的有5 945,占總量的94%,大于0.8,因此“基金”這詞是與經濟類強相關的詞。

b)刪除強噪聲詞。利用步驟a)獲得的類別特征詞典去除強噪聲詞,例如取一個進行詞擴展后得到的文本,遍歷該文本中的所有擴展詞(相似詞和實體知識),如果存在于某一個類別特征詞典中,則判斷該類別特征詞典對應的類別與該文本數據的類別標簽是否相同,如果不同則刪除,其余情況則不刪除。此外這里存在兩個不同的處理:(a)對高頻實體引入的知識,需統計其引入的強特征詞(存在于特征詞典中的詞)的類別與原文本類別出現相異情況的次數,若占總次數的比例低于10%的則不刪除;(b)測試時,存在一種未出現在訓練集中的詞,對這類詞進行擴展時,由于不知道測試文本的類別,則直接去除與所有類別強相關的詞,防止其成為潛在的強噪聲詞。

1.3 對詞進行注意力加權

注意力機制模仿了人類視覺的注意力,將注意力放在關鍵區域,忽略不重要的區域,從而提高處理信息的效率。關于自注意力機制的原理,可以將其理解為軟尋址操作,即通過比較請求query和地址key(1.1.1節提過的 K )的相似度來決定從key所對應的數據中抽取多少內容value(1.1.1節提過的 V ),其次對抽取到的內容進行組合就得到了注意力值。注意力機制在深度學習領域應用非常廣泛,具有參數少、速度快、效果好的優點。本文引入注意力機制(self attention)來對詞進行加權,設計了詞注意力層,它在整個模型中的位置如圖2所示。

下面介紹對詞進行加權具體實現,對于一個中文短文文本 S :

S =(w 1,w 2,w 3,…,w n) ""(7)

其中: w "1 是詞嵌入,1×300的行向量。改進方法需要對每一個詞進行加權,權重值由式(8)(9)獲得。

q "t =tanh( w "t W "s1+ b "w) ""(8)

a "t =softmax( q "t W "s2) ""(9)

其中: q "t 可以看做注意力機制中的query; W "S1、 W "S2、 b "w 是自定義參數,隨著模型的訓練進行更新(實驗中 W "S1大小設為300×300, W "S2大小設為300×1)。 a "t 為詞 W "t的權重, W "s2 可以看做前面提到的key,而value就是詞嵌入表示的詞 w "t 的信息。本文不對提取到的信息進行加權平均,只是對文本中每個詞的詞向量進行加權,如式(10)所示。最后將加權后的詞向量 x t 作為模型的輸入。

x "t= a "t w "t ""(10)

改進的方法添加詞注意力層的原因如下:a)對于中文短文本分類任務而言,文本中的分類信息更多集中在某些關鍵詞,或者關鍵詞組合上,引入注意力可以提高這些詞的權重;b)本文引入擴展詞時,不可避免地會引入一些無用詞,甚至是一些干擾性強的詞(如引入的詞的詞義偏向于另一類),對詞進行加權能忽略掉這些噪聲詞,如最大池化層就有這樣的功能。同時,對詞進行加權能獲取一些特殊的語義,如一些詞組或一些共現詞對獲取了較高的權重,就說明它們具備了明顯的類別信息。

2 實驗及分析

2.1 實驗環境

本文所使用的實驗環境:操作系統為Windows 10 64位;內存大小為8 GB;編程軟件使用PyCharm,Python 3.6。實驗過程中需用到的預訓練模型和工具包如下:受限文本生成中需要的預訓練語言模型選擇的是使用中文語料CLUECorpusSmall訓練的GPT2模型[30];預訓練詞向量模型是基于搜狗新聞語料庫采用帶負采樣的skip-gram訓練的,文本特征是詞和 n -gram,詞向量維度為300;相似詞擴展使用的是中文近義詞工具包Synonyms,復旦大學開發的CN-DBpedia。

2.2 實驗數據

本文使用的數據集是從THUCNews數據集上抽取的20萬新聞標題,文本長度主要在20~30。數據集一共分為10個類別,分別是財經、房產、股票、教育、科技、社會、時政、體育、游戲、娛樂,每個類別20 000條數據。本文數據集劃分:訓練集18萬(每個類別各18 000條),驗證集和測試集各10 000(每個類別各1 000條)。

2.3 評價指標

文本分類的評價指標一般有準確率(accuracy)、精確率(precision)、召回率(recall)和 F "1-score。其中 F "1值能夠更加全面地反映分類性能,本文將所有類別 F "1值的平均值作為評價指標。分類結果的混淆矩陣如表3所示。

a)精確率(precision),即所有預測為正的樣本中,預測正確的比例,公式為

precision= TP TP+FP """(11)

b)召回率(recall),即所有實際為正的樣本中,被正確預測出來的比例,公式為

recall= TP TP+FN """(12)

c) F "1-score,精確率和召回率的調和平均值,兼顧了精確率和召回率,公式為

F 1= "1 precision + 1 recall "2 """(13)

轉換后可得 """F 1= 2TP 2TP+FP+FN """(14)

2.4 實驗參數設置

1)實驗設計 文本分類的模型選擇TextCNN[5]、Text-RCNN[10]、TextRNN[31]、Bi-LSTM-CNN-Att[32]、tansformer[33]五個基礎模型進行實驗。通過設計多組對照實驗比較改進方法改動前和改動后的分類效果,此外,還對詞注意力層進行了分析。各實驗組含義如表4所述。

示例 原新聞文本:大災變魔獸世界集換式卡牌介紹(二),類別為游戲。分詞結果(小括號內為詞頻):災變(10)、魔獸(269)、世界(1373)、集換式(1)、卡牌(4)、介紹(168),其中“卡牌”和“集換式”兩低頻詞未在預訓練的詞向量模型中,即A類詞,“災變”這一低頻詞都在詞向量模型中,即B類詞。

a)數據增強測試。(a)以B類詞“災變”為提示文本,游戲作為控制內容生成包含“災變”的文本,如表5所示,后續生成的文本將用于構造低頻詞的詞向量, 使低頻詞獲取更準確詞向量表示,構造更加符合訓練數據的詞向量,效果分析將在2.5節闡述;(b)對文本進行實體詞知識引入:魔獸世界(暴雪娛樂開發的多人在線角色扮演游戲);(c)A類詞相似詞擴展:“卡牌”相近詞“卡片”“撲克牌”;“集換式”:“UTADA”“葉祖奇”。處理過后模型輸入變為[災變,魔獸,世界,UTADA,葉祖奇,卡片,撲克牌,介紹,暴雪,娛樂,開發,在線,角色扮演,游戲]。

b)去噪測試1。去掉“卡片”,卡片出現245次,其中96%的文本為科技類別(與數碼相機一同出現等),則該擴展詞與科技類別強相關,然而原文本類別又為游戲,因此去掉該詞,其余不變。測試文本中“卡牌”的擴展詞中同樣刪除特征詞“卡片”。

c)去噪測試2。添加詞注意力層學習輸入詞的權重,通過降低噪聲詞的權重來減少噪聲詞的影響,如減少噪聲詞的權重,則噪聲詞經過最大池化層后就被去除了。

2)實驗參數設置 受限文本生成模型的參數配置參考文獻[28];文本分類模型的參數配置參考原論文。改進方法中的參數設置如下:相似高頻詞 k 取值為3;擴展近義詞個數 n 取值為2。

2.5 結果分析

在各模型上的實驗結果如表6所示。由表6可見,進行數據增強后, F "1值提高了0.3%左右。添加去噪處理1與2后各自提升了0.5%左右,說明低頻詞中含有豐富的信息,合理利用能改善文本分類的效果,然而,其中的噪聲詞很多,同樣會影響分類的效果。引入卡方統計去噪和詞注意力層后,噪聲詞的問題得到了較大改善。

關于數據增強效果分析。該部分分為特征增強和數據擴充兩部分。

a)特征增強。如表7中文本1、2分詞后全是低頻詞,同時預訓練詞向量模型中沒有,無法遷移預訓練詞向量中的知識,如果不進行任何處理,模型對其的分類就無任何依據,且類似這樣分詞后全是低頻詞的文本有227條。如文本3中“公布”和“版”為高頻詞,但其未含有能進行分類的信息,模型對其進行分類同樣無任何依據,這種分詞后高頻詞數量小于2的文本有5 635條。上述文本不進行處理,大概率會分錯。進行數據增強后,如實體詞“掌上明珠”引入知識“電視劇”后分類正確,“doter”擴招相似詞“dota”,dota的詞向量中含有其是游戲的信息,同樣分類正確。

b)數據擴充。預訓練詞向量模型中,與“災變”詞向量相近的前三個詞為“氣候系統”“大地構造”“地球表層”,這些詞明顯與游戲無關,因此,僅依賴低頻詞“災變”進行分類的文本會被分錯,如文本“災變OL神罰谷重現西部沙漠牛仔風情”。利用包含“災變”的真實數據加生成的數據微調后,“災變”詞向量相近的前五詞中包含了“游戲”“魔獸”兩個詞(“魔獸”與“災變”共出現了25次),詞向量構造時,高頻詞魔獸和游戲的更新信息就能遷移到低頻詞上,以及其分布式詞向量表示本身就包含了與游戲相近的信息,因此,分類為游戲的概率增加。

關于去噪測試1效果分析。如果A類低頻詞“卡牌”擴展的相似詞“卡片”未去除,文本將被分類成科技類,然而包含卡牌的四條文本都是游戲類,若不去除,這些文本都將分錯。如表7所示,文本4中的B類低頻詞“三折”擴展相似詞中包含“折”,而“折”出現過863次,其中96%的文本為房產類別,不去除會分類成房產類;此外文本5中的低頻詞“藝電”的相似擴展詞“EA”與游戲強相關,不刪除,同樣會導致分類錯誤,統計相似詞擴展詞中會導致分類錯誤的詞有136個。以上說明了利用卡方統計進行去噪的有效性。

關于詞注意力加權效果的分析。引入注意力機制的一個好處,即通過注意力權重的可視化來觀察模型到底將注意力放到哪些特征上。通過保存訓練得到的參數,將其與輸入的文本進行運算,獲取每個文本的注意力權重向量。a)對文本中注意力值都大于0.2的特征詞組合(位置不一定相鄰)進行統計,若這些特征詞組合出現在大量的文本中,則這些特征組合就是詞注意力加權提取到的語義,如統計發現有316個文本中有“精裝”“現房”這兩個特征詞,這兩個詞權重都大于0.2,而且這316個文本的類別也一樣;b)統計文本中那些在特征詞典中詞的注意力值,發現這些詞都分配到了較大的權重,如:財經類的特征詞典中的特征詞“基金”,包含該詞的文本數為6 271,其中特征詞“基金”的注意力值大于0.2的文本數目為5 698,注意力值大于0.3的文本數為3 594。說明了詞注意力層能夠聚焦于文本中的關鍵特征,降低噪聲詞的權重,忽略噪聲信息,提高文本分類的精度。

關于實驗參數的分析。擴展近義詞的個數 n ,如圖3所示,以TextCNN為基礎模型對參數 n 進行測試,未添加詞注意力層時, n =1時最好,因為中文工具包返回的相似詞與詞向量返回的相似詞有異曲同工之妙,隨著 n 的增大,噪聲詞不斷增多,影響了分類的效果。在添加了詞注意力層,總體效果都變好,并且效果最好的 n 變為了2,說明了添加詞注意力層能夠有效地降低噪聲詞的影響,提高模型的分類能力。dropout參數對添加詞注意力層后的模型影響較大。由于添加詞注意力層增加了參數的數量,同時數據增強操作增加了特征詞,模型更加復雜,一些特征只有與某些特定特征一起存在時才發揮作用的情況增多。然而隨機失活(dropout)操作能有效地改善這樣的問題,使得模型關注于更多的特征組合,不至于對特定特征太過敏感,從而學到更加魯棒的特征。

3 結束語

本文提出了一種基于低頻詞進行改善的中文短文本分類方法,處理了文本分類研究中低頻詞信息未能有效利用的問題。本文方法是針對低頻詞進行數據增強的方法,改善了已有的低頻詞詞向量構造算法;利用特征選擇方法和注意力機制處理了數據增強過程中噪聲詞過多的問題;并基于常見的文本分類模型進行了多組對照實驗,驗證了該改進方法的有效性和通用性。然而,該方法存在兩個問題:a)改善的效果依賴于生成文本和擴展詞的質量,雖然本文對質量問題進行了處理,但提升不夠明顯,還需進一步改善;b)改進方法是針對靜態詞向量設計的,其中有些步驟不適用基于動態詞向量、句子向量以及字向量的短文本分類模型,效果有限,然而低頻詞問題同樣存在于這類分布式嵌入表示中,怎樣對其他類型的詞向量進行處理還需進一步研究。

參考文獻:

[1] "丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展,2014, 51 (4):691-706. (Ding Zhaoyun,Jia Yan,Zhou Bin.Survey of data for Microblogs[J]. Journal of Computer Research and Development ,2014, 51 (4),691-706.)

[2] 雷明珠,邵新慧.短文本分類模型的優化及應用[J].計算機應用研究,2021, 38 (6):1775-1779. (Lei Mingzhu,Shao Xinhui.Optimization and application of short text classification model[J]. Application Research of Computers ,2021, 38 (6):1775-1779.)

[3] Bengio Y,Dwcharme R,Vincent, et al .A neural probabilistic language model[J]. Journal of Machine Learning Research ,2003, 2003 (3):1137-1155.

[4] Mikolov T,Sutskever I,Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C]//Proc of the 26th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2013:3111-3119.

[5] Kim Y.Convolutional neural networks for sentence classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:1746-1751.

[6] Johnson R,Zhang T.Deep pyramid convolutional neural networks for text categorization[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:562-570.

[7] Hochreiter S,Schmidhuber J.Long short-term memory[J]. Neural Computation ,1997, 9 (8):1735-1780.

[8] "Cho K,Van Merrienboer B,Gulcehre C, et al .Learning phrase representations using RNN encoder decoder for statistical machine translation[EB/OL].(2014-09-03).https://arxiv.org/pdf/1406.1078.pdf.

[9] 黃賢英,劉廣峰,劉小洋,等.基于word2vec和雙向LSTM的情感分類深度模型[J].計算機應用研究,2019, 36 (12):3586-3587,3596. (Huang Xianying,Liu Guangfeng,Liu Xiaoyang, et al .Sentiment classification depth model based on word2vec and bi-directional LSTM[J]. Application Research of Computers ,2019, 36 (12):3586-3587,3596.)

[10] 孟先艷,崔榮一,趙亞慧,等.基于雙向長短時記憶單元和卷積神經網絡的多語種文本分類方法[J].計算機應用研究,2020, 37 (9):2669-2673. (Meng Xianyan,Cui Rongyi,Zhao Yahui, et al .Multilingual text classification method based on bi-directional lone short term memory and convolutional neural network[J]. Application Research of Computers ,2020, 37 (9):2669-2673.)

[11] Hassan A,Mahmood A.Convolutional recurrent deep learning model for sentence classification[J]. IEEE Access ,2018, 6 :13949-13957.

[12] Yao Liang,Mao Chengsheng,Luo Yuan.Graph convolutional networks for text classification[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:7370-7377.

[13] Zhu Yi,Li Yun,Yue Yongzheng, et al. A hybrid classification method via character embedding in Chinese short text with few words[J]. IEEE Access ,2020, 8 :92120-92128.

[14] "張小川,戴旭堯,劉璐,等.融合多頭自注意力機制的中文短文本分類模型[J].計算機應用,2020, 40 (12):3485-3489. (Zhang Xiaochuan,Dai Xuyao,Liu Lu, et al. Chinese short text classification model with multi-head self-attention mechanism[J]. Journal of Computers Application ,2020, 40 (12):3485-3489.)

[15] 丁辰暉,夏鴻斌,劉淵.融合知識圖譜與注意力機制的短文本分類模型[J].計算機工程,2021, 47 (1):94-100. (Ding Chenhui,Xia Hongbin,Liu Yuan.Short test classification model combining know-ledge graph and attention mechanism[J]. Computer Engineering ,2021, 47 (1):94-100.)

[16] 盧健,馬成賢,楊騰飛,等.Text-CRNN+attention架構下的多類別文本信息分類[J].計算機應用研究,2020, 37 (6):1693-1696,1701. (Lu Jian,Ma Chengxian,Yang Tengfei, et al .Multi-category text information classification with Text-CRNN+attention architecture[J]. Application Research of Computers, 2020, 37 (6):1693-1696,1701.)

[17] Royle J,Dorazio R,Link W.Analysis of multinomial models with unknown index using data augmentation[J]. Journal of Computational and Graphical Statistics ,2007, 16 (1):67-85.

[18] 趙凱琳,靳小龍,王元卓.小樣本學習研究綜述[J].軟件學報,2021, 32 (2):349-369. (Zhao Kailin,Jin Xiaolong Wang Yuanzhuo.Survey on few-shot learning[J]. Journal of Software ,2021, 32 (2):349-369.)

[19] "陳珂,梁斌,柯文德,等.基于多通道卷積神經網絡的中文微博情感分析[J].計算機研究與發展,2018, 55 (5):945-957. (Chen Ke,Liang Bin,Ke Wende, "et al .Chinese micro-blog sentiment analysis based on multi-channels convolutional neural networks[J]. Journal of Computer Research and Development ,2018, 55 (5):945-957.)

[20] Wang Jin,Wang Zhongyuan,Zhang Dawei, et al .Combining know-ledge with deep convolutional neural networks for short text classification[C]// Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:2915-2921.

[21] Li Yanxuan.Short text classification improved by feature space extension[C]//Proc of the 5th International Conference on Electrical Engineering,Control and Robotics.2019:012046.

[22] 程婧,劉娜娜,閔可銳,等.一種低頻詞詞向量優化方法及其在短文本分類中的應用[J].計算機科學,2020, 47 (8):255-260. (Cheng Jing,Liu Nana,Min Kerui, et al .Word embedding optimization for low-frequency words with applications in short-text classification[J]. Computer Science ,2020, 47 (8):255-260.)

[23] 廖勝蘭,吉建民,俞暢,等.基于BERT模型與知識蒸餾的意圖分類方法[J].計算機工程,2021, 47 (5):73-79. (Liao Shenglan,Ji Jianmin,Yu Chang, et al. Intention classification method based on BERT model and knowledge distillation[J]. Computer Enginee-ring ,2021, 47 (5):73-79.)

[24] """張一珂,張鵬遠,顏永紅.基于對抗訓練策略的語言模型數據增強技術[J].自動化學報,2018, 44 (5):891-900. (Zhang Yike,Zhang Pengyuan,Yan Yonghong.Data augmentation for language models via adversarial training[J]. Acta Automatica Sinica ,2018, 44 (5):891-900.)

[25] Miyato T ,Dai A M,Goodfellow I.Adversarial training methods for semi-supervised text classification[EB/OL].(2016-11-07).https://arxiv.org/pdf/1605.07725v2.pdf.

[26] 張曉輝,于雙元,王全新,等.基于對抗訓練的文本表示和分類算法[J].計算機科學,2020, 47 (Z1):12-16. (Zhang Xiaohui,Yu Shuangyuan,Wang Quanxin, et al .Text representation and classification algorithm based on adversarial training[J]. Computer Science ,2020, 47 (Z1):12-16.)

[27] Liu Dayiheng,Fu Jie,Qu Qian, et al .BFGAN:backward and forward generative adversarial networks for lexically constrained sentence ge-neration[J]. IEEE/ACM Trans on Audio,Speech,and Language Processing ,2019, 27 (12):2350-2361.

[28] Chan A,Ong Y S,Pung B, et al. CoCon:a self-supervised approach for controlled text generation[EB/OL].(2021-03-09).https://arxiv.org/pdf/2006.03535.pdf.

[29] 馮勇,屈渤浩,徐紅艷,等.融合TF-IDF和LDA的中文FastText短文本分類方法[J].應用科學學報,2019, 37 (3):378-388. (Feng Yong,Qu Bohao,Xu Hongyan, et al .Chinese FastText short text classification method integrating TF-IDF and LDA[J]. Journal of Applied Sciences ,2019, 37 (3):378-388.)

[30] Radford A,Wu J,Child R, et al .Language models are unsupervised multitask learners[EB/OL].(2019-02-14).https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

[31] Liu Pengfei,Qiu Xipeng,Huang Xuanjing.Recurrent neural network for text classification with multi-task learning[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:2873-2879.

[32] 黃金杰,藺江全,何勇軍,等.局部語義與上下文關系的中文短文本分類算法[J].計算機工程與應用,2021, 57 (6):94-100. (Huang Jinjie,Lin Jiangquan,He Yongjun, et al .Chinese short text classification algorithm based on local semantics and context[J]. Computer Engineering and Applications ,2021, 57 (6):94-100.)

[33] Vaswani A,Shazeer N,Parmar N, et al .Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

主站蜘蛛池模板: 亚洲色图另类| 9啪在线视频| www.99在线观看| 亚洲男人天堂网址| 国产www网站| 天天综合网在线| AV无码国产在线看岛国岛| 超碰aⅴ人人做人人爽欧美 | 亚洲天堂免费观看| 色网站免费在线观看| 国产呦精品一区二区三区下载 | 国产乱子伦视频三区| 国模沟沟一区二区三区| 国产麻豆福利av在线播放| 中文字幕第4页| 成年人久久黄色网站| 国产成人a在线观看视频| 91破解版在线亚洲| 91久久青青草原精品国产| 91欧洲国产日韩在线人成| 99草精品视频| 久久国产精品电影| 特级毛片免费视频| 99热国产这里只有精品9九| 日本久久网站| 黄色在线不卡| 久久网欧美| 亚洲欧美日韩高清综合678| 久草国产在线观看| a级毛片免费看| 国产农村妇女精品一二区| 国产99免费视频| 欧美一级黄色影院| 九色免费视频| 精品国产Ⅴ无码大片在线观看81| 多人乱p欧美在线观看| 一级毛片中文字幕| 女人18毛片久久| 国产成人无码AV在线播放动漫| 伊人色综合久久天天| 亚洲三级a| 国产在线视频导航| 波多野结衣中文字幕一区二区| 亚洲伊人电影| 9cao视频精品| 国产精品夜夜嗨视频免费视频| 国产精品美人久久久久久AV| 亚洲男人在线天堂| 精品欧美一区二区三区久久久| 亚洲天堂伊人| 真实国产乱子伦高清| 热re99久久精品国99热| 噜噜噜综合亚洲| 国产SUV精品一区二区6| 欧美激情伊人| 国产杨幂丝袜av在线播放| 美女扒开下面流白浆在线试听| 日韩国产无码一区| 丁香亚洲综合五月天婷婷| 伊在人亞洲香蕉精品區| 亚洲系列中文字幕一区二区| 国产精品亚洲一区二区在线观看| 中文字幕在线不卡视频| 欧美高清国产| 欧美a级在线| 蜜桃视频一区二区| 在线免费观看AV| 国产精品jizz在线观看软件| 国产在线麻豆波多野结衣| 97人人模人人爽人人喊小说| 国产精品9| 国产成人久久综合777777麻豆| 亚洲欧美日韩另类| 国产欧美日韩免费| 人人爱天天做夜夜爽| 97久久超碰极品视觉盛宴| a亚洲天堂| 福利视频一区| 国产午夜福利在线小视频| 亚洲日韩日本中文在线| 亚洲第一精品福利| 欧美一级夜夜爽|