999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合LDA主題模型和二維卷積的短文本分類

2020-11-12 11:07:04鄭山紅李萬龍
計算機應用與軟件 2020年11期
關鍵詞:特征提取語義分類

康 宸 鄭山紅 李萬龍

(長春工業大學 吉林 長春 130012)

0 引 言

文本分類的相關工作可以追溯到20世紀50年代,在自然語言處理中,文本分類是一項重要的研究內容,被廣泛應用于Web搜索、日志分析、信息過濾、情感分析等領域[1]。隨著移動互聯網的發展和社交媒體的興起,短文本數據規模急速增長,如何利用短文本進行高效準確的分類變得尤為重要。不同于長文本分類,短文本分類由于短文本字數限制,不能夠充分挖掘短文本序列信息,提取出有利于分類的特征,因此往往導致短文本分類的效果不佳。

傳統的統計學習方法在處理文本分類任務中大致分為文本預處理、特征提取、文本表示、分類器四個部分。文本預處理是在文中提取關鍵詞表示文本的過程。常見的特征提取方法有通過選定閾值來篩選特征的統計方法,比如統計文檔頻次的DF方法[2]和信息增益方法(IG)[2]等,這些方法由于采用統計的方式對文本特征進行提取,所以并不適用文本字數少的短文本。傳統的文本表示方法包括詞袋模型和向量空間模型,它們最大的不足就是認為文本中每一個單詞都是彼此獨立的,單詞之間不包含任何語義信息,這就導致短文本的文本表示維度高且稀疏。分類器應用改進的統計機器學習算法,如CRS-KNN[3]等。

隨著深度學習的發展,文本分類不再需要繁瑣的特征提取,而是由深度學習參數自動擬合,利用一維卷積或LSTM等網絡結構自動提取特征表達,實現端到端的學習方式。不同于LSTM保留提取文本的全部序列信息,一維卷積能夠根據filter來學習局部序列信息,因此一維卷積在對n元語法敏感的分類任務上表現尤為突出[4],比如基于一維卷積神經網絡和KNN短文本分類,應用卷積神經網絡對短文本進行特征提取,然后應用KNN算法進行分類[5]。但是在短文本中局部序列的數量少并且每個詞項缺乏語義以及主題信息,往往會導致一維卷積在處理短文本時分類特征挖掘不充分。因此,為補充短文本語義和主題信息,引入LDA[6]預訓練好的主題詞項分布和Word2vec[7]預訓練通用語義詞向量分布。通過將它們與隨機初始化的詞向量拼接來表示短文本特征,彌補了一維卷積在處理短文本中分類特征不足的問題,并且引入了短文本的主題信息和語義信息。

1 相關工作

1.1 預訓練LDA主題模型

主題模型是對文字中隱含主題的一種建模方法。主題可以看成是詞項的概率分布,主題模型通過詞項在文檔級的共現信息抽取語義相關的主題集合,并能夠將詞項空間中的文檔映射到主題空間,得到文檔在低維空間中的表達[8]。Blei等[6]提出了基于貝葉斯思想的LDA主題模型,在原有的pLSI的基礎[9]上加上兩個先驗Dirichlet分布,這樣就可以不斷修正之前的參數估計,從先驗分布逐漸過渡到后驗分布。

參數估計方法有變分貝葉斯推斷以及Gibbs采樣等方法。本文采用Gibbs采樣的方式,每次對聯合分布的一個分量進行采樣,保持其他分量不變。經過推導最終采用Gibbs求解LDA主題模型,其計算公式為:

(1)

1.2 預訓練詞向量模型

采用Python第三方開源工具包Gensim的Word2vec模塊來訓練通用語義詞向量,設置的窗口較小易于產生更多功能、句法和語義相似性,如果設置的窗口較大則易于產生更大的主題相似性。

2 融合LDA主題模型和二維卷積

由于深度學習是一種特征表示的學習方式,能夠通過端到端的學習,通過參數擬合來提取特征,所以應用深度學習解決短文本分類任務,主要包括文本表示、特征提取、分類器三個部分。本文提出的兩種模型主要區別在于文本表示和特征提取部分,所以本文主要從文本表示和特征提取兩個角度介紹這兩種模型。為了敘述方便,下面將兩種模型分別記為CTC1和CTC2。

2.1 文本表示

在自然語言處理的任務中加入詞向量不僅可以使詞項的特征維度降低,而且詞向量中的每個維度都表達某一種語義信息。在實際應用中有兩種方式獲取詞向量:(1) 在模型中鍵入詞嵌入層,通過數據來學習和任務相關的詞向量,即隨機初始化詞向量方式;(2) 加載預訓練詞向量,通過數據來學習與任務相關的詞向量,為模型補充通用的語義信息。

由于短文本有效詞項數量較少,導致短文本提供的語義信息和主題信息匱乏,這也是導致相同模型在短文本上分類效果不如長文本分類效果好的主要原因之一。

從預訓練LDA主題模型中獲得主題詞項分布β,將β映射到短文本分類樣本的詞匯表中,得到短文本詞項關于主題信息的詞向量。同理,從預訓練Word2vec中獲取在小窗口上訓練得到通用語義的詞向量。隨機初始化的詞向量雖然增大了模型的容量,但是由于隨機初始化的詞向量會根據樣本數據學習到與任務相關的知識,因此會為短文本補充不同于主題與通用語義的其他信息。

2.1.1CTC1拼接成三通道的文本表示

二維卷積在處理彩色圖像時,將彩色圖像看成是擁有RGB三種通道的像素矩陣,在圖像中RGB三種顏色矩陣可以看成圖像的三種不同表達。所以用于任務相關的隨機初始化詞向量矩陣、通用語義詞向量矩陣,以及主題詞項矩陣拼接成三通道,可以看作是對短文本的三種不同角度的表達,即從任務相關的語義、通用語義和主題三個角度。拼接成三個通道的短文本表示如圖1所示。

圖1 拼接三通道的文本表示

2.1.2CTC2三個相互獨立的文本表示

在自然語言處理中,單詞的表示可以有很多種方式,每一個單詞的表達方式都可以作為短文本的文本表示,即將含有任務相關的隨機詞向量、含有通用語義信息的詞向量,以及主題信息的詞向量看成短文本的三種不同文本表達方式,即看成獨立的文本表示,如圖2所示。

圖2 三個獨立的文本表示

2.2 特征提取

在文本表示階段將短文本中隨機詞向量矩陣,通用語義詞向量矩陣以及主題詞項矩陣看成短文本的三個通道,從三個方面表達短文本;而另一種從文本角度將三個矩陣作為短文本三個獨立的表達,因此在文本表示中產生了兩種不同的文本表達方式。對于不同的文本表達,特征提取部分也會有所不同,下面是相應的兩種模型對應的兩種特征提取部分。

2.2.1CTC1二維卷積特征提取

將短文本表示成三個不同的通道,可以通過二維卷積直接在擁有的三通道的文本表示中進行特征提取,二維卷積的提出使得圖像識別領域發展迅速,它不需要去查看整幅照片檢測一個模式,只需要將模式應用到整幅圖片的一個小部分;相同的模式可能出現在圖片的不同區域;可以應用Max-Pooling來對圖片進行分段采樣。由于這些特點,使得二維卷積在處理圖像這種高維度特征中大大節省了訓練參數,提取到相對圖像更有用的特征。

對于短文本分類任務,將短文本拼接成類似圖像RGB的三維通道,可以將短文本分類任務遷移到圖像識別的問題當中,雖然文本不完全具備圖像的特點,但是對于拼接后的短文本來說,每一個通道的詞向量的每一個維度都可能對最終的分類結果有影響。比如對于通用語義詞向量來說,它的某一個維度可能攜帶與金融有關的信息,那么在進行二維卷積操作提取特征后,這一個維度會尤為的突出。同時文本分類任務中,完整的詞序對分類任務不是很有幫助,但是連續的單詞對會對文本分類任務有幫助,在二維卷積處理三通道短文本特征時,可以類似進行圖像處理那樣選定一個filter。因此使用二維卷積對拼接的三通道短文本進行卷積操作的時候,考慮的是filterwidth個向量維度特征和filterheight個連續單詞對。

2.2.2CTC2一維卷積結合二維卷積特征提取

將三種短文本的特征表示看成是三個獨立文本表示,因此可以認為是三種不同的短文本,此時需要使用不同的一維卷積分別對三種獨立的文本表示進行特征提取,將經過不同的一維卷積提取到的三種不同獨立文本表示的結果進行拼接。對于短文本,三種獨立的文本對應位置表達的是短文本中相同位置的單詞,所以將其拼接后的結果可以表示為相同單詞的不同文本表達形式。對拼接后的結果進行二維卷積操作,此時的二維卷積由于經過一維卷積的處理,特征圖的維度大大降低,因此訓練的時間復雜度接近使用一維卷積模型。CTC2具體的特征提取過程如圖3所示。

圖3 1D卷積與2D卷積結合特征提取

3 實驗分析

3.1 預訓練模型

預訓練LDA主題模型采用55 000條新聞文本數據集,為了得到更好的結果,主題個數設置為256,參數α=0.19、β=0.01,共計398 214個詞項。迭代足夠的次數得到主題詞項分布β(256,398 214)以及文檔主題分布θ(55 000,256)。

預訓練詞向量模型采用一個與任務相關的1.2 GB新聞數據集,為了得到更多包含語義信息的向量,設置窗口為3,采用CBOW模型,并且向量的維度設為256,迭代50次[10]。

3.2 實驗數據

實驗采用公開2012年6月—7月搜狗新聞數據集,從中提取出10個類別的47 300條數據作為訓練集,7 700條數據作為驗證集,10 000條數據集作為測試集,提取新聞標題作為短文本數據。

3.3 對比算法

本文提出的兩種短文本分類模型為:CTC1將三個矩陣拼接成三通道的文本表示,并通過二維卷積進行特征提取;CTC2將三個矩陣看成互相獨立的文本表示,通過一維卷積結合二維卷積進行特征提取。將提取的特征類比圖像識別特征,應用圖像識別模型框架進一步對文本特征進行提取分類。為了方便模型對比,將CTC1、CTC2兩種模型添加不同模型架構記為CTC1-X、CTC2-X,其中X就是具體的圖像識別模型框架。進行對比的分類算法有基本模型MLP、CNN、LSTM、Bi-LSTM、結構簡單的fastText[11]、比fastText文本信息保留更好的Text-CNN[4],以及在Text-CNN基礎上加上注意力機制的HAN[12]。

3.4 實驗結果

由于短文本文本表示后的特征圖比較小,所以此時的X使用了部分圖像識別框架。實驗對比了CTC1-VGG、CTC1-殘差網絡、CTC2-VGG、CTC2-Inception、MLP、CNN、LSTM、Bi-LSTM、fastText、Text-CNN和HAN等11種文本分類模型,不同模型在精度以及總訓練時長上的對比如表1所示。

表1 不同模型在短文本分類上的對比(10 epoch)

續表1

11種短文本分類算法在精度上的對比如圖4所示。

圖4 11種分類算法精度柱狀圖

可以看出,在11種分類算法中CTC1-殘差網絡在短文本的分類精確度最高,達到了94.32%,而最低的MLP為90.80%。在傳統模型中一維卷積的準確度最高,因為一維卷積能夠捕捉短文本中的局部序列信息,而這些局部序列信息有利于文本分類,但是由于短文本的局限性在更加復雜模型中短文本分類效果表現一般。此時的CTC1-X和CTC2-X兩種短文本分類模型,彌補了一維卷積在處理短文本中分類特征不足的缺點,并且引入了短文本的主題信息和通用語義信息,雖然兩種模型表現不一,但是都比在傳統文本分類準確度最高的一維卷積模型效果要好。

11種文本分類算法總的訓練時長對比如圖5所示。

圖5 11種分類算法總的訓練時長

由于在傳統文本分類中,短文本文本表示特征相對的維度比較低,因此在使用MLP、fastText等簡單模型進行短文本分類時模型的參數不會太多,模型越簡單,相應的模型訓練時間就會越短。本文提出的兩種短文本分類模型中CTC1-X由于先將短文本文本表示拼接成三個通道,二維卷積對三個通道進行卷積操作的效率比較低,因此CTC1-X模型是這11個模型中效率最低的。第二種方案由于先將短文本表示經過一維卷積進行特征提取,然后進行拼接,降低了特征的維度,同時得益于圖像識別領域的一些提高效率的模型架構,使得CTC2-X模型在短文本分類效率接近一維卷積模型。

本文提出的模型CTC1-X雖然在效率上比較低,但是在短文本分類的準確度是最高的,而第二種模型CTC2-X雖然在短文本分類的準確度上沒有CTC2-X模型高,但是在效率上接近一維卷積。

保存CTC2-Inception模型作為代表,通過可視化卷積中間層的方式,將擁有通道的短文本矩陣類比成圖像,使用“名師 支招 英語 四級 考前 30天 備考 計劃 臨近”作為模型的輸入,CTC2-Inception三個獨立通道中間激活值輸出如圖6所示。

圖6 CTC2-Inception三個獨立通道中間激活值輸出

CTC2-Inception最后一層多通道矩陣輸出如圖7所示。

圖7 CTC2-Inception最后一層多道中間激活層輸出

CTC2-Inception是將隨機初始化詞向量、通用語義詞向量、包含主題信息的詞向量看成三種不同的文本表示,通過三個獨立的一維卷積進行特征提取,將提取的三個獨立特征拼接成單通道的文本特征圖。最后應用Inception結構來對單通道文本特征圖進一步提取特征并分類。

由圖6可以看出,在通用語義詞向量和主題詞向量特征提取結果中大部分為非黑色的區域,因為此時保留了大部分原始文本的信息。有效的信息大多呈現塊狀,此時模型學習到的是一些向量的某一些維度信息,這些維度信息對文本分類有幫助,這也說明了二維卷積對這些拼接的文本表示向量進行卷積操作的可行性。隨著模型層數的加深,更高層所提取的特征變得越來越抽象。從圖7可以看出,大部分通道的激活為黑色,此時更高的層包含的關于特定文本輸入的信息越來越少,通道中包含信息的部分有條狀區域,這些條狀區域是最終幫助文本分類所抽象出來的編碼模式。

4 結 語

將通用語義詞向量以及主題詞向量引入短文本中為短文本補充通用語義以及主題信息來彌補短文本字符少、可用信息少的缺點。通過將文本表示看成擁有通道的圖像,將自然語言處理問題轉換為圖像識別問題,可以通過更加成熟的圖像領域的解決方案來解決自然語言處理中的問題。雖然應用二維卷積能夠提高對應短文本分類的精度,但是其通過卷積的過濾器不像圖片那樣擁有很好的解釋性。在對短文本進行文本表示的時候,不論是第一種模型還是第二種模型,進行二維卷積操作的特征圖都比較小,所以在使用二維卷積進行提取特征時,往往不能夠使用更深的網絡結構進行特征提取,使得模型不能夠有足夠的容量來學習提取特征。接下來的工作主要是提高模型的表達能力,使其具有更強的特征提取能力。

猜你喜歡
特征提取語義分類
分類算一算
語言與語義
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 午夜天堂视频| 国产h视频在线观看视频| 美女无遮挡免费网站| 午夜三级在线| 国产亚洲成AⅤ人片在线观看| 国产永久在线观看| 亚洲综合片| 欧美日韩专区| 伊在人亚洲香蕉精品播放| 日本免费a视频| 欧美在线综合视频| 国产日本一区二区三区| 免费国产黄线在线观看| 国产精品久久久久无码网站| 色偷偷一区二区三区| 国产高清在线精品一区二区三区| 久久精品丝袜| 久久五月视频| 99热这里只有免费国产精品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 色欲综合久久中文字幕网| 手机在线国产精品| 四虎国产永久在线观看| 99爱在线| 女人毛片a级大学毛片免费| 秋霞国产在线| 91在线播放免费不卡无毒| 99精品国产自在现线观看| 国产精品va免费视频| 在线观看亚洲天堂| 在线免费观看AV| 亚洲综合18p| 久久精品人妻中文系列| 久久精品人人做人人爽97| 国产成年女人特黄特色毛片免| 国产欧美日韩一区二区视频在线| 三上悠亚在线精品二区| 亚洲人成网18禁| 成人在线亚洲| 久久无码免费束人妻| 欧美日韩中文字幕在线| 久青草免费在线视频| 一级爱做片免费观看久久 | 亚洲AⅤ综合在线欧美一区| 欧美a网站| 麻豆精品在线| 国产制服丝袜91在线| 狠狠亚洲五月天| 国产av剧情无码精品色午夜| 91福利免费| 欧美国产精品不卡在线观看| 精品综合久久久久久97| 日本a级免费| 亚洲综合二区| 欧美啪啪精品| 九九热精品在线视频| 青青久视频| 伊人久热这里只有精品视频99| 国产精品午夜福利麻豆| 91精品伊人久久大香线蕉| 国模视频一区二区| 久久精品无码一区二区国产区| 一级毛片免费高清视频| 久久精品娱乐亚洲领先| 国内丰满少妇猛烈精品播| 在线永久免费观看的毛片| 激情视频综合网| 性视频久久| 亚洲永久精品ww47国产| 欧美 亚洲 日韩 国产| 1769国产精品免费视频| 国产成人精品一区二区三在线观看| 在线亚洲精品自拍| 亚洲Av激情网五月天| 国产精品自在线天天看片| 久久天天躁夜夜躁狠狠| 精品国产www| 亚洲精品国产日韩无码AV永久免费网| 国产微拍精品| 国产精品亚洲а∨天堂免下载| 中文字幕伦视频| 日本精品影院|