999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于詞和事件主題的卷積網絡的新聞文本分類方法

2021-05-14 04:24:24吳曉平
計算機應用與軟件 2021年5期
關鍵詞:語義分類文本

于 游 付 鈺 吳曉平

(海軍工程大學信息安全系 湖北 武漢 430033)

0 引 言

隨著大數據、云計算等現代信息技術的發展,傳統的紙質文檔快速向電子化、數字化文檔進行轉變,文檔管理的分類、檢索等基本方法也隨之產生了變化,如何有效地管理這些信息并從中獲取有價值的內容是文本處理中的一大挑戰。文本自動分類[1]是解決這一挑戰的基礎性工作,是后續文本自動化操作和處理的重要基礎。許多學者針對文本分類方法展開了研究,文本分類算法被不斷提出,如樸素貝葉斯[2]、支持向量機(SVM)[3]、決策樹[4]和神經網絡[5]學習等方法。如何實現文本準確高效地分類已是目前研究的一個熱點問題。

隨著神經網絡算法不斷發展,其在自然語言領域處理的優越性也日漸凸顯。周樸雄[7]分別使用神經網絡算法、KNN算法及SVM算法對Web文本進行分類,結果顯示神經網絡算法的準確度要優于其他算法。相比于傳統的分類主要采用有監督的方法,依賴于現有的自然語言處理工具容易導致處理過程中誤差累積的問題。文獻[8]提出一種結合Word2Vec、改進型TF-IDF和卷積神經網絡的深度學習文本分類方法,提高了單個詞對文本分類的影響,但是忽略了文本的語義關系,沒有考慮上下文結構,有待進一步改善。文獻[9]提出了一種基于LDA算法CNN短文本分類方法,該方法將文本主題加入到CNN網絡中學習,但是得到的主題是單個詞對文本的主題分布,不能深刻地反映文本語義信息。目前,在文本分類任務中,傳統神經網絡算法在訓練過程中參數多且易出現過擬合現象,越來越多的深度學習方法開始走進大眾視野。上述幾種方法中特征表層信息提取應用成熟,但特征表示過于單一,僅用詞對文本進行描述不能夠全面地對文本表示,從而難以提高文本分類效果。

為能夠更全面地應用文本的語義信息,解決傳統文本分類中特征稀疏的問題,本文提出一種基于詞和事件主題的CNN文本分類方法,并給出了基于BTM的事件主題模型對事件主題進行提取,通過事件主題特征對文本的語義進行表述,豐富特征語義信息,以CNN作為分類器學習,將傳統基于詞的特征表示方法與事件主題特征表示方法進行拼接作為CNN的輸入,提高文本分類的準確性。

1 基于BTM的事件主題模型

主題模型[10]是自然語言處理的一種重要手法,在文本信息挖掘和信息檢索領域有著非常重要的作用,通常是通過詞或短語的方式對主題進行描述,但此類方法獲得的文本主題缺乏深層次語義。事件[11]比詞具有更加豐富的語義信息,可以更好地表達文本的主題,更有利于文本中心語義的掌握,且能夠有效解決基于詞的主題表示方法的稀疏性問題,如詞組合{a,b}同屬一個事件,利用基于詞的主題模型對其進行表示時,可能詞a與詞b并不屬于同一主題,而利用基于事件的主題模型,可以很好地解決這一問題。

1.1 事件抽取方法

在NPL處理領域,事件通常被定義為“謂詞+論元結構”,可以表示為“主+謂+賓”結構。對于沒有事先定義事件的事件抽取操作,可以使用由斯坦福大學自然語言處理小組開發的開源句法分析器Stanford Parser工具獲取每條語句的依存結構,“nsubj”和“dobj”,即名詞主語和直接賓語的方法,若其擁有相同的謂語,則可將其看成一個事件,即直接表示為“主+謂+賓”結構,可利用向量表示為:

(1)

式中:·表示點乘運算;?表示克羅內克積運算。若是二元事件,則直接采用謂詞向量和論元向量點乘的方法表示。

1.2 模型構建

鑒于事件提取的原子是詞對,所以在計算事件主題時,應該使用對詞對進行主題計算的方法。BTM(Biterm Topic Model)[12]是針對共現對進行建模的一種主題模型,所以本文方法以BTM為基礎對事件主題進行建模,模型如圖1所示。

圖1 以BTM為基礎的事件主題模型

圖1中符號含義如表1所示。

表1 基本符號及含義

因此,基于BTM模型的事件主題生成過程可描述如下:

(1) 生成詞對主題多項式分布參數βk~Dirichlet(η);

(2) 生成文檔主題多項式分布參數θd~Dirichlet(α);

(3) 從主題分布多項式θd中取樣生成主題Zb,Zb~multi(θd),采樣生成詞對(ei,ej),ei~multi(θd),ej~multi(θd);

(4) 對于文檔的詞對進行采樣,從主題分布多項式θd中取樣生成主題eM,采樣生成詞對(Wp,Wq),Wp~multi(βem),Wq~multi(βem)。

此時,其聯合概率計算方法如下:

(2)

(3)

2 基于詞和事件主題的CNN文本分類

在CNN[13]學習訓練過程中,通常采用詞作為網絡的輸入,往往忽略了文本中的語義信息,當文本中的句子信息較少時,則需要全局信息對其進行補充。主題模型恰好能夠有效地對文本的語義信息進行描述并在一定程度上表示句子的全局信息,傳統的主題模型得到的僅僅是文本中詞對應的主題分布,在很大程度上忽略了詞之間、上下文之間的語義關聯,不能夠深層次地表示文本的語義信息。對此,本文提出一種基于詞和事件主題的模型CNN(Word Event-Topic CNN)對文本進行分類,下簡稱為W-E CNN。

W-E CNN模型主要包括兩個部分:基于事件的詞-主題向量生成和CNN運算過程,如圖2所示。

圖2 W-E CNN結構圖

W-E CNN的基本過程可以描述為:(1) 對文本進行預處理,得到分詞結果和BTM詞對;(2) 利用Stanford工具獲取每條語句的依存結構,進而得到事件;(3) 基于事件,利用融入事件知識的BTM方法得到其對應的主題;(4) 對事件進行分解得到對應的詞與主題;(5) 將得到的詞與主題進行拼接,對詞和主題進行向量化表示,得到對應的詞-主題向量;(6) 輸入至CNN進行學習訓練。

W-E CNN網絡中的輸入層的功能與原CNN層的功能基本一致,只是在原有詞向量的基礎上,再拼接上主題向量,則其輸入可以表示為:

(4)

式中:n為詞的個數;wi和ti分別為第i個詞的詞向量和主題向量;m為維度,詞向量與主題向量采用相同的維度,方便后續計算;[witi]表示詞向量與主題向量的拼接。

該過程如算法1所示。

算法1基于詞和事件主題的文本分類

輸入:數據集D,主題集K。

輸出:文本類別category。

1. processed text←text preprocessing ofD

//文本預處理

2. word←word segmentation of processed text

//分詞

3.B←dependency analysis of word

//依存關系分析

4. fori

5. forj

6. ifei(verb)=ej(verb)

//等同于判斷nsubj(verb)=dobj(verb)

7. ifnsubj(sub)∪dobj(obj)≠null

8.B(ei,ej)←(sub,verb,obj)

9. end if

10. end if

11. end for

12. end for

13.Zb←BTM(B(ei,ej))

//BTM主題計算

14. [word,topic]←vectorization ofZband (B(ei,ej))

//得到輸入向量

15. category←[word,topic]

//CNN學習訓練

16. return category

該方法可以在不增加CNN算法參數運算復雜度的基礎上,增加文本的主題特征,將詞向量與主題向量作為一個整體輸入到CNN網絡中進行訓練。主題特征可以豐富文本特征,充分利用文本的語義信息,減少了傳統基于詞的主題模型中因錯分主題而導致精度下降的問題,有效提高文本主題的可解釋性;而詞特征可以彌補事件依存分析中不準確的地方。

3 實 驗

本文使用的實驗數據來自于搜狗語料庫——搜狐新聞數據(SogouCS)[14],該數據收集來自搜狐新聞2012年6月至7月期間國內、國際、體育、社會和娛樂等18個頻道的新聞數據,包含的數據有URL、標題、正文內容等,可從搜狗實驗室下載得到格式為.dat的數據包,大小為1.43 GB。依據.dat格式對其進行切分得到單篇新聞數據,其基本格式如圖3所示。

圖3 新聞數據

CNN網絡處理的是二維數據,所以在對數據進行處理時,首先要將文本數據轉換為特征向量矩陣形式,本文采用Word2vec。Word2vec是一個用于計算詞特征向量的工具,它一般有兩種方法獲取特征向量:一種是使用現有詞庫中的全局詞向量庫,這種方法使用的庫規模一般十分龐大,如由北京師范大學中文信息處理研究所與中國人民大學DBIIR實驗室開發的《中文詞向量語料庫》[15],該庫中包括了知乎、人民日報、百度百科、古漢語等數十種常用語料的訓練詞向量;另一種方法通過使用者自己對文本語料進行訓練得到的詞向量庫。為方便計算,本文采用后者,通過訓練文本語料庫,得到一個局部的特征向量庫,并通過CBOW方法[16]對原輸入其進行轉換。

在對數據集數據讀取后,會發現其中夾雜著少部分往年新聞數據,對其進行過濾。首先對文本的事件主題提取,因為處理的數據是新聞,文本長度較短,所以參數設置為:迭代次數為500,主題數目為10,每個主題中顯示概率最大的3個事件。部分結果如表2所示。

表2 主題提取結果

對NPL處理的分析指標主要有準確率、召回率和F1值。其中:準確率是檢驗方法的查準率,召回率是檢驗方法的查全率,F1值是查準率與查全率的綜合值。

隨機從Sogou CS中選取財經、軍事、體育、娛樂四個類別的新聞各1 000篇作為實驗數據,其中80%作為訓練數據,20%作為驗證數據。在結合事件的主題模型中,狄利克雷函數的參數設置均設置為:α=0.05,η=0.1。在W-E CNN算法中,由于新聞文本長度都較短,所以詞向量維度設置為200。文獻[17]的實驗結果表明當卷積核的個數設置為100~200時,提取出的特征比較全面,所以卷積核個數設置為128,卷積核大小為3、4、5,全連接層神經元個數為128個,批尺寸為64,迭代訓練次數50次,丟棄率為0.4,學習率為0.001。在對文本進行處理時,可見,由于新聞文本長度普遍較短,所以其長度一般都在50左右,K=50,即CNN的輸入向量大小為50×400。

對事件主題和詞之間的相輔相成關系進行驗證,分別以詞為輸入的CNN方法(Word CNN)、以事件主題為輸入的CNN方法(Event CNN)和本文提出的W-E CNN方法做文本分類實驗。實驗結果如表3所示。

表3 實驗結果

可以看出,W-E CNN文本分類方法的效果要優于Word CNN和Event CNN方法,且Event CNN方法的分類結果要劣于Word CNN方法,這說明在對文本依存關系進行分析時存在不準確的地方,而將其與詞特征進行連接可以彌補這些不足,而事件主題又可以彌補Word CNN中缺乏語義信息的缺點。

為驗證W-E CNN方法較其他方法的優越性,本文進行對比實驗,分別為以主題向量為輸入的樸素貝葉斯(NB)、K-最鄰近(KNN)、支持向量機(SVM)算法和基于詞和主題的CNN(W-T CNN)文本分類方法。其中,W-T CNN方法中的主題是指用詞對主題進行描述的方法。具體實驗結果如表4所示。

表4 對比實驗F1值

通過測試,W-E CNN分類方法的平均準確度、召回率、F1值分別達到了0.972、0.971、0.971。在本實驗中,W-E CNN方法要明顯優于機器學習中的NB、KNN、SVM方法。通過對比W-E CNN方法與W-T CNN文本分類方法可以發現,無論是準確率還是召回率,W-E CNN分類方法都要高于W-T CNN分類方法,這說明事件主題能夠更加地對文本的特征進行提取,更有利于文本語義信息的表示。通過圖4所示的運算時間對比可以看出,W-E CNN分類方法在運算時間上要長于基于詞和主題的分類方法,這是因為W-E CNN分類方法需要首先對詞進行依存分析得到事件,進而決定該詞對所屬的主題。

圖4 W-E CNN分類方法和W-T CNN分詞方法的運算時間

為進一步對W-E CNN的學習能力進行更深入的研究,以學習文本數量為自變量進行實驗,四類文本從每類文本100篇開始逐漸增加,每增加50篇記錄一次結果,其中80%作為訓練數據,20%作為測試文本,結果如圖5所示。

圖5 不同規模文本數量分類方法對比效果

根據實驗結果可以發現,當訓練文本數量較少時,傳統的基于機器學習的分類效能要明顯優于W-E CNN方法,而隨著訓練文本數量不斷增加,W-E CNN的分類效果要明顯優于其他幾種機器學習方法。通過圖5可以發現,樸素貝葉斯、K-最鄰近、支持向量機方法的學習能力達到一定值后開始趨于平穩,而W-E CNN方法的學習能力則不斷增加,這也是深度學習算法相比于機器學習算法的一個優點。

4 結 語

本文針對傳統詞表示特征時不夠全面、可解釋性差的問題,結合基于事件的主題模型提出了一種基于詞和事件主題的CNN文本分類方法,并給出了基于BTM的事件主題提取方法,能夠有效解決詞特征稀疏的缺點。將該方法應用于新聞文本分類中,通過實驗證明了W-E CNN方法在分類上的優越性,但實驗也發現,W-E CNN方法所用的時間要高于基于詞和主題的分詞方法,這是因為W-E CNN在運算過程中需要組建事件對,再對其進行主題確定所造成的。所以,尋找高效的事件主題表示方式和計算方法及如何提高本文方法在深度學習計算框架上的運算效率是下一步研究的方向。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 久久中文无码精品| 日本精品视频| 亚洲天堂在线视频| 亚洲精品va| 在线亚洲精品自拍| 韩日无码在线不卡| а∨天堂一区中文字幕| 亚洲无码高清视频在线观看 | 国产极品粉嫩小泬免费看| 超级碰免费视频91| 亚洲欧美日韩色图| 亚洲欧洲日韩久久狠狠爱| julia中文字幕久久亚洲| 久久久久亚洲AV成人人电影软件 | 欧美影院久久| 日本三级欧美三级| 国产精品美女免费视频大全 | 日韩欧美成人高清在线观看| 日本午夜精品一本在线观看 | 亚洲成a人在线观看| 久草热视频在线| 国产亚洲男人的天堂在线观看| 国产成人精品第一区二区| 精品精品国产高清A毛片| 亚洲美女AV免费一区| 国内精品免费| 亚洲性日韩精品一区二区| 亚洲国产精品久久久久秋霞影院| 人妻出轨无码中文一区二区| 2020国产精品视频| 青青久在线视频免费观看| 最新亚洲人成网站在线观看| 日本爱爱精品一区二区| 日韩第一页在线| 露脸国产精品自产在线播| 最新国产网站| 欧美区一区| 51国产偷自视频区视频手机观看| 美女被狂躁www在线观看| 亚洲有无码中文网| 中文字幕色站| 这里只有精品在线播放| 欧美性猛交一区二区三区 | 老司国产精品视频91| 亚洲全网成人资源在线观看| 欧美综合成人| 丝袜亚洲综合| 亚洲国产无码有码| 97视频在线观看免费视频| 青青热久免费精品视频6| 久久99国产乱子伦精品免| 欧美激情伊人| 国产嫖妓91东北老熟女久久一| 国产欧美日本在线观看| 成人永久免费A∨一级在线播放| 香蕉伊思人视频| 日本一区二区不卡视频| 国产人成乱码视频免费观看| 国产精品露脸视频| 日韩精品中文字幕一区三区| 波多野吉衣一区二区三区av| 欧美另类一区| 久久这里只有精品免费| 免费无码一区二区| 美女一区二区在线观看| 国产乱子伦精品视频| 欧美三级视频在线播放| 2021国产精品自产拍在线观看| AV熟女乱| 国产欧美专区在线观看| 国产偷倩视频| 国产成熟女人性满足视频| 精品福利网| 91亚洲影院| 国产成熟女人性满足视频| 国产微拍一区二区三区四区| 国产成人综合亚洲欧美在| 国产91透明丝袜美腿在线| 日韩毛片基地| 欧美一级夜夜爽| 欧美精品在线看| 亚洲国产精品不卡在线|