999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的語句級新聞分類算法

2020-04-23 05:42:22曾凡鋒李玉珂
計算機工程與設計 2020年4期
關鍵詞:分類文本模型

曾凡鋒,李玉珂,肖 珂

(北方工業大學 信息學院,北京 100144)

0 引 言

隨著信息時代的到來,人們的信息來源日益廣泛,信息獲取速度越來越快,信息的有效時間也越來越短。新聞閱讀一向是人們獲取信息的重要手段,對人們的生活有著不可替代的意義。然而在信息獲取越來越便利的同時,信息的種類的也日益繁雜,質量層次不齊,對于所需信息的準確定位與獲取也相對變得越來越困難。由于互聯網新聞數量巨大,主題多樣,數據稀疏,傳統的中文文章分類方法在面對海量的網絡互聯網信息時顯得尤為不足。因此,如何對互聯網上海量的新聞信息進行快速準確的分類一直是一個十分關鍵的問題。

文本分類本質上都是以數據特征提和最優特征匹配為核心,一般包括數據預處理、文本表示、特征選擇、構造并訓練分類器、類別預測這5步。因為中文不能像英文一樣按照空格進行分詞,所以在預處理階段需要使用專門的中文分詞算法對文本進行分詞處理,并且需要根據停用詞表來剔除分詞結果中的停用詞。在文本表示方面,詞袋模型(bag-of-words)[1]是在文本分類中被廣泛應用的表示方法,這種方法不考慮文法和詞的順序,只包含最基礎的詞頻信息。對于特征選擇,比較常用的方法有卡方統計量、信息增益、互信息量、TF-IDF等。構造分類器時,常用的傳統機器學習分類方法有支持向量機(SVM)[2]、樸素貝葉斯分類法(NBC)[3]、K-最近鄰法(KNN)[4]、決策樹法(DT)等。上述方法都是以詞袋模型為基礎的傳統的機器學習方法,有很多難以根除的固有弊端。本文將使用word2vec技術生成的詞向量來代替傳統的詞袋模型并借助信息提取技術和卷積神經網絡來進行互聯網新聞分類,以期獲得更優越的性能。

1 相關研究

深度學習技術在圖像領域的應用已經比較普遍,隨著該技術的進一步發展,其在自然語言處理的領域中也已經取得很多優秀的成果。

Collobert等[5]提出可以使用目標詞的周圍的詞作為神經網絡的輸入,目標詞作為輸出期望,按照這個原則訓練神經網絡就可以獲得詞向量。首先將詞匯表中的詞進行隨機初始化,然后通過訓練神經網絡來不斷的優化詞向量,最終使相似的詞的向量表示在向量空間中都處于較近的位置。Mikolov等[6,7]提出了連續詞袋模型(CBOW)和Skip-gram模型,這是兩種十分簡潔的模型。連續詞袋模型的輸入是目標詞周圍的詞,隱層通過這些詞來預測目標單詞,輸出是目標詞的詞向量。Skip-gram模型的結構和連續詞袋模型互為鏡像,其原理是通過中間詞來預測周圍的詞。Kim[8]基于語義分析和話題分類任務對卷積神經網絡在不同數據集上進行了實驗評估,他使用的是一個結構簡單的卷積神經網絡,輸入層是代表文本的矩陣,每行代表一個詞,列數等于詞向量的維度。Zhang等[9]通過多次實驗對CNN模型在不同參數下的性能進行了對比。

在進行語句級的文本分類時,每個語句的長度并不一致,為了保證輸入格式的一致,必須進行相應的處理。Baotian Hu等[10]在研究卷積神經網絡對英文短句建模的過程中,提出通過設置最大長度,對較短的句子采用0填充的方式來解決這個問題。

對于互聯網新聞數據來說,其數量巨大,文本間篇幅差異也較大,直接使用原始數據來進行神經網絡的訓練時間成本高昂,占用計算資源較多,由于原始文本中也含有較多無關主題的部分和噪音等,最終結果也差強人意。信息提取是自然語言處理的另一大研究領域,目的是從數據中提取到最關鍵的信息,具體來說就是提取出文本中可以代表文本中心思想的部分。通過信息提取來獲得最能代表文本主題的文本摘要,就能很好解決上述問題。傳統的詞袋模型下的數據相較于原始數據有較大的信息損失,會使得后續的文本處理工作變得十分困難。word2vec訓練得到的中文詞向量能夠捕捉到詞之間的語義相關性,從而克服了詞袋模型在這方面的缺點,對數據有更好的保真度。本文結合信息提取技術,Wordvec技術和卷積神經網絡提出了一種準確高效的互聯網新聞分類技術,并取得了良好的實驗結果。

2 基于卷積神經網絡的語句級新聞分類算法

本節我們提出了一個用于中文新聞分類的方案。首先需要從新聞中提取文本摘要。然后使用外部語料庫訓練詞向量模型,基于詞向量將從新聞中提取的文本摘要轉換成向量化的表示,再將語句的向量化的表示拼接成整個文本的向量化的表示。最后,對卷積神經網絡進行訓練,使用訓練好的網絡模型進行新聞的類別預測。

2.1 文本摘要提取

針對于新聞文本相對于網絡評論等形式的數據普遍偏長,文本間長短的差異也較大,所以在使用前必須對文本進行相應的處理。通過語句比通過詞語更能準確把握文本語義,所以我們通過提取文本的文本摘要來解決這個問題。王俊麗等[11]提出了一種基于圖排序的摘要提取算法,但是此方法較為費時,TF-IDF算法相對耗時較少,但是對于文本分類來說,傳統TF-IDF算法會丟失一些關鍵的分類依據,所以最終我們使用改進的TF-IDF算法來解決這個問題。之后選取評分最高的前N個句子作為文本的文本摘要,這樣一方面降低了數據維度,另一方面也消除了一些噪音。

2.1.1 改進TF-IDF算法

TF-IDF將文本集作為整體來考慮,其IDF部分并沒有考慮特征項的類間分布信息[12]。如果詞條ti在某一類Ci有很高的出現頻率,進而導致詞條ti在較多的文本中都有出現,雖然詞條ti在其它類中出現較少,但根據IDF算法算出的權值會偏小,詞條ti就會被誤認為是對類別區分能力不強的詞條,顯然這不符合實際情況,僅僅在某一類或某幾類中頻繁出現的詞恰恰是最具有這一類或幾類的標志性詞語,對文本分類有較高的信息價值,所以應該賦予較高的權重。相應的,如果詞條ti僅僅出現在少量的文本中,但是在各個類中出現頻率比較均勻,這種其實并不重要的詞就會被IDF算法賦予過高的權值,所以也不符合實際情況。一般來說,當一個詞語在不同主題新聞下的分布情況差異較大,則說明這個詞語對某類或某幾類新聞有較強的代表性,可以作為分類的關鍵依據。上述缺陷就是因為傳統TF-IDF算法在沒有考慮詞的類間分布信息,在進行文本分類時,顯然會因此損失一部分精度。所以我們通過添加一個類間的離散度系數Dac來衡量詞的類間分布信息,詳見后續說明。

2.1.2 文本摘要的評價與選擇

對于文本摘要提取的任務,目標是提取文本中最為重要的語句集合。

首先通過改進的TF-IDF算法計算詞項的權值。

假設D為文本集合。對于文本Dj中任意單詞ti,詞頻表示為

(1)

其中,nij表示單詞ti在文本Dj中的出現次數,m表示字典長度。

逆文檔頻率表示為

(2)

詞的類間離散度表示為

(3)

式(1)、式(2)、式(3)的乘積即為對應詞項的TF-IDF-DAC值。

在獲取所有詞項的權值之后,用語句中詞項權值的累加來代表語句的重要程度。此外,考慮到語句長短不一的情況,需要再對結果進行相應處理以防選擇出的結果偏向于長語句。對于給定的語句S,可以用S中包含的詞項來表示: S=(W1,W2…Wn), S的重要性定義如下

(4)

最后,為了獲得文本摘要,對文本的所有語句進行排名。選取評分前K個語句作為當前文本的摘要。

2.2 使用word2vec技術將數據向量化

詞的向量化是指將語言中的詞轉化成便于計算機處理的數字化表示。Bengio提出的NNLM與Hinton等提出Log-Linear模型[13]都是使用神經網絡來獲取詞向量的杰出代表。廣為人知的Word2vec模型就是借鑒于這兩者,是一種更為簡潔高效的詞向量模型。Word2vec技術是深度學習技術在自言語言處理應用上個一個關鍵突破。

2.2.1 word2vec模型

word2vec模型本質上是一種簡單的神經網絡。當網絡訓練完成后,輸入層和隱藏層之間的權重矩陣,就是我們所需的詞向量映射表。一般分為CBOW與Skip-Gram兩種模型。以往的研究表明,CBOW在小規模語料庫中表現較好,而Skip-Gram更適用于較大的語料庫。本實驗在進行詞向量訓練時使用的是Skip-Gram模型。

2.2.2 數據向量化

在從文本中提取文本摘要之后,根據單詞向量模型將語句轉換為向量。中文維基百科語料庫和word2vec工具用于訓練模型。對于語句S=(W1,W2…Wn), 對于其中任意一個詞項Wi=(v1,v2…vd), 其中d代表詞的維度。語句S的向量化表示為S=(W1⊕W2⊕…⊕Wn), 其中⊕是連接運算符。因此,語句S被轉換為一串由詞向量順序排列而成的向量。同樣,對于每個文本A=(S1⊕S2⊕…⊕SK), 其中K表示語句S的重要程度排序,也就是說Si為文本第i重要的語句。將文本轉化為向量形式后,就可以用向量化的數據來進行神經網絡的訓練。

2.3 TextCNN神經網絡

卷積神經網絡是由卷積層,池化層和全連接層組成。卷積層通過卷積計算來提取數據的特征。池化層則從卷積層提供的特征中選取最優特征[14],之后輸出給全連接層進行處理。圖1是本研究所采用的卷積神經網絡的結構。

圖1 卷積神經網絡模型

(1)輸入層:輸入層的輸入是一個代表文本的矩陣,d代表詞向量的維度,n代表每個數據所包含的詞向量的數量。

(2)卷積層:卷積層涉及卷積核w∈Rhk, h表示卷積窗口大小,k為卷積維度,等于詞向量的維度。一般來說, Wi∶i+h表示單詞Wi,Wi+1…Wi+h。 所以生成一個文本特征的表達式為C=f(w·Wi∶i+h+b), 其中b為偏置,f為非線性函數。將此卷積核應用于(W1∶h,W2∶h+1…WN-h+1∶N)生成一個特征映射c=(c1,c2…cN-h+1)。

(4)全連接層:將池化層輸出的多個特征向量進行拼接并輸入到全連接層的輸入。

(5)輸出層:使用softmax層進行輸出,輸出結果是所有類別的概率分布。

3 實驗及結果分析

3.1 實驗準備

本實驗使用的數據來源于搜狗數據庫的新浪新聞語料,從中選取部分了新聞數據,涵蓋經濟,健康,教育,軍事,體育,旅游6個種類。在數據預處理方面,利用jieba分詞工具對數據集進行分詞并去除停用詞。之后通過改進TF-IDF算法進行文本摘要提取,當文本和語句出現過長或過短的情況時根據定長進行截斷或用空白數據填充。詞向量采用word2vec中的skip-gram模型,使用維基百科中文語料庫訓練。

3.2 實驗設計

設計實驗來驗證本文提出的基于卷積神經網絡的語句級新聞分類方案的有效性。為了評價分類方案的效果,將精確率,召回率,F1值作為衡量實驗結果的指標。為了體現方案的優越性,在驗證本方案同時,設置一組以SVM模型進行文本分類的實驗作為對照組。另外,為了說明在本方案的信息提取階段使用改進TF-IDF算法的優勢,在同樣的數據集上設置一組使用TF-IDF算法的對比實驗。

3.3 實驗結果

表1是本文提出方案和KNN,SVM兩種傳統分類模型的精確率(Precision),召回率(Recall),F1值的比較結果。

表1 各類分類方法性能對比

表2是在文本摘要提取時分別選取TF_IDF算法和TF_IDF_DAC算法的卷積神經網絡分類模型在精確率(Precision),召回率(Recall),F1值上的比較結果。

表2 不同摘要提取策略對于分類結果的影響

3.4 結果分析

通過表1可以看出,基于卷積神經網絡的新聞分類算法和傳統的SVM和KNN相比,前者不僅準確率更高,并且更加穩定。這是因為一方面卷積神經網絡模型可以通過增加卷積核來提取到更豐富的分類特征,另一方面還可以通過增加卷積層數來提取相更高層次的分類特征。簡單來說就是卷積神經網絡可以在橫向上提取更為豐富的特征,縱向上提取更多層次的特征,這是傳統機器學習模型無法比擬的。通過表2可以看出,相較于原始的TF-IDF算法和卷積神經網絡結合的方案,改進的TF-IDF算法和卷積神經網絡結合的方案的準確率在整體上更高,并且不同類別的準確率更加平衡,原始方案中準確率較高的在新方案中只有些許降低,原始方案中準確率較低的在新方案中有較大提升。所以通過改進TF-IDF算法來捕捉不同詞在類間的分布差異可以進一步提升卷積神經網絡在文本分類問題上的準確率和穩定性。

4 結束語

本文在經典的TextCNN 分類模型的基礎上,結合了信息提取技術來提取新聞摘要,這樣對較長篇幅的文本也非常適用,同時還減輕了神經網絡的訓練負擔,并且通過適當改進TF-IDF算法來進一步提升方案的整體性能。實驗結果表明,基于卷積神經網絡的新聞分類算法在多個指標上都優于傳統算法,并且改進的TF-IDF算法比原始TF-IDF算法更適合中文新聞分類,一方面整體準確率有一定的提升,另一方面在各個類別上的準確率也更加平衡。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 一级毛片在线免费视频| 日韩精品无码免费专网站| 欧洲成人免费视频| a级毛片免费网站| 成人一级黄色毛片| 国产尤物在线播放| 91伊人国产| 欧美一区二区三区欧美日韩亚洲| 极品性荡少妇一区二区色欲| 波多野结衣一区二区三区88| 国产情精品嫩草影院88av| 最新精品久久精品| 亚洲免费人成影院| 亚洲中文字幕久久无码精品A| 特级做a爰片毛片免费69| 久久午夜夜伦鲁鲁片不卡| 久久一本精品久久久ー99| 五月激情婷婷综合| 久久这里只有精品23| 99久久精品免费看国产电影| 国产美女精品在线| 国产成人综合在线视频| 国内精品久久久久久久久久影视 | 日本五区在线不卡精品| 99视频免费观看| 精品国产电影久久九九| 亚洲欧洲日产国码无码av喷潮| 成人一级免费视频| 欧美一区二区啪啪| 青青青国产在线播放| 九九九国产| 亚洲欧美h| h视频在线观看网站| 久久五月天国产自| 亚洲视频影院| 欧美一级大片在线观看| 在线观看视频一区二区| 欧美在线天堂| 国内精品伊人久久久久7777人| 国产美女免费网站| 老司机午夜精品视频你懂的| 男人天堂亚洲天堂| 91精品啪在线观看国产60岁| 91久久偷偷做嫩草影院电| 综合久久久久久久综合网| 中文无码日韩精品| 国产主播福利在线观看| 亚洲一级毛片| 久久久受www免费人成| 亚洲AV一二三区无码AV蜜桃| 中文字幕亚洲专区第19页| 国产成人1024精品| 国产第八页| 丁香亚洲综合五月天婷婷| 国产福利微拍精品一区二区| 全午夜免费一级毛片| 理论片一区| 国产无码网站在线观看| 女人18毛片一级毛片在线 | 亚洲国产精品国自产拍A| 91亚洲视频下载| 中文字幕色在线| 亚洲aaa视频| 无码国产偷倩在线播放老年人| 成年女人a毛片免费视频| 欧美亚洲国产视频| 国产欧美日韩视频怡春院| 亚洲av综合网| 国产三级国产精品国产普男人| 99这里只有精品6| 91免费观看视频| 中文字幕66页| 亚洲经典在线中文字幕| 欧美成人a∨视频免费观看| 国产精品手机在线播放| 亚洲综合色婷婷| 久久久久久久久久国产精品| 国产精品免费电影| 人妻一区二区三区无码精品一区| 91青青在线视频| 日本欧美精品| 中文字幕va|