999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題相似性聚類的自適應文本分類

2020-03-19 12:24:50楊其越梁文韜李晉源崔國榮王沛堯
計算機工程 2020年3期
關鍵詞:分類特征文本

康 雁,楊其越,李 浩,梁文韜,李晉源,崔國榮,王沛堯

(云南大學 軟件學院,昆明 650500)

0 概述

近年來,隨著互聯網的快速發展,數據量呈現爆炸式增長,其中,微博數據、新聞數據和用戶評論等文本數據占很大比重。文本分類作為自然語言處理的一項基礎任務,能夠將大量缺乏結構的文本數據組織成規范的數據結構,受到研究人員的廣泛關注。目前,文本分類算法主要分為傳統的機器學習算法和深度學習算法2類。基于傳統機器學習的文本分類算法主要有樸素貝葉斯(Na?ve Bayes,NB)[1]、K最近鄰(K-Nearest Neighbor,KNN)[2]、支持向量機(Support Vector Machine,SVM)[3]、Bagging[4]、Boosting[5]等。基于深度學習的文本分類算法主要包括卷積神經網絡(Convolutional Neural Network,CNN)[6]、循環神經網絡(Recurrent Neural Network,RNN)[7]等。這些方法都已取得較好的效果,但其分類準確率有待提高。同時,上述方法在不同數據集上的分類性能存在差異,對這些方法進行組合利用,可以進一步提升算法性能。

本文提出一種基于主題相似性聚類的自適應文本分類算法。結合x2統計(CHI)和WordCount方法提取每個類的文本特征詞,構成類特征詞庫,通過K-means算法對測試集進行聚類,得到若干個簇,并構建簇特征詞庫。在此基礎上計算2個特征詞庫的重疊部分,并根據該結果選擇相應的模型進行自適應分類,得到最終的分類結果。

1 相關工作

1.1 基于CNN的文本分類

將CNN應用于語音識別領域的數據信息特征提取,目前已取得顯著成果。CNN本質上是一個多層的神經網絡,每一層的輸出作為下一層神經元的輸入,運用多層卷積對每一層的運算結果進行非線性轉換[8]。文獻[9]將CNN應用于文本分類任務中,其模型結構簡單、超參數較少,可根據具體任務進行微調以提高分類性能,該模型在情感分析和分類方面取得了較好的效果。

1.2 基于RNN的文本分類

基于RNN[10]的文本分類可以解決統計學習方法和傳統CNN方法在文本分類任務中忽略上下文信息的問題,其適用于處理序列的文本信息,但容易出現“梯度消失”的現象。長短期記憶(Long Short Term Memory,LSTM)[11]網絡可改善RNN“梯度消失”的不足,同時能夠有選擇地記憶序列中的重要信息,展現出文本中相隔較遠的元素之間的相互聯系。LSTM在文本生成[12]、情感分類[13]等任務中取得顯著效果。

1.3 其他文本分類方法

除了上述文本分類方法外,研究人員還提出一些其他的算法。文獻[14]針對每個數據集,通過從訓練子集中選擇50 000個最頻繁的單詞來構建詞袋模型,對于正常的詞袋,該文獻使用每個單詞的計數作為特征,并結合TF-IDF(Term Frequency-Inverse Document Frequency)劃分最大特征值,以實現特征標準化。文獻[15]提出ConvNets (Character-level Convolutional Networks)模型,從字符角度出發,利用卷積神經網絡進行訓練,該模型在處理數據量達到百萬規模的數據集時效果顯著。

2 本文文本分類算法

本文提出一種基于主題相似性聚類的自適應文本分類算法,其模型結構如圖1所示,主要分為以下3個部分:

1)結合CHI和WordCount提取訓練集中每個類的文本特征詞,構成類特征詞庫。

2)通過K-means算法對測試集進行聚類,得到若干個簇,提取每個簇的特征詞,構成簇特征詞庫。

3)通過自適應文本分類方法Adaptive Strategy,計算簇特征詞庫與類特征詞庫的重疊部分,然后根據重疊部分在簇特征詞庫中的占比,為每個簇分配一個類標簽,從而選取不同的模型,得到分類結果。

圖1 基于主題相似性聚類的自適應文本分類模型Fig.1 Adaptive text classification model based on topicsimilarity clustering

2.1 基于CHI與WordCount的類特征詞庫構建

目前常用的文本特征提取方法主要有CHI、文檔頻率(Document Frequency,DF)、信息增益(Information Gain,IG)、互信息(Mutual Information,IM)等。文獻[16]研究表明,CHI是較優的特征提取方法,但是其只考慮特征項出現在所有文本中的頻率,而忽略了特征項在某一文本中出現的次數。增加低頻詞的權重,使得不同類別主題詞的交叉情況變得復雜,很難分辨出該特征項在不同類別中的使用頻度。因此,本文采用CHI方法提取類別中的文本特征,并引入詞頻因子構建特征詞庫[17]。例如,在數據集中有2個類別Ci和Cj(i≠j),同時共有特征項t,t在Ci中出現100次,在Cj中出現1次,則特征項t是類別Ci的特征比t是Cj的特征更具類別特征表示能力。令di表示特征項t在文本Ci中出現的次數,則詞頻系數β可以用式(1)表示。

(1)

(2)

其中,a表示包含特征詞wi且屬于類別Cj的文檔數,b表示包含特征詞wi且不屬于類別Cj的文檔數,c表示不包含特征詞wi且屬于類別Cj的文檔數,d表示不包含特征詞wi且不屬于類別Cj的文檔數。詞頻系數越大表示特征項在類別中出現的頻率越高,而在其他類別中出現的次數較少,因此可以作為本類的特征。反之,詞頻系數越小表示該特征項在本類別中出現的頻率越低,而在其他類別中出現的次數較多,因此不適合作為本類的特征,而將類提取的特征作為類特征詞庫元素。對于全局特征提取,可根據式(2)計算出相關程度,再利用式(3)或式(4)計算全局x2值。

(3)

(4)

2.2 依賴于主題相似性聚類的文本標簽

為了區分不同類的主題,需要將文本按照句子相似度打上聚類處理,并預先對文本進行標簽,便于不同主題選取各自的模型。傳統的K-means算法主要存在以下缺點:

1)需要利用預先知識選取K值,而在很多情況下,K值的選取較為困難,其大小直接影響聚類效果。

2)聚類中心點通常是隨機選取的,而K-means算法對聚類中心點非常敏感,因此,不同的初始聚類中心點可以得到不同的結果。

3)文本數據表示通常使用向量空間模型(Vector Space Model,VSM)將文本內容處理簡化為向量空間的運算,依據詞頻信息進行處理,并且詞與詞之間相互獨立,一個關鍵字代表一個語義單元,但該方法難以滿足實際需要。

為了區分不同類的主題交叉情況,本文采用K-means算法和預訓練的word2vec詞向量計算文本相似度,以自動確定聚類中的K值。具體算法如算法1所示。

算法1K-means句子相似度聚類算法

輸入包含n個對象的文本數據集D,預訓練好的詞向量(dim=300),相似度閾值m

輸出聚類結果(包含若干個簇)

步驟1對文本數據集D進行預處理,使用nltk進行分詞并去除停用詞,此時文本數據集D表示為D={di|di={wi1,wi2,…,win},i=1,2,…,n}。

步驟2導入預訓練的詞向量,查找出文本中每個詞di的詞向量,對句中所有詞向量求平均值,得到文本向量D=Si,其中i=1,2,…,n。

步驟3隨機獲取句中的一個文本對象,將其向量均值作為初始的聚類中心向量C1,中心點為c1。

步驟4根據文本向量Si與簇的中心向量C1計算余弦相似度。

步驟5若步驟4中得到的余弦相似度值大于或等于閾值m,則將文本向量Si聚在一個簇中,并將簇中所有句子向量的平均值作為新的簇中心點;反之,如果得到的余弦相似度小于閾值m,則將這個文本向量Si作為簇中心創建新的簇。

步驟6若簇中的文本對象不超過10個,則降低閾值m,將較少的對象重新分配到已存在的簇中,并重復步驟4和步驟5。

2.3 自適應文本分類

本文采用fasttext、TextCNN和RCNN(Recurrent Convolutional Neural Network)3種分類模型[18]。其中,fasttext與現有的分類器不同,它是一種簡單、高效且具有淺層網絡的分類器,使用向量表征單詞的N-Gram特征,并將局部詞序考慮在內,以縮小線性模型和深度模型之間的差距,提高文本分類的準確率和效率[19]。TextCNN將卷積神經網絡應用在文本分類中,使用預訓練的詞向量完成句子級別的分類任務,并通過采用多個不同尺寸的卷積核捕捉文本中不同尺寸卷積核的文本特征。RCNN利用單詞表示和循環結構捕捉文本上下文信息,與傳統的基于窗口的神經網絡相比,RCNN減少了噪聲的引入,并使用最大池化層自動判斷詞語在文本分類中的重要程度,以捕捉文章的關鍵信息[20]。

可以看出,僅使用一種網絡模型進行分類,容易造成對不同類數據的敏感度不同。為了彌補這一缺陷,實現不同模型間的優勢互補,本文將所構建的類特征詞庫與主題相似性聚類相結合,提出自適應文本分類方法Adaptive Strategy,具體描述如算法2所示。

算法2Adaptive Strategy算法

輸入類特征詞庫ClassFDictim(下標im表示第i類中特征項的個數為m,i=1,2,3,4),算法1的聚類結果{c1,c2,…,cl},l表示簇號

輸出測試集類別

步驟1使用TF-IDF方法提取聚類結果{c1,c2,…,cl}的關鍵詞,得到簇特征詞庫集合{Wln},其中,下標ln表示第l個簇中特征詞的個數為n。

步驟2根據式(5)計算特征詞庫和簇特征詞庫的重疊部分Pi,具體如下:

Pi={{Tim}∩{Wln}}

(5)

步驟3通過式(6)計算重疊部分Pi在簇特征詞庫Wln中的占比,具體如下:

(6)

步驟4利用式(7)、式(8)計算重疊部分Pi在簇特征詞庫Wln中的最大占比,將該簇l標記為第i類。

cli=max{ri}

(7)

cli?Ci

(8)

步驟5根據模型數據的敏感度,選取Ci的模型Modelj,其中j=1,2,3分別對應3種分類模型fasttext、TextCNN和RCNN。

步驟6利用模型Modelj進行分類,得到最終的分類結果。

3 實驗結果與分析

3.1 實驗數據

本文實驗采用AG新聞主題分類數據集,訓練集和測試集不重疊。該新聞數據集包括4類主題,分別是World、Sports、Business和Sci-tech,其中,訓練集共有120 000條數據,每類主題包含30 000條,測試集共有7 600條數據,每類主題包含1 900條。

3.2 評測指標

文本分類常用的評測標準有查準率P、召回率R和F1值等。其中,查準率P是指文本正確分類條數Tc與文本實際分類條數Ts的比值,其計算公式如下:

(9)

召回率R是指文本正確分類條數Tc與原有文本信息條數Ty的比值,其計算公式如下:

(10)

F1值綜合考慮查準率P和召回率R,其計算公式如下:

(11)

3.3 結果分析

本文實驗采用CHI和WordCount相結合的方法對每個類進行特征選擇,構成類特征詞庫。根據式(2)計算特征項的CHI值,按照從大到小進行排序后選取前30%的詞作為每個類的特征詞。最終在訓練集中,World類、Sports類、Business類和Sci-tech類分別包含6 225個、6 705個、5 716和6 861個特征詞。本文從每類中選取10個特征詞,具體見表1。

表1 每類提取到的特征詞Table 1 Feature words extracted from each category

將CHI和WordCount相結合的方法與僅使用CHI的方法進行對比后發現,本文方法可以有效減少特征詞中的低頻詞,降低低頻詞的權重,提高特征詞質量。

為了研究每個模型對數據的敏感類型,本文對AG新聞數據集中的訓練集進行預處理。在每類中隨機選取2 000條數據,共8 000條數據作為測試集,剩下的112 000條數據作為訓練集,然后使用fasttext、TextCNN、RCNN 3種模型對其進行訓練和測試,結果如表2~表4所示。

表2 3種模型在測試集上的召回率對比Table 2 Comparison of recall rates between three modelson the testset %

表3 3種模型在測試集上的查準率對比Table 3 Comparison of precision rates between three modelson the testset %

表4 3種模型在測試集上的F1值對比Table 4 Comparison of F1 values between three modelson the testset %

在一般情況下,R值越高,其分類模型對數據越敏感。查準率P可由式(9)計算得到,在一般情況下,P值越高,分類器對數據越敏感,但在某些情況下,其與召回率結果相矛盾。例如,當R值為100%時,P值會很低,此時可引入F1值綜合分析測試結果,F1值越高,模型對數據越敏感。因此,不同模型可根據R、P和F1值選取不同類的數據。

根據上述理論分析以及表2~表4的結果可知,fasttext模型對于Sports和World類的召回率和F1值均高于RCNN和TextCNN模型,因此,fasttext模型對Sports和World類比較敏感。TextCNN對于Business類的召回率、查準率和F1值明顯高于fasttext和RCNN模型,因此,TextCNN對Business類比較敏感。RCNN模型對于Sci-tech類的召回率和F1值較高,但其查準率較低。從整體上考慮,本文選取RCNN模型對Sci-tech類進行分類。由于在區分Business類和Sci-tech類時,TextCNN模型的F1值較高,因此可利用每種模型的優勢,對文本進行自適應分類。將算法1得到的聚類結果以及CHI與WordCount相結合得到的類特征詞庫作為輸入執行算法2,可以得到不同簇對應的不同模型,然后進行自適應分類。表5給出本文模型與其他14種模型的分類結果對比。

表5 本文模型與其他模型的分類準確率對比Table 5 Comparison of the classification accuracy rate between theproposed algorithm and other algorithms %

在表5中,未標注引用的模型均為復現,由于參數不同,其準確率與原論文有所差別,可以看出,本文模型的分類準確率高于其他模型。與單獨使用的fasttext、RCNN和TextCNN模型相比,本文模型的召回率、查準率和F1值明顯提高,具體如圖2~圖4所示。

圖2 本文模型和單一模型的召回率對比Fig.2 Comparison of recall rate between the proposedmodel and single model

圖3 本文模型和單一模型的查準率對比Fig.3 Comparison of precision between the proposed modeland single model

圖4 本文模型和單一模型的F1值對比Fig.4 Comparison of F1 values between the proposed modeland single model

因此,可利用每種模型的優勢,對文本進行自適應分類。本文所選用的3種文本分類模型,經測試其總體準確率較為接近,如果選用更好的分類模型,則模型分類準確率差距應盡可能小,不同模型之間能夠實現優勢互補,達到更好的分類效果。實驗結果證明,本文算法可以實現3種模型的優勢互補,提高分類準確率。

4 結束語

本文針對文本分類中不同類特征詞交叉的問題,提出一種基于主題相似性聚類的文本分類算法。通過CHI和WordCount相結合的方法提取各個類的特征,構成類特征詞庫,利用K-means算法進行主題聚類,并提取聚類結果的關鍵詞,構建簇特征詞庫,根據簇特征詞庫和類特征詞庫的重疊部分在簇特征詞庫中的占比進行主題匹配。在此基礎上,融合不同模型進行自適應匹配,得到最終的分類結果。實驗結果表明,與單獨使用fasttext、TextCNN、RCNN模型相比,該算法對數據集的分類準確率有明顯提高。下一步將從不同角度進行模型匹配,從而更好地實現模型間的優勢互補。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲欧美成aⅴ人在线观看| 91成人在线观看| 精品免费在线视频| 国产精品区视频中文字幕| 亚洲女同欧美在线| 在线免费a视频| 国产99视频免费精品是看6| 天天综合色天天综合网| 性网站在线观看| 久久99久久无码毛片一区二区| 欧美一级夜夜爽| 国产免费人成视频网| 免费一级毛片在线观看| 真实国产乱子伦高清| 国产成人午夜福利免费无码r| 日本少妇又色又爽又高潮| 亚洲欧洲自拍拍偷午夜色无码| 国产国产人免费视频成18| 亚欧成人无码AV在线播放| 成人在线天堂| 精品福利视频网| 亚洲欧州色色免费AV| 国产成人a在线观看视频| 国产成人1024精品| 在线欧美a| 欧美日韩另类国产| 青青草原国产一区二区| 五月婷婷亚洲综合| 国产精品网址你懂的| 国产视频一区二区在线观看| 国产免费好大好硬视频| 亚洲天堂久久| 欧美日韩精品一区二区在线线| 亚洲无码高清免费视频亚洲| 女人18毛片一级毛片在线 | 久久青草视频| 国产精品无码一二三视频| 婷婷午夜影院| 男人的天堂久久精品激情| 国产福利在线免费| 夜夜操国产| 尤物亚洲最大AV无码网站| 日韩 欧美 小说 综合网 另类| 国产精品久久久久久搜索 | 91久久夜色精品国产网站| 久久福利片| 久久国产拍爱| 激情五月婷婷综合网| 国产精品55夜色66夜色| 午夜不卡视频| 国产一区二区三区夜色| 国产91色在线| 69av在线| 无码人妻热线精品视频| 亚洲欧美精品在线| 精品一区二区久久久久网站| 亚洲精品第五页| 久久久久免费看成人影片| 欧亚日韩Av| 日韩欧美国产三级| 欧美三级视频在线播放| 精品少妇人妻一区二区| 国产精品久线在线观看| 熟妇人妻无乱码中文字幕真矢织江 | 欧美成人看片一区二区三区| 国产成人乱码一区二区三区在线| 在线免费a视频| 99人妻碰碰碰久久久久禁片| 91av国产在线| 久久精品免费看一| 91探花在线观看国产最新| 青青草一区| 欧美日韩综合网| 一级爱做片免费观看久久| 熟女成人国产精品视频| 欧美一级大片在线观看| 久久国产免费观看| 毛片基地美国正在播放亚洲| 欧美www在线观看| 亚洲欧美综合在线观看| 一本久道久久综合多人| 国产制服丝袜91在线|