李欣雨 , 袁 方 , 劉 宇 , 李 琮
(1.河北大學 計算機科學與技術學院 河北 保定071000;學 數學與信息科學學院 河北 保定071000)
面向中文新聞話題檢測的多向量文本聚類方法
李欣雨1, 袁 方2, 劉 宇2, 李 琮1
(1.河北大學 計算機科學與技術學院 河北 保定071000;學 數學與信息科學學院 河北 保定071000)
基于多向量模型,給出一種將話題主題信息與話題文本信息相結合的多向量話題表示方式,使用較低的維度來準確表示一個話題.針對傳統TFIDF方法在文本分類問題中對特征項在各個類中分布情況考慮不充分的問題,給出了一種TFIDF改進方法.在TDT4的中文語料上,與傳統向量空間模型進行了對比實驗.實驗結果表明,給出的話題表示方法和TFIDF改進算法能夠在較低的維度上,使聚類的準確率得到較大提升.
話題檢測; 多向量模型; TDT4; 改進TFIDF算法
隨著互聯網的快速發展,網絡已逐漸成為人們獲取信息的一個主要媒體.網絡新聞作為互聯網媒體中最重要的信息類型之一,是人們獲取新聞消息的一個重要途徑.但由于網絡上的新聞繁雜冗余,依靠人工來查找新聞話題的工作量巨大,人們希望能夠通過計算機自動獲取新聞話題,話題檢測技術即是自動獲取新聞話題的技術.
話題檢測的主要任務是在缺乏話題先驗知識的前提下,檢測出未知的話題,這是一種無監督學習過程[1-2].聚類算法是實現話題檢測的一個關鍵點.一般可以分為基于層次的聚類算法、基于密度的聚類算法、基于平面劃分的聚類算法等[3-4].基于層次的聚類算法通常可以達到較高的精度,因此本文采用凝聚層次聚類算法進行聚類.
話題檢測的另一個關鍵點在于話題的向量化表示,表示模型及其使用方法的好壞通常會對整個系統的性能產生較大影響[5].常用的表示模型可以分為概率模型和向量空間模型(vector space model,VSM).一種典型的概率模型如LDA(latent Dirichlet allocation)模型[6],是由文本空間到語義空間的映射.通過LDA模型的迭代過程,可以將文本表示成主題向量,但通常LDA模型中的主題,與最終需要的話題是不同的.這一不同,主要體現在語義的粒度上,LDA得到的主題,通常具有較大的語義粒度,因此并不能精確地表示一篇文檔[7-8].使用由文本直接得到的VSM表示文檔時,向量維度通常會非常高[9],使計算耗時增加.為了減少時間消耗,通常會選用信息量豐富的詞,如:地點詞、人物詞、事件的代表詞等.然而如果僅使用這些重要信息來表示文檔,其攜帶的文本語義信息過少,對文本的表示精度仍然不能滿足要求[10-11].
多向量模型[5]是由多個子向量組合而成的向量模型,用MV表示n維多向量,SVi表示其子向量,則有:MV={SV1,SV2,…,SVn}.在計算兩個多向量的相似度時,通常會分別計算每個子向量的相似度,然后采用某種策略對各個子向量的相似度進行綜合,從而得到多向量間的相似度.例如,對于兩個n維多向量MV1和MV2,即有

(1)
其中:Sim(·,·)表示計算相似度函數.利用多向量模型,將主題模型和向量空間模型結合.這樣做的目的是使這兩種模型能夠進行優勢互補:主題模型為向量空間模型補充其語義上的不足,向量空間模型可以提高主題模型的精度.為了進一步提高多向量的表示精度,將文中的地點和人物提取出來,作為多向量中的一個子向量.最后,文本會被表示為3個子向量:主題子向量、地點人物子向量和關鍵詞子向量.在判斷給定兩篇文檔的話題相似性時,直觀上可以理解為對于兩篇文檔,如果它們的語義相近,并且提到相似的地點人物,又具有相似的關鍵字,那么兩篇文檔極有可能是在討論同一話題.通過與基準方法的對比試驗表明,本文給出的這種多向量模型能夠提升話題檢測的性能.
在基準方法和多向量方法中均使用基于簇中心的凝聚層次聚類方法,初始時每篇文章單獨作為一個簇,選擇全局最近的兩個簇進行合并,更新合并后的簇中心,然后繼續選取全局最近的兩個簇進行合并,直到所有文章合并為一個簇時,聚類停止.
2.1 基準方法
使用中科院分詞工具ICTCLAS對文檔進行分詞,基于停用詞表(509個停用詞)刪除文檔中的停用詞,只保留文檔中的名詞、動詞、形容詞和副詞[12],計算每篇文檔中詞的TFIDF分值,并保留分值較高的詞.以TFIDF分值作為VSM向量的權值,構造出各篇文檔的VSM向量.使用凝聚層次聚類方法進行聚類.其中,凝聚層次聚類方法使用簇中心表示法,簇中心由簇中所有文檔的VSM向量進行向量加和運算得到.使用兩個簇中心VSM向量的cosin值作為簇中心的相似度.
2.2 本文使用的方法
本文給出的方法是基于多向量的聚類算法,文檔的表示向量是由3個子向量組成的多向量.3個子向量分別是:主題子向量、地點人物子向量和關鍵詞子向量,每個子向量都設有維度上限值,分別為Lt、Lp和Lk.在凝聚層次聚類方法中使用簇中心表示方法,每個簇的簇中心向量同樣由上述多向量表示.兩個簇的相似度通過計算這兩個簇的簇中心相似度得到,簇中心的相似度為其3個對應子向量的cosin相似度值之和.用Ci表示簇i,Ti,Pi,Ki分別代表Ci中的主題子向量、地點人物子向量和關鍵詞子向量,則有:
Sim(C1,C2)=wt1×cosin(T1,T2)+wt2×cosin(P1,P2)+wt3×cosin(K1,K2),
(2)

2.2.1 主題子向量的構造與更新方法 本文的主題子向量使用的是由LDA模型得到的主題向量.LDA模型是一種3層貝葉斯生成的概率模型[13],模型表示如圖1所示[6].M代表所有文檔個數;H代表所有隱含主題個數;N代表一篇文檔中詞的個數;α和β是超參數;θ表示文檔的主題分布;φ表示主題的詞分布;z代表一個主題h(h∈{1,2,…,H});w代表文檔的一個詞.該模型假設每篇文檔均包含全部H個隱含主題,而每個主題均包含所有文檔的不重復詞,并通過隱含主題來將文檔和詞匯進行關聯.這一模型生成文檔的過程可用圖2表示.
根據圖2,在生成第m篇文檔時,先根據超參數α生成第m篇文檔的θm,然后根據θm生成第m篇文檔的第n個詞的主題zm,n,不妨假設zm,n=h,接著根據超參數β生成的φh來生成第m篇文檔的第n個詞wm,n.LDA模型中應用了詞袋模型[14],這表明LDA模型假設文檔中詞的順序是可交換的,同時LDA模型中假設各篇文檔獨立,因此各篇文檔之間的順序也是可交換的.LDA模型在初始時對所有文檔中的詞進行隨機主題賦值,然后通過不斷隨機抽樣迭代,最終可以得到每篇文檔的主題分布的估計向量θ,本文使用這一向量作為多向量的主題子向量.

圖1 LDA模型Fig.1 LDA model

圖2 LDA模型生成文檔的過程
Fig.2 Process of generating documents using LDA model
主題向量θ是表示文檔的主題分布情況的向量,其含意可解釋為,當人們在寫一篇文檔時,會通過在文檔中安排各個主題寫多少來表達自己的語義,例如:現有3篇文檔和3個主題,這3篇文檔分別對應3個主題分布θ1=(0.8,0.1,0.1),θ2=(0.7,0.2,0.1),θ3=(0.1,0.2,0.7),則可以看到,θ1所屬文檔主要通過主題1表達語義,θ2中主要通過主題2表達語義,θ3主要通過主題3表達語義,則通常可以認為θ1與θ2語義相近.將θ1和θ2對應維度值進行加和求平均,得到θ′=(0.75,0.15,0.1).用θ′來近似表示θ1和θ2共同表達的語義,可以理解為:θ′代表為了表達某一特定語義而對各個主題的平均使用率.因此,簇中心的主題子向量采用如下方式進行更新:簇中各篇文檔的主題子向量的對應維度值加和求平均,得到的平均θ′向量作為簇中心的主題子向量.
2.2.2 地點人物子向量的構造與更新方法 地點人物子向量使用由中科院分詞工具ICTCLAS分詞結果中的人名詞和地名詞組成.地點人物子向量只保留具有較高文檔內相對詞頻的地點詞和人名詞.考慮到部分文檔中可能包含的地點詞與人名詞非常少,造成在計算多向量的相似度時,地點人物子向量無法提供與主題子向量和關鍵詞子向量對等的信息量.因此,進行相似度計算時,在使用公式(2)中設定的子向量權值wt2之前,首先采用公式(3)對地點人物子向量相似度進行動態加權:
(3)
其中:weight(i,j)表示簇i與簇j的地點人物子向量的動態權重;Pi表示第i個簇的地點人物子向量; dim(Pi,Pj)表示簇i和簇j的地點人物子向量組成的VSM向量的維度;Limit表示地點人物子向量的維度上限.
當兩個簇進行合并時,相同詞的相對詞頻相加,不同詞則直接并入向量,然后按相對詞頻對所有詞進行排序,保留其中具有較高相對詞頻的詞.用Ci表示簇i,Pi表示Ci的地點人物子向量,合并C1、C2,得到新簇C′及其地點人物子向量P′,P′=(P1∪P2).對C′中的地點詞和人名詞進行排序,保留相對詞頻較高的地點詞和人名詞.當P′中的詞數量超過Limit時,以維度上限值的一半作為地點詞和人名詞的維度警戒線Lm,若地點詞和人名詞的個數均超過Lm,則各自保留相對詞頻較高的Lm個詞;若它們其中一個的數量超過了Lm,則通過舍去數量較多一方的具有較低相對詞頻的詞來保證P′的詞數量在Limit以內.
2.2.3 關鍵詞子向量的構造與更新方法 文檔的關鍵詞子向量是對文檔分詞、去停用詞進行詞性保留,再去掉文中的人名詞和地名詞后,對各篇文檔剩余詞語進行TFIDF計算,最后各篇文檔選出其TFIDF分值較高的一部分詞作為其關鍵詞子向量.
傳統TFIDF算法在計算時,沒有充分考慮特征項在各個類中的分布情況.當某一特征項在某個類內大量出現,而在其他類中出現較少時,這樣的特征項是具有較強分類能力的,但傳統的TFIDF算法無法賦予這樣的特征項較高權值.因此本文在傳統TFIDF權值的基礎上,通過統計類內某一特征的分布情況,將其與其他類中該特征的平均分布情況進行比較后,對原有TFIDF計算分值進行修正.若該特征在當前類內分布廣泛,而在其他類中分布較少,則加大其TFIDF分值;若該特征在當前類內分布較少,在其他類中分布較多,則減少其TFIDF分值;若該特征在當前類內的分布與其他類中分布接近,則其TFIDF分值保持不變.根據上述思想,給出計算方法:
(4)
其中:NewTFIDF(t)表示文檔中的特征項t新的TFIDF加權值;TF為特征項t的相對詞頻;IDF為特征項t的逆文檔頻率;本文定義聚類中文檔數量大于1的簇為一個類(也即一個話題),n代表當前系統中類的個數;Ri(t)表示文檔所在類i中,特征項t出現的文檔數在類i所含文檔中占有的比例,即

(5)

在對兩個簇進行合并時,首先使用上述公式對兩個簇中所有文檔的關鍵詞子向量進行更新,即重新計算兩個簇內所有文檔詞的權重,然后每篇文檔保留權值最高的一部分詞作為新的關鍵詞;再用更新后的簇中所有文檔的關鍵詞組成VSM向量,得到的加權VSM向量作為各篇文檔的新關鍵詞子向量,至此簇中文檔的關鍵詞子向量更新完成;再將簇中所有文檔的關鍵詞子向量的對應維度值進行加和求平均,并按求得的平均值進行排序,保留值較高的一部分詞.由這些關鍵詞組成的向量作為合并后新簇中心的關鍵詞子向量.
使用查全率Rec、查準率Pre以及F值來對實驗結果進行評價[15].其中,查全率的定義為:被正確分類的文檔數和被測試文檔中各類別文檔總數的比值;查準率的定義為:被正確分類的文檔數與識別出的類別文檔總數的比值.計算公式為:

其中:Ce表示在聚類前屬于TDT標記的類i,且聚類后仍屬于類i的文檔個數;Tr1表示聚類前,TDT標記的各個類所包含的總文檔數;Tr2表示聚類后獲得的所有類包含的全部文檔數.本文規定最小類應包含至少2篇文檔.
采用TDT4的中文語料作為實驗數據集.在TDT4語料中,共有兩套不重復的話題標注:TDT4-2002話題標注和TDT4-2003話題標注.TDT4-2002是語言數據聯盟(linguistic data consortium,LDC)在2002年的話題檢測與追蹤(topic detection and tracking,TDT)評測中標注并使用的話題,TDT4-2003是LDC在2003年的TDT評測中標注并使用的話題.這兩套話題標注之間,不存在話題的重復,也不存在文檔的重復,即TDT4-2003的話題不包含TDT4-2002的任何話題,且TDT4-2003標記的文檔也不包含TDT4-2002標記的任何文檔.在這兩套話題標注中,具有明確話題標注的中文語料在TDT4-2002中有723篇,共涉及40個話題;在TDT4-2003中有580篇,共涉及33個話題.TDT4的語料標注存在少數一篇文檔對應多個話題的情況;一篇文檔只對應一個話題的語料占多數.其中,一篇文檔僅對應一個話題的文檔,在TDT4-2002中有657篇,涉及37個話題,TDT4-2003中有564篇,涉及31個話題.用Tpc1,Doc1和Tpc2,Doc2分別表示TDT4-2002和TDT4-2003的話題、文檔集合,則有Tpc1∩Tpc2=Φ,Doc1∩Doc2=Φ,因此可以將TDT4-2002與TDT4-2003的話題和文檔合并,使用Tpc′=Tpc1∪Tpc2,Doc′=Doc1∪Doc2作為實驗數據集,共1 221篇文檔總計68個話題.其中,若一個話題只有一篇文檔,則認為該話題的文檔是孤立點,不再當作一個話題,這些文檔仍然保留在數據集中,但其話題不再計入話題總數,最終得到61個話題,共計1 221篇文檔.
4.1 基準方法聚類實驗
在由TDT4-2002與TDT4-2003共同組成的語料集上,使用基準方法,按如下過程進行實驗:聚類開始,直到只剩下3個簇時,聚類停止,然后對聚類過程中的每一次聚類結果計算出F值,將其中的最大F值及其對應的召回率和準確率作為實驗結果.再用NewTFIDF方法替換基準方法中的傳統TFIDF方法,按前述過程再次進行實驗.使用兩種不同權值計算方法得到的實驗結果如表1所示.

表1 傳統TFIDF與NewTFIDF的實驗結果
通過表1的實驗結果可以看到,本文給出的NewTFIDF加權算法與傳統TFIDF算法相比,聚類結果的召回率提高了2.51個百分點,準確率提高了0.36個百分點,最后F值提高了1.48個百分點,表明本文給出的在傳統TFIDF算法基礎上引入特征的類內分布情況統計量的方法能夠在一定程度上解決傳統算法中存在的問題.
4.2 基于多向量模型方法實驗
在本文使用的多向量中,每個簇的3個子向量維度上限均取20維.3個子向量的權值設置為:wt1=wt2=wt3=1/3. 在獲取主題子向量時,LDA主題模型的主題數H設為20,α和β取經驗值分別為0.5和0.01,迭代次數取200次.由于從LDA主題模型獲取的主題子向量具有隨機性,因此本文進行了10次聚類實驗,每次實驗重新構造主題子向量,取每次實驗能夠獲得的最高F值對應的召回率和準確率作為當次實驗的結果,然后對10次實驗獲得的10組召回率和準確率進行加和求平均,再通過計算出的平均召回率和平均準確率計算出平均F值,這3個分值一同作為最終聚類評價分數.
將基準方法的 VSM向量分別與傳統TFIDF和NewTFIDF加權方法進行組合,再用本文給出的多向量分別與傳統TFIDF和NewTFIDF加權方法進行組合.這4組方法分兩次在TDT4-2002與TDT4-2003語料上各進行一次實驗.實驗結果如表2所示.

表2 4組方法在兩個語料庫上的聚類結果
通過4組實驗數據的對比,可以得到,與傳統的VSM和TFIDF組合方法相比,多向量模型的使用以及NewTFIDF算法使得在TDT4-2002語料上,聚類結果的召回率提高了4.08個百分點,準確率提高了5.54個百分點,F值提高了4.77個百分點;在TDT4-2003語料上,聚類結果的召回率提高了3.31個百分點,準確率提高了5.2個百分點,F值提高了4.19個百分點.實驗表明,本文給出的多向量模型和NewTFIDF加權方法使話題檢測的性能得到提升.
本文通過對話題表示模型的分析,給出了一種基于多向量模型的話題表示方法,將話題表示為主題子向量、地點人物子向量和關鍵詞子向量.同時針對傳統TFIDF加權算法存在的不足,給出了一種改進的TFIDF算法,將特征項在各個類中的文檔分布信息引入到TFIDF權值計算當中.通過實驗表明,本文給出的方法能有效提高話題檢測的召回率和準確率.
[1] 洪宇,張宇,劉挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學報,2007,21(6):71-87.
[2] 李勝東,呂學強,施水才,等.基于話題檢測的自適應增量K-means算法[J].中文信息學報,2014,28(6):190-193.
[3] 金建國.聚類方法綜述[J].計算機科學,2014,41(S2):288-293.
[4] 王祥斌,楊柳,鄧倫治.一種利用高斯函數的聚類算法[J].河南科技大學學報(自然科學版),2014,35(5):33-36.
[5] 張曉艷,王挺,陳火旺.基于多向量和實體模糊匹配的話題關聯識別[J].中文信息學報,2008,22(1):9-14.
[6] JORDAN M I,BLEI D M,NG A Y.Latent dirichlet allocation[J].Journal of machine learning research,2003,3:993-1022.
[7] 張曉艷,王挺,梁曉波.LDA模型在話題追蹤中的應用[J].計算機科學,2011,S1:136-139.
[8] 李湘東,巴志超,黃莉.基于LDA模型和HowNet的多粒度子話題劃分方法[J].計算機應用研究,2015,32(6):1625-1629.
[9] 謝林燕,張素香,戚銀城.基于層疊模型的話題檢測方法研究[J].鄭州大學學報(理學版),2012,44(2):43-47.
[10]王振宇,吳澤衡,唐遠華.基于多向量和二次聚類的話題檢測[J].計算機工程與設計,2012,33(8):3214-3218.
[11]常寶嫻,陳瑋瑋,李素娟.一種基于分布式rough本體的語義相似度計算方法[J].揚州大學學報(自然科學版),2014,17(1):60-62.
[12]冀俊忠,貝飛,吳晨生,等.詞性對新聞和微博網絡話題檢測的影響[J].北京工業大學學報,2015,41(4):526-533.
[13]王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學報,2012,40(11):2346-2350.
[14]蔣玲芳,張偉,司夢.基于詞袋模型的電子報圖像分類方法研究[J].信陽師范學院學報(自然科學版),2013,26(1):124-127.
[15]張小明,李舟軍,巢文涵.基于增量型聚類的自動話題檢測研究[J].軟件學報,2012,23(6):1578-1587.
(責任編輯:王浩毅)
A Multi-vector Text Clustering Method for Chinese News Topic Detection
LI Xinyu1, YUAN Fang2, LIU Yu2,LI Cong1
(1.CollegeofComputerScienceandTechnology,HebeiUniversity,Baoding071000,China;2.CollegeofMathematicsandInformation,HebeiUniversity,Baoding071000,China)
A multi-vector topic representation method combined with topic information and topic text information was proposed, to accurately represent a topic in a lower dimension. The traditional TFIDF method, during text classification, couldn’t fully cover the distribution of the feature items in each class, so an improved TFIDF method was proposed. Compared with traditional vector space model, the topic representation method and the TFIDF algorithm could effectively improve the accuracy of clustering.
topic detection; multi-vector model; TDT4; improved TFIDF
2015-11-19
河北省軟科學研究計劃項目(13455317D,12457206D-11).
李欣雨(1989—),男,河北秦皇島人,碩士研究生,主要從事數據挖掘研究,E-mail:lixinyudm@163.com;通訊作者:袁方(1965—),男,河北安新人,教授,博士,主要從事數據挖掘、社會計算研究,E-mail:yuanfang@hbu.edu.cn.
李欣雨,袁方 ,劉宇,等. 面向中文新聞話題檢測的多向量文本聚類方法[J]. 鄭州大學學報(理學版),2016,48(2):47-52.
TP391.1
A
1671-6841(2016)02-0047-06
10.13705/j.issn.1671-6841.2015277