張 永,王 芳,張譯勻
蘭州理工大學 計算機通信學院,蘭州 730050
結構特征和內容分析融合的博客文章分類
張 永,王 芳,張譯勻
蘭州理工大學 計算機通信學院,蘭州 730050
隨著互聯網技術的不斷發展,博客以極快的速度融入到社會生活中,隨之帶來海量的博客文章。如何組織其中的大量文章,從中快速準確獲取所需要的信息,成為一項重要而緊迫的研究課題。博客文章的分類是其中的核心任務之一。
普通的文本分類方法通常基于主題突出,有明確類別傾向,且多為第三人稱對事物敘述,語氣較為客觀的新聞文章,而考慮到博客文章通常包含多個主題,類別歸屬不明顯,且多為第一人稱對事物的敘述,涉及較多的作者的主觀意見,且博客文章有標簽等自身的結構特性的現象。所以,普通的文本分類并不適用于博客文章分類。目前,對博客文章分類已經開展了一些研究。文獻[1]使用標簽對博客進行分類,并且發現標簽的數量對分類結果有一定的影響,因此通過對標簽擴充來進一步改善分類的效果。它們的不足在于以博客作為分類對象,由于一個博客中會包含多個類別的文章,因此這種方法的分類力度不夠細致。文獻[2]利用文章中提取的關鍵詞代替標簽進行博客文章聚類,取得了較好的效果。文獻[3]利用博文間的評論,閱讀關系,進行文章聚類。文獻[4]通過構建一個詞條-頁面矩陣來對博客進行聚類。它們的不足在于聚類得到的類別數量太大并且結構混亂,缺乏層次性和條理性。
針對上述情況,本文提出一種結構特征和內容分析融合的博客文章分類方法。該方法通過組合期望交叉熵(CrossEntropy)和互信息(MI)兩種不同的特征選擇方法提取的特征詞集前提下,結合正文,標題,標簽作為衡量博客文章分類的三個方面,并將其利用分類器訓練融合,從而取得好的分類效果。
本文采用樸素貝葉斯分類算法作為分類的基本算法。其基本思想是假設文檔中詞與詞之間對于類別的影響是相互獨立的前提下,計算文檔屬于各個類別的概率,最終選擇最大的概率值對應的類別作為文檔屬于的類別[5]。
步驟如下:
(1)根據貝葉斯定理,轉換類別對于文檔的后驗概率,公式如下:

其中,d:文檔,ci:第i個類別。P(ci|d):給定文檔條件下,文檔屬于ci的概率。P(ci):類別ci的先驗概率。P(d):文檔的先驗概率,P(d|ci):給定類別ci的條件下,產生文檔d的概率。
(2)文檔d用向量空間模型表示為一組特征詞向量(t1,t2,…,tn),公式(1)的分子部分為:

假設各特征詞之間對于類別的影響是相互獨立的,公式(2)變為:

(3)得到的概率值最大的類別為文檔d的類別。
給定一個博客文章的集合,本文的目標是取得較好的分類效果。通過期望交叉熵和互信息兩種不同的特征選擇方法提取的特征詞集進行組合,一定程度上改善了博客內容上的多主題,類別歸屬不明顯的現象,結合正文,標題兩個方面分類博客文章。利用博客文章自身結構特性上的標簽,作為衡量博客文章分類的第三個方面。最終,利用分類器訓練融合正文,標題,標簽三個方面。
3.1 內容分類
為了改善博客文章內容上,包含多個主題,類別歸屬不明顯,且多為作者自己主觀意見的現象,提出結合互信息和期望交叉熵兩種不同的特征詞選擇方法,更好地挖掘出體現博客文章內容的特征詞集,從而取得好的分類效果。
3.1.1 融合的特征選擇方法
通過實驗發現,不同的特征提取方法會產生不同的特征詞集合,且各個特征詞集合最低重合率還不到10%,每個特征提取方法都傾向于選擇自己認為重要的一些特征詞,但其他的特征提取方法卻不一定這樣認為。因此,組合它們選擇的特征項結果,來改善博客文章內容上的多主題,類別歸屬不明顯的現象,從而進一步取得較好的博客文章分類效果。
特征項提取的方法[6]有很多,試圖組合互信息和期望交叉熵兩種不同的特征提取方法提取的特征詞集,從而取得更好的分類效果。因為:(1)互信息是在統計語言模型中被廣泛采用,且大量的研究表明采用互信息算法的效果要明顯優于其他算法。(2)互信息方法是對不同的類別抽取不同的特征項,而期望交叉熵考慮的是各個特征在每個類別中的分布情況,所以本文選取的是互信息與期望交叉熵兩種方法進行迭代。下面是這兩種方法的標準形式(t表示特征詞,ci表示類別)。
互信息函數定義如下:

其中,P(t/ci):訓練語料中特征詞t出現在類別ci中的概率,P(ci):類別ci出現的概率,P(t):訓練語料中特征項出現的頻率。對于每一類別來講,詞t的互信息越大,說明該詞與該類的共現概率越大。一般取t在所有類中的最大值為其MI值。
期望交叉熵,定義如下:

其中,P(ci|t):文章中出現詞條t時,文本屬于ci的概率,m:類別的總數。如果詞條和類別強相關,且相應的類別出現概率又小的話,則說明詞條對分類的影響大,相應的函數值就大,就很可能被選中作為特征項。
3.1.2 改進的特征選擇過程
(1)分別計算所有特征項的互信息和期望交叉熵。
(2)分別按分值的大小排序。
(3)按互信息和期望交叉熵所占特征集的比例,分別抽取特征項,并將其合并得到特征子集。
(4)計算該條件下對分類性能的影響。
(5)調整比例大小,重復(3)(4)直到獲取最優特征子集。
3.1.3 正文,標題分類
利用改進的特征提取方法提取的特征項,結合貝葉斯分類算法,進行博客文章內容的分類。對于一篇博客文章d,利用正文對博客文章分類,得到一組對應各個類別的概率值,其中,P1(d,ci)表示利用正文分類時,博客文章d屬于類別ci的概率值,同理利用標題對博客文章分類,得到一組對應各個類別的概率值,其中,P2(d,ci)表示利用標題分類時,博客文章d屬于類別ci的概率值。
3.2 標簽分類
利用改進的特征提取方法提取的特征項,結合貝葉斯分類算法,進行博客文章結構的分類。標簽是一篇博客文章中特有的結構特性,是和文章內容相關的一組關鍵詞。它通常由博客作者自行標注,用來高度概括博客文章的內容,并被證明對博客文章的分類起到了積極作用。對于一篇博客文章d,使用博客文章特有的結構特性:標簽,進行分類后,得到一組對應各個類別的概率值,其中,P3(d,ci)表示利用標簽分類時,博客文章d屬于類別ci的概率值。
3.3 結構特性和內容分析融合的博客文章分類
正文,標題,標簽分類都可作為衡量博客文章分類的方面,因此將這三個方面融合。
3.3.1 博客文章的最終分數
對于一篇博客文章d,單獨利用正文,標題,標簽三方面的一種分類后,得到一組對應各個類別的概率值。將三個方面都分類后,得到各個類別的最終分數:

對于任一篇博客文章d,分數最高的類別即為它所屬的類別。其中,S(d,ci):類別ci的最終分數,P1(d,ci):使用正文分類時,文章d屬于類別ci的概率,P2(d,ci):使用標題分類時,文章d屬于類別ci的概率,P3(d,ci):使用標簽分類時,文章d屬于類別ci的概率。ω1,ω2,ω3三個參數用以權衡不同因素的重要程度。
3.3.2 參數估計
本文采用與文獻[7]中多分類器組合類似的方法,估計三個特征權重,區別在于本文只使用一個分類器,訓練特征權重。單獨使用正文,標題,標簽三個方面分類的結果表示為向量P=(Pj1,Pj2,…,Pji),j∈[1,3],其中Pji:使用任一方面 j分類后類別i的概率值。那么,用本文中的三個方面分類后的結果可以用矩陣P=(P1,P2,P3)來表示。根據公式(6),對于文章d,可以得到方程組:
S=P*ω (7)其中,向量ω=(ω1,ω2,ω3)表示要求的特征權重,P為概率矩陣,通過文中的三個方面分類可以獲取。S=(S(d,c1),S(d,c2),…,S(d,c5))表示累加后各個類別的分數,通過人工標注可以得到。
在訓練權重時,對訓練集中文章的類別進行標注。一般而言,標注后訓練集中的文章d屬于某正確類別的概率設為1,屬于其他類別的概率均為0。但為了避免出現過擬合現象,為其他類別加入松弛變量,即假設文章屬于正確類別的分數S為θ,剩下的錯誤類別對應的分數為(1-θ)/ (m-1),m為類別總數。保持所有類別的概率值總和為1。選擇θ值時,應考慮使文章屬于錯誤類別的概率值要遠小于正確類別的概率θ,從而保證加入的松弛變量對分類結果影響很小,同時有效避免了過擬合現象。因此,對于文章d,可以利用公式(7),用線性回歸的方法求得向量ω的值。然后,對總訓練文章的解求平均值,從而得到最終的特征權重。
4.1 數據集
實驗中利用Heritrix從http://blog.sina.com.cn/網站抓取5 000篇博文,因為博客網站中文章類別標注錯誤的現象比較嚴重,所以需要對抓取的博客文章重新人工標注文章類別。并且考慮到部分博客文章的標簽,正文可能為空,所以經過篩選,得到標簽和正文兩個特征都不為空的4 000篇博客文章。本文只選取健康,財經,軍事,娛樂和體育5個類別進行訓練和測試。其中,這5個類別的分布情況如表1所示。

表1 各主題類文本分布
本文從各主題類別中分別取出200篇作為訓練集,200篇作為測試集,訓練集和測試集彼此不重疊,不包括任何重復博客文章。
4.2 評價指標
采用標準的查全率和查準率以及F-調和均值作為評價準則[8]。
查全率(Recall)是與人工分類結果吻合的博文數與分類應有的博文數的比率。

查準率(Precision)是與人工分類結果吻合的博文數與總博文數的比率。

F-調和均值綜合考慮了查全率和查準率,其值能夠更好地反映分類性能,取值在[0,1]范圍內,當查全率和查準率都增大時,F的值也增大,F值越大表示性能越好。其定義如下:

4.3 結果與分析
實驗分為兩部分,第一部分驗證互信息和期望交叉熵在特征集中所占的比例是多少時,能得到最優的特征集,更好地達到分類的效果;第二部分驗證利用互信息和期望交叉熵組合的最優比例,且區分博客文章的標簽,正文,標題對分類的影響。
4.3.1 特征子集
針對3.1.2節改進的特征抽取過程中,特征集由互信息和期望交叉熵兩部分組成,考慮到測試集和訓練集的數目相對較少的情況,本文通過大量實驗,利用互信息在特征集中10%的比例遞增,相反期望交叉熵以10%遞減的比例,且未區分博客文章的標簽,正文,標題對分類影響,分別對5個類別的分類效果驗證,數據結果如表2所示。
從表2可以看出,利用互信息和期望交叉熵結合的方法進行特征抽取,明顯優于單獨使用互信息或期望交叉熵的特征抽取方法,且最優的特征集組合是,互信息占70%,期望交叉熵占30%。然而,這個實驗結果也與所選的類別及比例遞進的間隔有關,今后將在更多類別中收集數據,以進行更全面的驗證。
由于F-調和均值能更好地反映分類性能,故進行F的比較,結果如圖1所示。

圖1 不同特征集組合的分類方法F值比較

表2 不同特征集組合的博客文章分類結果
4.3.2 分類結果
改進前,采用互信息占70%,期望交叉熵占30%的最優特征子集進行特征選擇,但未區分博客文章的標簽,正文,標題對分類的影響,利用傳統貝葉斯分類。改進后,采用互信息和期望交叉熵的最優組合進行特征選擇,且區分博客文章的標簽,正文,標題對分類的影響。訓練中,考慮到本文的類別總數只有5類,比較小,所以選取θ=0.7,而剩下的錯誤分類每個只占0.3/4=0.075,這樣就遠小于0.7。訓練后得到的標題,正文,標簽三個特征的特征權重分別為0.27,0.25,0.48。利用這三個特征權重,分別對改進前和改進后的分類效果比較,數據結果分別如表3和表4所示。

表3 改進前博客文章的分類結果

表4 改進后博客文章的分類結果
從表3和表4可以看出,改進后博客文章的分類性能有顯著的提高,主要原因是:改進前的分類方法,忽略了博客文章不同與普通文本的,特有的結構特性和內容特性,所以造成查全率和查準率較低的現象。而本文的改進方法,全面考慮博客文章的特性,內容上,通過期望交叉熵和互信息的最優組合,利用正文,標題兩個方面分類。結構上,利用博客文章特有的標簽分類,并區分三個方面對分類的影響。
由于F-調和均值能更好地反映兩種方法的分類性能,故進行F的比較,結果如圖2所示。

圖2 兩種博客文章分類方法的F值比較
本文針對博客文章的結構特征和內容分析,提出一種改進的貝葉斯博客文章分類算法。通過組合期望交叉熵和互信息兩種不同的特征選擇方法提取特征詞集,結合正文,標題,標簽作為衡量博客文章分類的三個方面,并將其利用分類器訓練融合。實驗證明,該方法有效地提高了博客文章分類的性能。在以后的工作中,將把構建博客作者的興趣,考慮博客的其他結構特征等,作為文章分類的新重點。
[1]Sun Aixin,Suryanto M A,Liu Ying.Blog classification using tags:an empirical study[C]//LNCS 4882:ICADL 2007.Berlin:Springer-Verlag,2007:307-316.
[2]Brooks C H,Montanez N.Improved annotation of the blogosphere via autotagging and hierarchical clustering[C]//WWW'06. New York:ACM,2006:625-632.
[3]Li Xin,Yan Jun,Fan Weiguo.An online blog reading system by topicclustering and personalized ranking[J].ACM Transactions on Internet Technology,2009,9(3).
[4]Li Beibei,Xu Shuting,Zhang Jun.Enhancing clustering blog documentsby utilizing author/readercomments[C]//ACM-SE 45:Proceedings of the 45th Annual Southeast Regional Conference.New York:ACM,2007:94-99.
[5]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[6]Yang Yiming,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proceedings of the 14th International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufman Publishers,1997:412-420.
[7]Ni Xiaochuan,Wu Xiaoyuan,Yu Yong.Automatic identification of Chinese weblogger's interests based on text classification[C]//Proceedings of IEEE/WIA/ACM International Conferenceon Web Intelligence.Washington,DC,USA:IEEE Computer Society,2006:247-253.
[8]徐威,董淵.針對中文文本自動分類算法的評估體系[J].計算機科學,2007,34(18):177-179.
ZHANG Yong,WANG Fang,ZHANG Yiyun
School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China
Aiming at the problems of blog posts contents including multiple themes,unobvious categories ownership and more author's subjective views,structures including tags which are different from texts,common text classification methods not performing well,a new blog posts classification method is presented based on structural characteristics and content analysis.By taking into account blog posts content features,it iterates two different feature extraction methods to enhance the representative ability of feature collection effectively,makes use of main body and title classification.By taking into account the structural features of blog posts,it makes use of tags classification and finally fuses three aspects.The experimental results show that the performance of the improved method is obviously better than common text classification methods.
text classification;blog post classification;structural characteristics;content analysis
針對博客文章內容上,包含多個主題,類別歸屬不明顯,多為作者自己主觀意見且結構上,包括不同于文本的標簽,普通文本分類方法直接應用于博客文章效果不理想的問題,提出一種結構特征和內容分析融合的博客文章分類方法。內容上,通過迭代兩種不同特征選擇方法,提高特征集代表性的前提下,利用正文,標題兩個方面分類.結構上,利用博客文章特有的標簽分類,并將三個方面融合。實驗結果表明,改進的分類方法有效地提高了博客文章分類的性能。
文本分類;博客文章分類;結構特征;內容分析
A
TP391
10.3778/j.issn.1002-8331.1107-0441
ZHANG Yong,WANG Fang,ZHANG Yiyun.Structural characteristics and content analysis fusion for blog post classification.Computer Engineering and Applications,2013,49(5):123-126.
張永(1968—),男,教授,研究領域:智能信息處理;王芳,女,碩士;張譯勻,女,碩士。E-mail:3wf851008@163.com
2011-07-21
2011-09-06
1002-8331(2013)05-0123-04
CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0941.032.html