王 勇,王李福,鄒 輝,何養明
(重慶理工大學 計算機科學與工程學院,重慶 400054)
在進行文本處理時,目前應用最廣泛的文本表示方法是由Salton等[1]提出的向量空間模型,但是該模型在計算特征項權重時假設特征項之間相互獨立,沒有任何關聯,是一種純統計的表示方法。事實上,在特征項之間存在一定的語義相關性,應將特征項的語義關系引入到文本表示中[2]。另外該方法在計算tfi和idfi時未考慮特征項在不同類別的分布情況對權重的影響[3]。
針對文本處理實際應用中,各文本沒有明確的類別信息以及基于傳統向量空間模型的TF-IDF方法在計算特征項權重時缺乏語義關系和類別區分度的問題,姚海英[4]提出了一種基于類內信息熵和特征項頻度的卡方統計方法ICHI,該方法引入了類內信息熵和特征項頻度兩個因子,對特征權重計算忽略低頻詞以及內部分布情況對權重的影響的不足進行了優化。李明濤等[5]提出了結合TF-IDF與基于WordNet的詞義相似度的權重計算方法,該方法優化了權重計算時忽略特征語義相似關系影響的問題,但是該方法未考慮特征項類別分布對權重計算的影響。李學明等[6]為提高特征權重準確度,提出了一種基于信息增益與信息熵的TF-IDF計算方法。陶舒怡等[7]利用詞項之間的語義關系,通過計算新增文本與已知類別簇的相關性實現聚類。翟東海等[8]通過計算平均語義相似度獲得特征詞和報道之間的關聯度,但是該方法未考慮特征詞在不同類別的分布對關聯度的影響。
以上都是在知道文本集合中文本所屬類別的前提下計算特征項權重,但是在文本處理實際應用中事先沒有提供分類的參考模式,不知道文本屬于哪一類。而模糊聚類可以得到文本屬于各個類別的不確定性程度,建立起了文本對于類別的不確定性程度的描述,能夠客觀反映文本的類別信息。因此為先獲取含有類別信息的文本,采用了模糊聚類[9]的方法,然后提出了類別信息熵,結合語義貢獻度,對特征權重計算方法進行了改進。
模糊集相關定義及定理參見文獻[9],由模糊集定義及定理可知,任意一個模糊相似矩陣可以經過處理得到一個模糊等價矩陣。因為在采用模糊聚類分析時,需要找到論域中各元素的等價關系,但是它們通常不是等價關系。因此需要將標準化后的數據處理成模糊相似矩陣,然后將模糊相似矩陣處理成模糊等價矩陣,最后進行聚類得到聚類簇。模糊聚類的步驟參見文獻[10]。
在文本處理前,獲得文本數據集合的類別信息可以提高文本表示的準確程度;同時考慮到特征項語義關系對特征項權重計算造成的影響,本文提出了一種有效的特征權重計算方法。
一篇文本通過向量空間模型表示,并且一篇文本表示一個概念,因此組成向量空間模型的各個特征項就共同表示了該篇文本。針對文本的概念受到各個特征項之間語義關系影響的問題,提出了一種語義貢獻度的特征詞權重計算方法。
在計算語義貢獻度的過程中需要知道兩個詞語之間的相似度,由于一個詞語通常表達了很多意思,也即有多個義項,因此在進行特征項相似度計算時需要考慮所有的義項,本文在計算特征詞之間相似度時采用文獻[11]的方法。
在向量空間模型中的m(本文m取10)個特征詞之間計算相似度,用m階方陣表示它們之間的相似度,如下所示
(1)
對稱矩陣Sm×m的行、列數為特征詞的個數m,第i和j個特征項之間的相似度用sij表示。如果一個特征項的語義由該特征項和其余特征項相似程度關系的集合組成,則該特征項與其余特征項的語義關系為它在語義上所做出的貢獻。
本文提出了一種語義貢獻度的計算方式
(2)
其中,φ(ti)為特征項ti的語義貢獻權重因子。
為了得到含有類別信息的文本集合,在數據標準化過程中各個元素的權重按照式(3)計算
wi=TF×IDF×φ(ti)
(3)
其中,wi為特征項i的特征權重。
采用文獻[9]中第2.5節的模糊聚類方法,就能夠得到帶類別信息的文本數據集合。
由于在采用TF-IDF方法計算向量空間模型中特征項權重的IDF時未考慮特征項在類別之間的分布情況。如果所計算的特征項集中出現在某一個類別中,則計算出來的IDF值可以代表該類別,但是當該特征項在不同類別中均勻分布,并且出現的該特征項次數和相同時,得到的IDF值也與集中分布的值相同,顯然不能代表該類別。因此在權重計算時應當考慮特征詞在不同類別中的分布情況,增加集中分布特征詞的權重,降低沒有集中分布特征詞的權重。
信息熵表示能量在空間中分布的均勻程度[12]。根據其定義,信息熵可以用來描述特征項在不同類別之間的分布情況。因此應當降低分布在不同類別的特征項即信息熵較大的特征項權重,提高分布在同一類別的特征項即信息熵較小的特征項權重。因此提出了一種IDF權重調節系數的計算方法
(4)
其中,Tj表示是否在第j篇文檔中出現特征詞ti,如果不出現為0,出現為1;NCi表示在類別Ci中出現特征詞ti的文本數;N表示文檔總數;k表示類別總數。
改進后的特征項權重計算公式如下所示
改進的特征權重計算方法的流程具體如下:
(1)將原文檔分詞、去停用詞處理;
(2)計算各特征項的TF-IDF值,將得到的值從高到低排序;

(4)經平移標準差變換將數據標準化,再根據建立模糊相似矩陣的步驟將矩陣變成模糊相似矩陣Rs,將得到的模糊相似矩陣采用平方自合成法得到模糊等價矩陣Re;

(6)據式(4)計算ti的I(ti);
(7)據式(5)計算ti的權重值;
(8)重復(6)、(7)計算文本向量空間模型中各個特征項新權重。
文本采用包括環境(200)、計算機(200)、經濟(325)、交通(214)、藝術(248)、軍事(249)、政治(505)、教育(220)、體育(450)、醫藥(204)這10個類別文檔的復旦大學中文文本分類語料庫數據集進行測試。本文在4個類別中分別選取20篇文檔作為測試數據集,分別是醫藥、計算機、藝術、經濟。實驗采用聚類效果通用測試指標準確率(9)和召回率(10)進行評價。準確率和召回率計算方法如下所示
Precision=TP/(TP+FP)
(6)
Recall=TP/(TP+FN)
(7)
其中,FN為同一類的樣本點被分到不同類別的樣本點個數;TP為同一個類別的樣本點被分配到同一個類簇的樣本點個數;FP為不同類別的樣本點被分配到同一個類簇的樣本點個數。
(1)考慮語義關系與不考慮語義關系的模糊聚類的實驗效果對比,實驗結果見表1。

表1 語義貢獻度的模糊聚類實驗對比
為增加實驗效果的直觀性,采用折線圖方式呈現實驗結果,如圖1所示。

圖1 語義貢獻度的模糊聚類實驗對比
醫藥、計算機、藝術、經濟分別用1、2、3、4表示。實驗結果表明,考慮特征項的語義貢獻度實驗效果更好。
(2)將得到的含有類別信息的文本集合用新的特征項權重計算方法得到每篇文檔的向量空間模型,采用經典的K-means算法測試算法類別影響的改進效果。類別對特征項權重影響的實驗結果見表2。

表2 采用K-means聚類算法測試類別區分實驗對比
為增加實驗效果的直觀性,采用折線圖的方式呈現實驗結果,如圖2所示。

圖2 采用K-means聚類算法測試類別區分實驗對比
醫藥、計算機、藝術、經濟分別用1、2、3、4表示。實驗結果表明,考慮特征項在類別之間的分布情況時效果更好。
本文針對文本聚類實際應用中大量文本類別信息未知,并且基于向量空間模型的TF-IDF方法進行特征項權重計算只考慮統計信息而不考慮特征項在類別分布對權重影響的問題,提出了一種結合類別信息熵和語義貢獻度的特征權重計算方法。該方法在計算向量空間模型中的特征項權重時不僅僅考慮了統計信息,特征項之間的語義關系對文本表示的影響同樣作為考慮的因素,因此提出了文本表示的特征項語義貢獻度的方法,結合模糊聚類得到文本的類別信息;在得到類別信息后,根據特征項在不同類別的分布情況,提出了類別信息熵的方法,對特征項權重的計算進行優化。實驗結果表明,該方法是有效的。
在后續的研究中,將在如何得到更加合理的特征項個數m,能否找到一個合理的取值模型而不是靠人為給定的方面重點考慮;此外特征項在文本中的詞性以及出現的位置對權重計算的影響也將納入考慮,得到更加合理的權重計算方法。
參考文獻:
[1]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the Acm,1975,18(11):613-620.
[2]ZHU Jianlin,YANG Xiaoping,PENG Jingqiao.Research on effect of adding internal semantic relationship into text categorization[J].Computer Science,2016,43(9):82-86(in Chinese).[朱建林,楊小平,彭鯨橋.融入內部語義關系對文本分類的影響研究[J].計算機科學,2016,43(9):82-86.]
[3]ZHANG Yufang,WAN Binhou,XIONG Zhongyang.Research on feature dimension reduction in text classification[J].Application Research of Computers,2012,29(7):2541-2543(in Chinese).[張玉芳,萬斌候,熊忠陽.文本分類中的特征降維方法研究[J].計算機應用研究,2012,29(7):2541-2543.]
[4]YAO Haiying.Research on chi-square static feature selection method and TF-IDF feature weighting method for Chinese text classification[D].Changchun:Jilin University,2016(in Chinese).[姚海英.中文文本分類中卡方統計特征選擇方法和TF-IDF權重計算方法的研究[D].長春:吉林大學,2016.]
[5]LI Mingtao,LUO Junyong,YIN Meijuan,et al.Weight computing method for text feature terms by integrating word sense[J].Journal of Computer Applications,2012,32(5):1355-1358(in Chinese).[李明濤,羅軍勇,尹美娟,等.結合詞義的文本特征詞權重計算方法[J].計算機應用,2012,32(5):1355-1358.]
[6]LI Xueming,LI Hairui,XUE Liang,et al.TFIDF algorithm based on information gain and information entropy[J].Computer Engineering,2012,38(8):37-40(in Chinese).[李學明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38(8):37-40.]
[7]TAO Shuyi,WANG Mingwen,WAN Jianyi,et al.An incremental text clustering algorithm based on cluster congruence[J].Computer Engineering,2014,40(6):195-200(in Chinese).[陶舒怡,王明文,萬劍怡,等.一種基于簇相合性的文本增量聚類算法[J].計算機工程,2014,40(6):195-200.]
[8]ZHAI Donghai,CUI Jingjing,NIE Hongyu,et al.Topic link detection method based on semantic similarity[J].Journal of Southwest Jiaotong University,2015,50(3):517-522(in Chinese).[翟東海,崔靜靜,聶洪玉,等.基于語義相似度的話題關聯檢測方法[J].西南交通大學學報,2015,50(3):517-522.]
[9]CHEN Donghui.Research of key techniques in fuzzy clustering based on objective function[D].Xi’an:Xidian University,2012(in Chinese).[陳東輝.基于目標函數的模糊聚類算法關鍵技術研究[D].西安:西安電子科技大學,2012.]
[10]WANG Lifu.Research on clustering algorithm of K-medoids and its application in text clustering[D].Chongqing:Chongqing University of Technology,2017(in Chinese).[王李福.K-medoids聚類算法研究及其在文本聚類中的應用[D].重慶:重慶理工大學,2017.]
[11]TIAN Jiule,ZHAO Wei.Words similarity algorithm based on tongyici cilin semantic web adaptive learning system[J].Journal of Jilin University(Information Science Edition),2010,28(6):602-608(in Chinese).[田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報信息科學版,2010,28(6):602-608.]
[12]ZHOU Wei,LI Xiaojing.Comprehensive evaluation method based on information entropy theory[J].Science Technology and Engineering,2010,10(23):5839-5843(in Chinese).[周薇,李筱菁.基于信息熵理論的綜合評價方法[J].科學技術與工程,2010,10(23):5839-5843.]