一種新的微博短文本特征詞選擇算法*

2015-01-09 03:53:54黃賢英陳紅陽劉英濤熊李媛

計(jì)算機(jī)工程與科學(xué) 2015年9期

關(guān)鍵詞：語義分類文本

黃賢英,陳紅陽,劉英濤,熊李媛

(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，重慶 400054)

一種新的微博短文本特征詞選擇算法*

黃賢英,陳紅陽,劉英濤,熊李媛

(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，重慶 400054)

針對(duì)微博短文本有效特征較稀疏且難以提取，從而影響微博文本表示、分類與聚類準(zhǔn)確性的問題，提出一種基于統(tǒng)計(jì)與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法基于詞性組合匹配規(guī)則，根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子構(gòu)造綜合評(píng)估函數(shù)，結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度，對(duì)微博短文本進(jìn)行特征詞選擇，以使挑選出來的特征詞能準(zhǔn)確表示微博短文本內(nèi)容主題。將新的特征詞選擇算法與樸素貝葉斯分類算法相結(jié)合，對(duì)微博分類語料集進(jìn)行實(shí)驗(yàn)，結(jié)果表明，相比其它的傳統(tǒng)算法，新算法使得微博短文本分類準(zhǔn)確率更高，表明該算法選取出來的特征詞能夠更準(zhǔn)確地表示微博短文本內(nèi)容主題。

微博短文本；特征詞選擇；統(tǒng)計(jì)與語義信息；詞性組合；樸素貝葉斯分類算法

1 引言

隨著微博的興起，基于微博的信息挖掘與應(yīng)用應(yīng)運(yùn)而生[1]，如微博短文本挖掘、話題趨勢檢測、情感傾向性分析等成為眾多學(xué)者研究的熱點(diǎn)，微博短文本特征詞選擇[2]算法是這些研究的基礎(chǔ)。它主要是將文本中冗余、不相關(guān)詞項(xiàng)剔除掉，保留對(duì)文本內(nèi)容主題表達(dá)貢獻(xiàn)度較大的詞項(xiàng)作為特征詞，在保證原文語義信息完整的情況下，準(zhǔn)確地表示微博短文本內(nèi)容主題，從而降低了特征空間維度，為微博短文本后續(xù)處理環(huán)節(jié)奠定堅(jiān)實(shí)的基礎(chǔ)。然而，微博短文本特征極度稀疏、高度冗余，且以幾何級(jí)增長，如何更有效地將表示微博短文本內(nèi)容主題的特征詞選取出來是一個(gè)亟待解決的問題。

研究人員基于傳統(tǒng)文本特征詞選擇算法[3]對(duì)微博短文本特征詞選擇算法進(jìn)行了大量研究，主要分為基于統(tǒng)計(jì)和基于語義兩大類方法?；诮y(tǒng)計(jì)的微博短文本特征詞選擇算法有TF-IDF(Term Frequency-Inverse Document Frequency)算法[4]、基于詞長進(jìn)行特征詞選擇的算法[5]及以詞性作為重要特征的特征詞選擇算法[6]等，但都只是從某一個(gè)方面來衡量詞項(xiàng)在文本中的重要性，考慮的因素不太全面。

目前，從語義角度對(duì)微博短文本進(jìn)行特征詞的選取成為一種趨勢，文獻(xiàn)[7]基于HowNet對(duì)短文本中的名詞、動(dòng)詞、形容詞與副詞進(jìn)行語義擴(kuò)展，來選擇特征詞；文獻(xiàn)[8]考慮了短文本中詞語之間的語義關(guān)聯(lián)信息，提出一種候選特征詞的特征度計(jì)算方法，選取特征度值較大的詞項(xiàng)作為微博短文本的特征詞；文獻(xiàn)[9]提出以概念作為特征詞，并基于語義知識(shí)庫《知網(wǎng)》對(duì)短文本中的詞項(xiàng)進(jìn)行詞義消歧，進(jìn)而選取特征詞。

這幾種方法均從語義角度考慮了詞項(xiàng)之間的語義關(guān)聯(lián)性，有效地選取出了文本的特征詞，對(duì)微博短文本特征詞選擇具有一定的啟發(fā)意義。

本文針對(duì)單一基于詞項(xiàng)的TF-IDF、詞性與詞長因子選取文本特征詞的片面性，并對(duì)詞項(xiàng)與文本內(nèi)容的語義相關(guān)度，以及短語作為文本特征詞時(shí)所具有的較強(qiáng)的語義表達(dá)能力這兩點(diǎn)因素加以分析考慮，提出一種統(tǒng)計(jì)與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法分為三個(gè)步驟對(duì)微博短文本進(jìn)行特征詞的選擇：

首先，基于詞性組合匹配規(guī)則選取文本中的短語作為特征詞；

其次，根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子構(gòu)造綜合評(píng)估函數(shù)，將評(píng)估值高的詞項(xiàng)添加為特征詞；

然后，基于《知網(wǎng)》的詞匯語義相似度[10]來估量擬定的特征詞項(xiàng)與文本內(nèi)容的語義相關(guān)度，對(duì)特征詞進(jìn)行篩選；

最后，將選取出來的特征詞組成集合，用以表示微博短文本內(nèi)容主題。

2 微博短文本特征詞選擇及相關(guān)算法介紹

2.1 特征詞選擇的原則

在微博短文本中，特征詞一般也是以字、詞或者短語來表示。詞是反映語義信息的基本單位，與字相比能更好地體現(xiàn)出獨(dú)立、完整的語義信息，對(duì)文本內(nèi)容主題的表達(dá)能力較強(qiáng)；短語結(jié)構(gòu)穩(wěn)定、語義完整，與詞相比在文本中出現(xiàn)的頻率較低，更能反映出文本的內(nèi)容主題，也適合作為文本的特征詞。此外，特征詞的挑選通常應(yīng)該具備以下原則[11]:(1)能夠確實(shí)標(biāo)識(shí)文本內(nèi)容，即與文本主題內(nèi)容應(yīng)密切相關(guān)；(2)具備將目標(biāo)文本與其他文本區(qū)分開的能力；(3)個(gè)數(shù)適中，不宜過多；(4)特征詞分離操作易實(shí)現(xiàn)。由此可知，如何采用有效的方法從微博短文本中選取滿足上述挑選規(guī)則的詞項(xiàng)作為特征詞；如何確定合適的特征詞粒度、提高特征詞的語義表達(dá)能力對(duì)微博短文本特征詞選擇至關(guān)重要，具有一定的實(shí)踐意義與研究價(jià)值。

2.2 TF-IDF的定義

TF-IDF是計(jì)算文本中詞項(xiàng)權(quán)重的一種常用方法，假設(shè)當(dāng)前給定的文本集合所包含的文本數(shù)目是N，指定的文本為Dj，則TF代表某一詞項(xiàng)termi在文本Dj中出現(xiàn)的頻數(shù);而IDF代表文本集合中包含該詞項(xiàng)的文本數(shù)，詞項(xiàng)在文本中出現(xiàn)的頻數(shù)越高，表征該文本的能力越強(qiáng)，相反，其IDF值越小，則該詞項(xiàng)區(qū)別于其他文本的性能越好。總的來說，詞項(xiàng)的TF-IDF反映出其在文本中的重要性，也具備有效區(qū)別于其他文本的能力，具體表示如公式(1)所示:

(1)

其中， Weighttf-idf(termi)表示詞項(xiàng)termi的TF-IDF值， tij表示詞項(xiàng)termj在文本Dj中的詞頻，N指文本集合中文本數(shù)量，n表示文本Dj中所包含的詞項(xiàng)總數(shù)，ni表示文本集合中包含詞項(xiàng)termi的文本數(shù)。

2.3 常見的特征詞選擇算法

(1)基于詞項(xiàng)的TF-IDF算法。

文獻(xiàn)[4]提出基于詞項(xiàng)的TF-IDF因子對(duì)微博短文本進(jìn)行特征詞選取，主要是根據(jù)TF-IDF算法度量文本中每個(gè)詞項(xiàng)的權(quán)重，挑選具有較高權(quán)重的詞項(xiàng)作為文本的特征詞。首先，針對(duì)微博短文本中的每一個(gè)詞項(xiàng)termi，根據(jù)公式(1)統(tǒng)計(jì)其TF-IDF值Weighttf-idf(termi);然后，按照詞項(xiàng)TF-IDF值的高低對(duì)微博短文本中的詞項(xiàng)進(jìn)行降序排列；最后，從該詞項(xiàng)集合中選取靠前的一定數(shù)量的詞項(xiàng)作為文本的特征詞。

(2)基于詞長的TF-IDF改進(jìn)算法。

一個(gè)詞語的長度與其所蘊(yùn)含的語義信息具有一定的關(guān)系。相較于短詞而言，長詞所包含的語義信息更多，且所表示的意思更清晰、明確。如果一個(gè)詞的長度愈長，那么該詞可以更好地反映文本主題，作為文本特征詞的可能性就愈大。文獻(xiàn)[5]將詞項(xiàng)的詞長因素融入TF-IDF計(jì)算每一個(gè)詞項(xiàng)的權(quán)重，然后挑選出權(quán)重較高的詞項(xiàng)作為文本的特征詞，所抽取出的特征詞較不加任何因素的TF-IDF方法更能準(zhǔn)確地表征文本內(nèi)容。文中根據(jù)詞項(xiàng)的長度對(duì)其權(quán)重加權(quán)，具體如公式(2)所示：

WLength(termi)=

(2)

其中，Length代表詞項(xiàng)termi的詞長，即該詞項(xiàng)所包含字的數(shù)目，Weighttf-idf(termi)指代采用TF-IDF方法計(jì)算得出的每一個(gè)詞項(xiàng)termi的權(quán)重。

(3)基于詞性進(jìn)行特征詞選擇的算法。

文獻(xiàn)[6]的特征詞選擇算法中將詞性作為特征詞選取的一個(gè)重要特征，提出了一種根據(jù)詞性來進(jìn)行特征詞選擇的方法。其主要思想是根據(jù)名詞、動(dòng)詞、形容詞與副詞四種詞性在文本中不同的重要性，賦予每種詞性一定的權(quán)重值。對(duì)于文本中每一個(gè)詞項(xiàng)termi，判斷其所屬的詞性；然后根據(jù)不同的詞性所占據(jù)的權(quán)重值，賦予該詞項(xiàng)特定的權(quán)重值WPos(termi)；然后按照該值對(duì)文本中的詞項(xiàng)進(jìn)行降序排列，再從中選取一定數(shù)量的具有較高權(quán)重值的詞項(xiàng)作為文本的特征詞。它有效區(qū)分了停用詞等，也克服了TF-IDF等算法無法解決的高頻但無實(shí)際含義詞項(xiàng)的誤判問題，提高了文本特征詞選取的準(zhǔn)確率。

3 新的微博短文本特征詞選擇算法

本文基于詞性組合匹配規(guī)則，根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造綜合評(píng)估函數(shù)，結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度，逐步來選取微博短文本的特征詞，從而準(zhǔn)確表示微博文本內(nèi)容主題。新的微博短文本特征詞選擇算法總體流程，如圖1所示，它主要由以下幾個(gè)步驟構(gòu)成：(1)首先采用常用的文本預(yù)處理方法對(duì)微博短文本D′進(jìn)行預(yù)處理，得到詞項(xiàng)集合D；(2)其次，基于詞性組合匹配規(guī)則，從詞項(xiàng)集合D中選取出特征詞加入特征詞集合FeatureList，余下的詞項(xiàng)則放入剩余詞項(xiàng)集合TermList；(3)然后，使用本文所提出的融合詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造的綜合評(píng)估函數(shù)，從剩余詞項(xiàng)集合TermList中選取出特征詞放入過濾詞項(xiàng)集合LeftList；(4)最后，再結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度，從過濾詞項(xiàng)集合LeftList中選取出特征詞加入特征詞集合FeatureList，從而得到最終的微博短文本特征詞集合。

Figure 1 Flow chart of the feature selection algorithm on micro-blog short texts

3.1 微博短文本預(yù)處理

由于微博短文本內(nèi)容長度短，數(shù)量較多，語言表達(dá)口語化，形式不規(guī)范，存在過多的繁雜、冗余信息，在進(jìn)行特征詞選擇前，通常都需要對(duì)原始文本進(jìn)行預(yù)處理。微博短文本預(yù)處理主要包括微博信息過濾、微博文本分詞、詞性標(biāo)注與停用詞去除。

通過以上幾種方法，原始微博短文本D′將被表示為D={〈term1,s1〉, 〈term2,s2〉,…, 〈termm,sm〉} ，該文本中第i個(gè)詞項(xiàng)及其對(duì)應(yīng)的詞性用〈termi,si〉(1≤i≤m)來表示，其中m代表經(jīng)過預(yù)處理后微博短文本D所包含詞項(xiàng)的個(gè)數(shù)。本文所提算法也采用上述方法對(duì)微博短文本進(jìn)行預(yù)處理。

3.2 基于詞性組合匹配規(guī)則選取微博短文本特征詞

文本中不同詞性的詞項(xiàng)組合在一起蘊(yùn)含著更加豐富、明確的語義信息，對(duì)文本內(nèi)容主題的表征力度更強(qiáng)。例如：形容詞與名詞組合(adj+n)，“肥沃的土地”比獨(dú)立的“肥沃的”和“土地”兩個(gè)詞更能準(zhǔn)確地表達(dá)出文字所蘊(yùn)含的語義信息——土地是肥沃的等；動(dòng)詞和副詞組合(adv+v)，“快樂地奔跑”也比單個(gè)詞“快樂地”和“奔跑”更為準(zhǔn)確地將文字所蘊(yùn)含的信息表示出來——一個(gè)人奔跑的時(shí)候，心情是愉悅的等。因此，選取由這樣的詞性組合構(gòu)成的短語作為微博短文本的特征詞，有助于提高微博短文本內(nèi)容主題表示的準(zhǔn)確性。

基于詞項(xiàng)組合匹配規(guī)則選取微博短文本特征詞的算法描述如下所示：

算法1基于詞性組合匹配規(guī)則的微博短文本特征詞選擇算法

輸入：經(jīng)預(yù)處理后的微博短文本D={〈term1,s1〉,〈term2,s2〉,…,〈termm,sm〉};

輸出：初始特征詞集合FeatureList={term1,term2,…,termn1}與剩余詞項(xiàng)集合TermList={〈termn1+1,sn1+1〉, 〈termn1+2,sn1+2〉,…, 〈termn1+k,sn1+k〉} ，n1

步驟1針對(duì)微博短文本D，依次遍歷該文本中的詞項(xiàng)termi(1≤i≤m)；

步驟2根據(jù)詞項(xiàng)termi所對(duì)應(yīng)的詞性，判斷其是否屬于形容詞或副詞(adj or adv)，如果屬于，轉(zhuǎn)步驟3，否則轉(zhuǎn)步驟5；

步驟3遍歷文本中下一個(gè)詞項(xiàng)termi+1，判斷其和前一個(gè)詞項(xiàng)termi組合在一起是否與詞性組合規(guī)則(adj+n)與(adv+v)相匹配，如果匹配，轉(zhuǎn)步驟4，否則，轉(zhuǎn)步驟5；

步驟4將組合在一起的詞項(xiàng)選取出來作為一個(gè)特征詞放入初始特征詞集合FeatureList中；

步驟5遍歷下一個(gè)詞項(xiàng)termi+1，重復(fù)步驟2～步驟4直到微博短文本D中的所有詞項(xiàng)處理完畢；

步驟6將微博短文本D中余下的詞項(xiàng)放入剩余詞項(xiàng)集合TermList中。

3.3 根據(jù)詞項(xiàng)的多因子構(gòu)造的新評(píng)估函數(shù)選取微博短文本特征詞

為解決由于單一使用一種基于統(tǒng)計(jì)的特征詞選擇算法的片面性，造成了文本中有效特征詞選取、文本內(nèi)容主題精確表示困難的問題，本文則綜合詞項(xiàng)的TF-IDF、詞性與詞長因子提出一種基于詞項(xiàng)多種因子的特征詞選擇算法，以挑選文本特征詞，更準(zhǔn)確地表示微博文本內(nèi)容主題。首先，分別根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子統(tǒng)計(jì)相應(yīng)的權(quán)重分值；然后將其綜合起來計(jì)算每個(gè)詞項(xiàng)的總權(quán)重分值，并選取總權(quán)重分值較高的詞項(xiàng)作為文本的特征詞。

基于詞項(xiàng)的TF-IDF、詞性以及詞長等因子計(jì)算表征文本D中每一個(gè)詞項(xiàng)termi重要性的總權(quán)重分值，如式(3)所示。

Score(termi)=α×Weighttf-idf(termi)+

β×WPos(termi)+γ×WLength(termi)

(3)

其中，termi表示當(dāng)前文本D中的第i個(gè)詞項(xiàng)，Weighttf-idf(termi)表示詞項(xiàng)termi對(duì)應(yīng)的TF-IDF權(quán)重分值，WPos(termi)表示詞性權(quán)重分值，WLength(termi)表示詞長權(quán)重分值，而α、β、γ則表示詞項(xiàng)termi的不同因子在決定其在文本中重要性的比例系數(shù)。

融合詞項(xiàng)多因子的微博短文本特征詞選擇算法具體描述如下：

算法2融合詞項(xiàng)多因子的微博短文本特征詞選擇算法

輸入：剩余詞項(xiàng)集合TermList={〈termn1+1,sn1+1〉,〈termn1+2,sn1+2〉,…,〈termn1+k,sn1+k〉},n1

輸出：過濾詞項(xiàng)集合LeftList={term1,…,termi,…,termk1}， k1表示過濾詞項(xiàng)集合LeftList中詞項(xiàng)的數(shù)目，且k1

步驟1針對(duì)剩余詞項(xiàng)集合TermList，首先遍歷該集合中的第一個(gè)詞項(xiàng)term1；

步驟2根據(jù)詞項(xiàng)的TF-IDF、詞性以及詞長因子分別統(tǒng)計(jì)詞項(xiàng)term1的TF-IDF權(quán)重分值、詞性權(quán)重分值與詞長權(quán)重分值；

步驟3根據(jù)式(3)將詞項(xiàng)term1的各個(gè)因子所對(duì)應(yīng)的權(quán)重分值進(jìn)行融合，計(jì)算其總權(quán)重分值Score(term1)；

步驟4重復(fù)步驟2 ～步驟3直到剩余詞項(xiàng)集合TermList中的所有詞項(xiàng)termi處理完畢；

步驟5按照每個(gè)詞項(xiàng)termi的總權(quán)重分值，對(duì)詞項(xiàng)集合TermList中的詞項(xiàng)進(jìn)行降序排列，并選取前k1(詞項(xiàng)集合TermList中多數(shù)詞項(xiàng)為特征詞)個(gè)詞項(xiàng)加入過濾詞項(xiàng)集合LeftList中。

3.4 結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度篩選微博短文本特征詞

本文分析了詞項(xiàng)之間的語義關(guān)聯(lián)性，基于《知網(wǎng)》的詞匯語義相似度量化某一個(gè)詞項(xiàng)與微博短文本中每一個(gè)詞項(xiàng)之間的語義相似度，求和，取平均值，然后將平均值作為該詞項(xiàng)與文本內(nèi)容的語義相關(guān)度。運(yùn)用此方法對(duì)過濾詞項(xiàng)集合LeftList再次進(jìn)行特征詞選擇，從而將詞項(xiàng)集合TermList中誤選的特征詞去除，詞項(xiàng)termi與文本D內(nèi)容的語義相關(guān)度計(jì)算如式(4)所示：

(4)

其中，sem(termi,terml)表示基于《知網(wǎng)》的詞匯語義相似度度量詞項(xiàng)termi與terml之間的語義相似性。

結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法描述如下所示：

算法3結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法

輸入：初始特征詞集合FeatureList={term1,term2,…,termn1}與過濾詞項(xiàng)集合LeftList={term1,…,termi,…,termk1};

輸出：微博短文本D的最終特征詞集合FeatureList={term1,term2,…,termn1,termn1+1,…,termn}，n

步驟1針對(duì)過濾詞項(xiàng)集合LeftList，首先遍歷該集合中的第一個(gè)詞項(xiàng)term1;

步驟2根據(jù)式(4)計(jì)算詞項(xiàng)term1與文本D之間的語義相關(guān)度Semantic(term1,D);

步驟3重復(fù)步驟2直至集合LeftList中所有的詞項(xiàng)處理完畢。然后根據(jù)語義相關(guān)度值對(duì)該集合中的詞項(xiàng)進(jìn)行降序排列，抽取前n-n1(詞項(xiàng)集合LeftList中詞項(xiàng)數(shù)目的90%)個(gè)詞項(xiàng)加入初始特征詞集合FeatureList中，從而形成微博短文本D的最終特征詞集合FeatureList。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)來源

實(shí)驗(yàn)數(shù)據(jù)來源于科研共享平臺(tái)——數(shù)據(jù)堂所提供的微博分類語料集[12]，共計(jì)21個(gè)類別，涉及IT、財(cái)經(jīng)、傳媒等多個(gè)領(lǐng)域，其中每個(gè)類別包含1 000～12 000的人工分類數(shù)據(jù)。從語料集中選取70%的數(shù)據(jù)作為微博短文本分類的訓(xùn)練集，剩余的30%作為測試集。

4.2 評(píng)價(jià)指標(biāo)

采用兩個(gè)衡量文本分類效果的度量指標(biāo)——準(zhǔn)確率與召回率作為文本特征詞選擇算法的評(píng)判指標(biāo)，如表1與式(5)所示。

Table 1 Binary classification contingency table表1 二值分類列聯(lián)表

(5)

其中，P指代準(zhǔn)確率，表示正確分類的文本數(shù)與被分類器判別為屬于該類的文本數(shù)的比值；R則代表召回率，表示正確分類的文本數(shù)在測試數(shù)據(jù)集中屬于該類的文本數(shù)中所占的比重。按照公式(5)統(tǒng)計(jì)所有微博數(shù)據(jù)類別對(duì)應(yīng)的準(zhǔn)確率與召回率。

4.3 實(shí)驗(yàn)步驟

4.3.1 微博短文本預(yù)處理

本實(shí)驗(yàn)采用的文本預(yù)處理方法分為四步。第一步是對(duì)微博短文本信息進(jìn)行過濾。采用文獻(xiàn)[13]的方法：建立繁簡字庫，統(tǒng)一微博語言表達(dá)；根據(jù)微博短文本中特殊的數(shù)據(jù)格式，去除其所包含的無用信息；刪除微博短文本中一些無意義的固定詞組，從而去掉文本中的噪聲，保留重要的數(shù)據(jù)信息，達(dá)到凈化微博數(shù)據(jù)的目的。第二步，微博文本分詞。采用文獻(xiàn)[14]提出的中科院研發(fā)的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞工具對(duì)微博短文本進(jìn)行分詞，將微博短文本表示成由一系列詞項(xiàng)構(gòu)成的詞項(xiàng)集合。第三步，詞性標(biāo)注。利用ICTCLAS分詞工具所附帶的詞性標(biāo)注功能對(duì)每一個(gè)詞項(xiàng)進(jìn)行詞性標(biāo)注。第四步，停用詞去除。文獻(xiàn)[15]提出構(gòu)建停用詞表對(duì)微博短文本進(jìn)行停用詞去除，將一些無意義的虛詞等去除掉。

4.3.2 微博短文本特征詞選擇與分類

由于人工標(biāo)注微博短文本特征詞具有一定的主觀性，且海量數(shù)據(jù)的標(biāo)注極為耗時(shí)，將使用此種方法所得的微博短文本特征詞數(shù)據(jù)作為評(píng)判特征詞選擇算法優(yōu)劣的參考數(shù)據(jù)不太可行。因此，本文將新的特征詞選擇算法與樸素貝葉斯NB(Naive Bayeian)分類算法[16]相結(jié)合應(yīng)用于微博分類語料集，對(duì)微博短文本進(jìn)行分類，觀測分類效果，以評(píng)判新算法的優(yōu)劣。

4.4 實(shí)驗(yàn)結(jié)果及分析

公式(3)中的三個(gè)比例系數(shù)彼此之間的關(guān)系為α+β+γ=1,β>γ>α(考慮到詞項(xiàng)的總權(quán)重分值受詞性因子影響最大，詞長次之，TF-IDF最小)，且每個(gè)系數(shù)在(0,1)之間取值。為確定一個(gè)最佳組合系數(shù)，本文針對(duì)六種可能的取值情況(精度為0.1)對(duì)微博短文本分類語料集多次實(shí)驗(yàn)，測試微博短文本分類的平均準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，當(dāng)(α,β,γ)=(0.2,0.5,0.3)時(shí)，平均準(zhǔn)確率取得最大值，即85.35%，因此，α、β、γ分別取0.2、0.5、0.3。

將本文的新算法與單獨(dú)基于詞項(xiàng)的TF-IDF[4]、詞長[5]、詞性[6]等因子的特征詞選擇算法進(jìn)行比較，觀測各個(gè)特征詞選擇算法與分類算法相結(jié)合時(shí)對(duì)微博短文本分類的效果。由于新算法綜合考慮了詞項(xiàng)的TF-IDF、詞性與詞長等因子共同度量詞項(xiàng)對(duì)微博短文本內(nèi)容主題表達(dá)所起的作用，避免了僅基于詞項(xiàng)某一方面因素的片面性；以詞性組合匹配規(guī)則選取文本的特征詞，提高了微博短文本特征詞的語義表達(dá)能力；從語義角度來衡量詞項(xiàng)與微博短文本內(nèi)容的語義相關(guān)度，充分考慮了詞項(xiàng)與文本內(nèi)容在語義上的密切相關(guān)度。因此，新算法可更好地提高微博短文本分類的準(zhǔn)確率，改善分類的效果。

這一點(diǎn)可以從如圖2和圖3所示的數(shù)據(jù)中得到驗(yàn)證：結(jié)合分類算法對(duì)微博短文本進(jìn)行分類時(shí)，新算法與基于詞項(xiàng)的TF-IDF、詞性與詞長等因子的特征詞選擇算法相比，在各個(gè)微博數(shù)據(jù)類別對(duì)應(yīng)的準(zhǔn)確率與召回率上均得到了提高，且平均值分別保持在85.35%與84.49%左右。新算法有效地提高了微博短文本分類的準(zhǔn)確率，證明了該算法選取出的特征詞可更準(zhǔn)確地表示微博文本內(nèi)容主題。

Figure 2 Comparison chart of the four text feature selection algorithms in accuracy rate

Figure 3 Comparison chart of the four text feature selection algorithms in recall rate

5 結(jié)束語

本文首先基于詞性組合匹配規(guī)則選取微博短文本的特征詞，以提高微博短文本特征詞的語義表達(dá)能力；其次根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造綜合評(píng)估函數(shù)估量詞項(xiàng)對(duì)微博短文本內(nèi)容主題表示的貢獻(xiàn)度，進(jìn)而對(duì)微博短文本進(jìn)行特征詞選擇；然后，從語義的角度理解微博短文本特征，結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度，最終完成對(duì)微博短文本特征詞的選取功能；最后與樸素貝葉斯分類算法結(jié)合使用，對(duì)微博短文本進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明，與基于詞項(xiàng)的TF-IDF、詞性與詞長等因子選取特征詞的算法相比，該算法有效地提高了微博短文本分類的準(zhǔn)確率，從而驗(yàn)證了該算法的優(yōu)越性。

[1] Jiang Sheng-yi, Mai Zhi-kai, Pang Guan-song, et al. A survey of Micro-blog data mining[J]. Library and Information Service, 2012, 56(17):136-142.(in Chinese)

[2] Wang Lian-xi.A literature review on pre-processing and learning of microtext[J]. Library and Information Service, 2013, 57(11):125-131.(in Chinese)

[3] A survey on text feature extraction method[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101- aq2y.html.(in Chinese)

[4] Liu Yan-wei.Research and implementation of Microblog topic tracking system[D]. Beijing:Beijing Jiaotong University, 2013.(in Chinese)

[5] Ding Jin. Research and implementation of micro-blog hot topic detection[D]. Wuhan:Huazhong University of Science and Technology, 2012.(in Chinese)

[6] Zhang Jian-e. Chinese text keyword extraction based on multiple feature fusion[J]. Information Studies:Theory and Application, 2013, 10(36):105-108.(in Chinese)

[7] Liu Zi-tao, Yu Wen-chao, Chen Wei, et al. Short text feature selection for micro-blog mining[C]∥Proc of 2010 International Conference on IEEE Computational Intelligence and Software Engineering(CiSE), 2010:1-4.

[8] Cheng Chuan-peng, Su An-jie. A short text feature word extraction method[J]. Computer Applications and Software, 2014, 31(6):162-164.(in Chinese)

[9] Liu Jing-jiao. The study of short text classification algorithm based on semantic[D]. Zhengzhou:Zhengzhou University of Light Industry, 2013.(in Chinese)

[10] Ge Bin, Li Fang-fang, Guo Si-lu,et al. Word’s semantic similarity computation method based on HowNet[J]. Application Research of Computers, 2010, 27(9):3329-3333.(in Chinese)

[11] Lin Nan. Research on algorithms for text feature selection[D]. Dalian:Liaoning Normal University, 2010.(in Chinese)

[12] The corpus used in classification for Micro-blog texts[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.(in Chinese)

[13] Xia Yang.Design and implementation of the micro-blog topic detection system based on incremental clustering[D]. Guangzhou:Sun Yat-sen University, 2012.(in Chinese)

[14] ICTCLAS,ICTCLAS2012-SDK-0101.rar[EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.(in Chinese)

[15] Hua Bo-lin. Stop-word processing technique in knowledge extraction[J]. New Technology of Library and Information, 2007, 2(8):48-51.(in Chinese)

[16] Zuo Min, Zeng Guan-ping, Tu Xu-yan. Study on an improved Naive Bayesian classifier used in the Chinese text categorization[C]∥Proc of the 2nd International Conference on Modeling, Simulation, and Visualization Methods, 2010:135-138.

附中文參考文獻(xiàn)：

[1] 蔣盛益, 麥志凱, 龐觀松, 等. 微博信息挖掘技術(shù)研究綜述[J]. 圖書情報(bào)工作, 2012, 56(17):136-142.

[2] 王連喜. 微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J]. 圖書情報(bào)工作, 2013, 57(11):125-131.

[3] 文本特征提取方法研究[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101aq2y.html.

[4] 劉彥偉. 微博話題追蹤系統(tǒng)的研究與實(shí)現(xiàn)[D]. 北京:北京交通大學(xué), 2013.

[5] 丁藎. 微博熱點(diǎn)發(fā)現(xiàn)技術(shù)的研究與實(shí)現(xiàn)[D]. 武漢:華中科技大學(xué), 2012.

[6] 張建娥. 基于多特征融合的中文文本關(guān)鍵詞提取方法[J].情報(bào)理論與實(shí)踐, 2013, 10(36):105-108.

[8] 程傳鵬, 蘇安捷. 一種短文本特征的提取方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(6):162-164.

[9] 劉婧嬌. 基于語義的短文本分類算法研究[D]. 鄭州:鄭州輕工業(yè)大學(xué), 2013.

[10] 葛斌, 李芳芳, 郭絲路, 等. 基于知網(wǎng)的詞匯語義相似度計(jì)算方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(9):3329-3333.

[11] 林楠. 文本特征選擇算法研究[D]. 大連:遼寧師范大學(xué), 2010.

[12] 微博分類語料集, 用于微博數(shù)據(jù)分類訓(xùn)練[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.

[13] 夏陽. 基于增量聚類的微博話題檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 廣州:中山大學(xué), 2012.

[14] ICTCLAS,ICTCLAS2012-SDK-0101.rar [EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.

[15] 化柏林. 知識(shí)抽取中的停用詞處理技術(shù)[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2007, 2(8):48-51.

黃賢英(1967-),女,重慶人，教授，CCF會(huì)員(E20040739M)，研究方向?yàn)樾畔z索和移動(dòng)計(jì)算。E-mail:hxy@cqut.edu.cn

HUANG Xian-ying,born in 1967,professor,CCF member(E20040739M)，her research interests include information retrieval， and mobile computing.

陳紅陽(1989-),女,河南南陽人，碩士生，研究方向?yàn)樾畔z索。E-mail:15223091504@163.com

CHEN Hong-yang,born in 1989,MS candidate,her research interest includes information retrieval.

劉英濤(1988-),男,山東煙臺(tái)人，碩士生，研究方向?yàn)樾畔z索。E-mail:814462045@qq.com

LIU Ying-tao,born in 1988,MS candidate,his research interest includes information retrieval.

熊李媛(1990-),女,河南南陽人，碩士生，研究方向?yàn)樾畔z索。E-mail:623890251@qq.com

XIONG Li-yuan,born in 1990,MS candidate,her research interest includes information retrieval.

A novel algorithm for feature selection on micro-blog short texts

HUANG Xian-ying,CHEN Hong-yang,LIU Ying-tao,XIONG Li-yuan

(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China)

The valid features of micro-blog short texts are sparse and difficult to extract, which reduces the accuracy of text representation, classification and clustering. We propose a novel algorithm for feature selection on micro-blog short texts based on statistics and semantic information. We utilize Term Frequency-Inverse Document Frequency (TF-IDF), POS and the length of term to construct the evaluation function, and together with the semantic relevance between term and micro-blog short texts, the feature selection on micro-blog short texts is achieved, which guarantees that the selected terms can represent the meaning of micro-blog short texts more accurately. The new feature selection algorithm is integrated with Naive Bayesian categorization algorithm, and the experiments on an open micro-blog corpus show the proposed algorithm can acquire a higher precision rate of text categorization compared with the traditional strategies, indicating that the selected terms by the proposed algorithm can represent the topic of micro-blog short text more accurately.

micro-blog short text;feature selection;statistics and semantic information;POS grouping;Naive Bayesian classification algorithm

1007-130X(2015)09-1761-07

2014-10-28;

2014-12-18基金項(xiàng)目：國家自然科學(xué)基金資助項(xiàng)目(61173184);重慶市教委科技計(jì)劃項(xiàng)目(KJ100821);重慶市科委自然科學(xué)基金資助項(xiàng)目(CSTC2012jjA40030)

TP391.1

10.3969/j.issn.1007-130X.2015.09.027

通信地址：400054 重慶市巴南區(qū)紅光大道69號(hào)重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院

Address:College of Computer Science and Engineering,Chongqing University of Technology,69 Hongguang Avenue, Banan District,Chongqing 400054,P.R.China