999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的微博短文本特征詞選擇算法*

2015-01-09 03:53:54黃賢英陳紅陽劉英濤熊李媛
關(guān)鍵詞:語義分類文本

黃賢英,陳紅陽,劉英濤,熊李媛

(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)

一種新的微博短文本特征詞選擇算法*

黃賢英,陳紅陽,劉英濤,熊李媛

(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)

針對(duì)微博短文本有效特征較稀疏且難以提取,從而影響微博文本表示、分類與聚類準(zhǔn)確性的問題,提出一種基于統(tǒng)計(jì)與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法基于詞性組合匹配規(guī)則,根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子構(gòu)造綜合評(píng)估函數(shù),結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,對(duì)微博短文本進(jìn)行特征詞選擇,以使挑選出來的特征詞能準(zhǔn)確表示微博短文本內(nèi)容主題。將新的特征詞選擇算法與樸素貝葉斯分類算法相結(jié)合,對(duì)微博分類語料集進(jìn)行實(shí)驗(yàn),結(jié)果表明,相比其它的傳統(tǒng)算法,新算法使得微博短文本分類準(zhǔn)確率更高,表明該算法選取出來的特征詞能夠更準(zhǔn)確地表示微博短文本內(nèi)容主題。

微博短文本;特征詞選擇;統(tǒng)計(jì)與語義信息;詞性組合;樸素貝葉斯分類算法

1 引言

隨著微博的興起,基于微博的信息挖掘與應(yīng)用應(yīng)運(yùn)而生[1],如微博短文本挖掘、話題趨勢檢測、情感傾向性分析等成為眾多學(xué)者研究的熱點(diǎn),微博短文本特征詞選擇[2]算法是這些研究的基礎(chǔ)。它主要是將文本中冗余、不相關(guān)詞項(xiàng)剔除掉,保留對(duì)文本內(nèi)容主題表達(dá)貢獻(xiàn)度較大的詞項(xiàng)作為特征詞,在保證原文語義信息完整的情況下,準(zhǔn)確地表示微博短文本內(nèi)容主題,從而降低了特征空間維度,為微博短文本后續(xù)處理環(huán)節(jié)奠定堅(jiān)實(shí)的基礎(chǔ)。然而,微博短文本特征極度稀疏、高度冗余,且以幾何級(jí)增長,如何更有效地將表示微博短文本內(nèi)容主題的特征詞選取出來是一個(gè)亟待解決的問題。

研究人員基于傳統(tǒng)文本特征詞選擇算法[3]對(duì)微博短文本特征詞選擇算法進(jìn)行了大量研究,主要分為基于統(tǒng)計(jì)和基于語義兩大類方法?;诮y(tǒng)計(jì)的微博短文本特征詞選擇算法有TF-IDF(Term Frequency-Inverse Document Frequency)算法[4]、基于詞長進(jìn)行特征詞選擇的算法[5]及以詞性作為重要特征的特征詞選擇算法[6]等,但都只是從某一個(gè)方面來衡量詞項(xiàng)在文本中的重要性,考慮的因素不太全面。

目前,從語義角度對(duì)微博短文本進(jìn)行特征詞的選取成為一種趨勢,文獻(xiàn)[7]基于HowNet對(duì)短文本中的名詞、動(dòng)詞、形容詞與副詞進(jìn)行語義擴(kuò)展,來選擇特征詞;文獻(xiàn)[8]考慮了短文本中詞語之間的語義關(guān)聯(lián)信息,提出一種候選特征詞的特征度計(jì)算方法,選取特征度值較大的詞項(xiàng)作為微博短文本的特征詞;文獻(xiàn)[9]提出以概念作為特征詞,并基于語義知識(shí)庫《知網(wǎng)》對(duì)短文本中的詞項(xiàng)進(jìn)行詞義消歧,進(jìn)而選取特征詞。

這幾種方法均從語義角度考慮了詞項(xiàng)之間的語義關(guān)聯(lián)性,有效地選取出了文本的特征詞,對(duì)微博短文本特征詞選擇具有一定的啟發(fā)意義。

本文針對(duì)單一基于詞項(xiàng)的TF-IDF、詞性與詞長因子選取文本特征詞的片面性,并對(duì)詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,以及短語作為文本特征詞時(shí)所具有的較強(qiáng)的語義表達(dá)能力這兩點(diǎn)因素加以分析考慮,提出一種統(tǒng)計(jì)與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法分為三個(gè)步驟對(duì)微博短文本進(jìn)行特征詞的選擇:

首先,基于詞性組合匹配規(guī)則選取文本中的短語作為特征詞;

其次,根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子構(gòu)造綜合評(píng)估函數(shù),將評(píng)估值高的詞項(xiàng)添加為特征詞;

然后,基于《知網(wǎng)》的詞匯語義相似度[10]來估量擬定的特征詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,對(duì)特征詞進(jìn)行篩選;

最后,將選取出來的特征詞組成集合,用以表示微博短文本內(nèi)容主題。

2 微博短文本特征詞選擇及相關(guān)算法介紹

2.1 特征詞選擇的原則

在微博短文本中,特征詞一般也是以字、詞或者短語來表示。詞是反映語義信息的基本單位,與字相比能更好地體現(xiàn)出獨(dú)立、完整的語義信息,對(duì)文本內(nèi)容主題的表達(dá)能力較強(qiáng);短語結(jié)構(gòu)穩(wěn)定、語義完整,與詞相比在文本中出現(xiàn)的頻率較低,更能反映出文本的內(nèi)容主題,也適合作為文本的特征詞。此外,特征詞的挑選通常應(yīng)該具備以下原則[11]:(1)能夠確實(shí)標(biāo)識(shí)文本內(nèi)容,即與文本主題內(nèi)容應(yīng)密切相關(guān);(2)具備將目標(biāo)文本與其他文本區(qū)分開的能力;(3)個(gè)數(shù)適中,不宜過多;(4)特征詞分離操作易實(shí)現(xiàn)。由此可知,如何采用有效的方法從微博短文本中選取滿足上述挑選規(guī)則的詞項(xiàng)作為特征詞;如何確定合適的特征詞粒度、提高特征詞的語義表達(dá)能力對(duì)微博短文本特征詞選擇至關(guān)重要,具有一定的實(shí)踐意義與研究價(jià)值。

2.2 TF-IDF的定義

TF-IDF是計(jì)算文本中詞項(xiàng)權(quán)重的一種常用方法,假設(shè)當(dāng)前給定的文本集合所包含的文本數(shù)目是N,指定的文本為Dj,則TF代表某一詞項(xiàng)termi在文本Dj中出現(xiàn)的頻數(shù);而IDF代表文本集合中包含該詞項(xiàng)的文本數(shù),詞項(xiàng)在文本中出現(xiàn)的頻數(shù)越高,表征該文本的能力越強(qiáng),相反,其IDF值越小,則該詞項(xiàng)區(qū)別于其他文本的性能越好。總的來說,詞項(xiàng)的TF-IDF反映出其在文本中的重要性,也具備有效區(qū)別于其他文本的能力,具體表示如公式(1)所示:

(1)

其中, Weighttf-idf(termi)表示詞項(xiàng)termi的TF-IDF值, tij表示詞項(xiàng)termj在文本Dj中的詞頻,N指文本集合中文本數(shù)量,n表示文本Dj中所包含的詞項(xiàng)總數(shù),ni表示文本集合中包含詞項(xiàng)termi的文本數(shù)。

2.3 常見的特征詞選擇算法

(1)基于詞項(xiàng)的TF-IDF算法。

文獻(xiàn)[4]提出基于詞項(xiàng)的TF-IDF因子對(duì)微博短文本進(jìn)行特征詞選取,主要是根據(jù)TF-IDF算法度量文本中每個(gè)詞項(xiàng)的權(quán)重,挑選具有較高權(quán)重的詞項(xiàng)作為文本的特征詞。首先,針對(duì)微博短文本中的每一個(gè)詞項(xiàng)termi,根據(jù)公式(1)統(tǒng)計(jì)其TF-IDF值Weighttf-idf(termi);然后,按照詞項(xiàng)TF-IDF值的高低對(duì)微博短文本中的詞項(xiàng)進(jìn)行降序排列;最后,從該詞項(xiàng)集合中選取靠前的一定數(shù)量的詞項(xiàng)作為文本的特征詞。

(2)基于詞長的TF-IDF改進(jìn)算法。

一個(gè)詞語的長度與其所蘊(yùn)含的語義信息具有一定的關(guān)系。相較于短詞而言,長詞所包含的語義信息更多,且所表示的意思更清晰、明確。如果一個(gè)詞的長度愈長,那么該詞可以更好地反映文本主題,作為文本特征詞的可能性就愈大。文獻(xiàn)[5]將詞項(xiàng)的詞長因素融入TF-IDF計(jì)算每一個(gè)詞項(xiàng)的權(quán)重,然后挑選出權(quán)重較高的詞項(xiàng)作為文本的特征詞,所抽取出的特征詞較不加任何因素的TF-IDF方法更能準(zhǔn)確地表征文本內(nèi)容。文中根據(jù)詞項(xiàng)的長度對(duì)其權(quán)重加權(quán),具體如公式(2)所示:

WLength(termi)=

(2)

其中,Length代表詞項(xiàng)termi的詞長,即該詞項(xiàng)所包含字的數(shù)目,Weighttf-idf(termi)指代采用TF-IDF方法計(jì)算得出的每一個(gè)詞項(xiàng)termi的權(quán)重。

(3)基于詞性進(jìn)行特征詞選擇的算法。

文獻(xiàn)[6]的特征詞選擇算法中將詞性作為特征詞選取的一個(gè)重要特征,提出了一種根據(jù)詞性來進(jìn)行特征詞選擇的方法。其主要思想是根據(jù)名詞、動(dòng)詞、形容詞與副詞四種詞性在文本中不同的重要性,賦予每種詞性一定的權(quán)重值。對(duì)于文本中每一個(gè)詞項(xiàng)termi,判斷其所屬的詞性;然后根據(jù)不同的詞性所占據(jù)的權(quán)重值,賦予該詞項(xiàng)特定的權(quán)重值WPos(termi);然后按照該值對(duì)文本中的詞項(xiàng)進(jìn)行降序排列,再從中選取一定數(shù)量的具有較高權(quán)重值的詞項(xiàng)作為文本的特征詞。它有效區(qū)分了停用詞等,也克服了TF-IDF等算法無法解決的高頻但無實(shí)際含義詞項(xiàng)的誤判問題,提高了文本特征詞選取的準(zhǔn)確率。

3 新的微博短文本特征詞選擇算法

本文基于詞性組合匹配規(guī)則,根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造綜合評(píng)估函數(shù),結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,逐步來選取微博短文本的特征詞,從而準(zhǔn)確表示微博文本內(nèi)容主題。新的微博短文本特征詞選擇算法總體流程,如圖1所示,它主要由以下幾個(gè)步驟構(gòu)成:(1)首先采用常用的文本預(yù)處理方法對(duì)微博短文本D′進(jìn)行預(yù)處理,得到詞項(xiàng)集合D;(2)其次,基于詞性組合匹配規(guī)則,從詞項(xiàng)集合D中選取出特征詞加入特征詞集合FeatureList,余下的詞項(xiàng)則放入剩余詞項(xiàng)集合TermList;(3)然后,使用本文所提出的融合詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造的綜合評(píng)估函數(shù),從剩余詞項(xiàng)集合TermList中選取出特征詞放入過濾詞項(xiàng)集合LeftList;(4)最后,再結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,從過濾詞項(xiàng)集合LeftList中選取出特征詞加入特征詞集合FeatureList,從而得到最終的微博短文本特征詞集合。

Figure 1 Flow chart of the feature selection algorithm on micro-blog short texts

3.1 微博短文本預(yù)處理

由于微博短文本內(nèi)容長度短,數(shù)量較多,語言表達(dá)口語化,形式不規(guī)范,存在過多的繁雜、冗余信息,在進(jìn)行特征詞選擇前,通常都需要對(duì)原始文本進(jìn)行預(yù)處理。微博短文本預(yù)處理主要包括微博信息過濾、微博文本分詞、詞性標(biāo)注與停用詞去除。

通過以上幾種方法,原始微博短文本D′將被表示為D={〈term1,s1〉, 〈term2,s2〉,…, 〈termm,sm〉} ,該文本中第i個(gè)詞項(xiàng)及其對(duì)應(yīng)的詞性用〈termi,si〉(1≤i≤m)來表示,其中m代表經(jīng)過預(yù)處理后微博短文本D所包含詞項(xiàng)的個(gè)數(shù)。本文所提算法也采用上述方法對(duì)微博短文本進(jìn)行預(yù)處理。

3.2 基于詞性組合匹配規(guī)則選取微博短文本特征詞

文本中不同詞性的詞項(xiàng)組合在一起蘊(yùn)含著更加豐富、明確的語義信息,對(duì)文本內(nèi)容主題的表征力度更強(qiáng)。例如:形容詞與名詞組合(adj+n),“肥沃的土地”比獨(dú)立的“肥沃的”和“土地”兩個(gè)詞更能準(zhǔn)確地表達(dá)出文字所蘊(yùn)含的語義信息——土地是肥沃的等;動(dòng)詞和副詞組合(adv+v),“快樂地奔跑”也比單個(gè)詞“快樂地”和“奔跑”更為準(zhǔn)確地將文字所蘊(yùn)含的信息表示出來——一個(gè)人奔跑的時(shí)候,心情是愉悅的等。因此,選取由這樣的詞性組合構(gòu)成的短語作為微博短文本的特征詞,有助于提高微博短文本內(nèi)容主題表示的準(zhǔn)確性。

基于詞項(xiàng)組合匹配規(guī)則選取微博短文本特征詞的算法描述如下所示:

算法1基于詞性組合匹配規(guī)則的微博短文本特征詞選擇算法

輸入:經(jīng)預(yù)處理后的微博短文本D={〈term1,s1〉,〈term2,s2〉,…,〈termm,sm〉};

輸出:初始特征詞集合FeatureList={term1,term2,…,termn1}與剩余詞項(xiàng)集合TermList={〈termn1+1,sn1+1〉, 〈termn1+2,sn1+2〉,…, 〈termn1+k,sn1+k〉} ,n1

步驟1針對(duì)微博短文本D,依次遍歷該文本中的詞項(xiàng)termi(1≤i≤m);

步驟2根據(jù)詞項(xiàng)termi所對(duì)應(yīng)的詞性,判斷其是否屬于形容詞或副詞(adj or adv),如果屬于,轉(zhuǎn)步驟3,否則轉(zhuǎn)步驟5;

步驟3遍歷文本中下一個(gè)詞項(xiàng)termi+1,判斷其和前一個(gè)詞項(xiàng)termi組合在一起是否與詞性組合規(guī)則(adj+n)與(adv+v)相匹配,如果匹配,轉(zhuǎn)步驟4,否則,轉(zhuǎn)步驟5;

步驟4將組合在一起的詞項(xiàng)選取出來作為一個(gè)特征詞放入初始特征詞集合FeatureList中;

步驟5遍歷下一個(gè)詞項(xiàng)termi+1,重復(fù)步驟2~步驟4直到微博短文本D中的所有詞項(xiàng)處理完畢;

步驟6將微博短文本D中余下的詞項(xiàng)放入剩余詞項(xiàng)集合TermList中。

3.3 根據(jù)詞項(xiàng)的多因子構(gòu)造的新評(píng)估函數(shù)選取微博短文本特征詞

為解決由于單一使用一種基于統(tǒng)計(jì)的特征詞選擇算法的片面性,造成了文本中有效特征詞選取、文本內(nèi)容主題精確表示困難的問題,本文則綜合詞項(xiàng)的TF-IDF、詞性與詞長因子提出一種基于詞項(xiàng)多種因子的特征詞選擇算法,以挑選文本特征詞,更準(zhǔn)確地表示微博文本內(nèi)容主題。首先,分別根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長因子統(tǒng)計(jì)相應(yīng)的權(quán)重分值;然后將其綜合起來計(jì)算每個(gè)詞項(xiàng)的總權(quán)重分值,并選取總權(quán)重分值較高的詞項(xiàng)作為文本的特征詞。

基于詞項(xiàng)的TF-IDF、詞性以及詞長等因子計(jì)算表征文本D中每一個(gè)詞項(xiàng)termi重要性的總權(quán)重分值,如式(3)所示。

Score(termi)=α×Weighttf-idf(termi)+

β×WPos(termi)+γ×WLength(termi)

(3)

其中,termi表示當(dāng)前文本D中的第i個(gè)詞項(xiàng),Weighttf-idf(termi)表示詞項(xiàng)termi對(duì)應(yīng)的TF-IDF權(quán)重分值,WPos(termi)表示詞性權(quán)重分值,WLength(termi)表示詞長權(quán)重分值,而α、β、γ則表示詞項(xiàng)termi的不同因子在決定其在文本中重要性的比例系數(shù)。

融合詞項(xiàng)多因子的微博短文本特征詞選擇算法具體描述如下:

算法2融合詞項(xiàng)多因子的微博短文本特征詞選擇算法

輸入:剩余詞項(xiàng)集合TermList={〈termn1+1,sn1+1〉,〈termn1+2,sn1+2〉,…,〈termn1+k,sn1+k〉},n1

輸出:過濾詞項(xiàng)集合LeftList={term1,…,termi,…,termk1}, k1表示過濾詞項(xiàng)集合LeftList中詞項(xiàng)的數(shù)目,且k1

步驟1針對(duì)剩余詞項(xiàng)集合TermList,首先遍歷該集合中的第一個(gè)詞項(xiàng)term1;

步驟2根據(jù)詞項(xiàng)的TF-IDF、詞性以及詞長因子分別統(tǒng)計(jì)詞項(xiàng)term1的TF-IDF權(quán)重分值、詞性權(quán)重分值與詞長權(quán)重分值;

步驟3根據(jù)式(3)將詞項(xiàng)term1的各個(gè)因子所對(duì)應(yīng)的權(quán)重分值進(jìn)行融合,計(jì)算其總權(quán)重分值Score(term1);

步驟4重復(fù)步驟2 ~步驟3直到剩余詞項(xiàng)集合TermList中的所有詞項(xiàng)termi處理完畢;

步驟5按照每個(gè)詞項(xiàng)termi的總權(quán)重分值,對(duì)詞項(xiàng)集合TermList中的詞項(xiàng)進(jìn)行降序排列,并選取前k1(詞項(xiàng)集合TermList中多數(shù)詞項(xiàng)為特征詞)個(gè)詞項(xiàng)加入過濾詞項(xiàng)集合LeftList中。

3.4 結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度篩選微博短文本特征詞

本文分析了詞項(xiàng)之間的語義關(guān)聯(lián)性,基于《知網(wǎng)》的詞匯語義相似度量化某一個(gè)詞項(xiàng)與微博短文本中每一個(gè)詞項(xiàng)之間的語義相似度,求和,取平均值,然后將平均值作為該詞項(xiàng)與文本內(nèi)容的語義相關(guān)度。運(yùn)用此方法對(duì)過濾詞項(xiàng)集合LeftList再次進(jìn)行特征詞選擇,從而將詞項(xiàng)集合TermList中誤選的特征詞去除,詞項(xiàng)termi與文本D內(nèi)容的語義相關(guān)度計(jì)算如式(4)所示:

(4)

其中,sem(termi,terml)表示基于《知網(wǎng)》的詞匯語義相似度度量詞項(xiàng)termi與terml之間的語義相似性。

結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法描述如下所示:

算法3結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法

輸入:初始特征詞集合FeatureList={term1,term2,…,termn1}與過濾詞項(xiàng)集合LeftList={term1,…,termi,…,termk1};

輸出:微博短文本D的最終特征詞集合FeatureList={term1,term2,…,termn1,termn1+1,…,termn},n

步驟1針對(duì)過濾詞項(xiàng)集合LeftList,首先遍歷該集合中的第一個(gè)詞項(xiàng)term1;

步驟2根據(jù)式(4)計(jì)算詞項(xiàng)term1與文本D之間的語義相關(guān)度Semantic(term1,D);

步驟3重復(fù)步驟2直至集合LeftList中所有的詞項(xiàng)處理完畢。然后根據(jù)語義相關(guān)度值對(duì)該集合中的詞項(xiàng)進(jìn)行降序排列,抽取前n-n1(詞項(xiàng)集合LeftList中詞項(xiàng)數(shù)目的90%)個(gè)詞項(xiàng)加入初始特征詞集合FeatureList中,從而形成微博短文本D的最終特征詞集合FeatureList。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)來源

實(shí)驗(yàn)數(shù)據(jù)來源于科研共享平臺(tái)——數(shù)據(jù)堂所提供的微博分類語料集[12],共計(jì)21個(gè)類別,涉及IT、財(cái)經(jīng)、傳媒等多個(gè)領(lǐng)域,其中每個(gè)類別包含1 000~12 000的人工分類數(shù)據(jù)。從語料集中選取70%的數(shù)據(jù)作為微博短文本分類的訓(xùn)練集,剩余的30%作為測試集。

4.2 評(píng)價(jià)指標(biāo)

采用兩個(gè)衡量文本分類效果的度量指標(biāo)——準(zhǔn)確率與召回率作為文本特征詞選擇算法的評(píng)判指標(biāo),如表1與式(5)所示。

Table 1 Binary classification contingency table表1 二值分類列聯(lián)表

(5)

其中,P指代準(zhǔn)確率,表示正確分類的文本數(shù)與被分類器判別為屬于該類的文本數(shù)的比值;R則代表召回率,表示正確分類的文本數(shù)在測試數(shù)據(jù)集中屬于該類的文本數(shù)中所占的比重。按照公式(5)統(tǒng)計(jì)所有微博數(shù)據(jù)類別對(duì)應(yīng)的準(zhǔn)確率與召回率。

4.3 實(shí)驗(yàn)步驟

4.3.1 微博短文本預(yù)處理

本實(shí)驗(yàn)采用的文本預(yù)處理方法分為四步。第一步是對(duì)微博短文本信息進(jìn)行過濾。采用文獻(xiàn)[13]的方法:建立繁簡字庫,統(tǒng)一微博語言表達(dá);根據(jù)微博短文本中特殊的數(shù)據(jù)格式,去除其所包含的無用信息;刪除微博短文本中一些無意義的固定詞組,從而去掉文本中的噪聲,保留重要的數(shù)據(jù)信息,達(dá)到凈化微博數(shù)據(jù)的目的。第二步,微博文本分詞。采用文獻(xiàn)[14]提出的中科院研發(fā)的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞工具對(duì)微博短文本進(jìn)行分詞,將微博短文本表示成由一系列詞項(xiàng)構(gòu)成的詞項(xiàng)集合。第三步,詞性標(biāo)注。利用ICTCLAS分詞工具所附帶的詞性標(biāo)注功能對(duì)每一個(gè)詞項(xiàng)進(jìn)行詞性標(biāo)注。第四步,停用詞去除。文獻(xiàn)[15]提出構(gòu)建停用詞表對(duì)微博短文本進(jìn)行停用詞去除,將一些無意義的虛詞等去除掉。

4.3.2 微博短文本特征詞選擇與分類

由于人工標(biāo)注微博短文本特征詞具有一定的主觀性,且海量數(shù)據(jù)的標(biāo)注極為耗時(shí),將使用此種方法所得的微博短文本特征詞數(shù)據(jù)作為評(píng)判特征詞選擇算法優(yōu)劣的參考數(shù)據(jù)不太可行。因此,本文將新的特征詞選擇算法與樸素貝葉斯NB(Naive Bayeian)分類算法[16]相結(jié)合應(yīng)用于微博分類語料集,對(duì)微博短文本進(jìn)行分類,觀測分類效果,以評(píng)判新算法的優(yōu)劣。

4.4 實(shí)驗(yàn)結(jié)果及分析

公式(3)中的三個(gè)比例系數(shù)彼此之間的關(guān)系為α+β+γ=1,β>γ>α(考慮到詞項(xiàng)的總權(quán)重分值受詞性因子影響最大,詞長次之,TF-IDF最小),且每個(gè)系數(shù)在(0,1)之間取值。為確定一個(gè)最佳組合系數(shù),本文針對(duì)六種可能的取值情況(精度為0.1)對(duì)微博短文本分類語料集多次實(shí)驗(yàn),測試微博短文本分類的平均準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,當(dāng)(α,β,γ)=(0.2,0.5,0.3)時(shí),平均準(zhǔn)確率取得最大值,即85.35%,因此,α、β、γ分別取0.2、0.5、0.3。

將本文的新算法與單獨(dú)基于詞項(xiàng)的TF-IDF[4]、詞長[5]、詞性[6]等因子的特征詞選擇算法進(jìn)行比較,觀測各個(gè)特征詞選擇算法與分類算法相結(jié)合時(shí)對(duì)微博短文本分類的效果。由于新算法綜合考慮了詞項(xiàng)的TF-IDF、詞性與詞長等因子共同度量詞項(xiàng)對(duì)微博短文本內(nèi)容主題表達(dá)所起的作用,避免了僅基于詞項(xiàng)某一方面因素的片面性;以詞性組合匹配規(guī)則選取文本的特征詞,提高了微博短文本特征詞的語義表達(dá)能力;從語義角度來衡量詞項(xiàng)與微博短文本內(nèi)容的語義相關(guān)度,充分考慮了詞項(xiàng)與文本內(nèi)容在語義上的密切相關(guān)度。因此,新算法可更好地提高微博短文本分類的準(zhǔn)確率,改善分類的效果。

這一點(diǎn)可以從如圖2和圖3所示的數(shù)據(jù)中得到驗(yàn)證:結(jié)合分類算法對(duì)微博短文本進(jìn)行分類時(shí),新算法與基于詞項(xiàng)的TF-IDF、詞性與詞長等因子的特征詞選擇算法相比,在各個(gè)微博數(shù)據(jù)類別對(duì)應(yīng)的準(zhǔn)確率與召回率上均得到了提高,且平均值分別保持在85.35%與84.49%左右。新算法有效地提高了微博短文本分類的準(zhǔn)確率,證明了該算法選取出的特征詞可更準(zhǔn)確地表示微博文本內(nèi)容主題。

Figure 2 Comparison chart of the four text feature selection algorithms in accuracy rate

Figure 3 Comparison chart of the four text feature selection algorithms in recall rate

5 結(jié)束語

本文首先基于詞性組合匹配規(guī)則選取微博短文本的特征詞,以提高微博短文本特征詞的語義表達(dá)能力;其次根據(jù)詞項(xiàng)的TF-IDF、詞性與詞長等因子構(gòu)造綜合評(píng)估函數(shù)估量詞項(xiàng)對(duì)微博短文本內(nèi)容主題表示的貢獻(xiàn)度,進(jìn)而對(duì)微博短文本進(jìn)行特征詞選擇;然后,從語義的角度理解微博短文本特征,結(jié)合詞項(xiàng)與文本內(nèi)容的語義相關(guān)度,最終完成對(duì)微博短文本特征詞的選取功能;最后與樸素貝葉斯分類算法結(jié)合使用,對(duì)微博短文本進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,與基于詞項(xiàng)的TF-IDF、詞性與詞長等因子選取特征詞的算法相比,該算法有效地提高了微博短文本分類的準(zhǔn)確率,從而驗(yàn)證了該算法的優(yōu)越性。

[1] Jiang Sheng-yi, Mai Zhi-kai, Pang Guan-song, et al. A survey of Micro-blog data mining[J]. Library and Information Service, 2012, 56(17):136-142.(in Chinese)

[2] Wang Lian-xi.A literature review on pre-processing and learning of microtext[J]. Library and Information Service, 2013, 57(11):125-131.(in Chinese)

[3] A survey on text feature extraction method[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101- aq2y.html.(in Chinese)

[4] Liu Yan-wei.Research and implementation of Microblog topic tracking system[D]. Beijing:Beijing Jiaotong University, 2013.(in Chinese)

[5] Ding Jin. Research and implementation of micro-blog hot topic detection[D]. Wuhan:Huazhong University of Science and Technology, 2012.(in Chinese)

[6] Zhang Jian-e. Chinese text keyword extraction based on multiple feature fusion[J]. Information Studies:Theory and Application, 2013, 10(36):105-108.(in Chinese)

[7] Liu Zi-tao, Yu Wen-chao, Chen Wei, et al. Short text feature selection for micro-blog mining[C]∥Proc of 2010 International Conference on IEEE Computational Intelligence and Software Engineering(CiSE), 2010:1-4.

[8] Cheng Chuan-peng, Su An-jie. A short text feature word extraction method[J]. Computer Applications and Software, 2014, 31(6):162-164.(in Chinese)

[9] Liu Jing-jiao. The study of short text classification algorithm based on semantic[D]. Zhengzhou:Zhengzhou University of Light Industry, 2013.(in Chinese)

[10] Ge Bin, Li Fang-fang, Guo Si-lu,et al. Word’s semantic similarity computation method based on HowNet[J]. Application Research of Computers, 2010, 27(9):3329-3333.(in Chinese)

[11] Lin Nan. Research on algorithms for text feature selection[D]. Dalian:Liaoning Normal University, 2010.(in Chinese)

[12] The corpus used in classification for Micro-blog texts[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.(in Chinese)

[13] Xia Yang.Design and implementation of the micro-blog topic detection system based on incremental clustering[D]. Guangzhou:Sun Yat-sen University, 2012.(in Chinese)

[14] ICTCLAS,ICTCLAS2012-SDK-0101.rar[EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.(in Chinese)

[15] Hua Bo-lin. Stop-word processing technique in knowledge extraction[J]. New Technology of Library and Information, 2007, 2(8):48-51.(in Chinese)

[16] Zuo Min, Zeng Guan-ping, Tu Xu-yan. Study on an improved Naive Bayesian classifier used in the Chinese text categorization[C]∥Proc of the 2nd International Conference on Modeling, Simulation, and Visualization Methods, 2010:135-138.

附中文參考文獻(xiàn):

[1] 蔣盛益, 麥志凱, 龐觀松, 等. 微博信息挖掘技術(shù)研究綜述[J]. 圖書情報(bào)工作, 2012, 56(17):136-142.

[2] 王連喜. 微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J]. 圖書情報(bào)工作, 2013, 57(11):125-131.

[3] 文本特征提取方法研究[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101aq2y.html.

[4] 劉彥偉. 微博話題追蹤系統(tǒng)的研究與實(shí)現(xiàn)[D]. 北京:北京交通大學(xué), 2013.

[5] 丁藎. 微博熱點(diǎn)發(fā)現(xiàn)技術(shù)的研究與實(shí)現(xiàn)[D]. 武漢:華中科技大學(xué), 2012.

[6] 張建娥. 基于多特征融合的中文文本關(guān)鍵詞提取方法[J].情報(bào)理論與實(shí)踐, 2013, 10(36):105-108.

[8] 程傳鵬, 蘇安捷. 一種短文本特征的提取方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(6):162-164.

[9] 劉婧嬌. 基于語義的短文本分類算法研究[D]. 鄭州:鄭州輕工業(yè)大學(xué), 2013.

[10] 葛斌, 李芳芳, 郭絲路, 等. 基于知網(wǎng)的詞匯語義相似度計(jì)算方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(9):3329-3333.

[11] 林楠. 文本特征選擇算法研究[D]. 大連:遼寧師范大學(xué), 2010.

[12] 微博分類語料集, 用于微博數(shù)據(jù)分類訓(xùn)練[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.

[13] 夏陽. 基于增量聚類的微博話題檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 廣州:中山大學(xué), 2012.

[14] ICTCLAS,ICTCLAS2012-SDK-0101.rar [EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.

[15] 化柏林. 知識(shí)抽取中的停用詞處理技術(shù)[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2007, 2(8):48-51.

黃賢英(1967-),女,重慶人,教授,CCF會(huì)員(E20040739M),研究方向?yàn)樾畔z索和移動(dòng)計(jì)算。E-mail:hxy@cqut.edu.cn

HUANG Xian-ying,born in 1967,professor,CCF member(E20040739M),her research interests include information retrieval, and mobile computing.

陳紅陽(1989-),女,河南南陽人,碩士生,研究方向?yàn)樾畔z索。E-mail:15223091504@163.com

CHEN Hong-yang,born in 1989,MS candidate,her research interest includes information retrieval.

劉英濤(1988-),男,山東煙臺(tái)人,碩士生,研究方向?yàn)樾畔z索。E-mail:814462045@qq.com

LIU Ying-tao,born in 1988,MS candidate,his research interest includes information retrieval.

熊李媛(1990-),女,河南南陽人,碩士生,研究方向?yàn)樾畔z索。E-mail:623890251@qq.com

XIONG Li-yuan,born in 1990,MS candidate,her research interest includes information retrieval.

A novel algorithm for feature selection on micro-blog short texts

HUANG Xian-ying,CHEN Hong-yang,LIU Ying-tao,XIONG Li-yuan

(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China)

The valid features of micro-blog short texts are sparse and difficult to extract, which reduces the accuracy of text representation, classification and clustering. We propose a novel algorithm for feature selection on micro-blog short texts based on statistics and semantic information. We utilize Term Frequency-Inverse Document Frequency (TF-IDF), POS and the length of term to construct the evaluation function, and together with the semantic relevance between term and micro-blog short texts, the feature selection on micro-blog short texts is achieved, which guarantees that the selected terms can represent the meaning of micro-blog short texts more accurately. The new feature selection algorithm is integrated with Naive Bayesian categorization algorithm, and the experiments on an open micro-blog corpus show the proposed algorithm can acquire a higher precision rate of text categorization compared with the traditional strategies, indicating that the selected terms by the proposed algorithm can represent the topic of micro-blog short text more accurately.

micro-blog short text;feature selection;statistics and semantic information;POS grouping;Naive Bayesian classification algorithm

1007-130X(2015)09-1761-07

2014-10-28;

2014-12-18基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61173184);重慶市教委科技計(jì)劃項(xiàng)目(KJ100821);重慶市科委自然科學(xué)基金資助項(xiàng)目(CSTC2012jjA40030)

TP391.1

A

10.3969/j.issn.1007-130X.2015.09.027

通信地址:400054 重慶市巴南區(qū)紅光大道69號(hào)重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院

Address:College of Computer Science and Engineering,Chongqing University of Technology,69 Hongguang Avenue, Banan District,Chongqing 400054,P.R.China

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲色图欧美在线| 久草性视频| 国产欧美日韩va| 久久综合国产乱子免费| 2020精品极品国产色在线观看| 毛片在线看网站| 国产成人乱无码视频| 国产一二视频| 欧美国产日韩一区二区三区精品影视| 在线一级毛片| 婷婷色中文| 青青草久久伊人| 精品国产自| 午夜影院a级片| 精品成人一区二区三区电影| 国产精品私拍在线爆乳| 久久a毛片| 亚洲高清无码久久久| 欧美激情视频在线观看一区| 国产欧美精品一区二区| 国产午夜无码专区喷水| 夜色爽爽影院18禁妓女影院| 国产在线视频导航| 国产一级裸网站| 园内精品自拍视频在线播放| 亚洲天堂自拍| 午夜不卡视频| 国产精品女主播| 55夜色66夜色国产精品视频| 国产中文一区a级毛片视频| 最新亚洲av女人的天堂| 天天激情综合| 国产欧美成人不卡视频| 永久免费无码日韩视频| 欧美在线视频a| 四虎精品黑人视频| 黄色国产在线| 国内a级毛片| 亚洲国产成熟视频在线多多| 2020亚洲精品无码| 欧美日韩在线观看一区二区三区| 无码中文字幕加勒比高清| 久久亚洲AⅤ无码精品午夜麻豆| 曰AV在线无码| 国产成人精品高清不卡在线| 亚洲中文字幕无码爆乳| 国产福利一区二区在线观看| 国产精品19p| 91尤物国产尤物福利在线| 欧美天堂在线| 日韩高清中文字幕| 国产欧美日韩综合一区在线播放| 国产成人91精品| 国产成人av一区二区三区| 在线高清亚洲精品二区| 黄色免费在线网址| 精品国产自在现线看久久| 国产内射一区亚洲| 国产亚洲欧美日韩在线观看一区二区| 精品久久久久成人码免费动漫| 丝袜久久剧情精品国产| 国产一级在线播放| 亚洲 欧美 日韩综合一区| 综合天天色| 美女内射视频WWW网站午夜| 久久亚洲黄色视频| 黄片一区二区三区| 精品欧美视频| 国产精品亚洲αv天堂无码| 成人毛片在线播放| 日本精品αv中文字幕| 成人毛片免费在线观看| 国产无遮挡猛进猛出免费软件| 日韩二区三区| 亚洲综合一区国产精品| 国产精品人人做人人爽人人添| 国产免费a级片| 99热最新网址| 超碰精品无码一区二区| 亚洲无码久久久久| 久久青草免费91线频观看不卡| 久久99国产精品成人欧美|