999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素Bayes分類(lèi)器文本特征向量的參數(shù)優(yōu)化

2019-11-28 11:41:20方秋蓮王培錦鄭涵穎呂春玥王艷彤
關(guān)鍵詞:分類(lèi)特征文本

方秋蓮,王培錦,隋 陽(yáng),鄭涵穎,呂春玥,王艷彤

(中南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)沙 410083)

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,產(chǎn)生了大量的文本數(shù)據(jù),處理文本數(shù)據(jù)的基礎(chǔ)是文本分類(lèi).在文本數(shù)據(jù)中多數(shù)為新聞數(shù)據(jù),目前新聞文本數(shù)據(jù)的分類(lèi)仍采用由編輯者進(jìn)行人工分類(lèi)的方法,這種方法不僅耗費(fèi)了大量人力、物力,而且可能存在分類(lèi)結(jié)果不一致的情況[1],因此急需建立一個(gè)自動(dòng)文本分類(lèi)器解決上述問(wèn)題.

一個(gè)文本分類(lèi)器的實(shí)現(xiàn)主要包括下列3個(gè)步驟:1) 特征提取;2) 建立分類(lèi)器;3) 結(jié)果輸出.在特征提取方面,常用的方法有文檔頻率(document frequency,DF)法、信息增益(information gain,IG)法、互信息(mutual information,MI)法以及TFIDF(term frequency-inverse document frequency)算法等[2].DF法、IG法和MI法都假設(shè)信息量較少的詞對(duì)文本的分類(lèi)過(guò)程沒(méi)有影響,但這種假設(shè)在分類(lèi)問(wèn)題中通常并不成立,所以在實(shí)際應(yīng)用中其很少被單獨(dú)使用.而TFIDF算法的優(yōu)勢(shì)是其能同時(shí)考慮到低頻詞和高頻詞對(duì)分類(lèi)過(guò)程的影響,因此其特征向量提取的效果相對(duì)較好.在建立分類(lèi)器方面,目前較流行的分類(lèi)算法有最小距離分類(lèi)器、K-最近鄰分類(lèi)器和樸素Bayes分類(lèi)器等.最小距離分類(lèi)器適用于類(lèi)間間距大、類(lèi)內(nèi)間距小的樣本[3];K-最近鄰分類(lèi)器中K的選擇存在較大的主觀(guān)性;而樸素Bayes分類(lèi)器適用于一般分類(lèi)樣本且不受主觀(guān)因素影響,所以被廣泛應(yīng)用.在結(jié)果輸出方面,通常用準(zhǔn)確率或查全率評(píng)價(jià)分類(lèi)器的優(yōu)劣,而為了更全面地研究分類(lèi)器的輸出結(jié)果,龐劍鋒等[4]將兩者結(jié)合提出了檢測(cè)結(jié)果更精準(zhǔn)的F1測(cè)試值指標(biāo).

本文考慮樸素Bayes文本分類(lèi)器對(duì)中文新聞文本的分類(lèi)問(wèn)題,使用N-gram算法和TFIDF算法提取文本的特征向量,通過(guò)Python軟件實(shí)現(xiàn)對(duì)中文新聞文本的自動(dòng)分類(lèi).在參數(shù)選擇方面,本文討論了N-gram算法的參數(shù)N、特征向量長(zhǎng)度及特征項(xiàng)詞性等對(duì)文本分類(lèi)效果的影響,并得到了參數(shù)的最佳取值.

1 特征向量提取

在處理中文文本時(shí),為了增加文本對(duì)計(jì)算機(jī)的可讀性,通常選擇對(duì)文本進(jìn)行向量化處理,如將文本d用向量V表示,記為V=(v1,v2,…,vn),其中vi是第i個(gè)特征項(xiàng).在提取特征項(xiàng)時(shí),需選擇一個(gè)合適的特征項(xiàng),使其既能體現(xiàn)所屬類(lèi)別的特點(diǎn),又能區(qū)別于其他類(lèi)別.由于中文文本沒(méi)有像英文文本一樣的自然分詞,所以在提取特征向量前需先對(duì)文本進(jìn)行分詞處理,再用N-gram算法提取文本特征向量.在選擇特征項(xiàng)時(shí),還可以考察低頻詞和高頻詞對(duì)文本分類(lèi)結(jié)果產(chǎn)生的不同影響,即使用TFIDF算法提取特征向量.

1.1 N-gram算法

當(dāng)分析文中一個(gè)詞出現(xiàn)的概率時(shí),通常假設(shè)該詞出現(xiàn)的概率僅與其前若干個(gè)詞相關(guān),所以可以用條件概率表示該詞的出現(xiàn)概率,于是一個(gè)文本出現(xiàn)的概率可用每個(gè)詞出現(xiàn)概率的乘積表示:

P(S)=P(w1,w2,…,wn)=P(w1)P(w2|w1)…P(wn|wn-1,…,w1),

其中:S表示一個(gè)文本;wi(i=1,2,…,n)表示文本中的第i個(gè)詞.

基于Markov假設(shè)[5]的N-gram算法認(rèn)為在文本中第n個(gè)詞出現(xiàn)的概率僅與其前(N-1)個(gè)詞相關(guān),其中N

(1)

同理可得3-gram和4-gram模型.3-gram模型表示為

P(S)≈P(w1)P(w2)P(w3|w1,w2)…P(wn|wn-1,wn-2);

4-gram模型表示為

P(S)≈P(w1)P(w2)P(w3)P(w4|w1,w2,w3)…P(wn|wn-1,wn-2,wn-3).

在使用N-gram算法對(duì)文本進(jìn)行特征提取時(shí),需主觀(guān)賦值N.

1.2 TFIDF基本原理

TFIDF算法的基本思想是對(duì)于一個(gè)在數(shù)據(jù)集中較少見(jiàn)的詞,若其在某文本中頻繁出現(xiàn),則其很可能反映該文本的重要特征[6].

1.2.1 特征項(xiàng)頻率 特征項(xiàng)頻率(term frequency,TF)用于表示某詞i在文本j中的頻率,記為

(2)

1.2.2 反文本頻率 反文本頻率(inverse document frequency,IDF)表示如果一個(gè)詞普遍存在于各類(lèi)文本中,則該詞對(duì)于分類(lèi)過(guò)程不重要[7],詞i的反文本頻率可記為

(3)

其中:N表示測(cè)試集中總文本數(shù);ni表示包含詞i在測(cè)試集中的文本個(gè)數(shù).為使式(3)有意義,引入一個(gè)極小的常數(shù)c[8].于是,TFIDF算法的經(jīng)典計(jì)算公式為

TFIDFij=TFij×IDFi,

(4)

其中,TFIDFij值越大表示詞i對(duì)文本j越重要.

2 Bayes算法

樸素Bayes分類(lèi)器在文本分類(lèi)領(lǐng)域應(yīng)用廣泛,其主要利用文本類(lèi)別的先驗(yàn)概率和特征向量對(duì)類(lèi)別的條件概率計(jì)算未知文本屬于某一類(lèi)別的概率.Bayes分類(lèi)器基于文本特征項(xiàng)間相互獨(dú)立的假設(shè)[9].

2.1 Bayes基本理論

給定一個(gè)文本d,特征向量為V=(v1,v2,…,vn),于是d被分類(lèi)到類(lèi)別ck的概率為

(5)

其中:P(ck)表示類(lèi)別ck的概率,為避免P(ck)=0,采用Laplace估計(jì)定義概率[8]為

(6)

|C|表示訓(xùn)練集中類(lèi)的數(shù)目,Nck表示類(lèi)別ck中的文本數(shù)目,Nc表示訓(xùn)練集中總文本數(shù)目;P(d)表示未知文本d屬于某一類(lèi)別的概率是一個(gè)不變的常數(shù),

(7)

P(vi|ck)表示類(lèi)別ck中文本含有vi的概率,

(8)

2.2 樸素Bayes算法

樸素Bayes算法是基于Bayes基本原理對(duì)已有文本的訓(xùn)練算法,其基本思想是計(jì)算未知文本d屬于各類(lèi)的概率,然后將其歸類(lèi)于c1,c2,…,cn這n個(gè)類(lèi)別中的一個(gè),步驟如下:

1) 利用特征向量提取算法處理待分類(lèi)文本d,得到特征向量V=(v1,v2,…,vn),由式(8)計(jì)算類(lèi)別ck中的文本含有vi的概率P(vi|ck),其中:i=1,2,…,|V|;k=1,2,…,Nck;

2) 根據(jù)式(7)和式(8),計(jì)算先驗(yàn)概率P(ck)和P(d);

3) 根據(jù)式(5)計(jì)算分類(lèi)的后驗(yàn)概率,即未知文本屬于各類(lèi)的概率P(ck|d),并比較其大小,選擇將其劃分到概率最大的一個(gè)類(lèi)別,公式為

(9)

2.3 樸素Bayes分類(lèi)器設(shè)計(jì)

圖1 文本分類(lèi)器流程Fig.1 Flow chart of text classifier

在建立文本分類(lèi)器時(shí),通常把工作分為兩部分:第一部分是訓(xùn)練過(guò)程,包括訓(xùn)練文本的預(yù)處理和特征抽取;第二部分是新文本的分類(lèi)過(guò)程,包括新文本預(yù)處理和結(jié)果輸出.文本分類(lèi)器流程如圖1所示.

在訓(xùn)練文本預(yù)處理階段,先用Python的 jieba分詞組件對(duì)訓(xùn)練集文本進(jìn)行分詞處理,同時(shí)去除停用詞和可能存在的空格或標(biāo)點(diǎn)符號(hào);然后將文本打亂,隨機(jī)分成訓(xùn)練集和測(cè)試集.在訓(xùn)練集特征抽取時(shí),本文選擇N-gram算法,提取出現(xiàn)詞頻前(N-1)個(gè)詞作為特征項(xiàng)組成各類(lèi)文本的特征向量.

在分類(lèi)過(guò)程中,首先對(duì)新文本進(jìn)行預(yù)處理,使用TFIDF算法將文本轉(zhuǎn)化成向量的形式,然后利用樸素Bayes文本分類(lèi)器對(duì)新文本進(jìn)行分類(lèi).

3 實(shí) 驗(yàn)

在樸素Bayes文本分類(lèi)器中,除數(shù)據(jù)集的容量會(huì)影響分類(lèi)的準(zhǔn)確性外,還有一些相關(guān)參數(shù)的設(shè)定也會(huì)對(duì)分類(lèi)效果產(chǎn)生較大影響.本文通過(guò)實(shí)驗(yàn)分析以下3個(gè)參數(shù)的取值問(wèn)題:

1)N-gram算法中參數(shù)N;

2) 各類(lèi)別特征向量長(zhǎng)度n;

3) 特征項(xiàng)的詞性.

3.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

本文選取近年各大新聞網(wǎng)站的新聞文本,該數(shù)據(jù)集包括汽車(chē)、娛樂(lè)、軍事、體育、科技等5個(gè)新聞?lì)悇e,每個(gè)類(lèi)別選取20 000個(gè)新聞文本,隨機(jī)選取66 446個(gè)樣本作為訓(xùn)練集,用于分析gram的長(zhǎng)度及特征向量長(zhǎng)度對(duì)分類(lèi)結(jié)果的影響.本文重新搜集了80個(gè)測(cè)試樣本(新測(cè)試樣本與上述數(shù)據(jù)集交集為空),用于分析文本特征項(xiàng)詞性對(duì)分類(lèi)結(jié)果的影響.

在分析樸素Bayes文本分類(lèi)器的結(jié)果輸出階段,為同時(shí)考慮準(zhǔn)確率和查全率,本文采用F1指標(biāo)度量分類(lèi)結(jié)果[3]:

(10)

3.2 實(shí)驗(yàn)結(jié)果與分析

3.2.1 gram長(zhǎng)度及特征向量長(zhǎng)度 將數(shù)據(jù)集分成由66 446個(gè)文本組成的訓(xùn)練集和33 554個(gè)文本組成的測(cè)試集.通過(guò)設(shè)置不同的gram長(zhǎng)度和特征向量長(zhǎng)度,研究相關(guān)參數(shù)的最優(yōu)設(shè)置,所得結(jié)果列于表1.

表1 不同gram長(zhǎng)度及特征向量長(zhǎng)度下的分類(lèi)準(zhǔn)確性

圖2 不同gram長(zhǎng)度和特征向量長(zhǎng)度下的分類(lèi)準(zhǔn)確率Fig.2 Classification accuracy under different gram lengths and feature vector lengths

由表1可見(jiàn),對(duì)于任意的N-gram模型,如果特征向量的長(zhǎng)度小于10 000,則分類(lèi)器的準(zhǔn)確率都小于0.85.為保證分類(lèi)器的準(zhǔn)確率,本文僅研究特征向量長(zhǎng)度大于10 000的情形.當(dāng)gram長(zhǎng)度固定時(shí),特征向量越長(zhǎng)分類(lèi)準(zhǔn)確率越高,但在實(shí)際應(yīng)用中還需考慮時(shí)間成本,因此特征向量不宜過(guò)長(zhǎng).

圖2為不同gram長(zhǎng)度和特征向量長(zhǎng)度下的分類(lèi)準(zhǔn)確率.由圖2可見(jiàn),當(dāng)特征向量的長(zhǎng)度從10 000增加到15 000或從20 000增加到25 000時(shí),分類(lèi)準(zhǔn)確率的增加最明顯,分別提高了0.009 3和0.007 9.

3.2.2 特征向量詞性 在使用TFIDF算法時(shí),適當(dāng)?shù)剡x擇特征項(xiàng)詞性可在很大程度上降低文本分類(lèi)的時(shí)間成本,并提高分類(lèi)準(zhǔn)確率.本文考察了特征項(xiàng)既有名詞和又有動(dòng)詞、僅為名詞、僅為動(dòng)詞這3種情況對(duì)分類(lèi)的影響,結(jié)果列于表2.由表2可見(jiàn):當(dāng)未知文本特征項(xiàng)詞性為動(dòng)詞和名詞時(shí),樸素Bayes文本分類(lèi)器的文本正確分類(lèi)數(shù)量最多,為53個(gè);僅為名詞時(shí)次之,為49個(gè);僅為動(dòng)詞時(shí)最差,為34個(gè).這主要是因?yàn)樾侣勵(lì)愇谋镜奶卣黜?xiàng)大多數(shù)為名詞,去掉動(dòng)詞特征項(xiàng)對(duì)特征向量影響較小,所以當(dāng)特征項(xiàng)僅為名詞時(shí),正確分類(lèi)數(shù)量下降不明顯;但若去掉名詞特征項(xiàng)將對(duì)特征向量產(chǎn)生巨大影響,進(jìn)而使分類(lèi)錯(cuò)誤概率極大增加.

表2 樸素Bayes文本分類(lèi)器的分類(lèi)結(jié)果

表3列出了樸素Bayes文本分類(lèi)器的分類(lèi)準(zhǔn)確率、查全率及F1指標(biāo)值.由表3可見(jiàn),當(dāng)未知文本特征項(xiàng)詞性為動(dòng)詞和名詞時(shí),F1指標(biāo)值最大為0.662 5,說(shuō)明分類(lèi)效果最好;僅為名詞時(shí),分類(lèi)效果與為動(dòng)詞和名詞的情況相差較小,達(dá)0.612 5;僅為動(dòng)詞時(shí)分類(lèi)效果最差,僅為0.425.所以,在對(duì)F1指標(biāo)的大小要求不嚴(yán)格但對(duì)訓(xùn)練時(shí)間限制嚴(yán)格的情況下,可以?xún)H選擇名詞作為特征項(xiàng).

表3 樸素Bayes分類(lèi)器分類(lèi)結(jié)果的相關(guān)指標(biāo)

綜上所述,本文建立了用于處理中文新聞文本分類(lèi)問(wèn)題的樸素Bayes文本分類(lèi)器,在訓(xùn)練階段采用N-gram算法提取各類(lèi)文本的特征向量,在實(shí)驗(yàn)階段使用TFIDF算法提取未知文本的特征向量.由于N-gram算法處理訓(xùn)練集的速度比TFIDF算法快,所以本文針對(duì)不同數(shù)量級(jí)的數(shù)據(jù)集采取不同的特征提取算法,即對(duì)訓(xùn)練集使用N-gram算法,對(duì)未知文本使用TFIDF算法.在此基礎(chǔ)上,本文還考察了構(gòu)建文本分類(lèi)器中抽取特征向量階段的參數(shù)選擇問(wèn)題,即N-gram模型中的N、特征向量長(zhǎng)度n和特征向量詞性等3個(gè)參數(shù),得出結(jié)論如下:

1) 對(duì)于新聞?lì)愇谋?2-gram模型和4-gram模型的分類(lèi)準(zhǔn)確性較高;

2) 在N確定的條件下,特征向量長(zhǎng)度與分類(lèi)準(zhǔn)確率成正比;特別地,當(dāng)向量的長(zhǎng)度從10 000增加到15 000和從20 000增加到25 000時(shí),分類(lèi)器準(zhǔn)確率增幅最大;

3) 對(duì)于TFIDF算法,特征項(xiàng)詞性為動(dòng)詞和名詞時(shí)分類(lèi)準(zhǔn)確率最高,特征項(xiàng)僅為名詞時(shí)準(zhǔn)確率降低,僅為動(dòng)詞時(shí)準(zhǔn)確率最低,所以在選擇詞性時(shí)應(yīng)避免僅選擇動(dòng)詞.

猜你喜歡
分類(lèi)特征文本
分類(lèi)算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
分類(lèi)討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
抓住特征巧觀(guān)察
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
主站蜘蛛池模板: 五月天久久综合国产一区二区| 四虎精品国产AV二区| 在线a视频免费观看| 免费国产黄线在线观看| 岛国精品一区免费视频在线观看| 国产91在线|日本| 秋霞午夜国产精品成人片| 欧美性久久久久| 欧美中文字幕无线码视频| 国产h视频免费观看| 大学生久久香蕉国产线观看| 中文字幕人成人乱码亚洲电影| 四虎综合网| 激情影院内射美女| 欧美一区二区三区国产精品| 国产免费精彩视频| 色欲不卡无码一区二区| 伊人91在线| a天堂视频| 少妇精品网站| 91精品在线视频观看| 欧美一区二区丝袜高跟鞋| 国产超碰在线观看| 久久窝窝国产精品午夜看片| 国产av色站网站| 亚洲第一成人在线| 91久久青青草原精品国产| 免费全部高H视频无码无遮掩| 伊人91视频| 在线观看亚洲精品福利片| 91精品免费久久久| 欧美精品aⅴ在线视频| 在线精品自拍| 国产日韩欧美一区二区三区在线 | 欧美日韩国产成人在线观看| 亚洲视频在线网| 国产激爽大片在线播放| 91亚洲视频下载| 久久精品国产在热久久2019| 国产精品永久不卡免费视频| 婷婷五月在线| 在线免费亚洲无码视频| 老司国产精品视频91| 8090成人午夜精品| 九九九精品成人免费视频7| 91青青视频| 日韩精品视频久久| 久久国产乱子| 日韩欧美中文字幕在线精品| 毛片免费在线视频| 国产尹人香蕉综合在线电影| 国产成a人片在线播放| 国产96在线 | 久久人妻xunleige无码| 天天色天天操综合网| 成人国产一区二区三区| 四虎影视库国产精品一区| 国产精品主播| 四虎永久免费地址在线网站| 九九热在线视频| 国产精品免费久久久久影院无码| 91免费国产高清观看| 少妇极品熟妇人妻专区视频| 热思思久久免费视频| 亚洲天堂成人在线观看| 92午夜福利影院一区二区三区| 国产九九精品视频| 久久永久视频| 国产日韩AV高潮在线| 国产精品私拍99pans大尺度 | 天堂中文在线资源| 国产精品无码AⅤ在线观看播放| 中文无码日韩精品| 欧美日本在线| 婷婷亚洲最大| 九九热免费在线视频| 色精品视频| 国产精品思思热在线| 国产乱子伦视频在线播放| 88av在线播放| 欧美福利在线观看| 91探花国产综合在线精品|