999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

幾種文本分類算法性能比較與分析

2016-10-22 00:43:26楊娟王未央
現(xiàn)代計算機(jī) 2016年25期
關(guān)鍵詞:分類監(jiān)督文本

楊娟,王未央

(上海海事大學(xué)信息工程學(xué)院,上海201306)

幾種文本分類算法性能比較與分析

楊娟,王未央

(上海海事大學(xué)信息工程學(xué)院,上海201306)

針對常用的文本分類算法,給定五種文本類型的數(shù)據(jù)集,通過使用典型的文本分類算法進(jìn)行實驗分析,通過精確率、召回率和測試值的精度來評估這些文本分類器的性能,并給出分析結(jié)果和改進(jìn)的組合訓(xùn)練方法。結(jié)果表明:將半監(jiān)督學(xué)習(xí)訓(xùn)練和監(jiān)督學(xué)習(xí)相結(jié)合能達(dá)到更好的分類效果。為了提高文本推薦速度,前期工作就是要選擇合適的分類算法方法,組合選擇算法,提高準(zhǔn)確度和效率。

文本分類;監(jiān)督學(xué)習(xí);組合選擇;推薦

0 引言

隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,各種文本類型的信息海量產(chǎn)生,在面對網(wǎng)絡(luò)社交化的時代,需要對文本信息進(jìn)行分類處理,從而進(jìn)行個性化推薦給相關(guān)度高的用戶。于是,各種文本分類算法被提出。文本分類[2]就是把某文檔歸屬于哪一個類別。當(dāng)需要處理大量文本信息分類的時候,必須按照一定的模型標(biāo)準(zhǔn),建立合適的分類器模型,把大量文本劃分為預(yù)先設(shè)定好的幾個類別中,實現(xiàn)自動文本分類。于是基于機(jī)器學(xué)習(xí)的文本挖掘技術(shù)被相應(yīng)的提出來,自動化文本分類也得以實現(xiàn)。國內(nèi)外學(xué)者研究提出來的許多分類方法,有支持向量機(jī)(SVM)算法[9],樸素貝葉斯(NB)算法[6],K最近鄰(KNN)算法[7]等。本文主要針對基于機(jī)器學(xué)習(xí)的幾種算法,選擇有監(jiān)督和半監(jiān)督學(xué)習(xí)訓(xùn)練方法,對已知五種類型進(jìn)行分類實驗,通過分析結(jié)果精確度和分類結(jié)果的穩(wěn)定性,提出文本推薦的時候該怎樣選擇合適的算法進(jìn)行建模。

在文獻(xiàn)[8]提到了在機(jī)器學(xué)習(xí)的過程中,先將樣本數(shù)據(jù)分成三個集合:訓(xùn)練集、驗證集、測試集。驗證集用來對模型參數(shù)進(jìn)行調(diào)整,訓(xùn)練集的目的是用來估計模型結(jié)構(gòu),測試集是用來驗證模型的分類效果如何。訓(xùn)練集一般用在有指導(dǎo)的監(jiān)督學(xué)習(xí)中,監(jiān)督學(xué)習(xí)是指在有標(biāo)記的樣本集合中訓(xùn)練數(shù)據(jù),建立學(xué)習(xí)模型,然后去預(yù)測大量的沒有標(biāo)記的樣本。與監(jiān)督學(xué)習(xí)相比,半監(jiān)督學(xué)習(xí)則不需要人工的操作,且在處理只有少量標(biāo)注樣本和不均勻數(shù)據(jù)集時,能夠利用大量未標(biāo)記樣本進(jìn)行學(xué)習(xí)。這更好地避免了在標(biāo)記文本時候代價大,以及主觀判斷所帶來的缺陷。本文也通過實驗,在同一數(shù)據(jù)集上對樣本進(jìn)行監(jiān)督訓(xùn)練和半監(jiān)督訓(xùn)練,又通過期望最大化算法(EM)對貝葉斯分類器(監(jiān)督學(xué)習(xí))訓(xùn)練,對比其他算法更好地實現(xiàn)了分類效果。

先給出文本分類的一般算法流程和半監(jiān)督學(xué)習(xí)的文本分類流程圖如下:

圖1 文本分類的一般流程

圖2 基于半監(jiān)督學(xué)習(xí)的文本分類流程

1 常用文本分類方法思想

1.1類中心向量法

類中心向量算法源于向量空間模型理論,是情報檢索領(lǐng)域經(jīng)典的算法,基本思想是:在訓(xùn)練階段計算訓(xùn)練樣本集中各類的中心點,即已建立分類器;當(dāng)測試文本D需要分類時,將其進(jìn)行向量表示后,計算與各類中心向量的相似度,最后將D標(biāo)定為相似度最大的那個類別。

1.2KNN近鄰算法

KNN(K Nearest Neighbor)算法是一種基于實例統(tǒng)計的文本分類方法。該算法思想為:給定一個帶標(biāo)注的訓(xùn)練文本集,在對新文本進(jìn)行分類時,從訓(xùn)練集的特征空間中找出與新文本最相似的K篇文本,這些K篇文本所屬的類別是已經(jīng)訓(xùn)練好的了,已經(jīng)正確分類的了,那么目標(biāo)新文本也劃分到該類別中。

1.3樸素貝葉斯算法

樸素貝葉斯(Naive Bayes)算法是來自概率統(tǒng)計的貝葉斯決策理論。基本思想是:給出待分類項,在該項出現(xiàn)的條件下求解出各個類別出現(xiàn)的概率,選取最大的那一個,把待分類項分到那個類別。簡單來說,就是利用關(guān)鍵詞語在類中出現(xiàn)的概率,概率越大的,就推測給定文檔屬于該類。NB方法的樸素是因為它的特征屬性單詞獨立性假設(shè),即不同單詞在給定類別下的條件概率是互相獨立的(文檔中的每個詞都是相互獨立出現(xiàn)的,且詞的出現(xiàn)沒有線性順序關(guān)系)。

1.4自訓(xùn)練學(xué)習(xí)

自訓(xùn)練(Self-Training)算法是半監(jiān)督學(xué)習(xí)中比較常見的方法之一,首先對已標(biāo)作過標(biāo)注的少量樣本進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練,再將沒有標(biāo)注過的樣本添加到通過訓(xùn)練集所得的初始分類器中訓(xùn)練,進(jìn)行預(yù)測,得出的數(shù)值越大代表分類取得的效果越好,將該分類得到數(shù)值大的文本和其分類標(biāo)注一起添加到訓(xùn)練集合中,作為新的訓(xùn)練樣本集進(jìn)行又學(xué)習(xí),迭代訓(xùn)練直到滿足條件為止。

另外還有一種經(jīng)典的被稱作上帝的算法的是期望最大(Expectation-Maximization)方法,它與樸素貝葉斯方法都是來源于概率統(tǒng)計模型。期望最大化算法是一用來解決數(shù)據(jù)不完整的參數(shù)估計問題,需要循環(huán)迭代,最后收斂于最大似然參數(shù)的一種估計方法。定義一個最大化函數(shù),收集一些訓(xùn)練數(shù)據(jù)集,就可以使用EM算法進(jìn)行若干次迭代后即可得到所需模型,這是提出的最早的一種半監(jiān)督學(xué)習(xí)方法,很好用,一般迭代三四次,所定義的目標(biāo)函數(shù)就能收斂。

1.5基于生成模型的半監(jiān)督分類

樣本生成模型(Generative Models)是根據(jù)統(tǒng)計學(xué)的觀點提出來的,需要把樣本數(shù)據(jù)分為標(biāo)記樣本和未標(biāo)記樣本,該模型的參數(shù)一般先由標(biāo)記樣本計算確定,然后結(jié)合標(biāo)記樣本并利用當(dāng)前模型訓(xùn)練出未標(biāo)記樣本后再進(jìn)行共同調(diào)整。首先對模型的參數(shù)進(jìn)行初始估計,采用上文提到的期望最大化算法(EM),再進(jìn)行重復(fù)執(zhí)行E步和M步,直至收斂。E步稱為期望步,根據(jù)當(dāng)前參數(shù)計算每個對象關(guān)于各個簇的隸屬概率;M步稱為最大化步,使用E步計算的概率來更新參數(shù)估計。

使用不同的生成式模型作為基分類器,會產(chǎn)生不一樣的分類結(jié)果,例如混合高斯(Mixture of Gaussians)、混合專家(Mixture of Experts)、樸素貝葉斯等。生成式模型會讓半監(jiān)督學(xué)習(xí)更簡單方便,預(yù)測結(jié)果比較直觀,當(dāng)標(biāo)記樣本非常稀少的時候,通過訓(xùn)練樣本得到的生成式模型較其他模型具有更好的性能,如果假設(shè)模型不能準(zhǔn)確地得出數(shù)據(jù)的分布,需要利用大量的未標(biāo)記數(shù)據(jù)來估計模型參數(shù),必定會大大降低訓(xùn)練出的模型的泛化能力。文本分類中另一個重要的考慮其實就是需要標(biāo)記數(shù)據(jù)的可用性。數(shù)據(jù)標(biāo)記是非常耗時的任務(wù),因此,在許多情況下,它們在數(shù)量上有限。如果可能的話,我們想利用這個有限的標(biāo)簽信息,以及在我們的分類時將無標(biāo)簽的數(shù)據(jù)加入到訓(xùn)練集合中,一起構(gòu)成訓(xùn)練樣本,有了這個目標(biāo),我們采用了半監(jiān)督和監(jiān)督相結(jié)合的學(xué)習(xí)方法,利用這些標(biāo)記和未標(biāo)記的數(shù)據(jù)得出更適合的分類器模型。在實際進(jìn)行數(shù)據(jù)建模的時候,怎樣選擇合適的半監(jiān)督學(xué)習(xí)方法來訓(xùn)練分類器?本文來做一個實驗對比下它們的分類精度,提出改進(jìn)方法,讓訓(xùn)練出來的分類器盡可能地提高正確分類的比例。

2 實驗和分類評估指標(biāo)

2.1實驗數(shù)據(jù)集

實驗數(shù)據(jù)集來源是搜狗實驗室測試文本分類文章語料庫(http://www.sogou.com/labs/dl/c.html),共有九類,為了便于實驗,計算機(jī)自動抽取的524篇文章里,對有把握分類的488篇重新分為五類,實驗分別在有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)下對數(shù)據(jù)集進(jìn)行分類,有監(jiān)督下分類分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,如下表1:

表1 有監(jiān)督訓(xùn)練數(shù)據(jù)集

半監(jiān)督分類的測試數(shù)據(jù)與有監(jiān)督分類相同,訓(xùn)練數(shù)據(jù)部分劃分為兩部分,一部分作為初始標(biāo)記樣本數(shù)據(jù),另一部分作為訓(xùn)練數(shù)據(jù),如下表2:

表2 半監(jiān)督訓(xùn)練數(shù)據(jù)集

2.2分類評估指標(biāo)

本實驗采用準(zhǔn)確率,召回率和F1的值(F1值越大分類效果越好)三個數(shù)據(jù)來評估文本分類器的性能,它們分別計算的公式如下:

精確率(pecision):

召回率(recall):

F1測試值:

3 實驗分析

本實驗環(huán)境是:聯(lián)想B460筆記本上,處理器Intel i3,內(nèi)存4GB,硬盤320G,操作系統(tǒng):Windows 10,實驗算法是在MATLAB7上進(jìn)行的。有監(jiān)督訓(xùn)練學(xué)習(xí)選擇了類中心向量算法,KNN算法(先取K=5)和樸素貝葉斯算法。半監(jiān)督學(xué)習(xí)訓(xùn)練采用類向量+自訓(xùn)練相組合算法:即對于標(biāo)記樣本的數(shù)采用類中心向量訓(xùn)練,再結(jié)合未標(biāo)記樣本,用自訓(xùn)練算法迭代循環(huán)訓(xùn)練得出最終分類器和分類結(jié)果。

有監(jiān)督分類結(jié)果:

表3 類中心向量的有監(jiān)督分類精度

表4 KNN(K=5)的有監(jiān)督分類精度

表5 貝葉斯的有監(jiān)督分類精度

半監(jiān)督分類結(jié)果——試驗1:

表6 類中心向量+自訓(xùn)練的半監(jiān)督分類精度(訓(xùn)練數(shù)據(jù))

表7 類中心向量+自訓(xùn)練的半監(jiān)督分類精度(測試數(shù)據(jù))

半監(jiān)督分類結(jié)果——試驗2:

表8 類中心向量+自訓(xùn)練的半監(jiān)督分類精度(訓(xùn)練數(shù)據(jù))

表9 類中心向量+自訓(xùn)練的半監(jiān)督分類精度(測試數(shù)據(jù))

為了保證試驗的可比性,又取同樣的數(shù)據(jù)進(jìn)行了試驗3,結(jié)果和試驗2一樣,用折線圖來表示算法精確度對比情況:

為了更好地表示半監(jiān)督分類算法的效果,本文又設(shè)計了一組半監(jiān)督分類算法(貝葉斯+EM)試驗,從表3可以看出樸素貝葉斯算法在對小樣本數(shù)據(jù)集處理時表現(xiàn)出很差的分類效果,沒有用平滑處理零概率文本,因此我們決定用期望最大化算法來訓(xùn)練貝葉斯分類器,期望通過這種組合,可以得出更好的分類效果。具體步驟如下:

1.僅采用標(biāo)注集合L(部分訓(xùn)練數(shù)據(jù))進(jìn)行初始化訓(xùn)練,得到第一個中間分類器A0;

2.Estep:根據(jù)A0中的參數(shù)值計算所有類關(guān)于每個未標(biāo)注樣本(測試數(shù)據(jù))的后驗概率;

3.Mstep:利用包括了標(biāo)注和未標(biāo)注樣本的訓(xùn)練集D以及P訓(xùn)練出新的中間分類器A1。

EM步驟一直迭代(迭代次數(shù)k=2或者3次),直到A1收斂,最終即可得到比較好的分類器。

還是使用相同的數(shù)據(jù)集,只不過這次單以測試數(shù)據(jù)作為建模對象,得出試驗圖4如下:

圖3 半監(jiān)督分類3次試驗各測試值折線圖

圖4 貝葉斯+EM測試分類圖

4 結(jié)語

通過觀察半督分類結(jié)果可以發(fā)現(xiàn),兩次試驗的測試精度有三類(分類編號為1,2,5)都達(dá)到了要求(F1測試值>70%),沒有達(dá)到要求的兩類都為數(shù)據(jù)樣本稀少的小類(總共49篇、25篇,分類編號分別為3和4)。通過觀察實驗結(jié)果,還會發(fā)現(xiàn)上述幾種方法在稀有類別上的準(zhǔn)確性都較低,然而,KNN和類中心向量法對樣本分布的穩(wěn)定性要好于NB等方法。其中我們知道NB方法是基于假設(shè)一個特征單詞在一個分類文檔中的發(fā)生概率與該文檔中的其他單詞無關(guān),從而使得計算復(fù)雜度簡單,具有較高的效率。但是,該假設(shè)在現(xiàn)實中對于絕大多數(shù)文本都不能得到很好的保證,其中有的還出現(xiàn)了零概率的情況。故后來我們又采用了半監(jiān)督的分類(貝葉斯+EM)的組合方法,通過試驗對比,給出了相對較好的分類效果。

現(xiàn)實中,網(wǎng)絡(luò)上大量的沒有處理過的數(shù)據(jù)集在類別的分布上常常都是偏斜的,十分不均衡的,導(dǎo)致了分類效果很不理想。而實驗環(huán)境下驗證一個分類器效果好不好,用這種分類算法來訓(xùn)練分類器得到了改善,它們所選的數(shù)據(jù)集大都是均勻的,所以結(jié)論都得到很好的分類效果。如果在數(shù)據(jù)偏斜的情況下進(jìn)行實驗分類,分類器往往會忽視少量稀疏類的樣本,因為樣本無法準(zhǔn)確反映整個空間的數(shù)據(jù)分布情況。通過查閱文獻(xiàn),得知Yang[9]研究的支持向量機(jī)(SVM)、NB及KNN等許多分類算法均控制了樣本的分布,再做實驗分析從理論上來對比分析分類效果與數(shù)據(jù)分布之間的關(guān)系,其結(jié)果大部分都表明:SVM和KNN對樣本分布的魯棒性要優(yōu)于NB等方法,這也印證了SVM的泛化性能以及NB對類別先驗概率的依賴性。這也是這些分類算法的缺陷,因為各種方法在稀有類別上的分類效果準(zhǔn)確性均很低。本文就是在實驗時,特意選擇樣本數(shù)據(jù)集有一部分是稀疏的做了實驗,這一結(jié)論同樣體現(xiàn)在我們的數(shù)據(jù)結(jié)果上。

[1]張俊麗.文本分類中關(guān)鍵技術(shù)研究.華中師范大學(xué),2008.[4]孫麗華.中文文本自動分類的研究.哈爾濱工程大學(xué),2002.

[2]張浩,汪楠.文本分類技術(shù)研究進(jìn)展.計算機(jī)科學(xué)與技術(shù).2007,23:95-96.

[3]盧葦,彭雅.幾種常用文本分類算法性能比較與分析[J].湖南大學(xué)學(xué)報,2007.03.02.

[4]陳琳,王箭.三種中文文本自動分類算法的比較和研究[J].計算機(jī)與現(xiàn)代化,2011.06.15.

[5]汪傳建,李曉光,王大玲,于戈.一種基于混合模型的文本分類器的設(shè)計與實現(xiàn).計算機(jī)研究與發(fā)展增刊,2004,VoL41,96-100.

[6]DudaP E,Richard O.Hart,Pattern Classification and Scene Analysis[J].1973.

[7]李永平,程莉,葉衛(wèi)國.基于隱含語義的KNN文本分類研究[J].計算機(jī)工程與應(yīng)用.2004.

[8]Sebast,nai,.F,2002.Machine Learning Automated Text Categorization[J].ACM Computing Suvreys,34(1),1-47.

[9]Yang M H,Ahuja N.A Geometric Approach to Train Support Vector Machines[C].Proceedings of CVPR 2000.Hilton Head Island,2000:430-437.

Performance Comparison and Analysis of Several Text Classification Algorithms

YANG Juan,WANG Wei-yang
(College of Information Engineering,Shanghai Maritime Univeristy,Shanghai 201306)

Analyzes several typical text classification algorithms,gives five types of text data sets,the classic text categorization algorithm test comparison by precision,recall accuracy rate and test value to evaluate the performance of the text classifier,and gives the analysis result and the improved combination training method.The results show that the combination of semi supervised learning training and supervised learning can achieve better classification results.In order to improve the speed of text recommendation,the preliminary work is to choose the appropriate classification algorithm,combine selection algorithm to improve the accuracy and efficiency.

Text Categorization;Supervised Learning;Portfolio Selection;Recommendation

1007-1423(2016)25-0012-05DOI:10.3969/j.issn.1007-1423.2016.25.003

楊娟(1991-),女,安徽安慶人,碩士研究生,學(xué)生,研究方向為數(shù)據(jù)庫開發(fā)與應(yīng)用王未央(1963-),女,江蘇常熟人,碩士研究生導(dǎo)師,副教授,研究方向為數(shù)據(jù)處理與挖掘

2016-04-19

2016-09-02

猜你喜歡
分類監(jiān)督文本
分類算一算
突出“四個注重” 預(yù)算監(jiān)督顯實效
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
監(jiān)督見成效 舊貌換新顏
夯實監(jiān)督之基
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 久久a毛片| 亚洲第一av网站| 亚洲成人免费看| 伊人成人在线视频| 婷婷亚洲天堂| 99视频精品全国免费品| 国产丝袜啪啪| 九九热精品视频在线| 91精品国产综合久久香蕉922| 午夜毛片福利| 中文字幕无码制服中字| 精品人妻无码中字系列| 波多野吉衣一区二区三区av| 潮喷在线无码白浆| 91青青草视频| 国产91视频免费观看| 精品久久高清| 三区在线视频| 国产免费羞羞视频| 国产剧情无码视频在线观看| 国产亚洲成AⅤ人片在线观看| 国产精品性| 伊人国产无码高清视频| 亚洲精品图区| 亚洲综合第一页| 欧美日韩一区二区在线播放 | 无遮挡一级毛片呦女视频| 国产免费久久精品99re不卡| 欧美成人精品在线| 国产99久久亚洲综合精品西瓜tv| 亚洲第一成网站| 国产v精品成人免费视频71pao| 国产在线自乱拍播放| 欧美精品亚洲精品日韩专区va| 欧美区在线播放| 免费观看欧美性一级| 国产成人一区| 亚洲精品va| 欧美97色| 国产无遮挡裸体免费视频| 国产成人高清在线精品| 久青草免费在线视频| 无码在线激情片| 精品国产成人国产在线| 欧美亚洲综合免费精品高清在线观看| 综合色在线| 国产精品久久久久久影院| 91久久精品国产| 五月婷婷导航| 精品无码国产一区二区三区AV| 精品久久777| 国产一级毛片在线| 中文毛片无遮挡播放免费| 国内嫩模私拍精品视频| 午夜性刺激在线观看免费| 午夜日本永久乱码免费播放片| 五月天久久婷婷| 刘亦菲一区二区在线观看| 日本午夜在线视频| 无码久看视频| 国产在线日本| 午夜a级毛片| 97超级碰碰碰碰精品| 在线欧美一区| 综合久久五月天| 午夜啪啪网| 国产高清免费午夜在线视频| 日韩无码黄色网站| 欧美高清三区| 日本不卡在线视频| 欧美午夜网站| 91区国产福利在线观看午夜| 亚洲国产亚洲综合在线尤物| 中文无码日韩精品| 再看日本中文字幕在线观看| 人妻少妇乱子伦精品无码专区毛片| 91 九色视频丝袜| 亚洲美女久久| 欧美中文字幕第一页线路一| 91精品综合| 国产性精品| 免费在线a视频|