999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監(jiān)督學(xué)習(xí)的短文本分類(lèi)方法

2012-07-23 00:35:06孫學(xué)琛高志強(qiáng)全志斌施嘉鴻
關(guān)鍵詞:分類(lèi)監(jiān)督

孫學(xué)琛,高志強(qiáng),全志斌,施嘉鴻

(東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇南京211189)

自20世紀(jì)50年代以來(lái),人們對(duì)文本自動(dòng)分類(lèi)的研究獲得了豐碩的成果,但這些研究都局限于長(zhǎng)文本,對(duì)短文本分類(lèi)問(wèn)題涉及較少.短文本分類(lèi)是一種特殊的文本分類(lèi)任務(wù),隨著萬(wàn)維網(wǎng)(world wide web)的快速普及和發(fā)展,web上出現(xiàn)了大量短文本,例如科技文獻(xiàn)摘要、微博和電子郵件.短文本內(nèi)容短小,相互聯(lián)系,已標(biāo)注數(shù)據(jù)獲得困難,傳統(tǒng)分類(lèi)方法已經(jīng)不能適用于短文本分類(lèi)場(chǎng)景.短文本分類(lèi)對(duì)于獲取數(shù)據(jù)的分布特征以及后續(xù)進(jìn)一步的數(shù)據(jù)挖掘工作有重要的意義.

1 問(wèn)題描述

短文本在日常生活中非常常見(jiàn),例如數(shù)字化圖書(shū)館中的論文快照(包括標(biāo)題、摘要、參考文獻(xiàn)等,但不包括正文內(nèi)容)、微博(少于140字)和搜索引擎片段等.本文的主要研究分類(lèi)對(duì)象是論文快照(在沒(méi)有特別說(shuō)明的情況下,本文所指論文均指論文快照).短文本的特征主要有兩個(gè),一是內(nèi)容短小,二是特征稀疏.這就導(dǎo)致使用傳統(tǒng)的基于bag-of-words表示方法的分類(lèi)器很難取得令人滿意的效果.另外,短文本的規(guī)模一般很大,而已標(biāo)注的數(shù)據(jù)卻很少,利用手工方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)注非常耗時(shí)耗力.如何利用少量的已標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí),從而對(duì)短文本數(shù)據(jù)進(jìn)行高效分類(lèi),是本文研究的主要問(wèn)題.

2 相關(guān)研究

對(duì)短文本分類(lèi)的研究在九十年代末才逐漸引起人們的注意,文獻(xiàn)[1] 提出了一種使用作者信息和tweets內(nèi)部特征的Twitter短文本分類(lèi)方法,取得了較好的分類(lèi)效果,由于采用手工尋找類(lèi)別特征的方法,所以通用性較差.文獻(xiàn)[2] 使用維基百科作為外部通用數(shù)據(jù)集,在通用數(shù)據(jù)集上使用LDA(Latent Dirichlet Allocation)獲得主題模型,經(jīng)過(guò)推理得到待分類(lèi)短文本的主題特征向量,使用詞向量和主題向量一起用于分類(lèi)過(guò)程,取得了較好的分類(lèi)效果.文獻(xiàn)[3] 總結(jié)了常用的協(xié)作分類(lèi)(Collective Classification,CC)方法,它將整個(gè)數(shù)據(jù)集看成實(shí)例組成的網(wǎng)絡(luò),網(wǎng)絡(luò)蘊(yùn)含了實(shí)例之間的聯(lián)系,借助于網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練分類(lèi)器以提高分類(lèi)性能,實(shí)驗(yàn)證明協(xié)作分類(lèi)的效果優(yōu)于基于內(nèi)容的分類(lèi)器.上述研究成果都側(cè)重于關(guān)系數(shù)據(jù)使用,而沒(méi)有考慮在較少已標(biāo)記數(shù)據(jù)時(shí)的學(xué)習(xí)問(wèn)題.半監(jiān)督學(xué)習(xí)是一種利用較少已標(biāo)記數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)的方法.文獻(xiàn)[4] 提出了協(xié)同訓(xùn)練算法,并給出了使用未標(biāo)注數(shù)據(jù)學(xué)習(xí)的PAC(Probably Approximately Correct)形式分析,但它假設(shè)數(shù)據(jù)集有兩個(gè)充分冗余視圖很難得到滿足.本文在上述相關(guān)研究工作基礎(chǔ)上綜合協(xié)同分類(lèi)和半監(jiān)督學(xué)習(xí)技術(shù),提出了一種基于半監(jiān)督學(xué)習(xí)的短文本分類(lèi)方法.

3 基于半監(jiān)督學(xué)習(xí)的迭代分類(lèi)算法

在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,學(xué)習(xí)器通過(guò)對(duì)大量有標(biāo)記訓(xùn)練樣例進(jìn)行學(xué)習(xí),從而建立模型用于預(yù)測(cè)未見(jiàn)示例的標(biāo)記.隨著數(shù)據(jù)收集和存儲(chǔ)技術(shù)的飛速發(fā)展,收集大量未標(biāo)記實(shí)例已相當(dāng)容易,而獲取大量有標(biāo)記的實(shí)例則相對(duì)較為困難.如果只使用少量的已標(biāo)記實(shí)例,那么利用它們所訓(xùn)練出的學(xué)習(xí)器往往很難具有強(qiáng)泛化能力.另一方面,如果僅使用少量昂貴的已標(biāo)記實(shí)例而不利用大量廉價(jià)未標(biāo)記實(shí)例,則是對(duì)資源的極大浪費(fèi).因此,在已標(biāo)記實(shí)例較少時(shí),如何利用大量的未標(biāo)記實(shí)例來(lái)改善學(xué)習(xí)性能已成為當(dāng)前機(jī)器學(xué)習(xí)研究中最受關(guān)注的問(wèn)題之一.

半監(jiān)督學(xué)習(xí)是利用少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)的框架.由于短文本數(shù)量巨大,而且僅有少量的已標(biāo)注數(shù)據(jù),所以短文本分類(lèi)本身就是一個(gè)半監(jiān)督學(xué)習(xí)問(wèn)題.借鑒半監(jiān)督學(xué)習(xí)的思想,本文提出了基于半監(jiān)督學(xué)習(xí)的迭代分類(lèi)算法(semi-supervised learning-based iterative classification algorithm,SS-ICA).

3.1 數(shù)據(jù)模型

不同的分類(lèi)方法對(duì)數(shù)據(jù)集模型的假設(shè)是不同的,常用的假設(shè)有兩種,如圖1所示.大部分只基于內(nèi)容的(Content-Only,CO)分類(lèi)器使用圖1a所示的模型,它強(qiáng)調(diào)實(shí)例的獨(dú)立性,實(shí)例通過(guò)它的內(nèi)部特征表示,實(shí)例之間彼此是沒(méi)有聯(lián)系的.在分類(lèi)問(wèn)題中,實(shí)例的類(lèi)別僅僅和它的內(nèi)容相關(guān).例如樸素貝葉斯分類(lèi)器(Naive Bayes Classifier,NB).協(xié)作分類(lèi)采用了如圖1b所示的模型,它強(qiáng)調(diào)實(shí)例之間聯(lián)系的重要性,在分類(lèi)過(guò)程中綜合利用實(shí)例的內(nèi)部特征和外部關(guān)系.例如迭代分類(lèi)算法[5](Iterative Classification Algorithm,ICA).本文提出的基于半監(jiān)督的迭代分類(lèi)算法采用了圖1b所示的數(shù)據(jù)模型.

圖1 文本分類(lèi)數(shù)據(jù)集模型

對(duì)于圖1b的模型,給出如下形式化定義.?dāng)?shù)據(jù)集由一組結(jié)點(diǎn)V={V1,…Vn}和一組近鄰函數(shù)N描述,Ni?V\{Vi},N體現(xiàn)了整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu).V中的每個(gè)結(jié)點(diǎn)都是在特定領(lǐng)域中取值的隨機(jī)變量,可以根據(jù)結(jié)點(diǎn)的類(lèi)別是否已知將V分為已知結(jié)點(diǎn)集合X和待分類(lèi)結(jié)點(diǎn)集合Y.類(lèi)別的集合為L(zhǎng)={L1,…,Lq},分類(lèi)任務(wù)是為結(jié)點(diǎn)Yi∈Y賦予一個(gè)合理的類(lèi)別,簡(jiǎn)記分類(lèi)后Yi的標(biāo)記為yi.

3.2 算法描述

基于半監(jiān)督學(xué)習(xí)的迭代分類(lèi)算法底層依賴于CO分類(lèi)器.CO分類(lèi)器一般要求輸入特征向量有固定的維數(shù),對(duì)于關(guān)系數(shù)據(jù),可以采用聚合算子[3]將外部關(guān)系聚合成實(shí)例的關(guān)系屬性,實(shí)例的關(guān)系屬性和內(nèi)部屬性共同組成實(shí)例的特征向量用于訓(xùn)練和分類(lèi)過(guò)程.下面給出基于半監(jiān)督學(xué)習(xí)的迭代分類(lèi)算法流程圖(圖2)與詳細(xì)描述.

圖2 SS-ICA算法流程圖

1)對(duì)每個(gè)實(shí)例Vi:根據(jù)鄰接關(guān)系Ni計(jì)算特征向量ai,在后續(xù)分類(lèi)過(guò)程中均使用ai.

2)使用X作為訓(xùn)練集訓(xùn)練分類(lèi)器f.

3)對(duì)Y中的每個(gè)實(shí)例Yi:使用f進(jìn)行分類(lèi),yi←f(ai).

4)使用X∩Y作為訓(xùn)練集更新分類(lèi)器f.

5)對(duì)Y中的每個(gè)實(shí)例Y1:根據(jù)現(xiàn)在的Ni重新聚合更新ai,使用f進(jìn)行分類(lèi),yi←f(ai).

6)如果達(dá)到預(yù)設(shè)迭代次數(shù)或類(lèi)標(biāo)記穩(wěn)定,則分類(lèi)結(jié)束,否則執(zhí)行步驟3).

ICA是一種簡(jiǎn)單有效的迭代分類(lèi)方法,假定初始訓(xùn)練數(shù)據(jù)數(shù)目是充足的,整個(gè)訓(xùn)練過(guò)程都依靠使用初始訓(xùn)練數(shù)據(jù)訓(xùn)練得到的分類(lèi)器f.由于f的性能和泛化能力受到已標(biāo)注數(shù)據(jù)質(zhì)量和數(shù)量的制約,如果初始訓(xùn)練數(shù)據(jù)數(shù)目較少,訓(xùn)練得到的局部分類(lèi)器f將很難刻畫(huà)真實(shí)的分類(lèi)邊界,迭代過(guò)程在增加外部關(guān)系作用的同時(shí),也放大了f所帶來(lái)的誤差,導(dǎo)致整個(gè)迭代過(guò)程不能得到較高的分類(lèi)精度.

SS-ICA也是一個(gè)迭代的分類(lèi)過(guò)程,但是不同于ICA,迭代過(guò)程中不僅考慮到引入外部信息,同時(shí)也考慮到迭代中未標(biāo)記數(shù)據(jù)對(duì)分類(lèi)器本身的影響.初次用于訓(xùn)練的已標(biāo)注數(shù)據(jù)過(guò)少,聚合后特征向量的外部關(guān)系特征不精確,訓(xùn)練得到的f有著一定的誤差.迭代中使用f對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行分類(lèi)后,再次聚合使得向量外部關(guān)系特征被進(jìn)一步豐富,更趨向真實(shí)的分布,使用更新后的數(shù)據(jù)訓(xùn)練分類(lèi)器將會(huì)提高分類(lèi)器正確分類(lèi)的能力.這樣就可以在迭代過(guò)程中有效地使用未標(biāo)記數(shù)據(jù).實(shí)驗(yàn)證明,SS-ICA方法在訓(xùn)練數(shù)據(jù)稀少的情況下對(duì)改善分類(lèi)精度是十分有效的.

4 實(shí)驗(yàn)結(jié)果與分析

本文使用兩個(gè)關(guān)系數(shù)據(jù)集CORA[6]和CiteSeer[7]進(jìn)行試驗(yàn).CORA包含了一系列計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)術(shù)論文(包括摘要和引用信息).CiteSeer也是一個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域的數(shù)據(jù)集,它的引用關(guān)系密度比CORA小.兩個(gè)數(shù)據(jù)集均使用文檔頻數(shù)方法進(jìn)行特征選擇,刪除了單詞出現(xiàn)次數(shù)少于10的所有單詞屬性.CORA和CiteSeer的詳細(xì)信息見(jiàn)表1.

表1 CORA和CiteSeer數(shù)據(jù)集詳細(xì)信息

實(shí)驗(yàn)使用NB和ICA與本文提出的SS-ICA方法進(jìn)行了對(duì)比.其中NB分類(lèi)器由WEKA[8]工具包提供,ICA和SS-ICA均采用NB作為迭代分類(lèi)器,均采用計(jì)數(shù)聚合[5](Count Aggregation)作為聚合算子.實(shí)驗(yàn)使用選擇采樣技術(shù)[9]隨機(jī)采樣,迭代次數(shù)為10次,精度取10次采樣實(shí)驗(yàn)的平均值.表2是在不同已標(biāo)注樣本比例訓(xùn)練集上的實(shí)驗(yàn)結(jié)果.

表2 各分類(lèi)器在不同標(biāo)注比例訓(xùn)練集上的性能

由表2可知,當(dāng)初始已標(biāo)注數(shù)據(jù)稀少的情況下SS-ICA的分類(lèi)精度明顯高于NB和ICA,在初始標(biāo)注比例為5%時(shí),SS-ICA要比其他分類(lèi)器的分類(lèi)精度高出13%以上.注意到在初始標(biāo)注比例為5%時(shí),ICA的分類(lèi)精度要低于NB,這是因?yàn)闃?biāo)注數(shù)據(jù)稀少導(dǎo)致學(xué)習(xí)到的分類(lèi)器泛化能力太差,而在迭代過(guò)程中分類(lèi)器誤差被放大導(dǎo)致的.

ICA和SS-ICA在CORA數(shù)據(jù)集上的分類(lèi)精度要高于CiteSeer上的分類(lèi)精度,這是因?yàn)榍罢叩倪B接密度要高于后者,而高連接密度可以有效提高協(xié)作分類(lèi)精度.由于NB只是基于內(nèi)容的分類(lèi),所以在兩個(gè)數(shù)據(jù)集上有著相似的性能.在總體上來(lái)看,隨著初始標(biāo)注數(shù)據(jù)的增多,所有分類(lèi)器的誤分率都呈下降趨勢(shì),兩個(gè)數(shù)據(jù)集上誤分率隨初始標(biāo)注比例變化情況如圖3所示.

圖3 CORA和CiteSeer數(shù)據(jù)集上的分類(lèi)錯(cuò)誤率隨標(biāo)注數(shù)據(jù)比例的變化情況

由于SS-ICA是ICA的一種改進(jìn),它在初始標(biāo)注數(shù)據(jù)較少的情況下使用未標(biāo)記數(shù)據(jù)更新分類(lèi)器提高分類(lèi)精度,當(dāng)訓(xùn)練數(shù)據(jù)充足時(shí)SS-ICA和ICA能達(dá)到同樣高的分類(lèi)精度.SS-ICA和ICA的精度曲線如圖4所示.

圖4 CORA和CiteSeer數(shù)據(jù)集上分類(lèi)器分類(lèi)精度比較

5 結(jié)束語(yǔ)

面對(duì)Web上日益增多的短文本數(shù)據(jù),人們對(duì)短文本數(shù)據(jù)的挖掘越來(lái)越重視,有效的分類(lèi)短文本對(duì)獲取數(shù)據(jù)的分布特征以及后續(xù)的挖掘工作都有重要的意義.短文本長(zhǎng)度短小,特征稀疏,訓(xùn)練數(shù)據(jù)獲得困難,導(dǎo)致傳統(tǒng)分類(lèi)方法不能取得令人滿意的分類(lèi)精度.

為了有效解決短文本分類(lèi)問(wèn)題,本文提出了基于半監(jiān)督的迭代分類(lèi)算法SS-ICA,算法綜合利用了短文本內(nèi)容信息和文本的引用關(guān)系,同時(shí)借鑒半監(jiān)督學(xué)習(xí)中使用未標(biāo)記數(shù)據(jù)的思想,在迭代過(guò)程中使用未標(biāo)記數(shù)據(jù)更新修正分類(lèi)器,有效提高了標(biāo)注數(shù)據(jù)稀少情況下短文本分類(lèi)的精度.通過(guò)在CORA和CiteSeer數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)證明,在標(biāo)注數(shù)據(jù)稀少的情況下SS-ICA比NB和ICA有更高的分類(lèi)精度.

[1] Sriram B,F(xiàn)uhry D,Demir E,et al.Short text classification in twitter to improve information filtering[C] //Proceedings of the 33rd annual international ACM SIGIR conference on Research and development in information retrieval.Geneva:ACM,2010:841-842.

[2] Phan H X,Nguyen L M,Horiguchi S.Learning to classify short and sparse text &web with hidden topics from large-scale data collections[C] //Proceedings of the 17th Internatinal Conference on World Wide Web.Beijing:ACM,2008:91-100.

[3] Sen P,Namata G,Bilgic M,et al.Collective classification in network data[J] .AI Magazine(AIM),29(3):93-106.

[4] Blum A,Mitchell T.Combining labeled and unlabeled data with cotraining[C] //Proceedings of the 11th Annual Conference on Computational Learning Theory Madison:ACM,1998:92-100.

[5] Neville J,Jensen D.Iterative classification in relational data[C] //Proceedings of the AAAI 2000Workshop Learning Statistical Models from Relational Data.Austin:AAAI press,2000:13-20.

[6] McCallum A K,Nigam K,Rennie J,et al.Automating the construction of internet portals with machine learning[J] .Information Retrieval Journal,2000,3(2):127-163.

[7] Giles C L,Bollacker K,Lawrence S.CiteSeer:an automatic citation indexing system[C] //The third ACM conference on digital libraries,1998:89-98.

[8] Hall M,F(xiàn)rank E,Holmes G,et al.The WEKA data mining software:an update[J] .SIGKDD Explorations(SIGKDD),2009,11(1):10-18.

[9] Knuth D E.The art of computer Programming[M] .北京:清華大學(xué)出版社,2002:142-143.

猜你喜歡
分類(lèi)監(jiān)督
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
監(jiān)督見(jiàn)成效 舊貌換新顏
夯實(shí)監(jiān)督之基
給塑料分分類(lèi)吧
績(jī)效監(jiān)督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
主站蜘蛛池模板: 91免费精品国偷自产在线在线| 国产成+人+综合+亚洲欧美| 成人91在线| 激情综合网激情综合| 在线看AV天堂| 亚洲国产日韩欧美在线| 天天做天天爱夜夜爽毛片毛片| 国产精品永久免费嫩草研究院 | 国产99在线观看| 国产日本一线在线观看免费| 欧美a在线| 亚洲一区二区视频在线观看| 亚洲欧洲一区二区三区| 区国产精品搜索视频| 无遮挡一级毛片呦女视频| 亚洲无线视频| 亚洲娇小与黑人巨大交| 亚洲国产黄色| 18黑白丝水手服自慰喷水网站| 91亚洲国产视频| 欧洲日本亚洲中文字幕| 真人高潮娇喘嗯啊在线观看| 91精品国产91欠久久久久| 精品1区2区3区| 国产欧美专区在线观看| 久久国产精品无码hdav| 毛片在线播放a| 日韩不卡高清视频| 国产免费精彩视频| 日本免费一级视频| 欧美日韩另类在线| 制服无码网站| 久久久久无码精品| 国产精品漂亮美女在线观看| 青青青国产视频| 精品国产黑色丝袜高跟鞋| 久久77777| 狠狠做深爱婷婷综合一区| 久久精品国产精品青草app| 国产导航在线| 成AV人片一区二区三区久久| 无码在线激情片| 国产亚洲一区二区三区在线| 中文字幕伦视频| 日韩精品资源| 2021天堂在线亚洲精品专区| 亚洲成人在线网| 色婷婷天天综合在线| 国产区在线观看视频| 亚洲色图欧美激情| 亚亚洲乱码一二三四区| 日日拍夜夜嗷嗷叫国产| 国产美女自慰在线观看| 免费A∨中文乱码专区| 草草影院国产第一页| 无码aⅴ精品一区二区三区| 成人午夜福利视频| 亚洲区一区| 免费啪啪网址| 久久综合色88| 免费看的一级毛片| www.亚洲色图.com| 99国产精品免费观看视频| 国产H片无码不卡在线视频 | 日本亚洲成高清一区二区三区| 国产视频你懂得| 亚洲精品国产首次亮相| 亚洲第七页| 国产精品性| 色婷婷成人网| 亚洲欧美精品一中文字幕| 国产成人综合日韩精品无码不卡| 正在播放久久| 欧美a在线| 国产黄色片在线看| 成AV人片一区二区三区久久| 亚洲日韩精品欧美中文字幕 | 特级精品毛片免费观看| 久久香蕉国产线看观| 成年人久久黄色网站| Jizz国产色系免费| 91精品综合|