孟 巖,汪云云
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院/軟件學(xué)院,江蘇 南京 210000)
典型半監(jiān)督分類算法的研究分析
孟 巖,汪云云
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院/軟件學(xué)院,江蘇 南京 210000)
近年來,大量半監(jiān)督分類算法被提出。然而在真實(shí)的學(xué)習(xí)任務(wù)中,研究者很難決定究竟選擇哪一種半監(jiān)督分類算法,而在這方面并沒有任何指導(dǎo)。半監(jiān)督分類算法可通過數(shù)據(jù)分布假設(shè)進(jìn)行分類。為此,在對比分析采用不同假設(shè)的半監(jiān)督分類典型算法的基礎(chǔ)上,以最小二乘方法(Least Squares,LS)為基準(zhǔn),研究比較了基于聚類假設(shè)的轉(zhuǎn)導(dǎo)支持向量機(jī)(Transductive Support Vector Machine,TSVM)和基于流行假設(shè)的正則化最小二乘法(Laplacian Regularized Least Squares Classification,LapRLSC),并同時(shí)利用兩種假設(shè)的SemiBoost以及無任何假設(shè)的蘊(yùn)含限制最小二乘法(Implicitly Constrained Least Squares,ICLS)的分類效果。得出的結(jié)論為,在已知數(shù)據(jù)樣本分布的情況下,利用相應(yīng)假設(shè)的方法可保證較高的分類正確率;在對數(shù)據(jù)分布沒有任何先驗(yàn)知識(shí)且樣本數(shù)量有限的情況下,TSVM能夠達(dá)到較高的分類精度;在較難獲得樣本標(biāo)記而又強(qiáng)調(diào)分類安全性時(shí),宜選擇ICLS,而LapRLSC也是較好的選項(xiàng)之一。
半監(jiān)督分類;數(shù)據(jù)分布;聚類假設(shè);流行假設(shè)
傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)分為兩類:監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)只利用標(biāo)記的樣本集進(jìn)行學(xué)習(xí),而無監(jiān)督學(xué)習(xí)只利用未標(biāo)記的樣本集進(jìn)行學(xué)習(xí),但在很多實(shí)際問題中,有標(biāo)記樣本通常很難收集,而無標(biāo)記樣本很容易得到。例如,在垃圾郵件檢測中,可以自動(dòng)收集大量的郵件,卻只有少量是標(biāo)記的垃圾郵件;在生物學(xué)中,大量的未標(biāo)記數(shù)據(jù)很容易得到,而對某種蛋白質(zhì)的結(jié)構(gòu)分析或者功能鑒定,可能會(huì)花上生物學(xué)家很多年的時(shí)間。……