張鵬飛, 董敏周, 端軍紅
(1.西北工業(yè)大學(xué) 航天學(xué)院, 陜西 西安 710072; 2.空軍工程大學(xué) 防空反導(dǎo)學(xué)院, 陜西 西安 710043)
自從2012年神經(jīng)網(wǎng)絡(luò)之父亨特及其學(xué)生使用深度學(xué)習(xí)技術(shù)搭建AlexNet在Image Net比賽中取得比傳統(tǒng)方法高出許多的準(zhǔn)確率之后[1],深度學(xué)習(xí)技術(shù)開始得到人們廣泛關(guān)注并在圖像分類、語音識(shí)別、自然語言處理中取得了很好的效果[2-4]。卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的模型也具有很好的泛化能力。然而,卷積神經(jīng)網(wǎng)絡(luò)要想有較高的準(zhǔn)確率及較好的泛化能力,往往需要大量的已標(biāo)記樣本用于訓(xùn)練,人工標(biāo)記樣本往往涉及到成本問題,這對(duì)于那些已標(biāo)記樣本數(shù)據(jù)過少的領(lǐng)域就提出了一定的挑戰(zhàn)。隨著互聯(lián)網(wǎng)技術(shù)及移動(dòng)互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,當(dāng)前我們往往可以通過網(wǎng)絡(luò)獲取到大量的數(shù)據(jù),與此同時(shí),在許多的應(yīng)用場(chǎng)景中,我們還面臨著雖然有著大量的數(shù)據(jù),但其中已標(biāo)記數(shù)據(jù)占比過少的問題,以遙感目標(biāo)檢測(cè)與識(shí)別為例,可以較為輕松地從谷歌地球等網(wǎng)站獲取大量的遙感圖像,但其中有標(biāo)記的圖像占比較小,這不利于使用深度學(xué)習(xí)方法去訓(xùn)練模型。因此,如何充分利用大量的未標(biāo)記樣本與少量的已標(biāo)記樣本去共同訓(xùn)練模型是我們所關(guān)心的問題[5]。
有一種利用未標(biāo)記數(shù)據(jù)去訓(xùn)練模型的思路是這樣的:利用已標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)的相似度,對(duì)未標(biāo)記的數(shù)據(jù)添加標(biāo)簽,從而獲得大量的有標(biāo)簽數(shù)據(jù)去訓(xùn)練模型。聚類算法往往就是根據(jù)數(shù)據(jù)的相似度實(shí)現(xiàn)數(shù)據(jù)的聚類,這就使得通過數(shù)據(jù)聚類再加上一定的賦予標(biāo)簽規(guī)則利用未標(biāo)記數(shù)據(jù)成為了可能。高斯混合模型(GMM)[6-7]是一種聚類算法,模型假設(shè)觀測(cè)數(shù)據(jù)來自于K個(gè)m維的高斯分布,其中K為數(shù)據(jù)分類的類別數(shù)目,m為數(shù)據(jù)的特征數(shù)目。與常用的K均值算法相比,GMM假設(shè)的模型分布一般與數(shù)據(jù)的真實(shí)分布更加一致。文獻(xiàn)[8]提出基于集成聚類的分類架構(gòu)并取得了較好的效果,但是并未給出如何將集成聚類思想應(yīng)用于解決少標(biāo)記樣本分類問題的方法。本文將結(jié)合集成GMM聚類算法與標(biāo)簽傳遞思想,提出一種用于解決少標(biāo)記樣本圖像分類問題的理論框架,更好地利用未標(biāo)記的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。
在本課時(shí)正文的第二段,類比三角形全等的判定,教材以問題“類似地,判定兩個(gè)三角形相似時(shí),是不是也存在簡(jiǎn)便的判定方法泥”引出探究話題(定理1).在探索定理1時(shí),教材安排了對(duì)圖1中l(wèi)1, l2,被三條平行線l3,l4,l5截得的線段長(zhǎng)度的度量和長(zhǎng)度比值的計(jì)算,讓學(xué)生通過反復(fù)操作與運(yùn)算,發(fā)現(xiàn)并歸納基本事實(shí)(即定理1).為了引出“平行判定法”,教材在得出定理1后,將圖1中的兩根相交直線特殊化,將其交點(diǎn)挪到了這組平行線的一條直線上,形成了圖2、圖3,并據(jù)圖2、圖3歸納出定理2.
本文結(jié)合無監(jiān)督聚類算法與標(biāo)簽傳遞的思想對(duì)未標(biāo)記數(shù)據(jù)添加標(biāo)簽,然后將這些擁有標(biāo)簽的數(shù)據(jù)用于訓(xùn)練分類器,方案的總體框架如下:
1) 采用GMM對(duì)少標(biāo)記樣本的特征數(shù)據(jù)進(jìn)行聚類,無標(biāo)簽數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)都會(huì)被用于聚類。
2) 基于標(biāo)簽傳遞的思想,確定給無標(biāo)簽數(shù)據(jù)賦予標(biāo)簽的規(guī)則,采用投票表決的方式對(duì)無標(biāo)簽數(shù)據(jù)賦予標(biāo)簽。
本組收治的患者共20例,男14例,女6例,年齡在17-62歲之間,平均年齡(42.26±2.15),全部患者均符合肺膿腫的診斷標(biāo)準(zhǔn)。其中吸入性肺膿腫患者13例,血源性肺膿腫患者4例,繼發(fā)性肺膿腫患者3例。患者的主要臨床表現(xiàn)為起病急驟、高熱、寒戰(zhàn)、咳嗽、胸痛、氣急等。
3) 將獲得的大量的有標(biāo)簽數(shù)據(jù)用于訓(xùn)練分類器。
分別準(zhǔn)確稱取0.0100 g(精確至0.0001 g)螺蟲乙酯和 4種代謝產(chǎn)物標(biāo)準(zhǔn)品,用乙腈溶解并定容至100.00 mL,分別配制成100 mg/L的標(biāo)準(zhǔn)品儲(chǔ)備液,于-20 ℃下避光保存。分別移取各標(biāo)準(zhǔn)儲(chǔ)備液2.5 mL至10 mL容量瓶中,用乙腈定容,配成25.00 mg/L標(biāo)準(zhǔn)工作液,即用即配。
4) 對(duì)得到的分類器進(jìn)行評(píng)估。
假設(shè)觀測(cè)數(shù)據(jù)y1,y2,…,yN由高斯混合模型生成
(1)
2) EM算法的E步:確定Q函數(shù)
1) 明確隱變量,寫出完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù)
可以設(shè)想觀測(cè)數(shù)據(jù)yj,j=1,2,…,N,是這樣產(chǎn)生的:首先依概率αk選擇第k個(gè)高斯分布模型;然后依第k個(gè)高斯分布模型的概率分布φ(y|θk)生成觀測(cè)數(shù)據(jù)yj,這時(shí)觀測(cè)數(shù)據(jù)yj,j=1,2,…,N,是已知的;反映觀測(cè)數(shù)據(jù)yj來自第k個(gè)分模型的數(shù)據(jù)是未知的,以隱變量γjk表示,其定義如(2)式所示
j=1,2,…,N;k=1,2,…,K
(2)
有了觀測(cè)數(shù)據(jù)yj及未觀測(cè)數(shù)據(jù)γjk,那么完全數(shù)據(jù)是
(yj,γj1,γj2,…,γjK),j=1,2,…,N
于是,可以寫出完全數(shù)據(jù)的似然函數(shù)如(3)式所示
(3)
本文以分類器的分類準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
式中,θ=(α1,α2,…,αK;θ1,θ2,…,θk),使用EM算法估計(jì)高斯混合模型的參數(shù)θ。
2013年,我縣共落實(shí)國家級(jí)玉米高產(chǎn)示范區(qū)五個(gè),選擇了遼單565、良玉88、聯(lián)達(dá)288、鄭單958、農(nóng)華101等耐密玉米新品種為主栽品種。全縣五個(gè)示范區(qū)平均851 kg/667 m2,對(duì)照田平均732.5 kg/667 m2,增產(chǎn)16.2%。
(4)

j=1,2,…,N;k=1,2,…,K
(5)


(6)
3) 確定EM算法的M步
迭代的M步是求Q函數(shù)對(duì)θ的極大值,即求新一輪迭代的模型參數(shù)
(7)
由于CNN模型的訓(xùn)練需要大量的已標(biāo)記樣本,因此在少標(biāo)記樣本分類器的訓(xùn)練過程中需要想辦法把未標(biāo)記數(shù)據(jù)利用起來,也就是需要給出未標(biāo)記樣本賦予標(biāo)簽的規(guī)則。標(biāo)簽傳遞思想假設(shè)擁有類似特征的數(shù)據(jù)有著相同的標(biāo)簽,本文基于標(biāo)簽傳遞的思想,結(jié)合GMM聚類結(jié)果,采用投票表決的方式賦予未標(biāo)記樣本標(biāo)簽。
(8)
重復(fù)計(jì)算E步及M步,直到對(duì)數(shù)似然函數(shù)值不再有明顯變化為止。
謝彥君教授曾提出鄉(xiāng)村旅游可持續(xù)發(fā)展的新理念應(yīng)像呵護(hù)“姆庇之家”一樣,不應(yīng)隨意“造假”,應(yīng)打造具備自身特色和認(rèn)同感的活性鄉(xiāng)村文化體驗(yàn)[9]。竇志萍等揭示現(xiàn)今旅游消費(fèi)者的一種新型需求動(dòng)機(jī)——“鄉(xiāng)愁旅游”,尋找鄉(xiāng)愁、發(fā)現(xiàn)鄉(xiāng)愁、留住鄉(xiāng)愁、享受鄉(xiāng)愁成為現(xiàn)階段的一種旅游時(shí)尚;留住鄉(xiāng)愁與享受鄉(xiāng)愁是鄉(xiāng)村旅游的一個(gè)重要環(huán)節(jié),即“鄉(xiāng)居”[10]。
在高速公路路基的實(shí)際施工過程中,通常會(huì)出現(xiàn)不同程度的高度差,又由于路基排水系統(tǒng)存在一定的問題,這就會(huì)導(dǎo)致出現(xiàn)雨水等外界水在路基內(nèi)積存的問題,并且會(huì)隨著時(shí)間的推移,慢慢出現(xiàn)滲透至路基內(nèi)部的問題,這就會(huì)在內(nèi)部結(jié)構(gòu)中和水產(chǎn)生某些反應(yīng),進(jìn)而使公路出現(xiàn)軟化的現(xiàn)象。

因?yàn)镚MM聚類的結(jié)果是服從同一個(gè)高斯分布的數(shù)據(jù)聚為一類,因此可以合理地假設(shè)同一類數(shù)據(jù)有著相同的標(biāo)簽。接下來的問題就是如何給某一類數(shù)據(jù)賦予標(biāo)簽。本文提出2種投票表決的思路。
思路一經(jīng)過GMM聚類之后,依次在每個(gè)類別中查看已標(biāo)記樣本類別標(biāo)簽的比例,將這一類的標(biāo)簽賦為已標(biāo)記樣本類別標(biāo)簽比例最大的那個(gè)標(biāo)簽。以有著少量已標(biāo)記樣本手寫數(shù)字識(shí)別為例,將聚類的結(jié)果編號(hào)為1~10,如果1號(hào)類別中的已標(biāo)記樣本類別標(biāo)簽比例最大的標(biāo)簽為5,那么就將1號(hào)類別中的未標(biāo)記數(shù)據(jù)標(biāo)簽賦為5。思路一的示意圖如圖1所示。

圖1 思路一示意圖
思路二經(jīng)過GMM聚類之后,利用聚好類的模型依次對(duì)每一類已標(biāo)記樣本的類別標(biāo)簽進(jìn)行預(yù)測(cè),可以得到預(yù)測(cè)類別占比最大的類別編號(hào),將占比最大的類別編號(hào)中的未標(biāo)記數(shù)據(jù)賦為本次進(jìn)行預(yù)測(cè)的類別標(biāo)簽。以有著少量已標(biāo)記樣本手寫數(shù)字識(shí)別為例,將聚類的結(jié)果編號(hào)為1~10,對(duì)已標(biāo)記樣本的0~9分別進(jìn)行預(yù)測(cè),如果已標(biāo)記樣本中有著標(biāo)簽0的數(shù)據(jù)預(yù)測(cè)類別占比最大的類別編號(hào)是5,那么就將聚類結(jié)果編號(hào)為5的數(shù)據(jù)標(biāo)簽賦為0。思路二的示意圖如圖2所示。

圖2 思路二示意圖
思路一與思路二的比較:由于思路一的判斷規(guī)則是依次在每個(gè)類別中查看已標(biāo)記樣本類別標(biāo)簽的比例,將這一類的標(biāo)簽賦為已標(biāo)記樣本類別標(biāo)簽比例最大的那個(gè)標(biāo)簽,因此如果已標(biāo)記樣本的標(biāo)簽分布不均時(shí)會(huì)造成算法的適應(yīng)性較差。仍以手寫數(shù)字識(shí)別為例,如果已標(biāo)記樣本中數(shù)字5的數(shù)量過多,有可能會(huì)出現(xiàn)數(shù)字5在多個(gè)聚類結(jié)果上都是已標(biāo)記樣本中占比最大的從而把多個(gè)聚類結(jié)果的數(shù)據(jù)都賦為5的情況。為了解決這個(gè)問題,應(yīng)當(dāng)要求已標(biāo)記樣本類別標(biāo)簽分布應(yīng)是大致均衡的。思路二則不會(huì)出現(xiàn)思路一的問題,算法的適應(yīng)性要好于思路一,此外,思路二也比思路一更加易于實(shí)現(xiàn),因此,本文采用思路二確定的投票規(guī)則對(duì)未標(biāo)記數(shù)據(jù)賦予標(biāo)簽。
本文基于建筑類高校環(huán)境工程專業(yè)的特點(diǎn),介紹環(huán)境影響評(píng)價(jià)課程的開設(shè)情況,結(jié)合筆者多年的教學(xué)理論研究和實(shí)踐,從課程定位、圍繞建筑類高校環(huán)境類專業(yè)培養(yǎng)目標(biāo)強(qiáng)化課程教學(xué)、強(qiáng)化實(shí)際環(huán)境影響評(píng)價(jià)項(xiàng)目實(shí)踐以及加強(qiáng)同建筑類高校環(huán)境工程專業(yè)的交流等方面進(jìn)行探討。
由于GMM算法易受初始條件的影響,算法的穩(wěn)定性不好。為了解決這一問題,本文采用集成的思想,綜合多個(gè)GMM的聚類結(jié)果對(duì)未標(biāo)記數(shù)據(jù)賦予標(biāo)簽,只有多個(gè)GMM的聚類結(jié)果中賦予標(biāo)簽的那個(gè)眾數(shù)在GMM總數(shù)的占比超過一定閾值時(shí)才將對(duì)應(yīng)的數(shù)據(jù)及標(biāo)簽加入到訓(xùn)練數(shù)據(jù)集。例如,采用3個(gè)GMM集成聚類,依據(jù)投票規(guī)則確定標(biāo)簽,可以設(shè)定只有當(dāng)2個(gè)及以上GMM模型確定的標(biāo)簽為同一值時(shí)才將這個(gè)數(shù)據(jù)及對(duì)應(yīng)標(biāo)簽加入到訓(xùn)練集。此外,為了使集成的結(jié)果有利于分類準(zhǔn)確率的提高,應(yīng)該保證每一個(gè)GMM對(duì)有標(biāo)記數(shù)據(jù)的預(yù)測(cè)標(biāo)簽準(zhǔn)確率大于50%,本文實(shí)驗(yàn)中將這一數(shù)值設(shè)為60%。
2) 將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,本文中選取打亂順序之后的新數(shù)據(jù)集的前1 500個(gè)樣本作為訓(xùn)練數(shù)據(jù)集,后297個(gè)樣本作為測(cè)試數(shù)據(jù)集。
本文的實(shí)驗(yàn)數(shù)據(jù)集采用python的機(jī)器學(xué)習(xí)工具包sklearn中自帶的手寫數(shù)字集digists,digists數(shù)據(jù)集采集了43人的手寫數(shù)字,共包含1 797個(gè)0~9的數(shù)字,每個(gè)數(shù)字由8*8的矩陣構(gòu)成,矩陣中的元素取值范圍是0~16,代表圖像的灰度值。
心血管疾病主要是指由血液粘稠、動(dòng)脈粥樣化、高脂血癥或者高血壓等疾病所致的心臟及全身組織發(fā)生缺血性或出血性的疾病,具有發(fā)病率高、致殘率和致死率高的特點(diǎn),臨床主要以心悸、胸痛、頭痛和惡心嘔吐等為特征,嚴(yán)重危害著患者的生命健康[1]。本次研究主要分析將社區(qū)公共衛(wèi)生護(hù)理干預(yù)應(yīng)用于心血管疾病的護(hù)理中,并觀察其應(yīng)用效果,現(xiàn)報(bào)告如下。

1) 將數(shù)據(jù)集打亂順序,形成新的數(shù)據(jù)集,以便多次進(jìn)行驗(yàn)證實(shí)驗(yàn)。
②局部性病變。主要包括:復(fù)雜的尿道和陰莖病變導(dǎo)致無法置入電切鏡的患者;無法采用截石位的患者;合并巨大膀胱憩室,需開放手術(shù)一并處理者。合并體積較大的膀胱腫瘤,不宜與前列腺同時(shí)處理,應(yīng)先切除腫瘤后再考慮TUPKP手術(shù)。PSA異常、MRI或肛門指檢異常,懷疑前列腺癌的患者,應(yīng)首先通過前列腺穿刺活檢排除腫瘤;對(duì)于有神經(jīng)系統(tǒng)疾病、脊髓外傷等相關(guān)病史的患者應(yīng)進(jìn)行尿動(dòng)力學(xué)檢查以排除神經(jīng)源性膀胱。
3) 將訓(xùn)練數(shù)據(jù)分為有標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)。
對(duì)于行政事業(yè)單位資產(chǎn)管理和預(yù)算管理,國家已經(jīng)多次提出要對(duì)預(yù)算制度進(jìn)行深化改革,使資產(chǎn)預(yù)算更準(zhǔn)確,能夠真正發(fā)揮它的作用。然而要想完善該體制就要將資產(chǎn)管理做到細(xì)化,與預(yù)算管理有效結(jié)合,這一管理方法能夠更好地保護(hù)國有資產(chǎn)不流失,對(duì)資產(chǎn)預(yù)算的準(zhǔn)確編制來管理資產(chǎn),是國家財(cái)政管理的必然要求。
4) 利用集成GMM聚類并結(jié)合投票規(guī)則對(duì)無標(biāo)記數(shù)據(jù)賦予標(biāo)簽,并將有標(biāo)記數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集1,將有標(biāo)記數(shù)據(jù)與賦予了標(biāo)簽的無標(biāo)記數(shù)據(jù)合并為訓(xùn)練數(shù)據(jù)集2。
5) 將訓(xùn)練數(shù)據(jù)集1與訓(xùn)練數(shù)據(jù)集2分別經(jīng)過具有相同結(jié)構(gòu)的CNN進(jìn)行分類器的訓(xùn)練,并對(duì)測(cè)試集進(jìn)行分類,對(duì)二者的分類準(zhǔn)確率進(jìn)行比較研究。
本文采用的CNN結(jié)構(gòu)示意圖如圖3所示。示意圖中C表示卷積層,S表示池化層,F表示全連接層。卷積層的濾波器尺寸為3*3,在卷積層之后有著激活函數(shù),本文激活函數(shù)均采用ReLU方法,池化層的濾波器尺寸為2*2,采用最大值池化。為了避免訓(xùn)練過程中模型的過擬合,全連接層與輸出層之間的連接采用一定比例的隨機(jī)失活,本文中的實(shí)驗(yàn)隨機(jī)失活比例設(shè)為0.5。本文的損失函數(shù)為交叉熵。

圖3 本文CNN結(jié)構(gòu)示意圖
實(shí)驗(yàn)一 本次實(shí)驗(yàn)選取3個(gè)GMM模型作為基聚類器,當(dāng)3個(gè)基聚類器中有2個(gè)及以上依據(jù)投票規(guī)則對(duì)未標(biāo)記數(shù)據(jù)賦予的標(biāo)簽相同時(shí),將這個(gè)未標(biāo)記數(shù)據(jù)及其被賦予標(biāo)簽的眾數(shù)作為訓(xùn)練數(shù)據(jù)添加到訓(xùn)練集中。將有標(biāo)記樣本的數(shù)目設(shè)置為樣本類別數(shù)目10的3,5,8,10,30倍,分別對(duì)只用有標(biāo)記樣本訓(xùn)練和結(jié)合集成GMM聚類訓(xùn)練的CNN分類器進(jìn)行了多次訓(xùn)練,并對(duì)平均準(zhǔn)確率進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 3個(gè)GMM集成準(zhǔn)確率對(duì)比圖
實(shí)驗(yàn)二 本次實(shí)驗(yàn)選取5個(gè)GMM模型作為基聚類器,當(dāng)5個(gè)基聚類器中有4個(gè)及以上依據(jù)投票規(guī)則對(duì)未標(biāo)記數(shù)據(jù)賦予的標(biāo)簽相同時(shí),將這個(gè)未標(biāo)記數(shù)據(jù)及其被賦予標(biāo)簽的眾數(shù)作為訓(xùn)練數(shù)據(jù)添加到訓(xùn)練集中。將有標(biāo)記樣本的數(shù)目設(shè)置為樣本類別數(shù)目10的3,5,8,10,30倍,分別對(duì)只用有標(biāo)記樣本訓(xùn)練和結(jié)合集成GMM聚類訓(xùn)練的CNN分類器進(jìn)行了多次訓(xùn)練,并對(duì)平均準(zhǔn)確率進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖5所示。
對(duì)于代孕,世間有著各種看法:保守主義者認(rèn)為,這是在玩弄生命的奇跡;而女權(quán)主義者則將代孕母親比作妓女,認(rèn)為她們是在出租自己的身體。

圖5 5個(gè)GMM集成準(zhǔn)確率對(duì)比圖
整體的實(shí)驗(yàn)結(jié)果如表1所示。

表1 不同方式訓(xùn)練的分類器準(zhǔn)確率
實(shí)驗(yàn)結(jié)果分析:從實(shí)驗(yàn)結(jié)果可以看出,在有標(biāo)記樣本數(shù)目較少時(shí),結(jié)合集成GMM聚類訓(xùn)練得到的分類器要比只用少量有標(biāo)記數(shù)據(jù)訓(xùn)練得到的分類器分類準(zhǔn)確率有著較大提高,說明本文提出的用于解決少標(biāo)記樣本圖像分類方案的有效性。隨著有標(biāo)記樣本數(shù)目的提高,只用有標(biāo)記樣本訓(xùn)練的分類器分類準(zhǔn)確率不斷提高,而結(jié)合集成GMM聚類所訓(xùn)練的分類器分類準(zhǔn)確率則變化不大。當(dāng)有標(biāo)記樣本數(shù)目超過一定值之后,只用有標(biāo)記樣本訓(xùn)練的分類器分類準(zhǔn)確率要高于結(jié)合集成GMM聚類所訓(xùn)練的分類器分類準(zhǔn)確率,這是因?yàn)镚MM算法本身有一定的聚類誤差,當(dāng)將賦予標(biāo)簽有誤的樣本作為訓(xùn)練樣本時(shí),導(dǎo)致分類器學(xué)到了噪聲從而使分類準(zhǔn)確率降低。對(duì)比實(shí)驗(yàn)一與實(shí)驗(yàn)二,通過增加基聚類器數(shù)目確實(shí)可以增加分類準(zhǔn)確率,但提升效果并不明顯。
本文基于集成GMM聚類及標(biāo)簽傳遞的思想,提出了用于解決少標(biāo)記樣本圖像分類的解決框架,經(jīng)過實(shí)驗(yàn)驗(yàn)證了在有標(biāo)記樣本數(shù)目較少時(shí),結(jié)合集成GMM聚類比只用少量的已標(biāo)記數(shù)據(jù)訓(xùn)練分類器得到的分類準(zhǔn)確率有了較大的提升。本文一開始想要解決少量標(biāo)記樣本圖像分類問題時(shí)想到了用聚類的方法去輔助分類,但沒有認(rèn)識(shí)到GMM聚類算法雖然相對(duì)而言聚類效果不錯(cuò),但聚類結(jié)果也存在不穩(wěn)定的問題,之后想到可以用集成的思想去減小聚類誤差,經(jīng)過實(shí)驗(yàn)集成聚類的效果確實(shí)更加穩(wěn)定與有效。從實(shí)驗(yàn)結(jié)果可知,聚類的準(zhǔn)確率對(duì)分類器的訓(xùn)練有著較大影響,因此,論文以后的研究重點(diǎn)將放在:(1)探索提高聚類效果的方法,例如將遺傳算法用于GMM參數(shù)的獲取(2)探索如何將已知信息引入到聚類的過程中,實(shí)現(xiàn)有監(jiān)督聚類的有效途徑(3)在更加困難的數(shù)據(jù)集上進(jìn)行算法有效性的測(cè)試。
西北工業(yè)大學(xué)學(xué)報(bào)2019年3期