王 宇,李延暉
(華中師范大學信息管理學院,武漢430079)
從PC時代到移動互聯時代,從移動互聯網到產業互聯網,各行各業的數據正以前所未有的速度在累計,大數據受到越來越多的關注.在由數據驅動的情報創新研究中,如:情報分析與智能服務、信息行為與用戶畫像、信息可視化與社交媒體信息傳播等,眾多學者已經進行了全面深入的研究.其中大多數研究是以文本內容為主并且已經形成了成熟的框架體系[1].圖像作為一類重要的信息載體,相比文本而言具有生動形象,直觀清晰的特點,同時蘊含著更加豐富的信息,對這些海量的圖像數據進行挖掘利用對于具有很重要的價值.已有學者在網絡輿論監測、情感識別、推薦系統、隱私保護、信息檢索等方向取得一些成果,如:詹必勝等針對數字圖像文件設計出一種新的輿情信息安全體系[2].曾金等對網站新聞圖像情感傾向進行了分析研究[3].陳芬等提出了一種視覺情感識別模型,并實現了通過圖文結合的方式向用戶推薦符合其情感需求的電影[4].王樹義等構建出了社交網絡圖像隱私自動分類器,可以對社交媒體用戶進行隱私暴露預警提示[5].包翔和劉桂鋒提出一種基于特征包的圖像檢索系統框架,并通過數字圖書館的圖像資源進行了實證檢驗[6].相比于較為成熟的文本數據分析,利用圖像進行科學研究還有很大的空間.
隨著互聯網數據的大爆發,獲得大量未標記樣本變得越來越容易,相反地獲得有標記樣本卻變得越來越困難.半監督學習(semi-supervised learning)[7]可以將少量有標記樣本和大量未標記樣本有機地利用起來,利用未標記樣本數據中蘊含的有用結構信息輔助學習,不僅可以解決標記樣本不足的現實問題,而且可以有效提高分類器的性能,提升分類的精度和效率.本研究提出一種基于半監督學習的分類算法,利用少量標記樣本數據作為初始訓練樣本,使用大量未標記的樣本輔助學習,提高分類器的泛化性能,實現分類精度的提升,希望能為情報信息領域的數據分析提供一定的借鑒意義.
半監督分類主要使用大量的無標簽數據來提高分類器的性能和泛化能力,在文本分類、圖像處理、醫學診斷和感興趣信息推薦等領域中有廣泛的應用,主要有四種主流類型[8],包括基于生成式模型的方法、半監督 SVM 方法、基于圖的方法和基于分歧的方法.
一般認為,半監督學習的研究開始于Shahshahani和Landgrebe[9],首次提出了半監督學習的概念,并通過建立未標注數據和學習目標之間的聯系,提升了學習的泛化性能.李寧寧[10]使用半監督協同訓練方法進行文本感情分類,利用未標記的數據,選取電子商務和醫療社交媒體兩個應用領域,證明半監督協同訓練方法在不同數據分布情況下取得了較好的效果.李村合等[11]使用半監督支持向量機對E-MIMLSVM+算法進行改進,利用少量有標簽樣本和大量沒有標簽的樣本進行學習,有助于發現樣本內部隱藏的結構信息,證明改進后的算法有效提高分類器的泛化性能.高飛等[12]提出了基于樣本類別確定度(CSS)的半監督分類算法,利用SAR圖像測試,證實利用少量標記樣本實現分類精度優于監督分類.趙建華[13]采用3個分類器作為基礎分類器,使用無標記樣本的信息輔助學習,增強分類器的差異性,同時保證較小的分類器分別分類誤差.韓彥嶺等[14]結合主動學習和半監督學習,篩選出最優代表性的半標簽樣本,應用于海冰圖像分類,實現了較高的分類精度,有效的解決了遙感海冰分類樣本少的問題.戴斌等[15]提出多類型文本的半監督性別分類方法,基于微博產生的不同類型的文本對用戶的性別進行分類,使用協同訓練的半監督學習方法,利用未標記樣本數據輔助學習,實驗結果表明其優于其他現有的半監督性別分類算法.劉欣媛[16]利用半監督學習自動標注語音數據,然后使用按需加權決策樹分類優化模型,實現了在小樣本的訓練數據情況下,實現了較好的準確性.在圖像分類領域,半監督結合深度學習的算法[17-18]也受到廣泛的關注,由于其在少量標注的樣本數據情況下借助大量無標記數據可以實現較好的分類精度.
相較于一般的協同訓練,本文方法主要在樣本正確性判別和多樣性增強方面進行了如下改進:1)利用了兩個分類器的預測標簽一致作為高置信度的判斷條件;2)同時引入確定度閾值作為約束條件,在確保樣本高置信度的前提下,篩選出更具有代表性和多樣性的樣本,提高分類器的泛化性能.以手寫數字數據和Landsat土壤數據作為數據集的實驗表明,本文提出的基于多分類器協同的半監督樣本選擇方法可有效提高分類器的泛化能力,提升分類的精度.
半監督學習(semi-supervised learning,SSL)的主要思想是在少量標記樣本情況下,通過引入大量的未標記樣本數據輔助模型學習,以避免模型在訓練集上出現過擬合等情況,解決監督學習模型泛化能力弱的問題.

因此,半監督分類就是利用U和UC構造一個盡可能反映樣本特征和標簽真實關系的分類器,由貝葉斯公式可得:

(1)
后驗概率P(yi│x)代表在輸入樣本特征x的條件下,其標記為yi的概率,其值越大,表明該樣本真實標簽是yi的可能性越大.先驗概率P(yi)和P(x|yi)可以從標記樣本集U中統計得到.當我們有大量未標記樣本的時候,可以使得計算得到P(x)更加精確,使得最后求得的后驗概率P(yi│x)更為精確,相應的分類器的泛化性能也得到提高.
Miller等[19]在1996年從理論上證明了未標記樣本可以在分類過程中影響分類器的性能.雖然無標記樣本沒有包含樣本的標簽信息,但其有與標記樣本相似的特征信息分布,可以有效輔助模型識別類別.圖1顯示了無標記樣本輔助模型提升泛化能力的直觀示例.類別A和B是兩個類別,有標記樣本和未標記樣本,當僅使用有標記樣本建立分類器時,分類器決策邊界為紅色虛線,而加入未標記樣本后,分類模型的決策邊界根據樣本的分類密度重新調整(黑色實線),決策邊界向右移動,使得分類器的泛化能力提高.
2.2.1 支持向量機(support vector machines,SVM) SVM是由Vapnik[20]領導的AT&T Bell實驗室研究小組在20世紀60年代提出的一種新的監督分類技術.SVM是一種基于統計學習理論的新型機器學習方法,以結構風險最小化為理論基礎,其本質的思想是核函數方法,其被廣泛應用于解決小樣本、高維度、非線性和局部極小值等領域[21].
SVM通常用來分析線性問題,對于線性不可分問題可在高維空間內轉化為線性可分問題,構造最優分類面.其目標就是要根據結構風險最小化原理構造目標函數,將樣本盡可能地區分開來,通常分為兩類情況來討論:
1)線性可分.在線性可分的情況下,存在一個超平面使得訓練樣本完全分開.分割超平面可描述為:
ωTx+b=0,
(2)
其中,ω是n維法向量,可以決定超平面的方向,b為偏移量,決定超平面與原點之間的距離.由于超平面是由法向量ω和位移b共同決定的,可將超平面記為(ω,b).
樣本集中的樣本x與分割超平面的距離r可表示為:
r=|ωTx+b|/‖ω‖.
(3)
最優超平面是使得支持向量與超平面之間的距離和最大.
2)線性不可分.對于線性不可分的情況,SVM引入核函數,其可以將輸入特征空間中的線性不可分問題轉化為高維空間中的線性可分問題,極大的提高分類器對非線性問題的處理能力.其次,高維空間中的內積運算均是通過原空間中的核函數來完成的,所以轉換為高維空間后只是改變了內積運算,并沒有增加算法的復雜度[22].
2.2.2 隨機森林(Random Forest,RF) RF算法主要是通過集成學習的思想將多個決策樹分類器集成到一起,對于每一個輸入的訓練樣本,隨機森林都會產生N個分類預測結果,通過眾數投票得到最后的識別結果.隨機森林和Bagging算法類似,但是RF算法采用隨機選擇屬性方法,先從特征集中選擇特征子集,再根據每個決策樹選擇最優屬性.RF算法結合多顆決策樹,然后采用投票策略,相比于單一決策樹,其泛化能力得到很大的提升.
RF算法的流程如下:
① 利用Bootstrap從樣本集中隨機選擇T個訓練集,S1,S2,…,ST;
②使用以上的訓練集生成決策樹C1,C2,…,CT,從K個屬性中隨機選擇的k個屬性(k ③T顆決策樹形成隨機森林,通過投票表決形成最終的預測類別,具體投票的時候,得票最多的類別為隨機森林的最終結果: (4) 其中,H(x)表示最終的輸出結果,hi(x)表示單個決策樹,I表示示性函數,Y表示輸出變量. 2.3.1 算法輸入 1)使用兩個分類算法作為監督算法,分別是SVM(支持向量機)和RF(隨機森林),用于協同訓練; 2.3.2 算法步驟 協同訓練得到增強樣本集的算法過程如下(流程如圖2所示): 圖2 樣本增強算法流程 Fig.2 Sample enhancement algorithm flow ①樣本在兩個分類器中的預測標簽一致: (5) ②樣本si在兩個分類器中的確定度滿足: (6) 其中,Cersik代表樣本si的基于分類器k的確定度,其值等于分類器預測某個樣本屬于各類別后驗概率中的最大值與次大值之差,表示某個樣本屬于這一類別的可能性,值越大,表明分類器對該樣本的預測越準確;當采用確定度和后驗概率分別從候選無標簽樣本中選擇高置信度樣本時,確定度作為置信度判別標準,可以剔除分類器類別交界處低置信度的樣本,篩選出可信度高的樣本;ρ為設定的確定度閾值,需要人為調整. (7) (8) 5)剔除候選樣本集中的增強樣本: (9) (10) (11) 7)最后的增強樣本集: (12) 其中,T為最后的迭代次數,D為最終半監督方法的增強樣本集. 本算法采用了SVM和RF算法協同訓練,采用了預測標簽一致性和高確定度作為樣本正確性的判別標準,加入了確定度最小值約束篩選出更加多樣性的增強樣本. 為了證明算法的有效性,采用Mnist數據集[23]和Landsat土壤數據集作為訓練測試的樣本集.Mnist手寫數字示例如圖3所示,總共有70 000個樣本,每一個樣本是28×28像素大小的圖像,數值(整數)范圍在0~255之間,標簽為0~9,各個數字比例如表1所示,數據下載網址:http://yann.lecun.com/exdb/mnist/.Landsat. 表1 Mnist數據集說明Tab.1 Description of Mnist data set 圖3 Mnist字符庫部分樣本Fig.3 Some samples of Mnist character library 土壤數據集共有6 435個標記樣本,每個樣本有一個土壤標簽和與之對應的36個屬性.數據集中采用3×3鄰域中9個像素的多光譜值作為屬性值,每個鄰域中的中心像素的類別標記為場景的類別.數據集共含有6個類別,各類別比例及含義如表2所示,數據下載及詳細介紹的網址:http://archive.ics.uci.edu/ml/datasets.php. 表2 Landsat土壤數據集說明Tab.2 Description of Landsat soil data set 本實驗中,Mnist數據集和Landsat土壤數據集的每一類別訓練樣本分別為60個和200個,測試樣本分別為1 000個和200個,其余樣本剔除標簽作為候選樣本集.為了保證本算法的科學性[24],使訓練樣本和測試樣本的概率分布一致,訓練樣本和測試樣本均采用隨機選擇的方法得到. 對于半監督樣本增強效果的評價,主要是考量增強樣本集是否使得分類器泛化性能提高,因此,一般采用監督分類對測試樣本集預測結果,并進行精度評價.監督學習采用兩個分類器(SVM和RF)投票得到最后的預測標簽,具體投票規則如下: (13) 該投票思路是分類器預測樣本得到確定度大的預測標簽即為最終的投票預測標簽. 本文基于準確率(accuracy)評價訓練樣本對分類器泛化性能的影響,精度越大,表明構建分類器模型泛化性能越好.對于給定的測試集,準確率等于分類器正確預測樣本數與測試集總樣本數之比: (14) 其中,TPi是指被分類器正確分類的測試類別i的樣本數目,n是總類別數,P是測試樣本總數. 3.3.1 半監督學習結果 根據提出的算法,本實驗設置如下參數:確定度變化閾值ε=0.01,確定度最大閾值ρmax=0.7,最小閾值ρmin=0.3.候選樣本集的平均確定度隨著迭代次數變化結果如圖4所示.圖4(a)和(b)分別表示了Mnist數據集和Landsat土壤數據集的確定度變化情況,可以看到隨著迭代次數的增加,兩個數據集的平均確定度在逐漸增加,且初始迭代時的增量較大(最大值分別為0.037和0.047),后續迭代過程中逐漸趨于穩定,當確定度增量(分別為0.005和0.006 3)小于預設值0.01,停止迭代.確定度隨著迭代次數由快到慢的逐漸增加,表明隨著分類器不斷的學習,由增強樣本構建的分類器模型對未標記樣本預測置信度逐漸增加.為了驗證半監督學習對分類器泛化性能的提升,用每一次迭代得到的增強樣本構建分類器,預測測試集標簽并計算精度,得到圖5所示結果.從圖5中可以看出,隨著迭代次數的增加,分類器預測準確率在兩個數據集上均呈現逐漸增加趨勢,而且開始時增加速度較快,反映了分類器的泛化能力隨著半監督學習過程逐漸提升. 圖4 候選集樣本平均確定度變化((a)數據集,(b)數據集)Fig.4 Changes in the average certainty of the candidate set samples ((a)Mnist data set,(b)Landsat data set) 圖6顯示了兩個數據集中增強樣本數目的變化,經過初次迭代后,Mnist數據集樣本總數由600增長到12 398,而Landsat土壤數據集樣本總數由1 200增長到1 703,隨著迭代次數增加,增長速度逐漸變慢.由圖5和圖6的對比分析可以發現,增強樣本數目和模型準確率變化趨勢一致,主要是由于增強樣本開始時的快速增長,導致樣本多樣性增加,進一步使得構建分類性能提升,后面增強樣本的數量趨于穩定,其所構建模型的準確率也平穩變化,趨于穩定.為了更直觀地驗證半監督學習的效果,圖7對比了兩個數據集中原始訓練樣本和增強樣本構建分類器分別預測測試集樣本的準確率,發現全部類別的準確率都得到提升.兩個數據集的總體準確率分別提升5.97%和7.02%,Mnist數據集中數字5這類準確率提升最高(提升11.9%,從79.3%到91.2%),Landsat土壤數據集中土壤3這一類準確率提升最明顯(提升15.8%,從73.5%到89.3%),說明本文提出的協同半監督方法可以有效利用未標記樣本,在多個數據集上實現分類器泛化能力的提升. 圖5 增強樣本構建模型的精度變化((a)數據集,(b)數據集)Fig.5 Accuracy changes of the model built by enhanced samples ((a)Mnist data set,(b)Landsat data set) 圖6 增強樣本總數變化((a)數據集,(b)數據集)Fig.6 Changes in the total number of enhanced samples ((a)Mnist data set,(b)Landsat data set) 注:OA為所有類別總的準確率.圖7 半監督學習對分類器預測精度提升((a)數據集,(b)數據集)Fig.7 Semi-supervised learning to improve the prediction accuracy of the classifier ((a)Mnist data set,(b)Landsat data set) 3.3.2 最大確定度和分類類別數目對準確率的影響 為了探究最大概率和分類類別數對本方法的影響,做了如下研究:1)以0.1的間隔調整最大確定度值,探究確定度對最終分類器準確率變化的影響;2)將Mnist數據集分類類別減少為5類(原始類別的一半),探究對最終分類器準確率變化的影響. 表3顯示了兩個數據集中隨著最大確定度ρmax的變化,由增強樣本構建分類器的準確率和增強樣本數變化.由圖可知當ρmax分別為0.5和0.6時,兩個數據集的分類器準確率均有最大值,ρmax為0.9時,分類器準確率最小,增強樣本數最少.最大確定度閾值越大,表明篩選條件越嚴格,增強樣本數也就越少,這樣對未標記樣本的利用就少,因此對最終分類器的準確率提升有限;但是隨著最大確定度閾值的降低,更多的樣本會被納入到增強樣本中,同時也有一些錯誤樣本篩選進來,導致分類器的準確率降低.因此,選擇合適的篩選準則對分類器泛化性能提升有一定的影響. 表3 最大確定度對分類準確率的影響Tab.3 The influence of maximum certainty on classification accuracy 圖8顯示了基于Mnist手寫數據集中5個類別的半監督學習結果,利用增強前后的樣本分別構建SVM和RF分類器,然后采用確定度投票得到預測結果計算精度.圖8顯示所有的類別準確率都得到提升,同樣數字5這一類變化最大,準確率提升了13.6%,總體的準確率提升6%,與10個類別的效果相差不大.由于類別較少,分類任務簡單化,故原始樣本和增強樣本得到準確率都比10個類別的高.通過以上分析,可以得出分類任務中類別數目的變化對分類器泛化能力提升的影響較小. 圖8 分類器預測準確率變化Fig.8 The change of classifier's prediction accuracy 3.3.3 對比實驗分析 為了驗證本研究提出算法的有效性,本研究將提出的算法與常用的監督算法和半監督協同學習算法進行對比實驗.監督算法采用K最鄰近分類(K nearest neighbor,KNN),半監督學習算法采用Co-training和Co-forest作為對比算法.K最鄰近分類算法是較為成熟的監督學習算法[25],其基本運算思想是首先確定分類的最終類別數目,并確定特征空間,然后以待分類對象和訓練集樣本之間的距離作為判別標準,確定該待分類對象的k個最近“鄰居”,最后通過各個鄰居的類別判斷待分類對象的類別. 半監督學習中,Co-training和Co-forest是比較常見的半監督協同學習算法.Co-training的基本思想[26]是利用兩個分類算法根據數據集的不同視圖分別構建有分歧的分類器,實驗中采用SVM和RF作為基分類器,然后從未標記樣本中選擇一定數目置信度高的樣本增加到對方分類器的訓練樣本中,不斷迭代更新分類器,直到分類器不再變化.Co-Forest采用了集成學習的方式[27],以隨機樹作為基分類器的集成分類器,可以使未標記數據的置信度以更簡單有效的方式計算.對于單個基分類器hi(i∈{1,2,…,N}),它的協同分類器集合是Hi(除hi之外的所有子分類器).在迭代協同學習過程中,Hi可以將高置信度的未標記樣本不斷加入到基分類器hi訓練樣本中,從而提高基分類器hi的整體性能. 圖9顯示了不同分類方法在兩個數據集上的精度表現,KNN算法沒有進行樣本增強,僅利用了原始樣本進行了分類;而Co-training、Co-forest和本研究提出的算法均對原始樣本進行了增強,圖中所示的準確度是基于增強樣本的構建分類器得到的.如圖9所示,不同方法在兩個數據集中具有相似的表現,其中KNN僅利用了原始樣本集,因此,構建的分類器的泛化性較差,精度為各個方法中最低;而三種半監督方法由于利用了候選集中的未標記樣本信息,經過樣本增強后,分類精度都有較大的提升.本研究提出的算法具有最高的精度表現,在Landsat土壤數據集和Mnist手寫數據集上較Co-training分別提升4.97%和3.24%,較Co-forest分別提升3.64%和2.81%,進一步說明本研究提出算法的優越性.通過分析兩個數據集在不同方法的表現,可以發現各方法在Mnist數據集的精度高于Landsat土壤數據集,主要的原因是Landsat數據集類別均為土壤,區分難度較大,導致各分類算法的精度相對較低. 圖9 不同方法的分類方法精度對比Fig.9 Comparison of accuracy of classification methods of different methods 對圖像數據的分類算法研究對經濟社會和科學研究都具有重要意義,本文研究了一種半監督學習的樣本增強分類算法.利用兩個分類器協同訓練,以手寫數字和Landsat土壤數據作為測試數據集,通過多分類器預測標簽一致性和確定度約束兩個篩選規則,從未標記樣本集中篩選出最有代表性的樣本構成增強樣本集,以準確率為評價標準,驗證本算法對分類器泛化性能的影響.通過實驗,可以得到如下結論. 1)本文利用多分類器協同訓練,對未標記樣本預測標簽和類別確定度進行約束處理,可以保證篩選出樣本的可靠性和多樣性,并實現了對分類器泛化能力的提升. 2)對未標記樣本確定度取不同閾值,會影響增強樣本的正確性,進而影響構建分類器的準確率. 3)分類任務中類別的數目變化對半監督學習效果影響很小. 4)通過與KNN、Co-training和Co-forest算法的對比實驗,可以發現本研究提出的算法獲取的增強樣本在分類精度上有較明顯的優勢. 在后期的工作中,可以進一步探究在少樣本的情況下,利用半監督算法得到的增強樣本在深度學習算法中的應用,因為深度學習需要大量的訓練樣本,同時也有一定的容錯能力,故可以探究利用半監督學習和深度學習結合對分類準確率的提升效果.2.3 樣本增強算法流程







3 實驗及結果分析
3.1 數據集



3.2 算法評價指標

3.3 結果及分析







4 結論