鄭學偉
1遼寧廣播電視大學,(沈陽 110034)2遼寧裝備制造職業技術學院,(沈陽 110161)
傳統的自主學習需要一組足夠多的已標記樣例作為訓練集,否則無法獲得足夠泛化性能的自主學習方法,而在實際應用中,得到大量標記樣例是非常困難的,甚至無法實現;試圖通過發現未標記樣例中的隱含結構,從而構造出相應的學習器,這導致自主學習通常很難保證較高的學習精度。因此,將少量帶標記樣例和大量無標記樣例結合的半自主學習成為機器學習研究熱點。
Tri-training算法是Zhou等提出的一種新的Co-training模式半監督分類算法,本文提出一種能夠降低誤標記樣例數的ART算法。該算法結合SVM自主學習輔助策略和富信息策略到Tri-training學習過程,在每次迭代生成新訓練集時,首先用SVM自主學習輔助策略降低新標記樣例中可能的誤標記樣例數以減少新訓練集的噪聲,其次采用富信息策略訓練學習器,獲得另一個學習模型;重復這個過程,直到滿足停止準則,學習過程結束。實驗表明,ART算法優于Tri-training算法。
假設初始少量帶標記的樣例集為L,由L訓練得到3個不同的初始學習器H1,H2和H3,x是無標記樣例集U內任意一點,Tri-training迭代訓練基本過程為:如果H2和H3對x的分類結果H2(x)和H3(x)一致,那么可將x標記為H2(x)并加入H1的訓練集,如此 形成H1的新訓練集S1=L∪{x|x∈U且H2(x)=H3(x)}。類似地,H2和H3的訓練集也分別擴充為S2和S3,然后3個學習器重新訓練,如此重復迭代,直至H1,H2,H3都沒有變化,訓練過程結束。
顯然,Tri-training迭代訓練過程中H2和H3共同標記x為H2(x),并給H1作訓練數據時,如果準確性足夠高,會優化H1的訓練結果,否則會在H1的訓練集中加入噪聲,影響訓練效果。為此,Zhou等分析得出一個能使假設分類錯誤率迭代降低的充分條件,并以該充分條件作為判斷準則來決定新標記的樣例集是否應該被加入新訓練集。由于Tri-training算法所采用的判斷準則不僅沒有移除噪聲,而且限制了無標記樣例被加入新訓練集的數量,因此導致Tri-training算法不能充分地利用無標記樣例,進而提出本文算法。
對機器學習來說,采樣策略是必須的。富信息策略是一種特殊的采樣策略,即,一個弱學習器不能很好學習的樣例,將盡可能成為下一個弱學習器著重學習的樣例。本文中,“富信息”樣本的選取方法:如果某個樣例被當前弱學習器準確分類,則在構造下一個分量學習器的訓練集時,它被選中的概率為0;相反,如果某個樣例沒有被正確分類,則它入選下一個分量學習器訓練集的概率為1。通過這種方式,學習器能夠聚焦于那些比較容易出現錯分的樣本,從而使學習器獲得較好的學習效果,提高分類精度。
算法的基本設置是給定一個具有N類數據的已標記樣例集、驗證集、無標記樣例集以及測試集,所采用的三個分量學習器為SVM1(多項式核函數)、KNCN、SVM2(RBF核函數),輔助學習器為SVM3(線性核函數),當在驗證集上的集成測試達到穩定狀態后算法終止。
本實驗共150個音頻數據,其中包括:有說話聲樣本、音樂鈴聲、各種動物聲音、環境音以及交通工具聲等。音頻數據的長度為4s,采樣率為8kHz,量化精度為16Bit。實驗中采用的音頻信號幀長為32ms、幀移10ms、預加重系數α取0.97、Mel濾波器的個數為24,并提取每個訓練樣本的14維特征:第3層小波低頻系數的MFCC均值、質心方差、譜熵方差。
為比較驗證Tri-training算法、僅采用富信息策略R-Tri-training算法以及結合富信息策略與輔助學習策略ART,本文對已標記樣例數為5、10、20,無標記樣例數分別為1、10、20、30、40、50、60的情況進行了以上3種算法的實驗。所進行的實驗都是基于相同的驗證集、測試集,標記樣例數和無標記樣例在測試集上測試率的比較結果如圖1所示。
通過實驗結果可得出,在具有相同已標記樣例,無標記樣例比例的情況下,本文算法優于前兩者算法。

在已標記樣例個數相同的情況下,由于Tri-training算法不能充分地利用無標記樣例,因此Tri-training算法的測試率逐漸降低;然而R-Tri-training算法在Tri-training算法的基礎上添加驗證集,能夠使得算法聚焦于出錯樣本,從而提高測試率,但噪聲數據依然存在;本文算法在增加1個學習器的基礎上結合富信息策略與輔助策略,達到降低誤標記樣例的目的,充分地利用無標記樣例的信息,進一步提高測試率,并且體現半自主學習的本質特點。
同時,為了證明本文算法具有降低噪聲的能力,我們對ART算法、RT算法在訓練過程中所出現的噪聲數進行了統計。在已標記樣例數為10的情況下,無標記樣例數分別為10、20、30、40、50、60的統計結果如表1所示。從表中我們很容易看出,本文算法ART有效的降低了噪聲。隨著樣本數的增加,ART算法優于R-Tri-training算法,如,無標記樣本數為60時,本文算法統計結果是4,而R-Tri-training統計結果是18。由此可見,本文算法結合富信息策略與輔助策略,充分利用了無標記樣例信息,有效的降低了誤標記樣例,起到了降低噪聲的能力。

表1 兩種算法在訓練過程中出現的噪聲數統計結果
針對Tri-training算法引起積累噪聲以及無標記樣例利用率低,本文提出了基于輔助學習的ART算法,并將其引入說話聲識別。該算法采用富信息策略,使得錯分樣例成為弱學習器著重學習的樣例,從而提高學習器的分類精度;采用輔助學習策略,能夠有效地降低ART算法訓練過程中積累的噪聲,同時提高了無標記樣例的利用率。實驗驗證了該算法在噪聲性能方面的有效性。
[1]李昆侖,張偉,代運娜.基于Tri-training的半監督SVM[J].計算機工程與應用.2009,45(22):103-106.
[2]張雁,呂丹桔,吳保國.基于Tri-Training半監督分類算法的研究[J].計算機技術與發展,2013,23(7):77-79.
[3]鄧超,郭茂祖.基于自適應數據剪輯策略的Tri-training算法[J].計算機學報,2007,30(8):1213-1226.
[4]徐慶伶,汪西莉.一種基于支持向量機的半監督分類方法[J].計算機技術與發展,2010,20(10):115-117.