999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自主學習的ART算法研究

2014-01-25 09:07:40鄭學偉
電大理工 2014年3期
關鍵詞:分類策略信息

鄭學偉

1遼寧廣播電視大學,(沈陽 110034)2遼寧裝備制造職業技術學院,(沈陽 110161)

傳統的自主學習需要一組足夠多的已標記樣例作為訓練集,否則無法獲得足夠泛化性能的自主學習方法,而在實際應用中,得到大量標記樣例是非常困難的,甚至無法實現;試圖通過發現未標記樣例中的隱含結構,從而構造出相應的學習器,這導致自主學習通常很難保證較高的學習精度。因此,將少量帶標記樣例和大量無標記樣例結合的半自主學習成為機器學習研究熱點。

Tri-training算法是Zhou等提出的一種新的Co-training模式半監督分類算法,本文提出一種能夠降低誤標記樣例數的ART算法。該算法結合SVM自主學習輔助策略和富信息策略到Tri-training學習過程,在每次迭代生成新訓練集時,首先用SVM自主學習輔助策略降低新標記樣例中可能的誤標記樣例數以減少新訓練集的噪聲,其次采用富信息策略訓練學習器,獲得另一個學習模型;重復這個過程,直到滿足停止準則,學習過程結束。實驗表明,ART算法優于Tri-training算法。

1 ART算法

1.1 Tri-training訓練過程

假設初始少量帶標記的樣例集為L,由L訓練得到3個不同的初始學習器H1,H2和H3,x是無標記樣例集U內任意一點,Tri-training迭代訓練基本過程為:如果H2和H3對x的分類結果H2(x)和H3(x)一致,那么可將x標記為H2(x)并加入H1的訓練集,如此 形成H1的新訓練集S1=L∪{x|x∈U且H2(x)=H3(x)}。類似地,H2和H3的訓練集也分別擴充為S2和S3,然后3個學習器重新訓練,如此重復迭代,直至H1,H2,H3都沒有變化,訓練過程結束。

顯然,Tri-training迭代訓練過程中H2和H3共同標記x為H2(x),并給H1作訓練數據時,如果準確性足夠高,會優化H1的訓練結果,否則會在H1的訓練集中加入噪聲,影響訓練效果。為此,Zhou等分析得出一個能使假設分類錯誤率迭代降低的充分條件,并以該充分條件作為判斷準則來決定新標記的樣例集是否應該被加入新訓練集。由于Tri-training算法所采用的判斷準則不僅沒有移除噪聲,而且限制了無標記樣例被加入新訓練集的數量,因此導致Tri-training算法不能充分地利用無標記樣例,進而提出本文算法。

1.2 ART算法學習策略

對機器學習來說,采樣策略是必須的。富信息策略是一種特殊的采樣策略,即,一個弱學習器不能很好學習的樣例,將盡可能成為下一個弱學習器著重學習的樣例。本文中,“富信息”樣本的選取方法:如果某個樣例被當前弱學習器準確分類,則在構造下一個分量學習器的訓練集時,它被選中的概率為0;相反,如果某個樣例沒有被正確分類,則它入選下一個分量學習器訓練集的概率為1。通過這種方式,學習器能夠聚焦于那些比較容易出現錯分的樣本,從而使學習器獲得較好的學習效果,提高分類精度。

1.3 ART算法描述

算法的基本設置是給定一個具有N類數據的已標記樣例集、驗證集、無標記樣例集以及測試集,所采用的三個分量學習器為SVM1(多項式核函數)、KNCN、SVM2(RBF核函數),輔助學習器為SVM3(線性核函數),當在驗證集上的集成測試達到穩定狀態后算法終止。

2 算法應用

2.1 實驗數據

本實驗共150個音頻數據,其中包括:有說話聲樣本、音樂鈴聲、各種動物聲音、環境音以及交通工具聲等。音頻數據的長度為4s,采樣率為8kHz,量化精度為16Bit。實驗中采用的音頻信號幀長為32ms、幀移10ms、預加重系數α取0.97、Mel濾波器的個數為24,并提取每個訓練樣本的14維特征:第3層小波低頻系數的MFCC均值、質心方差、譜熵方差。

2.2 實驗結果及分析

為比較驗證Tri-training算法、僅采用富信息策略R-Tri-training算法以及結合富信息策略與輔助學習策略ART,本文對已標記樣例數為5、10、20,無標記樣例數分別為1、10、20、30、40、50、60的情況進行了以上3種算法的實驗。所進行的實驗都是基于相同的驗證集、測試集,標記樣例數和無標記樣例在測試集上測試率的比較結果如圖1所示。

通過實驗結果可得出,在具有相同已標記樣例,無標記樣例比例的情況下,本文算法優于前兩者算法。

在已標記樣例個數相同的情況下,由于Tri-training算法不能充分地利用無標記樣例,因此Tri-training算法的測試率逐漸降低;然而R-Tri-training算法在Tri-training算法的基礎上添加驗證集,能夠使得算法聚焦于出錯樣本,從而提高測試率,但噪聲數據依然存在;本文算法在增加1個學習器的基礎上結合富信息策略與輔助策略,達到降低誤標記樣例的目的,充分地利用無標記樣例的信息,進一步提高測試率,并且體現半自主學習的本質特點。

同時,為了證明本文算法具有降低噪聲的能力,我們對ART算法、RT算法在訓練過程中所出現的噪聲數進行了統計。在已標記樣例數為10的情況下,無標記樣例數分別為10、20、30、40、50、60的統計結果如表1所示。從表中我們很容易看出,本文算法ART有效的降低了噪聲。隨著樣本數的增加,ART算法優于R-Tri-training算法,如,無標記樣本數為60時,本文算法統計結果是4,而R-Tri-training統計結果是18。由此可見,本文算法結合富信息策略與輔助策略,充分利用了無標記樣例信息,有效的降低了誤標記樣例,起到了降低噪聲的能力。

表1 兩種算法在訓練過程中出現的噪聲數統計結果

3 結語

針對Tri-training算法引起積累噪聲以及無標記樣例利用率低,本文提出了基于輔助學習的ART算法,并將其引入說話聲識別。該算法采用富信息策略,使得錯分樣例成為弱學習器著重學習的樣例,從而提高學習器的分類精度;采用輔助學習策略,能夠有效地降低ART算法訓練過程中積累的噪聲,同時提高了無標記樣例的利用率。實驗驗證了該算法在噪聲性能方面的有效性。

[1]李昆侖,張偉,代運娜.基于Tri-training的半監督SVM[J].計算機工程與應用.2009,45(22):103-106.

[2]張雁,呂丹桔,吳保國.基于Tri-Training半監督分類算法的研究[J].計算機技術與發展,2013,23(7):77-79.

[3]鄧超,郭茂祖.基于自適應數據剪輯策略的Tri-training算法[J].計算機學報,2007,30(8):1213-1226.

[4]徐慶伶,汪西莉.一種基于支持向量機的半監督分類方法[J].計算機技術與發展,2010,20(10):115-117.

猜你喜歡
分類策略信息
分類算一算
例談未知角三角函數值的求解策略
我說你做講策略
分類討論求坐標
數據分析中的分類討論
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
Passage Four
主站蜘蛛池模板: 天堂岛国av无码免费无禁网站| 被公侵犯人妻少妇一区二区三区| 91福利一区二区三区| 在线不卡免费视频| 原味小视频在线www国产| 欧美亚洲第一页| 国产亚洲精| 久操线在视频在线观看| 国产熟睡乱子伦视频网站| AV网站中文| 国产一级精品毛片基地| 国产日韩欧美精品区性色| 一级片一区| 国产欧美日韩免费| 色综合久久久久8天国| 久青草免费在线视频| 久久久久久久97| 性做久久久久久久免费看| 午夜视频日本| 国产尤物视频网址导航| 玩两个丰满老熟女久久网| 粗大猛烈进出高潮视频无码| 亚洲侵犯无码网址在线观看| 911亚洲精品| 国产爽妇精品| 波多野结衣一二三| 国产亚洲欧美另类一区二区| 精品综合久久久久久97| 精品午夜国产福利观看| 国产精品一老牛影视频| 国产综合精品一区二区| 欧美a在线视频| 国产成人资源| 亚洲系列中文字幕一区二区| 国产电话自拍伊人| 国产91全国探花系列在线播放| 无码精品一区二区久久久| 久久熟女AV| 91免费国产在线观看尤物| 亚洲无限乱码| 久久精品66| 亚洲天堂视频在线观看免费| 强奷白丝美女在线观看| 国产成人久视频免费| 四虎影视库国产精品一区| 亚州AV秘 一区二区三区| 四虎永久免费地址| 四虎国产精品永久在线网址| 99精品国产电影| 亚洲福利一区二区三区| 99久久国产精品无码| 国产极品嫩模在线观看91| 成人精品视频一区二区在线| 中文字幕色站| 91在线免费公开视频| 尤物午夜福利视频| 亚洲三级视频在线观看| 国产a在视频线精品视频下载| 亚洲天堂久久新| 黄色网站在线观看无码| 日韩免费毛片| 五月激情婷婷综合| 日本三级欧美三级| 国产成人精品免费av| 国产亚洲欧美另类一区二区| 日韩免费成人| 手机在线免费毛片| 黄色在线不卡| 亚洲第一中文字幕| 亚洲欧美日本国产综合在线| 99精品国产自在现线观看| 亚洲中文字幕av无码区| 免费在线不卡视频| 国产微拍一区| 国产区免费精品视频| 国产啪在线| 114级毛片免费观看| 欧美国产中文| 国产精品99久久久久久董美香| 成年人福利视频| 9丨情侣偷在线精品国产| 亚洲免费黄色网|