999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于置信度差異代價敏感的主動學(xué)習(xí)算法

2013-12-08 05:43:14武永成
湖北工程學(xué)院學(xué)報 2013年6期
關(guān)鍵詞:分類

武永成

(荊楚理工學(xué)院 計算機工程學(xué)院,湖北 荊門 448000)

一種基于置信度差異代價敏感的主動學(xué)習(xí)算法

武永成

(荊楚理工學(xué)院 計算機工程學(xué)院,湖北 荊門 448000)

主動學(xué)習(xí)時向?qū)<也樵兊玫降臉?biāo)注如果帶有噪聲,將會影響學(xué)習(xí)的性能。為減少噪聲,人們提出了基于“少數(shù)服從多數(shù)”的多專家主動學(xué)習(xí)算法,但該算法的缺點是代價往往太高。文章采用了一種自我訓(xùn)練(self-training)方法,對某些平均置信度高的樣本,直接確定其分類標(biāo)注,不必向?qū)<也樵儯怨?jié)省學(xué)習(xí)代價。同時,使用置信度差異作為度量標(biāo)準(zhǔn),選取那些最不確定的樣本向?qū)<也樵儯岣吡藢W(xué)習(xí)效率。在UCI數(shù)據(jù)集上驗證了本文算法的有效性。

主動學(xué)習(xí);噪聲數(shù)據(jù);置信度差異;自我訓(xùn)練

在監(jiān)督學(xué)習(xí)中,為獲得準(zhǔn)確性高的分類模型,需要大量有標(biāo)注(即分類類型)的樣例。現(xiàn)實世界中,通常存在大量未標(biāo)注樣例,而有標(biāo)注樣例則往往較少。例如,在計算機輔助醫(yī)學(xué)圖像分析中,可以從醫(yī)院獲得大量的醫(yī)學(xué)圖像作為訓(xùn)練集,但如果要求醫(yī)學(xué)專家把這些圖像中的病灶都標(biāo)注出來,往往是不現(xiàn)實的。

主動學(xué)習(xí)主要是解決在標(biāo)注樣本缺少情況下的一種有效方法。通過選取那些最具代表性的無標(biāo)注數(shù)據(jù)讓專家去標(biāo)注,從而使專家的標(biāo)注任務(wù)量最小化。將專家標(biāo)注后的樣例加入有標(biāo)注數(shù)據(jù)集,使其得到擴充。在擴充后的有標(biāo)注樣例集上進行相應(yīng)的監(jiān)督學(xué)習(xí),使其性能(如分類的準(zhǔn)確性)進一步提高。

多數(shù)主動學(xué)習(xí)算法在設(shè)計時假設(shè)專家的標(biāo)注都是對的,專家是一個“完美的神諭”(perfect oracle)。現(xiàn)實生活中,專家也有出錯的時候。當(dāng)主動學(xué)習(xí)向?qū)<也樵兊玫降臉?biāo)注帶有噪聲時,將會影響學(xué)習(xí)的性能[1]。

解決標(biāo)注噪聲最常見的一種策略是對樣本進行多個標(biāo)注,然后采用“少數(shù)服從多數(shù)”的投票方法,決定出對樣本最終的標(biāo)注結(jié)果。這種方法的一個主要缺點是對每個需要標(biāo)注的樣本進行多次標(biāo)注的次數(shù)都相同。從代價敏感(cost-sensitive)的角度來講,這樣代價往往太高。

本文的貢獻在于:(1)在選擇那些需要專家標(biāo)注的無標(biāo)注數(shù)據(jù)時,使用集成學(xué)習(xí)方法和置信度差異度量方法,以有效減少標(biāo)注噪聲對學(xué)習(xí)性能的影響;(2)采用一種自我訓(xùn)練方法(self-training)[2],將那些置信度高的數(shù)據(jù),直接加入有標(biāo)記數(shù)據(jù)集中,無需向?qū)<易稍儯瑥亩?jié)省了學(xué)習(xí)代價(cost),使得在相同代價情況下,主動學(xué)習(xí)取得更好的效果。

1 相關(guān)工作

當(dāng)前,根據(jù)獲得未標(biāo)注樣例的方式不同,主動學(xué)習(xí)分為兩類:基于池的主動學(xué)習(xí)(pool-based)和基于流的主動學(xué)習(xí)(stream-based)[1]。基于流的主動學(xué)習(xí),未標(biāo)注樣例只能一個一個地進入到學(xué)習(xí)系統(tǒng),系統(tǒng)要么決定查詢它,要么直接拋棄它。在基于池的主動學(xué)習(xí)系統(tǒng)中,始終維護著一個較大的未標(biāo)注樣例的集合,并從中選取那些最具代表性的樣例向?qū)<疫M行查詢。在本文中,最具代表性的樣例是集成學(xué)習(xí)得到的多個分類器對樣本進行分類時,分類置信度差異值最大的樣本,即分類器意見最不一致的樣本[3]。本文針對基于池的主動學(xué)習(xí)展開。

在機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,將代價考慮進去,被稱之為代價敏感學(xué)習(xí)(cost-sensitive learning)[4],目前引起了人們的廣泛關(guān)注。在文獻[4]中,列出的代價有很多種,但最重要并在實際生活中廣泛存在的是誤判代價(misclassification cost)和檢測代價(test cost)。為簡化問題,本文只考慮檢測代價。

自我訓(xùn)練的方法self-training[2]是一種研究半監(jiān)督學(xué)習(xí)的算法。它的主要思想是:在已有的有標(biāo)注樣本集合上,訓(xùn)練得到相應(yīng)的分類器。利用這些分類器,對未標(biāo)注樣本進行分類,那些分類置信度高的未標(biāo)注樣本,連同它們的預(yù)測標(biāo)注,加入到已標(biāo)注樣本集合中。在這個新的有標(biāo)注樣本集合上,重新訓(xùn)練得到相應(yīng)的分類器,循環(huán)該過程,直到滿足相應(yīng)的終止條件停止。

2 置信度差異代價敏感的主動學(xué)習(xí)算法

設(shè)X={x1,…,xN}表示無標(biāo)注數(shù)據(jù)集。從X中隨機選取部分?jǐn)?shù)據(jù)組成集合L,|L|通常是|X|的10%。對L中的數(shù)據(jù),要求專家對其進行標(biāo)注。假設(shè)專家標(biāo)注時,如果標(biāo)注出錯,其概率p∈(0,0.5)。在標(biāo)注后的集合L上,利用bootstrap[5]重抽樣技術(shù),產(chǎn)生K個樣本集。在這K個樣本集上,利用支持向量機SVMs,集成學(xué)習(xí)得到K個分類器H={h1, …,hK}。

對X中除L外剩余的無標(biāo)注樣本XL中的每個無標(biāo)記樣本(設(shè)為xi),利用分類器H對其進行分類,分類的置信度記為cj(xi),j∈(1, …,K)。設(shè)K個分類器對xi進行分類時,分類的置信度的平均值為α(xi,H),則:

(1)

當(dāng)分類置信度的平均值α(xi,H)大于某一設(shè)定的門限值,如0.75時,則直接利用“少數(shù)服從多數(shù)投票法”,確定xi的分類標(biāo)注,而不必向?qū)<疫M行咨詢,這樣可以節(jié)省分類的代價(cost)。

當(dāng)分類置信度的平均值α(xi,H)小于規(guī)定的門限值θ(如0.75)時,對其分類置信度差異值d(xi,H)進行計算:

d(xi)=cmax(xi)-cmin(xi)

(2)

式(2)中,cmax(xi)是K個分類器H={h1, …,hK}分別對xi分類時,最高的分類置信度值,cmin(xi)則是K個分類器中分類置信度的最低值。d(xi)的值越大,表明K個分類器對xi分類時,分歧越大,這樣的樣本是最需要向?qū)<疫M行查詢的。

在向?qū)<易稍僒次(本文中T=50),對T個無標(biāo)注樣本進行標(biāo)注后,將這T個樣本加入有標(biāo)記樣本集合中,在這個擴充了的有標(biāo)注樣本集合上,重新利用bootstrap取樣技術(shù),重新訓(xùn)練生成H={h1, …,hK},依次循環(huán)。

算法中預(yù)設(shè)一個總預(yù)算代價B,每次向?qū)<易稍円淮危珺就減去一個標(biāo)注成本cost(xi),從而實現(xiàn)代價敏感(cost-sensitive)。

表1 基于置信度差異代價敏感的主動學(xué)習(xí)算法

本文的置信度差異代價敏感的主動學(xué)習(xí)算法,完整描述如表1所示。

3 實驗結(jié)果與分析

實驗中使用UCI數(shù)據(jù)集[6]mushroom和spambase驗證本文算法有效性。數(shù)據(jù)集spambase本來有4601個樣本,每個樣本包含56個屬性。我們使用PCA將56個屬性降維到20。數(shù)據(jù)集mushroom包含8124個樣本,每個樣本包含23個屬性。

將本文提出的算法與Tong & Koller算法[7]進行對比。每條曲線都是獨立運行50次后的平均值。算法開始時|L|的大小為200,樣本中加入的標(biāo)準(zhǔn)噪聲率分別為{0.1,0.2}。圖1是實驗的結(jié)果。圖1中,Ours代表本文提出的算法。Tongs代表Tong & Koller算法。從圖1可以看出,在不同的噪聲率下,在兩個數(shù)據(jù)集上,在向?qū)<也樵兿嗤拇螖?shù)的情況下,相對于Tong & Koller算法,本文提出的算法都能得到更低的分類錯誤率,從而提高了該主動學(xué)習(xí)算法的效率。

(a)spambase在10%噪聲率的結(jié)果

(b)spambase在10%噪聲率的結(jié)果

(c)mushroom在10%噪聲率的結(jié)果

(d)mushroom在10%噪聲率的結(jié)果

4 結(jié)束語

本文提出了一種在較小的代價下,應(yīng)對標(biāo)注噪聲的主動學(xué)習(xí)算法。該算法通過利用集成學(xué)習(xí)時分類置信度的差異性最大化,選出那些最富信息性的無標(biāo)注數(shù)據(jù)。在決定是否向?qū)<易稍儠r,又使用了一種自我訓(xùn)練(self-training)方法,從而節(jié)省了代價。使得本算法既有多專家系統(tǒng)的抗標(biāo)注噪聲功能,又不會使得代價太高。由于主動學(xué)習(xí)后形成的有標(biāo)注樣本集的分布可能與整個樣本集的分布不一致,最終形成的分類器可能存在偏差(bias)。如何使得主動學(xué)習(xí)后形成的有標(biāo)注樣本能代表整個樣本集的分布,是下一步研究的重點。

[1] Settles B .Active Learning Literature Survey[R].University of Wisconsin-Madison, 2010.

[2] Zhu X.Semi-supervised learning literature survey[R].University of Wisconsin-Madison, 2005.

[3] Zhou Z H,Li M.Semi-supervised learning by disagreement[J].Knowledge and Information Systems,2010,24(3):415-439.

[4] Turney P D.Types of cost in inductive concept learning[C]// Proceedings of the Workshop on Cost-Sensitive Learning at the Seventeenth International Conference on Machine Learning,2000:15-21.

[5] Efron B,Tibshirani R. An introduction to the Bootstrap[M].CRC Press, 1994:8-10.

[6] Blake C,Keogh E,Merz C J.UCI repository of machine learning databases[EB/OL].http://www.ics.uci.edu/mlearn/MLRepository.html.

[7] Tong S,Koller D.Support vector machine active learning with applications to text classification[J].Journal of Machine Learning Research, 2001, 2:45-66.

(責(zé)任編輯:張凱兵)

ActiveLearningAlgorithmBasedonConfidenceDiversityCostSensitivity

Wu Yongcheng

(SchoolofComputerEngineering,JingchuUniversityofTechnology,Jingmen,Hubei448000,China)

It is known that the noise in labels deteriorates the performance of active learning. To reduce the inverse effect of the noise, many algorithms based on multiple experts have been proposed. The drawback of these algorithms lies in that it costs too much. This paper proposes a self-training method which can directly determine the labels of some unlabeled instances without consulting the experts so as to reduce the cost of learning. Simultaniously, to improve learning efficiency, confidence diversity as a measure is employed and uncertain instances are selected to be labeled without consulting experts. The experimental results on UCI data sets validated the effectiveness of the proposed method.

active learning; noisy data; confidence diversity; self-training

TP391. 41

A

2095-4824(2013)06-0016-04

2013-10-05

武永成(1971- ),男,湖北仙桃人,荊楚理工學(xué)院計算機工程學(xué)院講師,碩士。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準(zhǔn)備好了嗎
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
按需分類
教你一招:數(shù)的分類
主站蜘蛛池模板: 一区二区三区国产精品视频| 伊人蕉久影院| 91丝袜美腿高跟国产极品老师| AV在线天堂进入| 国产女人18水真多毛片18精品| 国产美女无遮挡免费视频| 亚洲欧洲日本在线| 亚洲一区精品视频在线 | 亚洲最大情网站在线观看| 青青青国产精品国产精品美女| 国产精品久久久久久影院| 尤物亚洲最大AV无码网站| 国产精品浪潮Av| 久久福利片| 丁香婷婷久久| 欧美性久久久久| 夜夜高潮夜夜爽国产伦精品| 亚洲日本中文字幕天堂网| 88av在线播放| 免费日韩在线视频| 亚洲香蕉在线| 欧美日本在线观看| 欧美激情成人网| 欧美亚洲网| 日韩av无码精品专区| 久久综合色88| 青草娱乐极品免费视频| 成人毛片免费在线观看| 这里只有精品国产| 亚洲最大福利视频网| 国产第一页第二页| 国产精品19p| 久久免费看片| 热这里只有精品国产热门精品| 国产精品三级av及在线观看| 亚洲欧洲自拍拍偷午夜色| 99久久精品国产精品亚洲| av午夜福利一片免费看| 国产jizzjizz视频| 中文字幕免费在线视频| 国产色网站| 天天躁狠狠躁| 91久久国产综合精品女同我| 丁香六月激情综合| 免费无码AV片在线观看中文| 黄色网站在线观看无码| 欧美黄网在线| 亚洲国产av无码综合原创国产| 亚洲人成网线在线播放va| 91外围女在线观看| 婷婷色在线视频| 特级做a爰片毛片免费69| 久久熟女AV| 香蕉视频在线观看www| 久操中文在线| 99久久99视频| 99精品高清在线播放| 日日拍夜夜操| 无码中文字幕加勒比高清| 99久久国产综合精品2023| 国产亚洲精品精品精品| 99久久精品免费观看国产| 精品成人一区二区三区电影 | 成·人免费午夜无码视频在线观看| 色网站在线免费观看| 国产精品成人免费视频99| 国产精品久久久久久搜索| 91在线免费公开视频| 一本大道香蕉高清久久| 中文字幕亚洲无线码一区女同| 国产在线视频欧美亚综合| 黄色网在线| 亚洲资源在线视频| 高清无码不卡视频| 欧美精品v欧洲精品| 国产欧美自拍视频| 亚洲欧洲AV一区二区三区| 久久综合伊人 六十路| 亚洲国产日韩一区| 色天天综合| 国产视频一区二区在线观看| 亚洲精品国产自在现线最新|