999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

類標噪聲研究綜述

2016-09-23 05:51:42宋磊磊
現(xiàn)代計算機 2016年3期
關(guān)鍵詞:方法模型研究

宋磊磊

(四川大學(xué)計算機學(xué)院,成都 610065)

類標噪聲研究綜述

宋磊磊

(四川大學(xué)計算機學(xué)院,成都610065)

0 引言

文本分類被廣泛應(yīng)用于信息檢索與其他知識管理系統(tǒng)中。一些常用的用于解決文本分類的有監(jiān)督方法包括:樸素貝葉斯[1-2]、支持向量機[3-4]、K近鄰[5]和最大熵模型[6]。

文本分類任務(wù)需要大量的被正確標注的訓(xùn)練數(shù)據(jù)集,這些標注數(shù)據(jù)集往往來自人工標注或者遠距離監(jiān)督方法。然后,不管是人工還是自動的標注,都會不可避免地引入類標噪聲,對分類器的構(gòu)建產(chǎn)生嚴重的影響。因此,研究有效地處理噪聲方法就變得十分重要。主流的方法主要分為兩種,第一種是去噪研究,即首先識別噪聲實例,進而直接刪除噪聲數(shù)據(jù)以保證數(shù)據(jù)的“純度”;第二種是容噪研究,與去噪算法不同的是,該思路假設(shè)噪聲實例同樣可以對分類器提供積極影響,前提是從模型的角度合理的挖掘其積極因素。

1 類標噪聲處理策略

1.1去噪算法研究

早期的類標噪聲處理思路主要集中在如何準確的識別出噪聲實例,借用的模型有最近鄰算法[7]、C4.5[8]、概率主題模型[9]和類別數(shù)據(jù)分布[10]。以下對前兩個方法進行介紹:

(1)最近鄰算法去噪

該方法利用最近鄰算法制定啟發(fā)式規(guī)則識別噪聲實例。總的數(shù)據(jù)集為T,包括n個實例P1…n,每個實例P 有K個最近的鄰居P.N1...k。P的“敵對”近鄰集P.E被定義為與P具有不同類標的最近實例。P.A1...a表示包括最近鄰集中包括P的實例的集合。那么,假如實例P被刪除時,P.A1...a中的實例被分類判斷正確,則說明實例P是噪聲數(shù)據(jù),應(yīng)該被去除。具體的算法如圖1所示。

圖1 最近鄰算法去噪

(2)C4.5去噪

該方法利用C4.5決策樹算法來進行噪聲識別,它的直觀假設(shè)是當(dāng)我們獲得可靠的規(guī)則時,噪聲實例與正常實例表現(xiàn)出了不同的特點,通常噪聲實例會被可靠規(guī)則所覆蓋,但是卻產(chǎn)生錯誤的類標。基于以上的假設(shè),該方法首先將整個數(shù)據(jù)集E分成若干個子集。對于每個子集,學(xué)習(xí)一個決策樹模型Ri并從中選擇可靠的規(guī)則集GRi,接著利用GRi評價整個數(shù)據(jù)集E。對于具體某個實例Ik,定義兩個錯誤計數(shù)變量和,它們共同決定改實例是否為噪聲數(shù)據(jù)。具體的框架流程如圖2所示。

1.2容噪算法研究

去噪算法存在著潛在的風(fēng)險,特別是當(dāng)模型錯誤的識別了噪聲數(shù)據(jù),而把真正的噪聲實例保留下來作為標準訓(xùn)練集時。可想而知,此時的去噪算法不但沒有達到清理噪聲的目的,而且還加劇了噪聲數(shù)據(jù)對分類模型的影響。因此,噪聲處理的重心開始向容噪研究方法轉(zhuǎn)移。其中,比較典型的容噪算法包括改進的支持向量機[11]、BayesANIL[12]和Probabilistic Kernel Fisher method[13]。以下介紹前兩個方法:

(1)改進的支持向量機

該方法在原有支持向量機的基礎(chǔ)上僅僅對核矩陣進行修改,達到了容忍噪聲的目的。我們知道,標準的SVM優(yōu)化函數(shù)可以表示為:

圖2 C4.5去噪

其中,Q=KoyyT,K為核矩陣。本文對每個實例xi引入了翻轉(zhuǎn)變量εi,從而使得Q發(fā)生變化,最終影響SVM的優(yōu)化函數(shù)為如下所示:

(2)BayesANIL

該方法對生成的角度對噪聲數(shù)據(jù)進行建模,模型可簡單表示成Z→D→W,三個變量分別表示實例類標、實例以及實例的詞袋子。其中P(w|d)與<d,z>為可觀測值,P(d,z)為潛在變量值,也是本文需要估計的變量值,該值可以直觀地理解為實例d在多大程度上屬于z類。因此,本文利用EM算法對潛在變量進行估計,最終將P(d,z)運用到樸素貝葉斯和支持向量機分類器中,取得了不錯的效果。

對于樸素貝葉斯分類器,關(guān)鍵在于估計詞在類別條件下的概率:

其中,P(w|d)為可觀測值,而P(d|z)可由EM估計的P(d,z)得到。此種方法的優(yōu)勢還在于P(w|z)不需要平滑處理。

對于支持向量機分類器,我們可以改變每個實例的損失代價,讓那些值得信賴的類標數(shù)據(jù)盡量被判別正確,而對于那些潛在的噪聲數(shù)據(jù)設(shè)置一個較小的損失代價。形式化表示如下,Ci為損失代價。

2 結(jié)語

隨著網(wǎng)絡(luò)數(shù)據(jù)量的爆炸式增長,如何利用大數(shù)據(jù),從中挖掘出有價值的資源變得更加迫切。機器學(xué)習(xí)作為一種行之有效的方法在實際運用中需要大量的人工參與,例如為分類器標注大量的數(shù)據(jù)。而人工參與不可避免帶來數(shù)據(jù)噪聲,這是現(xiàn)有分類算法所不能容忍的。因此,大量的研究者開始設(shè)計不同的策略消除噪聲的影響。早期的研究主要關(guān)注如何正確識別噪聲實例。遺憾的是,去噪思路在實際運用中引入了潛在的風(fēng)險,這才將研究的重心向容噪算法轉(zhuǎn)移。但即使同是容噪算法,在處理不同問題、噪聲水平不同時也表現(xiàn)不一。

[1]Lewis D D.Naive(Bayes)at Forty:The Independence Assumption in Information Retrieval[M].Machine Learning:ECML-98.Springer Berlin Heidelberg,1998:4-15.

[2]McCallum A,Nigam K.A Comparison of Event Models for Naive Bayes Text Classification[C].AAAI-98 Workshop on Learning for Text Categorization,1998,752:41-48.

[3]Joachims T.Text Categorization with Support Vector Machines:Learning with Many Relevant Features[M].Springer Berlin Heidelberg,1998.

[4]丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學(xué)學(xué)報,2011,40(1):2-10.

[5]Yang Y.An Evaluation of Statistical Approaches to Text Categorization[J].Information Retrieval,1999,1(1-2):69-90.

[6]Nigam K,Lafferty J,McCallum A.Using Maximum Entropy for Text Classification[C].IJCAI-99 Workshop on Machine Learning forInformation Filtering,1999,1:61-67.

[7]Wilson D R,Martinez T R.Instance Pruning Techniques[C].ICML.1997,97:403-411.

[8]Zhu X,Wu X,Chen Q.Eliminating Class Noise in Large Datasets[C].ICML.2003,3:920-927.

[9]林洋港,陳恩紅.文本分類中基于概率主題模型的噪聲處理方法[J].計算機工程與科學(xué),2010,32(7):89-92.

[10]李湘東,巴志超,黃莉.文本分類中基于類別數(shù)據(jù)分布特性的噪聲處理方法[J].現(xiàn)代圖書情報技術(shù),2014,30(11):66-72.

[11]Biggio B,Nelson B,Laskov P.Support Vector Machines Under Adversarial Label Noise[C].ACML.2011:97-112.

[12]Ramakrishnan G,Chitrapura K P,Krishnapuram R,et al.A Model for Handling Approximate,Noisy or Incomplete Labeling in Text Classification[C].Proceedings of the 22nd International Conference on Machine Learning.ACM,2005:681-688.

[13]Li Y,Wessels L F A,de Ridder D,et al.Classification in the Presence of Class Noise Using a Probabilistic Kernel Fisher Method [J].Pattern Recognition,2007,40(12):3349-3357.

Class Label Noise;Denoising Algorithm;Robustness Algorithm

Research Overview of Class Label Noise

SONG-Lei-lei
(College of Computer Science,Sichuan University,Chengdu 610065)

1007-1423(2016)03-0020-04

10.3969/j.issn.1007-1423.2016.03.005

宋磊磊(1991-),男,貴州貴陽人,碩士研究生,研究方向為數(shù)據(jù)挖掘

2015-12-15

2016-01-10

在機器學(xué)習(xí)中,類標噪聲難以避免的存在于標注數(shù)據(jù)里,這樣的噪聲數(shù)據(jù)會對分類器等模型的建構(gòu)產(chǎn)生嚴重的影響。因此,越來越多的研究者把類標噪聲算法研究作為分類器效果提升的一個突破口。針對解決問題思路的不同,提出并改進許多行之有效的噪聲處理模型。其中,按照解決思路的不同,可將噪聲處理算法分為去噪算法與容噪算法。

類標噪聲;去噪算法;容噪算法

In machine learning,the class label problem is unlikely to be completely excluded in labelled dataset which would deteriorate classifier construction.Therefore,most of researchers are focusing on this problem for more reliable classification algorithms.There are lots of effective approaches for the class label problem according to different solutions.We can divide them into denoising and robustness directions.

猜你喜歡
方法模型研究
一半模型
FMS與YBT相關(guān)性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久久久久人妻一区精品| 老司机精品99在线播放| 青青草欧美| 91久久国产热精品免费| 国产精品hd在线播放| a毛片在线免费观看| 国产精品美乳| 欧美成人午夜视频免看| 亚洲日本中文字幕天堂网| 在线观看热码亚洲av每日更新| 91在线一9|永久视频在线| 影音先锋丝袜制服| 国产原创第一页在线观看| 亚洲天堂视频在线观看免费| 伊人无码视屏| av大片在线无码免费| 最新日本中文字幕| 一级香蕉视频在线观看| 九色综合视频网| 激情无码字幕综合| 麻豆AV网站免费进入| 国产成人精品在线1区| 国产剧情国内精品原创| 99热最新网址| 噜噜噜久久| 99re热精品视频中文字幕不卡| 久久精品国产精品一区二区| 露脸国产精品自产在线播| 久久精品这里只有国产中文精品| 国模在线视频一区二区三区| 国产人人射| 亚洲国产精品不卡在线| 国产特一级毛片| 亚洲aⅴ天堂| 亚洲码在线中文在线观看| 亚洲一区波多野结衣二区三区| 美女无遮挡免费视频网站| 日韩福利视频导航| 色哟哟国产精品| 91久久偷偷做嫩草影院免费看 | 亚洲第一视频区| 国产精品毛片一区| 欧美亚洲国产一区| 日韩免费毛片| 97精品久久久大香线焦| 久草青青在线视频| 精品人妻系列无码专区久久| 天天干天天色综合网| 性欧美精品xxxx| 国产无码网站在线观看| 国外欧美一区另类中文字幕| 四虎成人在线视频| 麻豆国产精品| 久久性妇女精品免费| 国产福利一区视频| 欧美色香蕉| 秋霞国产在线| 国产美女91呻吟求| 宅男噜噜噜66国产在线观看| 国产在线日本| 亚洲午夜18| 国产无吗一区二区三区在线欢| 激情综合图区| 青青青国产视频手机| 国产免费自拍视频| 色偷偷av男人的天堂不卡| 欧美一区福利| 麻豆国产原创视频在线播放 | a亚洲天堂| 欧美成人综合视频| 亚洲男人天堂2020| 日韩天堂视频| 久久五月天综合| 99久久国产自偷自偷免费一区| 尤物亚洲最大AV无码网站| 亚洲一级毛片免费观看| 狼友av永久网站免费观看| 一级毛片免费观看久| 国产黄色视频综合| 精品伊人久久久大香线蕉欧美| 日本成人一区| 波多野结衣一区二区三区四区视频 |