999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)流概念漂移分類和挖掘研究綜述

2014-08-26 02:38:15趙峰
科技創(chuàng)新與應(yīng)用 2014年26期
關(guān)鍵詞:數(shù)據(jù)挖掘

趙峰

摘 要:基于數(shù)據(jù)流概念漂移技術(shù)在機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的重要性,文章首先闡述了數(shù)據(jù)流漂移概念的概念,接著綜述了近年來數(shù)據(jù)流概念漂移處理方法的發(fā)展趨勢,最后概括了數(shù)據(jù)流概念漂移挖掘和分類研究的現(xiàn)狀。

關(guān)鍵詞:概念漂移;數(shù)據(jù)流;數(shù)據(jù)挖掘

引言

數(shù)據(jù)流概念漂移的研究在機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的重要性與日俱增, 并在處理途徑方面取得了一定的成果,從2000年開始,數(shù)據(jù)流概念漂移分類研究進(jìn)入了快速發(fā)展期,研究人員開始考慮更加接近實際狀況的數(shù)據(jù)流概念漂移。從近年機器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域的一些國際權(quán)威期刊和國際頂級會議上發(fā)表的論文來看,數(shù)據(jù)流概念漂移挖掘和分類研究正日益成為學(xué)術(shù)界關(guān)注的焦點,對數(shù)據(jù)流概念漂移的研究已經(jīng)開始與轉(zhuǎn)移學(xué)習(xí)、進(jìn)化計算、特征選擇、聚類、時間復(fù)雜度分析、社會計算等結(jié)合起來。因此,從趨勢上來講,已有各種模式分類的理論和算法都可與概念漂移相結(jié)合而引出更多新的研究問題。

1 數(shù)據(jù)流概念漂移的概念及處理方式

某些文本的類別特征往往對它內(nèi)部所包含的一些“隱性內(nèi)容”具有很大的依賴性,這種現(xiàn)象通常被稱為概念漂移。隨著時間的向前推移,其中的這些隱性特征不斷發(fā)生著細(xì)小隱蔽的變化,這些變化事先不易預(yù)知,事后也不易覺察,但是,當(dāng)積累到一定程度時,卻會導(dǎo)致整個目標(biāo)概念發(fā)生變化。Schlimmer(1986)對概念漂移做出定義,認(rèn)為其是環(huán)境的隱藏性變化而導(dǎo)致目標(biāo)概念發(fā)生變化的過程。許多真實學(xué)習(xí)任務(wù)的數(shù)據(jù)都是從某一特定的擴展時間段之內(nèi)收集的,隨著時間的推移,背景環(huán)境發(fā)生變化不僅會導(dǎo)致目標(biāo)概念本身發(fā)生變化,還會引起數(shù)據(jù)集的分布發(fā)生變化。Lidmer(1993)把環(huán)境的隱藏性變化導(dǎo)致目標(biāo)概念發(fā)生變化的過程稱為真實概念漂移,把環(huán)境變化導(dǎo)致數(shù)據(jù)集分布發(fā)生變化的過程稱為虛擬概念漂移,這兩者可以同時發(fā)生,也可以只有虛擬概念漂移發(fā)生。

數(shù)據(jù)流中的概念流可以通過以下三種方式進(jìn)行處理:基于窗口的方法、基于重量的方法以及集成分類。基于窗口的方法是通過選擇一個固定的或動態(tài)的滑動窗口構(gòu)建一個分類模型,在分類精度的基礎(chǔ)上調(diào)整窗口的大小(Lee,2009)。在以重量為基礎(chǔ)的方法上,每個訓(xùn)練實例被分配一個權(quán)重。最流行的演變技術(shù)來處理概念漂移的數(shù)據(jù)流是使用集成分類(分類器的組合),幾個輸出分類器的組合是用來確定最終的分類,這通常被稱為融合規(guī)則。另外,在每個時間點的個體輸出分類器上分配權(quán)重,權(quán)重通常為一個歷史表現(xiàn)函數(shù),通過使用交叉驗證過去或估計的函數(shù)。

2 數(shù)據(jù)流概念漂移挖掘研究現(xiàn)狀

為了從大量來自真實世界的復(fù)雜數(shù)據(jù)中提取最有用的信息和知識,在過去十年,各種數(shù)據(jù)挖掘算法已經(jīng)被提出和發(fā)展。Masud等(2011)建議在真正的標(biāo)記新類型的實例之前應(yīng)使用分類器來檢測新的類別。為了確定每個個體是否屬于某一新類型,其分類模型有時需要收集更多的測試實例來發(fā)現(xiàn)數(shù)據(jù)之間的異同。Polikar(2011)也推出了可以漸進(jìn)式學(xué)習(xí)流的分類器集合體,并命名為學(xué)習(xí)+NSE方法,通過當(dāng)前和過去的環(huán)境動態(tài)加權(quán)多數(shù)表決技術(shù)結(jié)合這些分類可以調(diào)整各個分類時間的準(zhǔn)確率。Song(2010)提出了一種基于關(guān)聯(lián)規(guī)則的關(guān)聯(lián)分類算法的數(shù)據(jù)流,其工作宗旨是發(fā)現(xiàn)各項集之間的關(guān)系,并從輸入的數(shù)據(jù)集中提取一套完整的頻繁模式。

Surace(2008)應(yīng)用了人體免疫系統(tǒng)拓寬的一般特性集和時間序列異常檢測,其中系統(tǒng)或結(jié)構(gòu)的正常狀態(tài)可能會改變。Tsai(2007)提出了一個新的挖掘樹規(guī)則概念流,被稱為CDR-樹的規(guī)則挖掘數(shù)據(jù)流的概念。CDR-樹能有效地提取決策中的每個數(shù)據(jù)塊的分類模型。Haggett(2005)提出了包括神經(jīng)探測器與動態(tài)預(yù)測編碼為特定應(yīng)用程序的屬性提取系統(tǒng),它在各種情況下都勝過專家的方法。Maloof(2003)針對使用動態(tài)加權(quán)多數(shù)性能變化問題,提出了一個為創(chuàng)建動態(tài)流概念和刪除加權(quán)的集成方法,其通過培訓(xùn)網(wǎng)上學(xué)習(xí)者的綜合能力以及基于所述集合的全局性能添加或移除的能力。

3 數(shù)據(jù)流概念漂移分類研究現(xiàn)狀

在數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域中的數(shù)據(jù)流分析和挖掘是一項具有挑戰(zhàn)性的研究,它最近受到許多計算智能研究人員的關(guān)注(Holmes,2012)。數(shù)據(jù)流分類是提取知識和連續(xù)數(shù)據(jù)點信息的方法(Read,2010)。在數(shù)據(jù)流中的數(shù)據(jù)是隨著時間的推移所產(chǎn)生的,并且不能由任何預(yù)先定義的順序來控制。一個數(shù)據(jù)流與傳統(tǒng)的靜態(tài)數(shù)據(jù)或數(shù)據(jù)庫相比有非常多元化的特點,包括:動態(tài)、無限、高維、有序、不重復(fù)、高速和時變(Zliobaite,2009年)。大多數(shù)現(xiàn)有的數(shù)據(jù)挖掘技術(shù)不能檢測及在數(shù)據(jù)流環(huán)境中進(jìn)行分類(Qin,2007),因而現(xiàn)有的挖掘模型會將這些分類新實例與類標(biāo)簽弄錯(Biswas,2004)。因此,這樣的數(shù)據(jù)流分類需要不斷更新和再培訓(xùn)通過在線數(shù)據(jù)流中標(biāo)記新來的數(shù)據(jù)。

新類型檢測數(shù)據(jù)流概念漂移是必需的,因為目標(biāo)類的統(tǒng)計特性在不可預(yù)見的方式隨時間而改變,并且必須是任何實際的數(shù)據(jù)流分類技術(shù)的一個組成部分。目前,主要有兩種數(shù)據(jù)流的分類方法:單一型號的增量分類和基于分類的集成模型。單一模式分類技術(shù)逐步更新為新數(shù)據(jù)的單一分類器,以應(yīng)付數(shù)據(jù)流的演變;同時,一種綜合的方法是使用組合或一組分類器,相比升級一個單獨的模型,構(gòu)建整體模型會更有效。比起單一模式分類技術(shù)其也有較高的分類正確率,這拓展了以前在數(shù)據(jù)流概念漂移中的新類型檢測的處理方法(Farid,2012)。

4 結(jié)束語

數(shù)據(jù)流概念漂移是數(shù)據(jù)分類過程中最棘手的問題,當(dāng)前不少學(xué)者對該問題提出了許多算法和集成分類器方法,尤其是近年來的相關(guān)研究,使其成為當(dāng)前數(shù)據(jù)挖掘領(lǐng)域研究的熱點和前沿問題,文章對該問題的研究現(xiàn)狀進(jìn)行了綜述和評價。

參考文獻(xiàn)

[1]張杰,孫曰瑤.基于AdaBoost組合算法的衍生金融工具風(fēng)險預(yù)測[J].統(tǒng)計與決策,2012,7(7):42-44.

[2]張杰,張婭萍.高校青年自組織文化認(rèn)同研究[J].知識經(jīng)濟(jì),2012,1(1):165.endprint

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 国产打屁股免费区网站| 欧美五月婷婷| 一本大道香蕉高清久久| 国产乱子伦视频三区| 国产欧美视频综合二区| 亚洲精品在线91| 热re99久久精品国99热| 国产青青草视频| 操国产美女| 国产精品美女自慰喷水| 影音先锋丝袜制服| 国产黄色爱视频| 91探花国产综合在线精品| 人妻精品久久无码区| 国产精品无码制服丝袜| 无码免费视频| 男女性午夜福利网站| 久久久久久国产精品mv| 亚洲美女视频一区| 亚洲女同一区二区| 久久动漫精品| 欧美激情首页| 免费在线看黄网址| 全部毛片免费看| 亚洲人成网址| 色综合日本| 无码中文AⅤ在线观看| av一区二区三区在线观看 | 热re99久久精品国99热| 色久综合在线| 亚洲综合色吧| 欧美日韩国产系列在线观看| jizz在线观看| 91亚洲国产视频| 日本免费高清一区| 91福利在线观看视频| 国产午夜在线观看视频| 精品国产美女福到在线直播| 欧美在线观看不卡| 色欲不卡无码一区二区| 久久青草热| 伊人精品成人久久综合| 任我操在线视频| 国产自无码视频在线观看| 高清国产在线| 久久亚洲中文字幕精品一区| 国产自在线播放| 日本午夜三级| 男人天堂亚洲天堂| 思思99热精品在线| 麻豆精品在线| 超级碰免费视频91| 欧洲精品视频在线观看| 久久久久久久久亚洲精品| 久久国产精品娇妻素人| 中文字幕 欧美日韩| 免费又黄又爽又猛大片午夜| 亚洲开心婷婷中文字幕| 女人18一级毛片免费观看| 在线国产三级| 亚洲无码精彩视频在线观看| 久久人搡人人玩人妻精品一| 日本免费新一区视频| 成人噜噜噜视频在线观看| 国产精品v欧美| 欧美日本不卡| 国产精品蜜芽在线观看| 青青操视频免费观看| 国产手机在线ΑⅤ片无码观看| 日韩天堂在线观看| 国产高清精品在线91| 中文字幕无码中文字幕有码在线| 麻豆精品在线播放| 欧美激情视频二区| 青青青草国产| 久久免费看片| 青青青草国产| 亚洲国产91人成在线| 久久精品一品道久久精品| 在线观看无码a∨| 中文字幕精品一区二区三区视频| 久久这里只精品国产99热8|