999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據流概念漂移分類和挖掘研究綜述

2014-08-26 02:38:15趙峰
科技創新與應用 2014年26期
關鍵詞:數據挖掘

趙峰

摘 要:基于數據流概念漂移技術在機器學習和數據挖掘領域的重要性,文章首先闡述了數據流漂移概念的概念,接著綜述了近年來數據流概念漂移處理方法的發展趨勢,最后概括了數據流概念漂移挖掘和分類研究的現狀。

關鍵詞:概念漂移;數據流;數據挖掘

引言

數據流概念漂移的研究在機器學習和數據挖掘領域的重要性與日俱增, 并在處理途徑方面取得了一定的成果,從2000年開始,數據流概念漂移分類研究進入了快速發展期,研究人員開始考慮更加接近實際狀況的數據流概念漂移。從近年機器學習與數據挖掘領域的一些國際權威期刊和國際頂級會議上發表的論文來看,數據流概念漂移挖掘和分類研究正日益成為學術界關注的焦點,對數據流概念漂移的研究已經開始與轉移學習、進化計算、特征選擇、聚類、時間復雜度分析、社會計算等結合起來。因此,從趨勢上來講,已有各種模式分類的理論和算法都可與概念漂移相結合而引出更多新的研究問題。

1 數據流概念漂移的概念及處理方式

某些文本的類別特征往往對它內部所包含的一些“隱性內容”具有很大的依賴性,這種現象通常被稱為概念漂移。隨著時間的向前推移,其中的這些隱性特征不斷發生著細小隱蔽的變化,這些變化事先不易預知,事后也不易覺察,但是,當積累到一定程度時,卻會導致整個目標概念發生變化。Schlimmer(1986)對概念漂移做出定義,認為其是環境的隱藏性變化而導致目標概念發生變化的過程。許多真實學習任務的數據都是從某一特定的擴展時間段之內收集的,隨著時間的推移,背景環境發生變化不僅會導致目標概念本身發生變化,還會引起數據集的分布發生變化。Lidmer(1993)把環境的隱藏性變化導致目標概念發生變化的過程稱為真實概念漂移,把環境變化導致數據集分布發生變化的過程稱為虛擬概念漂移,這兩者可以同時發生,也可以只有虛擬概念漂移發生。

數據流中的概念流可以通過以下三種方式進行處理:基于窗口的方法、基于重量的方法以及集成分類。基于窗口的方法是通過選擇一個固定的或動態的滑動窗口構建一個分類模型,在分類精度的基礎上調整窗口的大小(Lee,2009)。在以重量為基礎的方法上,每個訓練實例被分配一個權重。最流行的演變技術來處理概念漂移的數據流是使用集成分類(分類器的組合),幾個輸出分類器的組合是用來確定最終的分類,這通常被稱為融合規則。另外,在每個時間點的個體輸出分類器上分配權重,權重通常為一個歷史表現函數,通過使用交叉驗證過去或估計的函數。

2 數據流概念漂移挖掘研究現狀

為了從大量來自真實世界的復雜數據中提取最有用的信息和知識,在過去十年,各種數據挖掘算法已經被提出和發展。Masud等(2011)建議在真正的標記新類型的實例之前應使用分類器來檢測新的類別。為了確定每個個體是否屬于某一新類型,其分類模型有時需要收集更多的測試實例來發現數據之間的異同。Polikar(2011)也推出了可以漸進式學習流的分類器集合體,并命名為學習+NSE方法,通過當前和過去的環境動態加權多數表決技術結合這些分類可以調整各個分類時間的準確率。Song(2010)提出了一種基于關聯規則的關聯分類算法的數據流,其工作宗旨是發現各項集之間的關系,并從輸入的數據集中提取一套完整的頻繁模式。

Surace(2008)應用了人體免疫系統拓寬的一般特性集和時間序列異常檢測,其中系統或結構的正常狀態可能會改變。Tsai(2007)提出了一個新的挖掘樹規則概念流,被稱為CDR-樹的規則挖掘數據流的概念。CDR-樹能有效地提取決策中的每個數據塊的分類模型。Haggett(2005)提出了包括神經探測器與動態預測編碼為特定應用程序的屬性提取系統,它在各種情況下都勝過專家的方法。Maloof(2003)針對使用動態加權多數性能變化問題,提出了一個為創建動態流概念和刪除加權的集成方法,其通過培訓網上學習者的綜合能力以及基于所述集合的全局性能添加或移除的能力。

3 數據流概念漂移分類研究現狀

在數據挖掘和機器學習領域中的數據流分析和挖掘是一項具有挑戰性的研究,它最近受到許多計算智能研究人員的關注(Holmes,2012)。數據流分類是提取知識和連續數據點信息的方法(Read,2010)。在數據流中的數據是隨著時間的推移所產生的,并且不能由任何預先定義的順序來控制。一個數據流與傳統的靜態數據或數據庫相比有非常多元化的特點,包括:動態、無限、高維、有序、不重復、高速和時變(Zliobaite,2009年)。大多數現有的數據挖掘技術不能檢測及在數據流環境中進行分類(Qin,2007),因而現有的挖掘模型會將這些分類新實例與類標簽弄錯(Biswas,2004)。因此,這樣的數據流分類需要不斷更新和再培訓通過在線數據流中標記新來的數據。

新類型檢測數據流概念漂移是必需的,因為目標類的統計特性在不可預見的方式隨時間而改變,并且必須是任何實際的數據流分類技術的一個組成部分。目前,主要有兩種數據流的分類方法:單一型號的增量分類和基于分類的集成模型。單一模式分類技術逐步更新為新數據的單一分類器,以應付數據流的演變;同時,一種綜合的方法是使用組合或一組分類器,相比升級一個單獨的模型,構建整體模型會更有效。比起單一模式分類技術其也有較高的分類正確率,這拓展了以前在數據流概念漂移中的新類型檢測的處理方法(Farid,2012)。

4 結束語

數據流概念漂移是數據分類過程中最棘手的問題,當前不少學者對該問題提出了許多算法和集成分類器方法,尤其是近年來的相關研究,使其成為當前數據挖掘領域研究的熱點和前沿問題,文章對該問題的研究現狀進行了綜述和評價。

參考文獻

[1]張杰,孫曰瑤.基于AdaBoost組合算法的衍生金融工具風險預測[J].統計與決策,2012,7(7):42-44.

[2]張杰,張婭萍.高校青年自組織文化認同研究[J].知識經濟,2012,1(1):165.endprint

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美午夜网| 日韩欧美国产综合| 国产精品视频猛进猛出| 91日本在线观看亚洲精品| 超级碰免费视频91| 国产精品青青| 99热这里只有精品久久免费| 成人韩免费网站| 国产亚洲欧美另类一区二区| 99视频在线免费观看| 国产三级视频网站| 97在线国产视频| 一区二区三区在线不卡免费| 久久精品无码一区二区国产区| 蜜芽一区二区国产精品| 动漫精品啪啪一区二区三区| 91色在线视频| aⅴ免费在线观看| 欧美午夜久久| 国产美女无遮挡免费视频| 亚洲黄色高清| 中文字幕天无码久久精品视频免费| 日韩精品一区二区三区免费| 这里只有精品在线播放| 国产日本欧美在线观看| 国产精品污视频| 国产成人欧美| 亚洲人成网站在线观看播放不卡| 天天干伊人| 欲色天天综合网| 国产高清在线精品一区二区三区| 国产福利2021最新在线观看| 激情五月婷婷综合网| 亚洲色偷偷偷鲁综合| 久草性视频| 久久天天躁狠狠躁夜夜2020一| 国产在线一二三区| 在线综合亚洲欧美网站| 72种姿势欧美久久久久大黄蕉| 国产97视频在线| 国产真实乱人视频| 国产真实二区一区在线亚洲 | 91精品国产自产在线老师啪l| 亚洲天堂免费| 国产综合亚洲欧洲区精品无码| 国产成人精品日本亚洲| 国产在线日本| 国产自产视频一区二区三区| 亚洲天堂成人在线观看| 亚洲精品午夜无码电影网| 国产欧美日韩精品综合在线| 国产特一级毛片| 久久精品这里只有精99品| 免费不卡在线观看av| 天堂亚洲网| 91精品国产91久无码网站| 亚洲第一综合天堂另类专| 欧美不卡视频在线观看| 大乳丰满人妻中文字幕日本| 久久人搡人人玩人妻精品一| 天天综合色网| 国产精品99在线观看| 亚洲日韩国产精品无码专区| 91小视频版在线观看www| 亚洲综合九九| 日韩av资源在线| 在线精品视频成人网| 国产亚洲精品精品精品| 国产成人狂喷潮在线观看2345| 91亚洲免费视频| 欧美啪啪一区| 色婷婷亚洲综合五月| 狠狠色丁香婷婷| 欧美成人日韩| 国产www网站| 亚洲欧美激情另类| 99久久精彩视频| 无码日韩视频| 亚洲欧美极品| 成人精品视频一区二区在线| 黄色网页在线观看| 精品国产91爱|