999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

流數據概念漂移檢測研究進展

2022-07-06 06:35:20聶秀山林熙明
山東建筑大學學報 2022年3期
關鍵詞:概念檢測方法

聶秀山,林熙明

(山東建筑大學計算機科學與技術學院,山東濟南 250101)

0 引言

流數據(Data Stream)是大量快速連續傳輸的順序數據序列,是一個隨時間延續而無限增長的動態數據集,且數據類型和數據的分布是不確定的。 在現今的大數據時代,網絡監控、氣象、工業流程、交通、金融等領域都會產生大量的流數據。 在日常生活中,隨著社交網絡及短視頻平臺的普及,網絡聊天、網上購物、視頻評論等[1]也產生了大量的流數據。 政府機構和企業單位通常需要依據流數據做出各種預測和決策[2],因此對流數據的挖掘和分析就顯得非常重要。 但是,流數據的統計關系會隨著時間的變化而隨機改變,且很難預測,這種變化稱為概念漂移。 其會以改變類分布、出現新特征等多種方式影響流數據的屬性[3],降低各種基于流數據的管理和決策系統的效率和準確度。

概念漂移通常發生在數據預測和決策模型中,離線(Offline)訓練好的模型在面對在線(Online)流數據時,因在線流數據的不確定變換,導致預測目標變量的統計特性會隨時間發生不可預測的變化,進而導致原有模型性能的急劇下降,此時需要訓練新的模型重新適應目標新的統計特性。 在不斷變化的大數據環境中,如何檢測到概念漂移,并采取相應的措施成為了一個關鍵問題。

1 概念漂移概述

1.1 概念漂移定義及來源

概念漂移是指輸出目標的統計特性隨時間以任意方式隨機變化的現象[4],指的是輸入數據和輸出目標之間的關系隨時間變化的在線監督學習場景。1986 年,SCHLIMMER 等[5]首次提出概念漂移后,國內外的數據挖掘研究人員對概念漂移展開了深入研究。 如今概念漂移已經成為數據挖掘領域的研究熱點,當預測模型遭遇概念漂移時,需要預測模型能夠動態調整,以便對概念漂移做出適當的反應[6]。

1.2 概念漂移的分類

概念漂移常見的一個分類標準是概念變換的速度。 當概念之間的變化是突然或迅速時,稱之為突變;當從一個概念到另一個概念的轉變在多個實例中發生時,稱之為漸變[10]。 根據概念變換的速度,概念漂移分類如圖1 所示,可以分為突發式漂移、漸進式漂移、增量式漂移和復發式漂移。 由圖1 可知,突發式漂移是指在短時間內突然發生概念間的變化;漸進式漂移是指舊概念在一段時間內,間隔隨機的時間逐步轉變為新概念;增量式漂移是指舊概念持續轉變為新概念;復發式漂移是指舊概念轉變為新概念后,間隔一段時間又重新變為舊概念。 其中,突發式漂移和增量式漂移屬于突變,而漸進式漂移屬于漸變。

圖1 概念漂移分類圖

對于突發式、漸進式和增量式3 類概念漂移研究的重點是如何在概念漂移過程中使模型預測精度下降最少,并實現較高的恢復率,即檢測出是何種類型的漂移后,盡快訓練出新的模型以適應具有新的數據分布或屬性的流數據。 相比之下,對復發式漂移的研究強調歷史概念的使用,即如何在最短的時間內找到與之匹配的歷史概念,由于復發式的漂移可能呈現周期性現象,因此檢測出是此類漂移后,僅需在原有模型的基礎上增加具有周期性的漂移模型即可繼續使用。

2 概念漂移檢測算法

當出現了概念漂移現象時,如何檢測出概念漂移是一個重要的問題。 傳統的機器學習系統主要由模型訓練和模型預測2 個部分組成,但在概念漂移現象下,系統新增了3 個組成模塊,即漂移檢測(是否發生漂移)、漂移理解(何時、何地、如何發生漂移)和漂移適應(對漂移存在的反應),如圖2 所示。其中,漂移檢測是最為重要的環節。

圖2 概念漂移下機器學習模型示意圖

2.1 漂移檢測基本框架

概念漂移檢測是指通過識別變化點或變化時間間隔,來表征和量化概念漂移的技術和機制。 漂移檢測一般包含數據獲取、數據建模、統計值計算和假設檢驗4 個階段[2],其框架如圖3 所示。

圖3 概念漂移檢測基本框架圖

數據獲取階段旨在從數據流中獲取到數據塊。因為單個數據實例不足以攜帶足夠的信息來判斷總體分布,所以將多個數據單例組織成數據塊在分析數據流數據分布中非常重要。

數據建模階段旨在提取數據特征,特別是提取數據漂移時對系統影響最大的特征進行數據建模。這一階段是可省略的,因為其主要涉及數據降維或減少樣本量,以滿足存儲和在線學習速度的需求。

統計值計算階段是相異性度量或距離估計。 其量化了漂移的嚴重性,并形成了假設檢驗階段的檢驗統計數據。

假設檢驗階段使用特定的假設檢驗評估階段三觀察到的變化的統計顯著性。 通過證明第三階段提出的檢驗統計量的統計界限確定漂移檢測的準確性。

2.2 漂移檢測算法

根據在第三階段中所使用的檢驗統計量可將漂移檢測分為基于錯誤率檢測概念漂移、基于數據分布檢測概念漂移以及多假設檢驗檢測概念漂移3 類。

2.2.1 基于錯誤率的漂移檢測

流數據的概念漂移可通過模型隨時間變化而產生的精度性能變化來監測。 如果存在一個時間節點t,模型在時間t 后的預測錯誤率明顯增加,這就說明數據流的性質可能已經發生了改變,即可能存在概念漂移。 如果出現這種情況,則需要根據發生變化后的數據重新訓練模型。 這種根據模型預測錯誤率的變化來檢測是否發生概念漂移的方法是概念漂移檢測最常見策略[11]。 這類方法關注在線錯誤率的變化,一旦錯誤率的增加或減少被驗證是具有統計意義的,將觸發漂移警報。

這類算法中最具代表性的算法是漂移檢測算法(Drift Detection Method,DDM)[12],這是第一個為概念漂移檢測定義警告級別和漂移級別的算法。 在該算法中,根據二項式分布,針對漂移程度定義警告級別和漂移級別。 該算法使用時間窗口采集新的數據實例,當新的數據可用于檢測時,DDM 會計算時間窗口內的數據樣本的錯誤率。 如果觀察到的錯誤率變化的置信水平達到警告級別,DDM 開始構建新的模型,同時使用舊的模型進行預測。 如果變化達到漂移級別,舊的模型將被新的模型替換,以進行后續的在線預測。 DDM 算法認為,如果數據實例的分布保持平穩,錯誤率應該隨著示例數量的增加而降低;如果錯誤率增加,DDM 則認為數據分布發生了變化,當前使用的學習器已經過時。 DDM 采用的時間窗口[2]如圖4 所示,DDM 在原有的歷史數據窗口中添加下一時刻的實例,從而構成新數據塊。

圖4 DDM 時間窗口策略圖

DDM 在突變式的概念漂移上表現效果較好,但對漸變式概念漂移效果不佳,且會增加內存的開銷,后續的很多算法改進了 DDM。 如漂移檢測方法(Early Drift Detection Method, EDDM)[13]和基 于Heoffding 不等式的漂移檢測方法(Drift Detection Method based on the Hoeffding's inequality,HDDM)[14]。 EDDM 與 DDM 類似,但其統計的是兩個連續分類錯誤之間的距離,即兩個分類錯誤之間的實例個數,而不是如DDM 一樣統計錯誤率。 因此,當概念穩定時,錯誤之間距離增大,當其減小時,會觸發警告級別和漂移級別。 EDDM 比DDM 更適合檢測漸進的概念漂移。 HDDM 則同DDM 一樣,也使用錯誤率作為檢驗統計量,HDDM 在假設檢驗階段采用Hoeffding 不等式判斷概率差異來檢測漂移,同時需要對漸變式概念漂移和突進式概念漂移分別設置不同閾值,增加了額外的開銷。

與DDM 等方法相比,NISHIDA 等[15]提出了等比例檢測的統計測試方法(Statistical Test of Equal Proportions,STEPD),該方法通過比較最近的時間窗口和整個時間窗口來檢測錯誤率變化,對于每個時間戳,系統中有歷史數據窗口和新數據窗口,新數據窗口的大小必須由用戶定義,其檢驗統計量符合標準正態分布,因此可以很容易計算出警告閾值與漂移閾值。 基于STEPD 方法,研究者提出了Fisher 比例漂移檢測器(Fisher Proportions Drift Detector,FPDD)[10],這是在樣本較小時使用Fisher 精確檢驗的STEPD 的一種變體。 同樣是使用等比例檢驗。Fisher 平方漂移檢測器 FSDD(Fisher Square Drift Detector, FSDD)與 FPDD 類似,但其檢驗統計量使用卡方統計檢驗來代替等比例檢驗。 此外,Fisher檢驗漂移檢測器(Fisher Test Drift Detector,FTDD)則使用了Fisher 精確測試來檢測漂移。

與STEPD 需要用戶自定義新數據窗口大小不同,BIFET 等[16]提出了一種基于兩個時間窗口的漂移檢測算法, 稱為自適應窗口方法(Adaptive Windowing,ADWIN),其采用的窗口策略如圖5 所示。 在ADWIN 中,可以自動調整比較窗口的大小。ADWIN 不要求用戶預先定義窗口大小,而只需指定窗口的總大小。 然后,其會檢查所有可能的窗口切割,并根據新舊兩個子窗口之間的變化率計算出各個子窗口的最佳大小。 當這些子窗口的均值差大于給定閾值時,會檢測到漂移,但這種方法過于靈敏,在噪聲較多的數據流中會導致檢測的錯誤率較高。此外,在概念漂移檢測方法中,由于ADWIN 能夠動態適應概念漂移,但其新數據窗口存在吞吐量瓶頸,因此 GRULICH 等[17]提出了并行自適應窗口(Parallel Adaptive Windowing)技術,為每秒數百萬元組的高速數據流提供可伸縮的概念檢測。

圖5 ADWIN 自適應時間窗口策略圖

在基于HDDM 的方法中,研究人員融合了統計方法與窗口,提出了使用滑動窗口和Hoeffding 不等式進行漂移檢測的方法(Fast Hoeffding Drift Detection Method,FHDDM)[18],該方法在漂移檢測中能有效的提高數據流分類的正確率,但仍存在漂移檢測的延遲問題。 為此,徐清妍等[19]在FHDDM算法的基礎上,提出了基于交疊滑動雙窗口和Hoeffding 不等式的漂移檢測方法(New Fast Hoeffding Drift Detection Method, NFHDDM )。FHDDM 為基于滑動窗口的檢測方法,通過在預測結果上設置滑動窗口,在滑動窗口中根據預測結果正確與否填入“1”或“0”實現,NFHDDM 在此基礎上通過在滑動窗口上使用四分位距來提取當前數據流段的特征,并改進了FHDDM 算法中Hoeffding 不等式閾值定義。 NFHDDM 不僅能夠獲得更高的漂移點檢測正確率,還能有效減小概念漂移檢測的延遲,從而提高流數據分類的正確率。 HUGGARD等[11]則提出了一種新的概念漂移檢測方法,稱為校準漂移檢測方法(Calibrated Drift Detection Method,CDDM)。 現有的概念漂移檢測方法監控模型預測的準確度,并在準確度度下降時預測漂移。 然而,準確度可能是一個粗糙的指標。 CDDM 通過檢測基礎學習器校準的變化而不是準確性的變化來實現這一點,將基礎學習器所預測的標簽以及人工打上的真實標簽輸入漂移檢測器,若二者標簽一致,則表明沒有發生漂移;若二者出現差異,則以人工打上的真實標簽為準,對學習器進行重新訓練,并報告發生了漂移。 CDDM 利用校準來區分真實漂移和虛擬漂移,對任何虛擬漂移常見的領域都是有效的,但其在計算效率上有時是比較滯后。

以上涉及的算法主要聚焦于在線學習場景。 近年來,也有部分算法關注離線場景,如鄭燦彬等[20]主要研究概念漂移的離線場景問題,提出一種3 階段的概念漂移檢測方法(Tsinghua Progress Concept Drift Detection,TPCDD)。 該方法將事件日志通過活動關系抽取轉變成一個活動關系矩陣;通過活動關系的頻繁度分析隨時間的變化情況檢測出每個活動關系的變更點,將其列為候選變更點;再通過聚類合并候選變更點得到漂移點。 其采用分治策略檢測出變更點后再整合,使得檢測準確率高、誤差小,但是該方法沒有考慮到相鄰的兩個模型可能會存在時間上重疊的情況。

2.2.2 基于數據分布的漂移檢測

第二類漂移檢測算法是基于數據分布的漂移檢測。 這類算法使用距離函數或距離度量來量化歷史數據和新數據分布之間的差異。 如果差異被證明在統計上存在顯著差異,系統將觸發學習模型更新過程。 這些算法通常要求用戶預定義歷史時間窗口和新數據窗口。 常用的策略是兩個滑動窗口,固定歷史時間窗口,同時滑動新數據窗口[2],如圖6 所示。KIFER 等[21]首先提出了這一思路,如果分布有自身的 概 率 密 度 函 數, 則 距 離 DL1=歷史時間窗口和新數據窗口中數據分布的概率密度函數。

圖6 基于數據分布的漂移檢測雙時間窗口策略圖

儲光等[1]考慮文本數據流隱含的語義信息,提出一種新的概念漂移檢測算法。 通過引入潛在狄利克雷分布( Latent Dirichlet Allocation,LDA)模型計算語義相似度,并基于相鄰數據塊共有詞比例和相似主題比例,在頻繁漂移情況下實現有效的概念漂移檢測。

在基于滑動窗口的方法研究中,楊帆等[22]在準確率的基礎之上,充分考慮了數據塊間概率分布的差異性,提出了一種基于相對熵的概念漂移檢測算法,將分類器的分類準確率與相對熵的值作為漂移判別基準。

姜振東等[23]則提出了一種基于 Kolmogorov-Smirnov 檢驗的概念漂移檢測方法。 根據Kolmogorov-Smirnov 檢驗,計算當前樣本和參考集的累積分布函數之間的差異。 如果分布 Pi≠ Pi+1,時間i 處被稱為概念漂移點。 該方法使用滑動窗口,在每次滑動時都檢驗基窗口以及新窗口中的樣本差異是否大于閾值來判斷是否發生了概念漂移。

郭虎升等[24]提出一種基于時序窗口的概念漂移類別檢測(Concept Drift Class Detection based on Time Window, CD-TW)方法,既可檢測漂移的節點,又可檢測漂移的類別。 該方法借助時序窗口機制對流數據進行分塊學習。 通過對參考窗口進行訓練,得到訓練的準確率作為檢測基準,然后對滑動窗口進行測試,得到滑動窗口的準確率。 比較滑動窗口與訓練窗口的準確率的比值,若低于閾值則輸出為漂移節點。 CD-TW 可以較為準確地檢測漂移節點,并且對不同類別的概念漂移有較強識別能力,對數據流挖掘提供了重要的幫助。

此外,章恒等[25]則以傳統網絡數據流為研究對象,提出了基于歷史數據分布的雙交叉窗口概念漂移檢測算法。 該方法使用滑動窗口接受數據流,交叉部分為窗口大小的一半。 通過計算歷史數據與窗口中數據的每個元素的距離來判斷是否發生了概念漂移。 若窗口中的所有元素與歷史數據的距離小于警告級別,則不存在漂移;若存在些許元素的距離高于警告級別,而所有元素距離小于漂移級別則只發出警告信號;若存在元素的距離高于漂移級別,則直接判斷發生了漂移。 因此該方法有較高的精度以及一定的抗噪能力。

除了基于滑動窗口的檢測方法以外,還有基于圖的檢測方法。 PAUDEL 等[26]提出了一種新的基于圖流的無監督概念漂移檢測方法,稱為基于鑒別子圖的漂移檢測器(Discriminative Subgraph-based Drift Detector,DSDD),該方法的基本過程是:(1) 為流中的每個圖發現有區別的子圖;(2) 根據判別子圖相對于圖的分布來計算窗口的熵,使用直接密度比估計,在滑動窗口向前移動時得到的熵值序列中檢測概念漂移。 在連續的窗口中,通過熵的變化鑒別出子圖分布的變化程度,若此變化是明顯的,則可判斷為概念漂移。 DSDD 具有較低的漂移檢測延遲以及較低的漂移錯誤率。

LIU 等[27]則提出了一個基于等強度k 均值聚類空間分割直方圖的方法 ( EqualIntensity kMeans,EI-kMeans),EI-kMeans 重點關注的如何有效地將多變量樣本轉換為多項式分布,再使用現有的假設檢驗檢測漂移。 此方法能夠在保持高抗噪能力的同時有著更高的檢測靈敏度。

總體來說,已有的方法尚未能很好地應對類別分布不平衡的多類數據流,為此,KORYCKI 等[3]提出了一種新的基于受限玻爾茲曼機(Restricted Boltzmann Machine for Multi-Class Imbalanced Data Streams, RBM-IM)的可訓練概念漂移檢測器。 該算法能夠同時監測多個類,并利用重構誤差,獨立檢測每個類的變化。 RBM-IM 使用了一個不平衡的損失函數,允許其處理多個不平衡的分布。 由于其可訓練性,能夠跟蹤流中的變化和不斷演化的類角色,以及能夠處理發生在少數類中的局部概念漂移。 這是一種新穎且可訓練的概念漂移檢測器,具有對偏移不敏感的損失函數,能夠監測具有動態不平衡比率的多類不平衡數據流,是一種對偏移不敏感的生成型神經網絡。 RBM-IM 存儲訓練數據分布的壓縮特征,通過使用舊數據和新傳入數據的屬性間的相似性度量,便可評估數據分布是否有變化,以此來檢測概念漂移。 其對多個類別不平衡的數據分布具有穩定性。

此外,還有針對區域或局部數據分布的漂移檢測方法。 LIU 等[28]提出了一個區域密度不等式度量,稱為局部漂移度(Local Drift Degree, LDD)測量方法,通過量化兩個不同樣本間的區域密度的差異,從而識別密度增減或穩定的區域,以衡量在每個可疑區域的區域漂移的可能性。 LIU 等[29]提出了一種基于區域密度估計的概念漂移檢測方法,稱為基于最近鄰的密度變化識別方法(Nearest Neighborbased Density Variation Identification,NN-DVI)。 其由3 個部分組成。 第一部分是基于k 最近鄰的空間劃分模式,通過檢索關鍵信息來將不可測量的離散數據實例轉換為一組共享子空間,用于密度估計;第二部分是一個距離函數,其累積了這些子區域中的密度變化,以量化數據集之間的總體差異;第三部分是針對距離的統計顯著性檢驗,通過該檢驗可以確定概念漂移的置信區間。 NN-DVI 中應用的距離對區域漂移非常敏感,并已被證明遵循正態分布。 因此,NN-DVI 的準確性和誤報率在統計上得到了保證。 NN-DVI 對區域密度變化引起的概念漂移敏感度高,同時也對噪聲具有穩定性。 CHEN 等[30]基于觀測值,提出了一種基于局部感知分布的概念漂移檢測方法,可對突發性的概念漂移進行檢測。 該方法對潛在的概念集進行維護,若新傳入的數據實例被錯誤地分類,則難以區分其是一個新的概念數據實例還是一個噪聲數據實例;然而,如果在短時間內有相對大量的數據實例被錯誤地分類,且同時都處在同一個密集的區域中,則可以合理假設此時出現了新的概念,若在潛在概念集中發現有足夠多的相鄰點與錯誤分類的實例具有相同的標簽屬性,則可以推斷出發生了突發式概念漂移。

此外,部分方法利用已有的漂移檢測方案,將其融合訓練出新的漂移檢測結構。 張永等[31]提出了一種基于多層次驗證的多標簽數據流概念漂移檢測算法,此方法的基本過程是:(1) 利用滑動窗口的思想,將多標簽數據流視為一個大小相同的連續數據塊;(2) 將檢測概念漂移分為兩層進行驗證:第一層為檢驗層,主要計算數據分布的變化情況,使用相應標簽數據質心與區間夾角的對比來測量數據塊的差異,如果高于區間上限則直接判斷為發生了概念漂移,低于區間下限則為未發生漂移,若在區間內發出漂移預警信息,則傳入第二層校驗層。 在校驗層中,使用相應標簽混淆矩陣之間的歐氏距離來測量差異程度,若距離大于閾值則判斷為發生了概念漂移。該方法通過兩層判斷是否發生概念漂移,并監控數據流分布的變化。 此方法顯著降低了誤報率。ZHANG 等[9]則采用分層結構,提出了一種多變量監督數據流的分層縮減空間檢測框架(Hierarchycal Reduced Space Detection Framework for Multivariates Supervised Data Streams,HRDS),用于準確有效地檢測多維數據流的真實漂移和虛擬漂移。 其關鍵思想是利用監督信息中的知識來發現現有檢測方法可能無法檢測到的變化。 實現這一目標的基本過程為:(1) 識別一個低維空間,該空間包含與給定分類任務的最相關的信息,即識別由訓練樣本跨越的特征子空間,以便將輸入的多元數據樣本投影到該空間;(2) 不再監視原始輸入樣本,而是在這個縮減的特征空間中為特定的分類任務執行檢測,不僅監控數據流的邊緣分布,還監控每個類的條件分布;(3) 提出了一種在每次檢測后重新配置信息量更大的再訓練數據集的新方法,可以檢測出真實漂移和虛擬漂移,同時在高維數據流上具有較高的準確性和低誤報率,并且有較低的漂移檢測延遲。

除了通過檢測特征分布來比較數據分布的方法以外,LU 等[4]提出了一種基于案例推理(Casebased Reasoning, CBR)系統的檢測概念漂移方法,引入了一個新的勝任力模型,通過測量勝任力而非特征分布來比較數據分布,勝任力是指當前能夠成功解決的問題的比例,基于勝任力的概念檢測方法不需要案例分布的先驗知識,而是通過勝任力模型估計概率分布并檢測變化,并提供檢測到的變化的可靠性的統計保證。 除了確定是否存在概念漂移,該方法還可以根據勝任力模型量化和描述檢測到的變化。

此外,TANHA 等[32]提出了一種數據流半監督分類的共形預測漂移檢測框架(Conformal Prediction for Semi-Supervised Classification on Data Streams,CPSSDS), 使用歸納共形預測方法(Inductive Conformal Prediction, ICP)識別信息量最大的數據點,以提高增量基礎學習器在每個輸入數據塊上的分類精度。 該框架使用增量分類器作為基礎學習器,并使用自訓練框架來處理標記樣本的稀缺性。該方法利用一種形式的共形預測器發現一組信息豐富的未標記數據實例,并在每個訓練過程中添加到原始訓練集中。 在此框架下,通過比較兩個連續數據塊的共形預測輸出的分布,采用 Kolmogorov-Smirnov 檢驗來檢測概念漂移,而不必考慮分類過程的計算困難性。 此方法提高了半監督分類性能,且能夠檢測突進式與漸進式漂移,此外該方法可以改進用以高度不平衡的數據流。

2.2.3 多假設檢驗的漂移檢測

多假設檢驗漂移檢測算法使用多個假設檢驗以不同的方式檢測概念漂移[2]。 YU 等[33]提出了分層線性四速率(Hierarchical Linear Four Rates, HLFR)框架,該框架通過在在線環境中利用一組分層假設檢驗來檢測不同數據流分布(包括不平衡數據)的概念漂移,該方法還提出了一個用于概念漂移檢測的兩層分層假設測試框架。 此方法可以檢測概念漂移的所有可能的變體并且可以顯著減小誤報率,甚至在存在不平衡類標簽的情況下也能做到這一點。

孫子健等[34]則提出一種面向工業過程難測參數建模的雙窗口概念漂移檢測方法。 步驟為:(1) 建立離群樣本檢測窗口及分布檢測窗口雙窗口,在離群樣本檢測窗口采用支持向量回歸獲得實時過程數據中包含的離群樣本,在分布檢測窗口計算離群與歷史樣本間的歐氏距離;(2) 使用F 檢驗、t 檢驗及Q 檢驗方法,計算出樣本的漂移度指標,若低于閾值則報告該離群樣本發生概念漂移。 該方法提升了檢測的準確度,但較依賴于模型預測精度,降低了檢測效率。

2.2.4 復合漂移檢測

近年來,部分研究者將上述幾類方法組合起來,提出了復合漂移檢測算法。 張寶菊等[35]基于錯誤率和漂移度,提出概念漂移的并行檢測機制。(1) 使用學習算法訓練模型獲得每個數據塊的分類錯誤率;(2) 比較預測錯誤率,如果超出置信區間;(3) 計算基于歐氏距離的概念漂移程度,若漂移程度上升,表明數據分布很可能發生變化,則報告發生概念漂移。

由于目前的漂移檢測方法大多數集中于漂移位置的檢測,關于漂移類型識別的研究很少。 在漂移類別識別的研究中,GUO 等[36]提出了一種基于多滑動窗口的概念漂移類型識別方法,能夠在快速檢測漂移位置的過程中有效識別概念漂移類型,準確分析在線學習過程中的關鍵信息,提高流數據分析和挖掘的效率和泛化性能。 該方法基于錯誤率及數據分布,在檢測過程中,漂移位置由單個基本滑動窗口和單個基本靜態窗口檢測。 在增長過程中,使用多個滑動窗口來識別漂移類別,其中填充了少量漂移位置后的新數據。 在跟蹤過程中,使用復合滑動窗口和復合靜態窗口獲得識別漂移子類別的重要信息。 漂移類型識別過程中通過檢測漂移長度識別漂移類別。 而基于漂移類別,根據流數據中不同數據塊的分布之間的關系來識別漂移的子類別。 但該方法僅適用于監督學習中,且無法準確檢測增量式漂移。

2.2.5 漂移檢測方法總結

綜上所述,基于錯誤率的漂移檢測方法在數據獲取階段時,基本采用固定初始窗口大小并隨時間滑動以增大窗口,或自適應劃分歷史數據及新數據窗口,在統計值選擇上以計算時間窗口之間數據實例的分類錯誤率為主,能夠快速地檢測突進式漂移或漸進式漂移。 此外,基于錯誤率的漂移檢測方法主要預測模型隨時間推移的性能,因此只在分類精度下降后才會檢測變化,進而發出警報信號,而且這類漂移檢測方法通常需要全面地訪問真實標簽,但在一些真實的場景中,概念標簽并不是很容易獲得,這樣就降低了此類方法的實用性。

基于數據分布的漂移檢測方法在數據獲取階段,其歷史數據窗口與新數據窗口相互獨立,該類方法主要聚焦于使用距離函數以判斷雙窗口中的數據實例分布的相似性差異,具有較高的檢測靈敏度與穩定性,甚至能夠識別概念漂移類型。 但是,此類方法雖然能夠檢測到輸入空間內的漂移,但仍無法準確地判斷漂移出現的原因是數據分布的變化還是標簽標記的錯誤。

多假設檢驗的漂移檢測方法在數據獲取階段以及所采用的統計值與前兩者相似,但在假設檢驗階段使用了多個不同的假設檢驗來檢測漂移,能夠提升檢測的準確率,但損失了檢測的效率。

復合漂移檢測方法則是將上述多種方法組合起來,能夠在提升漂移檢測的精確度以及速度的同時,識別出漂移的類型。

2.3 概念漂移檢測常用的公開數據集

常用的公開真實數據集,包括帶有混合漂移的真實數據集,總結如下:

(1) Electricity[37]數據集 每30 min 從澳大利亞新南威爾士電力市場獲取的隨時間變化的電價樣本,樣本總數為45 312 個,每個樣本包含8 個特征和2 個類。 數據集上的每個樣本都有5 個字段,即星期幾、時間戳、新南威爾士州電力需求、維多利亞州電力需求、各州之間的計劃電力傳輸和類別標簽。此數據集可用于短期的概念漂移檢測。

(2) CoverType[38]數據集 植被覆蓋類型數據集,其樣本總數為581 012 個,每個樣本擁有54 個特征,共有7 個類,其中54 個特征中除了前10 個為浮點數,其余均為One-hot 變量。

(3) Poker-Hand[38]數據集 撲克手數據集,可用于檢測類別不平衡的概念漂移,其中包含1 025 010個樣本,每個樣本包含10 個特征和10 個類。

(4) KDD-Cup99[38]數據集 網絡入侵檢測數據集,可用于檢測未知類別的概念漂移,有494 021個樣本,每個樣本有41 個特征和23 個類。

(5) Spam[39]數據集 垃圾郵件數據集,主要用于漸進式漂移檢測,有9 324 個樣本,包含了499 個特征和2 個類。

(6) NOAA Weather[40]數據集 NOAA 氣象站點數據集,有18 159 個樣本,每個樣本有8 個特征和2 個類。

數據集設置情況見表1。

表1 真實數據集 單位:個

此外,還列出了漂移檢測使用頻率較高的人工合成數據集。 由于數據實例是由預先定義的規則和特定參數生成的,所以合成數據集是評估不同概念漂移場景下學習算法性能的一個很好的選擇。 包括

(1) STAGGER[41]數據集 每個樣本有3 個特征和2 個類。 其來源為真實漂移,可檢測突發式概念漂移。

(2) Hyperplane[42-43]數據集 每個樣本有10個特征和2 個類。 其來源為真實漂移,可檢測漸進式與增量式概念漂移。

(3) SEA[44]數據集 每個樣本有3 個特征和2個類。 其來源為真實漂移,可檢測突發式概念漂移。

(4) Circle[12]數據集 每個樣本有2 個特征和2 個類。 其來源為混合漂移,可檢測漸進式概念漂移。

(5) Sine[12]數據集 每個樣本有2 個特征和2個類。 其來源為真實漂移,可檢測突發式概念漂移。

(6) LED[38]數據集 每個樣本有24 個特征和10 個類。 其來源為真實漂移,可用于檢測突發式概念漂移。

(7) RandomRBF[45]數據集 樣本總數、特征數、類的個數均可隨機生成。 其來源為混合漂移,可用于檢測突發式、漸進式以及增量式概念漂移。

數據集設置情況見表2。

表2 人工合成數據集

3 展望

文章介紹了概念漂移檢測的定義、形式、分類以及現有研究工作,描述了現有概念漂移檢測算法重點,分析了各類方法的優缺點,并介紹了對概念漂移檢測常用數據集。

現有的漂移檢測算法雖然能夠判斷是否發生了概念漂移,但仍不能準確識別概念漂移的類型,因此該領域還需要加強對漂移類型識別的研究。 此外,漂移檢測算法還面臨著冷啟動問題,現有的漂移檢測算法需要初始窗口來收集假設檢驗的基本統計屬性,但在初始窗口中無法實現檢測策略,如果初始窗口中就存在概念漂移,這就影響了檢測的效果,因此,如何解決冷啟動問題是概念漂移檢測的重要研究方向。

在數據集的獲取方面,由于在實際應用中獲得數據真實標簽的成本較高,因此無監督或半監督的概念漂移檢測方法也是重要的研究方向。

猜你喜歡
概念檢測方法
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久久精品人人做人人爽| 欧美成人午夜在线全部免费| 伊人激情综合网| 狠狠操夜夜爽| 欧美日韩国产成人高清视频| 国产成人综合久久精品尤物| 成人日韩视频| 91丝袜在线观看| 色欲综合久久中文字幕网| 国产在线一二三区| 天天色综网| 无码粉嫩虎白一线天在线观看| 国产无码网站在线观看| 国产精品免费电影| 国产亚洲精品无码专| 国产精品lululu在线观看| 国产综合日韩另类一区二区| 久久综合伊人77777| 亚洲黄网在线| 特级aaaaaaaaa毛片免费视频 | 欧洲在线免费视频| 国产一级在线观看www色| 国产99视频免费精品是看6| 天天躁日日躁狠狠躁中文字幕| 91精品啪在线观看国产91| a毛片在线播放| 啪啪啪亚洲无码| 欧美区一区| 很黄的网站在线观看| 国产18在线| 91无码视频在线观看| 久热中文字幕在线观看| www.av男人.com| 亚洲精品不卡午夜精品| 91毛片网| 久久黄色一级视频| 成人午夜福利视频| 国产91丝袜在线播放动漫| 国产成人乱无码视频| 亚洲香蕉伊综合在人在线| 欧美成人亚洲综合精品欧美激情| 日韩二区三区| 丝袜高跟美脚国产1区| 免费无码一区二区| 色哟哟国产精品一区二区| 国产成人做受免费视频| 亚洲中文字幕无码爆乳| AV不卡无码免费一区二区三区| 亚洲中字无码AV电影在线观看| 亚洲精品男人天堂| 一级一级一片免费| a色毛片免费视频| 国产人免费人成免费视频| 婷婷亚洲视频| 国产在线观看精品| 久久6免费视频| 成人在线不卡视频| 九九久久精品免费观看| 国产麻豆精品在线观看| 欧美日韩久久综合| 狠狠亚洲五月天| 中文字幕调教一区二区视频| 国产91在线|日本| 国产视频只有无码精品| 毛片在线看网站| 国产欧美日韩va| 波多野结衣久久精品| 亚洲区视频在线观看| AV无码无在线观看免费| 国产在线视频二区| 久久国产精品电影| 人妻中文久热无码丝袜| 国产第八页| 亚洲婷婷丁香| 中文字幕在线日本| 2020最新国产精品视频| 色综合综合网| 四虎影视库国产精品一区| 成人午夜天| 成人午夜视频在线| 97超爽成人免费视频在线播放| 色欲不卡无码一区二区|