999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態策略的多源遷移學習數據流分類研究

2020-05-18 11:07:24劉三民
計算機工程 2020年5期
關鍵詞:分類

周 勝,劉三民

(安徽工程大學 計算機與信息學院,安徽 蕪湖 241000)

0 概述

隨著大數據技術的不斷發展,數據流挖掘在天氣預報、金融預測、電子商務等領域得到廣泛應用。傳統的數據流分類方法需要大量的標簽樣本來訓練分類模型,而獲取大量標簽樣本費時費力,且這類方法無法有效解決數據流中的概念漂移和噪聲問題。

目前,將多源遷移學習[1-2]與集成學習[3-4]相結合并應用于數據流分類的研究得到廣泛關注,該類方法通過將訓練得到的多個源領域分類器進行集成來對目標領域新到樣本進行分類,能夠解決源領域和目標領域相似度較低以及目標領域標注樣本不足的問題[5-7]。根據多源領域分類器的不同集成方式,可以將多源領域分類器集成分為多源領域分類器直接集成和多源領域分類器選擇集成兩類。

多源領域分類器直接集成的方法將所有源領域分類器進行集成。文獻[8]建立一種多源遷移學習算法OMS-TL,該算法根據二部圖實現對目標領域樣本的預測,通過對數據樣本進行重用來實現遷移學習。文獻[9]設計OTLMS算法,該算法將源領域分類器和目標領域分類器進行組合以構建預測分類器,解決了與目標學習任務無關的噪聲源數據影響分類精度的問題。文獻[10]通過將目標特征空間分成源域的同構和異構2個部分,將基分類器進行加權組合獲得多個源領域分類器,并將它們組合成一個集成模型來解決多源異構遷移學習問題。但是,每個源領域都可能不包含目標域的完整類別信息,當多個源領域之間存在較大差異時,將所有源領域分類器進行集成會導致分類性能降低。

針對多源領域分類器直接集成方法的不足,眾多國內外學者提出使用多源領域分類器選擇集成的方法來解決數據流分類問題。文獻[11]基于局部分類精度提出一種多源遷移學習算法LC-MSOTL,該算法將局部分類精度最高的源領域分類器和目標領域分類器進行加權集成,實驗結果顯示,該方法具有較高的準確率。針對概念漂移數據流分類中的概念重現問題,文獻[12]提出一種重現概念漂移數據流分類算法RC-OTL,其根據領域相似度挑選最合適的源領域分類器,實驗結果表明,RC-OTL算法能夠有效克服“負遷移”問題。文獻[13]構建一種多源迭代自適應算法MSIDA,該算法根據貪婪思想實現最佳源域的選擇,同時通過創建額外的偽標記實例來解決樣本標注問題。文獻[14]通過求解每個源領域對應的權值向量,并用該權值向量表示源領域和目標領域之間的相似度,從而顯著地提高了遷移學習的效率以及分類性能。文獻[15]提出一種OHTWC算法,其通過計算異構域中同現數據的異構相似性,解決了異構域上的數據流分類問題。文獻[16]通過調整每個源領域分類器對應的權重,同時用目標領域分類器更換權重最大的源領域分類器,在出現概念漂移后快速恢復集成分類器的分類準確率,最終使集成分類器的分類性能得到改善。

在數據流分類任務中,多源領域分類器選擇集成技術具有明顯優勢,但在多源遷移學習過程中,從多個源領域分類器中如何挑選最合適的分類器進行遷移集成是急需解決的問題。本文提出一種基于樣本確定性的動態分類器選擇方法,以高效選擇最合適的源領域分類器并解決數據流中的概念漂移和噪聲問題。

1 基本概念

為便于分析和理解,對本文涉及的基本概念進行定義:

定義1數據流指按時間順序依次到達的n個樣本的集合,即:

S={(xt,yt)|t=1,2,…,n},(xt,yt)∈X×Y,X∈Rm,Y={-1,+1}

其中,X表示m維的特征空間,Y指樣本類別。

定義2概念漂移指數據樣本產生的聯合概率分布函數隨時間的推進發生無法預知的變化,即:

pt(x,y)≠pt+1(x,y)

其中,x表示樣本特征信息,y表示樣本所屬類別。

定義3信息熵用來衡量某隨機事件發生的不確定性,其計算如下:

(1)

其中,X為隨機變量,k為隨機變量X所有可能發生的事件數目,pi為對應事件發生的概率。

對信息熵計算公式分析可知,當概率為1時,信息熵最小為0,相當于確定性事件。對于只有2種事件的隨機變量,當概率為0.5時,信息熵取得最大值,表明無法對當前事件進行有意義的判斷。隨機事件的信息熵與概率之間的關系如圖1所示。

圖1 信息熵與概率之間的關系

定義4樣本確定性指分類器對待分類樣本x預測結果的確定性程度。本文討論的是二分類問題,結合信息熵的定義可得樣本確定性計算公式如下:

(2)

其中,pi為樣本x對應的類別后驗概率。

通過樣本確定性進行數據流分類,可以有效避免不確定分類器對噪聲數據流帶來的不利影響,同時提高分類準確率。

2 棄權分類器

針對概念漂移數據流分類問題,文獻[17-19]提出基于棄權分類器的數據流分類方法,以挑選最合適的基分類器。棄權是指未能達到特定規則要求的基分類器不參與決策,當發生概念漂移時,該方法通過允許基分類器對新實例丟失信心時放棄預測,同時允許選擇的基分類器參與決策,從而探索集成的多樣性,棄權分類器的結構如圖2所示。首先計算多個基分類器對新到樣本的確定性值,然后強制未能達到閾值限制的基分類器放棄預測,最后采用多數投票的方法對新到樣本進行集成決策。該方法強制不確定分類器(未能達到特定規則要求的分類器)不進行預測,即不確定分類器可以放棄參與最終決策,并將所選擇的基分類器的輸出結果作為分類器集合的輸出。

棄權分類器的優點在于能夠挑選出達到特定規則要求的分類器,更快適應概念漂移現象,有利于消除噪聲數據的影響。本文基于棄權分類器,將多個源領域分類器對目標領域數據塊中每個樣本的確定性值與給定的閾值進行比較,對于未能達到閾值限制的源領域分類器,強制其不參與投票。若所選擇的源領域分類器集合能夠正確地預測標簽,則意味著已經選擇了有能力的源領域分類器,可以通過降低閾值來探索其他類似能力的源領域分類器。如果所選擇的源領域分類器集合做出不正確的決定,則表示可能發生了概念漂移現象,在這種情況下,需要增加閾值來排除不太合格的源領域分類器,以挑選出最適合當前流狀態的源領域分類器。

3 算法描述

在樣本確定性和棄權分類器的基礎上,本文提出一種基于動態策略的多源遷移學習算法DSMTL。該算法求得源領域分類器對目標領域數據塊中每個樣本的類別后驗概率,然后根據樣本確定性計算方法求得各源領域分類器對目標領域數據塊中每個樣本的確定性值,最后將樣本確定性值滿足當前閾值限制的源領域分類器與目標領域分類器進行在線集成,以對目標領域數據塊進行分類,其中,使用多數投票的方式進行有關預測標簽的最終決策,并根據集成決策的正確性修改閾值。DSMTL算法的詳細描述如下:

算法1DSMTL算法

輸入目標域數據流DS,源領域分類器集合CS,棄權閾值θ,調整因子S

輸出集成分類模型對目標領域數據塊的分類準確率

1.參數初始化θ、S,緩存10個規模大小相等的數據塊,并分別在數據塊上訓練源領域分類器

2.For j=1,2,…,對后續數據塊Dj依次循環處理

3.基于目標領域數據塊Dj構建目標領域分類器ftj

4.計算各源領域分類器對目標領域數據塊中每個樣本x的類別后驗概率pi

5.計算各源領域分類器對目標領域數據塊中每個樣本x的樣本確定性值sc:

6.將樣本確定性值滿足閾值限制的源領域分類器fs與目標領域分類器ftj進行在線集成,以對目標領域數據塊Dj進行分類

7.根據集成決策的正確性修改棄權閾值θ,如果集成分類器對目標領域數據塊Dj的分類準確率大于棄權閾值θ,則:

θ=θ·(1-S)

否則:

θ=θ·(1+S)

8.End For

在算法1中,步驟1表示初始化,步驟3表示基于目標領域數據塊構建目標領域分類器,步驟4~步驟5表示求各源領域分類器對目標領域數據塊中每個樣本的確定性值,步驟6表示選取樣本確定性值滿足閾值限制的源領域分類器,并與目標領域分類器在線集成以對目標領域數據塊進行分類,步驟7表示棄權閾值修改。

4 實驗結果與分析

4.1 實驗數據集

4.2 結果分析

本文將所提方法與基于準確率選擇集成的多源遷移學習方法ASIMTL[4]進行對比。實驗采用Bayes分類器作為基分類器,通過批處理模式生成數據塊以及訓練基分類器,其中,源領域數據塊大小為2 000,源領域數據塊個數為10,訓練10個源領域分類器,同時基于目標域數據流形成20個數據塊,數據塊大小設為500,求得各源領域分類器對目標領域數據塊中每個樣本的確定性值,將樣本確定性值滿足閾值限制的源領域分類器與目標領域分類器進行在線集成,從而對目標領域數據塊進行分類。

實驗1驗證棄權閾值參數的影響。為驗證棄權閾值對算法的影響,本文選擇3個不同的閾值,將平均準確率和標準差統計量作為評價指標,固定調整因子的值為0.01,實驗結果如表1所示。

表1 棄權閾值對DSMTL算法性能的影響

Table 1 Effect of waiver threshold on performance of DSMTL algorithm

棄權閾值平均準確率標準差統計量0.6440.70080.04170.6500.70860.02830.6600.70820.0327

從表1可以看出,當棄權閾值為0.650時,算法平均準確率和標準差統計量較優。當棄權閾值較大時,每次迭代選擇的源領域投票分類器數量不夠,而閾值較小時選擇的源領域投票分類器可能并不適合當前流狀態,棄權閾值較大或較小都會導致無法挑選出最合適的源領域分類器,從而影響算法的分類性能。

實驗2驗證DSMTL算法的分類性能。圖3所示為DSMTL和ASIMTL 2種算法在數據集D1上采用先測試后訓練策略所得的分類準確率情況。從圖3可以看出,在無噪聲的情況下,相對于ASIMTL算法,DSMTL算法的分類準確率有明顯提高,其能夠及時發現概念漂移并且挑選出最合適的源領域分類器以處理新出現的概念,如在數據塊2和數據塊5之間出現了分類準確率持續下降的情況,數據塊12和數據塊14之間出現了曲線低峰,但算法能夠快速地恢復其識別準確率,說明DSMTL算法能夠很好地適應概念漂移情況,即通過樣本確定性值選擇源領域分類器的策略能夠有效改善遷移效果。

圖3 數據集D1上的實驗結果

圖4、圖5是噪聲環境下2個數據集中的實驗結果,從圖4、圖5可以看出,在有噪聲的情況下,DSMTL算法仍然具有較高的分類準確率,優于ASIMTL算法,說明其具備一定的抗噪性能,這是由于DSMTL算法使用了信息熵求樣本確定性值,其消除了噪聲數據的影響。但隨著噪聲數據的增加,DSMTL算法分類準確率出現較大波動,這是由于噪聲樣本被誤認為是概念漂移樣本用以構建目標領域分類器,導致集成分類器對新概念無法收斂。

圖4 數據集D2上的實驗結果

圖5 數據集D3上的實驗結果

綜上可知,DSMTL數據流分類算法可行,分類準確率優于ASIMTL算法,原因是DSMTL算法將求得的各源領域分類器對目標領域數據塊中每個樣本的確定性值與一個給定的閾值進行比較,只選擇滿足當前閾值限制的源領域投票分類器,即強制不確定的分類器不參與投票,目的是為投票步驟選擇最不可能受噪聲數據影響的源領域分類器。因此,該算法能夠通過設置棄權閾值的方式挑選出最合適的源領域分類器,且其策略可以消除噪聲數據的影響,更快地適應概念漂移現象,使分類模型面對概念漂移問題時具有更好的泛化能力。

從表2可以看出,DSMTL算法性能明顯優于ASIMTL算法,平均準確率約高出5個百分點,在噪聲環境下仍然具有較高的準確率,說明DSMTL算法能夠有效地處理數據流中的噪聲,更快地適應概念漂移現象。當數據集由不含噪聲的數據變為含有噪聲的數據時,DSMTL算法的分類準確率下降程度小于ASIMTL算法,說明DSMTL算法面對噪聲數據流時具有更好的穩定性和更強的抗噪性。原因是DSMTL算法利用信息熵求得各源領域分類器對目標領域數據塊中每個樣本的確定性值,有效消除了噪聲數據的影響,使分類模型保持較高的分類精度以及較好的穩定性。

表2 2種算法平均準確率和標準差統計量對比

Table 2 Comparison of average accuracy and standard deviation statistics of two algorithms

數據集平均準確率標準差統計量ASIMTLDSMTLASIMTLDSMTLD10.66080.70540.01460.0279D20.60280.65620.01710.0408D30.54380.60020.01130.0256

5 結束語

本文結合棄權分類器和樣本確定性計算方法,提出一種多源遷移數據流分類學習算法DSMTL。該算法能夠有效利用棄權分類器思想強制不確定分類器不進行預測,同時計算樣本確定性值以從源領域分類器集合中挑選最合適的分類器,并與目標領域分類器進行在線集成。實驗結果表明,DSMTL算法能夠對集成的多樣性進行選擇性控制,消除噪聲數據的影響,并解決數據流中概念變化和樣本標注問題。下一步將對源領域與目標領域數據的共有特征進行識別,根據新到達樣本對分類模型進行更準確的權重設置,并探究對源領域和目標領域之間的區分性進行建模的方法。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 五月六月伊人狠狠丁香网| 高潮毛片免费观看| 99久久免费精品特色大片| 国产欧美又粗又猛又爽老| 亚洲欧美不卡视频| 精品人妻一区无码视频| 成人字幕网视频在线观看| 欧美午夜精品| 孕妇高潮太爽了在线观看免费| 欧美成人午夜视频| 夜夜拍夜夜爽| 国产一区二区三区免费| 日本影院一区| 亚洲福利片无码最新在线播放| 波多野结衣一区二区三区AV| 天堂网亚洲系列亚洲系列| 国产69囗曝护士吞精在线视频| 在线观看视频一区二区| 91精品专区国产盗摄| 成人在线不卡视频| 国产精品免费露脸视频| 日韩在线永久免费播放| 无码高潮喷水专区久久| 国产精品香蕉| 欧美亚洲另类在线观看| 欧美a在线看| 精品午夜国产福利观看| 国产一区二区网站| 亚洲浓毛av| 91无码国产视频| 国产无码精品在线播放| 无码区日韩专区免费系列| 国产精品区网红主播在线观看| 国产小视频免费| 国产91小视频在线观看| 亚洲日本在线免费观看| 色亚洲激情综合精品无码视频 | 日韩在线2020专区| 日韩无码白| 国产精品jizz在线观看软件| 国产99免费视频| 国产精品一区二区不卡的视频| 欧美成人午夜视频| 中国一级特黄大片在线观看| 亚洲天堂日韩av电影| 国产高清在线观看91精品| 全部免费毛片免费播放| 亚洲日韩AV无码一区二区三区人| 亚洲三级a| 欧美全免费aaaaaa特黄在线| 免费欧美一级| 日韩东京热无码人妻| 精品一区二区无码av| 国禁国产you女视频网站| 日韩中文字幕免费在线观看| 欧美日韩精品综合在线一区| 亚洲香蕉久久| 成人伊人色一区二区三区| 国产性生大片免费观看性欧美| 精品国产欧美精品v| 欧美成人精品一级在线观看| 亚洲成人一区二区三区| 97久久精品人人| 亚洲一欧洲中文字幕在线| 国产精品hd在线播放| 亚洲欧洲日韩综合色天使| 亚洲不卡网| 亚洲AV免费一区二区三区| 国产杨幂丝袜av在线播放| 国产主播一区二区三区| 欧美日韩亚洲国产主播第一区| 亚洲精品无码不卡在线播放| 国产精品任我爽爆在线播放6080 | 波多野结衣无码AV在线| 最近最新中文字幕免费的一页| 国产在线一区视频| 欧美一区福利| 67194亚洲无码| 日韩在线视频网| 亚洲全网成人资源在线观看| 亚洲无线国产观看| 99久久国产自偷自偷免费一区|