999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對不平衡目標域的多源在線遷移學習

2022-04-21 06:51:10周晶雨王士同
智能系統學報 2022年2期

周晶雨,王士同

(江南大學 人工智能與計算機學院,江蘇 無錫 214122)

遷移學習的主要目的是利用源域的知識來提高目標域的學習性能,多年來進行了廣泛的研究[1]。使用一些分布相似的現有數據來提取有用的信息,可以解決目標域的訓練數據有限或標記成本太高的問題。在許多實際應用中,與目標域分布相似的離線源域有多個,所以可以輕松地從這些源域中收集輔助信息。為了應對不同來源對與目標域的貢獻不同的問題,許多復雜的基于提升方法的多源遷移學習算法[2-3]被設計。基于提升方法的算法根據貢獻高低對多個源域附加權重來生成集成分類器,合理利用每個源域的知識。

多源遷移學習通過多個源域中提取的知識來改善目標域上的學習任務的性能,近年來得到了越來越多的關注。Qian 等[4]提出了一個多域魯棒優化的框架,用于學習多個域的單一模型。Huffman等[5]提出了一種確定交叉熵損失和其他損失分布加權組合解的多源自適應算法。Peng 等[6]提出了多源域自適應矩匹配方法,利用多源域特征分布的矩進行動態對齊,將知識從多標記源域轉移到未標記目標域。Kang 等[7]提出了一種在線多源多分類轉移學習算法。這些現有的算法可以從多個源域遷移知識到目標域,而本文的目標是解決源域和目標域數據類別不平衡的多源在線遷移學習問題。

現有的大多數遷移學習工作都假設事先提供了源域和目標域的訓練數據[8]。但是,在某些實際應用中,目標域的數據可能以在線的方式到達。近十年,在線學習[9-10]得到了廣泛的研究。在線學習中,分類器在每個回合中接收一個實例及其標簽,然后預測該實例,并根據預測結果和真實標簽的損失信息更新分類器。Wang 等[11]提出一種基于最大最小概率機的遷移學習分類算法。Zhao 等[12]提出一種可以立即響應的且高效的在線學習算法來解決在線遷移學習任務。Wu 等[13]提出了一種具有多個源域的在線遷移學習算法,當目標數據到達時,多個源域分類器和目標域分類器同時做出預測,根據各分類器的權重組合最終預測結果,并更新各分類器的權重。

目前,大多數在線遷移學習都默認目標域的類別分布是平衡的,然而現實中存在很多不平衡的數據。例如,機器的故障診斷,醫療診斷以及軍事應用等。在大多數現實世界的問題中,少數類實例的錯誤分類代價往往很大,減少少數類錯誤分類是至關重要的。處理不平衡數據集的方法可以分為對數據的采樣方法[14]、成本敏感方法和算法級方法[15]。采樣方法對數據集進行預處理,將類別修改至相對平衡。成本敏感方法對錯誤分類少數類實例的決策函數施加更大的懲罰。算法級的方法直接修改分類器來處理不平衡問題。

因此,本文提出一種針對目標域不平衡的多源在線遷移學習算法。其中,目標域每次到達一批數據。在算法中,從前面已經到達的批次中尋找當前批次樣本的k近鄰,形成種子和鄰居對。然后在樣本對之間的線段上適量生成合成的多數類樣本,再合成少數類樣本使當前批次的類別分布相對平衡。考慮到不同批次的樣本之間的特征分布可能發生細微的偏移,生成樣本時控制合成樣本近似于當前批次中的樣本。最后用新生成的樣本去改進目標函數,然后再對當前批次的所有樣本按序進行在線遷移學習,從而提升整體分類器對少數類的分類性能。此外,還分別設計了在目標域的輸入空間和特征空間過采樣的方法。在目標域的輸入空間生成數據點來平衡類別分布,可以提高目標函數對少數類的分類性能,但也可能生成不代表非線性可分問題的數據點,影響函數精度。所以設計了在目標域特征空間過采樣的方法,與文獻[16]不同,本文的方法在特征空間生成數據點來訓練在線的函數,生成少數樣本會導致類別分布得更具代表性,可以克服非線性問題的局限。

1 在線遷移學習

簡要介紹多源在線遷移學習算法HomOTLMS。HomOTLMS 根據預先給出的源域數據,在離線批處理學習范式中構建n個源域的決策函數(hS1,hS2,···,hSn)。而在線部分使用被動攻擊算法(passive aggressive,PA)[17],在目標域上構造一個以在線的方式更新的決策函數hT,T為目標函數。對于當前到達的實例xj,計算目標域決策函數的鉸鏈損失:

如果決策函數遭受非零損失,則根據式(2)更新目標域函數和添加支持向量:

上述算法能夠有效解決多個源域的在線遷移學習問題,但并不能應對目標域不平衡的情況。下面介紹了一種新的在線遷移學習方法,可以在在線預測的過程中,人工平衡目標域類別的分布,從而降低總體分類誤差。

2 不平衡目標域的在線遷移學習

2.1 問題描述

在多源遷移學習的問題中,對于給定的n個源域,用DS={DS1,DS2,···,DSn}表示,目標域用DT表示。對于第i個源域DSi,源域數據空間用XSi×YSi表示,其中特征空間是XSi=Rdi。用X×Y 表示目標域的數據空間,其中特征空間是X=Rd。這里,源域和目標域共享相同的標簽空間 YSi=Y={+1,?1}。

目標域采用被動攻擊算法(PA)學習決策函數,當目標域的數據不平衡時,目標決策函數會更加偏向于多數類。若能在在線學習的過程中,擴充每個批次少數類的樣本,就可能實現目標領域對少數類更準確的分類。考慮到目標域整體的樣本個數有限,可以通過先擴增每個批次的多數類,然后再擴增少數類樣本至平衡,提高目標域函數的整體分類性能,從而更好地實現知識遷移。

2.2 在輸入空間過采樣的在線遷移學習

本節提出一種稱為OTLMS_IO(online transfer learning multi-source input space oversampling)的算法,該算法代表在目標域的輸入空間進行過采樣的多源在線遷移學習。OTLMS_IO 通過增加每個批次中多數類和少數類樣本的個數來提升目標域函數的性能。

目標域的數據以在線的方式分批到達,每次到達多個實例。第b個批次到達的實例是,對于其中每個少數類實例,都以歐氏距離(式(5))為標準計算它到前面已經到達批次的所有少數類實例的距離,得到其k近鄰。

式中:xp是當前批次中的實例,稱為種子;xq是前面批次中的實例,稱為鄰居,m是實例的維數。然后將種子和鄰居組合成樣本對,一共個,是當前批次b中少數類實例的個數。以同樣的方式,可以得到當前批次中多數類實例形成的樣本對個。從少數類和多數類的樣本對中分別選取 min_num min_num 和ma j_nummaj_num個,用于生成新樣本。maj_nummaj_num 的大小決定了當前批次生成樣本和真實樣本整體的規模,min_nummin_num使得當前批次類別平衡。根據式(6)在每個樣本對之間的線段上生成新樣本。

同時,考慮到不同批次樣本之間的特征分布可能會發生細微的偏移,所以控制均勻分布的隨機數δ ∈[0,0.5],使得生成的新樣本更加靠近當前批次中的樣本。

對生成的一共t個新樣本分配相應的標簽,在當前批次的樣本訓練之前,使用新生成的樣本改進目標函數,根據式(7):

使用在線被動攻擊算法可以輕松學得用新樣本改進后的分類器,即根據式(2)對將鉸鏈損失? >0 的新實例都作為支持向量添加到支持向量集中。最后再使用集成決策函數(式(4))分別訓練當前批次到達的所有實例,并按照上述方法對后面所有批次進行同樣的操作可以得到訓練好的集成函數。

2.3 在特征空間過采樣的在線遷移學習

與在輸入空間過采樣不同,本節提出了一種稱為OTLMS_FO(online transfer learning multisource feature space oversampling)的算法,該算法表示在特征空間過采樣的多源在線遷移學習。目標域的函數通過核函數進行預測,所以OTLMS_FO 能利用與SVM 分類器相同的核技巧,合成樣本利用特征空間中的點積生成而不需要知道特征映射函數φ(x)。特征空間生成數據點在高維的空間具有更好的線性可分性,可以用來改進目標函數。

OTLMS_FO 算法在目標域第b個批次的樣本到達時,從中挑選出少數類樣本和多數類樣本。然后從前面已經到達的批次中分別找到當前到達批次中少數類和多數類樣本的k近鄰。由于是在特征空間中計算樣本間的距離,需要將種子xp和近鄰xq映射為特征空間的φ(xp)和φ(xq),然后計算兩個實例之間的距離。特征空間中,兩個實例之間的距離為

根據式(8)可以找到當前批次中的每個少數類樣本的k近鄰,種子和鄰居組成的樣本對構成集合,一共個,給少數類樣本對分配+1 標簽。然后以同樣的方法生成當前批次多數類的集合,并分配?1 標簽。從集合中隨機選擇min_num個少數類的樣本對和maj_num個多數類的樣本對,在特征空間中合成新的實例,生成新實例的式子可以寫成:

式中:δpq是一個0~0.5 的隨機數,在特征空間同樣控制生成的數據點更加靠近當前批次的樣本,使得擴增的樣本和當前批次中的樣本的特征分布更加相似。

對當前批次的樣本進行訓練之前,先用生成的樣本改進目標決策函數。最后使用集成決策函數(式(4)) 依次對當前批次的所有實例進行預測。然而,使用式(7)生成的新少數類實例利用通常未知的特征轉換函數φ(x),所以新的合成實例 φ(xpq)并不能具體得到。目標域通過決策函數中支持向量的核函數計算兩個特征空間中實例的內積來訓練,可以將合成實例代入目標域決策函數的核函數中計算,其中核函數的計算分為2 種情況:

1)xj是合成實例,x是普通實例時,它們在特征空間的內積為

2)xj和x都是合成樣本時,特征空間的內積:

使用合成實例改進目標域決策函數,當鉸鏈損失大于0 時,將合成實例作為支持向量添加到支持向量集,并且也能保持特征空間的可分性,即

定理1在目標域的特征空間中添加合成樣本同樣能保證類別可分。

證明目標域函數由支持向量組成,可以表示為

將式(9)生成少數類樣本φ(xpq)代入目標函數:

式中:hT(xp)和hT(xq)都不小于0,xp和xq都屬于少數類;δpq∈[0,0.5]。

所以在目標域的特征空間中生成的樣本同樣可以保證類別可分。每批次生成的新樣本都會優化目標函數在特征空間中的超平面,提高目標函數的性能,從而最終提高整體函數的性能。

2.4 算法描述和復雜度分析

OTLMS_IO 和OTLMS_FO 算法的步驟近似,下面提供OTLMS_FO 算法的算法描述和復雜度分析。

算法OTLMS_FO 的算法描述

2)輸出訓練好的集成決策函數(見式(4))。

上述算法中,①尋找k近鄰的時間復雜度是O(3m1m2d+3M1M2d),其中m1、M1和m2、M2分別是當前批次和前面批次中的少數類和多數類,d是樣本的維數。③使用新樣本改進目標函數的時間復雜度是O(4svd),s是合成樣本的總數,v是支持向量的個數。④訓練當前批次真實樣本的時間復雜度是O(2nvd),一共n個真實樣本。在輸入空間訓練一個批次樣本的復雜度是O(3m1m2d+3M1M2d+4svd+2nvd),整個目標域一共N個批次,所以總的時間復雜度是O(N(3m1m2d+3M1M2d+4svd+2nvd)),可以近似為O(N(m1m2d+M1M2d+svd+nvd))。

3 實驗結果與分析

本文對提出的算法和在線遷移學習的基線算法進行了比較,并在多個真實數據集上進行了實驗:Office-Home 數據集、Office-31 數據集和20Newsgroups 數據集。為了獲得可靠的結果,在相同參數設置的前提下,通過更改測試實例的到達順序來將每個實驗重復10 次。結果表明,本文提出的算法比基線算法獲得了更好的性能。

3.1 數據集介紹

3.1.1 Office-Home 數據集

Office-Home 數據集[18]由4個不同領域的圖像組成:藝術圖像(Art)、剪貼畫(Clipart)、產品圖像(Product)和現實世界圖像(Real World),一共大約15 500 張圖像。對于每個域,數據集包含65個類別的圖像。在我們的實驗中,將現實世界圖像域作為目標域,其余3個領域作為源域。并在目標域中隨機選擇一個樣本數小于50 的類別作為負類(少數類),選一個樣本數大于80 的類別作為正類(多數類),3個源域也選取這兩個類別,然后構成一個遷移學習任務。并對原始圖片進行了預處理,每張圖片都對應一個1×10 000 的向量。實驗一共生成了30 組遷移學習任務。

3.1.2 Office-31 數據集

Office-31 數據集[19]是一個用于圖像分類的遷移學習數據集。其包含3個領域的子集:Amazon(A)、Webcam(w)、Dslr(D),分為31個類別,共有4 652張圖片。在Office-31 數據集中,不僅各個領域的樣本總數不同,而且各個域內部類別分布也不平衡,所以可以通過不平衡方法處理Office-31 數據集,促使遷移學習效果提升。實驗中,預處理數據集,每個圖片都是1×10 000 的向量。將Webcam 作為目標域,其余兩個域作為源域。然后選取Webcam 中的一個樣本數多的和一個樣本數少的類別構成一組遷移學習任務,一共生成了16 組任務。

3.1.3 20newsgroups 數據集

20newsgroups 數據集(http://qwone.com/~jason/20Newsgroups/)由大約20 000個不同主題的新聞組文檔組成,這些數據被組織成20個不同的新聞組,每個組對應一個不同的主題,一共5個主題。例如:os、ibm、mac 和x 是comp 主題的新聞組,crypt、electronics、med 和space 是sci 主題的新聞組。其中comp 主題的新聞組標記為正例,而sci 主題的新聞組標記為負例,一共構成4個學習任務:os_vs_crypt、ibm_vs_electronics、mac_vs_med和x_vs_space。隨機選擇一個作為目標域,其余作為源域,一共構成4 組遷移任務。

3.2 基線算法和評價指標

為了評估算法的性能,將提出的算法和最新的幾種方法進行了比較。在線被動攻擊PA 算法是一種傳統的在線學習算法[17],采用PA 作為基線方法,無需知識遷移。考慮到被動攻擊PA 并非針對遷移學習問題而設計,通過使用在整個源域中訓練過的分類器初始化PA,來實現PA 算法的一種變體,稱為在線遷移學習的“PAIO”。還與一種著名的在線遷移學習算法HomOTLMS 進行了比較,該算法從多個源域遷移知識來增強目標域的性能。所有的算法均使用Python 語言實現和運行。

為了驗證算法的可靠性,實驗結果采用分類精度和G-mean 作為評價指標。其中G-mean 是正例準確率與負例準確率的綜合指標。當數據不平衡時,可以評價模型表現,若所有樣本都被劃分為同一個類別,G-mean 值是0。表1 是二分類混淆矩陣,G-mean 的計算公式為

表1 二分類混淆矩陣Table1 Two-classification confusion matrix

3.3 實驗結果及參數設置

3.3.1 參數設置

首先將OTLMS_IO 和OTLMS_FO 算法與Office-Home、Office-31 和20newsgroups 數據集上的所有基線算法進行比較。在3個數據集上,設置所有算法的折衷參數C為5,尋找近鄰的k都設為3,并且設置多個分類器的權重折扣參數β=0.999。目標域使用高斯核,帶寬 σ 搜索范圍是 [10?2,102]。因為在不同的數據集中一些使算法達到最優的性能的參數往往是不同的,所以各數據集上的其他參數設置如下:在Office-Home 數據集中,為了使目標域整體的類別分布相對平衡,每批次過采樣的少數類和多數類樣本的個數分別是6 和2,其中 σ=31.6。在Office-31 數據集中,每批次過采樣3個少數類和1個多數類樣本,高斯核帶寬 σ=31.6。在20newsgroups 數據集上,OTLMS_IO 和OTLMS_FO 算法每次過采樣40個少數類和10個多數類樣本,其中高斯核函數的帶寬 σ=1.12。

3.3.2 Office-Home 和Office-31 數據集上的結果

表2 和表3 分別列出了在Office-Home 和Office-31 數據集上隨機選取的4 組任務的數值結果,并從準確率和G-mean 指標對所有算法做出評價。其中,HomOTLMS、OTLMS_IO 和OTLMS_FO算法都優于PA 和PAIO 算法,這表明從多個源域進行知識遷移對目標域是有幫助的。從兩種評價指標可以看出,OTLMS_IO 和OTLMS_FO 算法在應對不平衡的目標域都有著比所有基線更好的性能,這是因為目標域整體的樣本量被擴充了,尤其是少數類樣本,增加目標分類器對少數類的偏向。其中,OTLMS_FO 算法的性能要強于OTLMS_IO,因為OTLMS_FO 算法在特征空間擴增的樣本使類別的分布更加近似。提出的OTLMS_FO 算法在訓練當前批次的樣本之前,會根據前面幾個批次中的樣本生成新樣本,因為只在幾個批次中就能創建新的樣本,所以提出的算法能夠保持很好的實時性。

表2 在Office-Home 數據集上應用不同學習算法的結果 (平均±標準差)Table2 Results of different learning algorithms on the Office-Home dataset (mean±standard deviations)%

表3 在Office-31 數據集上應用不同學習算法的結果 (平均 ± 標準差)Table3 Results of different learning algorithms to the Office-31 dataset (mean±standard deviations)%

在Office-Home 和Office-31 數據集上分別實驗了30 和16 組任務,由于受空間和可觀測的局限,在圖1 和圖2 中分別給出了Office-Home 和Office-31 數據集上的PA、OTLMS、OTLMS_FO 的準確率,而忽略了其他算法的結果。在大多數任務上,使用多源遷移的OTLMS_IO 和OTLMS_FO的性能都要優于PA。并且在特征空間對目標域過采樣的OTLMS_FO 算法性能要更好,證明了本文提出的算法更加適用于不平衡的目標域。

圖1 在Office-Home 數據集的30 組任務的準確率Fig.1 Accuracy of 30 sets of tasks in the Office-Home dataset

圖2 在Office-31 數據集的16 組任務的準確率Fig.2 Accuracy of 16 sets of tasks in the Office-31 dataset

圖3 給出了PA、HomOTLMS 和OTLMS_FO在G-mean 指標上的實驗結果。可以看出從多個源域遷移知識的OTLMS_FO 和HomOTLMS 算法在多數任務上對少數類有著更好的表現。但是OTLMS_FO 顯然更加適合不平衡的目標域,這種過采樣的方法可以從已有數據中提取更多的信息。

圖3 在Office-31 和Office-Home 數據集上各個任務的G-meanFig.3 G-mean for individual tasks on the Office-31 and Office-Home data sets

3.3.3 20newsgroups 數據集上的結果

為了更好地驗證算法的性能,在20個新聞組的文本數據集上進行了4 組實驗。每個目標域選取750個樣本,其中少數類占比30%,并且每個樣本的維數是61 188,然后進行多源在線遷移。表4展示了文本數據集上的實驗結果。與基線方法相比,我們提出的兩種方法OTLMS_IO 和OTLMS_FO在絕大部分任務上的性能都超過了基線。并且從實驗結果可以看出OTLMS_FO 的結果要普遍強于OTLMS_IO,原因是OTLMS_FO 在核空間合成少數類,樣本距離更加相似,特別是對維數較大的樣本。從標準差可以看到提出的兩種算法的穩定性稍弱于基線方法。因為合成樣本使用了隨機數δ,但考慮到更好的性能,犧牲一點穩定性是值得的。提出的OTLMS_FO 算法具有很好的時效性,因為該算法只需要通過前面幾個批次來擴充當前到達批次的樣本,而不用在整個目標域中尋找近鄰生成型樣本。

表4 在20newsgroups 數據集上應用不同學習算法的結果 (平均 ± 標準差)Table4 Results of different learning algorithms to the 20newsgroups dataset (mean±standard deviations)%

3.4 時間成本

為了評估所提出算法的時間效率,在20newsgroups 數據集上生成多個任務對算法進行測試。實驗基于python3.7 實現,并在具有12×2.6 GHz的CPU(i7-9750H)和16 GB 運行內存的Windows10專業版機器上進行。圖4 展示了HomOTLMS、OTLMS_IO 和OTLMS_FO 算法的平均運行時間。實驗中,對目標域樣本的維數都是61 188。從實驗結果可以看出,隨著過采樣樣本數的增加,兩種對目標域過采樣的算法所需的平均運行時間也隨著增加。同時也可以發現在特征空間對目標域的樣本過采樣比輸入空間需要花費更多的時間成本,這是因為在特征空間中合成樣本的生成需要通過多個核函數的計算才能得到。

圖4 不同維數和過采樣樣本數的時間成本Fig.4 Time cost of different dimensions and oversampled sample size

4 結束語

本文提出了一種針對目標域不平衡的多源在線遷移學習算法。同時,分別設計了在輸入空間和特征空間中對目標域的樣本過采樣的方法。與忽略目標域類別分布的多源在線遷移學習算法相比,提出的方法可以利用目標域已經到達的樣本對當前到達的樣本進行過采樣,用新生成的樣本改進目標域函數,進而提高集成決策函數的性能,并且時間成本的增加是可以接受的。在3個實際數據集上的實驗結果表明,所提出的算法與基線算法相比,整體上實現了更好的分類性能,也提高了對少數類預測的精度。

主站蜘蛛池模板: 中文字幕人成乱码熟女免费| 国产成人高清亚洲一区久久| 亚洲国产精品一区二区第一页免| 日本高清有码人妻| 久久综合色天堂av| 国产无码精品在线| 欧洲极品无码一区二区三区| 亚洲一本大道在线| 在线视频精品一区| 91视频99| 午夜电影在线观看国产1区| 99无码熟妇丰满人妻啪啪| 欧美色视频在线| 欲色天天综合网| 国产va在线| 国产在线观看精品| 欧美精品亚洲精品日韩专区| 久久精品视频亚洲| 成人一区在线| 亚洲日本一本dvd高清| 亚洲人成亚洲精品| 亚洲日本中文字幕天堂网| 日韩欧美一区在线观看| 一级毛片免费播放视频| 色亚洲激情综合精品无码视频| 99热这里只有精品免费| 国产视频a| 尤物成AV人片在线观看| 99久久精品国产自免费| 久久人人妻人人爽人人卡片av| 91亚洲精品国产自在现线| 国产精品第一区| 青青草国产免费国产| 毛片基地视频| 国产毛片高清一级国语| 高潮毛片无遮挡高清视频播放| 日本欧美午夜| 亚洲区第一页| 中文字幕永久视频| 国产在线精品香蕉麻豆| 激情无码视频在线看| 超薄丝袜足j国产在线视频| 国产 日韩 欧美 第二页| 欧美色图久久| 麻豆精品国产自产在线| 九月婷婷亚洲综合在线| 永久免费av网站可以直接看的| 91极品美女高潮叫床在线观看| 一区二区理伦视频| 国产精品19p| 精品国产成人三级在线观看| 亚洲国产一成久久精品国产成人综合| 丁香婷婷激情综合激情| 99热这里只有成人精品国产| 中文字幕1区2区| 正在播放久久| 黄色网站在线观看无码| 国产精品偷伦视频免费观看国产| 欧美特黄一级大黄录像| 国产日韩av在线播放| 欧美精品亚洲精品日韩专区| 日本高清免费不卡视频| 国产精品久久久久久久伊一| 美女一级免费毛片| 久久免费精品琪琪| 欧洲亚洲欧美国产日本高清| 国内99精品激情视频精品| 国产美女精品在线| 成年人视频一区二区| 亚洲欧美日韩另类在线一| 成人欧美在线观看| 国产特级毛片| 五月六月伊人狠狠丁香网| 色九九视频| 亚洲三级色| 成人字幕网视频在线观看| 亚洲欧美另类久久久精品播放的| 日韩第八页| 国产91小视频| 一级毛片基地| 国产一区二区三区日韩精品| 亚洲精品自拍区在线观看|