999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

具有特征選擇的多源自適應分類框架

2020-09-29 06:56:08黃學雨徐浩特陶劍文
計算機應用 2020年9期
關鍵詞:分類方法

黃學雨,徐浩特*,陶劍文

(1.江西理工大學信息工程學院,江西贛州 341000;2.寧波職業技術學院電子信息工程學院,浙江寧波 315100)

0 引言

傳統機器學習已經在當今的信息社會取得了矚目的成就。而這些成就主要歸功于大量的標記訓練數據,并且基于以下假設:訓練和測試數據獨立于一個相同但未知的分布(Independent and Identically Distributed,IID)[1]。然而在實際各種領域應用中大量的數據都是屬于非IID 數據。并且在這些領域中已標注的數據較少,需要人工準備充足的已標記訓練數據,這是一個需要耗費大量人力物力的過程[2]。此外,收集樣本的過程容易產生數據集偏差,從而導致由訓練數據集中學習得到的模型在測試數據集下呈現并非十分理想的測試結果。因此,標記數據稀缺和數據集偏差是目前機器學習亟須解決的問題。由此領域適應學習(Domain Adaptation Learning,DAL)技術在現階段得以迅速發展。在DAL 任務中學習領域通常分為兩個相關但不同的類型,即源域和目標域[3]。旨在利用源域中的訓練數據來解決目標域中的學習問題,兩個域的數據分布可以相同或不同。但是強行將某些與目標域分布差異極大的源域自適應于目標域會導致DAL 中的“負遷移”問題[4]。為此,多源自適應學習被提出到DAL 的行列中,其旨在利用多個相關的源域,通過最小化源域之間的差異來輔助目標域的學習。多源自適應學習在現實中不同領域的應用上取得了出色的成績。例如,文獻[5]提出的A-SVM(Adaptive Support Vector Machine),該方法首先在多個源域上訓練得到相應的分類模型,然后通過這些不同源域的分類模型來輔助目標域分類模型的學習。另外還有基于最小化均值偏差的學習的多源自適應方法如FastDAM(Fast Domain Adaptation Machine)[6]等。但目前的多源自適應方法仍存在一些問題至今沒有得到妥善的解決:

1)如何處理域中訓練數據可能含有部分無關或冗余的特征信息(例如,噪聲和異常值)的問題。

由于源域的視覺訓練數據可以從各種網站中隨機獲得,因此訓練數據中的噪聲和異常值比比皆是。現有方法盲目地將包含噪聲和異常值的所有訓練數據轉換到共享子空間中,這可能導致學習得到的模型最終分類效果顯著弱化。

2)如何有效挖掘多個源域中包含的相關信息的問題。

大多數多源自適應方法通常分別處理源樣本而不考慮幾個源之間的相關性,這將導致多源信息無法得到充分的利用使得最終的分類效果并非十分理想。

3)如何充分挖掘并利用目標域未標記數據內含有的潛在信息來提高模型性能。

近年來,雖然已有的一些方法能夠應對上述的部分問題,但是目前還是沒有一個統一的框架能解決上述的問題。文獻[7]指出,通過L2,1范數對模型矩陣行稀疏化使其擁有稀疏特征選擇功能,能夠篩選出最具判別性的數據特征。除了剔除特征中存在的噪聲信息以外,L2,1范數還可以通過消除冗余特征信息減小分類模型矩陣的特征維度提升算法計算效率。

具體來說,為了解決現有DAL 方法在視覺分類任務中存在的上述問題,本文提出一種具有特征選擇的多源自適應分類框架(Multi-source Adaptation Classification Framework with Feature Selection,MACFFS)。所提方法主要創新點在于:

1)引入跡范數正則化來探索多個源之間的共享信息,并通過優化得到的權重值整合多源信息,利用L2,1范數損失函數來減輕噪聲或離群值的影響,提出了一種具有特征選擇的魯棒多源自適應分類框架。

2)將框架的全局優化解轉換為一個廣義特征分解問題,并對整個過程進行了詳細的理論證明。同時給出了基于該框架的簡單有效的算法步驟。

3)分別在幾個不同應用場景所對應數據集上進行了全面的實驗,以驗證所提出的框架的高效性與魯棒性。

1 多源適應無監督分類框架

為便于描述,此處先提前介紹文中符號的意義。本文用A∈Rd×n表示大小d×n的矩陣,Ai,j對應于矩陣中的(i,j)元素。此外,分別用表示矩陣的L2,1范數和Frobenius 范數。矩陣A的跡表示為tr(A)。用In定義大小為n×n的單位矩陣。用1n∈Rn表示元素都是1的列向量。

1.1 問題描述

為解決現有方法存在的問題,MACFFS 框架需具備以下兩個主要特性:1)有區別地利用多個標簽豐富的源域來協助標簽稀缺的目標域中的學習任務;2)通過目標領域潛在信息增強模型的分類性能。本文所提方法將聯合共享子空間學習與多源模型遷移,并利用圖流形正則化[8]有效提升目標學習性能,最終形成一個統一的框架。

1.2 框架的提出

給定包含n個d維向量的目標數據集X=[x1,x2,…,xn]∈Rd×n,其對應的標簽集為Yt∈{0,1}n×c,c是類的數量。在多標簽分類問題的情況下,對于每個輸入向量xi∈X∈Rd×n(1 ≤i≤n),假設yi∈Yt是與之相關的輸出標簽,如果xi被標記屬于j類別,則yi,j=1;否則yi,j=0 。本文提出的無監督框架假設目標數據集不含有任何標簽,即目標域的標簽集為一個標簽預測矩陣F∈{0,1}n×c(初始為一個全零矩陣)。將樣本大小為nv的第v(v=1,2,…,M)個源域數據集表示為,其對應的標簽集為

傳統的有監督學習算法通過將原始數據x映射為某個類別標簽值y從而獲得預測函數f(x)[9]。即最小化如下正則化經驗誤差函數:

其中:loss(?,?)為某個損失函數,Ω(?)為正則化函數,μ≥0 為正則化參數。視覺數據的特征之間存在某些共享屬性,通過這些相關信息可以強化分類模型的學習。基于該思想,本文通過線性變換矩陣Pv∈Rd×r將第v個源域的特征投影至共享子空間中,其中r是特征子空間的維數。因此,可在(1)的基礎上將第v個源領域的分類模型學習形式化為以下優化問題:

其中:Qv∈Rr×c為共享子空間內的權重矩陣,μ是正則化參數。通常可以使用經典的最小二乘損失函數來學習(2)中的預測函數,但是極易受異常值和噪聲的影響。因此,在本文的框架中使用L2,1范數損失函數增強其魯棒性減輕噪聲/異常值對目標數據的干擾,并利用正交約束使得在新空間中的各個特征相對獨立。則該源域的共享特征子空間學習目標函數(2)可描述為:

與源域類似目標域的學習函數為:

其中:ω為正則化系數;Q0為是針對目標域數據的權重矩陣,同時利用‖ ? ‖2,1保證Q0的行稀疏。為了充分利用目標域的信息用于目標分類器的學習,加入了另一個正則化項:流形正則化項[8]。其中L為定義于目標領域數據鄰接圖上的Laplacian 矩陣且L=Δ-Γ。其中:Δ為一個對角矩陣,第i個元素為為圖權值矩陣,當樣本xi和xj為k近鄰時,矩陣元素Γi,j=1,否則Γi,j=0。

為了將M個源域的知識共同作用在目標域中,進而統一學習目標域分類模型提出具有特征選擇的多源自適應分類框架:

其中Fv為目標域實例通過每個源分類器所得到的目標分類標簽。而是一個全局正則項,它要求目標域特征數據在每個源分類模型中得到的分類結果與一個統一的分類結果F對齊。本質上其目的為使Fv在不同的源分類標簽矩陣之間建立橋接,使來自一個源的信息可以被利用到另一個源。其中參數θv表示不同源對目標預測的不同貢獻度。

圖1 為MACFFS 的示意圖。結合圖1 可以看出框架學習的具體過程如下:將多個源域的視覺數據投影至不同的隱空間并利用L2,1范數的稀疏特性選擇有效特征剔除冗余信息,最后學習得到M個源域分類器。將無標簽的目標域數據通過M個源域分類器得到M個標簽矩陣,并根據不同的權重整合所有的標簽矩陣最終得到一個統一的目標域標簽矩陣用以目標分類器的學習。

圖1 MACFFS示意圖Fig.1 Schematic diagram of MACFFS

2 優化算法

本文將采取交替優化的策略來對目標函數(5)進行求解。其主要原因為避免式中關于L2,1范數的非平滑變量導致整體目標函數不能形成一個閉合的形式。為便于優化,定義Tv=PvQv。另外在優化過程中,將采取先設θv為已知常量從而優化其他變量的策略。因此,得到目標函數的優化求解表示為如下形式:

3 半監督式MACFFS

3.1 半監督框架與算法的提出

算法1 由里外兩個循環組成,外循環為一個迭代循環,而里循環依次對每個源域的相關變量進行優化更新。當遍歷完所有源域后,將所有更新后的變量代入到式(19)得到一個值Ωt,并繼續進行下一輪的迭代。當達到條件時,預示著算法收斂迭代完成。最后輸出所有優化完成的變量。

3.2 目標域樣本標簽計算方法

本文將這些多個源域分類模型得到的決策值通過不同源域的貢獻度θv線性融合作為最終決策值。換句話說,來自目標域的樣本xi對應的標簽決策值yi由下式給出:

4 實驗與結果

4.1 實驗設置

分別對本文提出的MACFFS與相關的多源自適應方法在Caltech-256+Office 數據集和TRECVID 2005 數據集上進行實驗分析,以證明所提方法對各種任務的廣泛適用性和相較于其他方法性能方面的優異性。

根據實際的視覺分類任務,將所提方法與幾個多源自適應方法進行比較。具體方法如下:

1)TCA(Transfer Component Analysis)[10];

2)A-SVM[5];

3)DSM(Domain Selection Machine)[11];

4)FastDAM[6];

5)Multi-KT(Multi Model Knowledge Transfer)[12];

6)MACFFS變體方法:MACFFS_1和MACFFS_2。

其中加入MACFFS變體方法的目的為驗證本文所提框架各個組件的必要性,其具體形式與驗證目的如下:

1)設置θv=1/M的MACFFS,簡稱為MACFFS_1:通過此設置使框架在相同權重多源適應的情況下進行性能評估。

2)設置μ=0 和ω=0 的MACFFS,簡稱MACFFS_2:此設置的目的為評估沒有特征選擇項的MACFFS的性能。

關于TCA、DSM、FastDAM、Multi-KT 和A-SVM 中的參數按照各自文獻中的最優設置來選擇。其中高斯核參數γ通過在源集上交叉驗證得到一個公共值。

在本文的方法中主要有3 個模型參數,即α,μ和ω,這些參數在{10-6,10-5,…,106}范圍內進行調整,根據經驗設置最近鄰數k=5。本研究將使用五重交叉驗證法針對每個參數選取最優值,每次參數的設置都將重復5 次實驗,并取平均值作為最終的實驗結果。

4.2 數據集描述

4.2.1 目標識別任務數據集

Caltech-256+Office 數據集包含來自4 個域的圖像:Amazon(A)、DSLR(Digital Singular Lens Reflex)(D)、Webcam(W)和Caltech-256(C)。Caltech-256與Office數據集之間共有10 個通用類,總共包含2 533 張圖像[13]。在實驗中,所有圖像均按保留比例調整大小為150×150 并對所有圖像使用6 種特征表示:CH(Color Histogram)、LSS(Local Self-Similarity)、PHOG(Pyramid Histogram of Oriented Gradients)、SIFT(Scale-Invariant Feature Transform)、CSIFT(Color Scale-Invariant Feature Transform)[14]和SURF(Speeded Up Robust Feature)[15]特征。將每幅圖像的6 種特征表示拼接組合為一個新的特征向量。當作為源域時,Amazon/Caltech 每類使用20 個訓練樣本,而DSLR/Webcam 每類使用8 個訓練樣本。當其作為目標域,都僅使用3 個已標記的樣本作為訓練數據,目標域中的其余數據用于測試。另外,本文從Caltech-256中隨機抽取10類和20 類組成兩個集合分別進行目標識別。第二組是在第一組的基礎上再隨機添加10 類獲得。在基于Caltech-256 數據集的多源適應任務中,將依次把其中一個類別視為目標域,其余的視為源域,最終得到的平均識別率用于評估幾個方法在Caltech-256 數據集中多源情況下的識別性能,該數據集包含256 個對象類別的圖像以及雜亂類別的圖像,這些雜亂類別用作對象與背景問題的負類別。

4.2.2 視頻概念識別任務數據集

TRECVID 2005[16]是最大的視頻語料庫之一。該數據集由從6 個不同廣播頻道收集的108 個小時視頻節目的61 901個關鍵幀組成,包括2 個漢語頻道CCTV 與NTDTV(New Tang Dynasty Television),3 個英語頻道CNN(Cable News Network)、MSNBC(Microsoft National Broadcasting Corporation)和NBC(National Broadcasting Company),以及一個阿拉伯語頻道LBC(Lebanese Broadcasting Corporation Television)。表1列出了每個頻道中關鍵幀的總數(除MSNBC 以外)。為所有關鍵幀提取6 個視覺特征:SIFT、SURF、GiST(Generalized Search Tree)[17]、LBP(Local Binary Pattern)、PHOG 和WT(Wavelet Texture)。每個樣本的多個特征經過與目標識別任務中相同的方法組合得到新視覺特征向量。從LSCOM-lite詞典中選擇了36個視頻概念,該詞典涵蓋了廣播新聞視頻中存在的36個主要視覺概念,包括對象、位置、人物、事件和節目。通過手動注釋這36 個概念,以描述TRECVID 2005 數據集中關鍵幀的視覺內容。在實驗中,本文將兩個英語頻道(CNN 和NBC)和兩個漢語頻道用作源域,選擇阿拉伯語頻道作為目標域,并在其中隨機采樣10 個樣本以進行標記加入到訓練數據中。另外本文還通過設置CNN_ENG 為目標域,其余的頻道為源域測試不同目標域標記樣本的數量對性能的影響。在所有設置中除訓練數據外,來自目標域的其余樣本用作測試數據集。

表1 TRECVID 2005數據集說明Tab.1 Description of TRECVID 2005 dataset

4.3 實驗結果與分析

實驗中分別比較了本文的方法與其他基準方法在多個源適應設置中對上述兩個跨域學習任務的識別性能,并在圖2~5中報告了實驗結果。其中,圖4和圖5(b)分別顯示了所有比較方法在不同標記目標樣品數量下的識別結果。根據不同的算法在不同實驗設置中的識別率,可以分析得到如下幾個結論:

1)如圖2、3 與圖5(a)所示,Multi-KT 和FastDAM 的性能不穩定。這可能是因為所選的內核函數并不適合所有情況。從圖5(a)可以觀察到,Fast-DAM 和Multi-KT 實現了相似的性能。但是,在大多數情況下,Multi-KT 比Fast-DAM 稍差一些。這是由于在多源自適應在視頻識別這樣的復雜場景中,Multi-KT 幾乎無法有效地估計要自適應的源域的權重。而另一個有趣的觀察結果是,在大多數情況下,TCA 與A-SVM 通常比其他DAL 方法差,這可能是由于TCA 在多個源域的情況該方法只能平均分配給每個源相同的權重,而A-SVM 表現較差的原因是由于目標域中的有價值的未標記數據在A-SVM 中未被完全利用。在大多數情況下,本文所提出的方法的性能都要優于其他比較方法。例如,在圖2 中,在大多數情況下所提方法的結果始終優于其他算法(除了在D,A→W 目標識別任務中識別率略低于DSM 方法)。這證明了本文的模型在視覺識別中具有較高的有效性。

圖2 Caltech-256+Office數據集的識別率Fig.2 Recognition rate on Caltech-256+Office dataset

圖3 Caltech-256數據集的識別率Fig.3 Recognition rate on Caltech-256 dataset

2)為了進一步評估在具有不同先驗信息的情況下算法的性能,本文在實驗中通過更改標記目標樣本的數量,以研究所提方法的性能。從圖4 和圖5(b)可以看出除DSM 以外,所有方法在所有情況下都可以通過標記更多的目標樣本實現更高的識別精度,這表明利用標記的目標數據來改善學習性能是有益的。當帶標簽的目標樣本數量逐漸增加時,FastDAM 方法獲得最為顯著的性能提升。此外,可以觀察到本文的方法在所有多個源設置中性能都可以平滑地提升。這說明即使僅使用較小數量的標記目標數據,MACFFS 仍可以獲得較高的識別準確率。但是,其他DAL 方法(尤其是FastDAM)只能在標記的目標樣品數量相對較大時,才能得到令人滿意的性能。

圖4 多源擴展性Fig.4 Multi-source scalability

3)在圖3 中,20 類的識別率在某種程度上明顯高于10 類的識別率。在其他任務(例如在圖5(a)的視頻概念識別任務)上也可以觀察到相同的結果,即當源域數量逐漸增加時,本文的方法在性能上獲得了明顯的改善。此外,可以在圖5 中觀察到,圖5(b)中各方法的性能比5(a)要更好,可以由A-SVM與Multi-KT 兩個方法在兩圖中的比較觀察得到。具體的,在圖5(a)中A-SVM 與Multi-KT 識別率大概為30%(A-SVM 甚至在30%以下),而在圖5(b)中,兩個算法的識別率都有提升(在標記樣本數達到10 時,兩個方法的識別率都高于35%)。這是由于在圖5(b)任務中源域中有與目標域類似的英文頻道因此源域可遷移至的目標域的有用信息會更多。在進行實驗之前,本研究期望通過增加相關源域的數量,從而增加找到適用于目標域的有用先驗知識的可能性。而這些實驗結果驗證了該方法的有效性:結合從更多來源領域中獲得的判別信息可以進一步提高適應性能。

4)對于任何開放式學習系統,已知對象類別的數量會隨著時間的增長而增加。由于需要針對新任務檢查每個已知模型的可靠性,隨著源域的大量增加可能會在領域適應學習中存在能否擴展的問題。具體而言,對于100數級以上的源域個數,上述領域適應方法在計算方面變得極為昂貴且對識別性能會有所影響。因此本文對來自Caltech-256數據集的150個和256個對象類進行了實驗,分別在圖4 中報告了MACFFS、Multi-KT、DSM、FastDAM 和A-SVM的實驗結果。在這兩種情況下,可以看出對于極少的已標記目標訓練樣本,正確選擇每個源域的權重相對于所有來源的平均值是更有效的方式:在少于三個目標訓練樣本時,MACFFS和Multi-KT優于FastDAM和A-SVM。同時這也表明了當擁有足夠的訓練樣本和豐富的域集時,最有效的方法是不要忽略任何源域的信息。

圖5 視頻概念識別任務中不同設置下的識別率Fig.5 Recognition rates under different settings in video concept recognition task

除此之外,本文還在兩個視覺識別任務中分別測試了MACFFS 與MACFFS 變體方法(MACFFS_1 和MACFFS_2)的實驗性能,其結果顯示在圖6中。通過分析可得到如下結論:

1)MACFFS 性能明顯優于MACFFS_1。這些效益歸因于每個源域在信息遷移至目標域時具有不同的權重可以達到減少冗余信息的效果,從而有利于提高性能。

2)通過MACFFS 與MACFFS_2 的性能比較可知,如果去除特征選擇項,MACFFS 的性能將在一定程度上退化。原因是由低級視覺特征表示的圖像可能會引入過多的噪聲信息,導致其降低性能。這同時也證明了協同回歸中特征選擇的必要性。

圖6 MACFFS變體方法在多個識別任務中的識別率Fig.6 Recognition rates of MACFFS variant methods in multiple recognition tasks

4.4 算法收斂性與時間復雜度分析

由上述可知,本文所提算法1 為一個交替優化過程,圖7顯示了在上述兩個真實數據集上的算法的收斂曲線。從圖7可以看出,目標值通常會在10 次迭代中收斂。這是由于所需優化的函數為一個凸函數,因此函數可以在少量次數的迭代后收斂。另外可以從圖8 中看出本文的算法在計算時間并不占優勢(計算時間與最快的A-SVM 方法相差10 s 左右)。導致這個現象的主要原因是由于算法中對一些矩陣逆的計算所需要的時間復雜度為O(d3),另外對矩陣的特征分解的時間復雜度為O(d3)。因此,算法整體的計算時間會相對較長。但是從各個實驗結果中可以看出通過犧牲一定的時間效率所獲得的性能的提升還是非常可觀的。

圖7 算法收斂曲線Fig.7 Algorithm convergence curves

圖8 算法計算時間Fig.8 Calculation times of algorithms

5 結語

本文提出了一種新的具有特征選擇的多源自適應分類框架(MACFFS),旨在將來自多個源域的多個特征數據同時在不同潛在空間中學習得到分類模型,并將得到的源域分類模型用以目標數據的分類,最終對得到的分類結果進行整合并有區分性地幫助目標分類模型的學習。此外,還通過在幾個跨域視覺識別任務上進行實驗和分析,證明本文的方法與其他相關的最新算法相比的優越性與框架中幾個組成項的重要性。然而,在MACFFS 中仍然存在兩個問題需要在后續的工作中展開研究并設法解決。第一個問題是如何降低該方法在高維和大規模數據集中計算的時間復雜度。MSMFR 中的最佳模型參數是數據相關的。因此,另一個問題則是如何自動確定所提方法的最優參數。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 亚洲国产欧美国产综合久久 | 国产精品吹潮在线观看中文| 国产乱肥老妇精品视频| 人妻21p大胆| 国产精品亚洲一区二区三区在线观看| 国产在线日本| 人妻出轨无码中文一区二区| 日韩欧美中文在线| 92午夜福利影院一区二区三区| 婷婷中文在线| 91成人试看福利体验区| 亚洲国产中文精品va在线播放| 亚洲AV无码一区二区三区牲色| 亚洲最新网址| 日本精品影院| 亚洲人成网站在线观看播放不卡| 中国一级毛片免费观看| 青青青视频91在线 | 狼友av永久网站免费观看| 国产成人综合日韩精品无码不卡 | 91精品国产无线乱码在线| 香港一级毛片免费看| 美女被操黄色视频网站| 亚洲综合亚洲国产尤物| 久久福利网| 92精品国产自产在线观看| 一区二区三区在线不卡免费| 国产午夜不卡| 波多野结衣一区二区三视频| 国产91特黄特色A级毛片| 日韩在线2020专区| 91色综合综合热五月激情| 国产成人免费视频精品一区二区| 国产精品va免费视频| 在线精品亚洲国产| 漂亮人妻被中出中文字幕久久| 性视频久久| 在线视频一区二区三区不卡| 麻豆国产原创视频在线播放| 国产精品网拍在线| 华人在线亚洲欧美精品| 中文字幕第1页在线播| 99在线视频网站| 欧美黑人欧美精品刺激| 精品国产三级在线观看| 国产成人无码AV在线播放动漫 | 国产高清无码第一十页在线观看| 精品国产免费第一区二区三区日韩| 欧美国产精品不卡在线观看| 亚洲日韩精品综合在线一区二区| 国产精品毛片在线直播完整版 | 久久亚洲国产视频| 日本高清免费不卡视频| 国内精自视频品线一二区| 欧洲日本亚洲中文字幕| 亚洲男人的天堂久久精品| 永久毛片在线播| 伊人中文网| 亚洲国产成人综合精品2020| 欧美日韩中文国产va另类| 欧美一道本| 精品久久久无码专区中文字幕| 国产精品亚洲αv天堂无码| 91网红精品在线观看| 高清乱码精品福利在线视频| 中文成人在线| 亚洲精品欧美日韩在线| 亚洲无码日韩一区| 91成人在线观看| 性色生活片在线观看| 久久久精品无码一区二区三区| 青青青亚洲精品国产| 小13箩利洗澡无码视频免费网站| 久久免费看片| 中文字幕久久波多野结衣 | 国产va免费精品观看| 亚洲欧美综合在线观看| 国产亚洲欧美日韩在线一区| 久草视频精品| jizz亚洲高清在线观看| 色婷婷成人| 亚洲第一视频网站|