999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于池的無監督線性回歸主動學習

2022-01-13 13:34:38劉子昂伍冬睿
自動化學報 2021年12期
關鍵詞:監督方法模型

劉子昂 蔣 雪 伍冬睿

在機器學習任務中,往往需要大量的有標簽訓練數據以獲得更好的性能.但是,在許多實際應用場景中,獲取未標注的數據相對容易,標注過程卻很困難,通常需要投入大量的時間和經濟成本.例如,在語音信號的情感估計問題中,可以很容易地記錄大量語音,但是要對語音進行3 個維度(愉悅度、喚醒度和優勢度)的評估[1],評估者必須反復傾聽,仔細檢查.此外,由于情感估計具有主觀性,而且部分數據可能只存在細微差異,通常需要多個評估者,例如,素材來自于德國脫口秀節目Vera am Mittag (VAM)的語料庫[2]用到6~17 個評估者,國際情感數字化聲音 (第2 版)(International affective digitized sounds V2,IADS-2)[3]用到至少110個評估者.在石油和天然氣行業中,研究油井壓裂后180 天的累計產油量預測問題[4]有利于提高采收率,輸入信息(油井的壓裂參數,例如油井位置、射孔長度、區域/孔的數量、注入的泥漿/水/砂的體積等)可以在壓裂操作期間記錄,但要獲得地面產量(壓裂后180 天累計產油量),至少需要等待180 天.

在很多這樣的問題場景中,如何確定最優的未標注樣本進行標注是非常重要的.主動學習(Active learning,AL)[5]可以用于解決此類問題,它通過選擇較少的有價值樣本進行標注,從而獲得性能較好的機器學習模型,減少了數據標注工作.

主動學習可用于分類問題和回歸問題.已有許多用于分類的AL 方法[5]相繼提出,但回歸任務中的AL 方法相對較少[6-20].這些主動學習回歸(Active learning for regression,ALR)方法有基于流或基于池[13]的應用場景,本文考慮的是后者,即給定一個未標注樣本池,ALR 需要最優地選擇一些樣本進行標注,從中訓練出一個較好的線性回歸模型.

現有的大多數基于池的ALR 方法[6-12,14-15,19-20]都考慮的是較簡單的有監督場景,即能夠獲得少量帶標簽的樣本,建立初始的回歸模型,然后根據模型選擇后續的樣本交給專家進行標注.經過調研,我們只發現在4 項研究[13,16-18]中明確考慮了完全無監督的基于池的ALR 場景(將在下一節中詳細介紹),即在沒有任何標簽信息的情況下,選擇最有價值的初始樣本進行標注,這也是本文的重點.

具體地說,本文考慮以下問題:在給定大小為N的未標注樣本池中,如何最佳地選擇初始的M個樣本進行標注,從而構建較好的線性回歸模型?這里的M是通過用戶指定(通常,隨著M變大,ALR 的優勢會逐漸減弱).在本文中,我們僅關注線性回歸模型.

針對上述問題,本文提出了一種基于信息性-代表性-多樣性(Informativeness-representativeness-diversity,IRD)的ALR 方法.通過同時考慮主動學習中的3 個重要標準[17]:信息性、代表性和多樣性,從而確定要查詢的M個初始樣本.在3 種不同的線性回歸模型和來自不同應用領域的12 個數據集上的實驗表明,與3 種已提出的ALR 方法相比,本文提出的IRD 方法所選擇的M個樣本可以實現更好的性能.

本文的主要貢獻是:

1)提出了一種無監督的ALR 方法,同時考慮要選擇的M個樣本的信息性、代表性和多樣性(這里M≤d+1,其中d是特征維數).根據調研,目前文獻中ALR 的信息性計算都必需輸出信息,還沒有無需輸出信息的信息性計算方法.因此,本文提出的方法是首個可考慮所選樣本信息性的完全無監督ALR 方法,具有重要的理論創新性.

2)提出了一種迭代式的ALR 方法,同時考慮代表性和多樣性,在M>d+1 時選擇另外的M-d-1個樣本.

3)在3 種常見的線性回歸模型和12 個真實數據集上的大量實驗,證明了所提出的IRD 方法的優越性能.

本文的組織架構如下:第1 節介紹3 種現有的無監督ALR 方法,并指出了它們的局限性;第2 節詳細介紹本文提出的IRD 算法;第3 節對在12 個數據集上的實驗進行了討論和分析;最后,第4 節給出本文的結論.

1 現有的基于池的無監督ALR方法

Wu[17]提出了以下3 個基于池的有監督ALR方法應該考慮的標準.這些標準也適用于無監督的ALR 問題:

1)信息性.可以通過不確定性(熵、到決策邊界的距離、預測的置信度等)、模型改變期望(Expected model change)、誤差縮減期望(Expected error reduction)等來度量.

2)代表性.可以通過與目標樣本相似或接近的樣本數量來度量.跟目標樣本相似或接近的樣本越多,那么該目標樣本代表性越強.此標準優先選擇靠近簇中心的樣本,或者分布稠密處的樣本,可防止選擇離群點.例如在圖1 中,需要構建一個回歸模型從輸入x1和x2中預測輸出.兩個實心的點是已經選中的待標注樣本,現在需要從空心的點中選出第3 個待標注樣本.很顯然,從包含“A”的簇中選出一個樣本比選擇樣本“B”更好,因為“A”處樣本稠密,代表性強,而樣本“B”遠離其他樣本,很可能是個離群點,選出后對構建回歸模型有害無利,反而不如只用最初選出的兩個樣本的效果.

圖1 基于池的ALR 中樣本的代表性與多樣性[17]Fig.1 Illustration of representativeness and diversity in pool-based ALR[17]

3)多樣性.所選樣本應盡可能分散在整個輸入空間中,而不是一個小的局部中,以便學習一個良好的全局模型.例如圖1 中,絕大部分樣本分布在3 個簇中,那么選擇3 個樣本時,應該從3 個簇中分別選出一個,讓樣本更加多樣,而不是只從其中一個或兩個簇中選.

多樣性和代表性經常會有一定的沖突,所以應該折中平衡考慮.一個常用的方法是先對所有待選樣本聚類,然后選取不同簇中靠近簇中心的樣本,如下文中的RD 方法.

接下來,我們介紹3 種在文獻中已有的基于池的無監督ALR 方法,并對照以上3 個標準對其進行檢查.假設數據池由N個d維未標注樣本xn=,n=1,2,···,N組成,用戶將從中選擇M個進行標注.

1.1 P-ALICE

Sugiyama 等[13]提出了一種基于泛化誤差條件期望的重要性加權最小二乘方法(Pool-based active learning using the importance-weighted leastsquares learning based on conditional expectation of the generalization error,P-ALICE),這是一種無監督的ALR 算法,用于選擇要標注的初始少量樣本.其主要思想是識別M個樣本及其相關權重,計算訓練樣本與測試樣本之間的協變量偏移,由這M個樣本構建的加權線性回歸模型可以最小化N個樣本上的均方損失估計值.

其中,U-1∈Rd×d是U的逆,表示U-1的第(i,j)個元素.P-ALICE 首先定義關于λ的重采樣偏差函數

其中,λ∈[0,1],對于每個不同的λ,從樣本池中選擇M個未標注樣本的概率與bλ(xn)成正比.將所選樣本表示為,那么,在 N 個樣本上的均方損失可以如下進行估計:

綜上所述,對照ALR 的3 個標準,P-ALICE只考慮了信息性(均方損失估計值),沒有考慮代表性和多樣性.

1.2 GSx

Yu 等[16]提出了一種基于貪婪采樣(Greedy sampling,GS)的ALR 算法.在給定一個初始未標注樣本的情況下,GS 不需要任何標簽信息就可以選擇其他未標注的樣本.但是,GS 初始至少需要一個確定的未標注樣本,文中并沒有對第1 個樣本的選取進行解釋.因此,Wu 等[18]提出了GSx 方法,將第1 個樣本指定為最接近N個未標注樣本中心的樣本.接下來對GSx 算法進行介紹.

再選擇具有最大dn的樣本進行標注.重復此過程,直到選擇的樣本數量達到M.

綜上所述,對照ALR 的3 個標準,GSx 僅考慮多樣性,沒有考慮信息性和代表性.

1.3 RD

Wu[17]提出了一種基于樣本代表性(Representativeness)和多樣性(Diversity)的方法,簡稱RD.

RD 主要由兩部分組成:一部分是初始化(無監督過程),另一部分是后續迭代(有監督過程).RD的無監督過程首先對N個未標注樣本進行k-means聚類(k=d+1),然后選擇最接近每個聚類中心的樣本進行標注.在文獻[15]中也使用過類似的方法.

顧名思義,RD 在初始化時僅考慮代表性和多樣性,沒有考慮信息性.

1.4 小結

表1 中總結了P-ALICE、GSx 和RD 考慮的標準.可見,這3 種方法都只考慮了ALR 的3 個基本標準中的1 個或2 個.因此,仍有改進的空間.

表1 基于池的無監督ALR 方法中考慮的標準Table 1 Criteria considered in the three existing and the proposed unsupervised pool-based ALR approaches

2 IRD算法

本節對本文提出的基于池的無監督ALR 算法--IRD 進行介紹.顧名思義,IRD 同時考慮信息性、代表性和多樣性.

設M為要選擇的樣本數量,d為特征維數.接下來分別討論IRD 算法在3 種情形(M=d+1,M <d+1,以及M>d+1)下的實現.

2.1 情形1:M=d+1

對于d維特征數據,通常需要選擇至少d+1 個樣本來構造一個線性回歸模型f(x)=xTw+b,其中w∈Rd×1為回歸系數,b為偏置.接下來從d=2維的特殊樣本開始,對IRD 的基本思想解釋說明(圖2).

圖2 當d=2 時IRD 算法圖示Fig.2 Illustration of IRD whend=2

假設前兩個未標注樣本x1和x2已確定,現在需要選擇第三個樣本.為了便于說明,記=[xn;yn]∈R(d+1)×1,n=1,···,N.

假設H′為通過和的d維最佳流形,并且能夠最佳地擬合其余的N-2 個樣本.在無監督問題中,H′是未知的,但如果給定所有,并要求H′必須通過和,那么一定會存在這樣的H′.

從圖2 中,可以得到:

因此,基于以上推導和可以在基于池的無監督ALR 中使用的所有信息,可以近似得到:

式(10)從希望H和H′盡可能接近推導而來,因此這考慮了xn的信息性.此外,|xv-xn|也可以看作從xn到已確定樣本(在這里也就是和)之間的距離.要使θ變小,則需要|xv-xn|盡可能大,即式(10)也保證了所選樣本之間的多樣性.綜上所述,使用式(10)選擇第3 個樣本時同時考慮了信息性和多樣性.

但是,如果僅使用式(10)作為選擇第3 個樣本的準則,它將始終選擇距離最遠的樣本,那很有可能是一個離群點.為了同時考慮到代表性,可以計算從xn到N個樣本的平均距離,結合到式(10)中,從而選擇最佳的樣本進行標注2我們還考慮了其他兼顧代表性、信息性和多樣性的方法,例如=,但這種方法會引入超參數λ,并且我們的實驗表明,從最佳的λ獲得的性能要比式(11)差.因此,由于其簡單性和準確性,我們最終使用式(11)作為選擇準則.:

當d>2時,同理,可以用 (d-1)維流形C來代替,所有已確定的 d個樣本都位于這個流形上.那么,可以將式(11)改寫為

其中,dist(xn,C)表示從xn到流形C的距離.

為了計算 dist(xn,C),首先需要找到一個垂直于C的向量w∈Rd×1,即滿足

類似于式(12)的方法尚未出現在ALR 中.在用于分類的AL 方法中,有一些用于選擇最接近當前分類邊界的樣本(即具有最大不確定性的樣本)進行標注的方法[21-23],但是它們與式(12)有3 個顯著區別:

1)式(12)適用于回歸問題,而目前文獻中的選擇最接近當前分類邊界樣本的方法[21-23]都是針對分類問題的.

2)式(12)是完全無監督的,即只需要知道樣本的特征信息而無需知道其輸出.文獻中針對分類問題的方法[21-23]都是有監督的,要求必須提供一些有標注的樣本來初始化分類器,從而計算待選樣本到分類界面的距離.

3)式(12)同時考慮了待選樣本的信息性和多樣性,而傳統分類問題中的方法[21-23]只考慮信息性.

2.2 迭代改進

上述方法是在前d個樣本確定的情況下,選擇第 (d+1)個樣本.第 (d+1)個樣本的最優性還取決于前d個樣本的最優性.

因此,本小節提出一種交替優化方法,以迭代方式優化第d+1 樣本:首先通過GSx 或RD 算法確定前d個樣本,再通過式(12)選擇第 (d+1)個樣本.然后反復固定d個樣本,使用式(12)優化每個樣本xt(t=1,···,d+1).重復此過程,直到選擇的樣本收斂或者達到最大迭代次數.

在M=d+1 情形下,IRD 的偽代碼如算法1所示.

2.3 情形2:M <d+1

情形1 中考慮的是M=d+1,即所選樣本數量剛好等于特征數加1,這是一種非常特殊的情況.實際上M可能小于d+1,在這種情況下,式(12)中的d-1 維流形C不能唯一確定,因此不能直接由式(12)得到.

對于這種情形,本小節提出一種新的處理方法:首先,對N個樣本xn進行主成分分析(Principal component analysis,PCA),并確定前M-1 個主成分,然后將每個xn替換為其在M-1 個主成分方向的投影.則式(12)可以在轉換后的xn上進行計算.

在M<d+1 情形下,IRD 的偽代碼如算法2所示.

2.4 情形3:M >d+1

本小節考慮M>d+1 的情況.

首先,使用算法1 初始化d+1 個樣本,然后繼續確定另外的M-d-1 個樣本:使用k-means 聚類 (k=M-d-1)在剩余的N-d-1 個樣本中得到M-d-1 個簇,然后從每個簇中選擇一個樣本.這類似于RD 方法,但本文提出一種改進方法:不是直接選擇最接近每個聚類中心的樣本,而是使用迭代的方法來選擇剩余的M-d-1 個樣本.

不失一般性,假設前d+1 個樣本已通過算法1 確定,接下來的M-d-2 個樣本也暫時確定(例如最接近其簇中心的樣本),要優化將從第(Md-1)個簇中選擇的第M個樣本.對于這個簇中的每個xn,將其與這個簇中其他樣本的平均距離的倒數作為其代表性.記S為第 (M-d-1)個簇中樣本的索引.則xn的代表性可以表示為

其中,|S|是S中元素的個數.

將xn到M-1 個已選樣本的最小距離作為其多樣性的度量,即

再結合代表性和多樣性:

選擇樣本

來代替第M個樣本.對每一個重復此過程,直到不再更新樣本或達到最大迭代次數.

在M>d+1 情形下,IRD 的偽代碼如算法3所示.

3 實驗結果與分析

為了驗證文中提出的基于池的無監督ALR 算法IRD 的有效性,在12 個數據集和3 種線性回歸模型上進行了實驗.本節將對實驗結果進行分析討論.

3.1 數據集

本文使用了12 個來自不同應用領域的數據集進行實驗,其基本情況如表2 所示.

表2 12 個數據集的總結Table 2 Summary of the 12 regression datasets

其中9 個數據集來自UCI 機器學習數據庫3http://archive.ics.uci.edu/ml/index.php,2個來自CMU StatLib Datasets Archive4http://lib.stat.cmu.edu/datasets/.這些數據集在其他的ALR 實驗[7-8,16-18]中也用過.其中兩個數據集(autoMPG 和CPS)同時包含數字型和類別型特征,因此首先使用one-hot 編碼進行處理,將類別型特征轉換為數字型特征,再進行ALR實驗.

本文還使用了一個公開的情感計算數據集:VAM (Vera am Mittag)數據庫[2],這個數據庫也得到了廣泛應用[20,24-27].它包含來自47 位講話者的947條情感語音樣本,從中提取了46 個聲學特征[26-27],其中包括9 個音高特征、5 個持續時間特征、6 個能量特征和26 個MFCC 特征,對情感的3 個維度(愉悅度、喚醒度和優勢度)進行預測.在本文實驗中,只將喚醒度作為回歸輸出.

對于每個數據集,采用z-score 對輸入的每一維進行標準化.

3.2 對比算法

本文將IRD (cmax=5)與以下4 種算法進行ghttp://archive.ics.uci.edu/ml/datasets/energy+efficiencyhhttps://dblp.uni-trier.de/db/conf/icmcs/icme2008.html

ihttps://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strengthjhttps://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noisekhttps://archive.ics.uci.edu/ml/datasets/Wine+Quality比較:

1)隨機采樣(Random sampling,RS):隨機選擇M個樣本進行標注.

2)P-ALICE:在第1.1 節中已經介紹.參數λ從 {0,0.1,0.2,0.3,0.4,0.41,0.42,···,0.59,0.6,0.7,0.8,0.9,1} 中選擇最佳的一個.

3)GSx:在第1.2 節中已經介紹.

4)RD:在第1.3 節中已經介紹.

3.3 評價過程

對于每個數據集,每一次重復實驗隨機選擇50%的樣本作為樣本池,其余50%作為測試集,每種算法從完全未標注的樣本池中選擇M∈[5,15] 個樣本進行標注,然后建立線性回歸模型.所有實驗均重復100 次.

在測試集上進行預測,使用均方根誤差(Root mean squared error,RMSE)和相關系數(Correlation coefficient,CC)作為性能評價指標.

對于每種方法,訓練3 個不同的線性回歸模型5對普通最小二乘法(Ordinary least squares,OLS)回歸也進行了嘗試,IRD 依然取得了最佳表現.但當訓練樣本較少時,OLS 非常不穩定,因此在實際中不是一個合理的選擇,本文不討論其結果.:

1)嶺回歸(Ridge regression,RR),L2 正則化系數λ=0.5.由于選擇的樣本數量很少,本文使用較大的λ以減小回歸模型的方差.

2)LASSO,L1 正則化系數λ=0.5.

3)線性支持向量回歸(Support vector regression,SVR),?=0.1×std(y)(std(y)是M個選擇樣本真實標簽的標準差),box constraintC=1.SVR 包含L2 正則項,其等效正則化系數為,與RR 和LASSO 中的大小相同.

在后面的小節中主要給出了RR 模型上的結果,因為它的RMSE 和CC 通常比LASSO 和線性SVR 更穩定,尤其對于RS 方法而言.但是,如第3.5節所示,當使用LASSO 或線性SVR 時,IRD 相對于其他算法(尤其是RS)的提升效果可能更大.

3.4 RR上的結果

圖3 中展示了使用RR 作為回歸模型,在12 個數據集上5 種采樣方法的平均RMSE 和CC6由于頁面限制,只展示了RR 的詳細結果,因為它通常表現更穩定.其他兩個回歸模型上的結果類似..

圖3 12 個數據集上的平均RMSE 和CC (mRMSE 和mCC;重復運行100 次)(回歸模型為RR (λ=0.5))Fig.3 Mean of the RMSEs and the CCs on the 12 datasets,averaged over 100 runs (RR (λ=0.5)was used as the regression model)

通常,隨著M的增加,5 種采樣方法的RMSE和CC 也會隨之得到改善,因為有更多的訓練樣本加入回歸訓練,逐漸提升了回歸性能.但仍然可能會存在一些波動,尤其是在樣本數量較少的情況下.因為僅從少量標注樣本中訓練得到的線性回歸模型可能存在很多隨機性和不確定性.

在大多數數據集和大多數M取值上,RS 和GSx 具有更大的RMSE 和更小的CC,即它們的性能相對于另外3 種算法較差.IRD 在大多數數據集和大多數M取值上都取得了最小的RMSE 和最大的CC,表明IRD 是表現最佳的樣本選擇方法.

為了更全面地進行比較,我們還計算了100 次重復實驗RMSE 和CC 平均值的曲線下面積(Area under curve,AUC),分別記為AUC-mRMSE 和AUC-mCC,結果如圖4(a)所示.由于不同數據集上AUC 的大小差異很大,不便在一張圖中展示,因此根據RS 的結果進行了歸一化處理,使圖4(a)中RS 的結果始終為1.圖4(a)表明:

圖4 12 個數據集上歸一化AUC-mRMSE 和AUC-mCCFig.4 Normalized AUCs of the mean RMSEs and the mean CCs on the 12 datasets

1)IRD 在12 個數據集中的10 個上均獲得了最小的RMSE,在其余兩個數據集中排名第2.平均而言,IRD 取得了最小的RMSE.它在10 個數據集上也取得了最大的CC,在其余2 個數據集上排名第2 和第3.平均而言,IRD 也取得了最大的CC.

2)平均而言,RD 的性能略優于P-ALICE,兩者均優于RS.

3)GSx 在7 個數據集上的RMSE 表現最差,在另外3 個數據集上排名倒數第二,平均而言,GSx 的RMSE 最差.它在6 個數據集中的CC 也是最低,因此其CC 平均值也最低.

因此,5 種算法的性能整體排名是:IRD>RD>P-ALICE>RS>GSx.

表3 中展示了3 個回歸模型、5 種無監督采樣方法在12 個數據集上的平均AUC 情況.當M較小時,GSx 表現較差的原因可能是其選擇的樣本大多是離群點,而離群點的負面影響超過了GSx 多樣性的正面影響.IRD 同時考慮了信息性、代表性和多樣性,因此表現最好.

除了準確性,算法的穩定性也很重要.實際情況中,如果多種算法具有相似的性能,通常首選變化較小,也就是更穩定的算法.表3 展示了運行100次的AUC-mRMSE 和AUC-mCC 在12 個數據集上的平均標準差(Standard deviation,std)提升結果.可以看到,IRD 在標準差上相對于RS 的提升最大,即它是最穩定的ALR 方法.

表3 AUC-mRMSE/sRMSE 和AUC-mCC/sCC 的提升百分比Table 3 Percentage improvements of the AUCs of the mean/std RMSEs and the mean/std CCs

對于不同的M,我們統計了P-ALICE、GSx、RD 和IRD 對應的RMSE (CC)相對于RS 的比率,重復100 次實驗在12 個數據集上取平均,結果如圖5 所示.可見,當M較小時,IRD 相對于其他4 種方法的提升很大,因為IRD 同時考慮了信息性、代表性和多樣性.隨著M的增加,IRD 的優越性逐漸下降,因為隨著標注樣本數量的增加,每個樣本最優性的影響就會減小.

圖5 對于不同的M,4 種ALR 方法的mRMSE 和mCC 相對于RS 在12 個數據集上的平均比率Fig.5 Ratios of the mean RMSEs and the mean CCs for differentM,averaged across 12 datasets

3.5 LASSO和線性SVR上的結果

當使用LASSO 和線性SVR 作為線性回歸模型時,我們也重復了上述實驗.結果如圖4(b)和圖4(c)所示.可以得到和圖4(a)類似的結論,例如IRD 始終取得最佳的平均性能,而RD 則優于P-ALICE、RS 和GSx.此外,整體看來,相對于RR,4 種ALR算法(特別是IRD)在這兩個模型上相對于RS 的性能提升更為明顯.

為了量化4 種無監督ALR 算法相對于RS 的改善效果,我們也計算了其AUC-mRMSE 和AUC-m CC 的提升百分比,如表3 所示.無論使用哪種線性回歸模型或性能指標,IRD 的平均表現都優于其他4 種方法.

3.6 統計分析

為了確定IRD 與其他4 種算法之間的性能差異是否具有統計意義,我們使用Dunn 檢驗[28]對幾種方法的AUC-mRMSE 和AUC-mCC 在12 個數據集上的平均值進行了非參數多重比較檢驗,使用錯誤發現率(False discovery rate)方法[29]進行p值校正.結果如表4 所示,其中具有統計意義的結果以粗體標出.

表4 非參數多重檢驗的p值(α=0.05 ;如果p <α/2 拒絕H0).Table 4 p-values of non-parametric multiple comparisons (α=0.05 ;rejectH0ifp<α/2)

結果表明,無論使用哪種線性回歸模型,IRD的RMSE 和CC 相對于RS、P-ALICE 和GSx 的提升始終具有統計學意義;相對于RD,CC 的提升具有統計學意義;使用線性SVR 時,RMSE 的提升也具有統計學意義.

3.7 選擇樣本的可視化

為了更直觀地了解不同ALR 算法選擇樣本之間的差異,我們在一個典型數據集(Housing)上使用t-SNE[30]將樣本映射到2 維空間.圖6 展示了3個不同的M值對應的4 種ALR 算法選擇的樣本.P-ALICE 的樣本權重在繪圖中沒有顯示.

圖6 中,GSx 傾向于選擇位于邊界的樣本,這樣的樣本很有可能是離群點,且所選樣本的分布情況與池中的樣本不一致.因此,它的平均性能在4種算法中是最差的.與GSx 相比,P-ALICE 和RD選擇的樣本在池中分布更均勻.IRD 選擇的樣本傾向于靠近池的邊界,但不完全位于邊界,這樣的樣本不太可能是異常點,并且選擇的樣本的分布情況與池中樣本更一致.這些都可能是IRD 表現較好的原因.

圖6 在Housing 數據集上不同ALR 算法所選樣本(星號)的t-SNE 可視化Fig.6 t-SNE visualization of the selected samples(asterisks)from different ALR approaches on Housing dataset

3.8 cmax對IRD的影響

算法1~3 中有一個重要參數:cmax,即最大迭代次數.當cmax=0 時,IRD 等效于RD.本小節通過設置cmax>0 來探究IRD 的性能是否優于RD.

圖7 展示了在3 種線性回歸模型上,cmax∈[0,10]的歸一化AUC (相對于RS)的變化趨勢,這是在12 個數據集上重復100 次 實驗的平均結果.如圖所示,IRD 的性能隨著cmax的增加而迅速提升,并且總是在cmax=5 之前就達到了最優,這意味著IRD 是一種既有效又高效的算法.

圖7 對于不同的cmax,4 種ALR 算法的AUC-mRMSE和AUC-mCC 相對于RS 在12 個數據集上的平均比率Fig.7 Ratios of AUCs of the mean RMSEs and the mean CCs for differentcmax,averaged across 12 datasets

3.9 λ對IRD的影響

為了研究5 種無監督采樣方法的性能對3 個線性回歸模型正則化系數的敏感性,我們對λ ∈{0.01,0.05,0.1,0.5,1}進行了重復實驗.線性SVR有一個等價的L2 正則化系數,等效設置為C ∈{50,10,5,1,0.5}.將每種采樣方法在不同參數回歸模型下的AUC 結果相對于RS (λ=0.5)進行歸一化,如圖8 所示.

圖8 對于不同的λ(RR 和LASSO)和C(線性SVR),4 種ALR 算法的AUC-mRMSE 和AUC-mCC 相對于RS 在12 個數據集上的平均比率Fig.8 Ratios of the AUCs of the mean RMSEs and the mean CCs,averaged across 12 datasets,for differentλ(RR and LASSO)andC(linear SVR)

整體來看,5 種無監督采樣方法的性能首先隨著λ的增大而提高,然后下降.然而,無論λ(C)取值為多少,IRD 的表現通常都是最好的,RD 次優.當λ較小時,IRD 相對于其他4 種方法的提升更大.此外,可以看出IRD 對參數λ不是很敏感,這將有利于實際應用.

3.10 三個標準的影響

為了研究信息性、代表性和多樣性分別對IRD的影響,我們將IRD 與三個變體進行比較:

1)IRD (cmax=5):本文提出的方法,在第2節中已介紹.

2)ID:當M=d+1 時,只考慮式(12)的分母部分;當M>d+1 時,只考慮式(17)中的D(xn).即只考慮信息性和代表性.

3)RD:等同于cmax=0 時使用RD 進行初始化的IRD.即只考慮代表性和多樣性.

對于M∈[5,15],每種方法在12 個數據集上運行100 次,訓練3 種線性回歸模型:RR (λ=0.5)、LASSO (λ=0.5)和線性SVR (C=1).圖9 展示了對于不同的M取值,IRD 及變體的RMSE 和CC 相對于RS 的平均比率.3 個回歸模型上的結論是類似的.通常,3 種ALR 方法都優于RS.IRD 仍然表現最好,這表明同時考慮信息性、代表性和多樣性至關重要.

圖9 對于不同的M,IRD 及其變體的mRMSE 和mCC相對于RS 在12 個數據集上的平均比率Fig.9 Ratios of the mean RMSEs and the mean CCs w.r.t.differentM,averaged across 12 datasets

4 結論

主動學習通過選擇最有價值的樣本進行標注,從而利用較少的訓練數據就可以建立較好的機器學習模型.這在許多實際應用中有著重要的作用,因為數據的標注過程往往需要耗費大量的時間和經濟成本.大多數現有的主動學習方法是有監督的:能夠從少量的標注樣本中建立一個初始的模型,基于模型查詢新的數據,然后進行迭代更新.本文考慮了線性回歸中完全無監督的基于池的主動學習問題,即在完全不知道任何標簽信息的情況下,最優地選擇初始的少量樣本進行標注.文中提出一種新的主動學習算法IRD,該算法同時考慮了主動學習中的3 個重要標準:信息性、代表性和多樣性.在來自于不同應用領域的12 個數據集和3 種不同的線性回歸模型(RR、LASSO 和線性SVR)上進行了大量實驗,充分驗證了本文提出方法的有效性.

猜你喜歡
監督方法模型
一半模型
重要模型『一線三等角』
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
重尾非線性自回歸模型自加權M-估計的漸近分布
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 精品91视频| 日韩精品专区免费无码aⅴ| 黄色片中文字幕| 国产美女自慰在线观看| 97青青青国产在线播放| 国产中文一区二区苍井空| 青青草原国产精品啪啪视频| 啦啦啦网站在线观看a毛片| 国产成本人片免费a∨短片| 免费福利视频网站| 在线99视频| 青青国产在线| 亚洲AV无码久久精品色欲| 欧美精品在线观看视频| 精品一区二区无码av| 国产jizzjizz视频| 扒开粉嫩的小缝隙喷白浆视频| 91在线激情在线观看| 午夜毛片免费观看视频 | 欧美一级在线| 精品国产一二三区| 国产特级毛片aaaaaa| 色亚洲成人| 最新国产高清在线| 日韩毛片免费观看| av在线手机播放| 无码电影在线观看| 亚洲,国产,日韩,综合一区| 日韩无码精品人妻| 国产成人综合久久精品下载| 久热这里只有精品6| 又污又黄又无遮挡网站| 精品欧美视频| 欧美日韩一区二区在线免费观看| 色综合天天综合中文网| 视频二区国产精品职场同事| 国产视频 第一页| 呦女亚洲一区精品| 91免费精品国偷自产在线在线| 午夜啪啪福利| 欧美午夜在线播放| 国产91视频免费观看| 国产性猛交XXXX免费看| 色综合天天综合| 国产97色在线| 亚洲AV成人一区国产精品| 67194亚洲无码| 亚洲综合狠狠| 一级爆乳无码av| 谁有在线观看日韩亚洲最新视频| 福利一区三区| 精品无码人妻一区二区| 国产精品手机在线观看你懂的| 69综合网| 香蕉久久国产超碰青草| 日本不卡在线视频| 国产欧美在线观看一区| 精品国产网| 久久精品丝袜| 欧美一区二区三区欧美日韩亚洲| 久久鸭综合久久国产| 国产人前露出系列视频| 国产一区二区三区免费观看| 国产精品久久久久久久伊一| 婷婷亚洲最大| 亚洲不卡av中文在线| 精品91视频| 亚洲精品片911| 亚洲成人一区二区三区| 免费看av在线网站网址| 女人毛片a级大学毛片免费| 久久亚洲日本不卡一区二区| 国产精品va| 片在线无码观看| 爱做久久久久久| 国产高清在线观看| 鲁鲁鲁爽爽爽在线视频观看| 亚洲自拍另类| 一区二区三区在线不卡免费 | 黄色网站不卡无码| 久久频这里精品99香蕉久网址| 国产极品粉嫩小泬免费看|