999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平衡回歸中的自適應加權采樣的稀有值預測

2023-09-20 11:25:40付光輝李珍珍
計算機仿真 2023年8期
關鍵詞:方法

黃 牛,付光輝,李珍珍,寇 穎

(昆明理工大學理學院,云南 昆明 650500)

1 引言

在不平衡回歸問題中,預測稀有值特別困難,主要有以下三個方面的問題。第一,樣本點分布不均衡。第二,用戶的目標是對稀有值進行預測。如果使用傳統的方法(如最小二乘回歸)對稀有值預測,預測模型誤差大,從而預測結果極不準確。第三,標準的預測誤差指標(如MAE)不足以衡量模型的性能。Torgo[7]提出用連續的相關函數將目標變量的原始域映射為連續的關聯尺度,并根據相關性函數確定樣本采樣的數目,結合傳統的經典算法,提出了SMOTE.R算法,增加了稀有樣本數目,解決了樣本點分布不均衡的問題。Torgo和Ribeiro[8]提出了一種評價模型性能優劣的方法,該方法更關注預測罕見情況的性能,解決了模型性能評價問題。Ribeiro[9]通過改進的箱線圖來自動獲取控制點,采用Hermite插值方法對控制點分三段插值,以此獲得稀有值的相關函數。該方法避免稀有值真實情況的丟失,從而對稀有值的預測更加準確。然而,以上方法沒有考慮到以下兩個問題:第一,在不平衡回歸學習很多領域內,不同的稀有值其相關性應該有所區別,而不應該將所有稀有值的相關性都取為“1”。第二,Torgo、Ribeiro等人沒有考慮稀有值的域偏好,在某些領域內,可能極低稀有值會比極高稀有值顯得更重要,或極高稀有值會比極低稀有值顯得更重要。應該根據域偏好來確定預測問題是更偏向于極高稀有值預測還是極低稀有值預測,故相關函數圖像可能會有左偏或者右偏的情況,而Torgo考慮的是更特殊的情形。

針對Torgo等人在不平衡回歸任務中存在的一些問題。本文提出一種結合領域知識的自適應加權采樣方法,該方法主要有兩個優勢:第一,本文提出的相關函數不僅反映目標變量的稀缺性程度,還由此確定了稀有值采樣的權重,從而確定了稀有樣本生成的個數,解決數據不平衡的問題。第二,解決了領域內稀有值的域偏好問題,是偏好極低稀有值預測還是偏好極高稀有值預測。自適應加權采樣方法不僅提高了稀有值的預測精度,還更加符合現實領域的實際情況。

2 相關工作

2.1 SMOTE算法

Chawla[10]提出了SMOTE算法,SMOTE是一種用于解決類不平衡分類問題的重采樣方法。在使用幾種分類算法的幾個現實世界問題上表明了這種方法與其它重采樣技術相比的優勢。為了使算法適應目標不平衡回歸任務,需要處理它的三個關鍵組成部分:①怎樣定義“異常”和“正常”樣本;②如何創建新的合成樣本(即過采樣);③怎樣確定新合成樣本的目標變量值。對于第一個問題,使用相關函數獲取數據集相關性,根據用戶域偏好確定閾值,目標變量相關性大于閾值被確定為稀有值,小于閾值的被確定為普通值。關于第二個問題,本文認為越是稀有的點將越重要,相關性也將越高,即過采樣生成的樣本也越多。最后,第三個問題是確定生成的觀測值的目標變量值。本文使用單個隨機樣本與它的一個k近鄰樣本二者的目標變量值的加權平均,其權值是由被采樣點和它的一個k近鄰點與生成樣本之間的距離的反函數計算得到的。

2.2 支持向量機回歸理論

Smola等[11-14]在支持向量機回歸上做了很多的研究,傳統的回歸模型通常基于輸出模型f(x)與真實輸出y之間的差別來計算損失,當且僅當二者完全相同時,損失才為0。支持向量回歸能假設容忍f(x)與y之間最多有誤差ε,當二者之間的誤差大于ε時,才計算損失。

正如圖1所示,以f(x)為中心,建立一個寬度為2ε的間隔,如果訓練樣本落入到間隔內,則被認為是預測正確的。

圖1 SVR

于是SVR問題就可形式化為

(1)

其中,C是正則化常數。lε是所示的ε-不敏感損失函數

(2)

回歸問題的本質是找到一個模型,能夠最佳程度擬合數據點。用線性回歸作為對比,線性回歸的擬合方式是:讓數據點到預測的直線相應的MSE值最小。但是對于SVM來說,回歸思路不同。需要找一個間隔值,在這個間隔內,能包含樣本數據點越多越好。在間隔范圍內的數據點越多,就代表預測效果越好。選擇間隔中間的直線作為回歸結果,用它來預測未知點對應的y值。用SVM解決分類和回歸問題時,方法上截然不同。解決分類問題要求間隔內的樣本點越少越好,特別是硬間隔的時候,一個樣本點都不允許存在,而接近回歸問題時,希望間隔范圍內的數據樣本有越多越好。

3 改進的算法

3.1 相關函數

Torgo在類似的背景下提出相關性的概念。它們將目標值轉換為相關性的尺度,以此獲得稀有值的重要性。為了在這樣的條件下獲得相關函數,需要一種自動方法來確定哪些目標變量值具有最小和最大的相關性(重要性)。鑒于分布中稀有值被認為是最重要的,為準確預測,這些值應該具有最大的相關性。相反,最常見的值應該具有最小的相關性。相關性是通過“目標變量”來確定,建議使用相關函數φ(Y),它將目標變量的原始域映射為連續的關聯尺度。在回歸中,考慮到目標變量的定義域是無限的,用“0”表示完全不相關的值,用“1”表示最大相關值。對用戶來說,以分析的方式指定這樣的函數并不總是那么容易。不過,對于某些應用程序,可以提出一個合理的自動生成的相關函數。實際上,在這些領域中,相關性與目標變量的稀缺性和極端性有關。箱形圖提供了有關極端值的關鍵信息。所有高于第三四分位數或者低于第一四分位數的值,標記為稀有值。這些值對應高(低)稀有值。對于目標變量,可能有兩種類型的稀有值,同時存在極低和極高稀有值,或者只有高(低)稀有值。那么在定義相關函數要考慮以下兩個問題:①應該正確識別稀有值,給極低稀有值和極高稀有值賦予更高的相關性。②要符合現實領域的不平衡回歸問題的實際情況。在此背景下,提出了如下函數

(3)

(4)

式中Y為目標變量,y為用戶在該領域的領域偏好,a1和a2均為參數。

以美國波士頓房價為例,從圖2中可以看出低房價和高房價都有著較大的相關性,并且相關性函數左偏,意味著高房價比低房價更為“異常”,對國家經濟和社會影響更大。從圖中顯示a1比a2稍大,函數左偏,故低房價獲得更低的相關性。如果參數a1比a2偏小,那將忽視了低房價的“異常”而可能導致決策者做出經濟誤判,因此需要提高a1的大小來正確識別“異常值”。同理,如果相關函數右偏,則需提高a2的大小。a1與a2通常與域偏好有關。

圖2 波士頓房價相關函數

圖3 新數據集生成框架

3.2 算法步驟

本文的算法是對普通值進行欠采樣,對用戶感興趣的值(稀有值)進行過采樣,從而得到一個新的訓練集,其訓練數據值的分布更加均衡。

1)算法1:獲取稀有值

輸入:數據集D,相關性程度w,中位數median(y),相關性程度的閾值tE

輸出:極低稀有值rareL,極高稀有值rareH,普通值comvalue

步驟1:將數據集D中的每個數據〈x,y〉通過相關函數得到其相關性程度w。

步驟2:對于數據集D中的每個數據〈x,y〉,如果其w大于閾值tE并且目標變量Y大于median(y),則為極高稀有值rareH。

步驟3:對于數據集D中的每個數據〈x,y〉,如果其w大于閾值tE并且目標變量Y小于median(y),則為極低稀有值rareL。

步驟4:普通值comvalue=D areH∪rareL

2)算法2:過采樣、欠采樣、混合采樣

輸入:rareH,rareL,comvalue,w,m(與不平衡比有關的參數),ε(參數)

輸出:欠采樣個數n1

步驟1:依據相關性程度,將rareH和rareL中的每一個數據集分到三個區間,相關性在[tE,tE+ε)上,生成樣本個數為m,相關性在[tE+ε,tE+2ε)上,生成樣本個數為2m,相關性在[tE+2ε,1]上,生成樣本個數為3m。

步驟2:(欠采樣過程)comvalue中的每一個數據集獲取其單個數據相關性w(k),comvalue數據集中的相關性w(k)越大,越應被保留,得到欠采樣個數n1。

步驟3:對步驟1和步驟2操作可得到過采樣的樣本個數和混合采樣的樣本個數。

3)算法2:樣本合成

輸入:rareH、rareL

輸出:NewrareH,NewrareL

步驟1:從rareH中隨機選取一個樣本點xHi,然后選取xHi的k近鄰xHik,通過SMOTE合成新的樣本xHX=xHi+random(0,1)|xHik-xHi|,計算xHi與xHX的歐式距離dH1=dist(xHi,xHX),計算xHik與xHX的歐式距離dH2=dist(xHik,xHX),目標變量HYi=(dH2yHi+dH1yHik)/(dH1+dH2)。

步驟2:從rareL中隨機選取一個樣本xLj,并且選取xLj的k近鄰xLjk,通過SMOTE合成新的樣本xLX=xLj+random(0,1)|xLjk-xLj|,計算xLj與xLX的歐式距離dL1=dist(xLj,xLX),計算xLjk與xLX的歐式距離dL2=dist(xLjk,xLX),目標變量LYi=(dL2yLj+dL1yLjk)/(dL1+dL2)。

步驟3:根據每個樣本合成的數目,重復步驟1和步驟2,最終得到NewrareH、NewrareL。

3.3 評價指標

(5)

(6)

4 應用試驗

4.1 數據集

本文的實驗目的是測試提出的采樣方法在預測連續目標變量的罕見方面的有效性。為此選擇了8個回歸數據集,這些數據集可以在UCI上獲得。表1顯示了這些數據集的主要特征。從表1中的數據可以看出,平均14.75%的可用樣例是稀有值。

表1 數據集特征

4.2 試驗結果與分析

通過構建SVR模型比較過采樣、欠采樣、混合采樣三種方法預測連續目標變量稀有值回歸的性能。實驗基于R平臺,實驗結果經100次重復試驗獲得。表2、表3分別列出三種采樣方法在8個數據集上的recall和precision,圖4展現了三種采樣方法在8個數據集上的F值。試驗結果表明:過采樣、欠采樣、混合采樣在所有數據集上其F值分別提高7.3%、1.8%、8.4%。可以看出欠采樣提升不明顯,而且在某些數據集上,其F值甚至有下降的趨勢,這就說明單純地刪除普通值樣本達不到準確預測稀有值的目的。而在過采樣和混合采樣中,過采樣的precision提升效果更佳,混合采樣的recall提升更加明顯。因此,在處理不平衡回歸問題時,無法判斷何種采樣方法處理不平衡問題更優,應根據具體的數據特性和需求選取合適的方法。此外,考慮到參數a1和a2會影響回歸的性能。本文選取Boston房價為例,圖5是在a2=6.1的條件下探究a1對F值的影響。從圖中可以看出,a1在某一范圍內其F值會趨于穩定。圖6是在a1=8.1的條件下探究a2對F值的影響。從圖中可以看出,隨著a2的變化,F值波動較大,F值是先增大而后減小。但從提升回歸效果上看,在過采樣、混合采樣中,不同參數的選取其性能提升的幅度趨于穩定,由此說明了自適應加權采樣對稀有值準確預測提升效果明顯。

表3 不同采樣的pre

圖4 過采樣、欠采樣、混合采樣的F值

圖5 參數a2=6.1 圖6參數a1=8.1

5 結語

本文的主要貢獻是:將抽樣方法成功地應用于這類回歸任務。并且考慮了每個稀有值樣本的重要性,從而為稀有值數據點訓練出更好的模型,體現了自適應加權采樣在不平衡回歸任務中的優越性。本文針對一系列不同的問題進行了大量的實驗,突出了其優勢。但是也存在一些問題需要討論和進一步研究。第一,自適應加權方法在處理不平衡回歸問題時表現出良好的優勢,然而現實中數據的表現形式多種多樣,在面臨不同類型不平衡數據時,如何利用該技術來提升學習算法性能仍需深入研究。第二,能否把一些經典的采樣方法應用于不平衡回歸領域。因此,后續工作任務需要在此基礎上進行更深層次的研究。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日本一区二区三区精品AⅤ| 最新无码专区超级碰碰碰| h网站在线播放| 国产成人精品一区二区三区| 波多野结衣的av一区二区三区| 国产精品密蕾丝视频| 毛片在线看网站| 欧美成人免费一区在线播放| 高潮毛片免费观看| 日韩无码黄色| 国产一级一级毛片永久| 成年av福利永久免费观看| 午夜老司机永久免费看片| 91精品免费高清在线| 国产在线第二页| 国产成人凹凸视频在线| 国产又黄又硬又粗| 国产www网站| 亚洲精品午夜无码电影网| 亚洲Va中文字幕久久一区| julia中文字幕久久亚洲| 国产精品免费露脸视频| 国禁国产you女视频网站| 午夜激情婷婷| 国产va免费精品观看| 91视频99| 91区国产福利在线观看午夜| 又黄又爽视频好爽视频| 波多野结衣久久精品| 毛片免费在线视频| 国产女同自拍视频| 91系列在线观看| 一级做a爰片久久免费| 欧美自慰一级看片免费| 国产免费网址| 国产成人免费| 激情无码字幕综合| 欧美笫一页| 亚洲高清资源| 免费看黄片一区二区三区| 亚洲AV无码乱码在线观看裸奔| 国产成人乱码一区二区三区在线| 日韩123欧美字幕| WWW丫丫国产成人精品| 亚洲国产欧美自拍| 欧美一级99在线观看国产| 久久99精品久久久久久不卡| 精品一区二区无码av| 午夜国产大片免费观看| 韩国自拍偷自拍亚洲精品| 沈阳少妇高潮在线| 91香蕉视频下载网站| 自拍偷拍一区| 国产在线观看第二页| 77777亚洲午夜久久多人| 国产亚洲欧美日韩在线一区二区三区| 2021国产乱人伦在线播放| 在线观看91精品国产剧情免费| 一级黄色网站在线免费看| 中文字幕波多野不卡一区| 巨熟乳波霸若妻中文观看免费| 国产产在线精品亚洲aavv| 福利在线不卡| 亚洲精品无码不卡在线播放| 亚洲精品国产成人7777| 国产女人在线| 国产精品蜜芽在线观看| 国产女人在线| 亚洲AV无码久久天堂| 国产视频自拍一区| 国产又黄又硬又粗| 亚洲另类色| aa级毛片毛片免费观看久| 99久久国产精品无码| 福利在线一区| 国产激爽大片在线播放| 91香蕉国产亚洲一二三区 | 精品国产自在现线看久久| 亚洲中文字幕国产av| 亚洲无线视频| 2020久久国产综合精品swag| 尤物成AV人片在线观看|