999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Capped L1罰函數的組稀疏模型

2018-12-19 12:44:30崔立鵬于玲范平平吳寶杰翟永君
現代計算機 2018年32期
關鍵詞:實驗模型

崔立鵬,于玲,范平平,吳寶杰,翟永君

(天津輕工職業技術學院電子信息與自動化學院,天津 300350)

1 研究背景

在大數據時代,人們面對各種各樣的高維數據,如何從高維數據中挖掘出有用的信息是人工智能技術面臨的一個重要問題。在現代機器學習、數據挖掘與生物信息學等領域,很多分類和回歸問題的解釋變量空間往往維數很高,甚至是超高維的。然而,高維數據會導致機器學習中的過擬合現象出現,從而使得統計模型的泛化性能變差。因此,變量空間降維與變量選擇問題亟待解決。變量選擇的目的在于兩個方面:一是實現精確的預測和分類;二是使得模型具有更好的可解釋性,降低統計模型的復雜度。所謂可解釋性指的是模型的簡潔度,顯然,變量空間維數越低的統計模型可解釋性越好。總之,人們總是期望盡可能利用較少的變量實現更高的預測準確性。如何實現統計模型的變量空間降維?很多統計學家針對變量空間降維的問題展開了研究,從而提出了一系列的稀疏模型,最著名的當屬Tibishirani提出的Lasso[1]。考慮線性回歸模型b,其中X∈RN×P為全部解釋變量(自變量)的觀測值所構成的矩陣,β∈RP稱作模型向量或回歸系數向量,y∈RN稱作響應向量、因變量向量或輸出向量,ε∈RN為噪聲向量且λ1>0為樣本數,a>1為變量數。由Tibshirani提出的著名的 Lasso 的形式為λ?‖β‖1,其中 λ>0 為調節參數(Tuning Parameter),‖β‖1為L1范數罰。L1范數罰由于在零點處不可導從而可產生稀疏解,利用子梯度(Subgradient)可得單變量時其解的形式,其中為最小二乘解。顯然,此時其解為軟閾值算子(Soft-Threshold Operator)形式,從而將絕對值小于λ的回歸系數置零,實現變量選擇與統計模型的稀疏化。

Lasso在統計學中的變量選擇領域具有極其重要的地位。然而,學者們通過實驗與理論分析發現,Lasso也存在各種各樣的缺點,很多學者針對Lasso的這些缺點進行了更深入的研究,其中之一就是Lasso對重要變量的系數也進行壓縮,Zhao等人指出其只在非常強的附加條件下才具有Oracle性質[2],SCAD模型[3]、MC模型[4]和自適應Lasso[5,6]等統計模型克服了Lasso的這一缺點,與Lasso相比,它們顯著減小了對重要變量的回歸系數的壓縮程度,因而這些模型具有所謂的Oracle性質。另外,Lasso在面對一組彼此之間存在高度相關性的解釋變量時,往往只能選擇出其中的一小部分,克服了這一缺點的稀疏模型為Elastic Net[7],其往往能夠將一組彼此間存在高度相關性的變量中的大部分選擇出來。Lasso只能實現分散的變量選擇,很多情形下變量之間存在某種結構,例如在基因微陣列分析中,某基因上往往會有多個變異點,在識別究竟是哪個基因發生的變異與所發生疾病存在關聯關系時將屬于同一個基因的變異點分為一個組是更加合理的,因此有學者考慮將變量之間存在的結構作為先驗信息再進行變量選擇,Group Lasso[8-10]就是將變量的組結構作為先驗信息的稀疏模型,其具有變量組選擇功能。除了應用于統計學上的變量選擇問題,Lasso等稀疏模型還被應用到了壓縮感知、信號重構和圖像重構等諸多領域,在生物統計、機器學習、數據挖掘、圖像處理和信號處理等領域有著越來越廣泛的應用。

基于上述思想,將Capped L1罰[11]推廣到變量組選擇的情況下,提出了一種新的組稀疏模型:Group Capped L1模型,其具有變量組選擇能力。最后,通過人工數據集實驗驗證了其在變量選擇和預測等方面的有效性。

2 Group Capped L1模型

2.1 Capppeedd .1罰

Capped L1罰的形式為:

其中λ和a均為可調參數,λ>0且a>0。顯然,Capped L1罰由兩部分構成,||θ

圖1 Capped L1罰的圖像

2.2 Group Cappeed L 1模型的形式

Capped L1模型在回歸系數小于等于a時表現出與Lasso一致的變量選擇特性,而在回歸系數大于a時不對回歸系數進行壓縮,其克服了Lasso對所有回歸系數均進行壓縮的缺點,但其仍然只能實現變量水平上的稀疏性,不能實現變量組水平上的稀疏性。下面將Capped L1罰推廣到變量組選擇情形,構成具有組稀疏性的Group Capped L1模型。

已知如下的線性回歸模型:

其中 β為P×1維的系數向量,X為n×P階的設計矩陣,y為n×1維的輸出向量,且噪聲服從高斯分布:

事先將P個變量劃分為J個組,利用 βj代表第 j個變量組對應的系數向量,Xj代表第 j個變量組對應的子設計矩陣,dj表示第 j個變量組中的變量數,不妨假設任意的子設計矩陣Xj均滿足正交條件XjTXj=Idj,其中dj階的單位方陣,j∈{1 ,2,…,J} ,不妨假設xijp表示對第 j個變量組中的第p個變量的觀測值,則Group Capped L1模型為:

其中 φλ1,a(?)為Capped L1罰,λ1和a均為可調參數。

2.3 Group Cappeed L 1模型的求解算法

下面利用塊坐標下降算法求解Group Capped L1模型。塊坐標下降算法在求解稀疏模型時需要該模型關于單變量組的顯式解,然后不斷迭代直到滿足收斂條件。塊坐標下降算法是坐標下降算法的推廣,坐標下降算法最初用來求解Lasso問題,其思想為在求解優化問題時每次迭代中只關于一個變量進行優化,同時固定其余所有變量的值不變,這樣就將復雜的多維優化問題轉化為一系列的單維優化問題,大大降低了計算的復雜度。塊坐標下降算法在求解優化問題時每次迭代中只關于一個變量組進行優化,同時固定其余所有變量組的值不變,經過若干次迭代得到模型的解。由于Capped L1罰是一個分段函數,因此討論Group Capped L1模型關于單變量組的顯式解時需要分情況進行討論。Group Capped L1模型關于第 j個變量組的解可被表示為:

在Group Capped L1模型關于單變量組的顯式解的基礎上,可利用塊坐標下降算法求解Group Capped L1模型。求解Group Capped L1模型的塊坐標下降算法為:

(1)輸入響應向量y、設計矩陣X、回歸系數向量的初始值β。

(2)當1≤j≤J時重復執行下列步驟:

②利用公式(5)求解 βj。

③更新 β中的第 j個子系數向量 βj。

④令 j=j+1。

(3)得到遍歷一次全部分組后的回歸系數向量β,判斷是否滿足預先設定的收斂條件或迭代次數,若不滿足則跳轉到第(2)步;否則,結束算法。

(4)輸出回歸系數向量β。

3 實驗

3.1 人工數據集實驗

下面利用人工生成的數據集進行實驗驗證Lasso、Group Lasso、Group Capped L1等稀疏模型在線性回歸模型下的變量選擇能力。在生成的全部人工數據集的實驗中,對每個數據集中的變量都隨機劃分成兩個樣本數相同的子數據集,其中一份作為訓練數據集,另一份作為測試數據集,上述劃分過程重復30次,得到30個實驗結果,取30次實驗結果的均值作為最終的實驗結果,將實驗結果列入各個表中,表中n表示訓練樣本數,P表示變量總數,Size表示選出的變量總數,Rel表示識別出的目標變量數,Noi表示剔除的冗余變量數,MSE 表示預測均方誤差(Mean Square Error),Error表示錯誤分類率。

生成如下兩種不同類型的數據集:人工數據集1和人工數據集2,其中人工數據集1中每個變量組所含的變量數相等,而人工數據集2中各變量組所含的變量數不相等。人工數據集1和人工數據集2均基于線性回歸模型y=Xβ+ε生成。

人工數據集1:該數據集包含2n=300個樣本和P=30個變量,這30個變量被劃分為6個變量組。人工數據集2:該數據集包含2n=200個樣本和P=20個變量,這20個變量被劃分為4個變量組。實驗結果如表1和表2所示,從實驗結果可以看出,對于人工數據集1來說,Group Capped L1模型具有明顯的稀疏性,能夠實現變量組選擇,并且其預測均方誤差最小。

表1 人工數據集1的實驗結果

表2 人工數據集2的實驗結果

3.2 真實數據集實驗

選取來自Hosmer與Lemeshow收集的新生兒體重數據集(Birthweight Dataset)來對 Lasso、Group Lasso以及Group Capped L1這幾種組稀疏模型進行實驗。該數據集包含189個新生兒的體重以及可能與新生兒體重有關的8個解釋變量,該8個變量分別為:母體年齡、母體體重、種族(白人或黑人)、吸煙史(吸煙或不吸煙)、早產史(早產過一次或早產過兩次)、高血壓史(有高血壓史或無高血壓史)、子宮刺激性史(有子宮刺激性史或無子宮刺激性史)、懷孕期間的物理檢查次數(一次、兩次或三次),其中母體年齡和母體體重為用三次多項式表示的連續變量,而其余六個解釋變量均為分類變量。對于母體年齡和母體體重,其可被視為用屬于同一個組的三個變量來表示。對于分類變量,其所對應的多個水平可被視為多個變量,這些變量屬于分類變量這個組。因此,該數據集可被視為含有19個變量和189個樣本,并且這19個變量被分為8個變量組。另外,該數據集還包含兩個輸出變量bwt和low,其中輸出變量bwt為連續變量,表示新生兒的體重值;變量low為二值變量,表示新生兒的體重值是大于2.5kg還是小于2.5kg。當以變量bwt為輸出變量時,為線性回歸模型問題;當以變量low為輸出變量時,為二分類問題。

將189個變量隨機劃分成兩個分別含有100個樣本和89個樣本的子數據集,其中含有100個樣本的子數據集作為訓練數據集,另一份含有89個樣本的子數據集作為測試數據集,上述劃分過程重復100次,得到100個實驗結果,取100次實驗結果的均值作為最終的實驗結果。實驗結果如表3所示,表3是以bwt為輸出變量的實驗結果,表中n表示訓練樣本數,P表示變量總數,Size表示選出的變量總數,MSE表示預測均方誤差。從表3中的實驗結果可以看出,在回歸問題下,Group Capped L1的預測均方誤差最小,而且其得到的模型稀疏性也較好,與Lasso和Group Lasso相比,是一種更好的變量選擇模型。

表3 新生兒體重數據集的實驗結果

4 結語

在機器學習和生物信息學中,有時變量之間存在一定的組結構,忽略這種組結構是不恰當的。本文將組結構作為先驗信息,把Capped L1罰推廣到變量組選擇的情形下,基于Capped L1罰提出了一種新的組稀疏模型,其能夠實現變量組選擇,通過人工數據集實驗和真實數據集實比較了其與Lasso、Group Lasso在變量選擇方面、預測準確性和分類錯誤率等方面的性能,實驗結果說明了提出的基于Capped L1罰的組稀疏模型在變量選擇方面和預測方面的有效性。本文只是在線性回歸模型下研究了其變量選擇等性能,后續將其推廣到邏輯斯蒂回歸模型下的情況值得進一步探索。當前,稀疏模型仍然是機器學習領域的研究熱點,其有意義的研究方向有如下幾個方面:第一,將稀疏模型向除線性回歸模型以外的其它統計模型進行拓展。當前,由于線性回歸模型的簡潔性,大多稀疏模型均基于線性回歸模型提出,但線性回歸模型的應用場景有限,將這些稀疏模型向COX比例風險回歸模型、Tobit模型和Probit模型等其它統計模型推廣是必要的,現在該方向仍然有大量工作需要進一步完成。第二,對稀疏模型統計性質的理論分析。很多稀疏模型通過實驗驗證了其變量選擇的準確性,但尚缺乏變量選擇一致性和參數估計一致性等理論分析方面的支撐,例如PEN SVM的變量選擇一致性和參數估計一致性尚未被研究。另外,已有學者給出了Group Lasso等稀疏模型實現一致性等統計性質需要的假設條件,但這些已知條件較為復雜,如何對其進行簡化值得探究。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩美毛片| 国内精自视频品线一二区| 国产在线无码一区二区三区| 国产丝袜啪啪| 欧美影院久久| 久夜色精品国产噜噜| 91麻豆精品国产91久久久久| 精品一區二區久久久久久久網站| 亚洲一区免费看| 午夜日本永久乱码免费播放片| 亚洲精品制服丝袜二区| 国产乱子伦精品视频| 午夜福利在线观看成人| 日韩精品成人在线| 国产精品va免费视频| 在线观看亚洲天堂| 亚洲天堂啪啪| 青青草一区二区免费精品| 亚洲欧美日韩视频一区| 国产JIZzJIzz视频全部免费| 午夜视频免费一区二区在线看| 在线免费亚洲无码视频| 色综合久久久久8天国| 精品一区国产精品| 成年女人a毛片免费视频| 一本大道香蕉高清久久| 日本不卡在线视频| 国产va在线| 另类欧美日韩| 国产女同自拍视频| 日本三级欧美三级| 中文字幕乱妇无码AV在线| 99草精品视频| 波多野结衣的av一区二区三区| 91高清在线视频| 久久久无码人妻精品无码| 少妇被粗大的猛烈进出免费视频| 国产精品va| 国产精品露脸视频| 999国产精品永久免费视频精品久久| 日韩毛片在线视频| 国产欧美日韩在线在线不卡视频| 人妻21p大胆| 日韩123欧美字幕| 精品一区二区三区中文字幕| 99re这里只有国产中文精品国产精品 | 综合亚洲网| 久久综合色天堂av| 日本影院一区| 欧美日韩综合网| 亚洲热线99精品视频| 99在线小视频| 91精品啪在线观看国产91| 久草视频精品| 97影院午夜在线观看视频| 久久精品视频一| 911亚洲精品| 亚洲一区二区精品无码久久久| 精品福利视频网| 欧美日韩国产在线播放| 老司机午夜精品网站在线观看| 黄色网址免费在线| 国产视频一区二区在线观看| 97se亚洲综合在线天天| 国产原创第一页在线观看| 日本免费高清一区| 亚洲欧美人成电影在线观看| 成人无码一区二区三区视频在线观看| 国产精品无码翘臀在线看纯欲| 中日韩一区二区三区中文免费视频| 成人免费网站久久久| 亚洲一区二区三区中文字幕5566| a级毛片免费看| 国产理论精品| 在线看国产精品| 欧美区国产区| 国产精品私拍在线爆乳| 激情爆乳一区二区| 日本亚洲国产一区二区三区| 久久综合结合久久狠狠狠97色| 亚洲AV无码久久精品色欲| 91麻豆久久久|