999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

常用的特征篩選方法研究

2020-02-04 07:40:45于娜
科技資訊 2020年36期

于娜

摘 ?要:數據化的信息時代, 人們一直期待能夠將沒有代表性的冗余的特征去除, 從而使獲得的數據是通常由有效的、具有代表性的特征表示的。通過特征篩選去建立一個預測精度高的可解釋模型。正則化下的稀疏模型是識別積極活躍特征的一種流行技術。總體來說,特征篩選目標為: 剔除不具代表性的冗余特征, 識別積極的有效特征; 可解釋性好的高準度預測模型。篩選出有效的特征不僅可以提高計算效率, 還能提高預測模型的精準度。

關鍵詞:安全篩選 ?啟發式篩選方法 ?SASVI 篩選方法 ?DPP篩選方法

中圖分類號:O177.5 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A文章編號:1672-3791(2020)12(c)-0231-03

Research on Common Feature Screening Methods

YU Na*

(Heilongjiang College of Business and Technology, Harbin, Heilongjiang Province,150025 China)

Abstract: In the information age of data, people have been expecting to remove redundant featurethat is not representative, so that the obtained data is generally represented by effective and representative feature. A high-precision prediction is established by feature filtering ?explainable model. The sparse model under regularization is a popular technique for identifying active features. In general, the goal of feature selection is to remove redundant feature that is not representative and identify positive, effective feature high-precision prediction model and good interpretability. Screening out effective features can not only improve the calculation efficiency, but also improve the accuracy of the prediction model.

Key Words: Security screening; Heuristic screening approach; The SASVI approach; The DPP approach

1996年Tibshirani[1]提出了一種基于正則(罰)的Lasso模型,模型如下:

(1)

其中,權重表示模型系數。

特征篩選能夠通過加速計算,降低模型維度成為解決稀疏或結構化稀疏正則化學習模型的重要步驟。針對于LASSO一類的篩選方法[2-6]主要分為啟發式篩選方法和安全篩選方法兩類。啟發式篩選方法無法保證在優化問題的最優解向量中移除都是非積極特征。啟發式篩選方法之一是“強規則”篩選,它基于某種假設推導其篩選規則,并且無法保證該假設總是存在的。而安全篩選方法則能有效地完善這一問題。安全指的就是可以保證剔除的特征都是非積極特征。安全篩選方法通過估測對偶最優解得到篩選規則,估測的值越精確,可以剔除掉的非積極特征越多。一種安全篩選方法是2012年El Ghaoui[3]和他的同事提出的SAFE篩選規則,該方法可以識別在解向量中系數為零的預測變量,進而在優化問題中排除無效的預測變量或特征以減小模型的復雜程度。2013年Wang Jie等人在此基礎上提出了DPP[2]篩選規則,該方法利用對偶問題的可行集是一個閉凸多面體的幾何特性提出的。2014年Liu Jun等人提出的SASVI[5]篩選規則,利用了變分不等式為對偶問題提供優化條件,構建的可行集更加嚴格。篩選規則的關鍵在于如何構造對偶問題的最優解集的可行域,可行域越緊嚴格,越接近精確的對偶最優解,篩選越有效。該文以一類Fused Lasso[2]模型為例,對比這幾類篩選規則。考慮當系數懲罰項的正則參數為零時的模型:

1 ?對偶問題

該文主要研究的是如下優化問題:

其中,表示模型系數,是設計矩陣,為差分矩陣形式如下:

初始問題(3)式,得到對偶問題如下:

相當于對下式進行優化:

(4)

2 ?SASVI篩選規則

下面主要談一談關于可行集建立問題。

定理1 設f( )是一個可微凸函數,C是一個閉凸集,是約束優化問題:

的最優解當且僅當。

對于對偶問題來說,在時,無法通過簡單的運算,求得到對偶最優解。由此,考慮利用定理1中的變分不等式構建一個緊的對偶可行集。可行集如下:

通過分析可知,當參數越靠近,可行集越緊。當 時,有,該可行集為一個單點集里

只含有一個元素。

因為,通過構建的篩選規則:

可以通過下式來估測

(5)

通過計算(3)式得到結果,當結果小于1時,由篩選規則知,有 ? ? ? ? ? 。由此可以識別出相鄰特征中具有相同系數的特征。

3 ?常用的篩選方法

3.1 強規則篩選方法

定理2 設C是一個非空閉凸集,滿足‖Pc(x1)-Pc(x2)‖2≤‖x1-x2‖2,x2,x2∈C,則稱投影映射是連續且非擴張的。

Tibshirani首先提出了利用假設特征和與殘差之間的線性函數對于參數是非擴張的構建了可行集如下。

當時,有:

由此,可以有如下估測:

不難發現,它們都是依賴于前j個特征的和與對偶

變量的內積的絕對值來進行估測的,其中。通過對可行域的估測發現,強規則方法的估測的域要更松、更大,并且無法保證該規則安全,即篩除的特征都是沒有代表性的冗余特征。為了保證篩選的準確性后續也提出了用KKT方法進行修正,但也需要反復地去削弱條件,增加了計算的復雜度。

3.2 SAFE篩選方法

令,該方法利用的是一種對偶標準去估測模型上界,有

通過求解上式,可以得到

最優解

將該方法構建的可行集與SASVI篩選規則比較如下:

令θ=s*θ1*有變分不等式有

通過對比兩篩選規則知,SAFE所定義的球域是包大于SASVI所定義的區域的,相對于SASVI的可行域,該區域要更松弛。

3.3 DPP篩選方法

該方法是將初始優化問題的對偶問題表述成一個投影問題,該方法是投影算子非擴張性的直接應用。

由于,

所以有,

該方法利用了投影算子在閉凸多面體上的性質,為Lasso模型帶來了新的篩選規則,該方法優點是可以推廣到Group Lasso、Fused Lasso等模型上去。適用的模型多,極大地提高了計算效率。與SASVI比較可知,該方法構建的可行集不等式可由SASVI的不等式放縮得到,比SASVI 的可行集松弛。

4 ?結語

該文系統地介紹了常用的特征篩選方法的篩選規則,通在理論上說明了這幾種篩選規則的優缺點, 其中有利用假設構建篩選規則的方法,也有利用投影算子在幾何上的具體應用對可行集進行構建的方法, 在文中將這幾種方法分別進行了討論。可以看出, SASVI篩選規則估測的可行集可以更加緊,估測的對偶問題最優解更為精確, 該篩選規則在排除特征方面更有效。DPP方法可以適用更多的模型,特征篩選也被廣泛地應用到各個領域[6]。

參考文獻

[1] rob.Tibshirani.Regression Shrinkage and Selection Via the Lasso[J].journal of the royal statistical society.series b:methodological,1996,58(1):267-288.

[2] wang jie,fan wei,ye jieping.Fused Lasso Screening Rules via the Monotonicity of Subdifferentials[J].IEEE transactions on pattern analysis and machine intelligence,2015, 37(9):1806-1820.

[3] lauren el ghaoui,vivien viallon,tarek robbani.Safe Feature Elimination in Sparse Supervised Learning[J].pacific journal of optimization,2012(8): 667-698.

[4] 張環.Fused-LASSO懲罰最小一乘回歸的統計分析與優化算法[D].北京交通大學,2016.

[5] Lu Jianhui,Li Yachao,Chen Shaonan. Degrees of freedom in lasso problems[J]. Open Access Library Journal,2016,3(3):1-10.

[6] nataliya. Sokolovska,yann. Chevaleyre, karine. Clement,et al. The Fused Lasso Penalty for Learning Interpretable Medical Scoring Systems[c]//2017 international joint conference on neural networks lijcnn.2017.

[7] 孫健.淺談計算計工程設計中數據的挖掘特征以及相關算法[J].科技資訊,2018,16(31):30,32.

[8] MA Chi,huang Jian. Asymptotic properties of Lasso in high-dimensional partially linear models[J].science china cmathemati-cs,2016,59(4):769-788.

主站蜘蛛池模板: 日韩中文精品亚洲第三区| 五月婷婷亚洲综合| 国产成a人片在线播放| 国模视频一区二区| 国产国产人成免费视频77777 | 国产精品一区二区国产主播| 亚洲黄色网站视频| 精品三级网站| 激情無極限的亚洲一区免费| 伊人五月丁香综合AⅤ| 亚洲日韩AV无码一区二区三区人| 国产九九精品视频| 香蕉久久国产超碰青草| 亚洲欧美另类视频| 午夜啪啪网| 91伊人国产| 一本大道在线一本久道| 中文字幕伦视频| 国产精品自在在线午夜| 国产精品久久精品| 精品人妻无码中字系列| 欧美国产日韩在线观看| 国产精品丝袜视频| 日韩精品一区二区深田咏美| 欧美成人aⅴ| 国产福利大秀91| 国产精品国产三级国产专业不| 午夜无码一区二区三区在线app| 亚洲天堂久久| 国产高清不卡视频| 尤物精品视频一区二区三区| 尤物特级无码毛片免费| 高h视频在线| 国产在线拍偷自揄观看视频网站| 欧美第九页| 精品福利网| 久久成人免费| 日日拍夜夜操| 国产资源免费观看| 色偷偷av男人的天堂不卡| 亚洲视频免| 九月婷婷亚洲综合在线| 好久久免费视频高清| 久久精品国产在热久久2019| 久久精品一品道久久精品| 国产97视频在线观看| 在线观看欧美精品二区| 国产又大又粗又猛又爽的视频| 亚洲va视频| 亚洲国产精品成人久久综合影院| 高清精品美女在线播放| 性色在线视频精品| 亚洲成人www| 国产精品自在在线午夜| 成人日韩视频| 天堂成人在线| 在线观看国产精美视频| 免费视频在线2021入口| 青青久视频| 在线不卡免费视频| 国产屁屁影院| 日韩一区二区三免费高清| 国产一级妓女av网站| 亚洲三级色| 精品成人一区二区| 亚洲综合极品香蕉久久网| 欧美高清国产| 手机成人午夜在线视频| 九九热在线视频| 亚洲 日韩 激情 无码 中出| 欧美日韩国产成人在线观看| 欧美人在线一区二区三区| 亚洲精品午夜无码电影网| 国产精品亚欧美一区二区| 五月天久久综合国产一区二区| 亚洲精品天堂在线观看| 久久人体视频| 91极品美女高潮叫床在线观看| av色爱 天堂网| 扒开粉嫩的小缝隙喷白浆视频| 99久久精彩视频| 国产在线视频导航|