包芳 殷柯欣
摘?要:特征選擇算法是一種極為重要的數據處理方法,能夠有效解決維數災難問題,也能夠實現模型的可理解優化。當前階段,對于特征選擇算法的研究日漸增多,其研究取得了階段性進展。本文就特征選擇算法的研究情況進行分析,希望可以為特征選擇算法的研究提供借鑒。
關鍵詞:特征選擇算法;研究進展;研究熱點
特征選擇是非常常見的一種數據降維方法,它要求我們從原始特征集中來挑選出評估標準最佳的特征子集。這種方法是通過評選準則來選取最小的特征子集,來幫助我們把任務更好的進行歸類、回歸,提高算法的泛化能力,這樣也有助于人們對于模型的理解。特征選擇算法可以最大限度的降低學習中錯誤的發生。所以特征選擇算法實質上就是對搜索達到最優或者次優子集的優化問題。我們可以通過選擇特征的過程,把那些與任務關系不大的特征去除。通常相對簡單的數據集其產生的模型會更為精準,在理解上也更容易被人們接受。
一、最優算法研究
盡最大努力來進行搜索工作就是一種最直接的優化方法。毛勇在《特征選擇算法研究綜述》中表示,通常來講,特征選擇的方法可以被認為是一種搜索尋優的問題。是我們在大小是n的特征集合當中,搜索空間由2n種可能狀態構成。即使特征數目比較低,具備較大搜索空間,倘若當n=20,220個為搜索狀態,再對特征評估過程開銷進行考量,在具體運用過程中,針對存在比較多特征數目條件,一般情況下,不可以運用窮盡式搜索。
二、隨機搜索研究
任雙橋、傅耀文、黎湘等人在《基于分類間隔的特征選擇算法》中對隨機搜索法研究表示,通常會對概率或者取樣處理方法進行運用,最具代表性的當屬Relief方法和其幾種變體。在特征選擇領域中,遺傳算法的應用范圍在不斷擴大。近段時間,全新的全局優化算法,就是遺傳算法,其對生物遺傳學觀點進行了借用,利用一些作用機制,例如:時晨曦、張敏情在《基于改進增強特征選擇算法的特征融合圖像隱寫分析》就自然選擇、變異、遺傳等進行詳盡陳述,來提高所有個體的適應性。利用這一點,能夠將大自然“物競天擇,適者生存”的進化過程表現出來。通過遺傳算法,在對有關問題進行解決的過程中,針對需要解決問題的模型結構與參數,應當開展相關編碼工作,通過字符串,將其表示出來,促使問題變得符號化與離散化。
三、啟發算法研究
對于啟發式搜索策略而言,最具代表性的主要包括序列前進法與序列后退法兩種。所謂的序列前進法指的是,集合開始于空集C,依據評價標準,每一步根據相關順序,由特征全集D中,將最好的特征選擇,并加入C集合中,直至對停止條件符合。所謂的序列后退法指的是,集合開始于特征空集D,每一步都會將一個具備最小影響的特征去除,一直到與停止條件符合。將序列前進法與序列后退法聯系起來,促進了“plus-l-take away-r”方法的產生,該方法開始于空集C,通過序列前進法,各個步驟將l個特征,增加至C中,之后通過序列后退法,r個特征減去。該方法的推廣就是浮動序列前進法與浮動序列后退法,相關算法會自主生成l與r的值。局部考慮通常是啟發式策略的基礎,要想對全局優化方法進行獲取,其存在很大難度。
四、子集評價研究
對于所有評價策略而言,都可以劃分為過濾式與包裝式兩類。在對特征子集進行選擇的過程中,相比較于包裝式方法,過濾式方法具備更高計算效率。由于在對特征子集進行驗證的過程中,關于使用特征方面,無需學習器的輔助,就能開展相關驗證工作,但是也有可能不能夠將最優的特征子集挑選出來。與之相反,關于包裝式方法方面,能夠以相關訓練活動為依托,利用學習器的表現情況,來對特征子集進行挑選,然后,通過訓練好的學習器,開展相關驗證工作,這樣能夠實現相關效果的提升。雖然這一過程所花費的時間比較長,但是所獲取的特征子集能夠與分類器需求相符合。當前,關于應用率較高的過濾式評價策略方面,主要包括四種,即基于距離的檢驗方法、基于信息的驗證方法、基于獨立性的檢驗方法與基于一致性的檢驗方法。
五、結語
自上世紀90年代以來,在Web文檔處理、基因分析與藥物診斷等領域中,特征選擇的研究范圍變得更加廣泛,進一步擴大了相關應用。現代社會信息處于高速發展階段,人類所面臨的數據不僅數量在急劇增長,其形式也變得更加多樣化,為了能夠滿足社會需要,需要對更好的特征選擇算法進行設計。通過相關特征選擇,能夠使維數災難問題得到妥善處理,促進算法泛化能力的提高,實現模型可理解性的提升。
參考文獻:
[1]謝琪,徐旭,程耕國,陳和平.新的森林優化算法的特征選擇算法[J].計算機應用,2019(10):1-7.
[2]扈曉君,康寧.基于特征選擇的SVM選擇性集成學習方法[J].電子技術與軟件工程,2019(18):143-144.
[3]孫艷歌,邵罕,楊艷聰.基于代價敏感不平衡數據流分類算法[J].信陽師范學院學報(自然科學版),2019(10):1-5.
[4]李克文,謝鵬,路慎強.基于不平衡數據類分布學習的特征選擇方法[J].計算機與數字工程,2019,47(09):2257-2261+2272.
[5]高薇,解輝.基于粗糙集與人工蜂群算法的動態特征選擇[J].計算機工程與設計,2019,40(09):2697-2703.
作者簡介:包芳(1994-),女,漢族,河南周口人,在校研究生,計算機技術專業。
通訊作者:殷柯欣(1975-),女,漢族,吉林長春人,博士,教授,研究方向:網絡安全。