999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鄰域互信息的三支特征選擇

2022-11-20 13:57:26卓永泰董又銘
關(guān)鍵詞:特征

卓永泰,董又銘,高 燦

1.深圳大學(xué) 計(jì)算機(jī)與軟件學(xué)院,廣東 深圳 518060

2.廣東省智能信息處理重點(diǎn)實(shí)驗(yàn)室(深圳大學(xué)),廣東 深圳 518060

現(xiàn)實(shí)問題數(shù)據(jù),如文本語音或圖像,通常包含較多的特征,然而過多的特征將導(dǎo)致計(jì)算速度慢、可解釋性差和模型過擬合等問題。特征選擇能在保持?jǐn)?shù)據(jù)的分類能力不變的條件下有效去除數(shù)據(jù)的冗余和不相關(guān)特征,因此成為機(jī)器學(xué)習(xí)、模式識(shí)別和數(shù)據(jù)挖掘的重要預(yù)處理過程[1]。

互信息是一種有效的不確定性度量方法,其能夠依據(jù)變量的概率分布,來衡量變量間互相依賴的程度。傳統(tǒng)互信息主要適用于度量離散型隨機(jī)變量,而現(xiàn)實(shí)中往往存在大量連續(xù)型變量,需對(duì)連續(xù)型變量離散化,然而離散化將造成原始數(shù)據(jù)的信息損失。針對(duì)該問題,Hu等[2]提出了鄰域互信息概念,能直接處理連續(xù)型特征。Liu等[3]將鄰域互信息與粒子群優(yōu)化算法結(jié)合,獲得了更好的特征選擇效果。Lin等[4]在一般鄰域互信息的基礎(chǔ)上拓展了三種適用于多標(biāo)簽學(xué)習(xí)的鄰域互信息。Wang等[5]基于鄰域互信息,提出了一種對(duì)標(biāo)簽缺失數(shù)據(jù)進(jìn)行多標(biāo)簽特征選擇的算法。Liu等[6]提出了局部鄰域互信息概念。Sun等[7]將多標(biāo)簽ReliefF和鄰域互信息結(jié)合,提高了特征選擇算法的穩(wěn)定性和預(yù)測(cè)精度。

雖然以上方法利用鄰域互信息獲得了較好的特征選擇效果,但均采用了貪婪策略。貪婪策略并不能保證找到一個(gè)最小的特征子集,其搜索過程有可能向著更大的特征子集的方向發(fā)展。三支決策理論[8-9]是一種處理不確定信息的有效方法,在不確定決策及近似推理中有著重要的應(yīng)用。李嫻等[10]將三支決策理論應(yīng)用于圖神經(jīng)網(wǎng)絡(luò)推薦算法,提高了推薦質(zhì)量。胡峰等[11]將三支決策理論應(yīng)用于不平衡數(shù)據(jù)過采樣,有效解決了不平衡數(shù)據(jù)的二分類問題。本文將三支決策思想引入特征選擇,以達(dá)到原始特征的鄰域互信息為迭代終止條件,利用鄰域互信息度量迭代,拓展生成三個(gè)具有差異性的特征子集,以保證特征選擇有更大的機(jī)會(huì)選擇到最優(yōu)特征子集。同時(shí)對(duì)三個(gè)特征子集進(jìn)行集成,構(gòu)建了三支協(xié)同決策模型,以獲得更好的分類學(xué)習(xí)效果。UCI實(shí)驗(yàn)結(jié)果顯示了模型的有效性。

1 基本知識(shí)

1.1 互信息

假設(shè)離散隨機(jī)變量為A={a1,a2,…,an},記p(ai)為A=ai發(fā)生的概率,則A的信息熵為:

假設(shè)兩離散隨機(jī)變量為A={a1,a2,…,an},B={b1,b2,…,bm},記p( ai,bj)為A=ai,B=bj同時(shí)發(fā)生的概率,則A、B的聯(lián)合熵為:

已知變量B的取值,A的條件熵為:

A和B的互信息為:

1.2 鄰域粗糙集

給定樣本集合U={ x1,x2,…,xn},xi∈RN,Δ表示為RN上的距離,通常使用歐氏距離。對(duì)于U上的任意樣本xi,其δ鄰域定義為:

如δ()xi中的所有樣本決策值都相同,則xi在δ鄰域內(nèi)一致,否則稱為不一致樣本。

給定鄰域決策信息系統(tǒng)NDS=(U,C?D,δ),假設(shè)決策特征D將U劃分為m個(gè)等價(jià)類D1,D2,…,Dm,則決策類Dj相對(duì)于條件特征集合C的鄰域下近似和上近似分別表示為:

則所有決策類的下近似和上近似分別為:

邊界為:

由于NC()D=U,當(dāng)決策特征D的下近似越大,邊界越小,當(dāng)前所選的特征子集S?C則可以更加精確地描述此分類任務(wù)。因此可將定義為決策特征D對(duì)特征子集S的依賴度,依賴度越大,說明特征子集S的描述能力越強(qiáng)。

1.3 鄰域互信息

給定鄰域決策信息系統(tǒng)NDS=(U,C?D,δ),特征子集S的鄰域熵表示為:

給定另一特征子集R,聯(lián)合鄰域熵表示為:

已知特征子集S、R的條件鄰域熵表示為:

R、S的鄰域互信息表示為:

2 基于鄰域互信息的三支特征選擇

首先闡述啟發(fā)式鄰域互信息特征選擇策略存在的問題,其次描述利用三支決策的思想進(jìn)行特征選擇方法。

2.1 啟發(fā)式特征選擇

由于求取最小子集是NP難題,一般采用啟發(fā)式搜索算法獲取特征子集。文獻(xiàn)[2]設(shè)計(jì)了MD策略,其啟發(fā)式特征評(píng)價(jià)函數(shù)是:

其中,C為初始特征集合,S為已選擇的特征子集,D為決策特征,f為一個(gè)候選特征。

特征選擇的目的是在保持特征子集的描述能力的條件下,獲取具有最少特征的特征子集。MD采用貪心策略即每一步添加一個(gè)使得Ψ最大的候選特征,使特征子集與類別的互信息盡量快速地增加,其搜索只能保證局部最優(yōu)。選擇的特征子集可能偏大且存在冗余,特征子集的質(zhì)量難以保證。

2.2 基于三支決策的特征選擇

為了盡量避免貪心策略帶來的問題,使特征子集在整體上更優(yōu),本文提出了基于三支決策的特征選擇策略。

在三支搜索中,一般每一層保持有3個(gè)特征子集,由它們分別生成排序前三的新特征子集,合計(jì)9個(gè)候選的特征子集。然后從這9個(gè)特征子集中再選擇排序前三,并且約束它們不來源于同一分支,以此作為下一層的3個(gè)特征子集。三支特征選擇最終將生成3個(gè)較優(yōu)的特征子集。

特征選擇并生成后繼的方法如式:

其中,C為條件特征集合,i表示分支的序號(hào),則Si表示第i個(gè)分支已選擇的特征,fi表示第i分支的候選特征。

三支特征選擇的思路如圖1所示。圖中的圓形結(jié)點(diǎn)表示一個(gè)特征子集。實(shí)線箭頭指向的結(jié)點(diǎn)表示該特征子集將繼續(xù)拓展,虛線箭頭指向的結(jié)點(diǎn)表示該特征子集不拓展。結(jié)點(diǎn)G表示該特征子集已經(jīng)達(dá)到了停止條件。

三支特征選擇算法的具體描述如下:

算法1基于三支決策的特征選擇

輸入:鄰域決策信息系統(tǒng)NDS=U,C?D,δ,分支的數(shù)目w=3。

輸出:redlist-子集列表。

1.計(jì)算NMI( )

F;D,生成空列表Queue

2.從初始特征集F中選擇NMI前三大的特征分別構(gòu)成大小為1的3個(gè)特征子集,放入redlist

3.對(duì)redlist的尾部w個(gè)特征子集中的每一個(gè)特征子集S:

如果NMI(S;D)≥NMI(F;D),轉(zhuǎn)步驟3.1;否則,轉(zhuǎn)步驟3.2

/*判斷特征子集是否滿足終止條件*/

3.1 將S移至redlist的頭部,w=w-1;如果w為0,輸出redlist

3.2 由S生成Ψ前三大的特征子集,放入Queue,將S從redlist中移除

4.從Queue中找到w個(gè)Ψ最大的不源自同一支的特征子集,放入redlist尾,清空Queue隊(duì)列,轉(zhuǎn)步驟3

算法首先從空集?開始,選擇NMI值前三大的特征構(gòu)成大小為1的特征子集。其次測(cè)試當(dāng)前各特征子集是否滿足終止條件,如果滿足條件則將該特征子集加入redlist;不滿足的特征子集分別拓展其Ψ最大的3個(gè)特征,合計(jì)形成w×3個(gè)新的特征子集。然后從這些特征子集中選擇Ψ最大的w個(gè)特征子集。為了保持差異性,算法約束w個(gè)特征子集不能來自同一個(gè)分支。算法不斷迭代以上過程,以達(dá)到原始特征的鄰域互信息為分支迭代終止條件,直到獲得3個(gè)滿足條件的特征子集。

設(shè)數(shù)據(jù)集有N個(gè)初始特征。在第k輪,一個(gè)特征子集已經(jīng)選擇了k個(gè)特征,計(jì)算剩余的N-k個(gè)特征的Ψ帶來的時(shí)間復(fù)雜度為O( )N-k。那么在最壞情況下,即所有特征都被選取的情況下,一個(gè)特征子集的總復(fù)雜度為,3個(gè)特征子集的總復(fù)雜度近似為O(N2)。

在獲得3個(gè)特征子集后,將3個(gè)特征子集分別構(gòu)建同質(zhì)學(xué)習(xí)器,形成三支協(xié)同決策模型,以獲得更好的學(xué)習(xí)性能。

3 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集和參數(shù)設(shè)置

實(shí)驗(yàn)選用了12個(gè)UCI數(shù)據(jù)集,具體信息如表1所示。其中,有6個(gè)連續(xù)型數(shù)據(jù)集,2個(gè)離散型數(shù)據(jù)集,4個(gè)混合型數(shù)據(jù)集。在“特征數(shù)”一列中,括號(hào)內(nèi)的數(shù)值表示連續(xù)型特征的數(shù)量。在實(shí)驗(yàn)中,對(duì)連續(xù)特征進(jìn)行歸一化,離散特征則進(jìn)行數(shù)值化預(yù)處理。有3個(gè)數(shù)據(jù)集包含有缺失值,對(duì)于連續(xù)型特征采用均值填充,離散型特征用眾數(shù)補(bǔ)全。

表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental data sets

所有實(shí)驗(yàn)采用10次隨機(jī)10折交叉驗(yàn)證方法,實(shí)驗(yàn)的平均結(jié)果作為數(shù)據(jù)集的最終性能。

根據(jù)文獻(xiàn)[2]實(shí)驗(yàn)結(jié)果,基于鄰域互信息的方法在鄰域半徑取值[0.1,0.2]時(shí)提取的特征子集較好,本實(shí)驗(yàn)鄰域半徑采用中間值0.15。因?yàn)镹MI度量隨著特征的添加不具備單調(diào)性,所以設(shè)置算法停止條件為:特征子集的NMI大于等于初始特征集合的NMI時(shí)。根據(jù)文獻(xiàn)[12]的分析,NRS模型采用鄰域半徑0.125較優(yōu),因此實(shí)驗(yàn)中NRS模型采用的鄰域半徑參數(shù)為0.125。當(dāng)最優(yōu)重要度非正時(shí),停止拓展,表示算法找到了目標(biāo)的特征子集。

3.2 特征選擇分析

在所選數(shù)據(jù)集上的特征提取結(jié)果如表2所示。在表2中,第2列表示原始數(shù)據(jù)集的特征數(shù)量,第3列表示NRS算法得到的特征子集的大小,第4列表示NMI-MD算法得到的特征子集的大小,第5列表示本文算法NMITWD得到的特征子集的大小,第6列NMI-TWD-Best表示本文算法得到的最小的特征子集的大小。第7列展示了NMI-TWD獲得的3個(gè)特征子集,加粗部分表示存在差異的特征。

表2 NMI-MD和NMI-TWD特征提取的結(jié)果Table 2 Results of feature selection of NMI-MD and NMI-TWD

本文提出的NMI-TWD算法在2個(gè)數(shù)據(jù)集中獲得了較NMI-MD更小的特征子集,在6個(gè)數(shù)據(jù)集中獲得了較NRS更小的特征子集。anneal、segment、cardio、family、genus數(shù)據(jù)集的3個(gè)特征子集僅存在特征順序上的差異。

3.3 算法性能對(duì)比分析

各算法所得特征子集分別利用KNN和SVM分類器進(jìn)行實(shí)驗(yàn)。集成學(xué)習(xí)采用Stacking方法[13],其元分類器采用LogisticRegression分類器(最大迭代次數(shù)10 000),LR將3個(gè)初級(jí)分類器輸出的3組預(yù)測(cè)概率水平堆疊在一起,再與原樣本的決策相結(jié)合作為新的樣本進(jìn)行學(xué)習(xí)。當(dāng)初級(jí)分類器為SVM時(shí),通過CalibratedClassifierCV將SVM的預(yù)測(cè)轉(zhuǎn)化為概率形式,再交給元分類器學(xué)習(xí)。算法的性能取10次隨機(jī)10折交叉驗(yàn)證的平均值。

在表3和表4中,第2列表示數(shù)據(jù)集不進(jìn)行特征選擇時(shí)的性能,第5至7列表示在指定分類器下三支特征選擇獲得的各特征子集的性能,第8列表示NMI-TWD算法獲得的3個(gè)特征子集通過集成后的性能。各數(shù)據(jù)集上的最優(yōu)性能加粗表示。另外,各方法在所選數(shù)據(jù)集上的平均性能在表格的“Avg”行顯示。

表3 KNN分類器的分類準(zhǔn)確率Table 3 Classification accuracy using KNN 單位:%

表4 SVM分類器的分類準(zhǔn)確率Table 4 Classification accuracy using SVM 單位:%

從表3和表4可見,NMI-TWD獲得了較NRS和MNIMD更好的分類性能。NMI-TWD基于三支決策的思想,利用鄰域互信息生成了3個(gè)具有一定差異的特征子集。這3個(gè)特征子集獨(dú)立來看,就已經(jīng)與其他方法的特征子集的分類性能相近,甚至有所提高。而這3個(gè)具有差異性的特征子集,可以從不同角度描述數(shù)據(jù)的本質(zhì)信息,對(duì)它們進(jìn)行三支協(xié)同學(xué)習(xí)能夠獲得更好的性能。

NMI-TWD的準(zhǔn)確率在anneal、segment、cardio、family、genus這5個(gè)數(shù)據(jù)集上較NMI-W1、NMI-W2、NMIW3上也有小幅提升。準(zhǔn)確率的提升主要源于Stacking方法集成機(jī)制,其元分類器可以對(duì)初級(jí)分類器難以區(qū)分的決策做進(jìn)一步的區(qū)分。

在KNN分類器下,NMI-TWD在所選的12個(gè)數(shù)據(jù)集中,有9個(gè)獲得了最高的性能。其性能較其他三種方法平均提升約7個(gè)百分點(diǎn)。在8個(gè)數(shù)據(jù)集中,NMI-TWD至少獲得了一個(gè)性能最優(yōu)的特征子集。在SVM分類器下,NMI-TWD在10個(gè)數(shù)據(jù)集中獲得了最高的性能,較其他三種方法平均提升約2.75個(gè)百分點(diǎn)。在6個(gè)數(shù)據(jù)集中,NMI-TWD至少獲得了一個(gè)性能最優(yōu)的特征子集。這說明了本文算法優(yōu)于NRS和NMI-MD,顯示了本文算法的有效性。

4 總結(jié)

本文將三支決策的思想引入基于鄰域互信息的特征選擇,在獲得較優(yōu)的特征子集的同時(shí),通過集成學(xué)習(xí)進(jìn)一步提升了分類性能。UCI數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法在準(zhǔn)確率方面,優(yōu)于現(xiàn)有的鄰域粗糙集和鄰域互信息方法,說明了新方法的有效性。進(jìn)一步將嘗試研究新的連續(xù)特征重要性度量方法,同時(shí)對(duì)三支特征子集引入更好的多樣性,以進(jìn)一步提升三支特征選擇的性能。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 欧美精品在线看| 亚洲第一精品福利| 国产午夜无码片在线观看网站 | 国产精品无码AV片在线观看播放| 九九这里只有精品视频| 久久久久人妻一区精品色奶水 | 人妖无码第一页| 国产全黄a一级毛片| 国模视频一区二区| 日韩精品成人在线| 91www在线观看| 亚洲欧美在线综合一区二区三区| 夜夜爽免费视频| www.亚洲色图.com| 国产一级片网址| 一区二区午夜| 国产人成在线观看| 国产网站一区二区三区| 波多野结衣一级毛片| 91伊人国产| 亚洲久悠悠色悠在线播放| 欧美国产中文| 久久人人97超碰人人澡爱香蕉| 精品国产91爱| 91区国产福利在线观看午夜| 喷潮白浆直流在线播放| Jizz国产色系免费| 88av在线看| 在线观看国产精美视频| 在线观看无码av免费不卡网站| 国产美女主播一级成人毛片| 精品欧美视频| 99久久99视频| 最新午夜男女福利片视频| 欧美综合区自拍亚洲综合天堂| 欧美成人看片一区二区三区| 一级做a爰片久久毛片毛片| 亚洲男人的天堂网| 国产一在线观看| 国产成人精品男人的天堂| 51国产偷自视频区视频手机观看| 福利一区三区| 欧美日韩成人在线观看| 欧美日韩一区二区三区在线视频| 乱人伦99久久| 欧美三级视频网站| 2021天堂在线亚洲精品专区| 国产成人精品优优av| 久久天天躁狠狠躁夜夜躁| 国产成人亚洲毛片| 国产精品自拍合集| 1769国产精品视频免费观看| 亚洲欧美一区二区三区蜜芽| 99热国产这里只有精品9九| 99热这里只有精品在线观看| 国产丝袜精品| 国产欧美日韩18| 欧美国产日韩一区二区三区精品影视| 福利一区在线| 国产成人精品亚洲日本对白优播| 精品福利视频导航| 99ri国产在线| 欧美97色| 亚洲第一色网站| 青青操视频免费观看| 人禽伦免费交视频网页播放| 韩国v欧美v亚洲v日本v| 久久a毛片| 亚洲va欧美va国产综合下载| 91久久偷偷做嫩草影院精品| 亚洲免费三区| 国产欧美视频综合二区| 日韩久草视频| 又大又硬又爽免费视频| 美女一级毛片无遮挡内谢| 国产成人一区二区| 欧美中文字幕在线二区| 99久久精品免费看国产免费软件 | 伊人狠狠丁香婷婷综合色| 色婷婷丁香| av一区二区三区高清久久| 国产一区二区三区视频|