999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合遺傳算法與互信息分析的高維小樣本特征選擇

2020-01-14 06:34:32姚樹春
關(guān)鍵詞:特征

姚樹春 劉 正,2 張 強(qiáng)

1(蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院信息工程學(xué)院 江蘇 蘇州 215123)2(蘇州大學(xué)電子信息學(xué)院 江蘇 蘇州 215006)3(蘇州邁科網(wǎng)絡(luò)安全技術(shù)股份有限公司 江蘇 蘇州 215123)

0 引 言

特征選擇是許多實(shí)際應(yīng)用問(wèn)題的預(yù)處理步驟,能夠有效地降低數(shù)據(jù)的維度與計(jì)算復(fù)雜度。在微陣列分析、文本分類[1]、人臉識(shí)別[2]、多標(biāo)簽學(xué)習(xí)和網(wǎng)絡(luò)流量分類[3]等問(wèn)題中,數(shù)據(jù)集具有維度高、樣本量少和類別數(shù)少的特點(diǎn)。傳統(tǒng)分類方法對(duì)于此類數(shù)據(jù)的性能較差,容易出現(xiàn)過(guò)擬合的問(wèn)題,導(dǎo)致無(wú)法完成有效的分類或識(shí)別[4]。特征選擇算法選出判別力強(qiáng)的特征子集,刪除不相關(guān)特征和冗余特征,提高分類器的效果。

特征選擇是高維小樣本數(shù)據(jù)分析的關(guān)鍵步驟,現(xiàn)有的特征選擇算法主要可分為4種類型,分別為:過(guò)濾式方法、封裝式方法、嵌入式方法和集成式方法[5]。不同類型的特征選擇方法均具有不同的優(yōu)點(diǎn)與缺點(diǎn),例如:過(guò)濾式方法具有時(shí)間效率高、可擴(kuò)展性好和可解釋性強(qiáng)的優(yōu)點(diǎn),但也存在分類準(zhǔn)確率不足、特征冗余度高的缺點(diǎn)[6]。為了解決高維小樣本數(shù)據(jù)特征選擇方法的不足之處,許多專家提出了新的解決方案。文獻(xiàn)[7]針對(duì)Relief算法特征冗余度高的問(wèn)題,通過(guò)隨機(jī)森林算法選出模型準(zhǔn)確率高的特征子集,再通過(guò)域粗糙集對(duì)連續(xù)的特征進(jìn)行尋優(yōu),該算法有效地降低了特征子集的冗余度,但是其分類準(zhǔn)確率依然不高。文獻(xiàn)[8]以高維小樣本的安全數(shù)據(jù)分類作為研究目標(biāo),利用最小二乘支持向量機(jī)易于求解的特點(diǎn)構(gòu)造分類器,以分類的準(zhǔn)確率作為文化基因算法的適應(yīng)度函數(shù),該算法對(duì)于不同的模式數(shù)量表現(xiàn)出不穩(wěn)定的分類性能?;バ畔?Mutual Information, MI)是信息領(lǐng)域的概念,度量了某個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量的信息量,表示兩個(gè)隨機(jī)變量間的相關(guān)性。文獻(xiàn)[9]利用信息熵度量特征間的獨(dú)立程度和冗余程度,充分考慮了特征子集中不同特征間的多變量關(guān)系,研究表明互信息能夠有效地降低特征之間的冗余度,提高特征選擇的效率。文獻(xiàn)[10]提出一種基于核互信息的彈性特征選擇方法,研究表明互信息在刪除不相關(guān)特征與冗余特征上的顯著效果,但該文獻(xiàn)同時(shí)認(rèn)為互信息對(duì)于不同數(shù)據(jù)分布的穩(wěn)定性較差。將互信息應(yīng)用于高維小樣本數(shù)據(jù)特征的選擇問(wèn)題已成為當(dāng)前該領(lǐng)域的一個(gè)研究方向,其中大多數(shù)方案直接將特征與類別的互信息作為特征的評(píng)價(jià)指標(biāo)[11-12],通過(guò)不同的人工智能算法做尋優(yōu)處理[13],然后選出排名較高的特征子集。

本文對(duì)互信息和特征選擇問(wèn)題進(jìn)行了深入分析,給出了特征選擇問(wèn)題的互信息目標(biāo)函數(shù)和約束條件,并且基于互信息將特征分為4個(gè)子類型,分別為:不相關(guān)特征、冗余特征、相關(guān)特征和完全相關(guān)特征。在迭代選擇特征子集的過(guò)程中,刪除冗余特征,選擇完全相關(guān)特征,保留不相關(guān)特征和相關(guān)特征做進(jìn)一步篩選。及時(shí)選出完全相關(guān)特征、刪除冗余特征不僅有助于減少這兩種特征對(duì)后續(xù)特征處理的干擾,并且也能夠提高特征選擇處理的計(jì)算效率。

高維小樣本數(shù)據(jù)大多存在多個(gè)維度的屬性,例如:基因微陣列數(shù)據(jù)包括基因表達(dá)譜數(shù)據(jù)和甲基化位點(diǎn)數(shù)據(jù),網(wǎng)絡(luò)流量數(shù)據(jù)包括網(wǎng)絡(luò)日志數(shù)據(jù)和網(wǎng)絡(luò)監(jiān)控的實(shí)時(shí)數(shù)據(jù)。為了充分利用數(shù)據(jù)集不同角度的屬性數(shù)據(jù),提出了混合的遺傳算法,確定主種群和次種群,在每次迭代中利用次種群的結(jié)果引導(dǎo)主種群的演化,從而緩解小樣本數(shù)據(jù)帶來(lái)的過(guò)擬合問(wèn)題。

1 信息熵與互信息

1.1 信息熵

設(shè)P(A)表示A的概率。

定義1離散隨機(jī)向量X的熵定義為:

(1)

給定一個(gè)離散隨機(jī)向量Y,X對(duì)于Y的條件熵為:

P(Y=y)lnP(X=x|Y=y)

(2)

X的熵依賴向量的概率,并不依賴向量的具體值。式(1)中各個(gè)項(xiàng)均為非負(fù)項(xiàng),所以信息熵也是非負(fù)。

根據(jù)定義1可推導(dǎo)出連接規(guī)則:

(3)

式(3)中的隨機(jī)向量序列(X1,X2,…,Xn)和(Xi-1,Xi-2,…,X1)為集成多個(gè)元素的隨機(jī)向量。

1.2 差分熵

為了將信息熵應(yīng)用于連續(xù)隨機(jī)向量數(shù)據(jù),將離散隨機(jī)向量的概率函數(shù)替換為連續(xù)隨機(jī)向量的概率密度函數(shù),將該情況的熵稱為差分熵。設(shè)fX表示一個(gè)連續(xù)隨機(jī)向量X的概率密度函數(shù)。

定義2連續(xù)隨機(jī)向量X的差分熵定義為:

(4)

給定一個(gè)連續(xù)隨機(jī)向量Y,根據(jù)連接規(guī)則,(X,Y)也是連續(xù)向量,X對(duì)于Y的條件差分熵為:

(5)

1.3 互信息

互信息度量了兩個(gè)隨機(jī)向量之間的線性關(guān)系和非線性關(guān)系。

1.3.1離散數(shù)據(jù)

定義3兩個(gè)離散隨機(jī)向量X與Y之間的MI定義為:

MI(X,Y)=

MI具有如下屬性:

MI(X,Y)=H(X)-H(X|Y)

(6)

MI(X,Y)≥0

(7)

MI(X,X)=H(X)

(8)

式(7)成立的條件是當(dāng)且僅當(dāng)X與Y均為獨(dú)立的隨機(jī)向量。根據(jù)式(3)可獲得:

MI(X,Y)=H(X)+H(Y)-H(X,Y)

(9)

根據(jù)式(6)可獲得另一個(gè)重要的屬性:

MI(X,Y)≤min(H(X),H(Y))

(10)

觀察式(6)和式(7),可知對(duì)于任意的隨機(jī)向量X和Y,有:

H(X|Y)≤H(X)

(11)

式中:X與Y是兩個(gè)隨機(jī)向量。

1.3.2連續(xù)數(shù)據(jù)

定義4X與Y是兩個(gè)絕對(duì)連續(xù)的隨機(jī)向量,那么(X,Y)也是絕對(duì)連續(xù)的隨機(jī)向量,從而可得:

MI(X,Y)=

連續(xù)隨機(jī)向量的MI屬性對(duì)于離散數(shù)據(jù)也成立。

1.3.3連續(xù)隨機(jī)向量和離散隨機(jī)向量的互信息

定義5連續(xù)隨機(jī)向量X和離散隨機(jī)向量Y之間的MI定義為:

對(duì)于定義5的情況,離散數(shù)據(jù)的大多數(shù)屬性依然成立,式(6)的屬性可改寫為:

MI(X,Y)=h(X)-h(X|Y)

(12)

MI(X,Y)=H(Y)-H(Y|X)

(13)

因?yàn)镠(X|Y)為非負(fù)值,所以可基于式(13)計(jì)算MI(X,Y)的上界。

1.4 三元互信息與條件互信息

討論三個(gè)隨機(jī)向量之間的三元互信息(Triple Mutual Information,TMI),高維數(shù)據(jù)特征選擇問(wèn)題的目標(biāo)函數(shù)與TMI具有直接的關(guān)系。

1.4.1條件互信息

定義6兩個(gè)隨機(jī)向量X與Y對(duì)于隨機(jī)向量Z的條件MI定義為:

MI(X,Y|Z)=H(X|Z)-H(X|Y,Z)

(14)

基于式(14)與連接規(guī)則將條件熵定義為:

MI(X,Y|Z)=

H(X|Z)+H(Y|Z)-H(X,Y|Z)

(15)

參考定義6和定義3可獲得以下關(guān)系:

(16)

考慮式(7)和式(16),可獲得以下關(guān)系:

MI(X,Y|Z)≥0

(17)

由式(14)和式(17)可得出以下的關(guān)系:

H(X|Y,Z)≤H(X|Z)

(18)

1.4.2三元互信息TMI

在高維數(shù)據(jù)的特征選擇問(wèn)題中,三元互信息具有重要的意義。

定義7三個(gè)隨機(jī)向量X、Y和Z之間的三元互信息TMI定義為:

根據(jù)MI和TMI的定義,可獲得以下關(guān)系:

TMI(X,Y,Z)=MI(X,Y)-MI(X,Y|Z)

(19)

2 基于互信息的特征選擇問(wèn)題

2.1 特征選擇的目標(biāo)函數(shù)

設(shè)С為類別,S(F)為某次迭代所選擇的特征子集。所有的輸入特征集均具有屬性:S∪F,S∩F=?。特征選擇的目標(biāo)是從一個(gè)給定特征集中選出一個(gè)候選特征子集Xj∈F,表示為:

(20)

式中:Xj為F的一個(gè)特征;Xi使特征與類的相關(guān)性最大。

2.1.1目標(biāo)函數(shù):最大化互信息

因?yàn)镸I(С,S∪{Xi})=MI(С,S)+MI(С,Xi|S),所以候選特征Xi的評(píng)價(jià)方法定義為:

OF(Xi)=MI(С,S)+MI(С,Xi|S)=

MI(С,S)+MI(С,Xi)-TMI(С,Xi,S)=

MI(С,S)+MI(С,Xi)-MI(Xi,S)+MI(Xi,S|С)

(21)

特征選擇算法通過(guò)優(yōu)化技術(shù)逼近該目標(biāo)函數(shù)。因?yàn)轫?xiàng)MI(С,S)不依賴Xi,所以可將逼近關(guān)系轉(zhuǎn)化為簡(jiǎn)化的目標(biāo)函數(shù)形式:

OF′(Xi)=MI(C,Xi)-MI(Xi,S)+MI(Xi,S|C)

(22)

OF與OF′兩個(gè)目標(biāo)函數(shù)可表示為熵的形式,基于式(6)與式(14)可獲得第一個(gè)目標(biāo)函數(shù):

OF(Xi)=H(С)-H(С|Xi,S)

(23)

2.1.2目標(biāo)函數(shù)的邊界條件

根據(jù)式(6)和式(23)可總結(jié)出第二個(gè)目標(biāo)函數(shù):

OF′(Xi)=H(С|S)-H(С|Xi,S)

(24)

根據(jù)互信息的分析可獲得目標(biāo)函數(shù)的邊界條件:

定理1給定候選特征Xi,Xi應(yīng)滿足以下關(guān)系:

(1)H(С)-H(С|S)≤OF(Xi)≤H(С);

(2) 0≤OF′(Xi)≤H(С|S)。

證明根據(jù)式(21)與式(23),OF(Xi)=H(С)-H(С|Xi,S)=H(С)-H(С|S)+MI(С,Xi|S),因?yàn)镸I(С,Xi|S)≥0,所以O(shè)F(Xi)≥H(С)-H(С|S),因此定理1(1)得以證明。觀察式(14)與式(22),可推導(dǎo)出OF′(Xi)=MI(С,Xi|S)≥0,因此定理1(2)得以證明。

2.2 基于互信息的特征類型劃分

定義8給定一個(gè)選擇的特征子集S,類別設(shè)為Χ,候選特征為Xi。如果MI(С,Xi|S)=0∧H(Xi|S)>0,那么Xi為不相關(guān)特征。如果H(Xi|S)=0,那么Xi為冗余特征。如果H(Xi|S)=0,那么MI(С,Xi|S)>0,Xi為相關(guān)特征。如果H(С|Xi,S)=0∧H(С|S)>0,那么Xi為(С,S)的完全相關(guān)特征。

定義8將不相關(guān)特征分為兩個(gè)子類型:不相關(guān)特征和冗余特征。相關(guān)特征也分為兩個(gè)子類型:完全相關(guān)特征和相關(guān)特征。本文將不相關(guān)特征和冗余特征分開的原因在于特征選擇程序中這兩種特征表現(xiàn)出不同的變化趨勢(shì):冗余特征始終為冗余特征,而不相關(guān)特征則可能被選為相關(guān)特征。

定理2如果一個(gè)特征是關(guān)于S的冗余特征,那么該特征也是關(guān)于S′的冗余特征,S?S′。

證明假設(shè)Xi是關(guān)于S的冗余特征,可得H(Xi|S)=0,S?S′。根據(jù)式(18)可得H(Xi|S′)=0,所以Xi也是關(guān)于S′的冗余特征。

定理2說(shuō)明在特征選擇程序的迭代中發(fā)現(xiàn)冗余特征,即可直接從候選特征集中刪除該特征,避免后續(xù)處理帶來(lái)的計(jì)算負(fù)擔(dān)。根據(jù)上述的特征分類,特征選擇程序在迭代中選擇完全相關(guān)特征,刪除冗余特征,保留不相關(guān)特征與相關(guān)特征。

定理3(1) 如果Xi是一個(gè)關(guān)于(С,S)的完全相關(guān)特征,那么OF(Xi)=H(С),OF′(Xi)=H(С|S),即目標(biāo)函數(shù)的最大可能值。(2)如果Xi是一個(gè)關(guān)于(С,S)的不相關(guān)特征,那么OF(Xi)=H(С)-H(С|S),OF′(Xi)=0,即目標(biāo)函數(shù)的最小可能值。(3)如果Xi是一個(gè)關(guān)于S的冗余特征,那么OF(Xi)=H(С)-H(С|S),OF′(Xi)=0,即目標(biāo)函數(shù)的最小可能值。(4)如果Xi是一個(gè)關(guān)于(С,S)的相關(guān)特征(非完全相關(guān)),那么H(С)-H(С|S)

證明參考式(21)與式(22),如果Xi是關(guān)于(С,S)的完全相關(guān)特征,那么H(С|Xi,S)=0,定理3(1)得以證明。假設(shè)Xi是關(guān)于(С,S)的不相關(guān)特征,因此MI(С,Xi|S)=0,根據(jù)OF′(Xi)=MI(C,Xi|S),可得OF′(Xi)=0。根據(jù)式(22)和式(14),可得OF(Xi)=H(С)-H(С|S)+MI(С,Xi|S),可推理出OF(Xi)=H(С)-H(С|S),定理3(2)得以證明。定理3(3)、定理3(4)與定理3(2)的證明方式相似。

綜上所述,完全相關(guān)特征實(shí)現(xiàn)了目標(biāo)函數(shù)的最大值,相關(guān)特征的目標(biāo)值在最小值與最大值之間,根據(jù)該屬性在特征選擇程序中將特征排序。通過(guò)評(píng)價(jià)H(Xi|S)來(lái)判斷不相關(guān)特征和冗余特征。

3 基于混合GA算法的高維特征選擇

基因微陣列數(shù)據(jù)是一種典型的高維小樣本數(shù)據(jù)集,借助基因微陣列特征選擇問(wèn)題描述本文算法的細(xì)節(jié)。首先,使用T檢驗(yàn)技術(shù)對(duì)數(shù)據(jù)集做預(yù)處理,然后通過(guò)HGA選擇最優(yōu)的特征子集。HGA包括主GA(Main Genetic Algorithm, MGA)與次GA(Secondary Genetic Algorithm, SGA)兩個(gè)GA算法,MGA處理微陣列基因表達(dá)譜數(shù)據(jù)集,SGA處理微陣列甲基化位點(diǎn)數(shù)據(jù)集。圖1所示為特征選擇過(guò)程的實(shí)例,首先應(yīng)用T檢驗(yàn)技術(shù)初選特征子集,然后采用迭代的HGA逐步選出最優(yōu)的特征子集。圖中:(1) 表示不相關(guān)特征;(2) 表示冗余特征;(3) 表示相關(guān)特征;(4) 表示完全相關(guān)特征。在迭代選擇特征子集的過(guò)程中,刪除冗余特征,選擇完全相關(guān)特征,保留不相關(guān)特征和相關(guān)特征做進(jìn)一步的篩選。

圖1 特征選擇過(guò)程的實(shí)例

3.1 HGA算法

HGA算法的流程如圖2所示。采用T檢驗(yàn)對(duì)基因表達(dá)譜數(shù)據(jù)與DNA甲基化數(shù)據(jù)做預(yù)處理,初步篩選特征子集,將高排名的基因表達(dá)譜與甲基化位點(diǎn)選為特征子集。將初選的基因子集輸入MGA模型,甲基化位點(diǎn)集輸入SGA模型。分析基因表達(dá)譜與甲基化位點(diǎn)之間的關(guān)系,可計(jì)算出解的數(shù)量N。根據(jù)基因的被選頻率將N個(gè)解按降序排列。

圖2 高維小樣本數(shù)據(jù)特征選擇的流程

3.2 預(yù)處理步驟

(1) 刪除冗余特征。在基因表達(dá)譜數(shù)據(jù)集中存在大量缺失表達(dá)譜數(shù)據(jù)的基因,這些基因?qū)τ诜诸惼鳑](méi)有任何貢獻(xiàn),應(yīng)當(dāng)在預(yù)處理步驟將此類數(shù)據(jù)刪除。

(2) 基于T檢驗(yàn)的特征預(yù)處理。基因表達(dá)譜數(shù)據(jù)中存在大量的不相關(guān)或者冗余的基因。T檢驗(yàn)是一種高效的過(guò)濾式特征選擇方法,處理步驟為:

Step1樣本分為兩個(gè)類:正常類與癌癥類。

Step2計(jì)算每個(gè)特征的p-值。

Step3按照p-值將特征降序排列。

Step4選出最優(yōu)的特征子集。

3.3 基于HGA的特征選擇方法

HGA由MGA和SGA組成,MGA的輸入為基因表達(dá)譜數(shù)據(jù),輸出結(jié)果為最優(yōu)的基因子集,SGA的輸入為DNA甲基化數(shù)據(jù),輸出結(jié)果為最優(yōu)的甲基化位點(diǎn)子集。MGA的每次迭代中運(yùn)行一次SGA,產(chǎn)生甲基化位點(diǎn)子集,采用位點(diǎn)子集引導(dǎo)MGA的搜索過(guò)程。

本文摒棄了常用的隨機(jī)初始化策略,采用最優(yōu)甲基化位點(diǎn)的基因組作為OGA-SVM的初始化種群。因此HGA的最終解結(jié)合了基因表達(dá)譜數(shù)據(jù)與DNA甲基化位點(diǎn)數(shù)據(jù)。HGA算法的流程如圖3所示,其偽代碼如算法1所示。

圖3 HGA算法的流程圖

算法1HGA算法

輸入:特征集S

輸出:選擇的特征子集MCH

1.MCH=random_init();

2. foreach i from 0 toM_maxiterdo

3.M_p=init_pop_SGA(MCH);

//初始化SGA種群

4. foreachjfrom 0 toM_maxiterdo

5.S_value=fit(S_p);

//計(jì)算SGA的適應(yīng)度

6. if (S_value≥expect_value)

7. break;

8. else

9.in_E=elitism();

//精英算子

10.srw=RouleteWheel();

//輪盤賭策略

11.in_C=Crossover(srw);

//交叉算子

12.in_U=Mutation(srw);

//變異算子

13.in_p=Replace_pop(in_E,in_C,in_U);

//種群交換

14. endif

15. endfor

16.M_p=initMpop(S_p,N);

//初始化主種群

17.S_value=fit(M_p);

18. if(M_value≥expect_value)

19.M_CH=select_optimal();

//選擇最優(yōu)值

20. break;

21. else

22.S_E=elitism();

//精英算子

23. srw=RouleteWheel();

//輪盤賭策略

24.M_C=Crossover(srw);

//交叉算子

25.M_U=Mutation(srw);

//變異算子

26.M_p=Replace_pop(M_E,M_C,M_U);

//種群交換

27. endif

28. endfor

3.4 MGA算法的流程

(1) HGA的染色體結(jié)構(gòu)。設(shè)染色體CH由n個(gè)特征組成,表示為CH=(x1,x2, …,xn)。每個(gè)特征xi為一個(gè)整型值,表示該特征在特征集S中的索引。圖4是遺傳算法的染色體結(jié)構(gòu)示意圖。

3312574 345……127

圖4 遺傳算法的染色體結(jié)構(gòu)示意圖

(2) HGA的種群初始化。初始化MGA的種群pi,設(shè)pi共有Y個(gè)染色體,每個(gè)染色體有y個(gè)甲基化位點(diǎn)。每個(gè)染色體表示為一個(gè)序列{y1,y2,…,yfc},fc表示甲基化位點(diǎn)的數(shù)量。HGA的第1次迭代隨機(jī)初始化MGA的染色體,在后續(xù)的每次迭代中,使用MGA優(yōu)化的染色體初始化MGA的染色體種群。甲基化位點(diǎn)與基因表達(dá)譜數(shù)據(jù)的轉(zhuǎn)換采用DNA甲基化分析軟件實(shí)現(xiàn),如minfi、IlluminaHumanMethylation和missMethyl等,minfi、IlluminaHumanMethylation和missMethyl均為DNA甲基化分析的專用R包。將每個(gè)基因映射為0∶50的甲基化位點(diǎn)。

計(jì)算MGA當(dāng)前迭代的每個(gè)染色體適應(yīng)度值mfi,將互信息做為適應(yīng)度函數(shù),計(jì)算每個(gè)染色體的互信息mfi。

(3) 檢查結(jié)束條件。MGA設(shè)立了兩個(gè)結(jié)束條件:① 適應(yīng)度達(dá)到預(yù)設(shè)的閾值;② 達(dá)到預(yù)設(shè)的最大迭代次數(shù)。

(4) 遺傳算子。① 精英機(jī)制。保留當(dāng)前迭代的最優(yōu)染色體,作為下一代種群的基礎(chǔ)。② 單點(diǎn)交叉算子。通過(guò)輪盤賭策略選擇交叉算子的染色體子集,設(shè)染色體子集長(zhǎng)度為lc,設(shè)當(dāng)前迭代的適應(yīng)度之和為fsum,交叉算子選擇染色體子集的步驟為:

Step1產(chǎn)生[0,fsum]區(qū)間的隨機(jī)數(shù)r;

Step2檢查當(dāng)前迭代的每個(gè)染色體,觀察其適應(yīng)度是否小于r,如果小于r則選擇該染色體,并返回Step1;否則,檢查下一個(gè)染色體。

Step3重復(fù)Step 1與Step 2直至選出lc個(gè)染色體。

對(duì)隨機(jī)選擇的兩個(gè)父染色體應(yīng)用交叉算子處理,創(chuàng)建兩個(gè)新染色體。采用單點(diǎn)交叉算子,圖5是單點(diǎn)交叉算子的示意圖。

圖5 單點(diǎn)交叉算子的示意圖

③ 變異算子。隨機(jī)選擇長(zhǎng)度lm的染色體,基于變異率Pm對(duì)染色體應(yīng)用單點(diǎn)隨機(jī)變異算子處理。

3.5 SGA的算法流程

(1) 適應(yīng)度評(píng)價(jià)。SGA是封裝式特征選擇方案,計(jì)算SGA當(dāng)前迭代中每個(gè)染色體的適應(yīng)度,記為sfi。將SVM作為適應(yīng)度函數(shù),采用5折交叉驗(yàn)證方案基于訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練SVM,然后對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類處理,迭代地選出最優(yōu)的甲基化位點(diǎn)。

(2) 遺傳算子。SGA算法的遺傳算子與MGA算法的遺傳算子相同。應(yīng)用SGA選擇當(dāng)前的最優(yōu)染色體,應(yīng)用SGA搜索當(dāng)前的最優(yōu)甲基化位點(diǎn)子集,搜索對(duì)應(yīng)的微陣列來(lái)組成k個(gè)SGA染色體。

(3) 檢查結(jié)束條件。SGA設(shè)立了兩個(gè)結(jié)束條件:① 適應(yīng)度達(dá)到預(yù)設(shè)的閾值;② 達(dá)到預(yù)設(shè)的最大迭代次數(shù)。

3.6 增量特征選擇程序

在每次迭代中按照互信息的計(jì)算結(jié)果,增量地添加選擇的特征,假設(shè)S為選擇的特征子集,在每次迭代中計(jì)算互信息目標(biāo)函數(shù)和邊界條件。首先,刪除不滿足邊界條件的特征,刪除冗余特征。然后,將完全相關(guān)特征添加至S中,保留不相關(guān)特征和相關(guān)特征,在下一次迭代中做進(jìn)一步處理。

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)集與參數(shù)設(shè)置

采用結(jié)腸癌基因表達(dá)譜數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集(The Cancer Genome Atlas,TCGA),下載地址為https://tcga-data.nci.nih.gov/tcga/,采用IHM-27k平臺(tái)的TCGA DNA甲基化數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。采用高通量基因表達(dá)數(shù)據(jù)集(Gene Expression Omnibus,GEO)作為第三方獨(dú)立測(cè)試數(shù)據(jù)集。具體實(shí)驗(yàn)數(shù)據(jù)集如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集

算法的參數(shù)設(shè)置如表2所示。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

續(xù)表2

4.2 實(shí)驗(yàn)設(shè)計(jì)與性能評(píng)價(jià)

4.2.1實(shí)驗(yàn)設(shè)計(jì)

(1) 第一組實(shí)驗(yàn)。本文HGA算法是兩個(gè)GA算法的混合算法,將HGA與單一的GA算法做比較,評(píng)估HGA算法對(duì)于基因表達(dá)譜數(shù)據(jù)集的效果。采用GA_SVM[16]與GA_NNW[17]兩個(gè)單一GA的封裝式特征選擇算法作為對(duì)比算法,GA_SVM是將GA作為優(yōu)化算法以及將SVM作為性能評(píng)價(jià)的封裝式特征選擇算法,GA_NNW是將GA作為優(yōu)化算法以及將人工神經(jīng)網(wǎng)絡(luò)作為性能評(píng)價(jià)的封裝式特征選擇算法。將TCGA基因表達(dá)譜數(shù)據(jù)集作為第一組實(shí)驗(yàn)的數(shù)據(jù)集。

(2) 第二組實(shí)驗(yàn)。將HGA算法與單一的GA算法GA_SVM、GA_NNW做比較,評(píng)估混合GA算法對(duì)于DNA位點(diǎn)數(shù)據(jù)集的效果。將全部的結(jié)腸癌DNA位點(diǎn)數(shù)據(jù)集作為第二組實(shí)驗(yàn)的數(shù)據(jù)集。

(3) 第三組實(shí)驗(yàn)。第一組、第二組實(shí)驗(yàn)均為癌癥檢測(cè)的二分類問(wèn)題,為了評(píng)估本文算法對(duì)于多分類特征的選擇效果,采用多子類數(shù)據(jù)集測(cè)試本文算法對(duì)于多分類問(wèn)題的特征選擇效果。將HGA算法與其他的特征選擇算法橫向比較,評(píng)估本算法的性能。采用近期的CBRGB算法[18]和WGEP_CI算法[19]作為對(duì)比方案。CBRGB算法是一種基于梯度boosting的肺癌基因特征選擇算法,該算法對(duì)于肺癌表現(xiàn)出較高的性能;WGEP_CI算法則是一種基于連接信息的肺癌基因特征選擇算法,該算法采用的連接信息與本文算法的互信息具有相似性,因此選擇該文獻(xiàn)與本算法比較。

每個(gè)特征選擇算法的輸入均為T檢驗(yàn)初步帥選后的特征子集,將TCGA基因表達(dá)譜與DNA甲基化數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。將GEO基因表達(dá)譜數(shù)據(jù)集中的肺癌數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集,肺癌數(shù)據(jù)集包含了肺腺癌和肺鱗癌兩種子類型。表3所示是GEO數(shù)據(jù)集中肺癌數(shù)據(jù)集的基本屬性。

表3 肺癌數(shù)據(jù)集的基本屬性

4.2.2性能評(píng)價(jià)方法

采用SVM和5折交叉驗(yàn)證評(píng)估分類的準(zhǔn)確率,分類準(zhǔn)確率的計(jì)算方法為:

(25)

式中:TP、TN、FP、FN分別為真正、真負(fù)、假正、假負(fù)的樣本分類結(jié)果。

4.3 特征子集評(píng)價(jià)

4.3.1第一組實(shí)驗(yàn)的結(jié)果與分析

圖6是3個(gè)算法對(duì)于基因表達(dá)譜數(shù)據(jù)的平均分類結(jié)果。比較混合GA與單一GA的分類結(jié)果可看出,對(duì)于不同數(shù)量的基因,三個(gè)GA算法的分類準(zhǔn)確率均高于0.9,但混合GA均優(yōu)于單一的GA。基因數(shù)為3時(shí),GA_SVM的性能略高于GA_NNW,而基因數(shù)為4時(shí),GA_SVM的性能則略低于GA_NNW,所以單一的GA算法表現(xiàn)得不夠穩(wěn)定,因此本文設(shè)計(jì)了HGA算法以提高特征選擇的穩(wěn)定性與魯棒性。

圖6 混合GA與單一GA的平均分類結(jié)果

4.3.2第二組實(shí)驗(yàn)的結(jié)果與分析

圖7是3個(gè)算法對(duì)于甲基化位點(diǎn)數(shù)據(jù)的平均分類結(jié)果。比較混合GA與單一GA的分類結(jié)果可看出,對(duì)于不同數(shù)量的基因,三個(gè)GA算法的分類準(zhǔn)確率較為接近,但混合GA均優(yōu)于單一的GA。位點(diǎn)數(shù)較少時(shí),兩個(gè)單一GA算法的分類準(zhǔn)確率較低,HGA的準(zhǔn)確率則依然高于0.9。本文的HGA算法有效地提高了特征選擇的穩(wěn)定性與魯棒性。

圖7 混合GA與單一GA的平均分類結(jié)果

4.3.3第三組實(shí)驗(yàn)的結(jié)果與分析

(1) 分類的準(zhǔn)確率結(jié)果。圖8是三個(gè)特征選擇算法的比較結(jié)果,結(jié)果顯示本算法對(duì)于不同數(shù)量的位點(diǎn)數(shù)據(jù)均明顯地優(yōu)于CBRGB算法和WGEP_CI算法。隨著位點(diǎn)數(shù)量的升高,CBRGB算法表現(xiàn)出性能衰減的趨勢(shì),其原因在于CBRGB算法所采用的boosting模型對(duì)于高維數(shù)據(jù)的性能弱于低維數(shù)據(jù),而WGEP_CI通過(guò)連接信息實(shí)現(xiàn)了較為穩(wěn)定的性能,對(duì)于位點(diǎn)數(shù)量具有魯棒性和穩(wěn)定性。本算法采用了互信息和詳細(xì)的剪枝機(jī)制,實(shí)現(xiàn)了高效、準(zhǔn)確地特征選擇過(guò)程,并且利用混合遺傳算法實(shí)現(xiàn)了快速、準(zhǔn)確的尋優(yōu)效果。

圖8 三個(gè)特征選擇算法的分類準(zhǔn)確率結(jié)果

(2) 分類的時(shí)間效率。圖9是三個(gè)特征選擇算法的平均處理時(shí)間,三個(gè)算法均針對(duì)高維小樣本數(shù)據(jù)做出了針對(duì)“維數(shù)災(zāi)難”的解決方案,并且都實(shí)現(xiàn)了可接受的時(shí)間效率。本文算法在迭代選擇特征子集的過(guò)程中,刪除冗余特征,選擇完全相關(guān)特征,保留不相關(guān)特征和冗余特征做進(jìn)一步的篩選。及時(shí)選出完全相關(guān)特征、刪除冗余特征不僅有助于消除這兩種特征對(duì)后續(xù)特征處理的干擾,并且也能夠提高特征選擇處理的計(jì)算效率。

圖9 三個(gè)特征選擇算法的平均處理時(shí)間

5 結(jié) 語(yǔ)

本文對(duì)互信息和特征選擇問(wèn)題進(jìn)行了深入的分析,給出了特征選擇問(wèn)題的互信息目標(biāo)函數(shù)和約束條件,并且基于互信息將特征分為4個(gè)子類型。計(jì)算互信息目標(biāo)函數(shù)和邊界條件,刪除不滿足邊界條件的特征和冗余特征,提取出完全相關(guān)特征,剩下的特征在下一次迭代中做進(jìn)一步處理。及時(shí)選出完全相關(guān)特征、刪除冗余特征不僅有助于消除這兩種特征對(duì)后續(xù)特征處理的干擾,并且也能夠提高特征選擇處理的計(jì)算效率。

本文采用的混合遺傳算法在特征提取過(guò)程中取得較好的穩(wěn)定性和尋優(yōu)質(zhì)量,但是計(jì)算時(shí)間較長(zhǎng),可通過(guò)并行計(jì)算實(shí)現(xiàn)混合遺傳算法來(lái)提高計(jì)算效率。本文算法重點(diǎn)在基因微陣列數(shù)據(jù)集做了實(shí)驗(yàn)和驗(yàn)證,未來(lái)將評(píng)估本文算法對(duì)于其他類型高維小樣本數(shù)據(jù)集的性能。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 色视频国产| 免费一级α片在线观看| 男女精品视频| 青青国产成人免费精品视频| 欧美性精品不卡在线观看| 嫩草影院在线观看精品视频| 国产人妖视频一区在线观看| 久久99蜜桃精品久久久久小说| 国产精品午夜电影| 国产微拍一区二区三区四区| 国产精品成人免费综合| 欧美成人综合在线| 国产一级片网址| 在线免费不卡视频| 国产精品对白刺激| 先锋资源久久| 秋霞一区二区三区| 国产成人精品一区二区秒拍1o| 在线色综合| 国产精品视频猛进猛出| 青青草欧美| 日韩精品无码免费专网站| 国产精品欧美亚洲韩国日本不卡| 91免费观看视频| 久久精品这里只有精99品| 亚洲无码37.| 欧美成人精品高清在线下载| 欧美激情,国产精品| 无码免费的亚洲视频| 久久精品只有这里有| 亚洲毛片网站| 毛片视频网址| 制服丝袜在线视频香蕉| 亚洲无码精彩视频在线观看| 欧美激情第一欧美在线| 四虎成人在线视频| 片在线无码观看| 女人18毛片一级毛片在线 | 看av免费毛片手机播放| 98超碰在线观看| 波多野结衣视频网站| 91av国产在线| 免费一级毛片在线播放傲雪网| 久久国产成人精品国产成人亚洲| 成·人免费午夜无码视频在线观看| 香蕉久久国产超碰青草| 一区二区理伦视频| 亚洲色中色| 精品国产成人三级在线观看| 99九九成人免费视频精品| 日本少妇又色又爽又高潮| 国产伦片中文免费观看| 国产精品原创不卡在线| 欧美三级视频网站| 国产亚洲现在一区二区中文| 国产 在线视频无码| 国产爽歪歪免费视频在线观看| 狼友视频一区二区三区| 日韩精品一区二区三区中文无码 | 一本视频精品中文字幕| 无码电影在线观看| 久久亚洲黄色视频| 欧美a√在线| 一区二区在线视频免费观看| 亚洲自拍另类| P尤物久久99国产综合精品| 国产成人综合亚洲欧洲色就色| 亚洲精品无码不卡在线播放| 91美女视频在线观看| 99视频国产精品| 性视频久久| 72种姿势欧美久久久大黄蕉| 欧美色综合网站| 98精品全国免费观看视频| 国产成人精品亚洲日本对白优播| 综合亚洲色图| 狠狠色狠狠色综合久久第一次| 色网在线视频| 亚洲中文久久精品无玛| 高清国产在线| 日韩国产精品无码一区二区三区| 亚洲中文字幕无码爆乳|