999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遺傳烏燕鷗算法的同步優(yōu)化特征選擇

2022-07-03 02:11:46賈鶴鳴孫康健
自動(dòng)化學(xué)報(bào) 2022年6期
關(guān)鍵詞:分類(lèi)特征優(yōu)化

賈鶴鳴 李 瑤 孫康健

隨著科技不斷進(jìn)步,每個(gè)領(lǐng)域都會(huì)產(chǎn)生龐大而復(fù)雜的信息和數(shù)據(jù),為了處理如此繁雜的數(shù)據(jù),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)相繼出現(xiàn)[1].在數(shù)據(jù)處理領(lǐng)域中,數(shù)據(jù)分類(lèi)是一項(xiàng)基本工作,但是由于數(shù)據(jù)的龐大和復(fù)雜,使得數(shù)據(jù)分類(lèi)成為一項(xiàng)具有挑戰(zhàn)的研究課題,常見(jiàn)的數(shù)據(jù)分類(lèi)方法有決策樹(shù)法、樸素貝葉斯法、k-鄰近值(k-nearest neighbor,KNN)和支持向量機(jī)(Support vector machine,SVM)等.賈濤等[2]提出了數(shù)據(jù)流決策樹(shù)分類(lèi)方法,引入單分類(lèi)和集成決策樹(shù)模型有效地處理了概念漂移問(wèn)題;崔良中等[3]選擇了改進(jìn)樸素貝葉斯算法來(lái)解決近來(lái)機(jī)器學(xué)習(xí)中的數(shù)據(jù)分類(lèi)時(shí)間過(guò)長(zhǎng)的問(wèn)題;王景文等[4]選擇KNN算法進(jìn)行了數(shù)據(jù)預(yù)測(cè)和分類(lèi),實(shí)現(xiàn)了對(duì)中醫(yī)胃痛病的自動(dòng)診斷,對(duì)診斷病理起到了重要作用;丁世濤等[5]提出基于傳統(tǒng)SVM 的分類(lèi)方法,通過(guò)文本數(shù)據(jù)以標(biāo)題為突破口實(shí)現(xiàn)快速分類(lèi),提高了分類(lèi)速度和分類(lèi)精度.上述論文著重研究了幾種常見(jiàn)的數(shù)據(jù)分類(lèi)方法的工程應(yīng)用,由于各類(lèi)數(shù)據(jù)量龐大且冗雜導(dǎo)致數(shù)據(jù)分類(lèi)領(lǐng)域面臨較大的挑戰(zhàn),因而許多學(xué)者將研究領(lǐng)域進(jìn)一步推向如何更好更快地進(jìn)行數(shù)據(jù)預(yù)處理,將特征選擇和分類(lèi)方法結(jié)合從而提高分類(lèi)準(zhǔn)確度.

為了更好解決特征選擇與分類(lèi)方法結(jié)合的問(wèn)題,研究者們通過(guò)引入優(yōu)化算法對(duì)SVM 的內(nèi)核參數(shù)尋優(yōu).Chapelle 等[6]提出了利用梯度下降法來(lái)選擇SVM 的參數(shù),為接下來(lái)對(duì)其參數(shù)進(jìn)行優(yōu)化的研究奠定了基礎(chǔ);劉昌平等[7]使用混沌優(yōu)化的方法對(duì)SVM 的參數(shù)進(jìn)行優(yōu)化,得出最優(yōu)解并增強(qiáng)了分類(lèi)精度;劉東平等[8]通過(guò)對(duì)遺傳算法的改進(jìn),利用其交叉變異部分更好地對(duì)SVM 內(nèi)核參數(shù)進(jìn)行優(yōu)化,達(dá)到了預(yù)期的實(shí)驗(yàn)效果;王振武等[9]將粒子群算法改進(jìn)后應(yīng)用到SVM 參數(shù)優(yōu)化上,體現(xiàn)了融合優(yōu)化與SVM 方法結(jié)合的優(yōu)越性;石勇等[10]提出非平行支持向量順序回歸模型,能夠更好地處理大規(guī)模數(shù)據(jù).Yu 等[11]提出了雙邊跨域協(xié)同過(guò)濾的SVM 分類(lèi)方法,通過(guò)集成內(nèi)在用戶和項(xiàng)目特征,更好地在目標(biāo)領(lǐng)域中構(gòu)建分類(lèi)的模型.上述研究表明,將優(yōu)化算法融合至SVM 中具有一定的效果,但上述方法大多只是單一優(yōu)化其內(nèi)核參數(shù)并未從整體考慮數(shù)據(jù)相關(guān)性的問(wèn)題.

因此,近年來(lái)研究者也開(kāi)始將特征選擇與優(yōu)化算法相結(jié)合,提高精度并減少時(shí)間成本.Zhang等[12]首次提出了多目標(biāo)粒子群成本的特征選擇方法,告別了傳統(tǒng)的單目標(biāo)特征選擇,是一種極具競(jìng)爭(zhēng)力的特征選擇方法;2017 年,文獻(xiàn)[13]提出基于返回代價(jià)的二進(jìn)制螢火蟲(chóng)的方法,并將其應(yīng)用到特征選擇問(wèn)題中,有效地提高了分類(lèi)精確度并減少了所選特征個(gè)數(shù);2018 年,張文杰等[14]將遺傳算法應(yīng)用到大數(shù)據(jù)特征選擇算法中,提升了算法的搜索能力和獲取特征的準(zhǔn)確性;2019 年,李煒等[15]將改進(jìn)的粒子群算法應(yīng)用到特征選擇當(dāng)中,有效地降低了學(xué)習(xí)算法的數(shù)據(jù)維度和計(jì)算成本;同年,Jia 等[16]提出一種基于斑點(diǎn)鬣狗優(yōu)化(Spotted hyena optimization,SHO)的特征選擇算法,該算法提高了特征選擇精度同時(shí)解決了特征冗余的問(wèn)題;Baliarsingh 等[17]也在2019 年提出了基于帝企鵝優(yōu)化算法(Emperor penguin optimization,EPO)應(yīng)用在優(yōu)化醫(yī)療數(shù)據(jù)的分類(lèi)方法,大大減少了數(shù)據(jù)繁雜難以處理的問(wèn)題;文獻(xiàn)[18]提出了非負(fù)拉普拉斯嵌入引導(dǎo)子空間學(xué)習(xí)的無(wú)監(jiān)督特征選擇的方法,由非負(fù)拉普拉斯嵌入生成高質(zhì)量的偽類(lèi)標(biāo)簽,并利用偽類(lèi)標(biāo)簽提供的判別信息,發(fā)展局部結(jié)構(gòu)保持的子空間學(xué)習(xí)來(lái)尋找最優(yōu)特征子集.受這些研究啟發(fā),本文將有效的優(yōu)化算法應(yīng)用到特征選擇當(dāng)中,篩選有效特征,更好地分類(lèi)實(shí)際工程中的數(shù)據(jù).

從工程應(yīng)用的角度出發(fā),為了進(jìn)一步提高數(shù)據(jù)分類(lèi)準(zhǔn)確度,應(yīng)該考慮將SVM 與特征選擇相結(jié)合,利用優(yōu)化算法對(duì)二者同時(shí)優(yōu)化.齊子元等[19]提出同步優(yōu)化特征選擇和SVM 參數(shù)的方法,克服了單獨(dú)優(yōu)化二者的缺陷,但選用的優(yōu)化方法過(guò)于陳舊,因此性能有待于提升;沈永良等[20]則提出了將改進(jìn)煙花算法應(yīng)用到特征選擇和SVM 參數(shù)優(yōu)化的方法,但大多對(duì)低維數(shù)據(jù)進(jìn)行改善,對(duì)高維數(shù)據(jù)集的優(yōu)勢(shì)難以體現(xiàn);Ibrahim 等[21]提出了基于蝗蟲(chóng)算法的同步優(yōu)化方法,但未對(duì)本身優(yōu)化算法做出改進(jìn),因此不能更加全面地應(yīng)用到特征選擇問(wèn)題中.

由上述研究文獻(xiàn)的分析可以看出,選擇合適的優(yōu)化算法對(duì)SVM 和特征選擇進(jìn)行同步優(yōu)化是一個(gè)十分重要的研究問(wèn)題,而元啟發(fā)式優(yōu)化算法主要分為進(jìn)化算法和群智能優(yōu)化算法兩類(lèi)[22].進(jìn)化算法中以遺傳算法(Genetic algorithm,GA)最為經(jīng)典.通過(guò)模仿自然界優(yōu)勝劣汰的理念,不斷淘汰結(jié)果較差的解和有概率的交叉變異來(lái)更新最優(yōu)解的位置[23];群智能優(yōu)化算法則是模擬行為聚集的種群覓食行為,以粒子群優(yōu)化算法(Particle swarm optimization,PSO)[24]為代表,它通過(guò)模仿鳥(niǎo)群飛行覓食的過(guò)程,不斷更新飛行速度和位置以搜索到最優(yōu)解.除此之外,還有一些仿生算法也屬于元啟發(fā)式算法,如鯨魚(yú)優(yōu)化算法[25],該算法模仿座頭鯨捕食過(guò)程,利用獨(dú)特的螺旋收斂方式模型不斷靠近最優(yōu)解.上述幾種典型的優(yōu)化算法都能在一定程度上解決工程中最優(yōu)解的求取問(wèn)題,但是由于工程問(wèn)題的困難性和復(fù)雜性,優(yōu)化算法很難獨(dú)立解決所有實(shí)際問(wèn)題.本文選擇的烏燕鷗優(yōu)化算法(Sooty tern optimization algorithm,STOA)也是如此,雖然它具有較強(qiáng)的全局搜索能力和一定的收斂精度,但根據(jù)沒(méi)有免費(fèi)的午餐定理[26]可知,沒(méi)有任何一個(gè)優(yōu)化算法可以獨(dú)立解決所有實(shí)際問(wèn)題,單一優(yōu)化算法優(yōu)化能力尚有不足,因此要想將優(yōu)化算法更好地應(yīng)用到實(shí)際問(wèn)題上,就必須對(duì)其進(jìn)行二次優(yōu)化和改進(jìn).

由于烏燕鷗算法已經(jīng)具備良好的全局搜索能力,所以對(duì)它的改進(jìn)應(yīng)當(dāng)側(cè)重于對(duì)其局部搜索能力的引導(dǎo)和改善.遺傳算法的主要特點(diǎn)是能夠?qū)Y(jié)構(gòu)對(duì)象進(jìn)行直接操作、具有較好的并行性和局部?jī)?yōu)化能力,同時(shí)它不需要特定的規(guī)則,能夠根據(jù)概率自適應(yīng)地調(diào)整搜索方向,因此近年來(lái)遺傳算法在混合優(yōu)化、機(jī)器學(xué)習(xí)、信號(hào)處理等領(lǐng)域得到了廣泛的應(yīng)用.2019 年,唐曉娜等[27]提出了混合粒子群優(yōu)化遺傳算法的混合方法,用來(lái)對(duì)高分遙感影像進(jìn)行預(yù)處理,大大提高了其對(duì)城市用地信息的提取效果;2020 年,卓雪雪等[28]將蟻群算法和遺傳算法結(jié)合并應(yīng)用于求解旅行商問(wèn)題中,將遺傳最主要的交叉部分引入到蟻群優(yōu)化中,解決了蟻群算法過(guò)早陷入局部最優(yōu)解的問(wèn)題,并加快了算法的收斂速度.由此可見(jiàn)遺傳算法具有強(qiáng)大的局部搜索能力,將它與其他局部搜索能力不足的算法融合,便可以大大提高該類(lèi)不足算法的收斂精度,同時(shí)也可以更好地避免陷入局部最優(yōu)的情況出現(xiàn).因此本文引入遺傳算法,解決了傳統(tǒng)烏燕鷗算法局部搜索不足且容易陷入局部最優(yōu)的問(wèn)題.

綜合上述分析可知,本文主要?jiǎng)?chuàng)新研究工作如下:首先,本文根據(jù)平均適應(yīng)度值概念提出遺傳烏燕鷗算法,相較于傳統(tǒng)烏燕鷗優(yōu)化算法,具有更好的收斂能力和收斂速度;其次,基于本文遺傳烏燕鷗算法,將其和SVM 及特征選擇結(jié)合,用STOAGA 同步優(yōu)化SVM 的C、ζ參數(shù)和二進(jìn)制特征,并且對(duì)經(jīng)典UCI 數(shù)據(jù)集進(jìn)行測(cè)試,解決了數(shù)據(jù)預(yù)處理中分類(lèi)精度不高、冗余特征過(guò)多的問(wèn)題,可以有效完成數(shù)據(jù)分類(lèi)工作;最后,將本文的特征選擇模型應(yīng)用到乳腺癌數(shù)據(jù)集中,通過(guò)10 次實(shí)驗(yàn)均入選的特征可以更好地辨別乳腺癌復(fù)發(fā)的主要因素,為解決乳腺癌數(shù)據(jù)的預(yù)處理提供了理論依據(jù),使臨床數(shù)據(jù)得到更妥善利用.通過(guò)驗(yàn)證,本文方法在數(shù)據(jù)預(yù)處理上確有較高的工程應(yīng)用價(jià)值.

1 傳統(tǒng)優(yōu)化算法

1.1 烏燕鷗算法

烏燕鷗優(yōu)化算法是2019 年針對(duì)工業(yè)工程問(wèn)題,由Dhiman 等[29]提出的一種新的優(yōu)化算法,其靈感來(lái)源于海鳥(niǎo)在自然界中覓食的行為.烏燕鷗是雜食性鳥(niǎo)類(lèi),以蚯蚓、昆蟲(chóng)、魚(yú)等食物為生.這種算法具有很強(qiáng)的全局搜索能力,精度也較高.但仍存在一些問(wèn)題如探索和利用之間的不平衡以及在迭代后期種群多樣性低的情況,導(dǎo)致該算法容易收斂過(guò)早,同時(shí)這也促進(jìn)了對(duì)優(yōu)化算法進(jìn)行改進(jìn)的研究工作,使改進(jìn)后的算法能夠應(yīng)用到更多優(yōu)化問(wèn)題上.

1.1.1 遷移行為(全局探索)

遷移行為,也就是探索部分,主要分為沖突避免、聚集和更新3 個(gè)部分.

1)沖突避免:

式中,pst表示烏燕鷗的當(dāng)前位置,cst表示在不與其他烏燕鷗碰撞的情況下應(yīng)當(dāng)處于的位置,SA代表了避免碰撞的變量因素,用來(lái)計(jì)算避免碰撞后的位置,它的約束條件如式(2).

式中,Cf是用來(lái)調(diào)整SA的控制變量,Z表示當(dāng)前迭代次數(shù),因此SA從Cf到0 線性遞減.本文中Cf值設(shè)置為2,因此,SA將從2 到0 逐漸減小.

2)聚集:聚集是指在避免沖突的前提下向相鄰烏燕鷗中最好的位置靠攏,也就是向最優(yōu)解的位置靠攏,其數(shù)學(xué)表達(dá)式如下:

式中,mst表示在不同位置的pst向最優(yōu)解的位置pbst移動(dòng)的過(guò)程,CB則是一個(gè)使探索更加全面的隨機(jī)變量,按照以下公式變化:

式中,Rand是0 到1 之間的隨機(jī)數(shù).

3)更新:更新是指在朝向最優(yōu)解的位置更新軌跡,其軌跡dst的數(shù)學(xué)表達(dá)式為:

1.1.2 攻擊行為(局部搜索)

在遷移過(guò)程中,烏燕鷗可以通過(guò)翅膀提高飛行高度,也可以調(diào)整自身的速度和攻擊角度,在攻擊獵物的時(shí)候,它們?cè)诳罩械谋P(pán)旋行為可定義為以下數(shù)學(xué)模型[30]:

式中,Radius表示每個(gè)螺旋的半徑,i表示[0,2π]之間的變量.u和v是定義其螺旋形狀的常數(shù),在本文中均設(shè)定為1, e 是自然對(duì)數(shù)的基底.烏燕鷗的位置將按照下面的公式不斷更新:

1.2 遺傳算法

遺傳算法主要通過(guò)選擇、交叉和變異3 個(gè)步驟進(jìn)行優(yōu)化.選擇過(guò)程是通過(guò)輪盤(pán)賭選擇的方法來(lái)找到問(wèn)題的最優(yōu)解[31],將優(yōu)化后的個(gè)體留給下一代.其中,每個(gè)個(gè)體被輪盤(pán)賭選中的概率為:Pi=i為個(gè)體,n為被選中的種群大小.交叉在遺傳算法中起著核心作用,它指的是從兩個(gè)親本個(gè)體中置換和重組部件并產(chǎn)生一個(gè)新個(gè)體的操作,交叉概率表示為Pc=Mc/M,M表示群體中的個(gè)體數(shù),Mc表示群體中交換的個(gè)體數(shù).在遺傳算法中,交叉是其全局搜索能力的主要過(guò)程,變異則是局部搜索能力的輔助過(guò)程.在遺傳算法中引入變異過(guò)程的目的是利用遺傳算法的局部隨機(jī)搜索能力加速遺傳算法向最優(yōu)解的收斂,并通過(guò)保持種群多樣性來(lái)防止遺傳算法的過(guò)早收斂.變異概率表示為:Pm=B/(M ×l), 其中B為每一代變異基因的數(shù)量,M為每一代種群擁有的個(gè)體數(shù)量,l為每一代個(gè)體的基因鏈長(zhǎng)度.在本文中,針對(duì)混合算法的局部性改善,將Pc和Pm的值固定化,使遺傳算法以95%的概率交叉擇優(yōu),同時(shí)有5%的概率變異以防止局部最優(yōu)陷入[32].

1.3 遺傳烏燕鷗算法

烏燕鷗算法是一種新型的元啟發(fā)式算法,雖然已經(jīng)應(yīng)用于一些工業(yè)工程問(wèn)題中,但仍存在一些不足,如探索和利用之間的不平衡、種群多樣性低等問(wèn)題.而遺傳算法是一個(gè)運(yùn)算簡(jiǎn)單但功能強(qiáng)大的算法,它作為一個(gè)部分嵌入到烏燕鷗算法中能夠增強(qiáng)局部搜索能力.由于探索和利用之間的良好平衡對(duì)于任何元啟發(fā)式算法都是至關(guān)重要的,因此本文將烏燕鷗算法與遺傳相結(jié)合,加強(qiáng)了局部搜索能力,提高了搜索效率,并在后期迭代中保持了種群多樣性.對(duì)于混合方式,本文采取先對(duì)平均適應(yīng)度值進(jìn)行評(píng)估的方式,平均適應(yīng)度值代表了當(dāng)前目標(biāo)解的整體質(zhì)量,對(duì)于最小化問(wèn)題,如果個(gè)體的適應(yīng)度函數(shù)值小于平均值,則表明粒子的鄰近搜索區(qū)域是具有前景的,因此應(yīng)采用增強(qiáng)局部搜索的策略.反之,如果個(gè)體的適應(yīng)度函數(shù)值大于平均值,則不采用局部搜索策略[33].

遺傳烏燕鷗算法在算法性能方面結(jié)合了烏燕鷗的全局優(yōu)化性能,使得在大范圍搜索的能力具有明顯優(yōu)勢(shì);同時(shí),在局部收斂時(shí)又結(jié)合了遺傳算法的優(yōu)勢(shì),使得在尋優(yōu)時(shí)規(guī)避局部最優(yōu)陷入的可能,并加深局部搜索的能力.二者結(jié)合后,不論是探索和利用之間的平衡,還是尋優(yōu)能力,都得到了改善,因此在算法的精度上得到提高,在收斂能力得到增強(qiáng),在收斂速度上得到改善,并且在后期的迭代過(guò)程中還能繼續(xù)維持其種群多樣性.

針對(duì)遺傳烏燕鷗的計(jì)算復(fù)雜度具體內(nèi)容如下:

在STOA-GA 中,設(shè)置種群規(guī)模為N,其中在一次迭代中使用STOA 更新位置的個(gè)體數(shù)是n1,利用GA 更新位置的個(gè)體數(shù)是n2,即N=n1+n2,決策空間維度為d,該模型的時(shí)間復(fù)雜度主要分為位置更新和評(píng)價(jià)目標(biāo)函數(shù)兩部分,其中,Cof為評(píng)價(jià)目標(biāo)函數(shù)的計(jì)算復(fù)雜度,Cos、Coc和Com分別為GA 算法中選擇、交叉和變異的計(jì)算復(fù)雜度.由式(12)和式(13)可知,評(píng)價(jià)目標(biāo)函數(shù)的計(jì)算復(fù)雜度是一致的,位置更新的復(fù)雜度具有明顯差別.因此 只需對(duì)后者進(jìn)行分析,從而評(píng)估計(jì)算復(fù)雜度的差異.在STOA-GA 中,根據(jù)平均適應(yīng)度值將種群分為兩部分,兩部分的計(jì)算復(fù)雜度不同.選擇、交叉和變異過(guò)程時(shí)GA 的主要代價(jià),計(jì)算復(fù)雜度約等于O(n1×(d+Coc+Cos+Com)).對(duì)于使用STOA的部分,由于每個(gè)個(gè)體都需要在避免碰撞的前提下聚集,因此需要根據(jù)式(6)和式(11)進(jìn)行位置更新,其計(jì)算復(fù)雜度則約為=O(n2×n×d).而在傳統(tǒng)STOA 算法中,位置更新的復(fù)雜度約為=O(n2×d),即.由式(12)和式(13)可以看出,對(duì)于位置更新的計(jì)算復(fù)雜度都有3 項(xiàng),顯然,前兩項(xiàng)的計(jì)算復(fù)雜度都小于STOA.對(duì)于第3 項(xiàng),由于變異發(fā)生的概率僅有5%,因此可暫不考慮,從而僅剩下對(duì)選擇和變異過(guò)程的計(jì)算復(fù)雜度未進(jìn)行對(duì)比,可以看出在總體上計(jì)算復(fù)雜度相差不多,后續(xù)實(shí)驗(yàn)也證明了混合算法的計(jì)算復(fù)雜度具有一定競(jìng)爭(zhēng)力.

STOA-GA 算法的偽代碼和流程見(jiàn)圖1 和表1,可以看出,STOA-GA 通過(guò)比較平均適應(yīng)度值,使前期大范圍搜索時(shí)采用STOA 的收斂方式,而在后期局部搜索時(shí)采用GA 的收斂方式,從而減小傳統(tǒng)STOA容易陷入局部最優(yōu)的可能并增強(qiáng)收斂能力.也就是說(shuō),遺傳烏燕鷗算法是將GA 作為一個(gè)部分嵌入到烏燕鷗算法中,增強(qiáng)局部搜索能力,提高搜索效率并在后期迭代中保持種群多樣性,具有更優(yōu)秀的搜索能力和收斂精度.

圖1 STOA-GA 的流程圖Fig.1 Framework of the STOA-GA

算法1.STOA-GA 算法的偽代碼

2 混合優(yōu)化算法模型

2.1 支持向量機(jī)

支持向量機(jī)是Cortes 等[34]開(kāi)發(fā)的一種非線性二分類(lèi)器,其原理是在高維向量空間中構(gòu)造線性分離超平面,模型定義為特征空間中間隔最大的分類(lèi)器,再轉(zhuǎn)化為凸二次規(guī)劃問(wèn)題的求解.和其他機(jī)器學(xué)習(xí)方法相比,支持向量機(jī)具有較高的計(jì)算效率和很強(qiáng)的應(yīng)用能力,因此廣泛用于監(jiān)督學(xué)習(xí)、分類(lèi)和回歸中.在線性可分的數(shù)據(jù)集中,支持向量機(jī)構(gòu)造最優(yōu)分離超平面將樣本進(jìn)行分類(lèi).設(shè)兩類(lèi)線性可分的數(shù)據(jù)集T={(x1,y1),···,(xn,yn)},xi ∈Rn,yi ∈{-1,1}.如圖2 所示,空心圓和實(shí)心圓代表兩類(lèi)數(shù)據(jù)集.H為最優(yōu)超平面,H1和H2為兩類(lèi)樣本的邊界,H1和H2之間的間隔稱為分類(lèi)間隔,落在H1和H2上的點(diǎn)稱為支持向量.

圖2 SVM 最優(yōu)超平面示意圖Fig.2 SVM optimal hyperplane diagram

雖然線性分離超平面能夠達(dá)到最優(yōu)分類(lèi),但是在多數(shù)情況下屬于不同類(lèi)別的數(shù)據(jù)點(diǎn)不能夠明確地分離,線性分類(lèi)將會(huì)導(dǎo)致大量錯(cuò)誤分類(lèi),因此,就需要將原始特征空間映射到更高維空間,找到一個(gè)可以正確分離數(shù)據(jù)點(diǎn)的超平面.

其核函數(shù)[21]主要有以下幾種形式:

1)線性核函數(shù)形式:

2)多項(xiàng)式核函數(shù)形式:

3)高斯核函數(shù)形式:

式中,K(xi,xj) 為核函數(shù).由于線性核函數(shù)主要解決線性可分問(wèn)題,而多項(xiàng)式核函數(shù)所要調(diào)節(jié)參數(shù)過(guò)多,因此本文后續(xù)實(shí)驗(yàn)選取可以映射到無(wú)窮維的高斯核函數(shù).

2.2 特征選擇二進(jìn)制方案

特征選擇是把數(shù)據(jù)從高維降到低維的一種方法,在某個(gè)特定準(zhǔn)則下,通過(guò)從初始特征空間尋找最優(yōu)特征子集來(lái)得到最優(yōu)分類(lèi)結(jié)果[35],其評(píng)價(jià)標(biāo)準(zhǔn)主要是以分類(lèi)精度和所選特征個(gè)數(shù)所決定.特征空間一般包括相關(guān)特征、無(wú)關(guān)特征和冗余特征三種.相關(guān)特征是指對(duì)分類(lèi)結(jié)果具有明顯影響的重要特征,無(wú)關(guān)特征是指對(duì)分類(lèi)結(jié)果不產(chǎn)生積極影響的特征,冗余特征則是與相關(guān)特征有所關(guān)聯(lián),但冗余的選取不會(huì)對(duì)分類(lèi)結(jié)果有明顯改善.因此,如何選取最優(yōu)特征子集,避免無(wú)關(guān)特征和冗余特征就顯得十分重要.

根據(jù)Dash 等[36]的特征框架,特征選擇主要由生成特征子集、評(píng)估特征子集、停止準(zhǔn)則和結(jié)果驗(yàn)證4 個(gè)部分構(gòu)成,基于特征評(píng)價(jià)策略可分為開(kāi)環(huán)法和閉環(huán)法[37].原始數(shù)據(jù)采用某種搜索策略搜索特征子集,接著利用評(píng)價(jià)函數(shù)評(píng)價(jià)所搜尋到的特征子集,當(dāng)達(dá)到了停止準(zhǔn)則后,便停止繼續(xù)生成新的特征子集,輸出此時(shí)最優(yōu)特征子集,否則將會(huì)繼續(xù)產(chǎn)生新的特征子集,直到達(dá)到停止標(biāo)準(zhǔn).本文 選取隨機(jī)搜索策略作為特征選擇的搜索策略,選擇算法迭代次數(shù)作為算法停止準(zhǔn)則,即達(dá)到實(shí)驗(yàn)所設(shè)定的迭代次數(shù)便結(jié)束算法過(guò)程.

特征選擇的實(shí)質(zhì)就是對(duì)問(wèn)題進(jìn)行二元優(yōu)化,因此在使用烏燕鷗優(yōu)化算法處理特征選擇問(wèn)題時(shí),應(yīng)當(dāng)設(shè)定好二進(jìn)制方案,由于特征選擇的解限于{0,1}之間,因此用0 或1 表示解的結(jié)果,0 表示并未選擇此特征,1 表示選擇此特征[38].但是,在原始數(shù)據(jù)集中,數(shù)據(jù)取值范圍參差不齊,小到0~1,大到千萬(wàn)級(jí)以上,這種數(shù)據(jù)會(huì)嚴(yán)重影響SVM 的分類(lèi)效果,因此需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理.為了將數(shù)據(jù)集數(shù)據(jù)歸一化到[0,1]范圍,利用如下公式進(jìn)行處理:

式中,X表示原始數(shù)據(jù),Xnorm表示歸一化后的數(shù)據(jù),Xmin和Xmax分別代表此特征取值范圍的最小值和最大值.

2.3 基于遺傳烏燕鷗的優(yōu)化特征選擇模型

在構(gòu)建SVM 的分類(lèi)模型時(shí),需要確定C和ζ兩個(gè)參數(shù).C為懲罰因子,代表分類(lèi)過(guò)程對(duì)誤差的寬容度,C越大,說(shuō)明越不能容忍分類(lèi)錯(cuò)誤,因此常出現(xiàn)過(guò)擬合的狀況,而C越小則會(huì)產(chǎn)生較大誤差,出現(xiàn)欠擬合問(wèn)題;ζ稱為松弛變量,決定了數(shù)據(jù)映射到高維空間后的分布情況,ζ越大,樣本相離超平面越遠(yuǎn),支持向量越少,而ζ越小,樣本相離超平面越近,支持向量越多.因此,SVM 分類(lèi)結(jié)果的好壞與C和ζ的參數(shù)選擇密不可分.

原有模式下的SVM,是根據(jù)所有特征先優(yōu)化SVM 參數(shù)再進(jìn)行特征選擇,這就導(dǎo)致SVM 選擇的關(guān)鍵特征在實(shí)際特征選擇過(guò)程中并沒(méi)有被選擇,從而數(shù)據(jù)分類(lèi)效果并不理想;反之,如果先進(jìn)行特征選擇再優(yōu)化參數(shù),那么每次訓(xùn)練過(guò)程都需要二次尋優(yōu),耗費(fèi)時(shí)間成本過(guò)大,難以應(yīng)用到實(shí)際問(wèn)題中.因此,本文提出將SVM 的參數(shù)優(yōu)化和特征選擇同時(shí)進(jìn)行的方法.搜索的維度變化為:懲罰因子C、松弛變量ζ和代表數(shù)據(jù)集特征的二進(jìn)制字符串.

圖3 為每個(gè)個(gè)體搜索維度示意圖.前兩個(gè)維度用來(lái)搜索懲罰因子C和松弛變量ζ,其余的維度用來(lái)搜索數(shù)據(jù)集中每個(gè)二進(jìn)制特征,n為數(shù)據(jù)集中的特征個(gè)數(shù).本文利用優(yōu)化算法,同時(shí)對(duì)所有維度進(jìn)行優(yōu)化,對(duì)于SVM 的兩個(gè)參數(shù),粒子正常根據(jù)優(yōu)化算法搜索其最優(yōu)值,而對(duì)于數(shù)據(jù)集的n個(gè)特征,需要先對(duì)數(shù)據(jù)集的數(shù)據(jù)進(jìn)行歸一化處理,使數(shù)據(jù)都?xì)w一在[0,1],此時(shí)便開(kāi)始對(duì)特征數(shù)據(jù)進(jìn)行二進(jìn)制處理,即:如果l1,l2,···,ln的解≥0.5 則該特征被選用,即取值為1;否則為0,特征不被選用.因此,l1,l2,···,ln的解便限于{0,1},接著利用遺傳烏燕鷗方法搜索二進(jìn)制特征,1 即為選用該特征,0 為未選用[21],最后將選出特征和SVM 的兩個(gè)參數(shù)共同輸入到SVM 里,使用交叉驗(yàn)證計(jì)算適應(yīng)度值.

圖3 每個(gè)個(gè)體的搜索維度示意圖Fig.3 Schematic of search dimensions for each individual

本文模型在選擇SVM 的兩個(gè)參數(shù)同時(shí),進(jìn)行特征選擇過(guò)程,保證了所選特征的準(zhǔn)確性,避免落下關(guān)鍵特征,減少冗余特征,從而提高了分類(lèi)準(zhǔn)確度;相對(duì)于先進(jìn)行特征選擇再優(yōu)化參數(shù)的方式而言,本文方法又在一定力度上減少了算法運(yùn)行時(shí)間,因此,同步特征選擇和優(yōu)化參數(shù)更加可取.

算法2.基于遺傳烏燕鷗算法的同步優(yōu)化特征選擇的詳細(xì)過(guò)程如下[39]:

輸入.數(shù)據(jù)集D,種群規(guī)模N,最大迭代次數(shù)Maxiterations,參數(shù)C的最大值Cmax和最小值Cmin,參數(shù)ζ的最大值ζmax和最小值ζmin,適應(yīng)度函數(shù)的權(quán)重α和β,STOA-GA 所涉及的參數(shù)如Cf、CB、u,v、Pc和Pm.

輸出.優(yōu)化的特征子集,最佳參數(shù)C和ζ,對(duì)應(yīng)的分類(lèi)精度和適應(yīng)度函數(shù)值.

1) 對(duì)數(shù)據(jù)集D內(nèi)的數(shù)據(jù)歸一化處理使數(shù)據(jù)都?xì)w一在[0,1]之間,然后將每一個(gè)特征進(jìn)行二進(jìn)制處理使特征的解限于{0,1}之間,并將數(shù)據(jù)集分為訓(xùn)練集D1和測(cè)試集D2;

2) 根據(jù)種群規(guī)模N和參數(shù)的最大最小值產(chǎn)生初始化種群;

3)將產(chǎn)生的支持向量的參數(shù)C,ζ和對(duì)應(yīng)的特征子集輸入到SVM 中完成訓(xùn)練和測(cè)試,由式(20)計(jì)算出粒子的適應(yīng)度值fi;

4)根據(jù)適應(yīng)度值fi求出;

5)如果fi <,根據(jù)GA 的選擇、交叉和變異操作更新個(gè)體位置,否則根據(jù)STOA 的式(6)和式(11)更新當(dāng)前個(gè)體位置;

6)將搜索后二進(jìn)制特征的解為1 的特征從數(shù)據(jù)集挑選出來(lái),并將數(shù)據(jù)集中選出的特征C和ζ、一起輸入SVM,構(gòu)造STOA-GA-SVM 分類(lèi)器;

7)使用交叉驗(yàn)證計(jì)算適應(yīng)度值,若有比當(dāng)前最優(yōu)解更好的解,則更新最優(yōu)解;

8)判斷是否達(dá)到最大迭代次數(shù),若達(dá)到則輸出最優(yōu)值,否則跳轉(zhuǎn)到3)繼續(xù)運(yùn)行.

基于遺傳烏燕鷗算法的同步特征選擇和SVM優(yōu)化的流程如圖4 所示.

圖4 混合算法的流程圖Fig.4 Hybrid algorithm flow chart

3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證遺傳烏燕鷗(STOA-GA)算法的有效性,本文采用UCI 數(shù)據(jù)庫(kù)[40]中16 個(gè)經(jīng)典數(shù)據(jù)集(其中包括6 個(gè)維數(shù)大于100 的高維數(shù)據(jù)集)進(jìn)行仿真實(shí)驗(yàn),從分類(lèi)精度平均值、所選特征個(gè)數(shù)平均值、適應(yīng)度平均值、標(biāo)準(zhǔn)差和運(yùn)行時(shí)間平均值幾個(gè)方面來(lái)對(duì)本文方法進(jìn)行評(píng)估.同時(shí),為保證實(shí)驗(yàn)客觀全面,本文還選取了其他幾種已經(jīng)應(yīng)用在特征選擇領(lǐng)域的算法進(jìn)行對(duì)比,分別是PSO、SHO、EPO 和未對(duì)其本身做出改進(jìn)的GA 及STOA.結(jié)果表明,本文的混合算法能夠準(zhǔn)確應(yīng)用在特征選擇上,提高分類(lèi)精度的同時(shí)避免選擇無(wú)關(guān)冗余特征,對(duì)數(shù)據(jù)預(yù)處理有很大的幫助.

關(guān)于每個(gè)數(shù)據(jù)集的特征個(gè)數(shù)、樣本數(shù)和類(lèi)別數(shù)詳細(xì)信息見(jiàn)表1.

表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 The data sets used in the experiments

在實(shí)驗(yàn)中,選擇其他5 個(gè)算法作為對(duì)比算法,種群大小設(shè)置為30,最大迭代次數(shù)取100,為保證公平的原則,所有實(shí)驗(yàn)都在Intel(R) Core (TM) i5-5200U CPU @2.20 GHz 運(yùn)行環(huán)境下,使用MATLAB R2014b 進(jìn)行的,運(yùn)行次數(shù)為30.對(duì)比算法的參數(shù)設(shè)置見(jiàn)表2.

表2 對(duì)比算法的參數(shù)Table 2 Parameters of the compared algorithms

3.2 經(jīng)典UCI 數(shù)據(jù)集實(shí)驗(yàn)

為了更加全面客觀地證明本文的優(yōu)化算法在同時(shí)使用支持向量機(jī)和特征選擇上的良好性能,本文采用以下6 個(gè)評(píng)價(jià)指標(biāo)對(duì)本文方法進(jìn)行測(cè)評(píng):

1)分類(lèi)精度平均值:表示實(shí)驗(yàn)中對(duì)于數(shù)據(jù)集的分類(lèi)準(zhǔn)確度的平均值,平均分類(lèi)精度越高分類(lèi)效果越好.其數(shù)學(xué)表達(dá)式如下:

式中,Accuracy(i)表示第i次實(shí)驗(yàn)中的分類(lèi)準(zhǔn)確度,M為運(yùn)行次數(shù).

2)所選特征數(shù)平均值:表示實(shí)驗(yàn)過(guò)程中所選擇的特征個(gè)數(shù)的平均值,所選特征越少,說(shuō)明去掉無(wú)關(guān)冗余信息效果越明顯,公式如下:

式中,Size(i)代表算法在第i次實(shí)驗(yàn)中所選擇的特征數(shù).

3)適應(yīng)度函數(shù):特征選擇主要的兩個(gè)目標(biāo)是分類(lèi)精度和所選特征個(gè)數(shù),理想結(jié)果就是選擇特征個(gè)數(shù)較少同時(shí)分類(lèi)精度較高.本文依據(jù)這兩個(gè)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)遺傳烏燕鷗算法在支持向量機(jī)特征選擇的應(yīng)用效果.所選適應(yīng)度函數(shù)公式如下:

式中,參數(shù)α為分類(lèi)精確性,代表分類(lèi)精確度在適應(yīng)度函數(shù)中所占比重,本文α取值為0.99[41].γR(D)代分類(lèi)錯(cuò)誤率,其表達(dá)式見(jiàn)式(21).其中,Accuracy表示分類(lèi)的準(zhǔn)確度;參數(shù)β為所選特征重要性,表示所選特征個(gè)數(shù)在適應(yīng)度函數(shù)中所占權(quán)重,其中β=1-α,R表示所選特征子集的長(zhǎng)度,即式(19) 的Size,N表示數(shù)據(jù)集的特征總數(shù).

4)適應(yīng)度平均值:表示實(shí)驗(yàn)中算法多次計(jì)算所得適應(yīng)度解的平均值,適應(yīng)度平均值越小說(shuō)明特征選擇在平衡加強(qiáng)分類(lèi)精度和減少所選特征個(gè)數(shù)上的能力越強(qiáng),可表示為:

式中,Fitness(i)表示算法第i次實(shí)驗(yàn)中的適應(yīng)度值.

5)適應(yīng)度標(biāo)準(zhǔn)差(std):表示實(shí)驗(yàn)中優(yōu)化算法的穩(wěn)定性能力,標(biāo)準(zhǔn)差越小說(shuō)明算法穩(wěn)定性越好,表示如下:

6)運(yùn)行時(shí)間平均值:表示在實(shí)驗(yàn)過(guò)程耗費(fèi)時(shí)間長(zhǎng)短.眾所周知,在工程實(shí)際中,時(shí)間成本也是重要因素.因此,在評(píng)價(jià)標(biāo)準(zhǔn)中加上此項(xiàng)來(lái)判定算法的優(yōu)越性,計(jì)算公式如下:

式中,Runtime(i)表示算法第i次實(shí)驗(yàn)中的時(shí)間.

由圖5 可以看出,在分類(lèi)精度上,除Hepatitis 和LSVT Voice 數(shù)據(jù)集外,本文算法能夠準(zhǔn)確對(duì)數(shù)據(jù)集進(jìn)行劃分,性能是最好的.由圖5 還可看出,LSVT Voice 的整體分類(lèi)精度不是十分優(yōu)秀,此次實(shí)驗(yàn)屬于偶然事件,不能一概而論.值得注意的是,本文算法在Tic-Tac-Toe 和Divorce predictors 兩個(gè)測(cè)試集中都達(dá)到了100%的分類(lèi)正確率,在Detect Malaciou 數(shù)據(jù)上也達(dá)到了99.73%的分類(lèi)效果.由此可以證明,本文方法在同步特征選擇和支持向量機(jī)上是具有競(jìng)爭(zhēng)力的.

圖5 各算法分類(lèi)精度平均值Fig.5 The average accuracy of each algorithm

圖6 是實(shí)驗(yàn)過(guò)程中所選擇的特征個(gè)數(shù)平均值,可以看出,在多數(shù)情況下,本文的遺傳烏燕鷗算法所選的特征個(gè)數(shù)都相對(duì)較少.雖然在Wine、Forest types 和Dermatology 數(shù)據(jù)集上本文算法并未得到最理想的結(jié)果,但是在大于100 維的數(shù)據(jù)集測(cè)試中,本文算法都是最優(yōu)秀的.因此,相對(duì)于其他對(duì)比算法,本文的遺傳烏燕鷗模型在數(shù)據(jù)降維問(wèn)題的處理上具有優(yōu)越性.

圖6 各算法所選特征平均值Fig.6 The average value of the selected features of each algorithm

運(yùn)行時(shí)間平均值見(jiàn)表3,可以看出,本文算法的時(shí)間優(yōu)勢(shì)并不十分明顯,這是由于本文方法是將烏燕鷗和遺傳混合,因此導(dǎo)致其時(shí)間上會(huì)較烏燕鷗原算法稍有不足.但通過(guò)仔細(xì)研究,可以看出雖然本文算法運(yùn)行時(shí)間不是最短的卻仍具有一定吸引力.因?yàn)闉跹帔t算法本身收斂較快容易早熟,因此將遺傳算法和其融合后相較于普通遺傳算法運(yùn)行時(shí)間得到極大改善.同時(shí)可以看出,由于烏燕鷗本身時(shí)間上的優(yōu)越性也導(dǎo)致在多數(shù)情況下本文的遺傳烏燕鷗算法和其他對(duì)比算法相比仍具有時(shí)間優(yōu)越性,所以遺傳烏燕鷗算法在這方面的應(yīng)用仍舊具有潛力.

表3 各算法運(yùn)行時(shí)間平均值(s)Table 3 The average time of each algorithm (s)

結(jié)合前面所提到的分類(lèi)精度平均值和特征選擇個(gè)數(shù)平均值,可以驗(yàn)證本文的遺傳烏燕鷗算法在同步特征選擇和支持向量機(jī)的使用上具有十分廣闊的前景,為更加清晰準(zhǔn)確地證明這一點(diǎn),表4和表5 對(duì)適應(yīng)度函數(shù)結(jié)果進(jìn)行了評(píng)價(jià),可以看出,本文算法在不同維度的情況下,都能在平均值和標(biāo)準(zhǔn)差上表現(xiàn)出良好的性能,因此可以證明遺傳烏燕鷗同步優(yōu)化支持向量機(jī)的特征選擇具有更高的精確度和相對(duì)優(yōu)異的穩(wěn)定性.圖7 是算法在30 次運(yùn)行中的最后一次實(shí)驗(yàn)的適應(yīng)度值繪制成的收斂曲線,完整地表現(xiàn)了每個(gè)數(shù)據(jù)集的搜索收斂過(guò)程.由圖7 可以看出,相對(duì)于其他對(duì)比算法,不論數(shù)據(jù)特征的維度如何,遺傳烏燕鷗算法依舊能表現(xiàn)出較快的收斂速度、較高的收斂精度和較強(qiáng)的收斂能力.因此,通過(guò)實(shí)驗(yàn)更加清晰準(zhǔn)確地驗(yàn)證了本文算法具有可行性.

圖7 各算法適應(yīng)度函數(shù)收斂曲線圖Fig.7 The convergence curve of fitness of each algorithm

表4 各算法適應(yīng)度函數(shù)平均值Table 4 The average fitness of each algorithm

表5 各算法適應(yīng)度函數(shù)標(biāo)準(zhǔn)差Table 5 The standard deviation of fitness of each algorithm

3.3 本文算法與其他算法實(shí)驗(yàn)

為了更加全面而客觀地評(píng)判本文模型在數(shù)據(jù)預(yù)處理領(lǐng)域具有較好的前景,故將本文算法與其他常見(jiàn)的分類(lèi)方法進(jìn)行對(duì)比,分別應(yīng)用決策樹(shù)法(Decision trees,DT)、樸素貝葉斯法(Native Bayes,NB)、KNN、SVM 和本文遺傳烏燕鷗算法(STOAGA)對(duì)5 組數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析.同時(shí),為更加詳細(xì)地對(duì)比普通分類(lèi)方法,引入在普通二分類(lèi)常用指標(biāo)特異性和敏感性.特異性(Specificity)指模型對(duì)負(fù)樣本的預(yù)測(cè)能力,特異性越高說(shuō)明模型對(duì)負(fù)樣本的識(shí)別率越好.敏感性(Sensitivity))指模型對(duì)正樣本的識(shí)別能力,敏感性越高,模型對(duì)正樣本的分辨率越準(zhǔn)確,二者表示如下.

式中,TN(True negative)是指將負(fù)樣本分類(lèi)為負(fù)樣本的個(gè)數(shù).FP(False positive)是指將負(fù)樣本分類(lèi)為正樣本的個(gè)數(shù).TP(True positive)是指將正樣本分類(lèi)為正樣本的個(gè)數(shù).FN(False negative)是指將正樣本分類(lèi)為負(fù)樣本的個(gè)數(shù).

由于敏感性和特異性是二分類(lèi)問(wèn)題時(shí)的分類(lèi)標(biāo)準(zhǔn),故選取上述數(shù)據(jù)集中部分二分類(lèi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表6~8.可以看出,對(duì)于原始SVM分類(lèi)方法,本文的應(yīng)用優(yōu)化和特征選擇并行的模型對(duì)各項(xiàng)指標(biāo)都有明顯提升,而DT 和NB 方法雖然實(shí)驗(yàn)效果不足,但是由于其經(jīng)典性,目前仍有研究學(xué)者使用.KNN 是另一種目前較為熱門(mén)的分類(lèi)方式,但是從實(shí)驗(yàn)結(jié)果可以看出,本文的模型在多數(shù)情況下都更具潛力,分類(lèi)效果更為優(yōu)異.

表6 各算法特異性(%)Table 6 The specificity of each algorithm (%)

經(jīng)過(guò)這3 個(gè)指標(biāo)的論證,本文模型在數(shù)據(jù)處理中應(yīng)用較為穩(wěn)定,能夠較為準(zhǔn)確地分類(lèi)相關(guān)數(shù)據(jù).通過(guò)對(duì)比經(jīng)典的數(shù)據(jù)分類(lèi)方法的實(shí)驗(yàn)結(jié)果,可以看出,本文方法在多數(shù)情況下都是最優(yōu)狀態(tài),可以有效提高分類(lèi)準(zhǔn)確性和適應(yīng)性.因此,本文方法是行之有效的,能夠更好地改善分類(lèi)特異性、敏感性和準(zhǔn)確度.結(jié)合第3.3 節(jié)優(yōu)化算法方面的比較,能夠全面細(xì)致地證明本文的模型在數(shù)據(jù)預(yù)處理領(lǐng)域上具有廣闊的應(yīng)用前景,可以處理冗余復(fù)雜的數(shù)據(jù)集,為后續(xù)數(shù)據(jù)處理工作提供強(qiáng)大助力.

4 STOA-GA 算法在乳腺癌數(shù)據(jù)集中的應(yīng)用

醫(yī)學(xué)診斷領(lǐng)域是數(shù)據(jù)分類(lèi)的重要領(lǐng)域,在面對(duì)冗雜繁多的臨床數(shù)據(jù)時(shí),醫(yī)生很難從中獲取有效信息.因此,越來(lái)越多的醫(yī)療工作者開(kāi)始選取數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)預(yù)處理,利用臨床數(shù)據(jù)預(yù)測(cè)病情.乳腺癌是一種常見(jiàn)女性疾病,自20 世紀(jì)70 年代末以來(lái),全球乳腺癌患病率一直呈上升趨勢(shì),而中國(guó)的發(fā)病率增長(zhǎng)速度更是高出高發(fā)國(guó)家1~2 個(gè)百分點(diǎn).因此,若能根據(jù)臨床數(shù)據(jù)對(duì)各項(xiàng)指標(biāo)作出預(yù)測(cè),就能更好地預(yù)防該病的發(fā)生,從而有效減少患病率.

本文采用盧布爾雅那腫瘤研究所公開(kāi)的乳腺癌數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)[40].該數(shù)據(jù)集包含286 例人員的記錄(其中201 名乳腺癌未復(fù)發(fā)患者和85 名復(fù)發(fā)患者),每位人員包含9 個(gè)特征,表9給出各特征的詳細(xì)信息.

表10 為本文算法在乳腺癌數(shù)據(jù)集運(yùn)行10 次的結(jié)果,其中平均分類(lèi)準(zhǔn)確率為97.51%,表明在絕大多數(shù)樣本中,本文模型可以正確分類(lèi)測(cè)試數(shù)據(jù),平均選擇特征個(gè)數(shù)為4.5,減少了50%的特征,有效地降低了數(shù)據(jù)的維度.其中,第5 次實(shí)驗(yàn)的分類(lèi)準(zhǔn)確率最高,為98.21%,所選特征數(shù)為4,適應(yīng)度值為0.0222,運(yùn)行時(shí)長(zhǎng)為62.09 秒.特異性和敏感性可以評(píng)估模型的預(yù)測(cè)能力,其值越高,漏診概率就越低,綜上所述,遺傳烏燕鷗算法對(duì)此數(shù)據(jù)集的處理效果十分優(yōu)秀,更有利于醫(yī)生診斷.

表7 各算法敏感性(%)Table 7 The sensitivity of each algorithm (%)

表8 各算法精確度(%)Table 8 The accuracy of each algorithm (%)

表9 乳腺癌數(shù)據(jù)集特征信息Table 9 The breast cancer data set feature information

表10 STOA-GA 算法的10 次實(shí)驗(yàn)運(yùn)行結(jié)果Table 10 The results of 10 experiments of STOA-GA

表11 為10 次實(shí)驗(yàn)均選擇的特征,代表著這些特征是區(qū)分是否復(fù)發(fā)患病的關(guān)鍵特征.這些特征有助于幫助醫(yī)生判斷是否存在乳腺癌復(fù)發(fā)的可能.當(dāng)患者的臨床特征與表11 中的特征大致相符時(shí),就會(huì)有復(fù)發(fā)風(fēng)險(xiǎn),需要進(jìn)行進(jìn)一步的診斷.根據(jù)選擇特征可以看出,患病特征含有腫瘤過(guò)大且惡性程度高、淋巴結(jié)個(gè)數(shù)過(guò)多和有結(jié)節(jié)冒,那么就極有可能出現(xiàn)復(fù)發(fā)情況.

表11 10 次實(shí)驗(yàn)均入選的特征Table 11 The selected feature of 10 experiments

5 結(jié)束語(yǔ)

本文針對(duì)傳統(tǒng)烏燕鷗算法中探索和利用之間的不平衡、種群多樣性低等問(wèn)題,提出遺傳烏燕鷗算法,改善了算法的局部搜索能力和收斂能力,從而提高收斂精度,以便獲得更加優(yōu)秀的解.同時(shí),將遺傳烏燕鷗算法與支持向量機(jī)和特征選擇結(jié)合,對(duì)特征和支持向量機(jī)的兩個(gè)參數(shù)同時(shí)優(yōu)化,提高對(duì)數(shù)據(jù)的分析學(xué)習(xí)能力.通過(guò)對(duì)經(jīng)典UCI 數(shù)據(jù)集進(jìn)行分類(lèi),并與STOA、GA、PSO、SHO 和EPO 等方法對(duì)比,實(shí)驗(yàn)結(jié)果可以看出,本文方法的最優(yōu)搜索能力更加具有優(yōu)勢(shì),可以有效完成數(shù)據(jù)分類(lèi)工作.對(duì)于乳腺癌臨床數(shù)據(jù)的成功應(yīng)用,也證明了本文方法在篩選特征和分類(lèi)精度上確有實(shí)效,為數(shù)據(jù)預(yù)處理提供了理論依據(jù),使數(shù)據(jù)得到更妥善的利用.對(duì)于未來(lái)的研究,可以更加深入研究?jī)?yōu)化算法的混合模型,使其能夠更好的應(yīng)用于數(shù)據(jù)預(yù)處理領(lǐng)域.

猜你喜歡
分類(lèi)特征優(yōu)化
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
分類(lèi)算一算
一道優(yōu)化題的幾何解法
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
主站蜘蛛池模板: 国产欧美视频综合二区| 欧美成人免费| 无码高潮喷水专区久久| 亚洲av无码成人专区| 18黑白丝水手服自慰喷水网站| 91精品啪在线观看国产| 综合五月天网| 欧美精品成人一区二区在线观看| 小说区 亚洲 自拍 另类| 亚洲日韩国产精品无码专区| 免费看的一级毛片| 欧美一级高清片欧美国产欧美| 伊人AV天堂| 91精品免费高清在线| 国产精品乱偷免费视频| 亚洲色欲色欲www在线观看| 亚洲欧洲日韩综合| 67194亚洲无码| 亚洲成人黄色在线观看| 国产精品无码一二三视频| 国产特一级毛片| 亚洲综合片| 久久中文字幕2021精品| 色综合婷婷| 日韩毛片免费视频| 国产精品毛片一区| 久久午夜夜伦鲁鲁片无码免费| 人妻少妇乱子伦精品无码专区毛片| 成年看免费观看视频拍拍| 久精品色妇丰满人妻| 亚洲第一中文字幕| 99re在线免费视频| 91在线播放国产| 欧美一级在线播放| 黄色不卡视频| 曰韩人妻一区二区三区| 97一区二区在线播放| 性视频久久| 91美女在线| 中文字幕无码中文字幕有码在线| 国产成人高清亚洲一区久久| 亚洲一区二区三区在线视频| 亚洲欧美另类色图| 国产在线精彩视频二区| 国产91无码福利在线| 天堂av高清一区二区三区| 97影院午夜在线观看视频| 国产欧美视频在线观看| 亚洲国产91人成在线| 国产原创自拍不卡第一页| 久久精品中文字幕少妇| 精品国产自在现线看久久| 91毛片网| 热久久这里是精品6免费观看| 亚洲综合久久成人AV| 人妻中文久热无码丝袜| 亚洲欧美一级一级a| 成人av专区精品无码国产 | 精品无码日韩国产不卡av| 欧美国产日韩在线| 99久久99视频| 国产欧美又粗又猛又爽老| vvvv98国产成人综合青青| 动漫精品中文字幕无码| 一本大道AV人久久综合| 91青青草视频在线观看的| 色综合中文综合网| 五月综合色婷婷| 高清无码一本到东京热| 国产探花在线视频| 天天婬欲婬香婬色婬视频播放| 青青青亚洲精品国产| 国产精品私拍99pans大尺度| 国产欧美日韩91| 日韩欧美国产综合| 全色黄大色大片免费久久老太| 成AV人片一区二区三区久久| 亚洲va视频| 国产自在线拍| 亚洲无码精彩视频在线观看| 久久亚洲精少妇毛片午夜无码| 五月天婷婷网亚洲综合在线|