999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合粒子群和改進細菌覓食的不平衡數(shù)據(jù)分類

2020-05-20 01:19:12黃建瓊郭文龍
計算機工程與應用 2020年10期
關鍵詞:分類優(yōu)化

黃建瓊,郭文龍

1.福州外語外貿(mào)學院 理工學院,福州 350202

2.福建江夏學院 電子信息科學學院,福州 350108

1 前言

在機器學習中,將數(shù)據(jù)集類別分布不平衡的現(xiàn)象稱為不平衡問題。采用傳統(tǒng)算法解決此類問題時,分類結果往往偏向多數(shù)分類,導致少數(shù)分類無法被正確識別出來。此外,傳統(tǒng)算法基本是基于總體分類最大化來訓練分類器的,這樣會忽略一些樣本的錯誤分類,從而影響傳統(tǒng)分類器的分類結果[1-3]。然而在許多實際應用中,少量樣本卻比大量樣本更有價值,如銀行欺詐用戶識別、醫(yī)學癌癥診斷以及網(wǎng)絡黑客入侵等[4-8]。

不平衡數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中一個極其重要的問題,目前已有許多算法應用在數(shù)據(jù)挖掘上,如K-最近鄰居算法(K-Nearest Neighbor,KNN)、決策樹算法(Decision Tree,DT)、人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)和遺傳算法(Genetic Algorithm,GA)等[9-13]。這些算法通常假設數(shù)據(jù)集中各種分類的分布是均衡的,且可忽略某些分類。對此,部分學者提出一些處理不平衡數(shù)據(jù)的優(yōu)化方法,如調整訓練數(shù)據(jù)集的規(guī)模,使用代價敏感的分類器和滾雪球等[14-16]。而這些方法仍可能造成一般規(guī)則中的信息丟失和其他類別的錯誤分類,并最終導致數(shù)據(jù)過度匹配以及因過多的具體規(guī)則而引發(fā)的表現(xiàn)不佳。針對傳統(tǒng)的優(yōu)化方法無法解決數(shù)據(jù)集面臨的這些問題,智能優(yōu)化算法隨之而生。

近年來,一些文獻提出了混合PSO 與BFO 方法研究最優(yōu)化問題,如礦井自動化控制的主要參數(shù)最優(yōu)化、電動機控制系統(tǒng)、伺服系統(tǒng)的PID參數(shù)最優(yōu)化、電力系統(tǒng)穩(wěn)定性優(yōu)化、詞袋模型優(yōu)化及蛋白質亞細胞定位預測[17-21];另有文獻提出優(yōu)化粒子群算法應用于SVM_ELM 模型及改進粒子群算法用于特征選擇[22-23]。因為粒子群收斂速度快,搜索能力強,本文提出混合粒子群優(yōu)化算法與改進的細菌覓食優(yōu)化算法應用于不平衡數(shù)據(jù)分類,目的是找到一個有效的算法解決原始BFO容易陷入局部優(yōu)化的問題,并最終提高不平衡數(shù)據(jù)的準確性。

粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)是由Eberhart博士和Kennedy博士提出的[24]。它是一種模擬社會行為的群體啟發(fā)式算法,類似鳥群會聚集到最優(yōu)位置,以實現(xiàn)在多維空間中找到準確的目標。細菌覓食優(yōu)化算法(Bacterial Foraging Optimization,BFO)是Passino于2002年根據(jù)大腸桿菌在人體腸道覓食現(xiàn)象而提出的仿生智能算法[25]。BFO 算法主要包括趨化、聚集、復制和遷徙四個操作。細菌覓食趨化操作可加強細菌的局部搜索能力,但是細菌覓食的全局搜索能力只能通過遷徙來完成,且全局搜索能力受到遷徙概率的限制,因此容易陷入局部最優(yōu)。

本文提出了混合粒子群優(yōu)化算法與改進的細菌覓食優(yōu)化算法應用于不平衡數(shù)據(jù)分類。數(shù)據(jù)預處理采用Borderline-SMOTE 和 Tomek Link 的方法。然后,利用所提出的算法對不平衡數(shù)據(jù)進行分類。因為PSO 具有較強的全局搜索能力、個體效應和群體效應,將PSO 結合到改進的BFO 中,可改進原始BFO 的趨化操作過程。其次,改進復制操作過程,提高優(yōu)勝劣汰的選擇標準。最后,改進遷徙操作過程,防止種群陷入局部最優(yōu),防止進化停滯。所提出的算法可提高原BFO的全局搜索能力和搜索效率,提升不平衡數(shù)據(jù)的分類準確度。研究目的是獲得一個有效的算法來提高不平衡數(shù)據(jù)的準確性,以便解決原始BFO 容易陷入局部優(yōu)化的問題。卵巢癌微陣列數(shù)據(jù)是卵巢癌癥診斷的重要信息,本文利用實際卵巢癌微陣列數(shù)據(jù)進行分類。本文算法提高了卵巢癌診斷的準確率,有助于更準確地判斷和理解醫(yī)學中的卵巢癌信息。本研究可建立一個供醫(yī)療使用的數(shù)據(jù)庫系統(tǒng),以便于研究和跟蹤每個卵巢癌患者的病史。

2 細菌覓食優(yōu)化和粒子群優(yōu)化算法介紹

本文提出的混合算法是結合粒子群優(yōu)化算法與改進的細菌覓食優(yōu)化算法,并將該算法應用于不平衡數(shù)據(jù)分類。下面簡要描述粒子群優(yōu)化算法與細菌覓食優(yōu)化算法原理。

2.1 細菌覓食優(yōu)化算法

細菌覓食優(yōu)化算法(BFO)具有非常好的分類效果,是一種全局隨機搜索的進化算法。BFO 算法主要通過使用趨化、聚集、復制和遷徙四個操作的迭代計算來解決優(yōu)化問題[26]。在趨化操作中,大腸桿菌在覓食中有兩個基本運動:游動和翻滾。

通常,在環(huán)境條件惡劣的區(qū)域中,細菌會更經(jīng)常翻滾;在好的環(huán)境中,則更經(jīng)常游動。設細菌的種群規(guī)模為S,則P(j,k,l)={θi(j,k,l)|i=1,2,…,S},表示細菌種群S中,第i個細菌的第j次趨化操作、第k次復制操作及第l次遷徙操作。設H(i,j,k,l)表示第i個細菌在位置θ(j,k,l)的代價,Nc為趨化操作的一個方向上的細菌長度。那么,第i個細菌每一步的趨化操作可用以下式子表示:

其中,α(i)>0 代表細菌向前游動的步長單位,β(i)代表細菌翻滾后的隨機方向向量的單位向量。經(jīng)過趨化操作步驟后,開始聚集操作過程,在聚集操作中,除了細菌自身的覓食方式外,每個細菌個體會收到群體中的其他個體發(fā)來的呼吁信號。因此,在BFO算法中,每一個細菌個體覓食的決策行為主要受到兩個因素的影響:一是自身所獲得的信息,即在單位時間內(nèi)個體覓食的目的是最大化個體獲得的能量;二是來自其他個體的信息,即通過群體中的其他細菌來傳遞覓食信息。其聚集操作用式(2)表達如下:

其中,Hcc(θ,P(j,k,l))是附加在實際代價函數(shù)上的懲罰值,θm表示最優(yōu)細菌的位置,dattract、drepellent、wattract和wrepellent為可以被適當選擇的不同的系數(shù)。在聚集操作中,Ns為生物學動機選擇次數(shù)。聚集操作可用式子表示如下:

基于復制操作保持群體規(guī)模不變的原則,在復制過程中,按照細菌位置計算代價H的優(yōu)劣排序,把排在后面的50%細菌淘汰掉,剩余的一半細菌進行自我復制,各自生成一個與自己完全相同的新個體,即生成的新個體與原個體有相同的位置,也就說具有相同的覓食能力。經(jīng)過Nre復制步驟后,開始遷徙操作過程,設Ned為遷徙的步數(shù),遷徙伴隨著一定的概率Ped發(fā)生,當個體細菌滿足遷徙的概率Ped,個體會死亡,并在解空間的任一位置隨機產(chǎn)生一個新個體。新個體可能與原始細菌有不同的覓食能力,有利于跳出局部最優(yōu)解。細菌覓食優(yōu)化流程圖如圖1所示。

圖1 細菌覓食優(yōu)化算法的流程圖

2.2 粒子群優(yōu)化算法

粒子群優(yōu)化算法(PSO)是一種學習鳥群在自然界中覓食的仿生算法,把鳥當成空間中一個粒子,鳥群就是粒子群。PSO是基于群體(群體中的每個個體又稱為粒子)協(xié)作的隨機搜索算法,粒子會在每一次迭代中更新自己[27]。為找到最優(yōu)解,每個粒子根據(jù)它自身找到的最優(yōu)位置(pbest)與其他所有成員找到的最優(yōu)位置(gbest)這兩個因素來改變它的搜索方向[28]。Shi等學者將pbest稱為認知部分,gbest稱為社會部分。每個粒子攜帶相應的信息,即它自己的速度和位置。粒子根據(jù)自身的相應信息,來決定它運動的距離和方向。粒子群優(yōu)化算法(PSO)先初始化一組隨機分布到待搜索的解空間中的粒子,包括個體最優(yōu)位置pbest和全局最優(yōu)位置gbest兩個最優(yōu)因素。個體最優(yōu)位置是由每個粒子搜尋到的最優(yōu)解,而全局最優(yōu)位置則是由粒子群體獲得的最優(yōu)解。PSO算法采用正反饋機制,而使得它具有記憶功能。該算法原理簡單,參數(shù)較少,且適用性較好。粒子根據(jù)以下的公式來更新自己的速度和位置[29]:

圖2 粒子群優(yōu)化算法的流程圖

3 本文算法

針對BFO算法收斂速度慢以及易陷入局部最優(yōu)的缺點,本文提出了將粒子群優(yōu)化算法與改進的細菌覓食優(yōu)化算法相結合,應用于不平衡數(shù)據(jù)的分類。本文旨在提高卵巢癌微陣列資料分類的準確度,并提高醫(yī)生對卵巢癌微陣列資料判斷的實用性和準確性。本文用三個數(shù)據(jù)集測試所提出算法的性能。一個是卵巢癌微陣列數(shù)據(jù)(ovarian cancer microarray data),另兩個來自UCI數(shù)據(jù)庫的垃圾電子郵件數(shù)據(jù)集(spam email dataset)和動物園數(shù)據(jù)集(zoo dataset)。卵巢癌微陣列數(shù)據(jù)來自某醫(yī)院收集到的卵巢癌基因芯片真實數(shù)據(jù),共有9 600個特征,不平衡率約為1∶20[30]。使用的微陣列數(shù)據(jù)實例包括卵巢組織、陰道組織、宮頸組織和子宮肌層,包括6例良性卵巢腫瘤(BOT)、10例卵巢腫瘤(OVT)和25例卵巢癌(OVCA)。垃圾電子郵件數(shù)據(jù)集和動物園數(shù)據(jù)集來自UCI 數(shù)據(jù)庫。對于垃圾電子郵件數(shù)據(jù)集,共有4 601 封電子郵件,具有 58 個特征,如表 1 所示,不平衡率約為1∶1.54;對于動物園數(shù)據(jù)集,共有101 個實例,具有17個特征,如表2所示,不平衡率約為1∶25。

表1 垃圾電子郵件數(shù)據(jù)集的58個特征

表2 動物園數(shù)據(jù)集的17個特征

本文算法的流程圖如圖3 所示。首先進行參數(shù)初始化,數(shù)據(jù)預處理采用Borderline-SMOTE和Tomek Link的方法,并應用本文算法對不平衡數(shù)據(jù)進行分類。為了對少數(shù)類進行過采樣,設計了Borderline-SMOTE,其主要思想是通過從少數(shù)類產(chǎn)生合成實例來平衡類別[31]。對于少數(shù)類實例的子集,通過搜索得到k個最近鄰。將k近鄰定義為歐氏距離和mi之間的最小距離,并從中隨機選擇n個合成實例,記錄為Yj,j=1,2,…,n,以創(chuàng)建新的少數(shù)實例mnew,如式(6)所述,其中rand是[0,1]之間的隨機數(shù)。

圖3 本文算法的流程圖

Tomek Link 為一種數(shù)據(jù)清洗技術,能被有效地應用于消除采樣方法中的重疊[32]。Tomek Link 用于刪除類之間不必要的重疊,直到屬于同一類中最小距離處的最近鄰對。假設一對最小歐氏距離的最近鄰(mi,mj)屬于不同的類,d(mi,mj)表示mi和mj間的歐幾里德距離。如果不存在滿足式(7)的實例ml,則(mi,mj)為一對Tomek Link。

在本文中,用于SMOTE的參數(shù)k設置為k=3。在對數(shù)據(jù)進行預處理之后,產(chǎn)生θi。隨后,執(zhí)行本文算法。針對BFO 算法易陷入局部最優(yōu)的缺點,本文算法包括改進的趨化操作過程、改進的復制操作過程以及改進的遷徙操作過程。

3.1 改進的趨化操作

原始BFO 算法主要是以趨化操作過程進行搜索。當趨化操作搜索目標區(qū)域時,其游動步長和翻滾操作直接影響算法的效果。當游動步長較大時,全局搜索能力較強;反之,則局部搜索能力較強。由于趨化操作的特性,BFO 算法具有良好的局部搜索能力,因為它可以在趨化操作中改變方向,所以局部搜索準確度非常好。但細菌的全局搜索能力只能依靠遷徙操作,其全局搜索能力欠佳。

因為PSO具有較強記憶和全局搜索能力、個體效應和群體效應,本文利用PSO這個優(yōu)點,將PSO結合到改進的BFO中,可改進原始BFO的趨化操作過程,以便解決原始BFO容易陷入局部優(yōu)化的問題。通過使用粒子先進行搜索,然后將粒子當成細菌,以提高原始BFO的全局搜索能力。本文目的是找到一個有效的算法,即結合PSO 收斂速度快、搜索能力強和BFO 分類效果佳的優(yōu)點,提高不平衡數(shù)據(jù)的準確性。

3.2 改進的復制操作

在原始BFO 算法復制操作過程中,種群規(guī)模為S的細菌群中,利用當前細菌位置代價值H作為好壞排列依據(jù),有一半(S/2)的優(yōu)良細菌被復制,復制產(chǎn)生的子群代替原始細菌群中的另一半劣質細菌,種群的多樣性降低。為了增加群體的多樣性,并避免丟失最優(yōu)個體,本文引入父代個體(最優(yōu)父代個體除外)與最優(yōu)父代個體做交叉運算。混合公式表示如下:

其中,X代表父代個體(最優(yōu)父代個體除外),Xbest代表最優(yōu)父代個體,rand為區(qū)間[0,1]內(nèi)的隨機數(shù)。

3.3 改進的遷徙操作

遷徙操作有助于BFO 算法跳出局部最優(yōu)解,并找到全局最優(yōu)解,在原始BFO 的遷徙操作中按照給定的固定概率Ped進行遷徙,沒有考慮種群的進化情況。本文改進了原有BFO 算法中的遷徙操作,引入了種群進化因子,根據(jù)種群的進化情況進行遷徙,有利于算法尋優(yōu)的有效性,防止種群進化不前而陷入局部最優(yōu)。其群體進化因子公式表示如下:

式中,Hgen代表第gen次迭代時的最優(yōu)代價值,rand用于防止式子中的分母為0,本文用(1-fevo) 代替原始BFO算法中的Ped。當fevo>1 時,則進化加速,此時種群進化程度較快,種群群體處在快而有效的尋優(yōu)狀態(tài),以較低的遷徙概率(1-fevo)進行遷徙,可以保留當前有利的位置信息。當0 ≤fevo<1 時,進化減慢,容易陷入局部最優(yōu),需要以較高的遷徙概率(1-fevo)進行遷徙,跳出局部最優(yōu)解,防止種群進化不前。

為了克服原始BFO 算法容易陷入局部最優(yōu)的缺點,本文算法的整個過程如下:

(1)設定粒子群種群大小為S,隨機生成每個粒子的初始速度和位置,設定PSO 的最大迭代次數(shù)為T。在本文中,PSO 插入到每個BFO 的趨化過程中,PSO 的種群大小與BFO相同。設定BFO算法參數(shù)Nc,Ns,Nre,Ned,dattract,drepellent,wattract,wrepellent;設定 BFO 迭代次數(shù)為Nc×Nre×Ned。

(2)在本文中,代價H定義為計算每個粒子的分類準確度。求出第i個粒子的最優(yōu)位置,以及總體中所有粒子最優(yōu)代價時的最優(yōu)位置。如果和比上一次迭代的值好,則更新和。

(4)如果滿足設置的終止條件則停止,否則跳回到步驟(2)。終止條件是達到總體中所有粒子最優(yōu)代價時的最優(yōu)位置,或超過設定的PSO 的最大迭代次數(shù)T。式(4)和式(5)將粒子視為細菌,PSO完成獲得更新的位置。換句話說,在改進的趨化性操作過程中執(zhí)行PSO以獲得更新的位置θi。

(5)執(zhí)行BFO 群集過程中,由式(3)計算Hsw的代價值。

(6)在改進的復制操作過程中,執(zhí)行式(8)增加群體的多樣性并避免丟失最優(yōu)個體,即父代個體(最優(yōu)父代除外)與最優(yōu)個體做交叉運算。

(7)在改進的遷徙操作過程中,執(zhí)行式(9)使用群體進化因子fevo。PSO 根據(jù)(1-fevo)生成新的θi。在改進的BFO中,用(1-fevo)替換原始BFO中的Ped。

(8)如果滿足BFO 的最大迭代次數(shù),則算法結束。最后,在此實驗中輸出分類準確度的結果。

本文算法中,代價H定義為分類準確度。利用混淆矩陣測試本文算法的性能。混淆矩陣如表3所示。

表3 混肴矩陣

TP和FP分別代表真陽性分類和假陽性分類,F(xiàn)N和TN分別代表假陰性分類和真陰性分類。預測值是一個正例,記錄為P(Positive)。預測值是一個負例,記錄為N(Negative)。預測值與實際值相同,記錄為T(True)。預測值與實際值相反,記錄為F(False)。模型分類后,在數(shù)據(jù)集中定義的結果有4 個:TP,預測為正,實際為正;FP,預測為正,實際為負;TN,預測為負,實際為負;FN,預測為負,實際為正。分類準確度計算公式如下:

采用接受者操作特征曲線(Receiver Operating Characteristic,ROC)和曲線下面積(Area Under the Curve,AUC)可以測試分類結果的性能。這是因為ROC 曲線具有良好的特性:當測試數(shù)據(jù)集中正例和負例的分布發(fā)生變化時,ROC 曲線可以保持不變。不平衡數(shù)據(jù)常發(fā)生在實際數(shù)據(jù)集中,也就是說,負實例要比正實例多得多(反之亦然),并且測試數(shù)據(jù)中正實例和負實例的分布可能隨時間變化。計算AUC可作為不平衡數(shù)據(jù)的評估方法,它可以全面描述分類器在不同決策閾值下的性能。AUC的計算公式如下:

4 實驗結果和分析

本文目的是為了獲得有效的算法來提高不平衡數(shù)據(jù)的準確性。為了驗證本文算法的性能,利用卵巢癌微陣列數(shù)據(jù)、垃圾電子郵件數(shù)據(jù)集和動物園數(shù)據(jù)集進行仿真實驗,數(shù)據(jù)預處理采用Borderline-SMOTE 和Tomek Link的方法。

4.1 參數(shù)取值和實驗結果收斂性及運算復雜度分析

算法的參數(shù)值設定是算法性能和效率的關鍵,BFO有許多參數(shù),如何確定BFO 的最優(yōu)參數(shù)來優(yōu)化算法性能是一個非常復雜的問題。原始BFO參數(shù)取值對實驗結果收斂性及運算速度的影響主要有:

(1)種群規(guī)模S的大小影響B(tài)FO效能的發(fā)揮,種群規(guī)模小,BFO的計算速度快,但種群的多樣性降低,影響算法的優(yōu)化性能;種群規(guī)模大,個體初始時分布的區(qū)域多,靠近最優(yōu)解的機會就越高。也可以說是,種群規(guī)模越大,種群中個體的多樣性就越高,越能避免算法陷入局部最優(yōu)值。但是種群規(guī)模太大時,算法的計算量就會增加,算法的收斂速度會變慢。

(2)趨向性操作執(zhí)行的次數(shù)Nc的值越大,算法的搜索更細致,但是算法的復雜度也會隨之增加;反之,Nc的值越小,算法更容易陷入局部最優(yōu)值,算法的性能好壞就更多地依賴于復制操作。

(3)復制操作執(zhí)行的次數(shù)Nre的值越大,算法越能避開食物缺乏或者有毒的區(qū)域而去食物豐富的區(qū)域搜索,從而提高算法的收斂速度。當然Nre太大,同樣也會增加算法的復雜度;反之,如果Nre太小,算法易早熟收斂。

(4)遷徙操作執(zhí)行的次數(shù)Ned值太小,算法沒有發(fā)揮遷徙操作的隨機搜索作用;反之,Ned值越大,算法能搜索的區(qū)域越大,解的多樣性增加,能避免算法陷入早熟,其算法的復雜度也會隨之增加。遷徙概率Ped選取適當?shù)闹的軒椭惴ㄌ鼍植孔顑?yōu)值,但是Ped的值不能太大,否則BFO就變成了隨機搜索算法。

啟發(fā)式搜索算法的自身優(yōu)勢,一次運行就得到一組解,能夠耗費較小時間和計算代價搜索到理想的解,并取得很好的效果。其中,粒子群優(yōu)化算法由于其收斂速度快、搜索能力強的優(yōu)點受到諸多研究者關注。本文利用PSO的優(yōu)點,將PSO結合到改進的BFO中,可改進原始BFO 的趨化操作過程,解決原始BFO 容易陷入局部優(yōu)化的問題。為了避免出現(xiàn)大量計算時間又可找到全局解,本文在設定PSO和BFO的參數(shù)時,依據(jù)經(jīng)驗值將BFO算法參數(shù)設置為S=50,Nc=100,Ns=4,Nre=4,Ned=2,Ped=0.25,dattract=0.05,drepellent=0.05,wattract=0.05,wrepellent=0.05,α(i)=0.1,i=1,2,…,S。BFO 迭代次數(shù)為Nc×Nre×Ned=100×4×2=800[25]。PSO 的最大迭代次數(shù)設置為5 000,其他參數(shù)設置為慣性權重w=0.6,學習因子c1=c2=1.5,每個粒子的最大速度vmax=2[24]。本文采用隨機分區(qū)的10 倍交叉驗證結果,即將數(shù)據(jù)分為10 份,其中9 份數(shù)據(jù)作為訓練數(shù)據(jù),剩下1份作為測試數(shù)據(jù)。

4.2 本文算法與其他算法的分類準確度比較分析

下面除了研究本文算法外,也用其他現(xiàn)有算法進行比較,如支持向量機(Support Vector Machine,SVM)、決策樹(DT)、隨機森林(Random Forest,RF)、K-最近鄰算法(KNN)及原細菌覓食優(yōu)化(BFO)。支持向量機是在高維特征空間中使用線性函數(shù)假設空間的學習系統(tǒng)。決策樹使用分區(qū)信息熵最小化遞歸地將數(shù)據(jù)集劃分為更小的子分區(qū),然后生成樹結構。隨機森林是一種集成的分類學習方法,它在訓練時構造多個決策樹,并輸出依賴于大多數(shù)類的類。K-最近鄰算法是一種基于n維模式空間中最接近訓練樣本的目標分類方法。原細菌覓食優(yōu)化算法如第2.1節(jié)所述。

(1)表4 分別列出了卵巢癌微陣列數(shù)據(jù)、垃圾電子郵件數(shù)據(jù)集和動物園數(shù)據(jù)集的分類性能。從表4 中可以看出,本文算法對卵巢癌微陣列數(shù)據(jù)、垃圾電子郵件數(shù)據(jù)集和動物園數(shù)據(jù)集的平均分類準確度分別為93.47%、96.42%和99.54%。從表4 可以明顯看出,在對所有方法進行比較后,本文算法具有最優(yōu)的分類結果,這是因為智能信息可以在測試數(shù)據(jù)集的分類上有好的性能表現(xiàn),而本文算法也具有類似的功能,因此在分類準確度上有較好的表現(xiàn)結果。

(2)在比較結果中,可以發(fā)現(xiàn)原始BFO對三個數(shù)據(jù)集的分類準確度均沒有本文算法分類準確度好。因為原始BFO 可以在趨化操作中改變方向,所以局部搜索能力更好,但是全局搜索只能依靠遷徙操作過程,全局搜索能力不是很好,所以在分類準確度表現(xiàn)上沒有本文算法好。

(3)本文算法在改進的趨化過程中引入了PSO,具有記憶和全局搜索的能力。在研究中首先使用粒子進行全局搜索,然后將這些粒子視為細菌,提高了全局搜索能力。改進的復制操作過程中,在保留最優(yōu)個體的情況下,對復制后的父代引入交叉算子,增加種群的多樣性。在改進的遷徙操作過程中,引入了(1-fevo)替換原始BFO 中的Ped,以防止種群死亡和陷入局部最優(yōu)狀態(tài),因此在分類準確度上有較好的表現(xiàn)。

表4 不同算法的分類準確度

4.3 ROC和AUC分析

在本次的仿真實驗中,ROC 和AUC 用于評估本文算法性能,AUC的值介于0~1之間且越大越好。卵巢癌微陣列數(shù)據(jù)的AUC 值為0.979,如圖4 所示。垃圾電子郵件數(shù)據(jù)集的AUC 值為0.987,如圖5 所示。動物園數(shù)據(jù)集的AUC值為0.995,如圖6所示。實驗結果顯示,本文算法具有良好的分類性能。

圖4 卵巢癌微陣列數(shù)據(jù)的ROC和AUC

圖5 垃圾電子郵件數(shù)據(jù)集的ROC和AUC

圖6 動物園數(shù)據(jù)集的ROC和AUC

本文提出了混合粒子群和改進的細菌覓食優(yōu)化算法應用于不平衡數(shù)據(jù)的分類,根據(jù)研究結果,提出以下幾方面的建議:

(1)算法運行的改進。實現(xiàn)優(yōu)化的關鍵是算法的操作,設計出色的運算對提高算法的性能和效率起著重要作用。在原BFO算法中,提高其趨化性和復制性,遷徙操作,協(xié)調處理算法的局部挖掘能力和全局探索能力將成為BFO研究的熱點。

(2)算法參數(shù)的選擇。算法的參數(shù)值是決定算法性能和效率的關鍵。在進化算法中,沒有通用的方法來確定算法的最優(yōu)參數(shù),其中大多數(shù)是根據(jù)經(jīng)驗選擇的。目前,BFO的參數(shù)很多,如何確定BFO的最優(yōu)參數(shù)來優(yōu)化算法本身的性能是一個非常復雜的問題。本文在4.1節(jié)中進行了參數(shù)取值和實驗結果收斂性及運算復雜度的分析,可作為未來繼續(xù)研究的方向。

(3)與其他算法結合。結合BFO 和其他算法的優(yōu)點以提出更有效的算法是BFO研究中的重要課題。

5 結論

本文提出一種混合粒子群和改進的細菌覓食優(yōu)化算法應用于不平衡數(shù)據(jù)的分類。數(shù)據(jù)預處理用Borderline-SMOTE和Tomek Link技術。隨后,將本文算法應用于不平衡數(shù)據(jù)的分類,以解決原始BFO 算法陷入局部最優(yōu)的缺點。使用三個數(shù)據(jù)集來測試本文算法的性能。本文算法包括改進的趨化操作過程、改進的復制操作過程以及改進的遷徙操作過程。在本文中,通過在改進的趨化操作過程中使用粒子進行搜索,然后將粒子視為細菌,可以提高BFO 的全局搜索能力。在改進了趨化操作之后,進行了群集操作、改進的復制操作,最后進行改進的遷徙操作。本文算法對卵巢癌微陣列數(shù)據(jù)的平均分類準確度為93.47%,對垃圾電子郵件數(shù)據(jù)集和動物園數(shù)據(jù)集的平均分類準確度分別為96.42%和99.54%,卵巢癌微陣列數(shù)據(jù)的AUC值為0.979,垃圾電子郵件數(shù)據(jù)集和動物園數(shù)據(jù)集的AUC 值分別為0.987 和0.995。實驗結果表明,本文算法與現(xiàn)有方法比較,在不平衡數(shù)據(jù)分類準確度中有良好的表現(xiàn)結果。

猜你喜歡
分類優(yōu)化
超限高層建筑結構設計與優(yōu)化思考
民用建筑防煙排煙設計優(yōu)化探討
關于優(yōu)化消防安全告知承諾的一些思考
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 亚洲V日韩V无码一区二区| 婷婷丁香色| 免费一级成人毛片| 色哟哟国产精品| 成人伊人色一区二区三区| 青青草综合网| 91精品日韩人妻无码久久| 欧美人人干| 欧美亚洲一区二区三区导航| 亚洲成A人V欧美综合| 日韩无码真实干出血视频| 亚欧美国产综合| 欧美啪啪视频免码| 国产在线一二三区| 国产性精品| 国产真实二区一区在线亚洲| 精品人妻无码区在线视频| 日韩av无码DVD| 国产高清在线丝袜精品一区| 国产免费福利网站| 永久在线精品免费视频观看| 亚洲国内精品自在自线官| 国模私拍一区二区| 宅男噜噜噜66国产在线观看| 国产91视频免费观看| 中文国产成人精品久久| 亚洲精品无码抽插日韩| www.99在线观看| 亚洲视频色图| 韩日无码在线不卡| 在线免费不卡视频| 一级不卡毛片| 欧美激情网址| 亚洲精品免费网站| 久久综合婷婷| 国产在线无码av完整版在线观看| 国产精品一区二区无码免费看片| 一本大道无码日韩精品影视| 97色伦色在线综合视频| 亚洲人成网7777777国产| 色综合热无码热国产| 婷婷色丁香综合激情| 亚洲全网成人资源在线观看| 伊在人亚洲香蕉精品播放| 欧美精品一区在线看| jizz亚洲高清在线观看| 亚瑟天堂久久一区二区影院| 亚洲国产成人久久精品软件| 亚洲精品第一页不卡| 亚洲日本中文字幕天堂网| 凹凸精品免费精品视频| 免费毛片全部不收费的| 久久精品只有这里有| 欧美日本在线播放| 亚洲日本在线免费观看| 亚洲国产综合精品一区| 欧美福利在线| 狠狠色成人综合首页| 国产精品任我爽爆在线播放6080| 久久精品免费国产大片| 亚洲熟女中文字幕男人总站| 亚洲九九视频| 精品久久高清| 日韩在线2020专区| 精品国产自| 国产9191精品免费观看| 欧美日韩成人| 国产真实自在自线免费精品| 免费毛片a| 国产乱子精品一区二区在线观看| 香蕉久人久人青草青草| 欧美特黄一免在线观看| 无码'专区第一页| 亚洲综合狠狠| 久久久久青草大香线综合精品| 亚洲Va中文字幕久久一区 | 在线观看网站国产| 在线毛片网站| 99久久国产自偷自偷免费一区| 欧美日韩国产精品综合| 91国语视频| 亚洲高清国产拍精品26u|