999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類和貓群優化的基因選擇算法

2015-07-28 00:54:11楊百順李延強河南師范大學計算機與信息工程學院河南師范大學軟件學院河南師范大學政治與公共管理學院河南新鄉45007
山東工業技術 2015年5期
關鍵詞:分類優化

敖 培,李 賀,李 明,楊百順,李延強(.河南師范大學計算機與信息工程學院;.河南師范大學軟件學院;. 河南師范大學政治與公共管理學院,河南 新鄉 45007)

基于聚類和貓群優化的基因選擇算法

敖培1,李賀1,李明2,楊百順2,李延強3
(1.河南師范大學計算機與信息工程學院;2.河南師范大學軟件學院;3. 河南師范大學政治與公共管理學院,河南 新鄉 453007)

本文提出一種基于聚類和貓群優化基因選擇算法,用來剔除大量冗余基因,提高樣本預測的準確率。首先采用k-均值聚類算法將基因分成固定數目的簇,并采用ELM分類器評價篩選特征基因,構成備選基因庫;然后采用基于CSO和ELM的纏繞法從備選基因庫中選擇同時具備最大分類準確率和最小數目的基因子集。通過與經典方法的比較,本文提出的方法能夠以較少的基因獲得更高的分類性能。

k-均值;貓群算法;基因選擇

1 引言

微陣列數據的顯著特點是基因維數大、樣本維數小。在應用微陣列數據進行分類的過程中,數據往往存在大量與分類無關的冗余基因,因此有必要在分類之前采用基因選擇方法剔除冗余基因。為了克服傳統的基因選擇方法會選擇大量冗余基因而導致樣本預測準確率下降的缺陷,本文提出一種基于聚類和貓群優化(CatSwarmOptimization,CSO)的基因選擇算法。通過對急性白血病和結腸癌兩個微陣列數據進行基因篩選的實驗結果可以看出,與其他方法相比較,本文方法能成功選擇較少數目但有較高分類率的基因子集。

2  貓群算法

貓群算法[1]是一種基于貓的搜尋行為和跟蹤行為的全局優化算法。CSO算法的步驟如下:

Step1:初始化N只貓,每只貓具有D維位置坐標值,xi,d代表第ith只貓第dth維的位置坐標值。

Step2:為每一維位置隨機初始化速度Vi,d。

Step3:評估每一只貓的適應函數值,將具有最優適應函數值的貓作為局部最優貓Lb。

Step4:根據MR(定義了貓群中有多少只貓進入搜尋模式,多少只貓進入跟蹤模式)的大小,貓群被隨機分配到搜尋模式,或跟蹤模式。

Step5:評估所有貓將具有最優適應函數值的貓極為Lb。

Step6:檢查終止條件,如果不滿足則重復執行Step4和Step5,都則結束。

3  判別熵

判別熵[2]是用來表征不同分布間區別大小的熵函數。對于二分類問題,基因微陣列數據中某組特征基因在不同類別間的概率密度為w1(xi)與w2(xi),其差別程度定義為相對熵V(w1,w2)=-∑w1(xi) log[w1(xi)/w2(xi)]≤0,則判別熵定義為:

4  基于聚類和貓群優化的基因選擇算法

針對微陣列數據具有高維小樣本的特點,本文提出一種基于聚類和貓群優化的基因選擇算法。首先對于相似度高的基因,采用k-均值聚類算法將聚成一簇,然后對各簇的基因分類性能采用ELM算法進行分析,篩選出具有高分類性能簇的基因子集,組成一個冗余度較低的初始基因庫,最后對于初始基因庫采用CSO結合ELM算法找出分類性能最優的基因組合。算法步驟如下:

Step1:生成微陣列數據訓練集和測試集,按照第3節計算各個基因對不同類別的判別熵值,并按照絕對值排序篩選判別熵絕對值較大的基因構成備選基因庫。然后訓練集再分為訓練集和驗證集兩部分。

Step2:采用k-均值聚類算法在訓練集上對選出的基因進行聚類,根據樣本類別特點確定聚類數目。

Step3:將每簇基因作為一個搜索空間,以獲取每個聚類中基因對分類的影響。在搜索空間內,對貓的位置和速度進行隨機初始化,一個基因子集就是一只貓。子基因庫由經CSO算法在一個簇中篩選出的分類性能較高的基因組。

Step4:計算每個基因子集的適應度值,并根據ELM分類器在驗證集上的準確率評價適應度值。全局最優解的獲得則通過貓群的位置和速度不斷更新來搜索。

Step5:如果迭代條件沒有滿足,并且沒有達到最大迭代次數,則轉至Step4。最終的基因子集是驗證準確率最優、數目最小的基因子集。

5  實例分析

本文實驗采用Golub等公布的急性白血病數據集和Alon等公布的結腸癌數據集兩個微陣列數據集,如表1所示。在實驗中,對于第一個數據集隨機劃分為38例訓練集和34例測試集;對于第二個數據集隨機劃分為40例訓練集和22例測試集。將本文方法與其他經典的基因選擇方法進行比較以驗證本文基因選擇方法的有效性。采用相關方法所獲取的最小基因子集及相應的最大分類準確率如表2所示。從表2中可以看出,本文算法對于白血病數據集在達到100%分類率的情況下,選擇的基因子集數目最少;在選擇相同數目的基因子集的情況下,本文算法對于結腸癌數據集樣本的分類率最高。綜上,與其他方法相比較,采用本文基因選擇方法能夠在選出小冗余基因的同時保證高的樣本分類率。

表1  微陣列數據集

表2  數據集中結構類的組成

6  結語

本文提出一種基于聚類和CSO優化的基因選擇算法,以期在進行微陣列基因選擇時,降低基因冗余度。采用k-均值聚類算法將基因分成固定數目的簇,并采用ELM分類器評價篩選特征基因,將基因簇中貢獻大的基因子集組成基因庫,作為CSO的搜索空間。通過實驗可以看出,本文提出的方法能夠以較少的數目的基因子集獲得較高的分類精度。

[1]孔令平.基于貓群算法的無線傳感器網絡路由優化算法研究[D].哈爾濱工業大學碩士學位論文,2013.

[2]關健,韓飛,楊善秀.基于粒子群優化和判別熵信息的基因選擇算法[J].計算機工程,2013,39(11):187-196.

敖培(1979-),女,蒙古族,遼寧省沈陽市人,講師,博士研究生,研究領域為智能信息處理。

河南省教育廳科學技術研究重點項目基礎研究計劃No.13A413506;河南師范大學青年科學基金項目No.01116400031。

猜你喜歡
分類優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 97精品国产高清久久久久蜜芽| 久热中文字幕在线观看| 国产在线一二三区| 欧美国产日韩在线观看| 丁香亚洲综合五月天婷婷| 亚洲av成人无码网站在线观看| 国产杨幂丝袜av在线播放| 免费在线观看av| 国产精品三级专区| 伊人狠狠丁香婷婷综合色| 无码乱人伦一区二区亚洲一| 永久在线精品免费视频观看| 91亚洲精选| 99re热精品视频国产免费| 国产精品自拍露脸视频| 国产成熟女人性满足视频| 国产综合网站| 国产99在线| 在线另类稀缺国产呦| 亚洲日韩精品伊甸| 伊人久久婷婷五月综合97色| 国产在线专区| 国产毛片网站| 色男人的天堂久久综合| 中文字幕精品一区二区三区视频| 国产手机在线观看| 国产综合在线观看视频| 高清无码不卡视频| 99精品国产高清一区二区| 狠狠色噜噜狠狠狠狠奇米777| 丁香五月激情图片| 国产在线八区| www.youjizz.com久久| 国产91丝袜在线播放动漫| 亚洲人成网站色7799在线播放| 被公侵犯人妻少妇一区二区三区| 亚洲欧美一区二区三区麻豆| 综合天天色| 欧美国产日韩在线| 精品少妇人妻无码久久| 欧美一级视频免费| 国产高清不卡视频| 日韩免费毛片视频| 国产剧情一区二区| 日韩无码白| 色噜噜中文网| 99中文字幕亚洲一区二区| 99久久精品免费视频| 日韩精品毛片| 九色在线观看视频| 视频国产精品丝袜第一页| 亚洲无码精品在线播放| 好吊日免费视频| 在线精品亚洲一区二区古装| 最新国产成人剧情在线播放| 一本二本三本不卡无码| 国产在线98福利播放视频免费| 一本一道波多野结衣一区二区 | 日韩专区第一页| 亚洲免费福利视频| 日韩精品免费一线在线观看 | 女人一级毛片| 欧美日韩午夜视频在线观看| 青青热久麻豆精品视频在线观看| 九九这里只有精品视频| 亚洲最新地址| 一级做a爰片久久免费| 欧美成人免费一区在线播放| 欧美福利在线| 欧美精品黑人粗大| 中文字幕永久视频| 国产综合另类小说色区色噜噜| 91口爆吞精国产对白第三集 | 国产精品区视频中文字幕| 亚洲无码免费黄色网址| 三上悠亚一区二区| 亚洲AⅤ无码国产精品| 国产精鲁鲁网在线视频| 国产自在线播放| 国产欧美日韩综合一区在线播放| 四虎国产精品永久一区| 亚洲aⅴ天堂|