999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的基因微陣列數據分類算法

2020-08-13 07:17:51馬越劉成忠
軟件 2020年6期

馬越 劉成忠

摘 ?要: 針對基因微陣列數據具有維數高、樣本小、冗余高的特點,為了提高基因分類算法的性能,提出一種基于灰狼優化和支持向量機的分類算法。該算法使用主成分分析法進行數據降維,選取15個相關系數最大的基因探針,利用改進的灰狼優化算法對支持向量機的獎罰因子C與核寬度σ進行參數尋優,并在2組公開的癌癥微陣列數據上進行試驗。實驗的準確率分別為95.24%和 94.00%,通過與其它算法進行性能對比,該算法具有高效、精準的分類能力,對臨床醫學應用有極為重要的參考意義。

關鍵詞: 基因微陣列;基因分類;主成分分析法;支持向量機;灰狼優化算法

中圖分類號: TP18 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.06.002

本文著錄格式:馬越,劉成忠. 一種改進的基因微陣列數據分類算法[J]. 軟件,2020,41(06):0711+31

【Abstract】: In order to improve the performance of classification algorithm, a classification algorithm based on Grey Wolf Optimizer (GWO) and Support Vector Machine (SVM) is proposed for the high dimension, small sample and high redundancy of gene microarray data. In this algorithm, Principal Component Analysis (PCA) was used to select 15 gene probes with the largest correlation coefficient. Then, the improved gray Wolf optimization algorithm was used to optimize the parameters of reward and punishment factor C and kernel width of SVM, and two groups of cancer microarray data were tested. The accuracy of the experimental results was 95.24% and 94.00%, respectively. Compared with other algorithms, this algorithm has the ability of efficient and accurate classification, which is of great reference significance for clinical medicine application.

【Key words】: Gene microarray; Genetic classification; Principal component analysis; Support vector machine; Grey wolf optimization algorithm

0 ?引言

各種癌癥及惡性腫瘤一直威脅著人類的生命健康,但是患病早期并不容易被查出,所以為各種疾病提供一種高效、準確的診斷方法,可以讓患者及時接受治療,或許可以挽救患者生命。隨著基因微陣列技術的成熟,基因表達譜可以表示人類各個組織的正常基因,而且由于大量患者的貢獻,很多重大疾病的基因微陣列數據也已經被共享,為基因分類與識別提供了大量的可靠數據。文獻[1-4]眾位支持向量機算法做了諸多研究,傅德勝[5]等人對PCA降維算法做了詳細介紹和研究。文獻[6-8]眾位研究人員對癌癥基因微陣列進行了特征選擇,得到了低維可分的數據集。Chiaretti [9]等對白血病基因微陣列數據集的分類進行了研究,并應用到臨床治療和預測之中;Sun[10] 等在肺癌臨床治療中通過對肺癌微陣列數據特征分類從而做出預判;van t Veer LJ[11]等人對乳腺癌微陣列數據進行了特征分類與預測。文獻[12-13]對灰狼算法進行了詳細介紹。Xianhai Song[14]等人將灰狼優化算法(Grey Wolf Op-timizer,GWO)與重力搜索算法(GSA)、遺傳算法(GA)、粒子群優化算法(PSOGSA)和梯度算法做了相關比較,指出了灰狼優化算法的魯棒性較強且收斂速度極快,所以適用于優化支持向量機的獎罰因子C與核寬度。蔡立軍[15]等人及葉明全[16]等人都使用蟻群算法對基因分類算法進行優化,準確率接近90%。陶國嬌[17]提出了一種優化群智能算法的方法,可以提高算法尋優精度,趙乃剛[18]和曹盟盟[19]等人都對粒子群算法做了優化和改進,使得其優化能力得到了進一步提升。靳艷虹[20]做了基于粒子群算法的基因表達數據的研究,使用粒子群算法提升分類準確率,但是粒子群算法的收斂速度明顯不如灰狼優化算法。本文首先使用PCA降維算法對數據集進行降維,然后使用基于改進灰狼優化算法的支持向量機做分類,提升支持向量機的分類效果。由于改進的灰狼優化算法相對于其他群智能算法,其收斂速度較快,所以在提高分類準確率的同時算法時間復雜度問題也有所改善。

1 ?主成分分析法

主成分分析法(PCA)是數據降維中最常見的線性方法,PCA的目的是從樣本諸多屬性值中找到并保留相關系數最大的屬性值,從而達到降維效果。

將樣本點xi投影到新空間超平面上,并且使得樣本投影盡可能分開,此時就需要投影的方差最大化。

其主要步驟如下:

(1)計算樣本對應的協方差矩陣 ,此時的協方差也可以看成相關系數;

(2)對矩陣XXT進行特征值分解;

(3)降序后取最大的D個特征值所對應的特征向量,即相關系數最大的屬性對應的特征向量;

(4)輸出D維投影矩陣即目標矩陣可以用式(1)表示為:

2 ?支持向量機

經過數據處理,使用支持向量機可以對所選的兩組數據集進行分類處理。支持向量機(SVM)結合了VC維理論和最小化結構風險,SVM分類的中主要依靠支持向量機,少數的支持向量決定了最后的結果,在剔除大量冗余樣本屬性的同時具有很好的魯棒性,增加或刪除非支持向量樣本對模型沒有影響,對于基因微陣列這種維度高,樣本少的數據分類極為適用。

其主要思想是將樣本通過核函數變換后從低維的不可分到高維的可分,找到一個超平面 將數據分成正樣本和負樣本兩類。最好的分類結果為距離超平面H最近的正、負樣本的距離最大,即目標函數為式(2):

支持向量機有兩個重要參數 和C。如果 太大,高斯分布會變成細長型,只能作用于支持向量樣本附近,造成支持向量機獨立分類效果變差,而且容易發生過擬合。反之,如果 太小,高斯分布會變成矮寬型,此時曲線過于平滑,無法在訓練集上取得較高的準確率。系數C被稱為獎罰系數,C的值越高,說明此時支持向量機接受誤差能力變差,容易發生過擬合,但C值太小又容易發生欠擬合現象,所以選取適合的系數C和 極其重要。

3 ?灰狼優化算法及改進

灰狼優化算法(GWO)最早是由澳大利亞的學者Mirjalili等人在2014年提出的。灰狼優化算法是在觀察灰狼在狩獵過程中進行的一系列規律活動而受到啟發,形成了一種新型的群智能優化算法,該算法具有很強的收斂性,還具有參數少等特點,可以被應用于圖像分類,參數優化等領域.

GWO首先是種群等級劃分。計算種群每個個體的適應度,并根據灰狼種群適應度不同,由高到低將其分為 。如圖1所示。

狼是整個狼群的領導者,具有最高的適應度,是距離最優解最近的狼。其次是 狼,他們是僅次與頭狼的等級,他們負責協助頭狼領導狼群,同時也是頭狼的候選,最后是 狼,主要是平衡狼群內務關系和協助前三種狼。

灰狼優化算法把狩獵過程分成包圍,追捕及攻擊三個步驟,目標為獲取獵物,即得到全局最優解。算法實現如下:

圖3中直線,短虛線,長虛線分別為粒子群算法,傳統灰狼優化算法,改進后灰狼優化算法最優適應度(最優解)變化曲線,顯然,不管從收斂速率還是收斂精度來看,傳統灰狼優化算法和改進后灰狼優化算法都明顯優于粒子群算法。在算法前期,改進的灰狼優化算法相對于傳統灰狼優化算法有優勢但不明顯,算法后期改進后的灰狼算法在測試函數的測試下,無論從下降速率(收斂精度)還是從最優適應度(收斂精度)來看都具有明顯優勢,所以此次對灰狼算法的優化是極有意義的。

4 ?仿真實驗

4.1 ?數據集及實驗環境

本文使用的數據集I為多發性骨腫瘤樣本,包括173個樣本,通過Affymetrix U95Av2微陣列獲得122625個基因的表達譜。保存在美國生物技術信息中心(http://www.ncbi.nlm.nih.gov/geo/)編號GSE755。使用的數據集Ⅱ為肺癌樣本,包括181個樣本,cRNA與人類U95A寡核苷酸探針陣列(Affymetrix, Santa Clara, CA)雜交,獲得12533個基因的表達譜。基因微陣列數據可以在網址http://www.chestsurg.org.中獲取。

4.2 ?實驗結果分析

經過數據預處理后,將數據分為訓練集和測試集,數據集I(多發性骨腫瘤數據集)的訓練集為131個樣本,包括103例正常,28例多發性骨腫瘤患者,測試集42個樣本,包括34例正常,8例多發性骨腫瘤患者。數據集Ⅱ(肺癌數據集)的訓練集為131例肺癌患者,109例正常基因組,22例肺癌患者,測試集50個樣本,包括41例正常基因組,9例肺癌患者。使用SVM對其進行分類,選用3折交叉驗證(3-fold cross-validation),將訓練集隨機分成3份,3次訓練中每次選用2份做訓練集,另外1份做測試集,并使用參數優化算法對SVM參數σ和C進行優化,參數優化算法有很多,其中最簡單是網格搜索法(Grid Search),奉國和[22]介紹了使用網格搜索法在尋找支持向量機局部最優參數σ和C時,具有節約時間開銷等優點。使用粒子群優化算法,傳統灰狼優化算法和改進的灰狼優化算法也可以搜索最佳系數σ和C,在訓練支持向量機的過程中,計算3次分類準確率的平均值作為適應度。經過200次迭代,得到以下結果見表2。

由上表可知,通過網格搜索和其他3種群智能優化算法都可以對支持向量機的參數進行優化,但是灰狼算法隨機概率搜索算法,而網格搜索法是一種指定范圍的窮舉搜索法,所以在準確率方面3種群智能優化算法是優于網格搜索法的。群智能算法的時間復雜度高于網格搜索,但是相較與粒子群算法和傳統灰狼算法,改進后的灰狼優化在時間復雜度方面有了穩定改善,且在第二組數據中,準確率也有了提升。與其他文獻對比見表3。

由表3可知,通過對灰狼優化算法的收斂因子和邊界進行優化,本次實驗的準確率高于游偉[23]提出的SVM-RFE-SFS和高振斌[24]提出的LS-SVM。所以結合準確率和時間復雜度來看,本次實驗所提出的算法對基因微陣列數據更好的分類能力。

5 ?結束語

本文提出了一種基于改進灰狼優化的支持向量機,使用該方法對PCA降維后的多基因微陣列數據進行分類,并使用獨立測試方法獲得分類準確率。通過與使用網格搜索優化,粒子群優化,傳統GWO優化的SVM及其他文獻提出的算法進行性能對比,可以得出該算法準確率(95.24%和94.00%)高于 ? 其它算法,而且相較于粒子群優化算法和灰狼優化 ?算法,本文提出的灰狼優化算法在時間復雜度方面 ?有了明顯改善,對臨床醫學應用有極為重要的參考 ?意義。

此次研究對灰狼優化算法的改進還存在一些不足,可以結合各個狼群的適應度,對狼的位置更新公式進行加權,或許可以再次提高算法的效率,今后可以對此方向進行深入研究。

參考文獻

[1] 陳海紅. 多核SVM文本分類研究[J]. 軟件, 2015, 36(5): 7-10.

[2] 孫鵬, 馮翔. 一種基于集成學習的健壯性半監督 SVM [J]. 軟件, 2018, 39(11): 182-186.

[3] 陳東. 癌癥基因微陣列分類方法的研究[D]. 長沙: 湖南大學, 2012.

[4] 蘇志同, 周文龍. 基于SVM 的心律失常的研究和分析[J]. 軟件, 2015, 36(9): 98-100.

[5] 傅德勝, 經正俊. 基于PCA-LDA 和KNN-SMO 的數據碎片分類識別算法[J]. 軟件, 2015, 36(7): 21-25.

[6] YU L, LIU H. Feature selection for high-dimensional data: a fast correlation-based filter solution[M]// feature selection for high-dimensional data. Springer Publishing Company, Incorporated, 2003: 207.

[7] LIU Y. Wavelet feature extraction for high-dimensional microarray data[J]. Neurocomputing, 2009, 72(4-6): 985-990.

[8] 吳辰文, 王偉. 一種結合隨機森林和鄰域粗糙集的特征選擇方法[J]. 小型微型計算機系統, 2017, 38(06): 1358-1362.

[9] Chiaretti, S. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival[J]. Blood, 2004, 103(7): 2771-2778.

[10] SUN Z, Yang. Gene expression profiling on lung cancer outcome prediction: Present clinical value and future premise[J]. Cancer Epidemiology Biomarkers & Prevention, 15(11): 2063-2068.

[11] van 't Veer Laura J, Dai Hongyue, van de Vijver Marc J, et al.?Gene expression profiling predicts clinical outcome of breast cancer[J]. Nature, 2002, 415(6871).

[12] Mirjalili, Seyedali, Mirjalili, et al. Grey Wolf Optimizer[J]. Advances in Engineering Software, 69: 46-61.

[13] 張悅, 孫惠香, 魏政磊. 具有自適應調整策略的混沌灰狼優化算法[J]. 計算機科學, 2017, 44(S2): 119-122+159.

[14] SONG X, TANG L, ZHAO S, et al. Grey Wolf Optimizer for parameter estimation in surface waves[J]. Soil Dynamics and Earthquake Engineering, 2015, 75: 147-157.

[15] 蔡立軍, 蔣林波, 易葉青. 基于蟻群優化算法的基因選擇[J]. 計算機應用研究, 2008(09): 2754-2757.

[16] 葉明全, 高凌云, 萬春圓. 基于人工蜂群和SVM的基因表達數據分類[J]. 山東大學學報(工學版), 2018, 48(03): 10-16.

[17] 陶國嬌, 李智. 帶認知因子的交叉鴿群算法[J]. 四川大學學報(自然科學版), 2018, 55(02): 295-300.

[18] 趙乃剛. 慣性權重動態調整的混沌粒子群算法[J]. 軟件, 2016, 37(3): 01-03.

[19] 曹盟盟, 姚文斌. 基于改進粒子群算法的虛擬機放置算法[J]. 軟件, 2015, 36(12): 89-92

[20] 靳艷虹. 基于PSO的基因表達數據聚類研究[D]長沙: 中南大學, 2013.

[21] 林星, 馮斌, 孫俊. 基于邊界變異的量子粒子群優化算法[J]. 計算機工程, 2008(12): 187-188+191.

[22] 奉國和. SVM分類核函數及參數選擇比較[J]. 計算機工程與應用, 2011, 47(03): 123-124+128.

[23] 游偉, 李樹濤, 譚明奎. 基于SVM-RFE-SFS的基因選擇方法[J]. 中國生物醫學工程學報, 2010, 29(01): 93-99.

[24] 高振斌. 基于最小二乘支持向量機微陣列基因特征分類[J]. 計算機應用與軟件, 2019, 36(08): 288-292.

主站蜘蛛池模板: 亚洲精品男人天堂| 精品国产三级在线观看| 就去吻亚洲精品国产欧美| 91精品国产无线乱码在线| 美女一级毛片无遮挡内谢| 国产精品男人的天堂| 国产一区二区三区在线观看视频 | 无码福利日韩神码福利片| 91青青草视频| 99久久人妻精品免费二区| 国产成人精品18| 欧美亚洲第一页| 欧美一区精品| 国产福利免费在线观看| 亚洲精品国偷自产在线91正片| 91亚洲视频下载| 麻豆AV网站免费进入| 最近最新中文字幕免费的一页| www.亚洲一区| 小13箩利洗澡无码视频免费网站| 精品三级网站| 中文字幕2区| 色噜噜综合网| 亚洲午夜福利在线| 在线国产综合一区二区三区| 亚洲精品欧美重口| 99视频精品全国免费品| 九一九色国产| 777午夜精品电影免费看| 亚洲免费黄色网| 国产青青草视频| 伊人91视频| 中文字幕一区二区人妻电影| 国产精品人成在线播放| 97成人在线视频| 91青青草视频| 97国产一区二区精品久久呦| 毛片网站在线播放| 精品国产电影久久九九| 中文字幕资源站| 国产精品免费久久久久影院无码| 97色婷婷成人综合在线观看| 亚洲精品成人福利在线电影| 国产99视频精品免费视频7| 国产精品网拍在线| 色综合天天娱乐综合网| 久久久亚洲国产美女国产盗摄| 亚洲国产精品国自产拍A| 无码在线激情片| 国产日产欧美精品| 亚洲天堂精品在线观看| 国产精品久久久久久久久| 天天色天天综合| 激情亚洲天堂| 毛片大全免费观看| 激情亚洲天堂| 日韩欧美中文字幕在线精品| 亚洲国产成人精品青青草原| 日韩视频免费| 在线观看免费黄色网址| 国产区免费| 亚洲av色吊丝无码| 在线不卡免费视频| 亚洲综合二区| 久久99精品久久久久纯品| 亚洲自拍另类| 蜜芽一区二区国产精品| 久久久久中文字幕精品视频| 国产福利免费在线观看| 99热这里只有精品在线播放| 伊人网址在线| 国产91视频观看| 超碰aⅴ人人做人人爽欧美| 日韩A级毛片一区二区三区| 久久精品人妻中文系列| 亚洲AV无码乱码在线观看裸奔 | 这里只有精品在线| 国产精品成人免费视频99| 四虎影视国产精品| 另类重口100页在线播放| 色综合久久88色综合天天提莫| 91久久夜色精品国产网站|