999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HBV序列的系統(tǒng)進(jìn)化分析和特征提取研究

2015-04-18 03:00:30謝坐祥張俊鵬
大理大學(xué)學(xué)報(bào) 2015年12期
關(guān)鍵詞:特征提取分類特征

謝坐祥,陳 霞,張俊鵬

(大理大學(xué)工程學(xué)院,云南大理 671003)

乙型肝炎病毒(Hepatitis B Virus,HBV)是一類引起人類慢、急性肝炎的環(huán)狀DNA病毒〔1〕。目前全球約有2.4億人感染乙型肝炎,每年約有78萬(wàn)人死于慢性或急性乙型肝炎。根據(jù)世界衛(wèi)生組織(WHO)〔1〕報(bào)告,我國(guó)有5%~10%的成年人是HBV慢性感染者。

HBV基因?yàn)椴糠珠]合雙鏈環(huán)狀DNA,全長(zhǎng)約3.2 kb。它主要分為P、X、C和S 4個(gè)基因區(qū),C區(qū)分為C基因和前C基因片段,S區(qū)分為前S1、前S2和S基因片段〔2〕。目前研究表明:HBV基因型可以分為A、B、C、D、E、F、G和H 8種類型,不同的基因型呈現(xiàn)不同地理區(qū)域分布,我國(guó)主要以B和C兩種基因型為主〔3〕。

本文將基于機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)HBV多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次的分析。這將有利于進(jìn)一步了解HBV病毒在序列層次下的進(jìn)化關(guān)系、突變過程、基因特點(diǎn)和基因型種類,進(jìn)而為HBV患者提供更科學(xué)有效的輔助治療。

1 材料與方法

1.1 數(shù)據(jù)源 本文選用的HBV序列數(shù)據(jù)源來(lái)源于云南省第一人民醫(yī)院〔3〕,選取的HBV序列片段為X和前C基因片段。10例HBV感染者樣本使用聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase Chain Reaction,PCR)擴(kuò)增技術(shù)克隆至364個(gè)樣本,每例樣本的克隆數(shù)如表1所示。

表1 HBV感染者樣本及其克隆數(shù)

1.2 分析方法 HBV序列分析流程圖如圖1所示,整個(gè)分析過程由3個(gè)步驟組成。步驟1獲取HBV數(shù)據(jù)源,數(shù)據(jù)源包括364個(gè)HBV樣本序列和38個(gè)HBV參考序列,然后進(jìn)行多序列比對(duì)。為了保證HBV多序列比對(duì)的質(zhì)量,本文采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。步驟2就比對(duì)后的HBV序列進(jìn)行系統(tǒng)進(jìn)化分析,通過構(gòu)造系統(tǒng)進(jìn)化樹建立HBV樣本序列與參考序列之間的進(jìn)化分析。本文使用鄰接法〔4〕、最大似然法〔5〕、最小進(jìn)化法〔6〕、平均距離法〔7〕和最大簡(jiǎn)約法〔8〕5種常用方法分別對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹;為了研究堿基位點(diǎn)與HBeAg陽(yáng)性與陰性的關(guān)系,步驟3對(duì)364個(gè)HBV樣本序列進(jìn)行特征堿基位點(diǎn)提取,提取方法采用CFS(Correlation Feature Selection)〔9〕、卡方檢驗(yàn)(Chi-square Test)〔10〕和信息熵(Information Entropy)〔11〕3種方法進(jìn)行特征提取。為了評(píng)價(jià)特征提取前后的分類精度,分別使用決策樹C4.5算法〔12〕、樸素貝葉斯(Nave Bayes)〔13〕、支持向量機(jī)(SVM)〔14〕和隨機(jī)森林(Random Forest)〔15〕4種分類器對(duì)HBV序列樣本進(jìn)行分類精度比較。

圖1 HBV序列分析流程圖

2 HBV序列系統(tǒng)進(jìn)化分析

進(jìn)化分析是從分子特性出發(fā)了解生物系統(tǒng)的內(nèi)在規(guī)律。進(jìn)化論表明物種之間存在一定的親緣關(guān)系,一般用系統(tǒng)進(jìn)化樹距離的大小表示序列進(jìn)化中親緣關(guān)系的遠(yuǎn)近。

本文使用MEGA v6軟件中的鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法5種方法對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹,參數(shù)為MEGA軟件默認(rèn)設(shè)置參數(shù)。通過分析系統(tǒng)進(jìn)化樹,5種方法所預(yù)測(cè)的HBV基因型完全一致,這也驗(yàn)證了不同方法預(yù)測(cè)HBV基因型結(jié)果一致性。

除了編號(hào)8、13和24的真實(shí)基因型未知外,其余編號(hào)的預(yù)測(cè)基因型與真實(shí)基因型結(jié)果完全一致,見表1。這也進(jìn)一步說(shuō)明采用系統(tǒng)進(jìn)化樹預(yù)測(cè)未知HBV序列基因型的方法是有效的。

3 HBV序列特征提取

特征提取也叫特征選擇,它是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟。其主要思想是從已知的特征屬性集中根據(jù)某一特定準(zhǔn)則提取出區(qū)分性較好的單個(gè)特征子集或一個(gè)最優(yōu)特征屬性子集〔16〕。經(jīng)特征提取后可以剔除大量的冗余信息和不相關(guān)特征信息,這不僅降低特征屬性空間維數(shù),還節(jié)約分析時(shí)間和提高對(duì)目標(biāo)函數(shù)的預(yù)測(cè)性能力。

目前研究表明,每條HBV序列的堿基位點(diǎn)中,往往很多堿基位點(diǎn)是保守的,與HBV基因型分類無(wú)關(guān),因此對(duì)HBV序列的堿基位點(diǎn)進(jìn)行特征提取可以提高HBV基因型正確率和預(yù)測(cè)水平,同時(shí)在序列層次下挖掘與乙型肝炎患者相關(guān)的單核苷酸多態(tài)性位點(diǎn)(Single-Nucleotide Polymorphism,SNP)〔17〕。

3.1 特征堿基位點(diǎn)提取 HBV序列經(jīng)過多序列比對(duì)后,總共有624個(gè)堿基位點(diǎn)。由于CFS方法提取的是一個(gè)最優(yōu)屬性集,其大小為11。然而,卡方和信息熵方法按照權(quán)重重要性排列每個(gè)堿基位點(diǎn),其大小為624。為了公平地比較他們之間的分類精度,卡方和信息熵方法都統(tǒng)一選擇前11個(gè)最具有代表性的特征屬性集。

另一方面,為了研究屬性集大小與分類精度之間的關(guān)系,將卡方和信息熵方法提取的特征屬性集大小擴(kuò)大至20、30、40和50。

3.2 分類結(jié)果分析 本文選取決策樹C4.5、Na?ve Bayes、SVM和Random Forest 4種經(jīng)典分類器對(duì)CFS、卡方和信息熵3種特征提取前后的HBV序列進(jìn)行分類分析。軟件平臺(tái)為WEKA v3.7,屬性集大小設(shè)置為11,20、30、40和50。

如表2所示,Original代表原始HBV序列數(shù)據(jù),CFS-11代表CFS特征提取方法后的HBV序列數(shù)據(jù),Chi-11、Chi-20、Chi-30、Chi-40和Chi-50分別代表卡方特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù),InfoGain-11、InfoGain-20、InfoGain-30、InfoGain-40和InfoGain-50分別代表信息熵特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù)。當(dāng)特征屬性集大小為11的時(shí)候,4種分類器的分類精度ACC(Accuracy)有所降低,但是所選擇的11個(gè)特征屬性集也能夠很好的表征出原始HBV序列數(shù)據(jù)的624個(gè)特征屬性。隨著特征屬性集大小的增大,4種分類器的分類精度ACC都有增大的趨勢(shì)。特別地,當(dāng)特征屬性集大小選擇合適時(shí),Na?ve Bayes和Random Forest的分類精度ACC可以達(dá)到最大值1。這些結(jié)果表明:特征提取對(duì)HBV序列數(shù)據(jù)降維的同時(shí),也能夠保證甚至提高分類精度ACC。

表2 比較不同特征提取方法的分類精度ACC

4 結(jié)語(yǔ)

本文從多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次對(duì)10例HBV感染者的HBV序列進(jìn)行分析。首先采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。然后利用鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法構(gòu)造10例HBV克隆序列的系統(tǒng)進(jìn)化樹。5種系統(tǒng)進(jìn)化樹構(gòu)造法的預(yù)測(cè)結(jié)果完全一致,預(yù)測(cè)的10例(編號(hào)8、10、13、17、24、26、32、213、264和320)HBV感染者基因型分別為:C、C、C、Ba、C、C、C、C、C和C。除去未知基因型,準(zhǔn)確率為100%。為了降低HBV序列數(shù)據(jù)的維數(shù),采用CFS、卡方檢驗(yàn)和信息熵3種方法進(jìn)行特征提取。4種分類器(決策樹C4.5、Na?ve Bayes、SVM和Random Forest)的分類結(jié)果表明:特征提取能夠降低HBV序列數(shù)據(jù)的維數(shù),同時(shí)保證甚至提高分類精度。

〔1〕World Health Organization.乙型肝炎實(shí)況報(bào)道第204號(hào)〔EB/OL〕.〔2015-07-19〕.http://www.who.int/mediacentre/factsheets/fs204/zh/.

〔2〕BRECHOT C,POURCEL C,LOUISE A,et al.Presence of integrated hepatitis B virus DNA sequences in cellular DNA of human hepatocellular carcinoma〔J〕.Nature,1980,286(5772):533-535.

〔3〕SHEN T,GAO J,ZOU Y L,et al.Novel hepatitis B virus subgenotype in the southern Yunnan Province of China〔J〕.Intervirology,2009,52(6):340-346.

〔4〕SAITOU N,NEI M.The neighbor-joining method:a new method for reconstructing phylogenetic trees〔J〕.Molecular Biology and Evolution,1987,4(4):406-425.

〔5〕YANG Z.PAML:a program package for phylogenetic analysis by maximum likelihood〔J〕.Computer Applications in the Biosciences:CABIOS,1997,13(5):555-556.

〔6〕RZHETSKY A,NEI M.A simple method for estimating and testing minimum-evolution trees〔J〕.Mol Biol Evol,1992,9(5):945-967.

〔7〕TAKEZAKI N,NEI M.Genetic distances and reconstruction of phylogenetic trees from microsatellite DNA〔J〕.Genetics,1996,144(1):389-399.

〔8〕SAITOU N,IMANISHI T.Relative efficiencies of the Fitch-Margoliash,maximum-parsimony,maximum-likelihood,minimum-evolution,and neighbor-joining methods of phylogenetic tree construction in obtaining the correct tree〔J〕.Mol Biol Evol,1989,6(5):514-525.

〔9〕HALL M A.Correlation-based feature selection for machine learning〔D〕.Hamilton:The University of Waikato,1999.

〔10〕YATES F.Contingency tables involving small numbers and the χ2test〔J〕.Supplement to the Journal of the Royal Statistical Society,1934,1(2):217-235.

〔11〕KULLBACK S,LEIBLER R A.On information and sufficiency〔J〕.The Annals of Mathematical Statistics,1951,22(1):79-86.

〔12〕QUINLAN J R.C4.5:programs for machine learning〔M〕.Amsterdam:Elsevier,2014.

〔13〕RISHI.AnempiricalstudyofthenaiveBayesclassifier〔C〕//IJCAI 2001 workshop on empirical methods in artificial intelligence.2001,3(22):41-46.

〔14〕CORTES C,VAPNIK V.Support-vector networks〔J〕.Machine Learning,1995,20(3):273-297.

〔15〕 BREIMAN L.Random forests〔J〕.Machine Learning,2001,45(1):5-32.

〔16〕GUYON I,ELISSEEFF A.An introduction to variable and feature selection〔J〕.The Journal of Machine Learning Research,2003,3:1157-1182.

〔17〕AHMADIAN A,GHARIZADEH B,GUSTAFSSON A C,et al.Single-nucleotide polymorphism analysis by pyrosequencing〔J〕.Analytical Biochemistry,2000,280(1):103-110.

猜你喜歡
特征提取分類特征
分類算一算
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 国产乱视频网站| 国产免费一级精品视频| 国产精品主播| 精品夜恋影院亚洲欧洲| 精品三级在线| 天天综合天天综合| 青青草国产免费国产| 久久亚洲高清国产| 国产啪在线91| 在线亚洲天堂| 亚洲国产天堂久久综合226114| 国产免费人成视频网| 久久精品人人做人人爽97| 国产偷国产偷在线高清| 国产小视频网站| 亚洲中文字幕国产av| 人人澡人人爽欧美一区| 欧美精品啪啪一区二区三区| 香蕉精品在线| 中字无码av在线电影| www.日韩三级| 欧洲成人在线观看| 国产精品亚欧美一区二区三区| 日韩高清一区 | 国产一二视频| 老司机aⅴ在线精品导航| 国产电话自拍伊人| 国产高清不卡视频| 国产成人在线无码免费视频| 日韩在线2020专区| 无码aⅴ精品一区二区三区| 99久久性生片| 精品成人一区二区| 91娇喘视频| 国产女人爽到高潮的免费视频| 国产无遮挡猛进猛出免费软件| 欧美一级黄色影院| 人妻丰满熟妇αv无码| 午夜三级在线| 欧美在线综合视频| 欧洲极品无码一区二区三区| 欧美成人第一页| 国产白丝av| 亚洲精品无码在线播放网站| h视频在线播放| 国产欧美视频综合二区| 国产综合在线观看视频| 亚洲久悠悠色悠在线播放| 国产区91| 久草性视频| 91久久国产热精品免费| 国产主播福利在线观看| 成年人福利视频| 亚洲综合亚洲国产尤物| 五月婷婷丁香综合| 女人av社区男人的天堂| 国产成人调教在线视频| 国产成人综合久久精品下载| 香蕉综合在线视频91| 91国内在线观看| 99精品视频播放| 欧美日韩亚洲国产主播第一区| 国产久操视频| 国产精品v欧美| 久久国产黑丝袜视频| 久久久久无码精品| 亚洲成a人片| 高h视频在线| 亚洲人网站| 在线观看亚洲人成网站| 国产日韩欧美视频| 久久精品亚洲热综合一区二区| 高清大学生毛片一级| 国产精品私拍在线爆乳| 成年A级毛片| 男人天堂伊人网| 久久久四虎成人永久免费网站| 在线免费亚洲无码视频| 伊人久久综在合线亚洲2019| 夜夜操天天摸| 日本成人一区| 又爽又大又黄a级毛片在线视频 |