999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HBV序列的系統(tǒng)進(jìn)化分析和特征提取研究

2015-04-18 03:00:30謝坐祥張俊鵬
大理大學(xué)學(xué)報(bào) 2015年12期
關(guān)鍵詞:特征提取分類特征

謝坐祥,陳 霞,張俊鵬

(大理大學(xué)工程學(xué)院,云南大理 671003)

乙型肝炎病毒(Hepatitis B Virus,HBV)是一類引起人類慢、急性肝炎的環(huán)狀DNA病毒〔1〕。目前全球約有2.4億人感染乙型肝炎,每年約有78萬(wàn)人死于慢性或急性乙型肝炎。根據(jù)世界衛(wèi)生組織(WHO)〔1〕報(bào)告,我國(guó)有5%~10%的成年人是HBV慢性感染者。

HBV基因?yàn)椴糠珠]合雙鏈環(huán)狀DNA,全長(zhǎng)約3.2 kb。它主要分為P、X、C和S 4個(gè)基因區(qū),C區(qū)分為C基因和前C基因片段,S區(qū)分為前S1、前S2和S基因片段〔2〕。目前研究表明:HBV基因型可以分為A、B、C、D、E、F、G和H 8種類型,不同的基因型呈現(xiàn)不同地理區(qū)域分布,我國(guó)主要以B和C兩種基因型為主〔3〕。

本文將基于機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)HBV多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次的分析。這將有利于進(jìn)一步了解HBV病毒在序列層次下的進(jìn)化關(guān)系、突變過程、基因特點(diǎn)和基因型種類,進(jìn)而為HBV患者提供更科學(xué)有效的輔助治療。

1 材料與方法

1.1 數(shù)據(jù)源 本文選用的HBV序列數(shù)據(jù)源來(lái)源于云南省第一人民醫(yī)院〔3〕,選取的HBV序列片段為X和前C基因片段。10例HBV感染者樣本使用聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase Chain Reaction,PCR)擴(kuò)增技術(shù)克隆至364個(gè)樣本,每例樣本的克隆數(shù)如表1所示。

表1 HBV感染者樣本及其克隆數(shù)

1.2 分析方法 HBV序列分析流程圖如圖1所示,整個(gè)分析過程由3個(gè)步驟組成。步驟1獲取HBV數(shù)據(jù)源,數(shù)據(jù)源包括364個(gè)HBV樣本序列和38個(gè)HBV參考序列,然后進(jìn)行多序列比對(duì)。為了保證HBV多序列比對(duì)的質(zhì)量,本文采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。步驟2就比對(duì)后的HBV序列進(jìn)行系統(tǒng)進(jìn)化分析,通過構(gòu)造系統(tǒng)進(jìn)化樹建立HBV樣本序列與參考序列之間的進(jìn)化分析。本文使用鄰接法〔4〕、最大似然法〔5〕、最小進(jìn)化法〔6〕、平均距離法〔7〕和最大簡(jiǎn)約法〔8〕5種常用方法分別對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹;為了研究堿基位點(diǎn)與HBeAg陽(yáng)性與陰性的關(guān)系,步驟3對(duì)364個(gè)HBV樣本序列進(jìn)行特征堿基位點(diǎn)提取,提取方法采用CFS(Correlation Feature Selection)〔9〕、卡方檢驗(yàn)(Chi-square Test)〔10〕和信息熵(Information Entropy)〔11〕3種方法進(jìn)行特征提取。為了評(píng)價(jià)特征提取前后的分類精度,分別使用決策樹C4.5算法〔12〕、樸素貝葉斯(Nave Bayes)〔13〕、支持向量機(jī)(SVM)〔14〕和隨機(jī)森林(Random Forest)〔15〕4種分類器對(duì)HBV序列樣本進(jìn)行分類精度比較。

圖1 HBV序列分析流程圖

2 HBV序列系統(tǒng)進(jìn)化分析

進(jìn)化分析是從分子特性出發(fā)了解生物系統(tǒng)的內(nèi)在規(guī)律。進(jìn)化論表明物種之間存在一定的親緣關(guān)系,一般用系統(tǒng)進(jìn)化樹距離的大小表示序列進(jìn)化中親緣關(guān)系的遠(yuǎn)近。

本文使用MEGA v6軟件中的鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法5種方法對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹,參數(shù)為MEGA軟件默認(rèn)設(shè)置參數(shù)。通過分析系統(tǒng)進(jìn)化樹,5種方法所預(yù)測(cè)的HBV基因型完全一致,這也驗(yàn)證了不同方法預(yù)測(cè)HBV基因型結(jié)果一致性。

除了編號(hào)8、13和24的真實(shí)基因型未知外,其余編號(hào)的預(yù)測(cè)基因型與真實(shí)基因型結(jié)果完全一致,見表1。這也進(jìn)一步說(shuō)明采用系統(tǒng)進(jìn)化樹預(yù)測(cè)未知HBV序列基因型的方法是有效的。

3 HBV序列特征提取

特征提取也叫特征選擇,它是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟。其主要思想是從已知的特征屬性集中根據(jù)某一特定準(zhǔn)則提取出區(qū)分性較好的單個(gè)特征子集或一個(gè)最優(yōu)特征屬性子集〔16〕。經(jīng)特征提取后可以剔除大量的冗余信息和不相關(guān)特征信息,這不僅降低特征屬性空間維數(shù),還節(jié)約分析時(shí)間和提高對(duì)目標(biāo)函數(shù)的預(yù)測(cè)性能力。

目前研究表明,每條HBV序列的堿基位點(diǎn)中,往往很多堿基位點(diǎn)是保守的,與HBV基因型分類無(wú)關(guān),因此對(duì)HBV序列的堿基位點(diǎn)進(jìn)行特征提取可以提高HBV基因型正確率和預(yù)測(cè)水平,同時(shí)在序列層次下挖掘與乙型肝炎患者相關(guān)的單核苷酸多態(tài)性位點(diǎn)(Single-Nucleotide Polymorphism,SNP)〔17〕。

3.1 特征堿基位點(diǎn)提取 HBV序列經(jīng)過多序列比對(duì)后,總共有624個(gè)堿基位點(diǎn)。由于CFS方法提取的是一個(gè)最優(yōu)屬性集,其大小為11。然而,卡方和信息熵方法按照權(quán)重重要性排列每個(gè)堿基位點(diǎn),其大小為624。為了公平地比較他們之間的分類精度,卡方和信息熵方法都統(tǒng)一選擇前11個(gè)最具有代表性的特征屬性集。

另一方面,為了研究屬性集大小與分類精度之間的關(guān)系,將卡方和信息熵方法提取的特征屬性集大小擴(kuò)大至20、30、40和50。

3.2 分類結(jié)果分析 本文選取決策樹C4.5、Na?ve Bayes、SVM和Random Forest 4種經(jīng)典分類器對(duì)CFS、卡方和信息熵3種特征提取前后的HBV序列進(jìn)行分類分析。軟件平臺(tái)為WEKA v3.7,屬性集大小設(shè)置為11,20、30、40和50。

如表2所示,Original代表原始HBV序列數(shù)據(jù),CFS-11代表CFS特征提取方法后的HBV序列數(shù)據(jù),Chi-11、Chi-20、Chi-30、Chi-40和Chi-50分別代表卡方特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù),InfoGain-11、InfoGain-20、InfoGain-30、InfoGain-40和InfoGain-50分別代表信息熵特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù)。當(dāng)特征屬性集大小為11的時(shí)候,4種分類器的分類精度ACC(Accuracy)有所降低,但是所選擇的11個(gè)特征屬性集也能夠很好的表征出原始HBV序列數(shù)據(jù)的624個(gè)特征屬性。隨著特征屬性集大小的增大,4種分類器的分類精度ACC都有增大的趨勢(shì)。特別地,當(dāng)特征屬性集大小選擇合適時(shí),Na?ve Bayes和Random Forest的分類精度ACC可以達(dá)到最大值1。這些結(jié)果表明:特征提取對(duì)HBV序列數(shù)據(jù)降維的同時(shí),也能夠保證甚至提高分類精度ACC。

表2 比較不同特征提取方法的分類精度ACC

4 結(jié)語(yǔ)

本文從多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次對(duì)10例HBV感染者的HBV序列進(jìn)行分析。首先采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。然后利用鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法構(gòu)造10例HBV克隆序列的系統(tǒng)進(jìn)化樹。5種系統(tǒng)進(jìn)化樹構(gòu)造法的預(yù)測(cè)結(jié)果完全一致,預(yù)測(cè)的10例(編號(hào)8、10、13、17、24、26、32、213、264和320)HBV感染者基因型分別為:C、C、C、Ba、C、C、C、C、C和C。除去未知基因型,準(zhǔn)確率為100%。為了降低HBV序列數(shù)據(jù)的維數(shù),采用CFS、卡方檢驗(yàn)和信息熵3種方法進(jìn)行特征提取。4種分類器(決策樹C4.5、Na?ve Bayes、SVM和Random Forest)的分類結(jié)果表明:特征提取能夠降低HBV序列數(shù)據(jù)的維數(shù),同時(shí)保證甚至提高分類精度。

〔1〕World Health Organization.乙型肝炎實(shí)況報(bào)道第204號(hào)〔EB/OL〕.〔2015-07-19〕.http://www.who.int/mediacentre/factsheets/fs204/zh/.

〔2〕BRECHOT C,POURCEL C,LOUISE A,et al.Presence of integrated hepatitis B virus DNA sequences in cellular DNA of human hepatocellular carcinoma〔J〕.Nature,1980,286(5772):533-535.

〔3〕SHEN T,GAO J,ZOU Y L,et al.Novel hepatitis B virus subgenotype in the southern Yunnan Province of China〔J〕.Intervirology,2009,52(6):340-346.

〔4〕SAITOU N,NEI M.The neighbor-joining method:a new method for reconstructing phylogenetic trees〔J〕.Molecular Biology and Evolution,1987,4(4):406-425.

〔5〕YANG Z.PAML:a program package for phylogenetic analysis by maximum likelihood〔J〕.Computer Applications in the Biosciences:CABIOS,1997,13(5):555-556.

〔6〕RZHETSKY A,NEI M.A simple method for estimating and testing minimum-evolution trees〔J〕.Mol Biol Evol,1992,9(5):945-967.

〔7〕TAKEZAKI N,NEI M.Genetic distances and reconstruction of phylogenetic trees from microsatellite DNA〔J〕.Genetics,1996,144(1):389-399.

〔8〕SAITOU N,IMANISHI T.Relative efficiencies of the Fitch-Margoliash,maximum-parsimony,maximum-likelihood,minimum-evolution,and neighbor-joining methods of phylogenetic tree construction in obtaining the correct tree〔J〕.Mol Biol Evol,1989,6(5):514-525.

〔9〕HALL M A.Correlation-based feature selection for machine learning〔D〕.Hamilton:The University of Waikato,1999.

〔10〕YATES F.Contingency tables involving small numbers and the χ2test〔J〕.Supplement to the Journal of the Royal Statistical Society,1934,1(2):217-235.

〔11〕KULLBACK S,LEIBLER R A.On information and sufficiency〔J〕.The Annals of Mathematical Statistics,1951,22(1):79-86.

〔12〕QUINLAN J R.C4.5:programs for machine learning〔M〕.Amsterdam:Elsevier,2014.

〔13〕RISHI.AnempiricalstudyofthenaiveBayesclassifier〔C〕//IJCAI 2001 workshop on empirical methods in artificial intelligence.2001,3(22):41-46.

〔14〕CORTES C,VAPNIK V.Support-vector networks〔J〕.Machine Learning,1995,20(3):273-297.

〔15〕 BREIMAN L.Random forests〔J〕.Machine Learning,2001,45(1):5-32.

〔16〕GUYON I,ELISSEEFF A.An introduction to variable and feature selection〔J〕.The Journal of Machine Learning Research,2003,3:1157-1182.

〔17〕AHMADIAN A,GHARIZADEH B,GUSTAFSSON A C,et al.Single-nucleotide polymorphism analysis by pyrosequencing〔J〕.Analytical Biochemistry,2000,280(1):103-110.

猜你喜歡
特征提取分類特征
分類算一算
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 国产精品免费电影| 国产福利微拍精品一区二区| 毛片网站在线播放| 成人在线综合| 都市激情亚洲综合久久| 免费激情网站| 美女无遮挡免费网站| 日本黄色a视频| 国产成+人+综合+亚洲欧美| 久久久久无码精品| 成人精品午夜福利在线播放| 女人18毛片久久| 亚洲妓女综合网995久久| 中国国产高清免费AV片| 青青国产在线| 曰AV在线无码| 亚洲高清无码久久久| 福利一区三区| 在线观看亚洲成人| 国产偷国产偷在线高清| 亚洲色中色| 波多野结衣久久高清免费| 亚洲欧美综合另类图片小说区| 国产精品偷伦在线观看| 国产精品视频公开费视频| 国产嫖妓91东北老熟女久久一| 2020精品极品国产色在线观看| 国内精品小视频福利网址| 国产三级视频网站| 欧美亚洲激情| 精品视频91| 日本久久网站| 欧美日在线观看| 福利视频久久| 动漫精品啪啪一区二区三区| 无码精品国产VA在线观看DVD| 91精品啪在线观看国产| 亚洲人成在线精品| 日韩小视频网站hq| 亚洲国产系列| 亚洲第一极品精品无码| 亚洲综合色在线| 新SSS无码手机在线观看| 欧美无专区| 亚洲一区二区在线无码| 国产第一福利影院| 欧美性精品| 亚洲 日韩 激情 无码 中出| 精品视频第一页| 亚洲综合片| 国产日本一区二区三区| 亚洲二区视频| 扒开粉嫩的小缝隙喷白浆视频| 欧美a在线| 久久综合激情网| 国产视频久久久久| 伊人久久大线影院首页| 欧美视频免费一区二区三区| 高清无码不卡视频| 中文字幕1区2区| 无码精品福利一区二区三区| 国产精品极品美女自在线看免费一区二区| 日日噜噜夜夜狠狠视频| 国产美女无遮挡免费视频网站| 丰满人妻中出白浆| 亚洲精品视频免费观看| 成人国产免费| 91 九色视频丝袜| 国模视频一区二区| 国产精品99在线观看| 久久久精品国产SM调教网站| 国产午夜在线观看视频| 国外欧美一区另类中文字幕| 国产人碰人摸人爱免费视频| 九色在线视频导航91| 一本无码在线观看| 蜜桃视频一区二区| 国产十八禁在线观看免费| 亚洲Av综合日韩精品久久久| 久久一色本道亚洲| 久久精品人人做人人综合试看| 谁有在线观看日韩亚洲最新视频|