999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘在預(yù)測(cè)甲型流感病毒蛋白宿主偏好性中的應(yīng)用研究

2018-10-31 10:49:24王佳丁雄飛
關(guān)鍵詞:數(shù)據(jù)挖掘

王佳 丁雄飛

摘要:針對(duì)甲型流感病毒的宿主偏好性問(wèn)題,開(kāi)展數(shù)據(jù)挖掘的應(yīng)用研究。利用CART決策樹(shù)算法構(gòu)建了甲流病毒各個(gè)蛋白及整個(gè)毒株的宿主偏好預(yù)測(cè)模型,進(jìn)一步利用關(guān)聯(lián)分析挖掘影響甲流病毒宿主偏好的關(guān)鍵氨基酸位點(diǎn),為甲流病毒跨種傳播的研究提供理論支持同時(shí)對(duì)公共健康提供預(yù)警。

關(guān)鍵詞:甲型流感病毒;數(shù)據(jù)挖掘;CART決策樹(shù);關(guān)聯(lián)規(guī)則

中圖分類(lèi)號(hào):Q939.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)06-0073-02

1 前言

流感是世界范圍內(nèi)受關(guān)注度比較高的傳染性疾病之一, 每年導(dǎo)致300萬(wàn)到500萬(wàn)例嚴(yán)重疾病并有25萬(wàn)到50萬(wàn)例導(dǎo)致死亡。甲型流感病毒起源于野生水禽[1],由于物種屏障的限制,它們通常在禽鳥(niǎo)種群內(nèi)生存和進(jìn)化,無(wú)法感染其它種類(lèi)的宿主。然而,經(jīng)過(guò)進(jìn)化中的位點(diǎn)突變以及基因重組的作用導(dǎo)致病毒發(fā)生了抗原漂移或抗原轉(zhuǎn)移,使得部分病毒獲得了跨越物種屏障并感染人類(lèi)的能力[2]。利用數(shù)據(jù)挖掘技術(shù)研究甲型流感病毒的宿主偏好性可實(shí)現(xiàn)對(duì)新發(fā)流感病毒的宿主偏好作出預(yù)測(cè),從而對(duì)人類(lèi)公共健康發(fā)出預(yù)警提高防控效率。數(shù)據(jù)挖掘的各項(xiàng)技術(shù)已經(jīng)在眾多的領(lǐng)域取得了成功的應(yīng)用[3,4]。本文將利用決策樹(shù)展開(kāi)對(duì)甲型流感病毒蛋白宿主偏好預(yù)測(cè)模型的研究,并通過(guò)關(guān)聯(lián)規(guī)則技術(shù)挖掘影響宿主偏好性的關(guān)鍵位點(diǎn)及位點(diǎn)上的氨基酸。

2 基于決策樹(shù)的甲流病毒宿主偏好預(yù)測(cè)模型

2.1 數(shù)據(jù)準(zhǔn)備

針對(duì)禽類(lèi)和人類(lèi)這兩個(gè)生物種群,收集病毒的10種蛋白氨基酸序列,由10種蛋白聯(lián)合構(gòu)成的序列代表該病毒毒株。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于NCBI流感病毒數(shù)據(jù)庫(kù)。在NCBI數(shù)據(jù)庫(kù)中獲取了198,611條禽類(lèi)流感病毒蛋白質(zhì)序列和282,307條人類(lèi)流感病毒蛋白質(zhì)序列。執(zhí)行數(shù)據(jù)清洗,對(duì)于原始數(shù)據(jù),除去有缺失值的序列。對(duì)于毒株序列,若某蛋白有缺失,則實(shí)驗(yàn)不考慮該條毒株序列。H5N1和H7N9是已經(jīng)確定可發(fā)生宿主跳躍感染人類(lèi)的兩種病毒亞型,具有較高的代表性及研究?jī)r(jià)值,篩選出這兩類(lèi)亞型的蛋白數(shù)據(jù)作為小數(shù)據(jù)集,其余數(shù)據(jù)作為大數(shù)據(jù)集。將數(shù)據(jù)集中各蛋白及毒株序列做多序列比對(duì),保證序列長(zhǎng)度和位點(diǎn)的統(tǒng)一。比對(duì)完成后,將氨基酸信息轉(zhuǎn)化為數(shù)值從而將病毒蛋白序列轉(zhuǎn)化為向量并采用Min-Max方法對(duì)數(shù)據(jù)進(jìn)行變換實(shí)現(xiàn)標(biāo)準(zhǔn)化。

2.2 建立決策樹(shù)預(yù)測(cè)模型

將標(biāo)準(zhǔn)化后的數(shù)據(jù)導(dǎo)入決策樹(shù)模型,來(lái)自于人類(lèi)宿主的蛋白劃分為正樣本,來(lái)自于禽類(lèi)宿主的蛋白劃分為負(fù)樣本。建立決策樹(shù)常用算法為ID3、C4.5、CART算法,三種算法的區(qū)別是度量標(biāo)準(zhǔn)不一樣,分別是信息增益、信息增益比率和Gini指數(shù)。本文采用CART算法建立決策樹(shù)。

CART算法如下:1)計(jì)算訓(xùn)練集樣本D的Gini指數(shù),之后利用樣本中每一個(gè)特征Att及Att的每一個(gè)可能取值att,根據(jù)Att與att的大小關(guān)系將樣本分為兩類(lèi),并計(jì)算Gini(D,Att)值;2)找出使得Gini指數(shù)Gini(D,Att)最小的最優(yōu)劃分特征及取值,并判斷是否停止劃分,否則,輸出最優(yōu)劃分點(diǎn);3)遞歸調(diào)用1)、2);4)生成CART決策樹(shù)。

在這些樹(shù)模型中,由蛋白質(zhì)序列的關(guān)鍵位點(diǎn)擔(dān)任決策節(jié)點(diǎn)對(duì)蛋白或病毒序列劃分。預(yù)測(cè)模型的所有訓(xùn)練均使用10倍交叉驗(yàn)證。在10倍驗(yàn)證交叉中,整個(gè)數(shù)據(jù)集被分為9個(gè)訓(xùn)練子集和1個(gè)測(cè)試子集。訓(xùn)練過(guò)程將使用9個(gè)子集訓(xùn)練,同時(shí)保留最后1個(gè)子集進(jìn)行測(cè)試,迭代10輪。最后數(shù)據(jù)集中的每個(gè)樣本都將被測(cè)試一次,以防止過(guò)度擬合問(wèn)題。

2.3 決策樹(shù)分類(lèi)模型結(jié)果分析

利用CART算法及10倍交叉驗(yàn)證后將得到10個(gè)準(zhǔn)確率,即測(cè)試子集在模型上被分類(lèi)正確的數(shù)量百分比,取其均值作為模型的準(zhǔn)確率。結(jié)果表明毒株的宿主偏好性決策樹(shù)預(yù)測(cè)模型在H5N1和H7N9亞型構(gòu)成的小數(shù)據(jù)集上準(zhǔn)確率達(dá)到95.17%,而在其它亞型構(gòu)成的大數(shù)據(jù)集上準(zhǔn)確率達(dá)到99.83%。而10個(gè)蛋白的平均準(zhǔn)確率在小數(shù)據(jù)集上為90.94%,大數(shù)據(jù)集上為98.86%。

所有10種蛋白和毒株的決策樹(shù)預(yù)測(cè)模型都表現(xiàn)出了高預(yù)測(cè)性能。這10種流感病毒蛋白分類(lèi)模型的高準(zhǔn)確率表明同種宿主的蛋白序列具有某些共性。分析大小數(shù)據(jù)集上的各蛋白及毒株準(zhǔn)確率,發(fā)現(xiàn)10種蛋白及毒株在大數(shù)據(jù)集上的分類(lèi)模型準(zhǔn)確率要高于小數(shù)據(jù)集上的分類(lèi)模型準(zhǔn)確率,表明在大數(shù)據(jù)集上的分類(lèi)效果要優(yōu)于小數(shù)據(jù)集。這是由于實(shí)驗(yàn)定義的小數(shù)據(jù)集僅包含H5N1和H7N9兩種亞型病毒。這兩類(lèi)亞型病毒原來(lái)只是在禽類(lèi)中傳播,發(fā)生突變后獲得了感染人類(lèi)的能力。結(jié)果表明了這兩類(lèi)亞型病毒相較于其余亞型病毒區(qū)分度較小,與這兩類(lèi)亞型病毒感染人類(lèi)的高風(fēng)險(xiǎn)相一致。

3 關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則分析用于發(fā)現(xiàn)項(xiàng)目間相互關(guān)聯(lián)的規(guī)則。例如,規(guī)則可以挖掘經(jīng)常與其他產(chǎn)品同時(shí)購(gòu)買(mǎi)的特定產(chǎn)品。判定規(guī)則的條件是看支持度與置信度,規(guī)則的支持度是包含該規(guī)則的事務(wù)數(shù)量占比,而置信度是規(guī)則前后件同時(shí)出現(xiàn)的數(shù)量與規(guī)則前件出現(xiàn)的數(shù)量比值。置信度和支持度超過(guò)規(guī)定閾值的規(guī)則稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。

實(shí)驗(yàn)中每個(gè)蛋白質(zhì)序列代表一個(gè)交易T,并且其中各位點(diǎn)氨基酸例如A,S,T,K,M,V屬于項(xiàng)目集I。所有的序列構(gòu)成一個(gè)D集。Y集包括2個(gè)分類(lèi)標(biāo)簽:禽類(lèi)宿主,人類(lèi)宿主。關(guān)聯(lián)規(guī)則是形式XY的概念,其中X I。如果既包含X也包含Y的規(guī)則在D中出現(xiàn),那么該規(guī)則在D中有支持度,并且這個(gè)支持度是該規(guī)則出現(xiàn)的次數(shù)在D集中的比例。而置信度則是該規(guī)則在D中出現(xiàn)的次數(shù)與該規(guī)則前件X出現(xiàn)次數(shù)的比值。針對(duì)小數(shù)據(jù)集上的數(shù)據(jù)做關(guān)聯(lián)規(guī)則挖掘,尋找在突變導(dǎo)致宿主偏好改變過(guò)程中發(fā)揮作用的具體氨基酸位點(diǎn)。

結(jié)果挖掘了一些影響宿主偏好性的氨基酸位點(diǎn),例如規(guī)則(HA_617=S人類(lèi))的支持度為1.337%,表明有1.337%的人類(lèi)毒株在HA蛋白的617號(hào)位置是絲氨酸,置信度為100%則表明了所有617號(hào)位點(diǎn)是絲氨酸的序列其宿主都為人類(lèi)。另有一條規(guī)則(PB2_471= M & PB2_487=V禽類(lèi))的支持度為8.546%,置信度為100%,表明有近十分之一的禽類(lèi)病毒PB2蛋白在471號(hào)位點(diǎn)是甲硫氨酸以及487號(hào)位點(diǎn)是纈氨酸,并且具有這樣的位點(diǎn)特征的病毒在人類(lèi)PB2蛋白中沒(méi)有出現(xiàn)過(guò)。

4 結(jié)語(yǔ)

本文利用數(shù)據(jù)挖掘計(jì)算技術(shù)針對(duì)甲型流感病毒的10種蛋白以及其聯(lián)合構(gòu)成的毒株序列構(gòu)建了決策樹(shù)分類(lèi)預(yù)測(cè)模型,結(jié)果表明除了已經(jīng)被認(rèn)定的HA蛋白和PB2蛋白外,其余蛋白質(zhì)也表現(xiàn)出了對(duì)宿主偏好性的影響。同時(shí),針對(duì)毒株構(gòu)建的預(yù)測(cè)模型能夠預(yù)測(cè)新型流感病毒,確定其宿主偏好,為甲型流感的早期防控提供預(yù)警。此外研究針對(duì)甲型流感病毒的10種蛋白及其宿主偏好挖掘關(guān)聯(lián)規(guī)則,找到了一些重要的位點(diǎn),分析這些特定位點(diǎn)上的氨基酸,發(fā)現(xiàn)它們?cè)诓煌拗鏖g差異顯著,這些位點(diǎn)將對(duì)研究甲型流感的跨種傳播研究提供一些線(xiàn)索。

參考文獻(xiàn)

[1]陳浦言.獸醫(yī)傳染病學(xué)(第五版)[M].北京:中國(guó)農(nóng)業(yè)出版社,2006.

[2]徐慧琳,張文彤,趙耐青,姜慶五.影響H5N1甲型流感病毒對(duì)哺乳動(dòng)物毒力變異的HA序列關(guān)鍵位點(diǎn)研究[J].復(fù)旦學(xué)報(bào)(醫(yī)學(xué)版),2006,33(5):473-473.

[3]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32(2):246-252.

[4]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013,50(s2):216-233.

Abstract:In this study, the application of data mining in predicting the host preference of influenza A virus is investigated. The CART decision tree algorithm was used to construct the host preference prediction model of each protein of influenza A virus and the whole strain, and the key amino acid positions affecting the host preference of influenza A virus were further digged by association analysis, which can provide theoretical support for the study of cross-species transmission of influenza A virus and early warning on public health.

Key words:influenza a virus; data mining; CART decision tree; association rule

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 国产免费精彩视频| 久久夜色撩人精品国产| 国产精品片在线观看手机版 | 国产日韩AV高潮在线| 丁香婷婷激情综合激情| 国产午夜无码片在线观看网站| 手机永久AV在线播放| 在线免费亚洲无码视频| 国产激情第一页| 亚洲欧美综合在线观看| 国产精品99一区不卡| 久久精品午夜视频| 国产黑人在线| 蜜桃臀无码内射一区二区三区| 久久精品人人做人人爽电影蜜月| 色综合五月婷婷| 欧美激情伊人| 国产一级在线播放| 亚洲色图欧美激情| 久久国产亚洲欧美日韩精品| 色悠久久久久久久综合网伊人| 国产三级视频网站| 高清视频一区| 手机在线免费不卡一区二| 国产美女主播一级成人毛片| 亚洲精品福利视频| 亚洲男人在线| 亚洲精品卡2卡3卡4卡5卡区| 日本欧美午夜| 不卡网亚洲无码| 综合亚洲色图| 中文字幕在线不卡视频| 亚洲人成人伊人成综合网无码| 亚洲a级在线观看| 国产一级二级在线观看| 婷婷成人综合| 狠狠色丁香婷婷| 夜夜拍夜夜爽| 夜精品a一区二区三区| 国产精品女同一区三区五区| 色综合手机在线| 人人看人人鲁狠狠高清| 色婷婷啪啪| 中文字幕久久精品波多野结| 伊人久久大线影院首页| 首页亚洲国产丝袜长腿综合| 日韩午夜福利在线观看| 高清无码手机在线观看| 亚洲人成影视在线观看| 一本一本大道香蕉久在线播放| 亚洲天堂网在线播放| 99热这里只有精品免费| 亚洲区欧美区| 国产一级α片| 国产97公开成人免费视频| 亚洲国产成人在线| 久久久成年黄色视频| 成人精品在线观看| 免费观看无遮挡www的小视频| 亚洲精品成人片在线观看| 无码高清专区| 青青草91视频| 永久在线精品免费视频观看| 热热久久狠狠偷偷色男同| 99热这里只有精品国产99| 一本大道香蕉久中文在线播放| 日本不卡在线| 国产欧美日韩在线一区| 中文成人在线| 在线中文字幕网| 熟妇丰满人妻| 麻豆精品在线播放| 亚洲男人的天堂在线观看| 亚洲人成网18禁| www.国产福利| 国产一区二区三区免费| 亚洲欧美日韩动漫| 国产91色| 亚洲精品波多野结衣| 欧美www在线观看| 国产在线自揄拍揄视频网站| 538国产在线|