999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不平衡數(shù)據(jù)集的蛋白質(zhì)ATP結(jié)合位點集成預(yù)測

2016-11-09 23:04:14張金濤

張金濤

摘要:集成學(xué)習(xí)是一種新的機器學(xué)習(xí)范式,它通過訓(xùn)練若干有差異的學(xué)習(xí)器,并將它們的預(yù)測結(jié)果進(jìn)行合成,相對于單個學(xué)習(xí)器,集成學(xué)習(xí)算法可以顯著提高學(xué)習(xí)系統(tǒng)的泛化能力。因此對集成學(xué)習(xí)理論和算法的研究成為了機器學(xué)習(xí)領(lǐng)域的一個熱點。現(xiàn)在,集成學(xué)習(xí)已經(jīng)成功應(yīng)用于航空航天、地震波分析、生物特征識別、醫(yī)療診斷等眾多領(lǐng)域。但集成學(xué)習(xí)技術(shù)還不成熟,對集成學(xué)習(xí)的研究還存在很大的進(jìn)步空間。

關(guān)鍵詞:腺苷三磷酸 SFLA聚類算法 ELM的集成預(yù)測算法

中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)09-0092-02

腺苷三磷酸(Adenosine Triphosphate,ATP)是一種高能磷酸化合物,在預(yù)測蛋白質(zhì)功能方面起著關(guān)鍵作用。針對傳統(tǒng)實驗的方法鑒別ATP與蛋白質(zhì)的結(jié)合位點時存在耗時、耗力、耗資的缺陷,國內(nèi)外學(xué)者均開始嘗試用生物信息學(xué)的方法預(yù)測ATP與蛋白質(zhì)的結(jié)合位點[1]。2009年,Dr.G.P.S.Raghava的科研科研小組利用ATPint軟件程序包預(yù)測ATP與蛋白質(zhì)的結(jié)合位點,預(yù)測總精度達(dá)75.25%,相關(guān)系數(shù)MCC值達(dá)到0.5。2011年,Ke Chen等人組成的科研小組利用ATPsite軟件程序包預(yù)測ATP與蛋白質(zhì)的結(jié)合位點,預(yù)測總精度達(dá)86.13%,相關(guān)系數(shù)MCC值達(dá)到0.46。實際預(yù)測ATP和蛋白質(zhì)結(jié)合位點時,結(jié)合位點(正類)的片段數(shù)量與非結(jié)合位點(負(fù)類)的片段數(shù)量相差懸殊,造成數(shù)據(jù)不平衡。為了減小數(shù)據(jù)不均衡對預(yù)測的影響,這里對負(fù)類樣本運用基于混合蛙跳的(Shuffled Frog Leaping Algorithm,SFLA)聚類算法進(jìn)行欠采樣形成多個不相交的子集,然后在各子集上提取有代表性的樣本集,與正類樣本組成新的平衡訓(xùn)練集。然后,基于字統(tǒng)計模型提取特征,并利用多樣性增量對所提取高維特征進(jìn)行降維。最后,采用基于極端學(xué)習(xí)機(Extreme Learning Machine,ELM)的集成預(yù)測算法對蛋白質(zhì)ATP結(jié)合位點進(jìn)行預(yù)測[2]。

1 基于SFLA聚類算法的數(shù)據(jù)欠采樣

由于在蛋白質(zhì)序列數(shù)據(jù)集中,與ATP結(jié)合的氨基酸位點遠(yuǎn)遠(yuǎn)少于非結(jié)合位點,因此需要對數(shù)據(jù)集進(jìn)行平衡化處理,以使其不致影響后續(xù)分類的精度。處理不平衡數(shù)據(jù)集分類問題常用的主要有算法層面和數(shù)據(jù)層面兩種方法。本項目擬采用在數(shù)據(jù)層面處理不平衡數(shù)據(jù),即首先采用基于SFLA聚類算法進(jìn)行欠采樣,將原始數(shù)據(jù)集中的負(fù)類樣本聚類為多個不相交的子集,然后在各子集上提取有代表性的樣本集,與正類樣本組成新的平衡數(shù)據(jù)集。

假設(shè)原始數(shù)據(jù)集中包含N1個正類數(shù)據(jù)集A,N2個負(fù)類數(shù)據(jù)集B,算法步驟如下:

Step 1:在負(fù)類數(shù)據(jù)集B上,使用基于SFLA聚類算法對N2個負(fù)類數(shù)據(jù)進(jìn)行聚類,聚類后各簇內(nèi)的數(shù)據(jù)個數(shù)分別為,且,為聚類個數(shù),[]為取整符號;

Step 2:計算各簇數(shù)據(jù)到各自聚類中心的距離,并按由小到大的順序排列;

Step 3:分別選取各簇中距離簇中心最近的個數(shù)據(jù)組成包含N3個負(fù)類數(shù)據(jù)的新負(fù)類數(shù)據(jù)集false;

Step 4:將新負(fù)類數(shù)據(jù)集false和正類數(shù)據(jù)集A組合,生成平衡數(shù)據(jù)集。

2 特征提取與降維

2.1 基于字統(tǒng)計模型的特征提取方法

字統(tǒng)計模型是通過在蛋白質(zhì)序列中統(tǒng)計長度為k的氨基酸片段出現(xiàn)的頻率,以作為后續(xù)預(yù)測的特征信息。與傳統(tǒng)統(tǒng)計各氨基酸頻率特征的方法相比,此特征提取方法不僅統(tǒng)計了單個氨基酸出現(xiàn)的頻率,還統(tǒng)計了氨基酸片段出現(xiàn)的頻率,從而獲取了更為全面的蛋白質(zhì)序列信息。對于由20種氨基酸組成的蛋白質(zhì)序列S,主要特征提取步驟如下:

Step 1:由一個n維向量來表示k-字段在序列S中出現(xiàn)的次數(shù),n是所有可能的k-字的總數(shù)。

Step 2:將k-字段在序列S中出現(xiàn)的頻率表示為向量

當(dāng)時,該頻率向量則為20種氨基酸在序列中出現(xiàn)的頻率。

2.2 基于多樣性增量的特征降維

多樣性增量(Increment of diversity,ID)是基于多樣性量的一個生物數(shù)學(xué)概念,它反映了兩個樣本之間的生物相似性關(guān)系,ID值越小表示兩個樣本之間越相似。本文利用ID原理對所選高維特征進(jìn)行降維,可以減少降維過程中丟失的信息,避免后續(xù)分類器過訓(xùn)練的情況。

3 基于ELM的集成預(yù)測算法

分類器集成的主要思想是利用多個分類器來解決同一個問題,采用某種規(guī)則把學(xué)習(xí)結(jié)果進(jìn)行組合,以期達(dá)到有效提高學(xué)習(xí)系統(tǒng)泛化能力的目的。生成差異性互補的分類器是提升預(yù)測性能的關(guān)鍵。目前,生成差異性及分類器的方法主要有訓(xùn)練樣本的擾動、模型參數(shù)的設(shè)置、學(xué)習(xí)算法本身的差異等。Bagging(Bootstrap Aggregating)算法是一種基于訓(xùn)練樣本分布擾動的分類器集成技術(shù)。算法每次從訓(xùn)練樣本中隨機有放回地抽取與訓(xùn)練集數(shù)目相等的樣本,訓(xùn)練基分類器,重復(fù)T次后,就可以訓(xùn)練出T個基分類器。本項目基分類擬采用ELM,通過Bagging算法實現(xiàn)對訓(xùn)練樣本的擾動,從而產(chǎn)生具有差異性的基分類器,再進(jìn)行基分類器的集成學(xué)習(xí)。

將原始數(shù)據(jù)集分成訓(xùn)練集和測試集兩個子集,算法主要步驟如下:

Step 1:采用有放回抽樣從訓(xùn)練集的樣本中選取k個樣本;

Step 2:采用提取的新的k個樣本對ELM基分類器進(jìn)行訓(xùn)練;

Step 3:重復(fù)Step 1和Step 2T次,得到T個ELM基分類器。

Step 4:將測試集輸入各基分類器,采用多數(shù)投票法融合各基分類器輸出結(jié)果。

4 預(yù)測結(jié)果評價

5 集成預(yù)測流程

整體預(yù)測流程如圖1所示。首先,對不平衡原始數(shù)據(jù)進(jìn)行處理,采用SFLA聚類算法對負(fù)類樣本進(jìn)行欠采樣,與正類樣本整合構(gòu)成新的平衡數(shù)據(jù)集。然后,基于字統(tǒng)計模型提取特征構(gòu)成特征向量,并利用多樣性增量原理對所提取高維特征進(jìn)行降維。再次,用Bagging算法產(chǎn)生差異化訓(xùn)練樣本訓(xùn)練各ELM分類器,并采用多數(shù)投票法集成各分類器預(yù)測結(jié)果。最后,計算Ac、Sn、PPV、MCC四種指標(biāo),評價預(yù)測結(jié)果。

參考文獻(xiàn)

[1]周志華,唐偉.基于Bagging的選擇性聚類集成[J].2005,16(4):496-501.

[2]周志華,唐偉,吳建鑫.靜態(tài)灰度圖像中的人臉檢測方法綜述[J].計算機科學(xué),2002Vo1.29:2-4.

主站蜘蛛池模板: 萌白酱国产一区二区| 日本道综合一本久久久88| 日韩国产综合精选| 午夜不卡视频| 丰满人妻中出白浆| 国产爽歪歪免费视频在线观看 | 蜜芽一区二区国产精品| 青青久视频| 熟妇人妻无乱码中文字幕真矢织江| 999国产精品永久免费视频精品久久 | 国产AV无码专区亚洲精品网站| www.亚洲一区| 青青国产视频| 国产精品亚欧美一区二区| 中文字幕 日韩 欧美| 久青草国产高清在线视频| 18禁不卡免费网站| 伊人久久精品无码麻豆精品 | 欧美精品v欧洲精品| 黄色网站在线观看无码| 99视频在线免费观看| 成人一区在线| 国内精品小视频福利网址| 国产一级毛片在线| 丁香婷婷久久| 九九线精品视频在线观看| 亚洲色图狠狠干| 欧美a√在线| 毛片卡一卡二| 女人18一级毛片免费观看 | 久久久久国色AV免费观看性色| 在线观看国产一区二区三区99| 国产麻豆aⅴ精品无码| 1024国产在线| 日本三级黄在线观看| 色综合天天娱乐综合网| 亚洲 欧美 偷自乱 图片| 2048国产精品原创综合在线| 欧美亚洲国产精品第一页| 亚洲V日韩V无码一区二区| 女同国产精品一区二区| 亚洲精品欧美重口| 亚洲天堂免费在线视频| 黄色a一级视频| 久久99热66这里只有精品一| 在线免费看片a| 欧美天堂久久| 99久久精品无码专区免费| 中文字幕1区2区| 日本人妻丰满熟妇区| 欧美视频在线不卡| 亚洲va在线∨a天堂va欧美va| 老司机午夜精品网站在线观看| 黑人巨大精品欧美一区二区区| av在线手机播放| 亚洲精品福利视频| a毛片免费在线观看| 制服丝袜 91视频| 中国成人在线视频| 色妺妺在线视频喷水| 日本成人在线不卡视频| 黑色丝袜高跟国产在线91| 国产女人18水真多毛片18精品| 国产小视频a在线观看| 亚洲成人动漫在线观看| 久久精品人人做人人综合试看| 亚洲国产欧美自拍| 亚洲第一黄色网| 国内毛片视频| 亚洲天堂色色人体| 国产毛片片精品天天看视频| 成人午夜精品一级毛片| 午夜电影在线观看国产1区| 国产精品亚洲一区二区三区z| 91极品美女高潮叫床在线观看| 乱人伦99久久| 国产导航在线| 午夜啪啪网| 99人体免费视频| a级毛片视频免费观看| 色老头综合网| 亚洲天堂视频网站|