999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MIMLNN的玉米蛋白質(zhì)功能預(yù)測

2018-10-22 01:48:42陳彥明
現(xiàn)代計算機 2018年25期
關(guān)鍵詞:功能

陳彥明

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

0 引言

谷物及其制品,提供了人類40%-70%的食品[1],玉米是世界上最主要的谷物,大約1萬年墨西哥南部的土著人首先種植了玉米[2],現(xiàn)今玉米已成為世界許多地區(qū)的主食,總產(chǎn)量超過小麥、大米。然而,并不是所有的玉米都直接被人類消費,一些玉米用于生產(chǎn)乙醇、動物飼料和其他玉米產(chǎn)品,如玉米淀粉和玉米糖漿。谷類對人體健康有非常重要的積極影響,玉米中的纖維素和植物化學(xué)素等成分對人體而言具有良好的營養(yǎng)保健作用。

對玉米的蛋白質(zhì)功能進行注釋以便對它功能蛋白的生理意義進行理解,對于玉米蛋白質(zhì)組學(xué)的研究顯然非常重要。在世界上較為主流的蛋白質(zhì)序列數(shù)據(jù)庫中,已有一定量的經(jīng)人工注釋復(fù)核的玉米蛋白質(zhì)數(shù)據(jù)可供使用,但同時仍有大量未經(jīng)注釋且功能未知的玉米蛋白質(zhì)序列。面對這些沒有經(jīng)過注釋且功能未知的玉米蛋白質(zhì),顯然手工注釋的方法已經(jīng)跟不上數(shù)據(jù)的腳步,非常需要一種自動化的方法來對玉米的蛋白質(zhì)進行功能預(yù)測。

在這樣的時代背景下,不管是從玉米蛋白質(zhì)研究的角度來說,還是從玉米對于我國經(jīng)濟社會發(fā)展的重要性來說,研究使用計算機技術(shù)實現(xiàn)對玉米的蛋白質(zhì)自動化地進行功能預(yù)測具有不言而喻的現(xiàn)實意義。而機器學(xué)習(xí)技術(shù)的興起發(fā)展為解決此類問題提供了一種優(yōu)秀的解決方案,其中一部分技術(shù)則非常適合解決此類預(yù)測問題。

1 算法概述

多示例多標(biāo)記學(xué)習(xí)(Multi-Instance Multi-label Learning,MIML)由 Zhou 提出[4],提出后產(chǎn)生了很大的影響,作為一種新穎的機器學(xué)習(xí)框架得到了很好的發(fā)展,如今整個多示例多標(biāo)記學(xué)習(xí)的生態(tài)已經(jīng)日益繁榮[4-7]。

傳統(tǒng)的監(jiān)督學(xué)習(xí)使用一個示例(instance)來描述一個對象(object),這里的示例亦即一個特征向量,同時使用一個類別標(biāo)記(label)與此對象對應(yīng)。令X表示示例空間(或特征空間),Y表示類別標(biāo)記的集合,傳統(tǒng)監(jiān)督學(xué)習(xí)的任務(wù)是從給定數(shù)據(jù)集{(x1,y1),(x2,y2),…,( )xm,ym}中學(xué)習(xí)函數(shù)f:X→Y,其中xi∈X是一個實例,yi∈Y是xi的已知標(biāo)記。

這種傳統(tǒng)的監(jiān)督學(xué)習(xí)框架適用于一些問題,但有很多現(xiàn)實世界的問題不適合這個框架。它的缺點在于每個對象只屬于一個概念,相應(yīng)的示例只對應(yīng)于單個的類別標(biāo)記。然而大多數(shù)現(xiàn)實世界的對象并非這樣簡單,可能同時對應(yīng)于多個的類別標(biāo)記。于是,多實例多標(biāo)簽學(xué)習(xí)框架應(yīng)運而生,在此框架中,一個對象由多個示例描述,與多個類別標(biāo)記相關(guān)聯(lián)。對比上述傳統(tǒng)的監(jiān)督學(xué)習(xí),MIML框架對于表示復(fù)雜的現(xiàn)實世界對象更方便自然。文獻[4]中提出,多示例多標(biāo)記學(xué)習(xí)使用多個特征向量來描述一個對象,得到多個示例,同時,使用多個類別標(biāo)記來與此對象對應(yīng)。形式上設(shè)X表示示例空間,Y表示類別標(biāo)記的集合。在形式上,多示例多標(biāo)記學(xué)習(xí)任務(wù)被定義為[4]:從給定數(shù)據(jù)集中學(xué)習(xí)函數(shù)f:2X→2Y,其中Xi?X是一組示例 {xi1,xi2,…,xi,ni}的集合,xij∈X(j=1,2,…,ni),Yi?Y是一組標(biāo)記{yi1,yi2,…,yi,li}的集合,yik∈Y(k=1,2,…,li)。這里ni表示Xi中的示例數(shù)量,li表示Yi中的標(biāo)簽數(shù)量。

文獻[4]基于MIML框架提出了多種MIML算法,MIMLNN(Multi-Instance Multi-Label Neural Network)是其中一種較優(yōu)秀的算法。下面簡要概述MIMLNN算法的主要思想和過程,并使用偽代碼進行描述。

首先,收集每個MIML示例(Xu,Yu)(u=1,2,…,m)中的Xu并將其放入數(shù)據(jù)集Γ中。然后,對Γ使用k-Me?doids算法[8]聚類。由于Γ中的每個數(shù)據(jù)項,即Xu,是一個未標(biāo)記的多示例包而不是單個示例,因此基于最大豪斯道夫距離[4]對含有每個標(biāo)記的訓(xùn)練樣本進行k-Medoids聚類,并保留每個聚類簇的中心點。

在數(shù)學(xué)中,豪斯道夫距離(Hausdorff Distance),也稱為Pompeiu-Hausdorff距離。常被用于計算機視覺等領(lǐng)域。這個距離最早是由豪斯多夫在他1919年首次出版的書《人民報》中提出的。簡單來說,如果一個集合中的每個點都接近另一個集合的某個點,那么兩個集合在Hausdorff距離上是接近的。

對于兩個示例的包(bag),A={a1,a2,…,ani},B={b1,b2,…,bnj},兩者間的最大豪斯道夫距離為:

式中|.|為集合的元素數(shù)目,||.||為示例之間的歐氏距離(Euclidean Distance)。

在聚類過程之后,數(shù)據(jù)集Γ被劃分為k個分區(qū),其中中心點(Medoids)為Mt(t=1,2,…,k)。根據(jù)這些中心點,原始的多實例Xu被轉(zhuǎn)換成k維數(shù)值向量zu,其中zu的第i(i=1,2,…,k)分量是Xu和Mi之間的最大豪斯道夫距離,即Hmax(Xu,Mi)。因此,最初的MIML例子(Xu,Yu)(u=1,2,…,m)已經(jīng)被轉(zhuǎn)化為多標(biāo)簽的例子(zu,Yu)(u=1,2,…,m)。然后,從數(shù)據(jù)集中學(xué)習(xí)多標(biāo)簽學(xué)習(xí)函數(shù)fMLL,因為 ,故可以得到所需的MIML函數(shù)。在MIMLNN算法中,使用反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)來實現(xiàn)fMLL。

2 數(shù)據(jù)提取和處理

蛋白質(zhì)數(shù)據(jù)從世界上主流的蛋白質(zhì)序列數(shù)據(jù)庫UniProtKB取得。UniProtKB分為Swiss-Prot和TrEM?BL兩個子數(shù)據(jù)庫,Swiss-Prot的注釋經(jīng)過人工手動完成并復(fù)核,本文選用Swiss-Prot中的數(shù)據(jù)進行訓(xùn)練和驗證,這樣得到的結(jié)果更有說服力。

使用關(guān)鍵詞檢索,從Swiss-Prot獲得了153條玉米蛋白質(zhì)數(shù)據(jù),每條玉米蛋白質(zhì)數(shù)據(jù),均包含兩個部分:蛋白質(zhì)結(jié)構(gòu)域(Domain)序列數(shù)據(jù)和基因本體(Gene Ontology,GO)編號表示的分子功能(Molecular Function)數(shù)據(jù)。

蛋白質(zhì)結(jié)構(gòu)域是給定蛋白質(zhì)序列和蛋白質(zhì)(三級)結(jié)構(gòu)的保留部分,它可以獨立于蛋白質(zhì)鏈的其余部分進化、作用和存在。每個結(jié)構(gòu)域形成一個緊湊的三維結(jié)構(gòu),往往可以獨立穩(wěn)定和折疊。大多數(shù)蛋白質(zhì)由不止一個結(jié)構(gòu)域組成,同樣的一個結(jié)構(gòu)域可能出現(xiàn)在各種不同的蛋白質(zhì)中。分子進化使用結(jié)構(gòu)域作為基本的結(jié)構(gòu)單元,這些結(jié)構(gòu)可以以不同的排列進行重組,以創(chuàng)建具有不同功能的蛋白質(zhì)。結(jié)構(gòu)域長度從約25個氨基酸到500個氨基酸長度不等。此概念最早由Wet?laufer在1973年提出[9]。Wetlaufer將結(jié)構(gòu)域定義為蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定單位,可以自動折疊。大自然通常將幾個結(jié)構(gòu)域結(jié)合在一起形成具有多種可能性的多域和多功能蛋白質(zhì)。在多域蛋白質(zhì)中,每個結(jié)構(gòu)域都可以獨立地完成自己的功能,或者以與其鄰居一致的方式完成它自己的功能。

她一一向我介紹她的家具:懶人沙發(fā),逍遙椅,水晶吊燈和銀臺燈。并說,老同學(xué)喜歡什么就搬走什么,沒有問題。

基因本體論(GO)是一項重要的生物信息學(xué)計劃。在生物學(xué)領(lǐng)域沒有通用的標(biāo)準(zhǔn)術(shù)語,術(shù)語用法可能特定于物種、研究領(lǐng)域甚至特定的研究小組而異,而此計劃旨在解決這些混亂的表示方法。簡單來說,GO提供了一種統(tǒng)一的編號方法來表示所有物種中基因和基因產(chǎn)物的屬性,它涵蓋三個領(lǐng)域:細胞成分、分子功能、生物過程,本文中我們使用GO分子功能的編號來表示蛋白質(zhì)的功能。

GO本體文件可以從GO網(wǎng)站以各種格式免費獲得。表1展示了一個編號為GO:0000005的用來描述某種分子功能的GO條目。

表1 GO本體示例

使用文獻[10]中提出的基于Conjoint Triad法[11]的氨基酸序列特征向量提取方法,對上述每個條目中的結(jié)構(gòu)域進行特征向量的提取,每個結(jié)構(gòu)域得到對應(yīng)的一個特征向量,即為一個“示例”。同時,每個GO編號則對應(yīng)的作為一個“標(biāo)記”。以這種邏輯關(guān)系得到一個完整的玉米多實例多標(biāo)記樣本庫,導(dǎo)入MIMLNN算法中進行訓(xùn)練,并進行功能預(yù)測。

3 結(jié)果與對比

使用3種主流的多標(biāo)記學(xué)習(xí)評價指標(biāo)對結(jié)果進行評價。

Hamming Loss指標(biāo)[12-13]用來評價所得結(jié)果與實際情況之間的差異大小,也就是樣本實際上擁有標(biāo)記Yi,卻沒有被成功預(yù)測,或者,實際上沒有擁有標(biāo)記Yi,但是被誤認(rèn)為擁有的可能性,其值越小則預(yù)測效果越好。定義如下:

式中|D|為樣本數(shù)量,|L|為標(biāo)記數(shù)量,xi為預(yù)測值,yi為真實值。

maF1、miF1 指標(biāo)[14-15]分別對 F1 值(F1 Measure)應(yīng)用宏平均(macro average)和微平均(micro average)。

式中|D|為樣本數(shù)量,|L|為標(biāo)記數(shù)量,xi為預(yù)測值,yi為真實值,yi,l為yi的第l個元素。

miF1先對所有示例和標(biāo)記直接進行平均。其計算方法如下:

式中|D|為樣本數(shù)量,|L|為標(biāo)記數(shù)量,xi為預(yù)測值,yi為真實值,<·>為數(shù)量積。

使用第2節(jié)處理得到的玉米蛋白質(zhì)數(shù)據(jù),使用MIMLNN算法在最優(yōu)參數(shù)條件下進行蛋白質(zhì)功能預(yù)測,使用上述三種主流的評價標(biāo)準(zhǔn)進行評價,結(jié)果如表2所示,一共進行10次預(yù)測實驗,采用10折交叉驗證(保留3位小數(shù))得到,在表的末尾列出了10次實驗結(jié)果的平均值以及方差。如上文所述,Hamming Loss的值越小越好,其余兩者反之。

表2 三種指標(biāo)下玉米蛋白質(zhì)功能預(yù)測結(jié)果

表3中展示了本文得出的結(jié)果和文獻[16]中對于兩種微生物的蛋白質(zhì)功能預(yù)測的結(jié)果對比,表中數(shù)據(jù)均以平均值±標(biāo)準(zhǔn)差的形式給出。

表3 與同類預(yù)測結(jié)果的對比

可見,在Hamming Loss指標(biāo)下,本文中的預(yù)測結(jié)果取得了近似同等的表現(xiàn),而在其余兩種指標(biāo)下,本文預(yù)測結(jié)果皆顯著更好。

4 結(jié)語

玉米作為重要的谷物之一,對其蛋白質(zhì)進行預(yù)測具有顯而易見的現(xiàn)實意義。本文應(yīng)用了一種優(yōu)秀的多示例多標(biāo)記學(xué)習(xí)算法MIMLNN進行玉米的蛋白質(zhì)功能預(yù)測,通過對比,證明取得了良好的結(jié)果,因此具有一定的實用價值。同時,在機器學(xué)習(xí)技術(shù)日新月異的今天,這類方法仍有較大的改進空間以提高預(yù)測效果。

猜你喜歡
功能
拆解復(fù)雜功能
鐘表(2023年5期)2023-10-27 04:20:44
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
基層弄虛作假的“新功能取向”
深刻理解功能關(guān)系
鉗把功能創(chuàng)新實踐應(yīng)用
關(guān)于非首都功能疏解的幾點思考
基于PMC窗口功能實現(xiàn)設(shè)備同步刷刀功能
懷孕了,凝血功能怎么變?
媽媽寶寶(2017年2期)2017-02-21 01:21:24
“簡直”和“幾乎”的表達功能
中西醫(yī)結(jié)合治療甲狀腺功能亢進癥31例
主站蜘蛛池模板: 日本道综合一本久久久88| 欧美日韩中文字幕二区三区| 人妻中文久热无码丝袜| 国产福利微拍精品一区二区| 国产精品白浆在线播放| 亚洲日本www| jizz在线观看| 精品精品国产高清A毛片| 国产不卡一级毛片视频| 片在线无码观看| 九色91在线视频| 午夜少妇精品视频小电影| 亚洲精品桃花岛av在线| 国产尤物jk自慰制服喷水| 国产性猛交XXXX免费看| 9啪在线视频| 日韩高清无码免费| 久久久久久国产精品mv| 国产高清在线观看91精品| 久久人体视频| 亚洲色欲色欲www在线观看| 精品国产成人a在线观看| 全免费a级毛片免费看不卡| 国产一区二区影院| 欧美不卡二区| 国产精品女人呻吟在线观看| 韩日免费小视频| 亚洲久悠悠色悠在线播放| 婷婷激情五月网| 国产成人精品在线| 日本人真淫视频一区二区三区 | 欧美一区二区精品久久久| 精品第一国产综合精品Aⅴ| 亚洲天堂精品视频| 精品在线免费播放| 国产精品网址在线观看你懂的| 无码AV动漫| 国产精品中文免费福利| 亚洲自拍另类| 精品无码日韩国产不卡av| 国产亚洲视频播放9000| 免费看美女自慰的网站| 伊人狠狠丁香婷婷综合色| 国产一二三区在线| 精品久久久无码专区中文字幕| 国产精品一区在线观看你懂的| 综合亚洲色图| 国产美女无遮挡免费视频| 亚洲中文字幕在线观看| 中日韩一区二区三区中文免费视频 | 国产呦精品一区二区三区下载| 婷婷亚洲视频| 国产日产欧美精品| 亚洲国产精品不卡在线| 国产真实乱了在线播放| 粗大猛烈进出高潮视频无码| 国产一级无码不卡视频| 91香蕉视频下载网站| 久久午夜夜伦鲁鲁片无码免费| 国产主播在线一区| 亚洲不卡av中文在线| 美女被躁出白浆视频播放| 亚洲天堂网在线播放| 喷潮白浆直流在线播放| 免费三A级毛片视频| 欧美精品一区二区三区中文字幕| 美女潮喷出白浆在线观看视频| 欧美福利在线观看| 精品国产一区二区三区在线观看| 99成人在线观看| 最新国产午夜精品视频成人| 免费国产无遮挡又黄又爽| 亚洲视频欧美不卡| 一级毛片免费不卡在线视频| 亚洲首页在线观看| 国产精品人莉莉成在线播放| 亚洲天堂日韩av电影| 欧美一级高清免费a| 99中文字幕亚洲一区二区| 国产微拍精品| 亚洲三级影院| 成年A级毛片|