999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost與拓撲結構信息的蛋白質復合物識別算法

2020-06-07 07:07:20徐周波劉華東黃文文
計算機應用 2020年5期
關鍵詞:監督模型

徐周波 ,楊 健 ,劉華東 ,2*,黃文文

(1.廣西可信軟件重點實驗室(桂林電子科技大學),廣西桂林541004; 2.桂林電子科技大學機電工程學院,廣西桂林541004)

(?通信作者電子郵箱yj18677311628@163.com)

0 引言

蛋白質是構成生命體的關鍵成分,是細胞中大多數生物過程的重要參與者。由于蛋白質很少以獨立個體的方式實現生物功能,即在一個細胞的生物過程中所涉及的蛋白質一般以蛋白質復合物等形式來實現特定的生物功能。識別、預測生物體中的蛋白質復合物對研究生物進程有著重要意義。如何通過計算的方法快速、有效地識別具有生物學功能的復合物成為一項關鍵的科學問題。

蛋白質相互作用(Protein-Protein Interaction,PPI)[1]網絡通常由圖的模型來表示,蛋白質復合物可認為是PPI網絡中的一個稠密子圖。van Dongen[2]通過隨機游走的方法提出了蛋白質復合物檢測的馬爾可夫聚類(Markov CLustering,MCL)算法,MCL算法具有較強的魯棒性,能夠適應網絡變化,但是準確性較低,且無法識別重疊簇。Bader等[3]提出的分子復合物檢測(Molecular COmplex DEtection,MCODE)算法通過對頂點賦值并選取種子節點,迭代地從種子節點向外擴張加入新節點,最終形成簇,MCODE算法可以產生有重疊的簇,但產生簇的個數較少,使得某些復合物包含的蛋白質數量過大。Nepusz等[4]提出了基于重疊鄰居的擴展聚類(Cluster with Overlapping Neighborhood Expansion,ClusterONE)方法,該算法可以有效檢測PPI網絡中重疊的蛋白質復合物,但算法精準度及敏感度較低。Liu等[5]提出了基于極大團的聚類方法(Clustering based on Maximal Clique,CMC),該算法運用極大團理論從PPI網絡中挖掘蛋白質復合物,CMC算法提高了預測的準確性,但對小規模復合物檢測效果較差,敏感度較低。Wang等[6]提出的一種快速層級聚類算法(fast Hierarchical Clustering algorithm for functional modules discovery in Protein INteraction,HC-PIN)是通過各個節點的公共鄰居節點個數來計算出邊的聚類系數,從而找出聚類系數較高的復合物,HC-PIN雖然提高了精準度,但同樣存在敏感度較低的問題。此外,上述方法均未考慮復合物內部拓撲結構特點。Wu等[7]提出基于核心-附屬結構方法(Core-Attachment based method,COACH)結合蛋白質復合物的拓撲結構,先檢測出核心蛋白質,然后將附屬蛋白質連接到核心蛋白質上,該方法考慮到了蛋白質結構上的特點,一定程度上提高了預測的準確性。Zhao等[8]提出了一種基于不確定圖模型的蛋白質復合物檢測方法(Detecting Complex based on Uncertain graph model,DCU),改善了 COACH 方法。Jamali等[9]提 出 了 加 權 核 心 -附 屬 方 法(Weighted COACH,WCOACH),利用生物特性先對蛋白質交互網絡賦予權重,在此基礎上運用COACH算法,近一步提高了預測的準確性。

近年來,一些基于已知蛋白質復合物信息的監督學習方法開始運用于蛋白質復合物的挖掘[10]。這類算法主要分為3步驟:1)從已知的蛋白質復合物中抽取有效的特征,并以矩陣形式存儲;2)訓練出監督學習分類模型或者得分函數來判定所挖掘出的蛋白質復合物的置信度;3)以訓練出的模型為導向,搜索蛋白質復合物[11]。例如,以貝葉斯網絡(Bayesian Network,BN)[12]為訓練模型及基于回歸模型(Regression Model,RM)的蛋白質復合物挖掘算法[13]都是以訓練出的模型來對所挖掘出的蛋白質復合物進行評分判定。基于神經網絡(Neural Network,NN)[14]模型預測復合物是一種半監督的學習方法,結合深度學習原理從而通過構建神經網絡模型來對蛋白質復合物進行預測。

然后采用中國綜合社會調查(CGSS)當中對社會信任水平測評的問題對參與者的近鄰信任水平進行測量。問題為“在不直接涉及金錢利益的一般社會交往/接觸中,您覺得您的近鄰當中可以信任的人多不多呢”,答案為“絕大多數不可信”“多數不可信”“可信者與不可信者各半”“多數可信”“絕大多數可信”,分別賦值為1~5 。另外,也同時考察了參與者對陌生人、親戚、朋友的信任水平。

然而,真實的PPI網絡中存在大量的不確定性,并且已知的蛋白質復合物數據并不完備,所以現存的監督模型在準確性上還有待提高。本文提出了XGBoost模型與復合物拓撲結構信息相結合的搜索方法(XGBoost model based for Predicting protein complex,XGBP),有效彌補了傳統無監督挖掘算法和監督學習算法的不足。通過實驗分析,該算法在精準度、敏感度、F-measure方面顯示出良好的性能。

1 相關介紹

1.1 相關概念

定義1 圖數據模型可以表示為一個三元組G=(V,E,W),其中V是頂點集合,E是邊集,W:E→[0,1]是一個函數,它給每條邊e=(u,v)∈E賦予一個權重。

定義2 給定一個子圖C,其模塊度Q可定義為:

1.2 XGBoost模型

XGBoost[16]是 Boosting算法的其中一種,近年來被廣泛使用于數據挖掘領域。Boosting算法的思想是將許多弱分類器集成在一起形成一個強分類器。因為XGBoost是一種提升樹模型,所以它是將許多樹模型集成在一起,形成一個很強的分類器,有效避免了樹模型的過擬合,并在分類精度上也遠優于單個分類器。

第五,發揮養老領域社會組織的公益服務功能。非營利性的特征是社會組織區別于企業重要特征,社會組織能夠保證養老事業的公益性和福利性,從而克服養老領域資金和人員的不足。為此,各發達國家也充分發揮非營利組織志愿者的積極性。如日本,有超過 10000個養老志愿者服務協會在從事服務于老年人的工作。大量的志愿者的出現,大大減輕了日本這個過渡老齡化的國家的養老負擔。

2 XGBP方法

將XGBoost模型應用于蛋白質復合物搜索過程,首先要訓練出蛋白質復合物的分類模型;再在蛋白質網絡中選取種子節點,運用貪心算法的思想,遍歷加入其鄰居節點,使其模塊度達到最大,輸出候選蛋白質復合物;最后將候選蛋白質復合物放入所訓練出的模型進行預測分類。

2.1 提取特征

本文將XGBP算法與目前較為經典的八種算法,包括MCODE、MCL、CMC、HC-PIN、COACH、ClusterONE、DCU以及WCOACH在 DIP[18]和 Krogan[19]兩個酵母菌相互作用網絡相比較(見表3所示)。蛋白質復合物標準庫采用了CYC2008[20]和MIPS標準庫,兩個標準庫分別由408個復合物和428個復合物所組成。

葉萬軍[24]對黃土進行CT和SEM試驗,發現凍融環境下試樣微結構如內部微裂隙、孔洞等不斷發育演化,試樣孔徑不斷增大,微裂紋、微孔洞隨之生成,大顆粒不斷分解成小顆粒,顆粒間的連接作用減弱,造成細觀尺度試樣高密度區不斷減小,中、低密度區不斷增大,這一過程弱化了土的強度。這類似于堆石料在受外界環境如壓力作用下,粗骨料的逐漸破碎,骨架結構的破壞,顆粒間的咬合作用減弱,細顆粒逐漸填充孔隙,顆粒進一步被壓實,峰值強度的提高與變形的增大相類似,卻又因為力的形式而有不同。

首先,從種子節點集合S中選取s,Nv(s)為s的鄰居節點集合,此時模塊度Q(C)=0。n∈Nv(s),C'=C∪{n},如果Q(C')>Q(C),則將點n加入簇C中,并更新C=C'。遍歷集合Nv(s)中所有頂點,直至Q(C)的值達到最大,形成簇,即蛋白質復合物。對種子節點集S中每個頂點執行上述操作,獲得蛋白質復合物候選集合candidate_set。

11.1 出芝前管理:埋土揚沙后,蓋嚴棚膜,不蓋遮陽網,以增加棚內溫度。7天后再噴一次重水,土壤含水量50%~60%,空氣相對濕度80%~90%。出芝前應保持覆土干而不燥,濕而不粘;晴天每天噴粗水一次,陰天隔日噴細水一次。溫度超過30℃加蓋遮陽網或稻草簾。

2.2 訓練模型

本文使用MIPS[17]標準庫中頂點總數大于2的蛋白質復合物作為正樣本,負樣本為隨機生成的子圖??紤]到樣本數目不足以及保證正負樣本分布一致,本文將每個正樣本對應隨機生產大小相同的20個負樣本。將正負樣本結合得到模型的訓練集D。構造完訓練集后,將訓練集作為輸入放入XGBoost模型進行訓練。XGBoost模型的最佳參數使用網格搜索的方法確定,本文使用的各個參數如表2,模型迭代次數設置為500次。模型訓練結束后,得出各個特征在訓練過程中的重要性如圖1所示。

其中:TP(True Negative)為所預測復合物中與標準庫中復合物相匹配的(所預測復合物與標準庫中復合物通過式(2)計算OS>w,w為所設定閾值)復合物的數量;FP(False Positive)為所預測復合物總數量減去TP;TN(True Negative)為所預測正確的非蛋白質復合物的數量;FN(False Negative)為標準庫中未被預測的復合物數量。閾值w通常設置為0.2[10],本文中采取同樣閾值。

表1 提取的特征Tab.1 Extracted features

圖1 各個特征在XGBoost模型中的重要性Fig.1 Importance of each feature in XGBoost model

表2 實驗參數設定Tab.2 Experimental parameter setting

2.3 種子節點選取

在真實PPI網絡中節點度分布服從冪律分布,頂點度較高的節點在網絡中起到了關鍵作用。將頂點度作為選取種子節點的一種簡單而常見的選取法則,本文將大于平均度的頂點作為種子節點,通過計算可得種子節點集合S。

2.4 簇的發現

為了避免在算法執行過程中兩個復合物高度重合,造成冗余。本文將蛋白質復合物候選集中重合得分超過閾值T,并且模塊度較小的復合物丟棄。復合物A和B的重合得分定義如下:

含VSC-HVDC的交直流電網最優潮流計算中,一般以降低網損或發電成本作為優化目標。這里采用機組發電成本之和最小作為目標函數,即:

2.5 去重

許多方法將蛋白質復合物認為是PPI網絡中的一個稠密子圖,本文也使用該方法來偵測蛋白質復合物。本文使用式(1)作為計算模塊度的依據,該定義結合了簇的結構性質及邊的權值來衡量簇的密度。一個簇不僅與其他簇相分離,并且簇內邊的權值總和應當大于簇外邊的權值總和,即weightin(C)>weightout(C)

2.6 復合物的分類

為了更好評估蛋白質復合物預測的質量,本文將所預測的蛋白質復合物與標準庫中的蛋白質復合物進行比較。精準度(Precision)和敏感度(Sensitivity)是用來評價預測質量的重要指標。精準度是指識別的復合物中被標識的復合物數量與識別的復合物總量的比值;敏感度是指已知復合物中被標識的復合物數量與已知復合物總數的比值:

3 實驗與結果分析

為了方便模型訓練,本文將所提取的特征表示為向量的形式,該向量共有16維即提取了16個特征,共可分為7大類,具體為:1)節點個數;2)圖的密度;3)頂點度的統計;4)聚類系數;5)通過三角形數統計;6)緊密中心性統計;7)中介中心性統計。所提取的特征如表1所示。

表3 兩個蛋白質互作用網絡Tab.3 Two protein-protein interaction networks

3.1 評價指標

將去重后的candidate_set向量化后作為輸入,放入訓練好的XGBoost模型中,對候選集合中的蛋白質復合物進行分類預測,去除candidate_set中置信度小于0.5的蛋白質復合物,所保留的蛋白質復合物即為最終預測結果。具體算法流程如算法2所示。

2.1 克氏原螯蝦品質變化 使用液體冷卻介質急速凍結和常規冷凍克氏原螯蝦并在色澤、體表、肌肉、氣味以及湯汁方面對其進行評定,結果如圖1所示。由圖1可見,使用液體冷卻介質急速凍結的克氏原螯蝦在-18 ℃冷凍貯藏30 d后,感官品質顯著高于常規冷凍克氏原螯蝦組(P<0.05)。

綜合精準度和敏感度兩個方面,提出了F-measure,它是精準度和敏感度的調和平均值,計算公式如式(5)所示:

在偵查決策過程中,為了實現偵查目的,人們往往追求最優決策,進而根據最優決策來實施偵查行為。所謂最優決策,是指從全部可行方案中選出的能實現目標的最優方案。但是偵查所面對的是復雜多變的刑事案件,且在偵查過程中存在著偵查人員與犯罪分子之間的活力對抗,因而偵查最優決策往往很難實現,因而偵查決策大多數屬于一種滿意原則下的決策。

3.2 CYC2008標準庫

圖2給出了在Krogan數據集下各種算法的精準度、敏感度和F-measure。蛋白質復合物標準庫采用CYC2008。從圖2可以看出,XGBP算法在三項指標中取得良好的效果,精準度(0.53)在該數據集上并未取得很好表現,敏感度(0.6)及F-measure(0.57)均好于其余算法。

圖2 各算法在Krogan數據集性能對比Fig.2 Performance comparison of each algorithm on Krogan dataset

3.3 MIPS標準庫

為了進一步分析結果,本節將使用MIPS標準庫來代替CYC2008標準庫。本文在Krogan數據集上測試上述算法,結果如表4所示。

表4 MIPS標準庫上各種方法的復合物識別結果Tab.4 Complex identification result of each algorithmon MIPSlibrary

從表4可看出,XGPB算法正確預測出蛋白質復合物的數量最多(375),在標準庫中所預測的蛋白質復合物數量較少,F-measure最高(0.53)。

在DIP數據集上測試上述算法,各項指標如圖3所示。XGBP算法與傳統挖掘算法相比較在多個數據集上均取得良好指標。

3.4 與監督學習算法對比

本節中,XGBP算法與BN、SVM、RM三種算法在DIP數據集上進行比較。四種算法均采用MIPS標準庫中蛋白質復合物為正樣本用于模型訓練。BN、RM、SVM模型參數分別參照文獻[12-14]中參數所設置。實驗結果如表5。從表5可以看出,與三種監督學習算法相比,XGBP在精準度、敏感度、F-measure上均取得最好效果。

圖3 各算法在DIP數據集的性能對比Fig.3 Performance comparison of each algorithm on DIPdataset

表5 MIPS標準庫上各監督算法的復合物識別結果Tab.5 Complex identification result of each supervised algorithmon MIPSlibrary

4 結語

針對目前監督學習與非監督學習挖掘算法的不足,本文提出了一種基于XGBoost的搜索算法。該算法結合了非監督學習中利用復合物的結構信息與監督學習的方法,有效提高了蛋白質復合物挖掘的準確性。實驗結果表明,該算法與目前流行的監督學習算法與非監督學習算法相比較在F-measure上取得較好的效果。但與傳統非監督學習算法相比,在精準度上還有待提高,下一步工作將以此為方向,進一步完善該算法。

猜你喜歡
監督模型
一半模型
重要模型『一線三等角』
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
重尾非線性自回歸模型自加權M-估計的漸近分布
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
績效監督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 激情无码视频在线看| 免费在线看黄网址| 丰满人妻久久中文字幕| 在线另类稀缺国产呦| 九色最新网址| 日本国产一区在线观看| 免费jjzz在在线播放国产| 无码国内精品人妻少妇蜜桃视频| 亚洲性影院| 成人伊人色一区二区三区| 8090成人午夜精品| 亚洲色偷偷偷鲁综合| 欧美日韩国产综合视频在线观看| 亚洲欧美一级一级a| 久久先锋资源| 久久国产亚洲欧美日韩精品| 手机在线国产精品| 久久精品国产亚洲麻豆| 国产乱人免费视频| 成年免费在线观看| 免费在线成人网| 久久综合伊人77777| 在线一级毛片| 刘亦菲一区二区在线观看| 九九免费观看全部免费视频| 亚洲国产清纯| 91网红精品在线观看| 国产精品免费久久久久影院无码| 亚洲—日韩aV在线| 91久久性奴调教国产免费| 天天躁夜夜躁狠狠躁躁88| 国产精品自在自线免费观看| www.国产福利| 亚洲最大福利网站| 国产精品制服| 欧洲极品无码一区二区三区| 91色老久久精品偷偷蜜臀| 在线欧美国产| 久久综合五月婷婷| 一本久道久久综合多人| 91精品啪在线观看国产60岁 | 国产综合精品一区二区| 国产女人喷水视频| 极品性荡少妇一区二区色欲 | 久久午夜夜伦鲁鲁片不卡| 中文字幕亚洲专区第19页| 2021亚洲精品不卡a| 就去色综合| 国产精品久久久久鬼色| 久久www视频| 国产视频一区二区在线观看| 天天综合色网| av一区二区无码在线| 99精品国产自在现线观看| 欧美在线视频a| 久久久久亚洲AV成人网站软件| 亚洲最新地址| 色婷婷久久| 黄色在线不卡| 日韩第八页| 欧美黄色网站在线看| 国产aaaaa一级毛片| 亚洲欧美在线综合一区二区三区| 激情综合网址| 亚洲女同一区二区| 日本在线欧美在线| 欧美一区日韩一区中文字幕页| 新SSS无码手机在线观看| 国产91九色在线播放| 四虎永久在线精品国产免费 | 九九久久精品免费观看| 欧美国产日本高清不卡| 国产精品无码一二三视频| 91精品国产综合久久不国产大片| 亚洲av片在线免费观看| 色综合网址| 老司国产精品视频91| 91香蕉视频下载网站| 2021无码专区人妻系列日韩| 国产欧美视频在线观看| 亚洲国产亚洲综合在线尤物| 亚洲一级毛片|