999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構網絡特征與梯度提升決策樹的協同藥物預測

2020-04-19 07:22:50聶麗霞
計算機應用與軟件 2020年4期

聶麗霞 劉 輝 鄒 凌

1(常州大學信息科學與工程學院 江蘇 常州 213164)2(常州大學商學院 江蘇 常州 213164)3(常州市生物醫學信息技術重點實驗室 江蘇 常州 213164)

0 引 言

因為生物信號通路與蛋白質網絡通常存在交互(crosstalk)與補償性結構,傳統的“單藥物,單靶標”治療在復雜疾病特別是癌癥的治療中往往不能有效抑制癌細胞增殖通路,達不到理想的治療效果[1]。藥物組合通過協同干擾生物網絡,能更有效地抑制致病基因的活性水平[2]。以往的研究表明[3],與單一藥物相比,組合藥物能更有效地抑制癌細胞生長或促進癌細胞凋亡,并降低毒性和副作用。但是目前的組合藥物發現依賴于臨床經驗與偶然機會,因此,迫切需要一種理性的、系統的計算方法來篩選組合藥物,以減少需要實驗驗證的候選組合藥物數量[4]。

本文構建了藥物-蛋白質異構網絡,采用重啟型隨機游走獲得組合藥物特征,訓練梯度提升樹算法(Gradient Boosting Decision Tree,GBDT)預測組合藥物。本文的貢獻在于:1) 使用隨機游走從異構網絡獲得的特征向量相對于本體特征維度大大降低,提高了分類器訓練效率,大幅提高了分類器的訓練與預測的效率;2) 克服了直接拼接本體屬性作為輸入特征向量導致特征維度不一致的弊端;3) 顯著提高了多種分類器的性能,例如,梯度提升決策樹分類器的AUC值從0.528增加到0.909。

1 數據和方法

1.1 數據來源

首先從公共數據資源中收集了包括藥物的化學指紋、蛋白質序列、藥物-蛋白質關聯以及已知藥物組合。藥物組合來源是DCDB數據庫[5],其包含1 363種藥物組合(330種批準和1 033種研究,包括237種不成功的用法),涉及904種個體藥物和805種目標。訓練集的正樣本由DCDB中批準和研究的組合藥物組成,負樣本通過計算機隨機產生。考慮到目前非有效藥物組合的數量實際上是巨大的,并且遠遠超過有效藥物組合,通過從藥物集合組中隨機挑選成對藥物來產生許多藥物組合作為負樣本是合理的,實際上該方法廣泛應用于預測藥物-靶標相互作用和藥物-疾病關聯研究[6]。

1.2 方法概述

使用藥物和蛋白質本體特征計算藥物-藥物相似度,蛋白質-蛋白質相似度,結合已知藥物-蛋白質關聯網絡,構建了藥物-蛋白質異構網絡。針對每種組合藥物樣本,在所構建的異構網絡上進行重啟型隨機游走[7]。當隨機游走達到穩定狀態時,所得到的概率分布作為該藥物組合的特征向量。基于藥物組合的特征向量,構建梯度樹決策提升(GTDB)分類器以預測新的藥物組合。

1.2.1蛋白質-藥物關聯網絡

從STITCH數據庫中抽取藥物-蛋白質關聯,STITCH這是一個綜合藥物-靶標作用數據庫,它收集了來自于生化實驗、外部數據庫、文獻挖掘和計算預測等化合物-蛋白質等相互作用。對于每種相互作用STITCH計算了范圍從0到1 000的得分。首先使用閾值0.5(對應于STITCH的500)來過濾掉可信度較低的藥物-蛋白質互作用,再針對每種藥物選取top 3靶蛋白。如果一種藥物結合度得分高于0.5的靶蛋白質不超過3種,那么只考慮這些目標,一共得到8 893個藥物-蛋白質關聯。假設D=(d1,d2,…,dn)和P=(p1,p2,…,pm)表示藥物和蛋白質節點集,A表示藥物-蛋白質關聯矩陣,如果藥物i和蛋白質j之間存在有效的相互作用,則aij為STITCH結合度得分,否則aij=0。

1.2.2藥物-藥物相似網絡

為了擴展DCDB數據庫的藥物,根據STITCH藥物-藥物相似度分數,對每種藥物選取了top 10最相似的藥物來擴展藥物的種類[8]。去除重復藥物后,獲得了3 378種不同的藥物。選擇類似藥物的出發點在于類似藥物可能與類似的靶蛋白相互作用,在細胞微環境中發揮相似的治療功效。這樣能夠通過向已知的藥物及其靶標網絡進行推理學習,發現新的藥物組合。

本文使用藥物的化學指紋來計算每對藥物的相似度。使用PaDEL軟件[9]生成每種藥物的PubChem化學指紋(共880種指紋)。因此,每種藥物由880維的二元向量表示,如果藥物含有相應的化學指紋,則對應元素為1,否則為0。基于指紋向量計算Jaccard評分作為每對藥物化學相似度的指標。Jaccard得分是一種廣泛使用的相似性度量,通常被定義為兩個樣本交集的勢除以兩個樣本集的并集的勢。設di和dj為藥物di和藥物dj的化學指紋向量。Jaccard評分定義如下:

(1)

1.2.3蛋白質-蛋白質相似網絡

1.2.4異構網絡上的重啟型隨機游走

將藥物-藥物相似性網絡、蛋白質-蛋白質相似性網絡和藥物-蛋白質關聯網絡相結合,建立了藥物-蛋白質異構網絡G=(V,E)。節點集V={D,P}是藥物和蛋白質節點集合,邊集E={Edc∪Ecd∪Edd∪Ecc}其中Ecc、Edd、Ecd分別是藥物-藥物關聯,蛋白質-蛋白質關聯、藥物-蛋白質關聯的集合,Edc是Ecd的轉置矩陣。對于每種組合藥物,在異構網絡上進行重啟型隨機游走,模擬組合藥物對靶標干擾在蛋白質網絡中的擴散效應。當隨機游走達到穩態時,游走子的概率分布相當于組合藥物對每種蛋白質的干擾強度。數學形式上,對于由兩種藥物組成的藥物組合,使用這兩種藥物及其已知的靶蛋白質作為種子節點在異構網絡上進行重啟型隨機游走,如圖1所示。當隨機游走過程達到穩定狀態時,此時的概率分布代表組合藥物對蛋白質網絡的擾動。

圖1 藥物-蛋白質異構網絡上的重啟型隨機游走示意圖

利用藥物-蛋白質異構網絡,構建了異構網絡的轉移矩陣T:

(2)

式中:Tdd和Tpp分別是隨機游走過程中從藥物節點(蛋白質)到藥物節點(蛋白質節點)的概率轉換矩陣;Tdp是從藥物節點到蛋白質節點的概率轉換矩陣;Tpd是從蛋白質節點到藥物節點的概率轉換矩陣。

假設隨機游走子從異質網絡中的藥物節點開始,以概率λ訪問其中之一的目標蛋白質,或以概率(1-λ)訪問任何其他藥物節點。 如果λ=0,隨機游走者只能保持在一種類型的網絡中。基于藥物-藥物相似性,將藥物di和藥物dj的轉變概率定義如下:

(3)

類似地,從蛋白質pi到蛋白質pj的轉換概率可以使用如下的蛋白質-蛋白質相似性來定義:

(4)

從藥物di到蛋白質pj的轉變概率定義為:

(5)

從蛋白質pi到藥物dj的轉變概率定義為:

(6)

令P(t)為(n+m)維度向量,其中第i個元素是在第t步游走子訪問節點i的概率,隨機游走過程可以迭代計算:

P(t+1)=(1-α)T′P(t)+αP0

(7)

式中:α是重啟概率;P0是由組合藥物及其靶蛋白組成的一組種子節點上的初始概率分布。

實際上,藥物組合的單藥種類不限于兩種,因此初始概率分布可以很容易地擴展到多藥組合。需要注意的是,采用藥物-蛋白質異構網絡上隨機游走算法的原因在于,該算法能有效地模擬藥物分子作用的影響在蛋白質網絡中的傳播擴散過程,即藥物分子在體內與靶標結合之后,抑制或激活靶蛋白的功能,從而引發一系列的級聯生化反應。實際上,該算法已經被多項研究使用并被證明是有效的[6,12]。

1.2.5訓練梯度提升決策樹模型

梯度提升決策樹算法(GBDT)是一種有效的機器學習方法,在分類和回歸問題上都取得了理想的性能。實際上,Caruana和Niculescu-Mizil對提升決策樹算法和其他七種典型分類器進行了綜合性能評估,結果表明,基于梯度提升樹算法在預測中獲得了最佳性能。另一項實證績效評估也表明,當維數不超過4 000時,梯度提升決策樹的表現非常好。因此,使用藥物-蛋白質異構網絡上隨機游走獲得的藥物組合特征向量來訓練GBDT分類器模型預測新的組合藥物。

數學形式上,GBDT的決策功能初始化為:

(8)

式中:N是訓練集中包含的藥物組合的數量。梯度提升樹算法重復構造K棵不同的分類樹h(x,a1),h(x,a2),…,h(x,aK),每棵分類樹都是基于隨機選擇的子集進行訓練的樣本,然后迭代地構造加法函數θk(x):

θk(x)=θk-1(x)+bkh(x;ak)

(9)

式中:bk和ak是第k棵分類樹h(x;ak)的權重和參數向量。損失函數定義為:

L(y,θ(x))=log(1+exp(-yθ(x)))

(10)

式中:y是真實的類標簽;θ(x)是決策函數。通過網格搜索迭代地優化bk和ak,使得損失函數L(y,θ(x))最小化。

本文算法的框架如圖2所示,異構網絡上的隨機游走算法使用R語言實現,梯度提升決策樹算法使用Python語言實現,隨機游走產生的特征向量加上類標號之后,作為訓練梯度提升決策樹的訓練集。對于算法中包含的超參數,采用網格搜索方法,在基準數據集上進行10倍交叉驗證以尋找最佳值。

圖2 本文算法框架

2 實驗評價

2.1 實驗方法與性能指標

采用10倍交叉驗證對方法性能進行評估,把訓練集隨機地劃分為10個大致相等的子集。輪流使用1個子集作為測試集,其余9個子集作為訓練集。該驗證過程重復10次,取10次的平均值上作為性能評估指標。實驗中所用的性能評估指標包括精度(PRE)、召回率(REC)、F-measure、Matthews相關系數(MCC)和ROC曲線下面積(AUC)。

2.2 與典型分類器的性能比較

為了驗證GBDT算法優于其他傳統分類器,將其與七種典型分類器包括K最近鄰分類算法(KNN)、支持向量機(SVM)、線性回歸分析(Logistic)、樸素貝葉斯(Na?ve Bayes)、隨機森林(Random forest)、Adaboost與LogitBoost的性能進行比較,在DCDB數據集進行了性能評估。對于每種分類器,全部調整它們的參數以獲得它們的最佳性能,對于KNN算法,調整K參數,包括1、3、5、7;對于正則化Logistic回歸,使用網格搜索調整其權重系數c,從0.1到2.0之間以步長為0.1逐漸增加;對于SVM,其調整系數c在2的區間內從1到10變化且嘗試了測試不同的核函數,包括線性、多項式、RBF和S形函數;對于Adaboost,將種子從1逐漸增加到10;對于其他基于樹的算法,包括Random Forest和logitBoost,樹的最大深度數從5逐漸增加到50,間隔為5;對于樸素貝葉斯分類器,采用其默認設置。表1顯示了每種方法獲得的最佳性能對應的性能指標。顯然,GBDT算法在所有性能指標方面都達到了最佳。

表1 GBDT與其他七種典型分類器在DCDB 數據集上的性能比較

2.3 基于異構網絡的特征顯著提高分類器性能

為了驗證藥物-蛋白質異構網絡上隨機游走所獲得特征的有效性,在藥物與蛋白質本體特征與基于異構網絡的特征之間進行了性能比較。藥物與蛋白質本體特征包含藥物的化學指紋與蛋白質的GO(Gene Ontology)功能注釋詞條(terms)。然而,由于不同藥物組合的單藥和靶蛋白的數量不同,直接連接藥物化學指紋和蛋白質GO功能注釋作為組合藥物的特征,會導致特征向量的維度不一致。所以,先取單藥化學指紋的并集與藥物靶蛋白GO注釋的并集,再將這兩種本體特征向量的并集進行聯接(向量concatenation操作),即能得到維度一致的組合藥物的特征。

將每種組合藥物的化學指紋和GO注釋的并集作為GBDT分類器的輸入特征。性能測量結果如表2所示。從中可以發現基于異構網絡特征的GBDT分類器的性能遠超在本體特征上獲得性能。例如,GBDT分類器的AUC值從0.528增加到0.909。對其他七種典型分類器也在兩種特征上進行了性能比較,如表2所示,通過異構網絡提取的特征也極大地提高了所有這些分類器的性能。

3 結 語

靶向藥物已經在癌癥治療中取得了顯著療效,但是由于癌細胞逐漸產生耐藥性,使得靶向藥物對腫瘤治療的臨床獲益受到很大限制。藥物組合協同干擾蛋白質網絡能更有效地抑制致癌基因的活性水平,在復雜疾病的治療中發揮越來越重要的作用。本文將藥物相似性網絡、蛋白質相似性網絡和已知的藥物-蛋白質關聯整合為藥物-蛋白質異質網絡。使用藥物及其靶蛋白作為種子節點在異質網絡上運行重啟型隨機游走算法,將收斂后的概率分布作為每種藥物組合的特征向量,訓練梯度提升決策樹分類器來預測新的藥物組合。使用DCDB基準數據集進行了性能評估實驗,結果表明本文算法比七種典型分類器和傳統的增強算法具有更高的性能。從網絡藥理學的角度來看,本文算法有效地利用了生物網絡中藥物靶標網絡的拓撲屬性和互作用,是一種系統的組合藥物預測方法。

主站蜘蛛池模板: 91黄色在线观看| 色综合a怡红院怡红院首页| 国产内射在线观看| 国产成人免费观看在线视频| 日韩久草视频| 亚洲an第二区国产精品| 久草美女视频| 中文字幕久久精品波多野结| 丁香六月激情综合| 在线观看视频99| 亚洲欧洲一区二区三区| 亚洲网综合| 成人国产免费| 日本一本在线视频| 国产美女一级毛片| 日韩人妻无码制服丝袜视频| 成年免费在线观看| 伊人成人在线| 亚洲AV免费一区二区三区| 亚洲大尺码专区影院| 老司机久久99久久精品播放| 91视频首页| 国产成人在线无码免费视频| 成人一区专区在线观看| 97一区二区在线播放| 国产黑丝一区| 免费看久久精品99| 色老二精品视频在线观看| 国产一级毛片高清完整视频版| 精品国产自| 亚洲第一区欧美国产综合| 2024av在线无码中文最新| 亚洲欧美在线精品一区二区| 99精品免费欧美成人小视频| 亚洲欧美成人在线视频| AV不卡在线永久免费观看| 国产真实乱子伦精品视手机观看| 波多野结衣在线se| 日韩最新中文字幕| lhav亚洲精品| 国产人在线成免费视频| 欧美午夜小视频| 粉嫩国产白浆在线观看| 91精品最新国内在线播放| 国产精品亚欧美一区二区三区| 国产在线观看91精品亚瑟| 精品无码国产一区二区三区AV| 国产麻豆福利av在线播放| 精品午夜国产福利观看| 97在线免费视频| 久久国语对白| 免费在线观看av| 亚洲成人黄色在线| 婷婷六月在线| 毛片视频网址| 亚洲色欲色欲www网| 日韩第一页在线| 国产精品女熟高潮视频| 一级成人a毛片免费播放| 国产三级成人| 亚洲有码在线播放| 国产一区亚洲一区| 好吊色国产欧美日韩免费观看| 午夜一级做a爰片久久毛片| 国产在线精彩视频二区| www.91中文字幕| 毛片一级在线| 亚洲色婷婷一区二区| 日韩美一区二区| 97人妻精品专区久久久久| 亚洲娇小与黑人巨大交| 99热这里只有精品久久免费| 婷婷综合色| 欧美成人精品一级在线观看| 久久免费精品琪琪| 国产chinese男男gay视频网| 欧美成人精品在线| 亚洲中文精品人人永久免费| 国产精品尹人在线观看| 国产精品太粉嫩高中在线观看| 日韩视频福利| 中文字幕日韩欧美|