999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KG-GCNASL方法的人類癌癥合成致死預(yù)測研究

2023-03-15 03:50:44朱曉敏
大連民族大學(xué)學(xué)報 2023年1期
關(guān)鍵詞:方法模型

朱曉敏, 劉 爽

(大連民族大學(xué) 計算機科學(xué)與工程學(xué)院,遼寧 大連 116650)

1 問題提出

合成致死指對于細胞中的兩個基因,其中任何一個單獨突變或不發(fā)揮作用時,都不會導(dǎo)致細胞死亡,兩者同時突變或者不能表達時,會導(dǎo)致細胞死亡[1]。在合成致死基因?qū)χ校粋€基因突變不會影響細胞的生存能力,兩個基因同時突變則會導(dǎo)致細胞死亡;通過抑制致癌突變基因的合成致死伙伴基因,可殺死致癌基因發(fā)生突變的癌細胞,且不損害正常細胞。SL作為一種選擇性殺死癌細胞新的靶向策略,為癌癥治療帶來了新機遇;也為發(fā)現(xiàn)新的藥物靶標(biāo)和潛在的癌癥藥物聯(lián)合策略提供了可能性。

SL預(yù)測是鏈接預(yù)測在生物醫(yī)學(xué)領(lǐng)域一個很重要的應(yīng)用。隨著人們生活壓力越來越大和快餐式的生活方式越來越頻繁,癌癥已經(jīng)成為了危害人類健康的主要殺手之一,其主要原因是細胞生長不受控制導(dǎo)致過度增殖而引起的。傳統(tǒng)化學(xué)療法通過藥物靶向快速分裂細胞從而殺死癌細胞,當(dāng)患者使用這些藥物時,會快速損害正常細胞的分裂,對不能迅速分裂的正常細胞也有毒性,因此限制了抗癌藥物的有效性。

知識圖譜是由語義網(wǎng)絡(luò)發(fā)展而來的[2],當(dāng)知識圖譜被應(yīng)用到各個領(lǐng)域后發(fā)現(xiàn)存在一些問題需要被解決,如鏈接預(yù)測問題。鏈接預(yù)測是將知識圖譜中實體和關(guān)系的內(nèi)容映射到連續(xù)向量空間中,對實體或關(guān)系進行預(yù)測,包涵(h,r,?),(?,r,t),(h,?,t)三種任務(wù)[3],癌癥合成致死預(yù)測是知識圖譜鏈接預(yù)測在生物醫(yī)療領(lǐng)域非常重要的研究。

1.1 現(xiàn)有癌癥合成致死預(yù)測方法與面臨的挑戰(zhàn)

合成致死是抗癌藥物研發(fā)的全新思路,目前用于癌癥合成致死預(yù)測的方法主要包括以下三種。第一種是基于代謝網(wǎng)絡(luò)模型進行基因敲除模擬[4],如圖1。通過整合基因組、轉(zhuǎn)錄組、蛋白組和熱力學(xué)數(shù)據(jù)實現(xiàn)基于各種約束的模型構(gòu)建,在基因靶點識別、系統(tǒng)代謝工程研究等多方面取得進一步發(fā)展和理論突破;但缺點是嚴重依賴于代謝網(wǎng)絡(luò)模型、領(lǐng)域知識和基因組數(shù)據(jù)等,不能充分利用已知合成致死對象有價值的信息。

圖1 基于代謝網(wǎng)絡(luò)的預(yù)測方法

第二種是基于知識數(shù)據(jù)挖掘即面向知識的方法[5]進行SL預(yù)測,如圖2。主要是利用特定領(lǐng)域的知識進行特征工程,通過相關(guān)方法從海量數(shù)據(jù)中抽取出潛在且有價值的知識規(guī)則,其缺點是SL預(yù)測的濕實驗篩選存在著成本高、成批效應(yīng)和脫靶等問題,不能充分利用有價值的信息。

圖2 支持向量機模型的預(yù)測方法

第三種方法應(yīng)用機器學(xué)習(xí)的算法進行癌癥合成致死預(yù)測,如圖3所示:其特征基于領(lǐng)域知識和啟發(fā)式函數(shù)設(shè)計的[6],如支持向量機等注入基因組和蛋白質(zhì)組數(shù)據(jù)來促進癌癥合成致死預(yù)測;基于圖網(wǎng)絡(luò)的方法[7]對輸入特征等信息進行編碼,但缺點在于需手工提取特征,會遺漏特征。

圖3 基于決策樹的預(yù)測方法

綜上可知,現(xiàn)有方法大多傾向于假設(shè)合成致死對象是相互獨立的,并未考慮到潛在的共享生物機制。一些方法雖結(jié)合基因組和蛋白質(zhì)組數(shù)據(jù)來幫助癌癥合成致死預(yù)測,但涉及手工特征工程,嚴重依賴醫(yī)藥學(xué)、腫瘤學(xué)等相關(guān)領(lǐng)域知識。

1.2 癌癥合成致死預(yù)測的研究意義

綜上,其現(xiàn)有方法的局限和意義啟發(fā)著應(yīng)該尋找一個新改進方法或模型去更多地進行癌癥合成致死預(yù)測等相關(guān)研究。本文將進行如下工作:基于知識圖譜鏈接預(yù)測與圖神經(jīng)網(wǎng)絡(luò)及注意力機制Attention方法使得實體特征向量融合所有鄰域?qū)嶓w特征及相應(yīng)的關(guān)系特征,更好地捕捉給定多跳鄰域中的信息和關(guān)聯(lián)特征,從而達到更好的效果來解決相關(guān)問題??芍R圖譜與圖卷積網(wǎng)絡(luò)及注意力機制等相結(jié)合的方法進行人類癌癥致死預(yù)測研究對醫(yī)療領(lǐng)域與生物信息領(lǐng)域的研究具有重要意義,尤其是癌癥治療方面。

2 相關(guān)方法與模型介紹

2.1 癌癥合成致死預(yù)測相關(guān)方法介紹

2.1.1 基于知識圖譜圖卷積神經(jīng)網(wǎng)絡(luò)模型介紹

KG-GCNASL方法將知識圖譜與圖卷積網(wǎng)絡(luò)結(jié)合引入癌癥合成致死關(guān)系預(yù)測中,基于圖卷積神經(jīng)網(wǎng)絡(luò)模型通過結(jié)合知識和數(shù)據(jù)更好地解決生物醫(yī)藥領(lǐng)域的復(fù)雜問題[8],圖卷積網(wǎng)絡(luò)模型如圖4。新預(yù)測的合成致死基因可幫助生物學(xué)家更快篩選到新抗癌藥物靶點[9],實現(xiàn)AI技術(shù)加速新藥研發(fā)進程。通過知識圖譜來揭示SL背后的生物學(xué)機理,使深度學(xué)習(xí)模型具有更好的可解釋性,加速癌癥藥物靶點發(fā)現(xiàn),促進AI制藥技術(shù)發(fā)展。

圖4 圖卷積網(wǎng)絡(luò)模型

2.1.2 注意力機制模型介紹

通過引入注意力機制模型來跟蹤不同基因間發(fā)生癌癥合成致死的可能性,從而實現(xiàn)可解釋性;除此還解決了語義向量無法關(guān)注到表示序列的重要信息問題[10]。當(dāng)獲取詞向量被逐個送入圖卷積網(wǎng)絡(luò)模型后會產(chǎn)生一系列的編碼端隱藏狀態(tài)參與到注意力系數(shù)的計算。每輪訓(xùn)練中,解碼端輸出狀態(tài)也將參與注意力系數(shù)的計算,然后使用注意力權(quán)重將原子集成到分子表示中。解碼器狀態(tài)與隱藏狀態(tài)經(jīng)過加權(quán)求和后得到最終的概率分布。此方法可以在任何給定實體的鄰域中同時捕獲實體和關(guān)系特征;還在模型中封裝關(guān)系聚類和多跳關(guān)系,從而捕捉給定藥物多跳鄰域中的信息和關(guān)聯(lián)特征,為基于注意力模型的有效性提供見解,其注意力機制模型如圖5。

圖5 注意力機制模型圖

2.2 癌癥合成致死預(yù)測模型介紹

本文提出KG-GCNASL合成致死預(yù)測方法,將預(yù)測問題定義為圖上鏈接預(yù)測問題,擴展到圖結(jié)構(gòu)上神經(jīng)網(wǎng)絡(luò)方法進行非線性節(jié)點嵌入學(xué)習(xí),并重構(gòu)新鄰接矩陣或重構(gòu)新圖上鏈接,以得到基因間合成致死關(guān)系,整體模型框架如圖6。

模型將知識圖譜合并到圖卷積神經(jīng)網(wǎng)絡(luò)中,通過直接在圖中引入潛在因素作為節(jié)點緩解獨立性問題;知識圖譜中注入各種可能與合成致死相關(guān)的生物過程、疾病等因素來解決獨立性問題。KG-GCNASL主要由三部分組成:首先從每個基因的原始知識圖譜中推導(dǎo)出一個基因特異性子圖;其次在基因特異性子圖上進行MP,自動將基因與可能識別合成致死對象過程中起決定性作用的因素關(guān)聯(lián)起來,加入注意力機制以捕獲給定實體多跳鄰域中的實體和關(guān)系特征,使得模型能夠?qū)Σ煌従庸?jié)點指定不同權(quán)值,避免采集的有效鄰居節(jié)點信息量過大帶來的噪聲影響從而影響預(yù)測的結(jié)果;最后,定義了一個以監(jiān)督方式重構(gòu)基因-基因相似度的譯碼器實現(xiàn)癌癥合成致死預(yù)測。此模型與目前先進的合成致死預(yù)測方法進行了比較,在ROC曲線下面積(AUC)、precision-recall曲線下面積(AUPR)和F1值等方面優(yōu)于目前流行的baseline方法,證明了該模型的有效性。

(1)圖譜的生成:SynLeth KG中包含11個實體、24種關(guān)系,如(gene, regulates, gene)、(gene, interactions, gene)等。 11種實體中有7種與基因直接相關(guān),即途徑、細胞成分、疾病、化合物等。知識圖譜生成如圖7。首先在SynLethKG數(shù)據(jù)庫中篩選出需要的信息,給定一個癌癥合成致死相關(guān)基因;然后使用Bio2RDF工具構(gòu)建鏈接數(shù)據(jù)網(wǎng)絡(luò),基于傳輸定義從不同格式數(shù)據(jù)源中獲取數(shù)據(jù)后創(chuàng)建與RDF數(shù)據(jù)格式兼容的鏈接數(shù)據(jù);最后,使用RDF將數(shù)據(jù)集處理成三元組形式用于知識圖譜構(gòu)建,從構(gòu)建好的KG中構(gòu)建一個加權(quán)子圖,再識別出相關(guān)的節(jié)點和決定邊感重。

圖6 模型框架圖

圖7 知識圖譜生成圖

(2)對實體進行鄰居采樣:為每個實體抽取固定數(shù)量的鄰居表征局部結(jié)構(gòu)引入?yún)?shù)H(CNN感知域)重復(fù)H跳,節(jié)點可被重復(fù)采樣。然后將信息聚合起來,作為下個網(wǎng)絡(luò)的輸入[11]。由于每一個基因?qū)嶓w的鄰域分布情況是不一樣的,先對實體進行鄰域采樣:H=1時只考慮與當(dāng)前節(jié)點直接相連的鄰居節(jié)點,H=2時考慮二階相連的節(jié)點情況,能夠?qū)W習(xí)到更多鄰域?qū)嶓w信息。每個實體抽取固定數(shù)量k個鄰居來表征其局部結(jié)構(gòu),并重復(fù)該過程H跳(H >=1)。邊上權(quán)重代表關(guān)系重要性,則邊權(quán)重在子圖計算方式:

(1)

式中an表示基因,ra,a′表示關(guān)聯(lián)的embedding。

(3)聚合鄰域信息:在構(gòu)建的知識圖譜中,和基因直接相連的節(jié)點定義為Nneigh(a)。由于每個藥物節(jié)點鄰域的分布不同,在采樣完成后,通過聚合方法將實體自身嵌入表示和鄰域信息嵌入表示聚合起來,最終得到當(dāng)前實體的嵌入表示。

①對子圖中每個節(jié)點進行信息聚合與更新,在對每個節(jié)點計算加權(quán)平均和,公式如下所示:

(2)

式中a′表示子圖中一個實體,Za表示子圖中實體集合,wama,a′表示基因關(guān)系間的重要性權(quán)重。

Q是使用softmax函數(shù)進行normalize后的基因關(guān)聯(lián)分數(shù),公式如下所示:

(3)

②得到中心節(jié)點的鄰居的表達后,再對其進行信息的聚合與更新,公式如下所示:

A[h+1]=?(Q(a[g]+Az(a))+g)。

(4)

式中:Q表示線性transform層權(quán)重;g表示線性transform層偏置;?表示激活函數(shù),A表示實體表示;h+1表示更新后的實體表示;a[g]表示線性變化后的權(quán)重;Az(a) 表示計算后的加權(quán)平均和。

③在得到兩個基因的表達之后,它們之間的反應(yīng)概率通過下列公式計算:

sm,n=?(f(am,an)。

(5)

其中,f()表示基因表達公式,am,表示基因。

(4)注意力機制Attention層:將上層輸出作為注意力機制模型的輸入,從而有效捕獲局部鄰居及全局鄰居的注意力權(quán)重,用來學(xué)習(xí)節(jié)點的局部和全局表示。利用多層感知器將原始特征、局部和全局表示進行聚合,從而得到特定的特征表示并對其進行整合。對于一個節(jié)點,在圖中與其直接相連的節(jié)點定義為局部鄰居。使用下面公式計算注意力打分:

④對于一個節(jié)點,在圖中與其直接相連的節(jié)點定義為它的局部鄰居??紤]到不同的鄰居重要性不同,設(shè)計注意力機制來學(xué)習(xí)節(jié)點表示:

(6)

⑤將注意力打分進行歸一化,公式如下:

(7)

⑥同時基于局部鄰居信息聚合節(jié)點vi的表示,公式如下所示:

(8)

⑦由于注意力系數(shù)的不穩(wěn)定性,單個節(jié)點的注意力機制可能會引入噪聲。公式如下所示:

(9)

(5)總loss和優(yōu)化:模型設(shè)計了兩種loss,基本loss和L2 loss,進行cross-entropy計算:

J=min(sm,n,0)-sm,n*sm,n+log(b+exp(-|sm,n|)。

(10)

式中:sm,n是預(yù)測值;sm,n是真實值;b是常數(shù)。

⑧‖Γ‖代表對實體embedding,關(guān)聯(lián)embedding及聚合權(quán)重的L2正則:

(11)

(3)還加入了L2正則loss,公式如下所示:

minW,K,bι=minW,K,b∑m,nj+α‖?!?/p>

(12)

式中:K表示可訓(xùn)練權(quán)重矩陣;bι表示基因關(guān)系評分權(quán)值;∑m,nJ表示關(guān)聯(lián)embedding及聚合權(quán)重后的正則;α表示平衡超參數(shù)。

3 實驗部分

SynLethDB是一個合成致死基因?qū)Φ木C合數(shù)據(jù)庫,包含11個實體及24種關(guān)系。為使正、負樣本平衡,隨機選取未知對作為負對,使正、負SL pair數(shù)量相等,包含10 004個基因之間的72 804對基因,去除孤立節(jié)點后,最終包含了54 012個節(jié)點和2 231 921條邊,SL數(shù)據(jù)集見表1。

表1 數(shù)據(jù)集介紹

實驗部分分別用AUC、AURP、F1值三個指標(biāo)進行分析,與多種baseline方法比較,包括ML、GRSMF、HOPE、DeepWalk、Node2vec、LINE、GCN、GAT等,實驗結(jié)果對比見表2。

表2 各模型實驗結(jié)果

KG-GCNASL優(yōu)于表中所有baseline方法,與第二優(yōu)模型GRSMF相比,KG-GCNASL在AUC、AUPR和F1上的性能分別提高了4%、3%和3%,證明了模型的有效性。因為KG-GCNASL模型可從合成致死對象的相似性中學(xué)習(xí),豐富SL預(yù)測的基因嵌入,表明從包含GO信息的KG中學(xué)習(xí)基因表征和其它基因特征可進一步提高SL預(yù)測。

另外對本實驗中一些關(guān)鍵超參數(shù)進行了敏感性分析:括鄰居采樣大小k和實體嵌入維數(shù)d。首先,通過改變鄰居k的樣本數(shù)觀察模型性能,不同鄰居采樣大小對模型的的敏感度分析如圖8??芍撃P驮谙噜彶蓸映叽鏺=64時AUC、F1和AUPR效果最好。當(dāng)k值越高時鄰居采樣越多,采樣信息變得冗余,k為128時模型性能略有下降。

圖8 鄰居采樣大小k的敏感分析

其次,實驗還分析了實體嵌入維度d對模型敏感度的影響,如圖9。當(dāng)模型嵌入維數(shù)d為256時已經(jīng)有了很好的性能。太大的嵌入維度會給內(nèi)存和計算帶來負擔(dān)。最終,實驗中設(shè)置模型的鄰居采樣大小為64,嵌入維數(shù)為256。

圖9 實體嵌入維度d的敏感分析

通過對SL領(lǐng)域知識的了解與分析,對該領(lǐng)域圖譜實體類別進行設(shè)計:11種實體有7種與基因直接相關(guān),即途徑、分子功能、疾病等。每類實體類別中包含多個實體,每個實體中包含相應(yīng)屬性信息用于刻畫該實體的內(nèi)在特征,定義關(guān)系來刻畫實體和實體或?qū)傩蚤g的聯(lián)系,其癌癥合成致死預(yù)測研究生成的圖譜如圖10。

圖10 生成的知識圖譜

4 結(jié) 語

合成致死是一種很有前途的基因相互作用類型,在靶向抗癌治療中起著關(guān)鍵作用。本文提出KG-GCNASL方法實現(xiàn)癌癥合成致死預(yù)測,將知識圖消息傳遞納入到圖卷積神經(jīng)網(wǎng)絡(luò)與注意力機制模型預(yù)測中:利用包括基因、疾病等在內(nèi)11種實體和24種SL關(guān)系進行構(gòu)建,通過對KG進行信息傳遞解決獨立性問題,模型雖取得了良好的預(yù)測性能但仍有一些局限,希望研究自動特征提取預(yù)訓(xùn)練策略,基于更新的版本的SynLethDB驗證預(yù)測的SL對。此模型在AUC、AUPR和F1指標(biāo)上優(yōu)于所有最先進baseline方法,并且證明了將知識圖譜納入GCN中對SL預(yù)測的顯著影響。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产特级毛片aaaaaaa高清| 欧美激情伊人| 欧美亚洲日韩中文| 欧美人与牲动交a欧美精品| 又粗又硬又大又爽免费视频播放| 欧美一级在线播放| 亚洲综合精品第一页| 噜噜噜久久| 一级毛片无毒不卡直接观看| 亚洲午夜综合网| 成人福利在线观看| 欧美激情二区三区| 中国一级特黄视频| 亚洲综合18p| 亚洲欧美日韩成人高清在线一区| 国产成人综合亚洲欧美在| 久久久久久久97| 国产三级成人| 华人在线亚洲欧美精品| 伊人五月丁香综合AⅤ| 伊人国产无码高清视频| 91探花在线观看国产最新| 激情爆乳一区二区| av尤物免费在线观看| 黄色网页在线观看| 欧美日韩亚洲国产| 亚洲天堂视频网| 77777亚洲午夜久久多人| 国产精品视频系列专区| 婷婷五月在线视频| 亚洲第一页在线观看| 久久中文字幕av不卡一区二区| 久久毛片网| 国产成人一二三| 国产精品夜夜嗨视频免费视频| 操国产美女| 亚洲一区二区约美女探花| 日本午夜精品一本在线观看| 日韩欧美中文亚洲高清在线| 欧美精品成人一区二区视频一| 久久女人网| 狠狠干欧美| 亚洲日本精品一区二区| 亚洲无码A视频在线| 欧美亚洲国产日韩电影在线| 三区在线视频| 露脸国产精品自产在线播| 日韩欧美高清视频| 国产精品一区在线麻豆| 永久天堂网Av| 午夜精品久久久久久久无码软件| www.国产福利| 国产精品部在线观看| 免费人成在线观看视频色| 在线观看免费AV网| 国产精品内射视频| 国产亚洲精品97在线观看| 国产精品.com| 国产成人高清精品免费| 91成人精品视频| 亚洲日韩国产精品综合在线观看| 国产jizzjizz视频| 狠狠综合久久| 国产青青草视频| 欧美综合成人| 丝袜亚洲综合| 青青网在线国产| 2020精品极品国产色在线观看| 精品一区二区三区视频免费观看| 美女啪啪无遮挡| 丰满人妻中出白浆| 久久免费成人| 精品人妻无码中字系列| 亚洲一区黄色| a天堂视频在线| 97青青青国产在线播放| 无码丝袜人妻| 欧美日本二区| 国产精品国产三级国产专业不| 久久人人妻人人爽人人卡片av| 1级黄色毛片| 精品福利网|