999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大規模復雜疾病基因組交互網絡嵌入算法*

2022-06-09 12:40:22北方工業大學劉海煜史巖劉林涵
數字技術與應用 2022年5期
關鍵詞:定義模型

北方工業大學 劉海煜 史巖 劉林涵

復雜基因組網絡往往具有大量的節點和邊,學習其節點特征并應用于一些下游任務如鏈路預測往往不那么容易。因此,對比找到一種合適的嵌入算法以提高對復雜基因組網絡的嵌入效率同時更好的應用于一些下游任務成為了一個非常有意義的問題。本文采用三種常用的嵌入算法(DeepWalk,Line,Node2vec)對復雜基因組網絡進行嵌入學習得到節點的低維向量表示,然后將其應用于鏈路預測任務。同時重新定義了評估指標Micro-F1的各項參數,經過實驗后發現DeepWalk對于復雜基因組網絡的鏈路預測更為適用。

任何復雜的系統都以網絡的形式出現。而網絡數據往往是復雜的,處理起來具有挑戰性。為了有效地處理網絡數據,關鍵是尋找有效的網絡數據表示[1]。人們致力于開發新型網絡嵌入[2]。文獻[3]提出了DeepWalk算法。文獻[4]提出的LINE算法。文獻[5]提出的Node2vec算法。

鏈路預測是網絡分析中一個重要的應用。鏈路預測主要是基于已知的網絡預測網絡中隱藏的鏈路或未來即將產生的鏈路。基于共同鄰居相似性指標主要有余弦相似性[6]、Adamic指標[7]等。隨著深度學習、神經網絡在文本處理、圖像理解等領域的成功應用,將神經網絡應用于鏈路預測成為目前研究的重點。

然而在以往的研究中對復雜基因組網絡的嵌入和鏈路預測任務還研究甚少。

復雜疾病是指由眾多因素共同作用下發生的疾病,主要包含高血壓、糖尿病等疾病。當前對于復雜疾病的研究主要采用大規模基因組關聯分析。但該方法存在沒有充分考慮基因交互、運行效率低等問題。為此本文通過三種嵌入算法對復雜基因組網絡進行嵌入得到低維向量表示并進行鏈路預測。主要貢獻如下:

(1)第一次完成復雜基因組網絡的鏈路預測任務。

(2)重新定義了Micro-F1參數使得其能更好的評估邊級預測性能。

(3)對比了三種算法在復雜基因組網絡上的鏈路預測性能,得出DeepWalk在復雜基因組網絡可以取得更優預測性能的結論,同時發現Line模型更適用于大規模圖。

1 模型介紹及相關定義

對于復雜基因組網絡G={V,E},其中,V為SNPS節點集,且V={v1,v2,…,v|v|},|V|為節點總數;E為網絡中鏈接集,且ei,j∈E表示SNPS節點vi和SNPS節點vj之間存在鏈接關系。

1.1 DeepWalk模型

DeepWalk主要包括兩個部分:隨機游走生成器和更新過程。首先DeepWalk采用Random Walk在網絡中進行截斷的隨機行走,生成一組行走序列。算法定義以頂點vi為根的隨機游走為Wvi。隨機游走生成器就是一個由隨機變量Wvi1,Wvi2,…,Wvik組成的一個隨機過程。對于每個行走序列,采用Skip-Gram模型,DeepWalk的目標是在該行走序列中最大化節點vi的條件概率,如下:

其中w是窗口大小,(vi)代表著vi當前位置,{vi-w,…,vi+w}vi是vi的上下文節點。

對于序列中的每個頂點,計算條件概率,并借助梯度下降算法更新結點的向量表示。

1.2 Node2vec模型

Node2vec定義了靈活的節點網絡鄰居的概念,并設計了一種對領域節點進行采樣的二階隨機遍歷策略。Node2vec定義了倆個參數p和q來實現有偏向的隨機游走。考慮一個隨機游走剛經過邊(t,v),并正處于頂點v。隨機游走需要決定下一步,所以需要計算從頂點v經過邊(v,x)的轉移概率πvx。定義轉移概πvx=αpq(t,x)·ωvx。

Node2vec能夠密切學習具有相同網絡鄰居的節點形式。同時一些實驗[5]也證明Node2vec算法是一種高度穩定的學習特征的算法,可以在不同類型的網絡都提供最佳性能。

1.3 Line模型

Line主要用于大規模圖嵌入,它能夠保持一階和二階相似性。

一階相似性對于每個邊(i,j),定義節點vi和節點vj的聯合分布概率為:

其中ui∈Rd是頂點vi的低維向量表示。(一階相似性只適用于無向圖)二階相似性對無向圖和有向圖都是適用的,對于一個邊(i,j)定義它的轉移概率如下:

其中|V|是節點數量。對于每一個頂點vi,上式定義了一個在整個網絡頂點集上的條件分布P2(·|vi)。Line模型可以很容易地擴展到具有數百萬個頂點和數十億條邊的網絡[4]。

2 鏈路預測(Link Prediction)實現

網絡中的鏈路預測是指如何通過已知的網絡節點以及網絡結構等信息預測網絡中尚未產生連邊的兩個節點之間產生鏈接的可能性。基于Embedding的鏈路預測是通過嵌入算法學習后得到的節點低維向量表示來估計節點間的相似性度量。以此來預測節點之間是否可能存在聯系。

具體做法是對得到的Embedding向量表示進行處理,用兩個節點的歐式距離大小來評估兩個節點之間的聯系程度。

對于兩個節點vi和vj的n維向量表示X和Y,vi和vj的歐式距離d為:

為了更好的進行鏈接預測,采用K-NN的思想保留歐式距離TOPK的邊。

2.1 K-NN算法

設對象x={x1,…,xn},xi(1≤i≤n)是它的特征值。x是n維特征空間D=(D1,…,Dn)上的一點,x,y∈D,則x,y在特征空間F上的距離為dF(x,y)。

K-NN算法定義了一個下界d'和上界d'',設特征子空間,F1=(D1,…,Dk),k≤n,則圍繞x計算dD(x,y)的過程中:

(1)如果dF1(x,y)≤d',進一步計算dD(x,y)是不必要的,因為必有dD(x,y)≤d',一定不會滿足條件。

(2)如果dF1≥d'',進一步計算dD(x,y)是不必要的,因為必有dD(x,y)≥d'',一定不滿足條件。

這樣基于K-NN算法可以減少大量無用的計算,提高預測效率。

2.2 基于K-NN算法的歐氏距離TOPK計算

采用K-NN算法的思想設置閾值dmin和dmax,維護一個TOPK的隊列保存歐式距離最大的前k個節點對,同時隊列內的每一對節點(vi0,vi1)滿足:

其中dmin和dmax計算方法如下:

從測試集中每次隨機抽取10%的數據,計算出歐式距離最小值和最大值分別為dmini和dmaxi,總共取n次,則:

2.3 鏈路預測評估方法

Micro-F1分數可以很好的表示節點分類性能的好壞,基于節點分類的參數設定,定義用于評估鏈路預測的Micro-F1參數如下:

TP:預測的邊在測試集中

TR:預測的邊可能存在

FP:預測的邊不可能存在

FN:預測的邊在訓練集中

則精準率Precision:

召回率Recall:

這三個指標可以很好的反應鏈接預測的好壞。

3 實驗

實驗選用HT(x2>30),HT(x2>35)和HT(x2>40)三個高血壓疾病交互網絡數據集,數據集的具體參數如表1所示。

對比DeepWalk,Line和Node2vec三個模型在復雜基因組網絡中鏈接預測性能。實驗過程中取數據集70%的點作為訓練集,30%的點作為測試集,采用精準率P,召回率R和Micro-F1三個指標。在不同數據集下,三種模型對比數據如表2所示。

實驗表明,DeepWalk在不同數據集下都取得了最好的召回率和Micro-F1分數,在HT(x2>40)中準確率取得最優。Line在三個數據集上都取得了良好的準確率表現,但召回率普遍較低,且各項評估指標在數據集規模較大時能夠取得更好的效果。Node2vec模型在三個數據集中表現介于兩者之間,且在數據規模較小時,與DeepWalk性能差距較大,隨著數據集變大與DeepWalk性能差距逐漸減小。

在不同數據集下,DeepWalk均取得了最優的效果,而Line在數據量較大的數據集中準確率取得了較好的成績,Node2vec總體表現優于Line,在大規模數據集中接近與DeepWalk。由于DeepWalk采用隨機游走的方法學習節點的特征表示,可以在圖規模較大的時候有效減少計算量。綜上所述,DeepWalk在復雜基因組網絡取得了更優的預測效果,Line模型適用于較大規模圖的預測。

表 1 數據集參數Tab.1 Parameters of dataset

表 2 不同數據集下對應準確率,召回率和Micro-F1值Tab.2 Corresponding accuracy, recall and Micro-F1 values under different datasets

4 結語

本文旨在針對三種嵌入算法對復雜基因組網絡預測性能的對比,以找出適合大規模基因組網絡的嵌入算法。我們在三個不同高血壓疾病交互網絡上進行實驗,得出DeepWalk在復雜基因組網絡上取得更優效果的結論。

引用

[1] CUI P,WANG X,PEI J,et al.A Survey on Network Embedding[J].IEEE Transactions on Knowledge and Data Engineering,2018,31(5):833-852.

[2] ESTRIN D,GOVINDAN R,HEIDEMANN J.Embedding the Internet:Introduction[J].Communications of the ACM,2000,43(5):38-41.

[3] PEROZZI B,Al-Rfou R,SKIENA S.Deepwalk: Online Learning of Social Representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014:701-710.

[4] TANG J,QU M,WANG M Z,et al.Line: Large-scale Information Network Embedding[C]//Proceedings of the 24th International Conference on World Wide Web,2015:1067-1077.

[5] GROVER A,LESKOVEC J.Node2Vec:Scalable Feature Learning for Networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016:855-864.

[6] CHOWDHURY G G.Introduction to Modern Information Retrieval [M].UK:Facet Publishing,2010.

[7] ADAMIC L A,ADAR E.Friends and Neighbors on the Web[J].Social Networks,2003,25(3):211-230.

猜你喜歡
定義模型
一半模型
永遠不要用“起點”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
重要模型『一線三等角』
定義“風格”
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
主站蜘蛛池模板: 国内黄色精品| 全午夜免费一级毛片| 欧美a级完整在线观看| 亚洲欧美日韩另类在线一| 亚洲欧美日韩天堂| 成人无码一区二区三区视频在线观看| www.亚洲天堂| 在线观看亚洲天堂| 一级毛片网| 精品久久高清| 免费福利视频网站| 国产成本人片免费a∨短片| 97国产在线观看| 精品视频在线观看你懂的一区| 四虎国产精品永久一区| 欧美啪啪一区| 天天综合色天天综合网| 国产精品女人呻吟在线观看| 香蕉久久永久视频| 九九视频在线免费观看| 青青草国产精品久久久久| 99在线观看国产| 国产成人精品免费视频大全五级| 国产呦视频免费视频在线观看| av手机版在线播放| 国产青榴视频| 久久亚洲国产视频| 日韩精品资源| 激情综合激情| 亚洲A∨无码精品午夜在线观看| 国产网友愉拍精品| 亚洲无码高清一区| 亚洲成人福利网站| 人人妻人人澡人人爽欧美一区| 996免费视频国产在线播放| 国产电话自拍伊人| 亚洲熟女中文字幕男人总站| 97se亚洲综合在线天天| 99精品视频九九精品| 久久久久国产精品免费免费不卡| 四虎影视永久在线精品| 国产99欧美精品久久精品久久| 国产日韩欧美一区二区三区在线 | 国产毛片不卡| 91美女在线| 1024国产在线| 中文字幕欧美日韩| 天天综合网站| 国产精品成人免费综合| 免费看黄片一区二区三区| 国产福利免费视频| 欧美精品在线看| 99精品免费欧美成人小视频| 久久久久无码精品国产免费| 女人18毛片久久| 国产极品嫩模在线观看91| 亚洲男人天堂2020| 成人在线不卡视频| 91伊人国产| 四虎精品国产AV二区| 国产剧情伊人| 国产成人亚洲综合a∨婷婷| 国产精品七七在线播放| 四虎永久在线| 久久窝窝国产精品午夜看片| jizz国产视频| 男女男精品视频| 国产亚洲精品yxsp| 午夜欧美理论2019理论| 日韩免费成人| 亚洲色图欧美| 欧美精品在线视频观看| 国产肉感大码AV无码| 免费国产高清视频| a级毛片一区二区免费视频| 大陆精大陆国产国语精品1024| 亚洲综合二区| 亚洲精品无码高潮喷水A| 成人av手机在线观看| 亚洲自拍另类| 视频在线观看一区二区| 美女视频黄频a免费高清不卡|