999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智能體強化學習的乳腺癌致病基因預測

2022-06-18 10:37:16程玉虎王雪松
自動化學報 2022年5期
關鍵詞:基因突變乳腺癌動作

劉 健 顧 揚 程玉虎 王雪松

基因突變是由DNA 分子中堿基對發生增添、缺失或替換而引起的基因結構變化.基因突變具有隨機性,是一種可遺傳的變異現象.致病基因突變通過阻止一種或多種蛋白質正常工作擾亂正常發育過程或導致疾病.癌癥是由控制細胞功能的基因突變引起的一系列相關疾病的統稱.導致癌癥的基因突變可能遺傳自父母,也可能是人體自身受致癌環境或致癌物質刺激導致細胞分裂時產生的錯誤.一般來說,癌細胞比正常細胞有更多的基因突變.乳腺癌是世界上最常見的疾病之一,2018 年新增乳腺癌患者約20 億人[1].醫學領域的多項研究表明,BRCA1、BRCA2 和PALB2 基因的突變會導致乳腺癌風險增加,其他與乳腺癌患病風險相關的基因突變包括ATM、TP53、PTEN 等.因此,從乳腺癌組學數據中挖掘出與其密切相關的致病基因對乳腺癌的臨床診斷、預后和治療有著深遠意義.

在生物信息學中,癌癥致病基因預測通過基因排序方法實現.基于網絡相似度的基因排序算法通過分析多種基因?疾病網絡中的局部、全局信息,計算基因與疾病之間的相似性,從而對基因進行排序.例如,Kohler 等[2]提出重啟隨機游走算法利用網絡全局拓撲信息對致病基因進行預測;Xu 等[3]提出多路徑隨機游走的網絡嵌入模型對異構網絡進行致病基因預測.這些方法過度依賴網絡拓撲信息,不能對網絡外的基因進行預測,且對癌癥數據中的噪聲比較敏感.隨著機器學習理論的發展,基于機器學習的基因排序方法利用監督學習或非監督學習方式實現基因預測,能夠挖掘到與癌癥相關的致病基因,被廣泛應用于癌癥致病基因的預測.例如Han 等[4]將圖卷積網絡和矩陣分解結合提出一種疾病基因關聯任務框架;Natarajan 等[5]將推薦系統中的歸納矩陣補全用于預測基因與疾病的相關性.

在乳腺癌致病基因預測方面,自然啟發式算法應用較廣,例如粒子群優化 (Particle swarm optimization,PSO)、遺傳算法等.Sahu 等[6]提出一種基于PSO 的基因選擇算法,首先采用k均值聚類方法對數據集進行聚類,利用信噪比評分對聚類簇中的基因進行排序,然后從每個聚類簇中收集得分最高的基因生成新的特征子集,最后將新特征子集作為PSO 的輸入,生成優化后的特征子集.Malar 等[7]通過將關聯特征選擇方法和改進的二進制PSO 結合選擇致病基因,同時解決了微陣列數據的高維性問題.為了消除對乳腺癌無意義的基因,AliazKovic等[8]將遺傳算法用于提取乳腺癌數據中的重要信息,挖掘與乳腺癌生物過程相關的致病基因.Sangaiah 等[9]將特征加權和基于熵的遺傳算法結合起來,提出一種乳腺癌致病基因預測的混合方法.Alzubaidi 等[10]將遺傳算法與互信息結合應用于乳腺癌致病基因選擇.通過遺傳算法將基于互信息的基因選擇算法轉化為全局優化算法,能夠有效選擇基因.避免算法陷入局部最優.Alomari 等[11]結合最小冗余、最大關聯算法和花授粉算法來確定包含更多癌癥信息的基因子集.Hamim 等[12]提出一種基于決策樹模型的乳腺癌致病基因選擇策略,該策略包括兩個階段:基于Fisher 評分的過濾階段和基于C5.0 算法的基因選擇階段.Liu 等[13]為了提高基因選擇效率,將基因評分與深度神經網絡產生的基因重要性相結合,同時考慮癌癥亞型間的差異性和亞型內基因間的相關性來選擇乳腺癌三陰性亞型的最優致病基因子集.Zhao 等[14]基于信息熵的不確定性系數被用來定義基因間是否存在邏輯關系,進而構建基因邏輯網絡,最終通過比較對照組與實驗組網絡之間的差異程度,提取乳腺癌致病基因.

上述預測方法都是基于已有癌癥組學數據進行基因預測,這些組學數據來源于對癌癥患者的測序.換言之,這些方法僅能根據目前已發病患者的基因突變狀態來分析基因與癌癥之間的關聯,無法預知患者發病前的基因突變狀態,而發病前的基因突變狀態與發病基因突變狀態之間的差異才是癌癥發生的關鍵.

強化學習[15]是一類結合了優化控制思想和生命體學習行為的機器學習方法,其要求待處理的問題環境擁有馬爾可夫性質,即當前狀態僅受上一狀態的影響,與其余狀態無關.強化學習希望智能體在指定的狀態能夠得到讓回報最大化的動作,并通過智能體與環境的交互進行學習,從而改變特定狀態選擇某個動作的趨勢.強化學習還是一種擁有自主決策能力的算法,它使智能體通過在環境中的不斷試錯得到回報值和下一時刻狀態的觀測值,最終學習到一個能夠獲取較大折扣累積回報的策略.強化學習已被成功應用于多個研究領域,例如,數據驅動控制[16]、多機協同決策[17]、交通控制[18]等.

本文通過分析基因突變,發現其過程滿足馬爾可夫過程,且基因突變與癌癥之間的關聯性可以通過強化學習中累計回報函數構建的方式進行計算.因此,基于乳腺癌突變數據,本文設計一套強化學習環境與算法對患者從正?;蛲蛔儬顟B至死亡基因突變狀態的過程進行評估、決策,旨在為癌癥致病基因預測提供新思路,并挖掘出導致乳腺癌死亡狀態的致病基因.實驗結果表明,提出的強化學習算法能夠挖掘出與乳腺癌密切相關的致病基因.

1 問題描述

由于基因突變并非確定性事件,在非人為干涉的前提下,基因突變可視為一個隨機過程.設任意t時刻基因突變狀態(后文簡稱狀態)為st,下一時刻狀態為st+1,則在t+1 時刻狀態發生的變化只與t時刻的狀態有關,與之前 0~t ?1 的狀態并無關聯,即

其中,P(·) 為概率.基于上述考慮,可以認為基因突變對應的隨機過程為馬爾可夫過程.

本文根據乳腺癌患者生存數據中患者的臨床信息來定義死亡狀態和非死亡狀態.患者生存數據兼有時間和結局兩種屬性信息.時間描述的是患者由觀察起點至觀察終點的時間間隔,通常稱為生存時間.患者生存數據的結局即為觀察終點,觀察終點分為死亡和存活兩種,在生存數據中記為1 和0.在本文中,如果某患者的觀察終點為死亡,則將該患者在乳腺癌數據中的基因突變狀態定義為死亡狀態.值得注意的是,具有相同基因突變狀態的患者,觀察終點并不一定相同,因此通過定義死亡率來更加精細地對數據進行描述.若基因突變狀態使所有癌癥患者死亡,則該狀態的死亡率為100%;若基因突變狀態有一定概率導致患者死亡,例如100個患者有相同的狀態,其中有10個患者死亡,則死亡率為10%.這里將有概率死亡的基因突變狀態統稱為死亡狀態.設一個基因與t時刻狀態st之間的關聯性為r(st),已有基因排序算法更關注對歷史病例數據的數理統計,通過計算r(st) 的大小來評價某個基因突變與癌癥患者之間的聯系強弱.然而這類方法沒有充分考慮患者的死亡狀態,且忽視了癌癥的發生過程,比如死亡狀態sα雖然死亡率不高,且r(st)值較小,但可能在一定時期內突變成死亡率很高的其他狀態,這類狀態sα中的基因與癌癥患者死亡之間的應該有很強的關聯性.因此,對基因與癌癥患者之間關聯的評估不應只關注狀態st中基因與癌癥關聯性,更應從一個正常狀態經歷漫長基因突變過程至死亡狀態的角度,評估突變基因與某個死亡狀態的關聯性,即

乳腺癌突變數據中,每個患者的所有基因突變狀態是一個樣本,每個基因在所有患者上的突變狀況是一個特征,如圖1 所示.患者的某個基因發生突變,則記為1 (圖1 中黑色格子),不發生突變則記為0 (圖1 中非黑色格子).本文構建強化學習環境如下:將基因作為智能體 (Agent),t時刻基因突變狀況作為狀態st,基因突變作為動作at,根據死亡狀態的死亡率設計回報函數r(st),當智能體達到死亡狀態時獲得最優策略,停止與環境交互,給予高回報值.基因突變數據中的基因數目成百上千,在一個狀態中,使用單智能體進行強化學習時,狀態?動作空間復雜度極高,需要大量計算成本.為此,考慮利用多智能體深度Q 網絡 (Deep Q network,DQN)[19]對乳腺癌突變數據進行強化學習.一方面,相比于Q 學習方法,DQN 通過訓練更新值函數神經網絡的參數,減小狀態高維度對算法訓練效果的影響;另一方面,使用多智能體進行強化學習,可降低動作空間復雜度,大大減少強化學習的計算量.

圖1 乳腺癌突變數據Fig.1 Breast cancer mutation data

多智能體DQN 使得學習任務的復雜度減小,但多智能體的動作維度并沒有下降,智能體探索到最優策略的概率很低.由于所有死亡狀態均來自乳腺癌突變數據,可將死亡狀態作為專家意見指導強化學習過程,根據演示學習理論,提出兩種多智能體DQN:基于行為克隆的多智能體DQN (Behavioral cloning-based multi-agent DQN,BCDQN)和基于預訓練記憶的多智能體DQN (Pre-training memory-based multi-agent DQN,PMDQN).設置探索經驗池B1和演示經驗池B2兩個經驗池,更好地實現演示學習.當智能體數量較少時,BCDQN使智能體在每一步探索時都給出專家意見,保證B1和B2在狀態上同分布,實現探索策略對專家策略的完全克隆;當智能體數量較大時,PMDQN 通過預訓練將一定數量的專家經驗保存在B2中,再使智能體隨機探索填充B1,并通過訓練最終實現B1和B2同分布,這能夠使B2中樣本之間的相關性下降,從而加快算法的學習.

2 環境設計

式中,設死亡狀態(Dead)的死亡率為Pd,即若狀態對應的死亡率不為0,則智能體在該狀態有Pd的概率死亡.若智能體觸發死亡事件,則停止智能體與環境的交互.智能體在環境中探索時,智能體如果存活則給予智能體負的回報,智能體在環境中存活的時間越長,對應的累積回報就越低,其中,γ(0<γ <1) 為折扣因子.式(4)中的D則限制了狀態的變化幅度,以避免違背基因突變的客觀規律,即智能體要想獲得更高的回報則必須要用較小動作幅度觸發死亡事件.由于D值在N足夠大情況下會遠大于1,由霍夫丁不等式可知,隨機變量總和與其期望值之間的偏差上限與隨機變量取值區間大小正相關.因此,使用常數η(0<η <1) 限制回報變化幅度,降低學習任務的復雜度.

3 基于多智能體強化學習的乳腺癌致病基因預測

強化學習目標是找到最優策略π?=P(at|st),即最大化期望折扣回報

常用的強化學習算法為異步策略的Q 學習方法[6].對于當前的學習問題,Q 學習方法的迭代公式為

從式(6)可以看出,Q 學習方法要求智能體使用貪心算法進行動作選擇,從而剛性保證算法的收斂.Q 學習方法傾向于直接估計狀態?動作值矩陣.在所設計的環境中,狀態、動作都是二進制向量,所以動作空間復雜度為 2N+1,狀態空間復雜度為 2N.如果使用Q 學習方法,則需要估計復雜度為 22N+1的值函數矩陣.Q 學習方法在N很大時,需要耗費大量時間遍歷求解值函數矩陣.為此,本文選擇使用DQN 通過神經網絡訓練更新值函數的參數,減小狀態維度對算法訓練效果的影響.DQN 的更新目標為

相應的損失函數為

其中,θ為值函數網絡參數.DQN 采用經驗回放技術,訓練值函數網絡所用的數據需要從環境交互得到的經驗信息中隨機采樣得到,以消除訓練數據之間的相關性,從而滿足深度學習對訓練集數據獨立同分布的前提條件.DQN 可以高效處理狀態?動作空間維度較大的學習問題,并通過經驗回放技術提高經驗數據的利用效率.

3.1 多智能體DQN

本文實驗環境如果使用單智能體深度強化學習算法,則其狀態?動作空間復雜度為 22N+1;如果使用多智能框架,則會使 2N+1的動作空間復雜度變為 2N,整體上的狀態?動作空間復雜度則變為N2N+1.環境所使用的基因數N一般很大,因此N2N+1?22N+1,多智能體框架可以大幅降低學習問題的復雜程度,減少了設計單智能體所需的網絡參數.

圖2 多智能體強化學習框架(以第k個智能體為例)Fig.2 Multi-agent reinforcement learning framework(Take the k-th agent as an example)

每個智能體的更新目標為

其中,第k個智能體的動作ak屬于各自的動作空間Ak,θk則為第k個智能體的值函數網絡參數.第k個智能體系統的損失函數為

多智能體DQN 的偽代碼如算法1 所示.

3.2 多智能體演示學習

本文環境中的基因數目N很大,則對應的動作維度也很大,這使得智能體通過隨機探索找到最優路徑的概率很低.單純使用多智能體框架也無法完全避免難以探索得到最優路徑的問題,這是因為:多智能體框架可以使得學習任務的復雜度下降,但動作的維數并沒有下降,因而隨機探索得到最優策略的概率還是很低.考慮到環境中包含的所有死亡狀態和狀態轉移均已知,本文將死亡狀態視為專家意見,采用演示學習[20]方式加快算法的學習.

在計算專家意見對應的回報re(st)時,需要考慮死亡概率,即

其中,s?為目標狀態,Pd(s?) 為目標狀態的死亡概率.每個智能體的更新目標為

如果專家意見對應的回報和環境的期望回報E[r(st)]不相符,值估計將不收斂,這時專家系統給出的動作a?即為最優動作.為了更好地實現演示學習,單獨設計一個經驗池B2來保存演示經驗.將隨機探索得到的經驗池B1和演示經驗池B2的經驗按照Ps的概率進行采樣,即用于網絡訓練的Batch 有Ps的概率從B1采樣,1?Ps的概率從B2采樣.基于值的強化學習問題本質上是對值函數的擬合問題,所以無論是專家經驗還是智能體隨機探索得到的非最優解經驗,都需要應用于值迭代.

3.3 基于行為克隆的多智能體DQN (BCDQN)

啟發于行為克隆[21]思想,在智能體隨機探索的同時,對應每一步都給出相應的專家意見,專家意見即為最優策略,以保證B1和B2在狀態上同分布.算法的每一次迭代訓練都會拉近B1和B2之間對應動作的分布差異,當算法收斂時,B1和B2將完全同分布,從而實現了智能體探索策略對專家策略的完全克隆.BCDQN 的優勢是算法會收斂到與專家策略完全相同的策略上.

令Lo和Le分別為智能體探索系統和專家演示系統的損失函數,則有

其中,ψ和φ分別為探索路徑下的狀態空間和動作空間.最終BCDQN 的損失函數為

綜上所述,BCDQN 的偽代碼如下:

算法2.BCDQN 算法

3.4 基于預訓練記憶的多智能體DQN (PMDQN)

隨著N的增大,BCDQN 中B1和B2狀態上同分布反而會使得智能體難以找到最優路徑.N越大,智能體的隨機探索得到最優路徑的概率就越低,經驗池里經驗向量來自同一條路徑的概率就越高,這間接增加了訓練樣本間的相關性.而深度強化學習要求訓練樣本間要盡可能獨立,所以提出基于預訓練記憶的多智能體DQN (PMDQN)先使智能體在環境中進行預訓練,并將數量T的專家經驗保存在B2中,然后不再對B2進行更新.隨后使智能體進行隨機探索填充B1,并繼續智能體的訓練.由于最終算法收斂時,B1和B2不一定會完全同分布,因此,智能體不能保證學習到最優策略.但PMDQN 可以使專家經驗池提供的樣本間的相關性下降,并加快了算法的學習速度.

這時,智能體探索系統和專家演示系統的損失函數分別為Lo和Le,則有

最終PMDQN 的損失函數為

PMDQN 的偽代碼如下:

算法3.PMDQN 算法

3.5 基于多智能體DQN 的乳腺癌致病基因排序

通過比較每個基因突變狀態sk的值進行乳腺癌致病基因排序.可表示為

式中,由于第k個智能體從未突變狀態(sk=0)到最終突變狀態(sk=1 )采取的動作為ak=1;從突變狀態(sk=1)到最終突變狀態(sk=1)采取的動作為ak=0 ,所以可以用于表示某個基因突變對患者死亡貢獻度的高低.這里默認最終狀態為未突變狀態(sk=0)時,對乳腺癌突變基因的分析無意義.

在多智能體框架中,每一個智能體只處理動作空間為2、狀態空間為 2N的強化學習問題,并使用基于值的強化學習來進行訓練,這時輸入為N維二進制向量,輸出為2 維的Q 值.這時的多智能框架對神經網絡結構的要求不高.為了加快多智能體的訓練速度,所有DQN 僅使用單層神經網絡,即第k個網絡參數θk只包含權值向量wk和偏置向量bk,則有

深度強化學習方法主要通過評估狀態?動作值的高低來決定動作:如果某個基因在式(21)中的值越大,說明智能體在任意狀態下發生突變的狀態?動作值越大,即該基因發生突變導致病人死亡的概率越高.因此,通過式(21)指標可以排序出基因突變與患者死亡之間的關聯性.最后,根據需求選擇排序靠前的n個基因作為致病基因.

4 實驗結果與分析

4.1 實驗設置

本文通過在乳腺癌基因突變數據構建的環境來預測乳腺癌的致病基因.乳腺癌突變數據和生存數據由TCGA 數據官網下載得到(網址:https://portal.gdc.cancer.gov).深度強化學習的訓練時間與環境的狀態?動作空間復雜度正相關.一般環境的狀態?動作空間復雜度越高,需要的神經網絡越復雜,訓練時間越長.受限于實驗設備的計算效率,實驗中需要通過一定的規則來限制狀態、動作的維度,因此通過基因突變率來篩選基因數目.

根據乳腺癌突變數據中的基因突變率將實驗設置為2 組:第1 組選擇基因突變率≥50% 的基因,得到N=188個基因,其中包含53 種不同的死亡狀態;第2 組選擇基因突變率≥30% 的基因,得到N=420個基因,其中包含81 種不同的死亡狀態.由于BCDQN 比PMDQN 更穩定,所以N=188時使用BCDQN 進行訓練.當N=420 時,BCDQN需耗費大量時間進行訓練,為了使算法快速收斂,使用PMDQN 進行訓練.

本文將基因突變視為多智能體的動作,若基因突變率太低,則基因/智能體數目增多,而死亡狀態中突變基因的占比急劇減小,多智能體很難通過動作學習到死亡狀態,所以選擇使用30%、50%的基因突變率來確保構建環境所用的基因數滿足智能體對乳腺癌死亡狀態的學習.當然,也可以選擇其他突變率的基因數目,例如突變率≥40 %,理論上在合理的基因突變率范圍內,本文提出的算法都能夠適用.不同基因突變率數據集的選擇會對實驗結果產生影響,這體現在兩個方面:1) 突變率越低得到的基因數目越大,狀態?動作空間維度也越大,導致模型收斂速度變慢,無法學習到最優策略;突變率越高,則得到的基因越少,使得強化學習任務更簡單,且過高突變率的基因使乳腺癌致病基因預測任務無意義.2) 突變率改變將會產生不同的患者死亡率,影響智能體完成任務情況.因此,在實驗設備的允許的情況下,建議基因突變率的選擇范圍為10%~50%.

4.2 實驗結果

當N=188 時,使用BCDQN 進行訓練.多智能體在53個死亡狀態上的回報值如圖3 所示,其中,橫坐標表示episode,縱坐標表示回報值.由圖3可以看出,所有的策略處于收斂狀態,在每個死亡狀態上,多智能體在每個episode 都可以取得穩定的回報.由于策略收斂,BCDQN 可以完成所有學習任務,具備較好的魯棒性.圖4 表示當N=188時,多智能體完成任務情況 (達到死亡狀態),其中,橫坐標表示episode,縱坐標表示完成任務的次數.圖4 中除0、1、6、7 四個死亡狀態外,智能體能夠穩定學習到死亡狀態的最優策略.智能體在0、1、6、7 四個死亡狀態產生波動是由于這幾個死亡狀態的死亡率較低 (死亡率分別為4.60%、9.7%、7.69%和9.09%),使得智能體在上限步數內雖然停留在死亡狀態卻無法觸發死亡事件,導致智能體無法完全保證穩定學習到最優策略.BCDQN 在狀態?動作空間維度較小環境中可以確保找到最優策略.而在較復雜的狀態?動作空間維度中,若存在充足的專家經驗,則算法一定可以收斂至最優策略,但需要耗費的訓練時間難以估計.

圖3 當N =188 時,BCDQN 在53個死亡狀態上的回報值Fig.3 The rewards of BCDQN at 53 death states under the condition of N=188

圖4 當N =188 時,BCDQN 在53個死亡狀態上的完成任務情況Fig.4 The task completion status of BCDQN at 53 death states under the condition of N=188

當N=420 時,使用PMDQN 進行訓練.多智能體在81個死亡狀態上的回報值如圖5 所示.除61、62、67、69、71 五個死亡狀態外,多智能體可在其余所有死亡狀態上學習到最高的回報值.圖6是當N=420 時,多智能體完成任務情況.除61、62、67、69、71 五個死亡狀態外,智能體能夠學習到死亡狀態的最優策略.產生這種結果的原因是由于智能體增多導致動作?狀態空間復雜度增大,智能體訓練時間不夠長,暫時沒有學習到最優策略.PMDQN 雖然保證了采樣效率,提供了大量有效的專家經驗,加快了算法的訓練,卻不可避免地會因為環境的太過復雜而遇到專家經驗不足的問題.此時通過專家經驗的擴充可在一定程度上的減少這種陷入局部最優現象的發生.當N=420 時,狀態?空間維度較大且復雜,多智能體在一個情節內經歷的軌跡較長,這也會導致智能體無法探索到上述五個死亡狀態.因此,也可以嘗試利用增強探索的強化學習方法解決此問題.

圖5 當時,PMDQN 在81個死亡狀態上的回報值N=420Fig.5 The rewards of PMDQN at 81 death states under the condition of N=420

圖6 當N =420 時,PMDQN 在81個死亡狀態上的完成任務情況Fig.6 The task completion status of PMDQN at 81 death states under the condition of N=420

根據上述結果,總結BCDQN 和PMDQN 的特點和適用情況如下:BCDQN 在狀態?動作空間維度較小時,能夠保證智能體探索到與專家策略相同的策略,穩定找到最優策略;在狀態?動作空間維度大且復雜時,PMDQN 可以減小樣本間的相關性,滿足更多智能體快速進行強化學習,但不能保證智能體學習到最優策略.綜上所述,在實驗設備允許情況下,建議在N <420 時使用BCDQN,在N ≥420時使用PMDQN.

4.3 致病基因分析

當N=188 和N=420 時,BCDQN 和PMDQN預測的前10個致病基因如表1 所示.在這兩種情況下,預測的致病基因有重疊部分,例如TP53、MYC 和PVT1.

表1 BCDQN 和PMDQN 預測的前10個致病基因Table 1 Top 10 pathogenic genes predicted by BCDQN and PMDQN

腫瘤抑制基因TP53 在控制細胞增殖、細胞存活和基因組完整性的許多細胞通路中發揮著關鍵作用.當細胞經歷應激條件 (如DNA 損傷、缺氧或致癌基因激活)時,TP53 作為細胞增殖的制動器,幾乎在所有類型的癌癥中發生突變.Silwal-Pandit 等[22]分析了1 420 名乳腺癌患者體細胞的TP53 突變,研究結果表明TP53 突變譜在乳腺癌中具有亞型特異性和明顯的預后相關性.Funda 等[23]對257 例轉移性乳腺癌患者的202個基因進行了高通量測序,研究表明TP53 在乳腺癌的三種亞型中都存在顯著突變,且與無復發生存期、無進展生存期和總生存期相關.Han 等[24]分析了187 例轉移性乳腺癌患者的血液樣本,研究表明TP53 突變轉移性乳腺癌患者的預后明顯低于TP53 野生型患者,特別是激素受體陽性/表皮生長因子受體2 陰性和三陰性隊列患者.在TP53 突變的患者中,DNA 結合域中非錯義突變的乳腺癌患者的相關生存率更低.

MYC 是細胞生長、增殖、代謝、分化和凋亡的關鍵調控因子,它的擴增或過表達常見于多種惡性腫瘤.乳腺癌中MYC 的解除涉及多種機制,包括基因擴增、轉錄調節、mRNA 和蛋白質穩定,這與腫瘤抑制子的缺失和致癌途徑的激活相關.Xu 等[25]報道了腫瘤抑制因子BRCA1 能夠抑制MYC 的轉錄和轉化活性,并且BRCA1 缺失和MYC 過表達導致乳腺癌的發生,特別是基底細胞樣亞型的乳腺癌.Terunuma 等[26]發現乳腺癌中2-羥戊二酸水平升高與MYC 通路激活之間存在關聯,并在人類乳腺上皮細胞和乳腺癌細胞中MYC 的過表達和敲低進一步證實了這一關系.Camarda 等[27]通過靶向代謝組學方法,發現脂肪酸氧化中間體在MYC 驅動的三陰性乳腺癌模型中顯著上調.

PVT1 在多種惡性腫瘤中高表達,是潛在的癌基因,它還可與MYC 基因相互作用,通過多種途徑參與惡性腫瘤細胞的增殖、凋亡等調控.Cho 等[28]證明了PVT1 啟動子具有獨立于PVT1 lncRNA的腫瘤抑制功能,且PVT1 啟動子CRISPR 增強了乳腺癌細胞在體內的競爭和生長.Tang 等[29]報道了PVT1 在臨床三陰性乳腺癌中上調,并促進KLF5/beta-catenin 信號通路以驅動三陰性乳腺癌的發生.Wang 等[30]的研究表明,PVT1 的表達增加與乳腺癌患者的臨床分期、淋巴結轉移和總生存率有關.

為進一步驗證預測得到的致病基因與乳腺癌密切相關,首先利用ToppGene 工具(網址:https://toppgene.cchmc.org/)進行基因富集分析.基因富集分析是指將一組基因按照基因組注釋信息進行分類的過程,能夠發現基因間是否具有某方面的共性.基因組注釋信息存儲于基因注釋數據庫(Gene anotation database),能夠幫助理解基因功能,發現基因與疾病之間的關聯等.本文采用的基因注釋數據庫是基因本體數據庫(Gene ontology,GO),其涵蓋多種語義分類,如分子功能、生物學過程、細胞組分等.GO 術語 (GO term) 是GO 數據庫中的基本描述單元,可描述基因產物的功能,例如:GO 術語:regulation of DNA biosynthetic process 描述的是一組基因在生物過程中對DNA 生物合成過程起調節作用.

在富集分析圈圖(圖7~8)中,圓形的左半圓部分表示基因,右半邊表示GO 術語,基因與GO術語之間有連線表示基因產物與GO 術語相關,一個基因與越多GO 術語相連,則表示該基因的產物功能越多.圖7 是在N=188 時,前10個致病基因的富集分析圈圖,其中基因CCDC26 無法與其他基因得到富集結果.圖7 中的GO 術語是從富集結果的眾多GO 術語中與乳腺功能密切相關的15個GO 術語,基因MYC 與最多數目的GO 術語相連,且與多個乳腺癌相關的GO 術語有關,表示MYC與乳腺癌的發生、發展最為密切,其次是基因TP53,以此類推.由此可見,圖7 中的9個基因的產物都與乳腺癌的發病過程相關.雖然CCDC26 無法與其他基因得到富集結果,但在文獻[31]中,CCDC26作為下調基因,可在多種癌癥的發生過程產生作用,例如白血病、膠質瘤等.

圖7 當N =188 時,BCDQN 預測的前10個致病基因的富集分析圈圖Fig.7 The enrichment analysis circle diagram of the top 10 pathogenic genes predicted by BCDQN under the condition of N=188

圖8 是在N=420 時,前10個致病基因的富集分析圈圖,本文從富集結果的眾多GO 術語中選擇了與乳腺功能密切相關的18個GO 術語.基因TP53、MYC、PIK3CA、PVT1 和TG 與這18個GO 術語相關,表明與乳腺癌有關聯.雖然基因HHLA1、ASAP1 與上述18個GO 術語無關,但與基因MYC、PVT1、TG 一起與GO 術語:Human Leukemia Schoch05 1052genes 相關,即與白血病相關.基因SNORA12 在文獻[32]中被驗證為宮頸癌的8個過表達基因之一.通過RNA 測序結果,基因RN7SL329P 是前列腺癌中前10 位差異表達的IncRNAs[33].

值得注意的是,生命科學是一門實驗科學,由人類在長期的科學探究中不斷積累知識逐步完善.本文預測的部分致病基因現階段雖與乳腺癌無直接關聯,但都參與了其他癌癥的發生過程,可作為乳腺癌的候選致病基因以待臨床驗證.導致乳腺癌風險增加最常見的突變基因BRCA1、BRCA2 和PALB2 沒有出現在本實驗中,這是由于這些基因的突變率沒有達到實驗設置要求,即在N=188 和N=420的實驗中不包含這些基因.受篇幅限制,這里僅提供兩種方法預測的前10個基因,排名靠后的基因不再進行分析,但是,這并不代表這些基因與乳腺癌無關,例如,N=420 的實驗結果中,基因PIK3CA 排在第2 位,但在N=188 的實驗結果中,其排在第23 位.

5 結束語

本文基于乳腺癌突變數據,構建多智能體強化學習環境,并根據突變數據特性設計了兩種基于演示學習的多智能體DQN.借鑒行為克隆思想提出BCDQN,將患者死亡狀態作為專家信息,對智能體的每一步探索都給予指導,最終實現探索經驗池與專家經驗池完全同分布.為了滿足更多智能體快速進行強化學習,并減小樣本間的相關性,提出PMDQN 通過預訓練方式將一定數量的專家經驗保存在專家經驗池中,然后令智能體進行隨機探索,加快智能體探索到與專家策略相同的策略.最后,通過基因富集分析對預測得到的致病基因進行分析,實驗結果表明,本文方法能夠挖掘出乳腺癌致病基因.同時,該算法也挖掘出一些與其他癌癥的發生過程相關的基因,可作為乳腺癌的候選致病基因.

未來的研究工作包括設計癌癥連續數據的強化學習環境,進一步提出適用于連續數據的多智能體強化學習算法.

猜你喜歡
基因突變乳腺癌動作
大狗,小狗——基因突變解釋體型大小
英語世界(2023年6期)2023-06-30 06:29:10
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
管家基因突變導致面部特異性出生缺陷的原因
乳腺癌是吃出來的嗎
胸大更容易得乳腺癌嗎
基因突變的“新物種”
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
動作描寫要具體
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产一区二区色淫影院| 欧美有码在线观看| 18禁影院亚洲专区| 亚洲精品无码抽插日韩| 亚洲精品va| 国产真实自在自线免费精品| 人妻丰满熟妇αv无码| 激情爆乳一区二区| 亚洲一区二区无码视频| 国产在线第二页| 欧美区国产区| 谁有在线观看日韩亚洲最新视频 | 亚洲bt欧美bt精品| 福利一区三区| 天堂网国产| 亚洲首页国产精品丝袜| 又爽又大又黄a级毛片在线视频| 欧美亚洲综合免费精品高清在线观看 | 国产AV毛片| 青青久久91| 国产在线观看第二页| 欧美性久久久久| 亚洲狼网站狼狼鲁亚洲下载| 91精品久久久久久无码人妻| 亚洲欧美一级一级a| 精品视频一区二区三区在线播| 欧美精品不卡| 天天色天天操综合网| 婷婷六月在线| 亚洲第一中文字幕| 无码aⅴ精品一区二区三区| 自拍亚洲欧美精品| 四虎永久免费地址在线网站| 亚洲视频免费播放| 91麻豆精品视频| 久久综合九色综合97婷婷| 欧洲av毛片| 亚洲午夜天堂| 久久美女精品国产精品亚洲| 67194亚洲无码| 国产精品污视频| yjizz国产在线视频网| 人妻丰满熟妇αv无码| 免费国产小视频在线观看| 91国内视频在线观看| a免费毛片在线播放| 国模在线视频一区二区三区| 成人看片欧美一区二区| 亚洲乱码在线视频| www.91中文字幕| 成人久久18免费网站| 日韩中文字幕免费在线观看 | 国产一区二区在线视频观看| 99精品国产高清一区二区| 9丨情侣偷在线精品国产| 91毛片网| 99视频在线免费观看| 色综合五月婷婷| 成人在线天堂| 亚洲欧美日韩精品专区| 欧美成人午夜视频免看| 国产第八页| 色综合成人| 国产精品 欧美激情 在线播放 | 97国产精品视频自在拍| 国产精品自在在线午夜区app| 国产精品三级专区| 国产精品天干天干在线观看| 亚洲成人在线免费| 97一区二区在线播放| 欧美一区二区福利视频| 国产特级毛片| 国产精品蜜芽在线观看| 国产日韩欧美在线播放| 国产毛片不卡| 日韩无码白| 久久综合丝袜日本网| 一级毛片免费高清视频| 91亚洲视频下载| 亚洲三级片在线看| 四虎永久免费网站| 极品国产一区二区三区|