999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于降噪風險基因網絡的生存風險基因篩選

2021-05-18 02:37:00李婧惟
中國醫院統計 2021年2期
關鍵詞:模型研究

陸 震 劉 艷 李婧惟

哈爾濱醫科大學衛生統計學教研室,150081 黑龍江 哈爾濱

生物實驗受到許多噪聲因素的影響,其產生的數據帶有噪聲,但這些噪聲一般被控制在某個范圍之內,即實驗往往不僅產生數據,而且還附帶著對所產生數據不確定性大小的度量。目前對于高維基因表達數據中噪聲的優化處理,基于網絡方法應對噪聲的影響是當前研究的一種主要思路[1-3],也有研究提出貝葉斯SBC、聚類等方法對高維基因表達數據進行穩健降噪[4-5]。在生存風險基因的篩選中,已有研究將類似的基因網絡方法用于生存分析[6-9]。本研究重點關注帶有噪聲的高維基因表達數據生存風險基因篩選問題,分別利用模擬數據和真實數據,對基于降噪風險基因網絡的生存風險基因篩選算法CoxLASSO-ISIS-N的表現作出評價,并與其他5種算法進行比較,分析算法的優劣,以期為高維基因表達數據的生存風險基因篩選提供一種新的思路,旨在更精確地研究終點事件(疾病的發生、某種處理的反應、疾病的復發或死亡等結局)發生與高維基因表達數據之間的關系,為臨床診斷以及預后管理提供依據。

1 資料與方法

1.1 資料來源

當前,無論是芯片還是測序研究,所接觸到基因的數量級往往是上萬的大小,即帶來了極高維度下的低樣本問題。本文在檢索并查閱了相關文獻中模擬實驗的設置情況后,將模擬數據設置如下[1,10]:

分別設置基因數p為1 000、2 000和5 000,樣本量n為50和100的6種組合。其中,在全部6種組合下,均設置真實生存相關基因的個數僅為5個,二者最大比例為1∶1 000,以求接近真實的基因量級,以評估全部6種算法的性能表現。6種組合均滿足基因數遠大于樣本量的條件,符合本研究的高維基因表達數據的前提假設。其中,6種組合下,基因數據設置為服從多元正態分布,邊際分布為N(0, 1),且均添加隨機擾動,因而滿足帶有噪聲的高維基因表達數據的模擬要求。由于生存數據中刪失數據十分常見,故本研究的模擬實驗中,6種組合下的刪失率均設置為50%。每種算法在6種組合下的模擬實驗分別重復100次,模擬實驗結果給出100次重復的均數與標準差。

對于真實數據,數據來源于GEO公共數據庫平臺(https://www.ncbi.nlm.nih.gov/geo/)的GSE4475數據集[11-12]。該數據集的表達數據由原數據貢獻者Michael Hummel等整理好原始數據后提交至GEO數據庫平臺。該數據集收集220例Burkitt淋巴瘤患者的基因表達數據以及臨床資料信息。進行數據整理后,選取擁有完整資料的155例患者的基因表達數據以及臨床信息,其中包含21 156個基因位點。

1.2 研究方法

1.2.1基于網絡的降噪方法

1.2.2高維基因表達數據變量篩選方法

Fan和Li提出評判變量篩選模型優劣的標準[13]: (1)稀疏性,模型選擇中對參數的估計應自動實現系數的稀疏性,將一些不重要變量的系數壓縮為零;(2)無偏性,估計的參數值應該是無偏的或者近似無偏的;(3)連續性,參數估計與對應的數據應該是連續的,從而避免模型擬合的偏差與預測的不穩定性。套索算法(least absolute shrinkage and selection operator, LASSO)就是將接近于零的系數壓縮為零,實現模型的稀疏性指定[14]。由于傳統的cox比例風險模型只適用于變量數小于樣本量且變量間相互獨立或至少不能存在強相關的情況,將cox模型與LASSO方法結合起來,有助于拓展變量篩選時的數據維度。

對于安全獨立篩選算法(sure independence screening, SIS),它的思想主要是根據預測變量與因變量的相關強弱篩選重要變量[15]。SIS方法把每個特征獨立作為預測變量來決定其對因變量的預測作用大小,同時按照特征與因變量的邊際相關進行特征重要性的大小排序,選擇過濾掉與因變量的邊際相關弱的變量,從而實現對高維數據的降維與變量的篩選。SIS方法有安全篩選性質,能對超高維數據降維,且選擇的模型能夠保證以較高的概率包含真模型。在SIS方法的基礎上,演變出了迭代式安全獨立篩選算法(iterative sure independence screening, ISIS)[15]。ISIS更多地考慮關注自變量間的聯合信息,相比于SIS方法,ISIS的本質是迭代地使用一個大規模的變量篩選,隨后采用一個中等規模的成熟變量選擇方法篩選出重要自變量。

1.2.3評價指標

對于算法表現的評價,本研究選用了在以往研究中廣泛使用的4個指標:LR(likelihood ratio)、R2、CI(C-Index)和CS(log-rank chi-square statistic)[8,16]。4個指標作為算法模型估計效果的評價標準,均描述了模型的估計誤差。其中,LR與CS描述了模型的整體估計效果,越大模型的估計效果就越好;R2反映了模型能夠解釋變異信息的比例,R2越大,表示模型中自變量的解釋能力越強;CI表示模型的一致性,CI越大模型的一致性越好。本研究中,每個模擬試驗重復100次,以利用均值與標準差度量算法各自的性能表現。所有算法的網絡構建及性能評價均由R 4.0.0軟件實現。

2 結果

2.1 模擬實驗結果

3種未結合基于網絡降噪方法的算法CoxLASSO[17]、CoxLASSO-SIS和CoxLASSO-ISIS,在對帶有噪聲的高維基因表達數據進行生存風險基因篩選時,在模擬實驗的6種設置下,CoxLASSO-ISIS算法在模型的整體估計效果(LR和CS)、解釋信息的比例(R2)以及一致性(CI)上均表現最好,其次是CoxLASSO-SIS算法;當結合基于網絡的降噪方法后,3種算法CoxLASSO-N、CoxLASSO-SIS-N和CoxLASSO-ISIS-N的表現優劣順序保持不變,仍然是CoxLASSO-ISIS-N算法表現最優,其次是CoxLASSO-SIS-N算法;同時,與未結合基于網絡降噪方法的3種算法相比,模擬結果顯示,在對帶有噪聲的高維基因表達數據進行生存風險基因篩選時,結合基于網絡降噪方法的3種算法的表現更好且更可靠,且在模擬實驗的6種設置下,CoxLASSO-ISIS-N算法在所有6種算法中均表現最優,見表1。此外,將模擬實驗中所構建的降噪風險基因網絡可視化,見圖1。

圖1 降噪風險基因網絡的可視化

表1 6種算法各自性能的100次重復模擬實驗結果

2.2 實例分析結果

為了進一步驗證以上模擬實驗結果,本研究進行了真實數據的實例分析。在對基因數為21 156,樣本量為155的Burkitt淋巴瘤患者的基因表達數據進行生存風險基因篩選時,結果顯示算法CoxLASSO-ISIS-N在模型的整體估計效果(LR和CS)、解釋信息的比例(R2)以及一致性(CI)上,均優于算法CoxLASSO-ISIS、CoxLASSO-SIS-N以及CoxLASSO-SIS,這與模擬實驗結果一致;同時,CoxLASSO與CoxLASSO-N算法出現了異常于模擬實驗的結果,這2種算法均出現了在4種評價指標上優于其余4種算法的反常表現。見表2。由于所使用的真實數據的維度遠超模擬實驗中設置的數據維度,CoxLASSO與CoxLASSO-N算法已經無法實現在超高維基因數據下的生存風險基因篩選。

表2 6種算法各自性能真實數據結果

3 討論

在基因表達數據的獲取以及處理應用中,噪聲不可避免。噪聲的存在,影響了基因表達數據的可靠分析,特別地,對于數據驅動型研究而言,歪曲了基因與基因甚至相關表型之間的真實生物學關系,對后續基因篩選和基因網絡的構建造成嚴重干擾。

本研究側重于盡可能評估在6種不同場景下,6種算法對極高維低樣本的基因表達數據分析時性能的全面表現。本研究的結果初步表明,基于降噪風險基因網絡的生存風險基因篩選算法CoxLASSO-ISIS-N可以對帶有噪聲的高維基因表達數據實現降噪,從而更精確地篩選生存風險基因,較好地反映死亡或其他結局發生與高維基因表達數據之間的關系,為臨床診斷以及預后管理提供初步的依據。后續研究會積極擴大實例分析的表達數據種類,以求盡可能全面地了解6種算法的性能及可靠性。

此外,本研究模擬實驗與真實數據的實例分析結果均表明,構建無標度網絡可以較好地模擬基因網絡結構,可以用來有效地分析解釋基因之間的相互作用以及推斷生物學機制,這與以往的研究結論保持一致[18-20]。在降噪風險基因網絡的構建中,本研究假定網絡的層間結構為因果性質,即網絡兩層之間的連接為一般線性結構。雖然基因網絡兩層之間的聯系并非總是線性的,但是由于線性結構假定在數學運算分析上的可行、可及性,且已有研究顯示線性結構能夠有效地反映實際的生物學功能,因而,本研究依然采用了帶有線性結構關系的降噪風險基因網絡構建方式[21-24]。

本研究中真實數據的實例分析結果顯示,在對基因數為21 156、樣本量為155的Burkitt淋巴瘤患者的基因表達數據進行生存風險基因篩選時,CoxLASSO與CoxLASSO-N算法出現了異常于模擬實驗的結果。本研究分析出現這種現象的原因為:盡管CoxLASSO算法可以處理高維數據,但當數據呈現超高維情形時,即變量數遠遠大于樣本量,甚至出現變量數是樣本量的指數級別時,正如本研究所采用的真實數據一樣(基因數21 156遠遠大于樣本量155),此時,CoxLASSO算法由于計算的復雜性等原因而使得算法的有效性大大降低,并且由于CoxLASSO算法強制把某些變量系數設置為0,而實際上在未被選中的基因中很有可能還存在與生存結局相關的基因,這就會導致出現假陰性問題;同時,隨著維數的急劇增加,一些重要的變量可能與不重要的變量之間高度相關,從而使得變量選擇變得極其困難,CoxLASSO算法幾乎無法正確穩定地對超高維基因表達數據進行基因篩選。而這也與已有研究的結論一致[15,25]。

本研究存在的不足:由于本研究假定基因網絡兩層之間的聯系為線性連接,造成可能會低估真實世界中基因網絡的復雜程度;同時,本研究模擬實驗應該納入更多基因數、樣本量組合設置下的算法比較場景,以全面細致地評價基因表達數據各種維度下的算法表現;此外,后續研究有待分析更多真實數據,為疾病的診斷和治療提供依據。

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 九色综合伊人久久富二代| Jizz国产色系免费| 日本一区二区不卡视频| 欧美成人手机在线视频| 亚洲熟女中文字幕男人总站| 97国产精品视频自在拍| 国产成人盗摄精品| 精品国产自在在线在线观看| 最近最新中文字幕在线第一页| 国产理论一区| 亚洲精品国产成人7777| 国产91高跟丝袜| 国产色偷丝袜婷婷无码麻豆制服| 欧美日本在线一区二区三区| 六月婷婷综合| 国产激情在线视频| 五月婷婷综合网| 色男人的天堂久久综合| 精品自窥自偷在线看| 四虎影视无码永久免费观看| 国产在线97| 久久毛片基地| 人妻中文字幕无码久久一区| AV无码一区二区三区四区| 亚洲69视频| 免费一级无码在线网站| 美女潮喷出白浆在线观看视频| 久久久91人妻无码精品蜜桃HD| 午夜免费视频网站| 国产在线无码一区二区三区| 国内精自视频品线一二区| 国产青青操| 国产欧美精品专区一区二区| 久草热视频在线| 欧洲亚洲欧美国产日本高清| 毛片网站在线播放| 国产精品人莉莉成在线播放| 欧美在线视频不卡第一页| 无码AV日韩一二三区| 浮力影院国产第一页| 国产午夜精品鲁丝片| 天堂在线视频精品| 久久成人国产精品免费软件| 久久综合九色综合97婷婷| 午夜视频免费试看| 国产精品成| 精品国产www| 中文字幕久久波多野结衣| 欧美日韩成人在线观看| 亚洲视频影院| 2048国产精品原创综合在线| 亚洲码在线中文在线观看| 一本久道久综合久久鬼色| av在线5g无码天天| 激情在线网| 亚洲色偷偷偷鲁综合| 国产精品伦视频观看免费| 高清无码手机在线观看| 99re在线免费视频| 国产视频一二三区| 性欧美在线| 她的性爱视频| 91高清在线视频| 野花国产精品入口| 欧美一级视频免费| 精品一区二区三区自慰喷水| 国产成人AV男人的天堂| 中文字幕欧美日韩| 啦啦啦网站在线观看a毛片| 欧美另类图片视频无弹跳第一页| 久久国产精品嫖妓| 国产99在线| 国产亚洲精品精品精品| 欧美激情视频二区| 国产a网站| 久久精品国产国语对白| 国产午夜小视频| 欧美专区日韩专区| 成年A级毛片| 日本高清免费一本在线观看| 一级毛片在线免费视频| 国产精品久久久久久搜索|