999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于甲基化位點的篩選建模診斷結直腸癌

2022-10-13 04:17:04薛春萌高潔李嘉樂李榮佳劉暢梁建偉
系統醫學 2022年15期
關鍵詞:差異分析模型

薛春萌,高潔,李嘉樂,李榮佳,劉暢,梁建偉

1.山東第一醫科大學第一附屬醫院(山東省千佛山醫院)健康管理學,山東省健康體檢工程實驗室,山東濟南 250000;2.山東第一醫科大學基礎醫學院,山東濟南 250000;3.山東省泰安市中心醫院普外科,山東泰安 271000

結直腸癌(colorectal cancer,CRC)作為消化系統好發癌癥之一,近年來在全世界范圍內發病率呈顯著上升的趨勢[1]。在我國,CRC的疾病負擔也較重,其呈現男性高發、高齡高發的總體趨勢[2]。臨床早期CRC患者常無明顯癥狀,易被忽視,發現時往往已進展至中晚期。結腸鏡下取組織活檢是CRC診斷的金標準。但該操作對患者造成損傷較大,患者配合度低,加之對醫療人員技術水平要求較高[3]。而目前已應用的CRC診斷的標志物在實踐過程中有一定局限性。糖類蛋白腫瘤標志物CA19-9缺乏器官特異性,對早期患者的敏感度僅為30%[4-5]。癌胚抗原(carcino-embryonic antigen,CEA)在CRC早期時陽性率較低,不易被檢測出[6-7]。因此,開發出特異性強靈敏度高、且創傷性小的診斷方式系當務之急。CRC的遺傳分析顯示CRC的發生源于基因突變和表觀遺傳變化的積累[8],特定基因甲基化水平的變化與CRC的發病階段以及患者預后相關[9]。甲基化標志物可在患者的血液、糞便和手術標本中檢測到[10],并且穩定性強、檢測簡便,在CRC診斷方面具有較大潛力。

由于近年來科研人員已經依據癌癥基因組圖譜數據庫(The Cancer Genome Atlas,TCGA)在多種腫瘤中發現了潛在的臨床標志物和治療靶點[11-13],2020年12月-2021年9月本研究應用機器學習(Machine Learning)的方法,利用TCGA數據庫中的結直腸癌27 K甲基化數據和臨床信息,運用SPSS分析與CRC不良預后有關的因素。應用Weka3-9-4建立起基于數個DNA甲基化位點的診斷模型,并在GEO數據庫(Gene Expression Omnibus)中獲取獨立數據集(GSE131013)來驗證模型,以期對臨床上CRC的早期診斷和預測提供幫助。現報道如下。

1 資料與方法

1.1 一般資料

在TCGA網站下載207例結直腸癌27 K甲基化測序數據和相關臨床資料。27 K甲基化數據包括169例結直腸癌組織(其中有5例資料缺失)和38例癌旁正常組織的CpG島基因位點的甲基化程度值。臨床隨訪數據包括169例CRC患者的社會人口學特征、臨床病理信息和隨訪時間。其中社會人口學特征包括年齡、性別、種族等信息,臨床病理信息包括腫瘤切除或活檢部位、腫瘤分期。本研究以年齡中位值72歲為閾值,將CRC患者分為高齡組和低齡組,各82例;以甲基化位點(cg24446548)Beta值的中位值0.783為閾值,將CRC患者分為高甲基化組(n=81)和低甲基化組(n=83)。stageⅠ,stageⅡ,stageⅡa,stageⅡb為CRC早中期,stageⅢ,stageⅢa,stageⅢb,stageⅢc,stageⅣ,stageⅣa為CRC晚期。見表1。

1.2 差異甲基化位點的篩選

使 用R3.1.0(http://www.cran.r-project.org/)中edger軟件包篩選差異甲基化位點。差異甲基化位點篩選的設定條件為:差異倍數(fold change,FC)>4或<0.4,P<0.05。FC即為兩組樣品間位點甲基化程度的比值,是表示差異倍數的變量。對篩選出的位點進行受試者操作特征(receiver operating characteristic,ROC)分析,使用SPSS軟件繪制受試者操作特征曲線(receiver operator characteristic curve,ROC曲線),計算曲線下面積(area under the curve,AUC),保留曲線下面積較大的12個位點,從而篩選出檢驗效能較大的位點;在篩選出的12個位點中選取檢驗效能最大的位點(cg24446548)和檢驗效能最小的位點(cg05345286)作ROC曲線圖。使用SPSS逐步回歸分析進一步篩選,篩選標準是P≤0.05進入模型,P≥0.1自動排除。

1.3 方法

結直腸癌診斷模型的構建方法。使用人工神經網絡(artificial neural network,ANN)、邏輯回歸(Logistic回歸)、支持向量機(support vector machine,SVM)3種方法建立模型。將逐步回歸篩選出來的位點導入Weka系統。為了提高計算效率,增強模型的穩定性和準確度,選用Discretize過濾器離散化的甲基化值,此時甲基化數據已被分為較均等的多個子空間[14],異常數據對模型的影響降低。接著使用ANN、Logistic回歸及SVM3種方法分別建立模型,并進行10折交叉驗證。10折交叉驗證即將數據集隨機分成10份,依次將其中9份作為訓練數據,1份作為測試數據進行試驗;取10次實驗結果的平均值作為模型的精確度估計,來進一步優化模型。

1.4 使用獨立數據集評估結直腸癌診斷模型的性能

為進一步驗證模型的預測能力,于GEO數據庫中下載GSE131013數據集。用數據集中的96例腫瘤組織樣本和144例正常組織樣本作為驗證集對ANN模型、Logistic模型、SVM模型分別進行測試。利用已建立的混淆矩陣和相關指標,選出診斷性能較優的模型。模型的分類預測效果用平均準確率、漏診率來評價。平均準確率較高且漏診率較低的模型診斷性能較好。同時使用特異度、靈敏度、AUC、Kappa值等指標來輔助評價模型。較大的AUC代表了較好的預測性能;Kappa>0.75,說明兩種診斷方法結果一致性較好。

1.5 統計方法

采用SPSS統計學軟件對CRC患者臨床隨訪數據進行統計分析。首先進行Kaplan-Meier(KM)生存分析,采用對數秩檢驗(Log-Rank法)比較不同組別患者生存率。然后采用多因素Cox回歸模型分析性別、年齡、腫瘤分期和位點甲基化程度對CRC患者預后的影響。同時,用相關性分析探究甲基化位點與年齡、腫瘤分期和基因表達量之間的相關性。相關系數反映其相關性,>0表示正相關,<0表示負相關。相關系數的絕對值,0~0.1為沒有相關性,0.1~0.3為弱相關,0.3~0.5為中等相關,0.5~1.0為強相關。P<0.05為差異有統計學意義。

1.6 分析結果的核實與補充

采用甲基化分析資源工具(shiny methylation analysis resource tool,SMART)分析位點的甲基化程度在結腸癌組織與癌旁組織之間有無明顯差異以及甲基化程度與基因表達量之間有無相關性。

2 結果

2.1 差異甲基化位點的篩選

采用R語言“edger”軟件包篩選出63個位點,其中logFC最大的18個位點和logFC最小的18個位點。見圖1。ROC分析篩選出了12個檢驗效能較大 的 位 點(cg00240432、cg05345286、cg06151165、

圖1 差異分析中logFC最大的18個位點和logFC最小的18個位點

cg08090772、cg13577076、cg14197923、cg15087147、cg17872757、cg18349835、cg22879515、cg24446548

和cg06744574)。見圖2。將篩選出的12個位點納入逐步回歸分析,篩選出6個位點(cg00240432、

圖2 甲基化位點cg24446548和cg05345286的ROC曲 線

cg06744574、cg08090772、cg13577076、cg17872757、cg24446548),這6個位點的甲基化程度在結腸癌組織與癌旁組織之間差異有統計學意義(P<0.05)。見圖3。

圖3 結腸癌的癌旁組織與癌癥組織的6個差異甲基化位點的Beta值分布

2.2 診斷模型的構建與評價

基于6個差異甲基化位點建立模型,結果見表1。SVM模型、ANN模型和Logistic回歸模型的平均準確率分別為99.5%、99.0%和98.0%。ANN模型(圖4)、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%。ANN模型、Logistic回歸模型和SVM模型AUC值分別為0.999、0.994和0.997。獨立數據集驗證結果見表2。ANN模型、Logistic回歸模型、SVM模型的準確率分別為92.9%、85.8%和91.2%,漏診率分別為7.1%、14.2%和8.8%。

表2 獨立數據集評估3種模型性能

圖4 基于6個甲基化位點的神經網絡模型

表1 10折交叉驗證評估3種模型的性能

2.3 影響CRC患者預后因素的生存分析

Log-Rank檢驗結果顯示男女兩性別之間的生存分析差異無統計學意義(P>0.05);以72歲(中位數)為界限數值分類時,高齡組(≥72歲)和低齡組(<72歲)生存分析差異無統計學意義(P>0.05)。高甲基化組與低甲基化組生存分析比較,CRC早中期與晚期的生存分析比較,差異有統計學意義(P<0.05)。將P<0.20的性別、年齡、腫瘤分期、和甲基化位點(cg24446548)納入Cox多因素分析,性別、年齡和甲基化位點對生存時間的影響無統計學意義(P>0.05);腫瘤分期對生存時間的影響有統計學意義(HR=4.423,P<0.05)。見圖5、表3。

表3 KM生存分析中的參數估計及Log-Rank檢驗結果

圖5 169例CRC患者臨床隨訪數據生存分析

2.4 相關性分析

相關性分析結果顯示,cg17872757與年齡呈現正相關(r=0.227,P<0.05)。甲基化水平與腫瘤分期無相關性(P>0.05)。為了探究位點甲基化程度與所在基因表達量的相關性,采用SMART對篩選出的6個差異甲基化位點進行相關性分析。甲基化程度與基因表達量具有一定相關性,其中,cg08090772甲基化程度與ADHFE1基因表達呈現負相關(r=-0.700,P<0.05);cg17872757甲基化程度與FLI1基 因 表 達 呈負 相 關(r=-0.410,P<0.05);cg06744574甲基化程度與BEND5表達呈負相關(r=-0.350,P<0.05)。

3 討論

DNA甲基化是表觀遺傳學的重要表現之一,是指在DNA甲基化轉移酶作用下,基因組CpG二核苷酸胞嘧啶的5’碳位與甲基基團共價結合[15]。CpG二核苷酸序列通常成串出現在DNA上,稱為CpG島,常出現在真核生物編碼基因的調控區。正常狀態下,啟動子中CpG島處于未甲基化狀態,CpG序列中出現C甲基化則可能會導致正常基因轉錄被抑制。Hu YH等[15]的研究顯示,ADHFE1在CRC組織中下調和高甲基化,ADHFE1的下調與CRC患者的分化差和晚期TNM分期相關。相關性分析結果表明:cg08090772高甲基化與其所在的ADHFE1基因低表達高度相關(r=-0.700,P<0.05)。ADHFE1基因的高甲基化可能會抑制基因的表達。

DNA甲基化異常已被發現是腫瘤發生過程中出現的最早分子事件之一,且在正常細胞向腫瘤細胞轉化的過程中就能被檢測到[16]。因此,基因異常甲基化的檢測在惡性腫瘤的早期篩查中具有潛在的應用價值。本研究利用TCGA數據庫中結直腸癌27 K甲基化數據,采用生物信息學數據的處理方法,篩選出了6個具有診斷CRC潛力的位點,其中cg24446548的高甲基化與CRC患者不良生存顯著相關(P<0.05)。然后通過機器學習的方法初步建立了基于6個甲基化位點的ANN、Logistic和SVM診斷模型。ANN模型、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%,AUC值分別為0.999、0.994和0.997,模型分類能力較好。3種模型均能夠根據現有數據建立起預測性能良好的模型。其中,ANN和SVM的分類和預測性能較佳。SVM模型的Kappa系數為0.984,MAE值為0.005,因而SVM模型診斷CRC的診斷一致性很高。而后通過GEO數據庫的獨立數據集進行驗證,進一步比較3種模型的診斷效果,結果同樣顯示ANN模型與SVM模型的分類和預測性能較優。Log-Rank檢驗結果表明:高vs低甲基化組和CRC早中期vs晚期的生存分析顯示差異有統計學意義(P<0.05)。因此,cg24446548位點的高甲基以及CRC晚期(Ⅲ、Ⅳ期)預示著患者的不良生存預后。Cox多因素分析結果表明,CRC晚期(Ⅲ、Ⅳ期)預示著CRC患者不良預后(HR=4.423,P<0.05),且晚期(Ⅲ、Ⅳ期)癌癥患者的死亡風險為早期(Ⅰ、Ⅱ期)患者死亡風險的4.423倍。

本研究的創新之處在于建立了準確率較高的CRC診斷模型。Hou PZ等[17]分別采用12個指標、4個指標和7個指標建立了3個SVM模型,分類準確率分別為76.7%、83.3%和90.0%,對CRC的診斷具有較高價值。Zhang B等[18]基于5個血清標志物CEA、CA199、CA242、CA125、CA153建立SVM和BP神經網絡模型,準確率分別為82.5%和75.0%。本研究基于6個甲基化位點建立的SVM模型分類準確率為91.2%,取得了較好的分類效果,同時具有較低的漏診率。

局限性:本研究篩選的甲基化位點建立的模型可以有效地診斷結直腸癌。位點所在的基因甲基化程度有待大樣本的實驗驗證或測序檢驗。由于目前測序成本較高,所以對該方法的推廣有一定限制。

綜上所述,流程篩選的6個甲基化位點,具有診斷結直腸癌的潛能;建立的ANN和SVM模型可以有效區分腫瘤組和癌旁正常組。cg24446548位點的高甲基化以及腫瘤晚期預示著不良生存預后。

猜你喜歡
差異分析模型
一半模型
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
找句子差異
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
生物為什么會有差異?
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久国产高潮流白浆免费观看| 免费国产无遮挡又黄又爽| 美女内射视频WWW网站午夜 | 专干老肥熟女视频网站| 91小视频版在线观看www| 久久精品aⅴ无码中文字幕| 99在线视频免费观看| 亚洲国产精品日韩欧美一区| 四虎永久免费地址在线网站| 欧美午夜在线播放| 久久99国产综合精品女同| 久久精品电影| 亚洲中文无码av永久伊人| 日韩精品无码不卡无码| 久久精品人人做人人爽97| 欧洲一区二区三区无码| 色爽网免费视频| 热99re99首页精品亚洲五月天| 国产一线在线| 国产一在线观看| 欧美翘臀一区二区三区| 欧美不卡二区| 亚洲av片在线免费观看| 亚洲成人免费在线| 538国产视频| 欧美色视频在线| 欧美a在线看| 国产激情无码一区二区APP | 国产中文一区a级毛片视频| 大乳丰满人妻中文字幕日本| 国产乱人免费视频| 伊人久热这里只有精品视频99| 在线一级毛片| 亚洲国产综合精品一区| 国产屁屁影院| 日本欧美精品| 国内黄色精品| 国产成人亚洲无吗淙合青草| 亚洲乱伦视频| 亚洲色图综合在线| 久久伊人操| 国产精品欧美在线观看| 久久久久88色偷偷| 漂亮人妻被中出中文字幕久久| 成人午夜天| 国产成人夜色91| 四虎永久在线精品国产免费| 久久亚洲高清国产| 国产无码精品在线| 亚洲中文字幕在线观看| 国产欧美日韩免费| 日韩东京热无码人妻| 成人精品免费视频| 亚洲天堂网视频| 亚洲人成网7777777国产| 午夜精品久久久久久久无码软件 | 久久久精品无码一二三区| 538精品在线观看| 久久精品这里只有精99品| 国精品91人妻无码一区二区三区| 国产丝袜啪啪| 亚洲va视频| 亚洲视屏在线观看| 丰满人妻中出白浆| 国产成人综合在线观看| 手机在线国产精品| 试看120秒男女啪啪免费| 国产欧美成人不卡视频| 国产屁屁影院| 三级视频中文字幕| 中文字幕在线观看日本| 中文字幕人成人乱码亚洲电影| 中美日韩在线网免费毛片视频| 色天堂无毒不卡| 九九香蕉视频| 一级毛片免费高清视频| 有专无码视频| 久久婷婷国产综合尤物精品| 99久久国产综合精品2023| 欧美在线导航| 亚洲a级在线观看| 老司机精品一区在线视频|