999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可解釋性機器學習模型的重金屬暴露與卒中風險預測的研究

2024-05-14 00:10:06許冬劉聰慧蘇芳慧邱思崢童會霞
中國現代醫藥雜志 2024年3期
關鍵詞:特征模型研究

許冬 劉聰慧 蘇芳慧 邱思崢 童會霞

腦卒中是世界范圍內第二大死亡原因,也是致殘的主要原因之一[1]。由于人口老齡化,其發病率正在隨之增加。腦卒中的發病率和死亡率因國家、種族、區域不同而異,大多數腦卒中的風險因素是可控可防的,如高血壓、糖尿病、高脂血癥等[2],但也有其他難以改變的風險因素,如年齡、性別和遺傳等。針對相關危險因素的預防和治療措施在過去的數十年間顯著減少了腦卒中的發病率和復發率[3,4],因此持續探索腦卒中的相關風險因素與防控措施具有重要意義。近年來,重金屬污染被認為是心腦血管損害的一個危險因素而成為研究熱點,但是目前文獻中對重金屬和腦卒中的相關研究仍較少。

重金屬是自然界中廣泛存在的一類物質,與人體健康相關的尤以鉛(Pb)、汞(Hg)、鎘(Cd)等為代表,目前已有很多研究揭示了它們對人體健康產生的負面影響[5,6]。隨著全球工業化和城市化進程不斷加快,環境中富含這些重金屬物質的化合物污染與日俱增,中國也難以避免地受到重金屬污染的影響[7,8]。因此探索這些重金屬與腦卒中的關系,為預防腦卒中的發生發展提供新方向便顯得尤為重要。

本研究試圖通過機器學習識別模型的方法,分析人群中重金屬與腦卒中的相關性,將重金屬含量特征融入傳統的影響因素中,為利用血樣中重金屬含量評價腦卒中風險提供有效的科學依據。

1 材料與方法

1.1 研究人群本研究數據來自于美國國家衛生與營養檢查調查(National Health and Nutrition Examination Survey,NHANES)橫斷面研究。基于該橫斷面研究可以為公共衛生政策和干預提供新的方向和幫助,目前已有很多研究通過NHANES 探究心腦血管疾病的危險因素[9,10],但對重金屬含量和腦卒中風險的相關影響的研究仍較少。本研究選取了2009~2018 年調查統計的49 693 人的相關數據(https://www.cdc.gov/nchs/nhanes/)。按照研究設定排除標準:①沒有明確的關于是否患有腦卒中的結論;②未進行血液鉛(Pb)、鎘(Cd)、汞(Hg)和錳(Mn)含量的檢測;③年齡<20 歲;④缺少其他必要的相關問卷調查或實驗室檢查結果。最終本研究納入13 323 人。研究人群的基線特征見表1。

表1 NHANES 數據庫2009~2018 年調查人群中非腦卒中組與腦卒中組基線資料

NHANES 數據收集相關方案均已得到NCHS研究倫理審查委員會批準,所有參與者均同意并簽署書面知情同意書。

1.2 重金屬檢測方法首先進行樣本稀釋,對整個樣本進行混合(渦流)以使得細胞成分均勻分布,在稀釋樣品制備完成后,使用質譜法直接測量全血樣品中的鉛(Pb)、鎘(Cd)、汞(Hg)和錳(Mn)含量。

1.3 協變量的選擇收集協變量包括性別(男、女);年齡(歲);種族(墨西哥裔美國人、其他西班牙裔、非西班牙裔白人、非西班牙裔黑人和其他種族);糖尿病(是、否);高膽固醇血癥(是、否);高血壓(是、否);教育程度(高中以下、高中、大學及以上);家庭收入貧困比率。

1.4 數據預處理我們從NHANES 數據庫中下載提取出研究數據,從中選出和腦卒中相關的部分風險因素以及血液中重金屬的含量。通過觀察數據分布,可以得知按照腦卒中與否分類的數據集為不平衡數據集。因此,我們考慮使用隨機降采樣或合成少數類過采樣技術(Synthetic Minority Over-sampling Technique,SMOTE)的方法來平衡樣本的分布。但經過實驗發現該研究數據使用SMOTE 方法增加樣本數量有導致模型過擬合的趨勢,因此在本實驗中選擇隨機降采樣方法來平衡正負樣本數量。按照7:3的比例將重采樣后的樣本隨機劃分為訓練集和測試集,用以訓練和評估機器學習模型。

1.5 機器學習模型與shap 可解釋性選擇三種較有代表性的機器學習算法來構建模型,分別是支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)。SVM 算法可以對線性和非線性數據進行分類,首先將每個樣本映射到n 維特征空間,其中n 是特征的數量;然后,將樣本分為兩個類的超平面,同時最大化兩個類的邊緣距離并最小化分類誤差從而實現分類。RF 則是一種由許多決策樹組成的集成分類器,RF 的不同決策樹使用訓練數據集的不同部分進行訓練,最后通過決策樹投票或平均的方式給出結果。由于RF 算法考慮了許多不同的決策樹的結果,因此它可以降低考慮相同數據集的單個決策樹所產生的方差。GBDT 也是一種集成學習算法,與RF 不同的是它繼承了boosting 的方法,即通過串行訓練一系列的CART 回歸樹來優化損失函數。每一棵樹的訓練都是在之前所有樹預測結果的基礎上學習當前殘差,并根據負梯度方向來進行優化,從而得到最終的結果。

與此同時,想要正確解讀模型是一件重要且復雜的任務,我們選擇使用Shapley 加性解釋即shap值方法(Shapley additive explanations,shap),為預測模型中的每個特征提供一致且局部準確的加性特征歸因值[11]。對于每個預測樣本,模型都產生一個預測值,shap 值就是該樣本中每個特征所分配到的數值。計算shap 值按照如下公式定義:

1.6 統計學分析計量資料中呈正態分布的使用均數±標準差表示,并使用兩獨立樣本t檢驗進行組間比較;呈偏態分布的使用中位數和四分位數間距表示,并使用Wilcoxon 秩和檢驗進行組間比較。計數資料使用頻率與百分比表示,并使用卡方檢驗進行組間比較。P<0.05 為差異有統計學意義。為了評估機器學習模型的判別準確度,我們使用混淆矩陣計算每個模型的假陰性(FN)、假陽性(FP)、真陰性(TN)和真陽性(TP),計算準確度(Accuracy)、精確度(Precision)、敏感度(Sensitivity)、特異度(Specificity),并繪制計算受試者工作特征曲線(Receiver operating characteristic curve,ROC)和曲線下面積(Area under curve,AUC)。最后按照前述公式定義的shap 值方法繪制各特征在RF 模型中shap 值的散點圖、決策線圖以及熱圖,從而直觀地展示各特征對模型預測的貢獻度,增強模型的可解釋性。所有統計和作圖均使用python3.11.3 完成。

2 結果

2.1 腦卒中影響因素的單因素分析將患者按照是否患有腦卒中分為腦卒中組和非腦卒中組,單因素分析結果顯示:年齡、種族、教育程度、家庭貧困收入比、是否患有糖尿病、高血壓、高膽固醇血癥、全血中重金屬含量(鎘、鉛、錳、汞)兩組比較,差異均有統計學意義(P<0.001)。而性別因素在本研究人群的兩組中則差異無統計學意義(P>0.05),見表1。

2.2 各機器學習模型預測比較分析根據混淆矩陣我們使用以下評估指標來評判各模型的性能,由假陰性(FN)、假陽性(FP)、真陰性(TN)和真陽性(TP)可得:準確度=,精確度=,敏感度=,特異度=。

對三個機器學習模型的評估結果可以看出,SVM 在敏感度上略勝一籌,但其在準確度和特異度表現不佳。而GBDT 則僅特異度優于SVM,其他各項指標則表現不佳。RF 模型則在本數據集上有更為平衡的表現,其準確度、精確度、敏感度、特異度值分別達到了0.7580、0.7305、0.7625、0.7541,具有較為準確的預測和判別能力,見表2。

表2 各機器學習模型準確度、精確度、靈敏度、特異度

為了進一步對比三個機器學習模型總體的診斷效能,我們使用三個模型對每個樣本的預測概率值與樣本真實值繪制ROC 曲線,見圖1。可以看出RF 模型取得了最佳的AUC(0.8087)。

圖1 各機器學習模型的ROC 曲線

2.3 模型的可解釋性為了使得模型具有較強的可解釋性,我們以最優RF 模型為例,使用前述的shap值的方法并繪制圖像來直觀顯示RF 模型中各特征的重要程度,并以此解釋模型,見圖2。

圖2 基于shap 值繪制RF 模型各特征散點圖

為進一步觀察模型如何得到最終結果,我們隨機抽取80 個樣本繪制了shap 決策圖,見圖3,其中判斷錯誤的樣本決策線以虛線表示。

圖3 RF 模型shap 值決策圖

最后,我們抽取了500 個樣本的shap 值繪制了熱圖,來總體表征和說明模型對每個樣本的預測過程中特征使用程度,見圖4。

圖4 RF 模型shap 值熱圖

3 討論

本研究探討血液中重金屬含量與卒中的相關性,并嘗試以構建機器學習預測模型結合基于博弈論的shap 值的形式來分析卒中相關變量的相對重要性。機器學習模型的優點在于可自動選擇使用及組合一些特征,無需過多的人工干預即可達到較為泛化的識別和預測效果。可解釋性對于機器學習的研究來說至關重要,較高的可解釋性意味著模型的可控性較高,同時也更容易推廣至臨床。一些現代算法尤其是機器學習算法會使用成百上千甚至數百萬的高維特征來產生最佳預測結果,但這容易因此降低模型的可解釋性[12],從而使得模型無法得到進一步的研究和推廣。

我們通過構建三種不同算法類型的機器學習模型(隨機森林、支持向量機、梯度提升樹),從ROC圖以及AUC 值可以發現隨機森林模型表現最佳,我們選擇結合shap 值來增強其可解釋性。從shap值可以看出,在所有重金屬元素中,鉛的影響最大,較高的血鉛含量會增加模型預測為卒中的概率。鉛主要通過呼吸系統或消化系統吸收,然后會在骨骼、血液和器官(如腦、腎和肝臟)中蓄積[13]。近年來的研究認為,鉛的蓄積會導致活性氧引起的氧化應激增加、抗氧化能力的減低以及脂質過氧化的增加[14]。另有臨床研究表明,無論是較低還是較高的血鉛水平都會對血管產生不利影響,從而導致腦卒中等心血管疾病的風險增加[15]。血鎘含量在模型特征重要性上僅次于血鉛,Borné 等[16]的研究中,對4 156 名沒有腦卒中病史的受試者測量了血清鎘水平,患者平均隨訪16.7 年,其中221 例發生缺血性腦卒中,分析數據結果發現血清鎘濃度與腦卒中的發病率呈正相關。Chen 等[17]的研究則發現尿鎘濃度與缺血性腦卒中風險同樣存在正相關關系,這些都與本次研究結果相符。

對于錳元素而言,曾有病例報道1 名長期缺少防護的電焊工體內的高濃度錳使其表現出了神經毒性,并且出現了腦卒中相關癥狀[18]。但本研究中錳在機器學習模型的預測過程中貢獻值較低,尚無法得到較為充分的證據,因此其對腦卒中的影響仍需更大樣本及更長時間的觀察。

以往有研究表明,汞可能通過增加氧化應激、自由基的產生和血管炎癥的機制導致動脈粥樣硬化的形成[19,20]。但從本研究shap 散點圖可以看出,不同濃度血汞的分布對于模型的預測能力確實起到了一定的作用,但其貢獻分布方向與年齡和其他重金屬變量相反,說明高濃度的血汞含量與腦卒中呈現負相關,這與我們基于理論推測的預期并不相符。近年來也有相關研究支持這一結論,如Lin 等[21]的單中心獨立樣本研究發現,較高的血汞與尿汞水平和急性腦梗死的發生呈現負相關,但該研究存在單中心及樣本數量較小的缺點。另有研究表明[22],在女性人群中隨著血汞水平的升高,缺血性腦卒中發病率降低,并且在中低水平暴露程度人群中,未發現汞暴露與缺血性腦卒中相關聯的證據。值得注意的是,汞和腦卒中的因果關系尚無具體定論,還需要今后進一步研究。

目前關于血液重金屬含量與腦卒中的相關性仍需進一步研究,且未有利用機器學習構建血液重金屬含量對腦卒中的識別判斷的相關研究。本研究則較為創新地利用機器學習的方法并結合博弈論中shap 值的思路,構建出了圍繞血液重金屬含量與腦卒中相關性且具有高度可解釋性的機器學習模型。但本研究存在一定的不足,如由于數據來源為NHANES 數據庫,未能統計分析中國相關人群數據,之后我們將嘗試使用國內人群數據來進一步考察模型的泛化能力和驗證本次研究的結論。

本研究重點關注血液中重金屬含量與腦卒中的相關性,利用機器學習算法強大的判別和預測能力,結合博弈論中shap 值理論,構建出可解釋的腦卒中預測機器學習模型。基于本研究的結果,可以考慮拓展一些具有加速生物體內重金屬清除功能的螯合劑的作用域,為腦卒中的初級預防提供一些新思路。未來仍需要更大樣本的前瞻性研究,通過更為嚴謹的臨床研究前期設計,進一步闡明重金屬與腦卒中的相關關系。

猜你喜歡
特征模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
EMA伺服控制系統研究
抓住特征巧觀察
主站蜘蛛池模板: 天堂在线视频精品| 91成人免费观看| 三级国产在线观看| 婷婷色中文网| 国产黄色免费看| 婷婷伊人久久| 亚洲v日韩v欧美在线观看| 国产成人免费手机在线观看视频| 日本中文字幕久久网站| 久草视频一区| 福利小视频在线播放| 欧美成人区| 99偷拍视频精品一区二区| 米奇精品一区二区三区| 国产黄色片在线看| 亚洲视频黄| 欲色天天综合网| 首页亚洲国产丝袜长腿综合| 国产精品无码AV片在线观看播放| 久久亚洲国产视频| 亚洲日韩高清在线亚洲专区| 国产精品污污在线观看网站| 亚洲综合香蕉| 六月婷婷精品视频在线观看 | av在线手机播放| 国产精品亚洲综合久久小说| 亚洲国产日韩在线成人蜜芽| 亚洲精品无码高潮喷水A| 在线国产毛片手机小视频| 欧美伦理一区| 国产精品综合色区在线观看| 四虎免费视频网站| 国产成人久视频免费| 国产又粗又猛又爽| 国产69精品久久久久孕妇大杂乱| 国产在线观看一区精品| 一级毛片高清| 国产成人凹凸视频在线| 亚洲欧洲日韩久久狠狠爱| 午夜国产精品视频黄| 国产美女免费| 欧美精品一区在线看| 久久精品波多野结衣| 久久99这里精品8国产| 精品久久国产综合精麻豆| 亚洲视频四区| 国产日韩精品欧美一区喷| 久久久久久久久18禁秘| 国产三级国产精品国产普男人 | 无码av免费不卡在线观看| 少妇精品在线| 国产一级毛片在线| 国内99精品激情视频精品| 日本高清在线看免费观看| 999精品在线视频| 3D动漫精品啪啪一区二区下载| 国产成人h在线观看网站站| 国产高清不卡视频| 91在线播放免费不卡无毒| 动漫精品啪啪一区二区三区| 国产成人毛片| 国产黄网站在线观看| 亚洲天堂网在线视频| 综合色婷婷| 无码人妻免费| av一区二区三区高清久久| 一区二区三区高清视频国产女人| 一级黄色片网| 国产丝袜无码一区二区视频| 漂亮人妻被中出中文字幕久久| 国产精品自在拍首页视频8| 国产毛片不卡| 成色7777精品在线| 在线欧美一区| 亚洲天堂成人在线观看| 91午夜福利在线观看| 91在线国内在线播放老师| 久久国产成人精品国产成人亚洲| 亚洲床戏一区| 在线观看亚洲成人| 114级毛片免费观看| 白丝美女办公室高潮喷水视频|