摘要:近年來,我國中老年人群中患有頸動(dòng)脈硬化的人占比逐漸增多,低齡化趨勢也越來越明顯,該疾病已成為導(dǎo)致中老年人死亡率上升的頭號(hào)危險(xiǎn)因素。超聲檢測作為頸動(dòng)脈硬化診斷的常用手段,可為診斷提供血流動(dòng)力學(xué)參數(shù)、回聲特征、斑塊厚度、長度等數(shù)據(jù),這重要數(shù)據(jù)不斷累積于醫(yī)院電子病歷數(shù)據(jù)庫中,而對它們的處理大多仍采用人工方式。因此,數(shù)據(jù)挖掘技術(shù)在輔助醫(yī)生進(jìn)行臨床診斷方面具有重要潛力。
關(guān)鍵詞:頸動(dòng)脈硬化斑塊;數(shù)據(jù)挖掘;XGBoost 算法;BP 神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP311" " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)07-0071-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
隨著我國經(jīng)濟(jì)水平的提高,人們的生活方式和飲食習(xí)慣發(fā)生了顯著變化,導(dǎo)致頸動(dòng)脈硬化等疾病的發(fā)病率不斷上升,且呈現(xiàn)出年輕化趨勢[1]。頸動(dòng)脈硬化是導(dǎo)致中老年人死亡率升高的頭號(hào)危險(xiǎn)因素,嚴(yán)重威脅著人們的正常生活與工作,對該疾病相關(guān)數(shù)據(jù)的處理有助于提升診斷效率,挖掘相關(guān)致病因素,為病人提供更加科學(xué)的診斷方案。然而,目前大多數(shù)醫(yī)院對醫(yī)療數(shù)據(jù)的處理仍停留在簡單的增刪改查和人工分析階段,缺乏對數(shù)據(jù)的深度挖掘和利用。大量高維數(shù)據(jù)的處理僅依靠人工分析不僅效率低下,而且容易出現(xiàn)誤差,難以滿足臨床診斷的需求。數(shù)據(jù)挖掘技術(shù)可以有效地識(shí)別數(shù)據(jù)中的潛在模式和關(guān)聯(lián)信息,為醫(yī)生提供更準(zhǔn)確、客觀的診斷依據(jù),輔助臨床決策。
1 頸動(dòng)脈硬化臨床檢測
頸動(dòng)脈硬化是臨床常見疾病,嚴(yán)重危害中老年人的健康。目前,臨床上常用的頸動(dòng)脈硬化檢測方法包括螺旋CT血管造影、超聲血管檢查和磁共振血管造影等。其中,超聲檢查從20世紀(jì)50年代就已經(jīng)產(chǎn)生,通過對超聲波的物理特性分析與研究和超聲波成像原理的運(yùn)用結(jié)合人體器官的生物學(xué)特征與病理特征,來觀測超聲信息在人體的器官形態(tài)和功能方面的表現(xiàn),以此來對某種疾病進(jìn)行診斷分析。而超聲作為一種具有無創(chuàng)性、實(shí)時(shí)、簡便以及檢查費(fèi)用低廉等優(yōu)點(diǎn)成為目前頸動(dòng)脈硬化診斷中應(yīng)用最廣泛的手段之一,超聲血管檢查的方式可以將體表大動(dòng)脈清楚地顯示出來,特別是對于頸動(dòng)脈血管壁的各種狀況的顯示[2],但受環(huán)境等因素的影響,超聲檢測所得數(shù)據(jù)也存在一定的錯(cuò)誤與冗余。如圖1所示,就是利用超聲血管檢查的方式展示出來某患者頸總動(dòng)脈血管內(nèi)的情況。
一個(gè)完整的頸動(dòng)脈超聲檢查不僅是對頸總動(dòng)脈的檢查,還對頸內(nèi)、頸外以及椎動(dòng)脈進(jìn)行相應(yīng)的檢查。通過超聲檢查可對頸動(dòng)脈所處位置、具體形狀、內(nèi)中膜厚度、呈現(xiàn)的大小以及血流的動(dòng)力學(xué)變化等情況做出檢測,其中血流動(dòng)力學(xué)信息對頸動(dòng)脈硬化斑塊的診斷有著重要作用,圖2所示為某頸動(dòng)脈硬化患者的血流信號(hào)頻譜圖。
頸動(dòng)脈狹窄現(xiàn)象的出現(xiàn)是因?yàn)橛邪邏K的形成,而頸動(dòng)脈血流動(dòng)力學(xué)信息也是隨著狹窄程度的不同而呈現(xiàn)不同的變化。臨床上,當(dāng)頸動(dòng)脈血管正常時(shí),多普勒超聲信號(hào)頻譜中所顯示的血流信息參數(shù),收縮期峰值流速通常在60~100 cm/s范圍內(nèi),舒張期末期流速小于40 cm/s。當(dāng)頸動(dòng)脈血管有異常現(xiàn)象出現(xiàn)時(shí),就是導(dǎo)致頸動(dòng)脈內(nèi)徑變小,包括頸內(nèi)動(dòng)脈以及椎動(dòng)脈,血管內(nèi)部變得迂回彎曲,血流過程中的阻力變大,血流量與正常血管相比有所減少,致使收縮期峰值流速、阻力指數(shù)、搏動(dòng)指數(shù)升高。國際上,頸動(dòng)脈狹窄通過2003年放射年會(huì)超聲會(huì)議上發(fā)表的準(zhǔn)則來進(jìn)行判斷,如表1所示。
由上文中關(guān)于舒張末期值Vmin點(diǎn)及收縮期的峰值流速Vmax點(diǎn)的定義可得到的是,Vmin和Vmax分別代表著最大頻率曲線上的最小值及最大值。同時(shí),對于頸動(dòng)脈的內(nèi)徑可由多普勒超聲血流信號(hào)頻譜來提供,單位可記作mm;TAMAX來表示平均血流速度,其值可定義為在一個(gè)周期內(nèi)血流速度的積分與心動(dòng)周期的時(shí)間之比,單位同樣記作cm/s;血流量記為CBF,單位是ml/min,指的是血管橫截面積在一個(gè)運(yùn)動(dòng)周期內(nèi)隨時(shí)間的變化;Vmax/Vmin即收縮期峰值流速與舒張末期值的比值,能夠體現(xiàn)血管阻力狀況的一項(xiàng)指標(biāo)即阻力指數(shù)RI與血管順應(yīng)性與彈性狀態(tài)的指標(biāo)搏動(dòng)指數(shù)PI。這些參數(shù)在一定程度上反映了頸動(dòng)脈血流狀況和狹窄程度,同時(shí)在對頸動(dòng)脈硬化斑塊疾病的診斷中也具有非常重要的含義[3]。
2 數(shù)據(jù)挖掘技術(shù)應(yīng)用
2.1 數(shù)據(jù)挖掘流程
數(shù)據(jù)挖掘?qū)儆谝环N適應(yīng)性綜合方法,可代表待選模型的反復(fù)產(chǎn)生過程,其中待選模型的復(fù)雜度處于逐漸增加的狀態(tài)。該方法的核心技術(shù)為GMDH,通過GMDH技術(shù)只需要完成初始輸入函數(shù)以及傳遞函數(shù)等的指定,即可從觀測樣本中自動(dòng)生成數(shù)據(jù)模型。為實(shí)現(xiàn)數(shù)據(jù)的深度挖掘,數(shù)據(jù)挖掘方法應(yīng)滿足3個(gè)核心條件。
1) 應(yīng)包含一個(gè)簡單的初始組織。
2) 可使組織產(chǎn)生突變的機(jī)制(該機(jī)制主要在訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上提出假設(shè)) 。
3) 該方法內(nèi)部應(yīng)包含一個(gè)選擇機(jī)制,將組織改善作為目標(biāo)進(jìn)行突變的評(píng)價(jià)。
通過數(shù)據(jù)挖掘?qū)崿F(xiàn)模型建立時(shí),首先應(yīng)將樣本數(shù)據(jù)劃分為訓(xùn)練集以及檢測集,其中訓(xùn)練集中存在的頸動(dòng)脈血流數(shù)據(jù)主要用于模型建立中,包括參數(shù)估計(jì)數(shù)據(jù)以及結(jié)構(gòu)綜合數(shù)據(jù)等:檢測集中包含的數(shù)據(jù)僅在選擇最優(yōu)復(fù)雜度模型時(shí)被使用,在模型建立過程中不被使用。數(shù)據(jù)挖掘算法實(shí)際上是一種對數(shù)據(jù)進(jìn)行分組處理的方法,由數(shù)據(jù)挖掘算法中的樣本數(shù)據(jù)可完成各項(xiàng)數(shù)據(jù)挖掘技術(shù)的本質(zhì)區(qū)分,數(shù)據(jù)挖掘算法整體流程如圖3所示[4]。
數(shù)據(jù)挖掘算法整體流程主要在領(lǐng)域理論的基礎(chǔ)上進(jìn)行實(shí)現(xiàn),其運(yùn)作流程為:首先利用先驗(yàn)信息對數(shù)據(jù)挖掘模型知識(shí)提取能力進(jìn)行整體提升,知識(shí)的提取主要通過數(shù)據(jù)和科學(xué)理論結(jié)合的方法實(shí)現(xiàn)。該方法在一定程度上對領(lǐng)域理論具有完善作用,將其應(yīng)用于頸動(dòng)脈硬化斑塊的診斷中,可向醫(yī)生提供獲取知識(shí)的方法或者新的理論范疇,有利于幫助醫(yī)生做出更加科學(xué)的診斷決策。
2.2 頸動(dòng)脈數(shù)據(jù)預(yù)處理
歷史數(shù)據(jù)的數(shù)量及質(zhì)量可直接決定頸動(dòng)脈硬化斑塊診斷模型的性能。傳統(tǒng)提取信息的方法,發(fā)生數(shù)據(jù)異常以及數(shù)據(jù)缺失等情況的概率極高,易受到外界因素以及人為等因素的影響,從而產(chǎn)生低精度或者失效的測量數(shù)據(jù),若將該數(shù)據(jù)直接應(yīng)用于診斷系統(tǒng)中,可造成系統(tǒng)整體性能的大幅度下降,最終無法保證預(yù)測的準(zhǔn)確性。并且頸動(dòng)脈硬化斑塊預(yù)測模型建立過程中,系統(tǒng)內(nèi)部各輸入變量之間相互影響程度較大。為保證系統(tǒng)對頸動(dòng)脈硬化斑塊診斷精準(zhǔn)性,應(yīng)對數(shù)據(jù)進(jìn)行預(yù)處理。
2.2.1 數(shù)據(jù)規(guī)范化處理
由于超聲檢測過程中產(chǎn)生的測量數(shù)據(jù)存在量綱不同的問題,若量綱不同可直接造成測量數(shù)值的差異性,從而引發(fā)數(shù)據(jù)范圍的不確定性。數(shù)據(jù)差異性的擴(kuò)大可直接影響頸動(dòng)脈硬化斑塊診斷模型的精準(zhǔn)性,使該模型的精度無法滿足臨床要求。為提升預(yù)測模型的預(yù)測精度,數(shù)據(jù)的范圍會(huì)被規(guī)范化。規(guī)范化方法是建立最小值與最大值之間的關(guān)聯(lián),將頸動(dòng)脈血流數(shù)據(jù)中大小、單位不相同的數(shù)據(jù)統(tǒng)一到一定范圍內(nèi),如公式(1) 所示[5]。
[χ'=χ-AminAmax-Amin×Lmax-Lmin+Lmin]" " " " "(1)
在公式(1) 中,隨機(jī)頸動(dòng)脈硬化患者的身體數(shù)據(jù)記作[χ],重新規(guī)劃后的值使用[χ']進(jìn)行表示。[Amax,Amin]分別代表源數(shù)據(jù)集中的最大值與最小值,二次規(guī)劃數(shù)據(jù)集中的最大值與最小值用[Lmax]和[Lmin]表示。
2.2.2 數(shù)據(jù)相關(guān)性分析
數(shù)據(jù)相關(guān)性分析是衡量兩個(gè)或多個(gè)變量之間關(guān)系強(qiáng)度和方向的重要統(tǒng)計(jì)方法,有助于理解變量間的相互影響。數(shù)據(jù)挖掘時(shí)采用的頸動(dòng)脈硬化樣本數(shù)據(jù)庫中存在較多變量,為保證系統(tǒng)可從大規(guī)模的數(shù)據(jù)集中挖掘出各變量之間的關(guān)聯(lián),采用降維的方法進(jìn)行樣本數(shù)據(jù)的確定。降維方法實(shí)際上是對各變量進(jìn)行預(yù)測,利用變量之間的相關(guān)結(jié)構(gòu)實(shí)現(xiàn)預(yù)測變量個(gè)數(shù)的減少。該方法主要有因子分析法,該方法為描述各變量之間的相關(guān)性,對變量相關(guān)系數(shù)的結(jié)構(gòu)進(jìn)行分析,以此找到可以反映全部變量中少數(shù)個(gè)變量。通常情況下少數(shù)變量屬于不可預(yù)測的變量,可將其稱之為因子。在相關(guān)性分析的基礎(chǔ)上,按照數(shù)據(jù)相關(guān)性的大小對變量進(jìn)行分組,有利于提高組內(nèi)變量的相關(guān)性,并降低不同組內(nèi)變量的相關(guān)性[6]。因子分析法的主要步驟如圖4所示。
2.3 常用數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法的選擇是數(shù)據(jù)挖掘流程中至關(guān)重要的一步,它們用于從大量數(shù)據(jù)中提取有價(jià)值的信息和模式。在眾多數(shù)據(jù)挖掘算法中,XGBoost和BP神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)和大規(guī)模數(shù)據(jù)處理領(lǐng)域的突出表現(xiàn)而受到廣泛關(guān)注。XGBoost在處理大規(guī)模數(shù)據(jù)集時(shí)具有更快的訓(xùn)練速度和更高的效率,通過集成多個(gè)決策樹來提高預(yù)測準(zhǔn)確性,而BP神經(jīng)網(wǎng)絡(luò)具有容錯(cuò)性高且強(qiáng)大的非線性映射能力,適用于解決復(fù)雜的預(yù)測和分類問題。頸動(dòng)脈硬化數(shù)據(jù)具有非線性、規(guī)模大且診斷模型需要有準(zhǔn)確的預(yù)測能力,且一定的容錯(cuò)性等特點(diǎn),因此這兩種算法適用于解決這類問題。
2.3.1 XGBoost
XGBoost是集成學(xué)習(xí)的一種實(shí)現(xiàn),通過組合多個(gè)模型的預(yù)測結(jié)果,來減少模型的偏差和方差,從而提高模型的泛化能,以獲得更準(zhǔn)確的預(yù)測[7]。XGBoost是一種高效、靈活且可擴(kuò)展的梯度提升決策樹算法。高效性體現(xiàn)在它采用了高效的列塊存儲(chǔ)結(jié)構(gòu)和高效的并行計(jì)算策略,使得訓(xùn)練速度比其他梯度提升算法快很多。靈活性表現(xiàn)為它支持自定義的損失函數(shù)和評(píng)估指標(biāo),這使得它能夠靈活地應(yīng)用于各種回歸、分類和排序任務(wù)。可擴(kuò)展性體現(xiàn)為可以在分布式計(jì)算環(huán)境中進(jìn)行訓(xùn)練,支持在多臺(tái)機(jī)器上處理大規(guī)模數(shù)據(jù)集。XGBoost在數(shù)據(jù)挖掘領(lǐng)域的實(shí)際應(yīng)用中有著不俗的表現(xiàn)。XGBoost的工作原理可以概括為以下步驟。
1) 初始化模型:XGBoost首先構(gòu)建一個(gè)簡單的初始模型,通常為單個(gè)決策樹。
2) 迭代構(gòu)建弱學(xué)習(xí)器:XGBoost使用梯度提升方法迭代地構(gòu)建決策樹。在每輪迭代中,它計(jì)算訓(xùn)練樣本的梯度和二階導(dǎo)數(shù),并根據(jù)這些信息構(gòu)建一個(gè)新的決策樹,用于擬合殘差。
3) 優(yōu)化弱學(xué)習(xí)器權(quán)重:XGBoost使用線性搜索方法為新的決策樹找到最佳的權(quán)重,以便再將其添加到當(dāng)前模型后最小化目標(biāo)函數(shù)值。
4) 更新模型:將新決策樹及其權(quán)重添加到當(dāng)前模型中,然后更新模型的預(yù)測值。
5) 終止條件:當(dāng)達(dá)到預(yù)設(shè)的迭代次數(shù)、目標(biāo)函數(shù)收斂或無法進(jìn)一步降低目標(biāo)函數(shù)值時(shí),算法停止迭代。
2.3.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)算法主要包含輸入層、隱含層以及輸出層,其信號(hào)傳遞流程為:通過輸入層對輸入信號(hào)進(jìn)行輸出,使其經(jīng)過隱含層到達(dá)輸出層。BP神經(jīng)網(wǎng)絡(luò)算法的拓?fù)浣Y(jié)構(gòu)如圖5所示。
模型建立的主要步驟共分為8個(gè)步驟[8]:①首先應(yīng)完成BP算法中輸入輸出閾值、權(quán)值以及學(xué)習(xí)速率等變量的初始化,該算法的數(shù)據(jù)列為[(x,y)]。
②結(jié)合輸入變量[x]、連接權(quán)值以及閾值對隱含層的輸出進(jìn)行計(jì)算,其公式為:
[Hj=f(i=1nωijxi-aj)j=1,2,...,l]" " " " "(2)
式中:H代表的含義為BP神經(jīng)網(wǎng)絡(luò)算法的輸出;[l和f]代表的含義為隱含層的節(jié)點(diǎn)數(shù)和激勵(lì)函數(shù),激勵(lì)函數(shù)的公式為:
[f(x)=11+e-x]" " " " " " " " " " (3)
③完成BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測值[O1]的計(jì)算,預(yù)測值[O1]的公式為:
[O1=j=1lHjωj1-b1]" " " " " " " "(4)
④結(jié)合預(yù)測輸出值[O]以及實(shí)際輸出值[y]對該網(wǎng)絡(luò)的誤差[e]進(jìn)行計(jì)算,誤差公式為:
[e1=y-O1]" " " " " " " "(5)
⑤實(shí)現(xiàn)對權(quán)值的更新。
[ωij=ωij+ηHj(1-Hj)x(i)ωj1e1i=1,2,...n;j=1,2,...lωj1=ωj1+ηHje1j=1,2,...l] (6)
式中:[η]代表的含義為學(xué)習(xí)率。
⑥對節(jié)點(diǎn)閾值[a和b]進(jìn)行更新,其公式為
[aj=aj+ηHj(1-Hj)ωj1e1j=1,2,...lb1=b1+e1]" " (7)
⑦判斷BP神經(jīng)網(wǎng)絡(luò)算法是否迭代結(jié)束,若系統(tǒng)仍處于迭代中,應(yīng)返回步驟②。
⑧完成BP神經(jīng)網(wǎng)絡(luò)模型的仿真校驗(yàn),通過上述公式對模型的命中率進(jìn)行計(jì)算。
3 結(jié)束語
利用數(shù)據(jù)挖掘技術(shù)對頸動(dòng)脈硬化斑塊進(jìn)行診斷中首先使用儀器對頸動(dòng)脈進(jìn)行超聲檢查,從而獲取頸動(dòng)脈的斷面圖像;然后對頸動(dòng)脈超聲圖像進(jìn)行分析,測量頸動(dòng)脈斑塊質(zhì)地指標(biāo)。根據(jù)測量結(jié)果,對各項(xiàng)指標(biāo)進(jìn)行規(guī)范化分析和相關(guān)性選擇,進(jìn)而評(píng)估頸動(dòng)脈的硬化程度。然后利用BP算法、XGBoost等數(shù)據(jù)挖掘算法建立頸動(dòng)脈硬化斑塊診斷模型,并對所建立模型對比分析、優(yōu)化,幫助醫(yī)生判斷患者的動(dòng)脈硬化程度,評(píng)估患者的心血管風(fēng)險(xiǎn)。
參考文獻(xiàn):
[1] 黃慶暉,廖海星,李飛奉,等.頸動(dòng)脈斑塊形成與血壓變異性的關(guān)系[J].實(shí)用醫(yī)學(xué)雜志,2013,29(9):1426-1429.
[2] 王穎.彩超對頸動(dòng)脈硬化斑塊診斷的臨床價(jià)值分析[J].中國處方藥,2014,12(9):104-105.
[3] 黃宇玲,王志軍,劉雪梅,等.中老年人群高靜息心率對頸動(dòng)脈斑塊檢出率的影響[J].中華流行病學(xué)雜志,2014,35(9):1053-1057.
[4] 潘昌霖.臨床醫(yī)學(xué)中數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[D].北京:中國人民解放軍醫(yī)學(xué)院,2021.
[5] 嚴(yán)武軍,孫志其.基于數(shù)據(jù)挖掘的聚類分析算法研究及應(yīng)用[J].太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2023,22(1):53-57.
[6] 何志明,吳夢蝶,李顯峰.數(shù)據(jù)挖掘概述[J].中外企業(yè)家,2019(33):234.
[7] 鄭雯麗.基于XGboost算法的缺血性腦卒中復(fù)發(fā)預(yù)測模型構(gòu)建[D].貴州:遵義醫(yī)科大學(xué),2021.
[8] 李潔潔,張雁儒,李昊,等.機(jī)器學(xué)習(xí)在腦卒中預(yù)測中的研究進(jìn)展[J].河南醫(yī)學(xué)研究,2022,31(20):3832-3835.
【通聯(lián)編輯:梁書】