








摘" 要: 為了準(zhǔn)確識別頸動脈斑塊的重要生物標(biāo)志物,在改進(jìn)生物標(biāo)志物所包含信息量的度量方法的基礎(chǔ)上,通過向前逐步回歸建立了基于變換AUC(Transformed area under curve)的頸動脈斑塊穩(wěn)定性預(yù)測模型。首先,在ROC(Receiver operating characteristic)空間提出變換AUC,并給出該指標(biāo)在雙正態(tài)分布模型和自由分布模型下的估計方法;然后,使用R統(tǒng)計軟件,對比分析變換AUC與AUC等常用評估指標(biāo)對非傳統(tǒng)生物標(biāo)志物的評估性能;最后,基于浙江醫(yī)院提供的影像數(shù)據(jù),利用變換AUC度量生物標(biāo)志物的信息量,使用向前逐步回歸篩選模型的方法建立高精度的頸動脈斑塊穩(wěn)定性預(yù)測模型。研究結(jié)果表明,該頸動脈斑塊穩(wěn)定性預(yù)測模型的AUC值達(dá)到0.9以上,能夠準(zhǔn)確識別斑塊的穩(wěn)定性,為臨床醫(yī)師對患者進(jìn)行個性化診療提供更精準(zhǔn)的參考依據(jù)。
關(guān)鍵詞: 變換AUC;向前逐步回歸;斑塊穩(wěn)定性;生物標(biāo)志物;模型篩選
中圖分類號: TP181;R445.2
文獻(xiàn)標(biāo)志碼: A
文章編號: 1673-3851 (2024) 04-0529-08
DOI:10.3969/j.issn.1673-3851(n).2024.04.012
收稿日期: 2023-11-16" 網(wǎng)絡(luò)出版日期:2024-04-12網(wǎng)絡(luò)出版日期
基金項(xiàng)目: 國家自然科學(xué)基金項(xiàng)目(12071436);浙江省基礎(chǔ)公益類項(xiàng)目(GF22H096743)
作者簡介: 李翔宇(1999—" ),男,山東臨沂人,碩士研究生,主要從事大數(shù)據(jù)分析、應(yīng)用統(tǒng)計方面的研究。
通信作者: 吳" 炯,E-mail:wujiong0118@aliyun.com
引文格式:李翔宇,楊建萍,吳炯. 基于變換AUC的頸動脈斑塊穩(wěn)定性預(yù)測模型[J]. 浙江理工大學(xué)學(xué)報(自然科學(xué)),2024,51(4):529-536.
Reference Format: LI Xiangyu, YANG Jianping, WU Jiong. A prediction model of carotid plaque stability based on transformed AUC[J]. Journal of Zhejiang Sci-Tech University,2024,51(4):529-536.
A prediction model of carotid plaque stability based on transformed AUC
LI Xiangyu1a, YANG Jianping1b, WU Jiong2
(1a.School of Computer Science and Technology; 1b.School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China; 2.Affiliated Zhejiang Hospital, Zhejiang University School of Medicine, Hangzhou 310000, China)
Abstract:" To precisely identify critical biomarkers of carotid plaques, a model for predicting carotid plaque stability based on the transformed area under curve (transformed AUC) using forward regression was built on the basis that the method for quantifying the information content within biomarkers was improved. Firstly, transformed AUC was introduced in the receiver operating characteristic (ROC) space, and the estimation methods were provided under the binormal distribution model and free distribution model, respectively. Then, R statistical software was used to compare and analyze the evaluation performance of transformed AUC index with common evaluation indices such as AUC for non-traditional biomarkers. Finally, a carotid plaque stability prediction model with high-accuracy was built by using transformed AUC to measure the information of biomarkers and stepwise forward regression based on image data provided by Zhejiang Hospital. These research findings illustrate that the AUC value of the carotid plaque stability prediction model is above 0.9, indicating the model can accurately identify the plaque stability and provide more precise reference to clinicians for personalized diagnosis and treatment decisions.
Key words: transformed AUC; forward stepwise regression; plaque stability; biomarker; model selection
0" 引" 言
腦卒中的發(fā)生已成為威脅人類生命安全的第二大原因[1]。醫(yī)學(xué)研究表明,20%~30%的腦卒中是由不穩(wěn)定的頸動脈斑塊引起[2]:不穩(wěn)定的頸動脈斑塊會導(dǎo)致頸動脈狹窄或阻塞,使腦部血供減少,進(jìn)而引起缺血性腦卒中。因此,如何準(zhǔn)確有效地評估頸動脈斑塊的穩(wěn)定性,對頸動脈斑塊患者實(shí)施針對性診治,已成為醫(yī)學(xué)研究中一個亟待解決的問題。
提取頸動脈斑塊的重要生物標(biāo)志物對于評估斑塊穩(wěn)定性至關(guān)重要。隨著影像學(xué)技術(shù)的飛速發(fā)展,利用頸動脈斑塊的影像數(shù)據(jù),使用AUC(Area under curve)、F1分?jǐn)?shù)(F1 score)等常用評估指標(biāo)度量生物標(biāo)志物所包含的信息量,已成為提取頸動脈斑塊重要生物標(biāo)志物的主要方法[3]。Saba等[4]利用頸動脈斑塊的CT測量值,使用二分類模型和AUC,發(fā)現(xiàn)斑塊密度變化值是評估頸動脈斑塊穩(wěn)定性的一個重要生物標(biāo)志物。李楊等[5]利用頸動脈斑塊的CTA測量值,使用假設(shè)檢驗(yàn)和AUC,發(fā)現(xiàn)斑塊的體積是評估頸動脈斑塊穩(wěn)定性的另一個重要生物標(biāo)志物。Lu等[6-7]利用頸動脈斑塊的MRI測量值,使用logistic回歸模型和F1分?jǐn)?shù),發(fā)現(xiàn)頸動脈斑塊的形狀和位置是評估頸動脈斑塊穩(wěn)定性的重要生物標(biāo)志物。目前,基于不同的常用評估指標(biāo)已得到一些重要的頸動脈斑塊生物標(biāo)志物,但在實(shí)際應(yīng)用中,僅僅使用這些重要生物標(biāo)志物識別頸動脈斑塊的穩(wěn)定性,精度仍比較低。
AUC、F1分?jǐn)?shù)和Cohen′s kappa統(tǒng)計系數(shù)等是對ROC曲線(Receiver operating characteristic curve)使用描述性統(tǒng)計分析方法得到的一些評估指標(biāo)[8-10]。ROC曲線是一個二維圖表,它以敏感度和特異性為變量,描述生物標(biāo)志物在不同決策閾值預(yù)測二元疾病結(jié)果的操作特征,ROC曲線所在的二維空間可稱作ROC空間[11-13]。若ROC曲線完全位于單位正方形內(nèi)的45°對角線上方,稱ROC曲線是有效的[14-15],此時相應(yīng)的AUC等評估指標(biāo)能準(zhǔn)確地度量生物標(biāo)志物所包含的信息量,且能夠精確地評估生物標(biāo)志物的重要性。然而,最近的一些醫(yī)學(xué)病理研究表明,醫(yī)學(xué)統(tǒng)計中常用的AUC等評估指標(biāo)存在著某些缺陷,無法精確地評估某些生物標(biāo)志物的重要性。如Bantis等[16]將肺表面活性蛋白B(ProSFTPB)作為肺癌標(biāo)志物進(jìn)行了臨床病理研究,發(fā)現(xiàn)ProSFTPB是肺癌的重要生物標(biāo)志物;但是該生物標(biāo)志物的ROC曲線是S型的,在醫(yī)學(xué)統(tǒng)計分析中,其AUC等常用評估指標(biāo)的值都很低,不能認(rèn)為是肺癌的重要生物標(biāo)志物。因此,為了能夠準(zhǔn)確評估生物標(biāo)志物的重要性,提高醫(yī)學(xué)分析時的準(zhǔn)確性,必須改進(jìn)目前醫(yī)學(xué)統(tǒng)計中評估生物標(biāo)志物重要性的方法。
本文首先在ROC空間中提出一種新的評估指標(biāo),即變換AUC(Transformed AUC),并提出其在雙正態(tài)分布模型和自由分布模型下的兩種估計方法;然后,利用R軟件對變換AUC在實(shí)際應(yīng)用中的性能與AUC等常用的評估指標(biāo)進(jìn)行對比分析;最后,利用ITK-SNAP軟件對浙江醫(yī)院提供的頸動脈斑塊的MRI影像數(shù)據(jù)進(jìn)行分割和特征提取,使用變換AUC度量頸動脈斑塊的生物標(biāo)志物所包含的信息量,篩選出重要生物標(biāo)志物,并結(jié)合向前逐步回歸,建立評估頸動脈斑塊穩(wěn)定性的最優(yōu)模型。本文提出的新指標(biāo)和篩選模型的新方法能夠有效應(yīng)用于實(shí)際決策者篩選重要生物標(biāo)志物,且能夠提高醫(yī)學(xué)分析時的準(zhǔn)確性。
1" 變換AUC及估計
1.1" 變換AUC
在醫(yī)學(xué)統(tǒng)計研究領(lǐng)域,一般生物標(biāo)志物分為傳統(tǒng)生物標(biāo)志物和非傳統(tǒng)生物標(biāo)志物。假設(shè)X0=[X|D=0]和X1=[X|D=1]分別是患病和健康受試者的生物標(biāo)志物的連續(xù)測試值,它們的密度函數(shù)分別為f(x)和g(x)。此生物標(biāo)志物患病總體和健康總體之間的密度函數(shù)曲線和ROC曲線存在兩種情況,示例分別如圖1和圖2所示。在生物標(biāo)志物的統(tǒng)計分析中,常把具有有效ROC曲線的生物標(biāo)志物稱為傳統(tǒng)的生物標(biāo)志物,而不滿足此條件的稱為非傳統(tǒng)生物標(biāo)志物。使用AUC以及一些常用的評估指標(biāo)通常不能有效地度量非傳統(tǒng)生物標(biāo)志物的信息量。例如,圖1中的非傳統(tǒng)生物標(biāo)志物具有很高的信息量,是一個重要的生物標(biāo)志物;但是它的ROC曲線不是有效的,對應(yīng)的AUC值接近于0.5,因此在醫(yī)學(xué)統(tǒng)計分析時,不能認(rèn)為該生物標(biāo)志物是重要生物標(biāo)志物。
本文針對非傳統(tǒng)生物標(biāo)志物ROC曲線的特征,提出了變換ROC曲線(Transformed receiver operating characteristic curve, TROC)和變換AUC。假設(shè)X0和X1的分布函數(shù)分別為F(x)和G(x),令u=F(x)或u=G(x),對任意的u∈(0,1),稱曲線
TROC(u)=G(F-1(u)),F(xiàn)-1(u)≥G-1(u);
F(G-1(u)),F(xiàn)-1(u)lt;G-1(u)
為變換ROC曲線;稱變換的ROC曲線與坐標(biāo)軸所圍的面積為變換AUC,記為A1。
顯然,當(dāng)F(x)沒有下穿G(x)時,變化的ROC曲線與原始的ROC曲線形狀相同,呈現(xiàn)凹形,此時生物標(biāo)志物的變換AUC值等于AUC值。當(dāng)F(x)下穿G(x)時,原始ROC曲線通常與單位正方形中的45°對角線存在多個交點(diǎn)。此時將45°線下方的ROC曲線部分對稱翻轉(zhuǎn)到45°線上方,得到變換ROC曲線。計算可知,生物標(biāo)志物的變換AUC值大于AUC值。因此,變換AUC可認(rèn)為是改進(jìn)的AUC。
對于任意的連續(xù)遞增非負(fù)有界函數(shù)ψ(x),有如下的非單調(diào)變換
h(x)=ψ(x),F(xiàn)(x)≤G(x);
-ψ(x),F(xiàn)(x)gt;G(x)(1)
可以使生物標(biāo)志物的變換AUC的值等于對它實(shí)施了非單調(diào)變換后的AUC的值,即A1=P(h(X0)gt;h(X1)),本文稱此非單調(diào)變換為H變換。
1.2" 雙正態(tài)分布模型下的變換AUC參數(shù)估計
在醫(yī)學(xué)生物標(biāo)志物的診斷識別中,很多生物標(biāo)志物是連續(xù)且服從雙正態(tài)分布的。為了使變換AUC能更好地應(yīng)用于醫(yī)學(xué)中重要生物標(biāo)志物的識別,本文首先提出了一種在雙正態(tài)分布模型下的變換AUC參數(shù)估計。
假設(shè)某一生物標(biāo)志物在患病受試者中的測試值X0~N(μ0,σ20),在健康受試者中的測試值X1~N(μ1,σ21)。此生物標(biāo)志物的變換AUC計算公式可表示為:
A1=∫x0-∞Φx-μ1σ1dΦx-μ0σ0+∫∞x0Φx-μ0σ0dΦx-μ1σ1,σ0lt;σ1;
∫x0-∞Φx-μ0σ0dΦx-μ1σ1+∫∞x0Φx-μ1σ1dΦx-μ0σ0,σ0gt;σ1;
1-Φμ1-μ0σ20+σ21,σ0=σ1,μ0gt;μ1;
Φμ1-μ0σ20+σ21,σ0=σ1,μ0≤μ1(2)
其中:x0=(σ0μ1-σ1μ0)/(σ0-σ1)為分布函數(shù)F(x)和G(x)的交點(diǎn),Φ(·)為標(biāo)準(zhǔn)正態(tài)分布函數(shù)。
假設(shè)X01,…,X0m是來自于總體X0樣本容量為m的樣本;X11,…,X1n是來自于總體X1樣本容量為n的樣本。令μ^0=m-1∑mi=1X0i,μ^1=n-1∑nj=1X1j,σ^20=m-1∑mi=1(X0i-μ^0)2,σ^21=n-1∑nj=1(X1j-μ^1)2。本文采用 x^0=(σ^0 μ^1-σ^1 μ^0)/(σ^0-σ^1)來估計分布函數(shù)F(x)和G(x)的交點(diǎn)x0,構(gòu)建雙正態(tài)分布總體下變換AUC A1的估計值A(chǔ)^1:
A^1=∫x^0-∞Φx-μ^1σ^1dΦx-μ^0σ^0+∫∞x^0Φx-μ^0σ^0dΦx-μ^1σ^1,σ^0lt;σ^1;
∫x^0-∞Φx-μ^0σ^0dΦx-μ^1σ^1+∫∞x^0Φx-μ^1σ^1dΦx-μ^0σ^0,σ^0gt;σ^1;
1-Φμ^1-μ^0σ^20+σ^21,σ^0=σ^1,μ^0gt;μ^1;
Φμ^1-μ^0σ^20+σ^21,σ^0=σ^1,μ^0≤μ^1(3)
因?yàn)棣蘜0、μ^1、σ^20、σ^21為μ0、μ1、σ20、σ21的極大似然估計,具有漸近相合正態(tài)性,而A1是μ0、μ1、σ0、σ1的連續(xù)可微函數(shù),因此A^1是A1的極大似然估計,也具有較高的估計效率。
1.3" 自由分布模型下變換AUC的非參數(shù)估計
考慮到在實(shí)際應(yīng)用中,也存在著連續(xù)但并不服從雙正態(tài)分布的生物標(biāo)志物。因此,本文還提供了自由分布模型下基于H變換的變換AUC非參數(shù)估計。滿足H變換條件的函數(shù)有很多,本文選取了一個特殊的H變換函數(shù),即:
h(x)=2Φ(x-μ0)I{F(x)≤G(x)}-Φ(x-μ0)(4)
其中:I{·}為示性函數(shù),E[X0]=μ0。
假設(shè)某一生物標(biāo)志物在患病受試者中的測試值為X0,在健康受試者中的測試值為X1。X01,…,X0m是來自患病總體X0樣本容量為m的一個簡單隨機(jī)樣本;X11,…,X1n來自健康總體X1樣本容量為n的一個簡單隨機(jī)樣本。令
Fm(x)=m-1∑mi=1I(X0i≤x),
Gn(x)=n-1∑nj=1I(X1j≤x)(5)
構(gòu)建H變換h的非參數(shù)估計:
h^(x)=2Φx-μ^0I{Fm(x)≤Gn(x)}-Φx-μ^0(6)
變換AUC的非參數(shù)估計為:
A^*=(mn)-1∑mi=1∑nj=1Ih^(X0i)gt;h^(X1j)(7)
由大樣本理論可知,當(dāng)樣本量m、n足夠大時,A^*也具有相合漸近正態(tài)性,估計效率同樣較高。
2" 變換AUC評估性能的仿真分析
為了說明本文所提供的變換AUC能夠準(zhǔn)確地度量生物標(biāo)志物所包含的信息量,本文設(shè)計了兩個仿真實(shí)驗(yàn),對比分析了變換AUC與醫(yī)學(xué)生物統(tǒng)計中常用的生物標(biāo)志物評估指標(biāo)AUC、F1分?jǐn)?shù)以及Cohen’s kappa統(tǒng)計系數(shù)在評估方面的性能。
第一個仿真實(shí)驗(yàn)假設(shè)生物標(biāo)志物服從正態(tài)分布,選取患病受試者生物標(biāo)志物的測試值X0~N(2,102),健康受試者生物標(biāo)志物的測試值X1~N(2.3,52)。假設(shè)X01,…,X0m是來自患病總體X0樣本容量為m的一個簡單隨機(jī)樣本;X11,…,X1n來自健康總體X1樣本容量為n的一個簡單隨機(jī)樣本。設(shè)定樣本容量(m,n)=(50,50),(100,100),(200,200),(500,500),(520,500),(800,800),(830,800)。變換AUC的值使用式(3)估計,采用經(jīng)典的參數(shù)估計方法估計AUC的值,采用常用的計算方法計算F1分?jǐn)?shù)和Cohen′s kappa統(tǒng)計系數(shù)的值。在不同樣本數(shù)量下均重復(fù)計算10000次,將計算結(jié)果的均值作為各指標(biāo)值,實(shí)驗(yàn)結(jié)果如表1所示。
變換AUC和AUC的取值范圍在0到1之間,取值越接近0.5,表示其評估性能越差;F1分?jǐn)?shù)的取值范圍在0到1之間,取值越接近1,表示其評估性能越好;Cohen′s kappa統(tǒng)計系數(shù)的取值在-1到1之間,取值越大,表示其評估性能越好。根據(jù)表1的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):用AUC、F1分?jǐn)?shù)以及Cohen′s kappa統(tǒng)計系數(shù)評估該生物標(biāo)志物的識別能力,得到的結(jié)果都是低識別能力生物標(biāo)志物;而變換AUC的估計值大于0.6,說明該生物標(biāo)志物具有一定的識別能力。顯然這是一個非傳統(tǒng)的生物標(biāo)志物,因此,相較于AUC等常用的評估指標(biāo),變換AUC能更準(zhǔn)確地度量非傳統(tǒng)的生物標(biāo)志物所包含的信息量,使用AUC等常用的評估指標(biāo)篩選生物標(biāo)志物時,該生物標(biāo)志物極有可能被遺漏。
第一個仿真實(shí)驗(yàn)的結(jié)果表明,在雙正態(tài)總體模型下,變換AUC比AUC等常用的指標(biāo)有更準(zhǔn)確的評估能力。第二次仿真實(shí)驗(yàn)對非雙正態(tài)總體模型下的變換AUC的評估性能進(jìn)行分析。選取患病受試者生物標(biāo)志物的測試值X0~N(2,42),健康受試者生物標(biāo)志物的測試值X1~F(4,2)。假設(shè)X01,…,X0m是來自患病總體X0樣本容量為m的一個簡單隨機(jī)樣本;X11,…,X1n來自健康總體X1樣本容量為n的一個簡單隨機(jī)樣本。設(shè)定樣本容量(m,n)=(50,50),(100,100),(200,200),(500,500),(520,500),(1000,1000),(1000,1200)。使用式(7)估計變換AUC的值,采用經(jīng)典的非參數(shù)估計方法估計AUC的值。不同樣本數(shù)量下均進(jìn)行10000次重復(fù)計算,將計算結(jié)果的均值作為各指標(biāo)值,實(shí)驗(yàn)結(jié)果如表2所示。
根據(jù)表2同樣可以發(fā)現(xiàn),相較于AUC等常用的評估指標(biāo),變換AUC能夠更準(zhǔn)確地度量非傳統(tǒng)的生物標(biāo)志物所包含的信息量。從這兩個仿真實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在實(shí)際應(yīng)用中使用本文所提出的變換AUC評估生物標(biāo)志物,可以防止重要生物標(biāo)志物被遺漏。
3" 頸動脈斑塊穩(wěn)定性評估的logistic回歸模型
3.1" MRI影像數(shù)據(jù)提取
本文使用的頸動脈斑塊MRI影像數(shù)據(jù)由浙江醫(yī)院提供。首先采用ITK-SNAP軟件讀取原始MRI影像數(shù)據(jù),并進(jìn)行圖像分割處理;圖像分割時,由于頸動脈斑塊同周圍組織的灰度相近,本文使用ITK-SNAP框選ROI(Region of interest),通過調(diào)整閾值屏蔽灰度值過高或過低的部分,再在符合選定閾值范圍內(nèi)的區(qū)域添加參考點(diǎn)。然后,使用ITK-SNAP自動選擇與參考點(diǎn)相連并且灰度相近的組織進(jìn)行標(biāo)注,在完成自動標(biāo)注后,對有明顯斑塊的區(qū)域進(jìn)行手動勾畫,去掉明顯沒有斑塊的部分。手動選取ROI及勾畫的過程在臨床醫(yī)師的指導(dǎo)下進(jìn)行,并經(jīng)過檢驗(yàn)與確認(rèn)。圖像ROI的選取及標(biāo)注示例圖像如圖3所示。
頸動脈斑塊MRI影像標(biāo)注完成以后,本文利用Python中的PyRadiomics庫對標(biāo)注區(qū)域進(jìn)行特征數(shù)據(jù)提取,共提取了107個生物標(biāo)志物,包括三維形狀特征(Shape-based)、一階統(tǒng)計量(First-order statistics)、灰度共生矩陣(Gray-level co-ocurrence matrix)、灰度游程矩陣(Gray-level run-length matrix)、灰度區(qū)域大小矩陣(Gray-level size-zone matrix)、灰階相關(guān)矩陣(Gray-level dependence matrix)和鄰域灰階差分矩陣(Neighboring gray tone difference matrix),使用F1,…,F(xiàn)107表示;然后根據(jù)病患的病歷信息,給每一個頸動脈斑塊MRI影像添加了標(biāo)簽,其中穩(wěn)定的頸動脈斑塊影像用D=1表示,不穩(wěn)定用D=0表示。共采集樣本141個,其中:斑塊穩(wěn)定的有35個樣本,不穩(wěn)定的有106個樣本。
3.2" MRI影像特征的描述性統(tǒng)計分析
為了有效地提取頸動脈斑塊穩(wěn)定性的重要生物標(biāo)志物,本文首先對每個生物標(biāo)志物按類進(jìn)行了描述性統(tǒng)計分析,主要包括計算各類生物標(biāo)志物的均值、標(biāo)準(zhǔn)差和偏度,同時進(jìn)行Shapiro-Wilk正態(tài)性檢驗(yàn),部分生物標(biāo)志物的計算結(jié)果如表3所示。根據(jù)計算結(jié)果把生物標(biāo)志物分為三類,分別是:第一類為類均值、方差具有較大的差異性且服從雙正態(tài)分布,第二類為類均值、方差的差異性較小且服從雙正態(tài)分布,第三類為不服從雙正態(tài)分布。對第一類生物標(biāo)志物,例如F6等生物標(biāo)志物,使用變換AUC度量這些生物標(biāo)志物的信息量時,本文建議使用雙正態(tài)分布模型下變換AUC的估計方法;對第二類生物標(biāo)志物,例如F2等生物標(biāo)志物,這些生物標(biāo)志物在進(jìn)行初篩時應(yīng)該去掉;對第三類生物標(biāo)志物,例如F5、F8等生物標(biāo)志物,建議使用自由分布模型下變換AUC的估計方法估計這些生物標(biāo)志物的變換AUC值。
3.3 "基于變換AUC的重要生物標(biāo)志物的篩選
基于描述性統(tǒng)計分析,對具有區(qū)分能力的生物標(biāo)志物,本文分別用AUC、F1分?jǐn)?shù)、Cohen′s kappa統(tǒng)計系數(shù)以及變換AUC評估它們的識別能力,部分結(jié)果如表4所示。從表4中可以看出,F(xiàn)3、F85等生物標(biāo)志物的變換AUC值和AUC值有明顯不同,且F1分?jǐn)?shù)均在0附近,Cohen′s kappa統(tǒng)計系數(shù)都接近-1,若使用AUC等常用的評估指標(biāo)來度量這些生物標(biāo)志物的信息量,則這些生物標(biāo)志物可能會被漏選;而這些生物標(biāo)志物的變換AUC值顯著大于0.65,表明變換AUC能較好地度量這些生物標(biāo)志物的信息量,可避免醫(yī)學(xué)篩選時重要生物標(biāo)志物被錯失。因此,本文建議在一般的醫(yī)學(xué)篩選生物標(biāo)志物時,使用變換AUC評估生物標(biāo)志物的信息量。
3.4" 頸動脈穩(wěn)定性預(yù)測模型的構(gòu)建
本文根據(jù)變換AUC建立一個高精度的頸動脈斑塊穩(wěn)定性預(yù)測模型,為了進(jìn)一步說明在醫(yī)學(xué)診斷識別中使用變換AUC的優(yōu)勢,本文還建立了基于AUC的頸動脈斑塊穩(wěn)定性預(yù)測模型,并進(jìn)行了對比分析。
本文分別使用AUC和變換AUC度量生物標(biāo)志的信息量,篩選出一些重要的生物標(biāo)志物,建立變量池。具體過程如下:a)把AUC值大于0.6的生物標(biāo)志物放入變量池Ⅰ,共51個生物標(biāo)志物;b)篩選出變換AUC值大于0.6的生物標(biāo)志物放入變量池Ⅱ,共105個生物標(biāo)志物。
為了快速找到基于AUC的最優(yōu)頸動脈斑塊穩(wěn)定性預(yù)測模型,本文將選用變量池Ⅰ,使用向前逐步回歸篩選模型的方法,并使用AIC(Akaike information criterion)值、AUC值度量模型偏差值,以說明預(yù)測模型的精度。具體的建模過程如表5所示。
對于變量池Ⅱ中的生物標(biāo)志物F,若其變換AUC值顯著大于AUC值,則對它按式(4)進(jìn)行H變換,變換后的生物標(biāo)志物用HF表示,將變換后的變量池Ⅱ記為變量池Ⅲ。為了快速找到基于變換AUC的最優(yōu)頸動脈穩(wěn)定性預(yù)測模型,本文使用變量池Ⅲ,采用了向前逐步回歸篩選模型的方法,并使用AIC(Akaike Information Criterion)值、AUC值度量模型的精度。具體的建模過程如表6所示。
由表5和表6發(fā)現(xiàn),基于變換AUC的最優(yōu)頸動脈斑塊穩(wěn)定性預(yù)測模型的精度顯著高于基于AUC的最優(yōu)頸動脈斑塊穩(wěn)定性預(yù)測模型,最重要的原因是:a)變量池Ⅱ中包含的有識別能力的生物標(biāo)志物顯著多于變量池Ⅰ,使用變換AUC評估生物標(biāo)志物的識別能力能有效地防止重要生物標(biāo)志物的遺漏;b)本文建議的非單調(diào)H變換能提高某些非傳統(tǒng)的生物標(biāo)志物的識別能力。因此,在實(shí)際應(yīng)用中,基于變換AUC評估生物標(biāo)志物的識別能力,對原始生物標(biāo)志物進(jìn)行非單調(diào)H變換,能提高醫(yī)學(xué)診斷模型的精度。
4" 結(jié)" 論
為了準(zhǔn)確評估頸動脈斑塊的穩(wěn)定性,本文在ROC空間提出了變換AUC及其在雙正態(tài)模型下的參數(shù)估計方法和自由分布模型下的非參數(shù)估計方法,有效解決了常用的AUC、F1分?jǐn)?shù)和Cohen′s kappa統(tǒng)計系數(shù)等評估指標(biāo)不能準(zhǔn)確度量非傳統(tǒng)生物標(biāo)志物的信息量的問題。實(shí)驗(yàn)研究表明,變換AUC能很好地度量非傳統(tǒng)生物標(biāo)志物的信息量,其值均在0.6以上,可以有效防止重要生物標(biāo)志物的遺漏。此外,基于變換AUC建立的醫(yī)學(xué)診斷預(yù)測模型,模型的AUC值達(dá)到了0.9以上,相較于傳統(tǒng)的模型篩選方法,具有更高的精度。
本文提出了高精度頸動脈斑塊穩(wěn)定性預(yù)測模型及其應(yīng)用過程,然而,對于變換AUC的估計問題,本文只提供了雙正態(tài)模型下的參數(shù)估計方法和自由分布模型下的非參數(shù)估計方法,且這兩種估計方法的準(zhǔn)確性和可靠性尚未進(jìn)行系統(tǒng)研究。此外,關(guān)于是否存在更有效的估計方法仍需進(jìn)一步研究。
參考文獻(xiàn):
[1]Micari A, Nerla R, Vadal G, et al. 2-year results of paclitaxel-coated balloons for long femoropopliteal artery disease: Evidence from the SFA-long study[J]. JACC Cardiovascular Interventions, 2017, 10(7): 728-734.
[2]Schmidt A, Piorkowski M, Grner H, et al. Drug-coated balloons for complex femoropopliteal lesions: 2-year results of a real-world registry[J]. JACC: Cardiovascular Interventions, 2016, 9(7): 715-724.
[3]王雪利, 崔志新, 呂文君, 等. 頸動脈斑塊的無創(chuàng)影像評價方法的研究進(jìn)展[J]. 承德醫(yī)學(xué)院學(xué)報, 2021, 38(2): 157-162.
[4]Saba L, Francone M, Bassareo P P, et al. CT attenuation analysis of carotid intraplaque hemorrhage[J]. AJNR American Journal of Neuroradiology, 2018, 39(1): 131-137.
[5]李楊, 查云飛. CTA評價頸動脈斑塊成分及體積與腦血管癥狀相關(guān)性[J]. CT理論與應(yīng)用研究, 2016, 25(5): 601-607.
[6]Lu M M, Cui Y Y, Peng P, et al. Shape and location of carotid atherosclerotic plaque and intraplaque hemorrhage: A high-resolution magnetic resonance imaging study[J]. Journal of Atherosclerosis and Thrombosis, 2019, 26(8): 720-727.
[7]Lu M M, Yuan F, Zhang L C, et al. Segment-specific progression of carotid artery atherosclerosis: A magnetic resonance vessel wall imaging study[J]. Neuroradiology, 2020, 62(2): 211-220.
[8]Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861-874.
[9]余昊,趙超群,楊建萍.基于密度比模型的pAUC半?yún)?shù)估計方法及其應(yīng)用[J/OL].(2023-03-01)[2023-11-21].http:∥kns.cnki.net/kcms/detail/33.1338.TS.20230331.0921.009.html.
[10]趙超群,余昊,楊建萍.正態(tài)總體決策曲線參數(shù)估計方法及其應(yīng)用[J].浙江理工大學(xué)學(xué)報(自然科學(xué)), 2023,49(3):379-387.
[11]王彥光, 朱鴻斌, 徐維超. ROC曲線及其分析方法綜述[J]. 廣東工業(yè)大學(xué)學(xué)報, 2021, 38(1): 46-53.
[12]王曼, 徐春燕, 施學(xué)忠. 醫(yī)學(xué)論文中ROC曲線應(yīng)用錯誤例析[J]. 編輯學(xué)報, 2019, 31(2): 159-161.
[13]何小梅, 王林曉. Logistic 模型和ROC曲線對替加環(huán)素致凝血異常的預(yù)測分析[J]. 中南藥學(xué), 2020, 18(9): 1577-1580.
[14]Zhou X H, Obuchowski N A, McClish D K. Statistical Methods in Diagnostic Medicine[M]. Hoboken: John Wiley amp; Sons, 2009:261-296.
[15]Zou K, Liu A, Bandos A, Ohno-Machado L, Rockette H. Statistical Evaluation of Diagnostic Performance: Topics in ROC Analysis[M]. Boca Raton: CRC Press, 2012:6-14.
[16]Bantis L E, Tsimikas J V, Chambers G R, et al. The length of the receiver operating characteristic curve and the two cutoff Youden index within a robust framework for discovery, evaluation, and cutoff estimation in biomarker studies involving improper receiver operating characteristic curves[J]. Statistics in Medicine, 2021, 40(7): 1767-1789.
(責(zé)任編輯:康" 鋒)