999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于密度比模型的pAUC半參數估計方法及其應用

2024-12-31 00:00:00余昊趙超群楊建萍
浙江理工大學學報 2024年11期

摘 要: 為了進一步提高pAUC(Partial area under curve)估計精度和醫學診斷測試精確性,提出了一種基于密度比模型的pAUC半參數估計方法,并從理論和仿真兩個方面研究其性質。首先,根據密度比模型,用半參數極大似然估計方法得到了pAUC半參數估計量,并用大樣本理論分析了它的統計性能;然后,對pAUC半參數估計方法在實際應用中的性能進行了仿真,并與現有精度較高的pAUC非參數估計方法進行比較。研究發現,pAUC半參數估計量不僅具有相合漸近正態性等重要的統計性質,而且比已有的非參數pAUC估計量具有更高的漸近估計效率和精確度。將該pAUC半參數估計方法應用于乳腺癌診斷模型的篩選,得到了一個預測精度更高的新乳腺癌診斷模型,結果表明該方法在實際應用中能提高醫學診斷測試的精度。

關鍵詞: pAUC;半參數估計;密度比模型;漸近正態性;醫學診斷

中圖分類號: O212.1

文獻標志碼: A

文章編號: 1673-3851 (2024)11-0867-09

引文格式:余昊,趙超群,楊建萍. 基于密度比模型的pAUC半參數估計方法及其應用[J]. 浙江理工大學學報(自然科學),2024,51(6):867-875.

Reference Format:" YU" Hao,ZHAO Chaoqun,YANG Jianping. A semi-parametric estimation method for pAUC based on the density ratio model and its application[J]. Journal of Zhejiang Sci-Tech University,2024,51(6):867-875.

A semi-parametric estimation method for pAUC based on the density ratio model and its application

YU Haoa, ZHAO Chaoquna, YANG Jianpingb

(a.School of Computer Science and Technology; b.School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China)

Abstract:" In order to further improve the estimation accuracy of pAUC (partial area under curve) and the accuracy of medical diagnosis tests, a semi-parameter estimation method of pAUC based on density ratio model is proposed, and its properties are studied from both theoretical and simulation aspects. Firstly, according to the density ratio model, the semi-parametric maximum likelihood estimator of pAUC is obtained based on the semi-parametric maximum likelihood estimation method, and its statistical performance is analyzed by using the large sample theory. Then, the performance of the pAUC semi-parametric estimation method in practical application is simulated and compared with the existing non-parametric estimation method in term of accuracy. It is found that not only the semi-parametric pAUC estimator has important statistical properties such as consistent asymptotic normality, but also it has higher asymptotic estimation efficiency and accuracy than the existing nonparametric pAUC estimator. The semi-parameter estimation method for pAUC is applied to the screening of breast cancer diagnosis models, and a new breast cancer diagnosis model with higher prediction accuracy is obtained. The result shows that the proposed method can improve the accuracy of medical diagnosis tests in practical applications.

Key words: pAUC; semi-parametric estimatior; density ratio model; asymptotic normality; medical diagnosis

0 引 言

ROC曲線(Receiver operating characteristic curve)是在測試數據集下,根據不同閾值計算所得的結果,以假陽率(False positive ratio, FPR)為橫坐標、真陽率(True positive ratio, TPR)為縱坐標構成的圖形[1]。令X和Y分別表示患病總體和未患病總體,其分布函數分別為F(x)和G(x),對應的ROC曲線為{(p,R(p)),p∈(0,1)},其中R(p)=G(F-1(p))。研究人員常計算ROC曲線下的全部面積AUC(Area under curve)來評估診斷測試的準確性[2-4]。在某些疾病的醫療診斷中,FPR須保持在較低水平,此時醫生只需關注這部分ROC曲線下的面積,這部分ROC曲線下的面積稱為pAUC[5]。若FPR取值在區間[p0,p1]內,對應的pAUC定義為:

Ap0,p1=∫p1p0R(p)dp,0≤p0lt;p1≤1(1)

顯然,當p0=0、p1=1時,pAUC就退化為AUC,即AUC是pAUC的一種特殊情況。因此使用pAUC來描述醫學診斷測試的性能比AUC更合適。目前,pAUC已被廣泛應用于醫療診斷[6-7]。

近年來,如何有效地估計pAUC已成為應用統計學研究的一個熱點。一些統計研究者使用完全參數估計方法對pAUC進行估計,得到了許多有理論價值的研究成果。比較有代表性的是McClish等[8]和Thompson等[9]提出的雙正態模型假設下的pAUC參數估計方法。但是,Walsh[10]認為他們的參數估計方法過度依賴于分布模型的假設,使得該pAUC參數估計在實際應用中的魯棒性較差。因此,有統計研究者使用非參數估計方法對pAUC進行了估計,得到了許多有應用價值的成果,比較有代表性的是Dodd等[11]提出的pAUC非參數估計方法和Qin等[12]提出的基于經驗似然比的pAUC非參數估計方法。這兩種pAUC的非參數估計量都具有良好的相合漸近正態性,Qin等[12]還提供了pAUC非參數估計量漸近方差的顯式表達式。眾所周知,非參數估計方法在實際應用中的魯棒性雖好,但缺乏針對性,尤其是當所推斷的總體的部分信息已知的條件下,非參數估計方法的精度就不是很理想。因此,為了彌補pAUC參數估計方法魯棒性不足和pAUC非參數估計方法針對性不強的局限性,本文提出用半參數估計方法對pAUC進行估計。

在生物醫學統計中,絕大部分生物鑒別指標或診斷測試都用密度比模型來建模。因此,本文提出了一種基于密度比模型的pAUC半參數估計方法。首先,基于半參數極大似然估計得到pAUC半參數估計量,并研究該估計量的大樣本性質及其區間估計方法;其次,用R軟件對該pAUC半參數估計方法的性能進行仿真分析,并與Qin等[4]提出的pAUC非參數估計方法進行比較;最后,將提出的pAUC半參數估計方法用于乳腺癌診斷模型的篩選,以說明該方法在實際應用中的過程與價值。

1 pAUC的半參數估計及置信區間

1.1 F(x)和G(x)的半參數估計

令D=1與D=0分別表示樣本患病和未患病兩種狀態。對于給定的樣本值Z=x,標準的邏輯回歸模型如下:

PD=1Z=x=expα*+βTr(x)1+ρexpα*+βTr(x),

其中:α*為標量參數,β為p×1的向量參數,r(x)為p×1的關于樣本值x的函數向量。基于標準邏輯回歸模型可得,F(x)=PZ≤xD=1,G(x)=PZ≤xD=0。令f(x)和g(x)分別表示F(x)和G(x)的密度函數,Qin等[13]提出了如下密度比模型:

f(x)g(x)=expα+βTr(x)(2)

其中:α=α*+log{P(D=0)/P(D=1)},g(x)未知,且expα+βTr(x)的值由未知參數α和βT決定。密度比模型一經提出就在統計學中引起了廣泛關注,如Wang等[14]使用該模型得到了一個具有相合漸近正態性的AUC半參數估計量,并構造了AUC的半參數置信區間。

從患病總體和未患病總體中分別抽取容量為m1和m2的樣本X1,X2,…,Xm1和Y1,Y2,…,Ym2,x1,x2,…,xm1和y1,y2,…,ym2為相應的樣本觀測值。在密度比模型中,用半參數極大似然估計法對總體F(x)和G(x)進行估計。Qin等[15]通過拉格朗日乘數法對以下帶約束的半參數似然函數進行最大化:

為確保研究的可靠性,進行兩次不同分布族、樣本大小的仿真實驗,并令兩次仿真中的(m1,m2)=(40,40),(80,80),(120,120),(40,120)。第一次仿真中,選擇N(2,4)為患病總體的分布函數、標準正態分布N(0,1)為未患病總體的分布函數,用R軟件從患病總體和未患病總體中抽取1000組規模分別為m1、m2的隨機樣本。令(p0,p1)=(0,0.9),(0.1,0.9),(0.3,1),構造置信水平為95%的pAUC置信區間:NAⅠ、NAⅡ、LTⅠ及LTⅡ。第一次仿真結果記錄在表1和表2中。

在第二次仿真中,選擇Γ(3,2)為患病總體的分布函數、Γ(2,0.5)為未患病總體的分布函數,用R軟件從患病總體和未患病總體中抽取1000組規模分別為m1、m2的隨機樣本。令(p0,p1)=(0,0.95),(0.1,0.9),(0.3,1),構造置信水平為95%的pAUC置信區間:NAⅠ、NAⅡ、LTⅠ及LTⅡ。第二次仿真結果記錄在表3和表4中。

由表1和表2中的數據可知,在控制區間可靠度的條件下,4種pAUC置信區間的可靠度都比較接近于95%,但NAⅠ與LTⅠ的精確度較高。此外,表3和表4中的數據也表明NAⅠ與LTⅠ的精確度較高。因此,在控制可靠度的條件下,本文提出的pAUC半參數估計方法構造的pAUC區間性能,較pAUC非參數估計方法有更高的精確度。

3 應用分析

pAUC半參數估計方法在實際應用中可用于篩選高鑒別能力的生物指標物。本文通過一個乳腺癌診斷模型篩選實例來說明。乳腺癌是乳腺上皮細胞在多種致癌因子的作用下,發生增殖失控進而惡變的一種現象;乳腺癌會引起多器官病變,直接威脅患者的生命,是威脅女性健康較嚴重的惡性腫瘤之一。因此,為臨床醫生提供高鑒別能力的乳腺癌診斷模型,以便患者在早期診斷中得到正確診斷和有效的治療,顯得尤為重要。

令B=A~p0,p1/L,p0、p1分別取0.3、1,L為基于pAUC半參數估計方法得到的pAUC半參數區間長度,本文稱B為相對AUC,B值越高說明此診斷方法的精度越高。

本文應用的數據集是Mangasarian等[20]創建的乳腺癌診斷(Wisconsin prognostic breast cancer, WPBC)數據集。該數據集中共有47個患病樣本和151個未患病樣本,包含的生物指標有32個,如Radius_mean、Area_se等。為便于結果記錄和文字說明,本文使用V1,…,V32來表示這32個生物指標物。

為了快速篩選出一個診斷效果較好的乳腺癌診斷模型,本文通過向前逐步篩選[21]和B相結合的方法,主要過程如下:首先,讀取數據集并對其進行預處理;然后,從變量池中選出一個B值最高的變量放入模型中,計算剩余變量池中各變量與模型中變量的Pearson相關系數,將相關系數絕對值大于0.3的變量剔出變量池;最后,從變量池中篩選能夠提高模型B值的變量,直到加入任何變量都不能提高模型的B值。此外,本文也將AUC和向前逐步篩選方法相結合來選取乳腺癌診斷模型,過程同上。

基于B值的向前逐步篩選和基于AUC的向前逐步篩選模型的結果分別見表5和表6。每一步添加到模型中的生物指標物,記錄在生物指標物編號列中。

表5—表6表明,基于B和向前逐步篩選方法構造的乳腺癌模型(模型1)與基于AUC和向前逐步篩選方法構造的乳腺癌模型(模型2)中的生物指標物不完全相同。模型1中有Radius_mean(V1)、Perimeter_mean(V3)和Area_se(V15) 3個生物指標物,模型2中有Fractal_dimension_worst(V31)、Perimeter_worst(V24)、Area_worst(V25)和Area_se(V15) 4個生物指標物。此外,模型1較模型2有更低的模型偏差值。模型偏差值也可評估模型的準確性,值越低說明模型準確性越高。因此,在實際應用中,基于B可篩選出準確率較高的診斷模型,即本文提出的pAUC半參數估計方法有助于篩選高精度的醫學診斷模型。

4 結 論

從理論角度看,pAUC參數估計方法較依賴于參數模型的假設,從而導致魯棒性較低;而pAUC非參數方法精確度不夠理想,且針對性不強。本文在現有研究的基礎上,提出了基于密度比模型的pAUC半參數估計方法。在已知部分總體信息的情況下,密度比模型的引入使得pAUC半參數估計方法的針對性更強。通過理論推導得到了pAUC半參數估計方法的相合漸近正態性及漸近方差的顯性表達式。仿真分析以及應用分析表明,pAUC半參數估計方法較pAUC非參數估計方法有更高的精度。

在本文提出的pAUC半參數估計方法中,ql根據F(x)的半參數估計F~(x)求得。若基于F(x)的非參數極大似然估計F^(x)求解ql,并將求得的ql應用于本文方法,是否能得到更好的結果有待后續研究。

參考文獻:

[1]Bradley A P. ROC curve equivalence using the Kolmogorov-Smirnov test[J]. Pattern Recognition Letters, 2013, 34(5): 470-475.

[2]Zhang J Y, Wei Q, Dong D, et al. The role of TPS, CA125, CA15-3 and CEA in prediction of distant metastasis of breast cancer[J]. Clinica Chimica Acta, 2021, 523: 19-25.

[3]楊鏵琦, 敬敏, 楊堃, 等. 血清TK1、CA125、HE4對卵巢癌診斷的價值研究[J]. 河北醫藥, 2022, 44(15): 2350-2353.

[4]程慶華, 彭曉瀾, 林鳳珠, 等. 多模態MRI在宮頸癌病理分化程度及組織學分型的價值研究[J]. 放射學實踐, 2022, 37(10):1268-1272.

[5]Thomas L C. Consumer Credit Models: Pricing, Profit and Portfolios[M]. New York: Oxford University Press, 2009: 100-151.

[6]Montesano G, McKendrick A M, Turpin A, et al. Do additional testing locations improve the detection of macular perimetric defects in glaucoma?[J]. Ophthalmology, 2021, 128(12): 1722-1735.

[7]Fang L Y, Uppoor R, Xu M J, et al. Use of partial area under the curve in bioavailability or bioequivalence assessments: a regulatory perspective[J]. Clinical Pharmacology and Therapeutics, 2021, 110(4): 880-887.

[8]McClish D K. Analyzing a portion of the ROC curve[J]. Medical Decision Making: an International Journal of the Society for Medical Decision Making, 1989, 9(3): 190-195.

[9]Thompson M L, Zucchini W. On the statistical analysis of ROC curves[J]. Statistics in Medicine, 1989, 8(10): 1277-1290.

[10]Walsh S J. Limitations to the robustness of binormal ROC curves: effects of model misspecification and location of decision thresholds on bias, precision, size and power[J]. Statistics in Medicine, 1997, 16(6): 669-679.

[11]Dodd L E, Pepe M S. Partial AUC estimation and regression[J]. Biometrics, 2003, 59(3): 614-623.

[12]Qin G S, Jin X P, Zhou X H. Non-parametric interval estimation for the partial area under the ROC curve[J]. Canadian Journal of Statistics, 2011, 39(1): 17-33.

[13]Qin J, Zhang B. A goodness-of-fit test for logistic regression models based on case-control data[J]. Biometrika, 1997, 84(3): 609-618.

[14]Wang S H, Zhang B. Semiparametric empirical likelihood confidence intervals for AUC under a density ratio model[J]. Computational Statistics amp; Data Analysis, 2014, 70: 101-115.

[15]Qin J, Zhang B. Using logistic regression procedures for estimating receiver operating characteristic curves[J]. Biometrika, 2003, 90(3): 585-596.

[16]Billingsley P. Convergence of Probability Measures[M]. New York: Wiley, 1968: 29-34 .

[17]Hsieh F, Turnbull B W. Nonparametric and semiparametric estimation of the receiver operating characteristic curve[J]. The Annals of Statistics, 1996, 24(1): 25-40.

[18]Zhang B. Quantile estimation under a two-sample semi-parametric model[J]. Bernoulli, 2000, 6(3): 491-511.

[19]Yuan M, Li P F, Wu C B. Semiparametric Inference of the Youden Index and the Optimal Cutoff Point under Density Ratio Model[J]. Canadian Journal of Statistics, 2021, 49(3): 965-986.

[20]Mangasarian O L, Street W N, Wolberg W H. Breast cancer diagnosis and prognosis via linear programming[J]. Operations Research, 1995, 43(4): 570-577.

[21]Bilder C R, Loughin T M.Analysis of Categorical Data with R[M]. Boca Raton, FL, US: Chapman and Hall/CRC, 2014: 272-277.

(責任編輯:康 鋒)

主站蜘蛛池模板: 91视频区| 99免费在线观看视频| 亚洲综合极品香蕉久久网| 无码专区国产精品一区| 婷五月综合| 美女无遮挡免费网站| 青青草国产在线视频| 国产91高跟丝袜| jizz国产在线| 亚洲人网站| 国产一区二区丝袜高跟鞋| 日韩精品免费在线视频| 日本高清免费一本在线观看| 日韩色图在线观看| 夜夜操国产| 亚洲国产91人成在线| 91精品啪在线观看国产60岁| 日本91在线| 在线观看视频一区二区| 一级毛片a女人刺激视频免费| 亚洲国产91人成在线| 黄色污网站在线观看| 久久国产亚洲偷自| 激情综合激情| 国产精品毛片一区| 91在线中文| 成人综合久久综合| 亚洲精品欧美日本中文字幕| 青草精品视频| 一级黄色网站在线免费看| 国产亚洲高清在线精品99| A级全黄试看30分钟小视频| 91外围女在线观看| 欧美爱爱网| 精品一区二区三区自慰喷水| 国产真实二区一区在线亚洲 | 一级毛片免费不卡在线视频| 欧美一区精品| 国产精品福利社| 18禁影院亚洲专区| 国产9191精品免费观看| 国产精品真实对白精彩久久 | 日韩欧美高清视频| 成人免费网站久久久| 中国国产高清免费AV片| 亚洲人成网18禁| 亚洲黄色高清| 日本AⅤ精品一区二区三区日| 99在线视频免费| 天天婬欲婬香婬色婬视频播放| 国产成人亚洲无码淙合青草| 精品久久久久久中文字幕女| 一区二区三区国产| 色偷偷综合网| 丁香六月综合网| 久久综合九九亚洲一区| 国产女人18毛片水真多1| 第一区免费在线观看| 国产丝袜91| 亚洲区欧美区| 东京热一区二区三区无码视频| 国产精品99久久久久久董美香| 国产精品永久在线| 日韩毛片免费观看| 亚洲av无码人妻| 中文字幕在线欧美| 日韩精品一区二区三区免费在线观看| 72种姿势欧美久久久久大黄蕉| 青青久久91| 97在线国产视频| 国产成人综合网| AV无码无在线观看免费| 国产成人精品18| 亚洲日本在线免费观看| 国产幂在线无码精品| 97国产精品视频自在拍| 久草国产在线观看| 人妻免费无码不卡视频| 香蕉久久国产精品免| 五月综合色婷婷| 高h视频在线| 久久综合五月|