診斷試驗設計要點和規范

2024-10-10 00:00:00丁聿寧王瑞平

上海醫藥 2024年15期

摘要疾病診斷是臨床治療和干預的基礎和前提，因此診斷試驗是臨床研究的一個重要內容。正確了解診斷試驗的設計要點、評價原則和注意事項不僅可以加強對診斷試驗內涵的認識，同時也可以避免將其錯誤應用。此外，應用臨床流行病學方法對診斷試驗進行評價研究，有助于正確認識診斷試驗的價值，科學解讀診斷試驗的結果，從而提高臨床醫師的診斷水平。本文從診斷試驗的概念入手，講解診斷試驗的設計要點和規范，評價的基本原則，真實性、可靠性和臨床應用價值的評價指標，提高診斷試驗效果的方法等內容，以期為研究者們應用診斷試驗提供參考。

關鍵詞診斷試驗金標準真實性可靠性聯合試驗

中圖分類號：R-331 文獻標志碼：C 文章編號：1006-1533（2024）15-0023-05

引用本文丁聿寧，王瑞平. 診斷試驗設計要點和規范[J]. 上海醫藥， 2024， 45（15）： 23-27； 86.

基金項目：上海市衛生健康委員會衛生行業臨床研究專項（202240371）；上海申康醫院發展中心第二輪促進市級醫院臨床技能與臨床創新三年行動計劃——研究型醫師創新轉化能力培訓項目（SHDC2022CRS053）；上海市皮膚病醫院引進人才科研基金項目（2021KYQD01）；上海人才發展基金資助項目（2021SHRCFZ01）；上海申康醫院發展中心促進市級醫院臨床技能與臨床創新三年行動計劃（2023—2025年）CRU協同數據質量提升項目（SHDC2024CRX032）；上海市皮膚病醫院IIT基金項目（LCIIT-2023-14）

Diagnostic test design elements and specifications

DING Yuning， WANG Ruiping

（Clinical Research & Innovation Center， Shanghai Skin Disease Hospital， Shanghai 200443， China）

ABSTRACT Disease diagnosis is the basis and premise of clinical treatment and intervention， so diagnostic tests are an important part of clinical research. Correct understanding of the design points， evaluation principles and precautions of diagnostic tests can not only strengthen the knowledge of the connotation of diagnostic tests， but also avoid their wrong application. In addition， the application of clinical epidemiological methods to evaluate diagnostic tests helps to correctly recognize the value of diagnostic tests， scientifically interpret the results of diagnostic tests， and thus improve the diagnostic level of clinicians. This article starts with the concept of diagnostic tests， explains the design points and specifications of diagnostic tests， the basic principles of evaluation， the evaluation indexes of authenticity， reliability and clinical application value， and the methods to improve the effect of diagnostic tests， so as to provide reference for researchers to apply their diagnostic tests.

KEY WORDS diagnostic test； gold standard； authenticity； reliability； joint testing

診斷試驗（diagnostic test， DT）是臨床研究的一個重要組成部分，正確了解DT的設計要點、評價原則和注意事項不僅能夠加強對DT的內涵認識，同時也可以避免錯誤應用。應用臨床流行病學方法對DT進行真實性、可靠性和臨床應用基質等方面的評價研究，有助于正確認識DT價值，科學解讀DT結果，從而提高臨床醫師的臨床診療能力和水平。本文從DT概念入手，解讀DT的設計要點和規范，DT的評價基本原則，DT的真實性、可靠性和臨床應用價值的評價指標，提高DT效果的方法等內容，以期為研究者們應用DT開展臨床研究奠定基礎。

1 DT概念

DT是臨床研究的一種重要類型。診斷的本質是將患者與非患者區別開來，那些用于區分患者與非患者的試驗方法或檢測檢查方法都可以統稱為“診斷試驗”。DT是一個廣泛的概念，包括病史、體格檢查所獲得的所有臨床測量資料；生化檢查、病原微生物檢查等實驗室檢查指標；超聲診斷、磁共振和放射性核素等影像學檢查資料；皮膚超聲、皮膚計算機斷層掃描（computed tomography， CT）即等器械檢查結果等。臨床醫師對疾病進行診斷時，可以利用DT，對人群的疾病或健康狀況做出確切判斷[1]。

臨床上，DT可以有定性和定量等多種數據類型，DT中的多分類數據通常是有序變分類的定性變量。無論診斷數據為何種數據類型，臨床應用時原則上均應該先要簡化數據形式，大多數臨床應用中的數據類別為有序變量數據，如腫瘤分化程度的分級。有時需要將這些復雜的數據類別轉化為簡單的兩分類數據（正常/異常、有/無、疾病/健康），如高血壓的診斷，通常簡單地將收縮壓≥140 mmHg和（或）舒張壓≥90 mmHg者診斷為高血壓，進而將對象區分為“高血壓患者”和“非高血壓患者”。

如前所述，DT的目的主要是用于疾病診斷，診斷對指導治療有決定性意義。疾病的臨床診斷過程并不總是完美，在獲得最后的診斷之前，醫生利用各個DT所提供的信息不斷修正其診斷。所以DT的評價對臨床工作的指導有著非常重要的意義。然而，目前對DT的研究和評價相對落后。因此，準確理解DT的評價方法有助于正確認識DT的實用性及其價值，避免憑經驗選擇的盲目性和片面性。

2 DT的設計要點

如同其他類型的臨床研究，規范的DT同樣需要有前期的設計和規劃。在DT的設計過程中，需要研究者們明確DT的目的、DT的金標準選擇、研究對象的定義，樣本量估算，制定DT的真實性評價、可靠性評價和臨床應用價值評價標準等內容。

2.1 明確研究目的

開展DT研究前，項目團隊應根據擬評價的診斷試劑/設備/技術的特點，制定清晰明確的研究目標，說明DT的主要目的和核心評價指標體系等內容，為制定詳細的研究流程奠定基礎。

2.2 研究對象

DT臨床研究中，研究對象應能代表試驗檢查對象的目標人群，即基于該DT開發的診斷方法在今后臨床應用時應具有普遍適用性和鑒別疾病的能力。一個成熟的DT建立，通常需要經過3個研究階段。①建立試驗研究初期，正常人可作為對照組；典型患者為病例組。②試驗研究中期，研究對象應選擇早期和病情較輕的患者，包括那些可能會干擾DT結果的有合并癥患者。例如，在評價皮膚CT診斷基底細胞癌時，研究對象應包括癌前病變患者，以及合并日光性角化病患者。無病組應包括其他皮膚病患者。③試驗研究后期，最好選取多中心、較大樣本的患者。這組研究對象代表目標臨床患者人群，包括該病的各種臨床類型，如不同病情嚴重程度（輕、中、重），不同病程階段（早、中、晚），不同癥狀和體征（典型和不典型），有和無并發癥者，還有那些確實無該病，但易與該病相混淆的其他疾病，以使試驗的結果具有代表性。這樣的DT評價結果真實性最高，具有較大的科學意義和臨床實用價值。

2.3 樣本量

臨床研究中，樣本量是在保證研究結論具有一定可靠性的前提下所確定的最小樣本數，其意義是降低研究中的抽樣誤差。樣本量過小，診斷指標就可能不穩定，影響對DT結果的評價。DT臨床研究中，樣本量通常根據被評價DT的靈敏度（sensitivity， Se）和特異度（specificity， Sp）分別計算研究所需的患者人數和對照人數，最后合起來得到樣本含量。DT中，樣本大小與顯著性水平α值、允許誤差δ、試驗Se、Sp有關。樣本量計算是，α值越大，所需樣本量越小，通常取α=0.05或0.01；允許誤差δ越小，樣本量越大，通常δ取0.05或0.10。

例如，擬開展一項DT，評價新型宮頸癌診斷試劑盒對女性宮頸癌的臨床早期診斷價值，前期的預實驗結果提示，該診斷試劑對早期宮頸癌診斷的Se=75%，Sp=60%，試估算本次DT所需要的樣本量。

2.4 DT“金標準”

金標準是指公認的疾病診斷標準，又稱為標準診斷、參考標準等。金標準是指目前醫學界公認的診斷某種疾病最準確的、可靠的方法。常用的金標準有：病理學診斷、尸體解剖、手術發現、影像學檢查，也可采用公認的綜合臨床診斷標準。

須注意的是，待評價的DT如果不與“金標準”對比，就無法證明待評價DT的準確性；若金標準選擇不妥，就會造成對研究對象“患病組”“無病組”劃分上的錯誤，從而影響對DT的正確評價。實際工作中，研究者應根據臨床具體情況選擇合適的標準診斷方法，如常應用病理學檢查作為腫瘤診斷的金標準。須說明的是，金標準具有相對性，任何一個金標準只是特定時期下醫學發展的產物，它相對穩定，但不具有永恒性，研究者需根據研究目標選擇當前最權威的診斷結果作為“金標準”。

3 DT的真實性評價

真實性是指DT的結果與實際情況的符合程度。研究診斷性試驗真實性，最基本的方法是將待評價的試驗與診斷該病的金標準進行盲法比較，以評價其對疾病診斷的真實性。一般而言，真實性是反映DT實際測量結果與真值之間的符合程度，是DT研究與評價的最主要內容。DT的結果與金標準進行比較應實施獨立的盲法評價，所謂“獨立”指所有研究對象要同時進行DT和金標準方法的測定；所謂“盲法”指DT和金標準方法結果的判斷或解釋相互獨立。評價DT真實性的指標包括Se、Sp、假陽性率（false positive rate， FPR）、假陰性率（false negative rate， FNR）、總符合率（agreement rate， AR）、約登指數（Youden’s index， YI）和陽性似然比（positive likelihood ratio， PLR）等。

3.1 真實性評價指標計算

根據DT結果和金標準診斷結果可以建立一個四格表。如表1所示，將DT結果和金標準結果比較會得出四種情況：“金標準”為患者，DT也為患者，這種情況的患者數為“A”；“金標準”為患者，DT為非患者，這種情況的患者數為“C”；“金標準”為非患者，DT為患者，這種情況的患者數為“B”；“金標準”為非患者，DT也為非患者，這種情況的患者數為“D”。通過這個四格表就可以計算DT常用的真實性評價指標。

Se又稱為真陽性率，是指實際患病且被DT判定為“患者”的百分比，反映被評價DT發現患者的能力，Se值越大，說明發現患者的能力越強。其計算公式為Se=A/（A+C）×100%。

FNR又稱為漏診率，是實際患病但DT判定為“非患者”的百分比。FNR與Se互補，也是反映DT發現患者的能力，FNR越小越好。其計算公式為FNR=C/（A+C）×100%。

Sp又稱為真陰性率，是實際未患病者被DT同樣判定為“非患者”的百分比，反映DT鑒別非患者的能力，該值越大越好。其計算公式為Sp=D/（B+D）×100%。

FPR又稱為誤診率，是實際未患病者被DT判定為“患者”的百分比。FPR與Sp互補，同樣反映DT鑒別非患者的能力，該值越小越好。其計算公式為FPR=B/（B+D）×100%。

AR又稱為一致率，表示DT中真陽性患者數和真陰性非患者數之和占全體受檢人員的百分比。反映正確判定“患者”和“非患者”的綜合能力。總符合率越高，真實性越好。其計算公式為AR=（A+D）/（A+B+C+D）×100%。

YI又稱為正確診斷指數，是一項綜合性指標，其計算公式為YI=Se+Sp-1，YI在0～1之間波動，用于判定DT正確判定患病和無病的能力。

3.2 DT界值

臨床上，開展DT的根本目的是幫助醫生正確判定被檢查人群患病還是無病，所以DT結果的正常和異常要有明確的界定，這個分界值就稱為界值（cut-off point），也稱為參考值。臨床實踐中，患病者與無病者的DT結果往往會出現重疊，這就需要一個判定標準，人為地將其分為“陽性”和“陰性”。

通常情況下，DT可分為以下幾類：①主觀指標：根據被診斷者的主訴確定，如疼痛、失眠等，包括一些診斷量表。②客觀指標：用儀器客觀測定的指標，如體溫、血壓、生化檢查結果、CT影像等。③半客觀指標：根據診斷者的主觀感知來判斷的指標，如腫塊的質地等。

對于連續變量測量值，DT的界值需要注意其一致性。如高血壓的診斷通常采用世界衛生組織規定的高血壓診斷標準，即收縮壓≥140 mmHg和（或）舒張壓≥90 mmHg。若在不同地區或不同時期采用的標準不一致，則診斷結果也會不同。臨床上，醫生希望DT的Se和Sp都很高，即患病者均陽性，無病者均陰性的理想結果，這時患病者與無病者的測定值完全沒有重疊，但這種情景實際上并不常見。由于DT本身存在的缺陷以及疾病的復雜性，大多數時候患病者的結果和無病者的結果相互重疊不能完全區分開（圖1）。

臨床實踐中，DT出現圖1所展示的情景更常見，這時需要確定一個劃分陽性和陰性的界值。不同的界值選擇會影響DT的Se和Sp等指標（圖2）。在實際選擇DT界值標準時，一般要遵循以下原則：

1）高Se水平DT標準：對于那些預后差、漏診后果嚴重、目前臨床上有有效的治療手段、尤其是早期治療可獲得較好治療效果的疾病，則應該將DT的陽性標準定在高Se的水平，盡可能診斷出所有的患者。如圖2（A）所示，將判定界值向“左”移動，這時DT的Se升高，而Sp降低、假陽性增多，導致需要進一步確診的可疑病例增多，從而增加檢查成本。

2）高Sp水平DT標準：臨床治療效果不理想的疾病，確診和治療費用比較昂貴的疾病，疾病預后不嚴重且現有治療方法不理想，或將非患者誤診為患者時后果嚴重時，應將診斷陽性標準定在高Sp水平，盡量排除非患者，見圖2（B）。

3）較高水平Se和Sp的DT標準：當假陽性和假陰性的重要性相等時，一般可以將DT界值標準定在患者與非患者分布的分界線處。

臨床實踐中，對于連續變量的DT需要選擇一個區分正常和異常的診斷界值，通常可以采用“正態分布法”“百分位數法”“受試者工作特征（receiver operating characteristic， ROC）曲線法”和“臨床經驗判定法”等方式確定。

4 DT的可靠性評價

可靠性（reliability）也稱為可重復性或信度，是指DT在完全相同的條件下，進行重復試驗獲得結果的穩定性。因為在研究過程中，數據測量和采集過程會存在系統誤差和隨機誤差，導致測量值的不穩定。DT可靠性評價的設計與真實性評價不一樣，可靠性評價主要是評價測量變異的大小。

定量變量：通過用變異系數和標準差表示結果的可靠性。其中變異系數=標準差/均數×100%，變異系數越小，標準差越小，可靠性越好。

定性變量：通過用觀察符合率和卡帕（Kappa）值表示。觀察符合率是指兩名觀察者對同一事物的觀察或同一名觀察者對同一事物的兩次觀察結果的一致性百分率。Kappa值是判斷不同觀察者間校正機遇一致率后觀察的一致率情況，其含義為實際符合率與最大可能符合率之比。如表2所示，兩名皮膚病理醫生對200名疑似皮膚腫瘤患者的皮膚病理切片判讀的結果，可以通過計算觀察符合率和Kappa值來評價DT的可靠性。

觀察符合率=（A+D）/N×100%=（40+ 135）/200×100%=87.5%

觀察符合率P0=（A+D）/N=87.5%

機遇符合率Pc=（R1C1/N+R2C2/N）/N×100%=（55×50/200+150×145/200）/200×100%=61.25%

Kappa=（P0-Pc）/（1-Pc）=（87.5%-61.25%）/（1-61.25%）=0.69

kappa值充分考慮了機遇因素對結果一致性的影響，其取值介于[-1， 1]，當kappa值為0.75～1.00時表示“符合很好”，取值為0.40～0.74時表示“符合一般”，取值為0.01～0.39時表示“缺乏符合”。

5 DT臨床應用價值評價

DT的開發起源于臨床，其最終必定要回歸臨床應用。因此，對于DT的臨床應用價值評價必不可少。DT臨床應用價值主要為臨床收益的內容，主要包括預測值的估計、新確診病例和衛生經濟學評價，以及提升DT效率的方法。

預測值（predictive value， PV）是反映應用DT的檢查結果來評估受試者患病或不患病的可能性大小指標。根據DT結果的陽性和陰性，預測值也分為陽性預測值和陰性預測值。

陽性預測值（positive predictive value， PPV）是指DT結果為陽性者中真正患者所占的百分比。對于一項DT來說，PPV越大，說明DT陽性后受試者患病的概率越大。以表2為例，DT的PPV計算公式為A/（A+B）×100%。

陰性預測值（negative predictive value， NPV）是指DT結果為陰性者中真正為非患者所占的百分比。對于一項DT來說，NPV越大，說明DT陰性后受試者為無病者的概率越大。以表2為例，DT的NPV計算公式為D/（C+D）×100%。

當患病率固定不變時，DT的Se越高，FNR將會越低，陰性預測值越高，當Se為100%時，陰性預測值也為100%；相反，DT的Sp越高，FPR越低，陽性預測值越高。

當DT的Se和Sp確定后，陽性預測值和患病率成正比，陰性預測值和患病率成反比。一般來說，人群中患病率越高，所診斷的患者數就越多，陽性預測值就越高，而陰性預測值就越低。

因此，為提高DT的效率，常規可以采取“選擇患病率高的人群開展DT”和“采用聯合試驗”的方案。聯合DT是將2種及以上DT結合起來對結果進行綜合判讀，包括“串聯”和“并聯”兩組形式。其中“串聯”類似于物理學電路圖中的“串聯”，即當2種DT均提示陽性時才能確定為“病例”，因此提高了判定受試者為陽性的標準，DT的Se降低，而Sp升高。“并聯”同樣類似于物理學電路圖中的“并聯”，即2種DT中只要有一個提示陽性便可以確定為“病例”，因此降低了判定受試者為陽性的標準，DT的Se提高，而Sp降低。

參考文獻

[1] 詹思延. 臨床流行病[M]. 2版. 北京：人民衛生出版社， 2011.

上海醫藥2024年15期

上海醫藥的其它文章: 2023年3—4月FDA批準新藥概況; 家畜血液儲存條件及預處理方式對種屬鑒定的影響; AEX-HPLC法測定單純皰疹病毒注射液中病毒顆粒數; 奧美拉唑腸溶膠囊人體生物等效性臨床研究; 丁酸氯維地平注射用乳劑商業化生產工藝研究; 蛋白提取工藝過程評價方法的研究