利用McNemar 方案及ROC 曲線評價進口品牌甲功檢測結果臨床診斷價值

2020-07-15 01:02:30袁雪張柏暢李會強

天津醫科大學學報 2020年4期

關鍵詞：檢測

袁雪，張柏暢，李會強

（1.天津醫科大學醫學檢驗學院，天津300070；2.天津醫科大學第二醫院輸血科，天津300211）

甲狀腺疾病是臨床常見的內分泌疾病，近年來甲狀腺功能亢進癥（甲亢）及甲狀腺功能減退癥（甲減）的發病率逐漸增加，嚴重影響患者日常生活及工作[1-2]。《中國甲狀腺疾病診治指南》中對于甲亢及甲減的診斷必要條件均包括血清甲狀腺功能檢測。

臨床中常見不同品牌間血清甲狀腺功能檢測結果存在差異，而當前研究往往重視檢測結果數值的一致性[3]，或是對進口儀器進行性能驗證[4]，但不同品牌檢測系統由于其參考范圍相差較大，理論上不宜開展對于血清甲狀腺功能檢測數值的可比性及一致性分析[5]。本研究依據多因素聯合診斷ROC曲線及WS/T505-2017《定性測定性能評價指南》提供的McNemar 方案[6]，評估不同進口品牌間5 項血清甲狀腺功能檢測項目臨床診斷價值及診斷效能是否一致，探討在不同檢測機構間開展結果互信是否具有可行性。

1 資料與方法

1.1 臨床資料收集我院2018 年3 月—2019 年4月，初診診斷為甲亢患者63 例，甲減患者66 例，患者均符合典型的臨床診斷特征，甲狀腺功能指標均符合甲亢或甲減的診斷標準[7]，同時均未進入治療期，選擇與甲亢組及甲減組年齡、性別相匹配的健康體檢人群70 名作為對照組，共計收集標本199個，每個標本分裝3 份-80℃保存。

1.2 試驗方案分別選擇血清甲功檢測市場占有率較大的3 個進口品牌及儀器：羅氏Cobas E602（電化學發光法）、西門子Centaur XP（吖啶酯直接化學發光法）及貝克曼庫爾特DXI800（堿性磷酸酶-金剛烷酶促化學發光法），分別檢測分裝樣本中促甲狀腺激素（thyroid-stimulating hormone, TSH）、FT4、FT3、T4及T3水平，保障各品牌試驗日室內質控結果在控，同時試驗儀器系統封閉，可溯源，儀器依據實驗室SOP 文件定期執行周期性校準及保養維護。所有樣本在每個品牌儀器上重復檢測2 次，2 d 內檢測完畢，記錄均值。

1.3 多因素聯合診斷ROC 曲線評價診斷價值分別將Cobas E602、Centaur XP 及DXI800 檢測的血清TSH、FT4、FT3、T4、T3均值記錄，對每個品牌的5個檢測結果采用Logistic回歸計算合成概率，將臨床診斷甲亢或甲減作為“金標準”，繪制ROC 曲線，比較各品牌曲線下面積（AUC）。同時分析以上形成的AUC 主要貢獻來源，本研究將每個品牌的5 個檢測項目分別組合或單獨成組，采用Logistic回歸計算相應合成概率，繪制ROC 曲線，比較不同組合項目AUC 與5 個項目聯合AUC 是否有統計學差異，進而判斷貢獻AUC 的主要檢測項目。

1.4 McNemar 方案評價診斷效能 ROC 曲線考慮了所有可能的診斷臨界點的影響，而結合各品牌既定的臨界點（參考范圍上下限），采用McNemar 方案評價診斷效能。該方案常用來判斷兩種方法的臨床敏感性和臨床特異性之間是否有統計學差異。這種統計學檢驗沒有假定一種方法優于另一種方法，而是認為兩種方法均可能引起診斷錯誤，將兩方法同時與診斷準確度標準比較，形成配對數據，進而計算兩方法的臨床敏感性之差及臨床特異性之差的可信區間。本研究依據各品牌臨界點（表1），結合甲亢、甲減數據變化特點，分別針對甲亢、甲減判斷數據組陰陽性，將臨床診斷作為金標準，3 個品牌兩兩比較計算臨床敏感性及臨床特異性。若兩系統間臨床敏感性之差及臨床特異性之差的可信區間包括0，認為兩品牌臨床敏感性或臨床特異性一致，診斷效能相當。

1.5 統計學方法應用SPSS20.0 軟件中二項Logistic回歸計算合成概率，MedCalc 軟件繪制ROC 曲線并比較不同品牌間AUC 大小。應用Excel 軟件計算臨床敏感性、臨床特異性以及各自差值的置信區間。P＜0.05 為差異有統計學意義。

表1 3 個品牌參考范圍匯總Tab 1 Summary of the reference range for three brands

2 結果

2.1 多因素聯合診斷ROC 曲線分析

2.1.1 3 個品牌多項目聯合檢測對甲亢疾病的診斷價值一致性評價 5 個項目（TSH、FT4、FT3、T4、T3）聯合檢測ROC 曲線見圖1，不同品牌AUC：Cobas=0.99、Centaur=0.98、DXI=0.99，三品牌兩兩比較AUC 之間差異無統計學意義（均P＞0.05）。

為比較個別項目對AUC 的主要貢獻，將每個品牌的5 個項目聯合、3 個項目（TSH、FT4、FT3）聯合及單獨檢測TSH 繪制ROC 曲線，具體AUC 結果及AUC 差異比較見表2，可得3 個品牌單獨檢測TSH的AUC 均與5 項或3 項聯合檢測AUC 無差異（均P＞0.05），在初診患者中對甲亢的診斷價值3 個品牌基本一致，同時TSH 的檢測貢獻了絕大部分AUC。

2.1.2 3 個品牌多項目聯合檢測對甲減疾病的診斷價值一致性評價 5 個項目（TSH、FT4、FT3、T4、T3）聯合檢測ROC 曲線見圖2，不同品牌AUC 為Cobas=0.84、Centaur=0.832、DXI=0.81，3 個品牌兩兩比較AUC 之間差異無統計學意義（均P＞0.05）

同樣，為比較個別項目對AUC 的主要貢獻，將每個品牌的5 個項目聯合、3 個項目1（TSH、FT4、FT3）聯合、3 個項目2（TSH、T4、T3）聯合、單獨檢測TSH、單獨檢測FT4及單獨檢測FT3繪制ROC 曲線，具體見圖3A-C，可得Centaur XP 5 個項目（AUC=0.83）與3 個項目1（AUC=0.82）的AUC 無差異，與其他組合及單項比較（AUC 在0.69～0.73 之間）差異明顯（均P＞0.05）；CobasE602 5 個項目（AUC=0.84）與3 個項目1（AUC=0.83）的AUC 無差異，與其他組合及單項比較（AUC 在0.70～0.72 之間）差異明顯（均P＞0.05）；DXI800 5 個項目（AUC=0.81）與3 個項目1（AUC=0.77）的AUC 無差異，與其他組合及單項比較（AUC 在0.61～0.72 之間）差異明顯（均P＞0.05）。可得在初診患者中對甲減的診斷3 個品牌價值中等并基本一致，同時TSH、FT4、FT3的檢測貢獻了絕大部分AUC。

圖1 3 個品牌5 個項目甲亢聯合檢測多因素ROC 圖Fig 1 The ROC curve of multi-factor combined diagnosis for five projects cooperative detection with three brands in hyperthyroidism

圖2 3 個品牌5 個項目甲減聯合檢測多因素ROC 圖Fig 2 The ROC curve of multi-factor combined diagnosis for five projects cooperative detection with three brands in hypothyroidism

表2 甲亢患者每個品牌不同項目聯合計算得AUC 及AUC 差異Tab 2 AUC calculated by different cooperative detected projects of every brand in hyperthyroidism and its difference

圖3 甲減患者每個品牌不同項目聯合繪制ROC 曲線Fig 3 The ROC curve drawn by different cooperative detected projects of every brand in hypothyroidism

2.2 McNemar 方案評價兩兩品牌間臨床敏感性及臨床特異性針對不同品牌參考區間，依據2.1 結果，選取影響AUC 較大的TSH、FT4、FT3項目，判斷甲亢及甲減患者3 項目檢測結果陰陽性，3 個品牌兩兩配對，比較配對兩品牌之間臨床敏感性及臨床特異性，見表3。對于甲亢患者：TSH 項目Centaur 的臨床敏感性優于Cobas 及DXI，Cobas及DXI 的臨床特異性優于Centaur，其他所有比對臨床敏感性及特異性均一致。對于甲減患者：FT3項目，Centaur 的臨床敏感性優于Cobas 與DXI，臨床特異性基本一致；FT4項目，臨床敏感性DXI 優于Cobas，Cobas 優于Centaur，臨床特異性DXI 明顯低于Cobas 與Centaur；TSH 項目，臨床敏感性Cobas 優于Centaur，Centaur優于DXI，臨床特異性與之呈相反關系。

表3 McNemar 方案評價兩品牌間臨床敏感性及臨床特異性Tab 3 Evaluate the clinical sensitivity and specificity between the two brands that based on McNemar scheme

3 討論

甲狀腺疾病是臨床常見病，作為內分泌領域第二大疾病，其發病率逐漸增加，以甲亢和甲減最為常見。甲亢是由于甲狀腺腺體本身功能亢進，合成和分泌甲狀腺激素增加所致的甲狀腺毒癥，其可加速機體新陳代謝，增加機體能量消耗；甲減是由于甲狀腺激素合成和分泌減少或組織利用不足導致的全身代謝減低綜合征。無論是何種類型疾病，均對患者身體健康構成一定危害，因此甲亢及甲減的二級預防應引起足夠重視，早發現、早診斷、早治療對改善患者生存質量具有重要意義[8-9]。

臨床醫生日常診治過程中，常發現不同進口品牌儀器間的血清甲狀腺功能檢測結果數值一致性較差，并且不同檢測項目的組合在疾病診斷中的異常表現也不盡相同，導致品牌間的結果互認較難開展，造成大量重復檢測。

本研究利用多因素聯合診斷ROC 曲線分析市場占有率較大的3 個品牌即羅氏、西門子及貝克曼之間在甲亢及甲減項目中的診斷價值。所得結論為：對于甲亢的診斷，3 個品牌5 個項目聯合檢測的臨床診斷價值均較高并一致（AUC 在0.98~0.99 之間），同時TSH 的單獨檢測結果貢獻了絕大部分曲線下面積（AUC 在0.98~0.99 之間），即3 個品牌同時檢測TSH、FT4、FT3、T4、T3與單獨檢測TSH 的AUC 無統計學差異，故在甲亢的初診診斷中，TSH的診斷價值尤為重要，同時3 個品牌能夠做到該項目的診斷價值一致；對于甲減的診斷，3 個品牌5 個項目聯合檢測的臨床診斷價值均中等并一致（AUC在0.81~0.84 之間），同時經過不同項目組合篩選，3個品牌TSH、FT4、FT3聯合檢測與5 個項目聯合檢測相比，AUC 無差異，故在甲減的初診診斷中，TSH、FT4、FT3的診斷價值尤為重要，同時3 個品牌能夠做到該3 個項目的診斷價值一致，但其對于甲減的診斷價值不及甲亢。

本研究同時依據各品牌的參考范圍判斷各數據陰陽性，以臨床診斷為金標準比較3 個品牌的診斷效能。所得結論為：對于甲亢，TSH 項目臨床敏感性西門子＞羅氏=貝克曼，臨床特異性羅氏=貝克曼＞西門子，其他臨床敏感性和特異性均一致，故結合參考范圍的設定，3 個品牌的TSH、FT4、FT3，臨床診斷效能基本一致，其對臨界點的設定能夠滿足對甲亢的診斷并診斷效能基本一致，西門子在獲得更好臨床敏感性的同時放棄了一部分臨床特異性。對于甲減，FT3臨床敏感性西門子＞羅氏=貝克曼，均較低（13.70%~27.41%），臨床特異性基本一致；FT4臨床敏感性貝克曼＞羅氏＞西門子，臨床特異性西門子=羅氏＞貝克曼；TSH 臨床敏感性羅氏＞西門子＞貝克曼，臨床特異性貝克曼＞西門子＞羅氏。故3 個品牌對臨界點的設定，在甲減的診斷中互有優勢，西門子FT3項目臨床敏感性優于其他兩個品牌，但FT4臨床敏感性最低，TSH 臨床敏感性中等水平；羅氏TSH臨床敏感性優于其他兩個品牌，但FT4臨床敏感性中等水平，FT3臨床敏感性與貝克曼持平但稍差于西門子；貝克曼FT4臨床敏感性優于其他兩個品牌，但TSH 臨床敏感性最低，可見，單次血清TSH 檢測值作為亞甲減的診斷依據存有技術不確定性，這與徐清芳等[10]、王婷婷等[11]的研究所得結論類似。通過表3 可得出無論是甲亢或甲減疾病，以品牌既定臨界值（參考范圍上下限）輔助診斷疾病，FT3及FT4的臨床敏感性均較低，臨床診斷效能有待提高。

綜上所述，羅氏Cobas E602、西門子Centaur XP及貝克曼DXI800 檢測血清甲狀腺功能項目，對于甲亢的診斷價值較高并基本一致，對于甲減的診斷價值中等并一致；同時以品牌既定臨界點輔助診斷甲減，從臨床敏感性及臨床特異性的角度來看，3個品牌互有優勢；但在FT3及FT4的檢測上，無論是甲亢或甲減疾病，3 個品牌臨床敏感性均較低，臨床診斷效能有待提高。基于上述研究，在甲亢的臨床診斷方面，可建議使用該3 種品牌的檢驗機構開展檢驗結果互信，以減少重復檢驗，節約醫療資源。