李立奇 張 瑗 周 躍△ 何仁穎 王開發
K最近鄰(k-nearest neighbor,KNN)分類算法是一種基于實例的分類算法〔1〕,在解決二類分類的實例問題中表現出良好的分類性能,故現已被廣泛應用于各個領域。在醫藥學領域中,如疾病診斷〔2〕、醫學影像〔3〕、臨床用藥〔4〕等方面也有相關報道。但是基于KNN算法的類風濕關節炎(RA)診斷模型尚未有人提出。本文建立了KNN模型用于RA的診斷,說明其在本病診斷中的運用效果。
1.標本來源 RA患者100例,非RA風濕性疾病患者50例,病例取自2009年6月至2010年5月在本院就診的住院患者。所有RA病例均符合1987年美國風濕病協會(ARA)診斷標準〔5〕。非RA風濕性疾病也均符合相應診斷標準。分別檢測150名患者血清中的anti-CCP和RF兩項指標。
2.KNN 的原理
KNN的基本思想是將各類別中的全部訓練樣本點都作為代表點〔6〕。對于一個測試樣本點x,需要計算它與訓練樣本集中每個樣本點的相似度,依據樣本點相似度找出k個最相似的訓練樣本點;再根據這k個樣本點所屬類別判斷樣本點 x的所屬類別,在x的k個最近鄰點中依次計算每類的權重;最后將樣本點x判定給權重最大的類別。
3.KNN的算法步驟
(1)將本資料中150例研究對象分為訓練樣本集和測試樣本集。
(2)分別輸入訓練集和測試集中每名患者的anti-CCP和RF值及其所屬類別。
(3)用KNN方法對測試集中每名患者的所屬類別進行判別。
(4)輸出判別結果。
本文采用兩種常用的標準檢驗方法對RA診斷的KNN模型進行檢驗。
(1)5維交叉驗證法:將150例患者隨機分為5組,每組包含20例RA患者和10例其他風濕性疾病患者。每次從5組中輪流抽取1組作為測試樣本集,其余4組作為訓練樣本集。共作5次KNN算法仿真診斷。由于KNN算法中的參數k取值不同,利用5維交叉驗證法檢驗得到的平均診斷準確率也不同。初步測試發現當k=4時,平均診斷準確率最高(見圖1)。圖1中符號X表示利用5維交叉驗證法檢驗得到的平均診斷準確率。圖2列出了k=4時的5組患者仿真診斷準確數。

圖1 兩種檢驗方法15次診斷結果

圖2 KNN法5維交叉驗證結果
(2)Jackknife檢驗法:每次從150例患者中輪流抽取1例作為測試樣本,其余149例作為訓練樣本集。共作150次KNN算法仿真診斷。同樣地當參數k取不同值時,利用Jackknife檢驗法檢驗得到的診斷準確率也不同。初步測試發現當k=7時,診斷準確率最高(見圖1)。圖1中符號O表示利用Jackknife檢驗法檢驗得到的診斷準確率。
本研究分別檢測了100例RA患者和50例非RA風濕性疾病患者血清中的anti-CCP和RF兩項指標。結果發現,anti-CCP和RF對RA診斷的敏感性分別為64%和76%,特異性分別為94%和82%。其結果與Schellekens等〔7〕報道的 anti-CCP的敏感性和特異性(68%和98%)以及人民衛生出版社出版的《內科學》第7版教材中有關RF的敏感性(70% ~80%)的描述接近。雖然RF是RA診斷的唯一的血清標準,且敏感性較高,但在少數健康老年人、某些慢性感染者和自身免疫性疾病患者中也可呈陽性。故RF對RA診斷的特異性不高,診斷價值有限。而采用ELISA方法檢測的anti-CCP對RA診斷有較高的特異性,尤其對早期RA具有很高的診斷價值。因此聯合檢測anti-CCP和RF這兩項指標有利于提高RA診斷的準確率。
本文基于KNN算法的最優二分類方法,建立了RA診斷的KNN模型。對100例RA患者和50例其他風濕性疾病患者的anti-CCP和RF兩項指標進行訓練和模擬診斷。結果發現:利用5維交叉驗證法和Jackknife檢驗法檢測樣本的診斷準確率分別為92%和91.3%,高于單獨檢測anti-CCP或RF對RA的診斷準確率(74%和78%)。
綜上所述,anti-CCP和RF這兩項指標的檢測在RA的早期診斷過程中都有一定的臨床意義。對于新近發生的診斷不明的關節炎,二者聯合應用能更好地幫助臨床醫生實現對RA的早期檢出,提高早期診斷準確率。
1.Nasibov E,Kandemir-Cavas C.Efficiency analysis of KNN and minimum distance-based classifiers in enzyme family prediction.Comput Biol Chem,2009,33(6):461-464.
2.Xiao Y,Griffin MP,Lake DE,et al.Nearest-neighbor and logistic regression analyses of clinical and heart rate characteristics in the early diagnosis of neonatal sepsis.Med Decis Making,2009,30(2):258-266.
3.Mayerhoefer ME,Szomolanyi P,Jirak D,et al.Effects of MRI acquisition parameter variations and protocol heterogeneity on the results of texture analysis and pattern discrimination:an application-oriented study.Med Phys,2009,36(4):1236-1243.
4.Ivanisevic I,Bates S,Chen P.Novel methods for the assessment of miscibility of amorphous drug-polymer dispersions.J Pharm Sci,2009,98(9):3373-3386.
5.Arnett FC,Edworthy SM,Bloch DA,et al.The American Rheumatism Association 1987 revised criteria for the classification of rheumatoid arthritis.Arthritis Rheum,1988,31(3):315-324.
6.Sohn S,Kim W,Comeau DC,et al.Optimal training sets for Bayesian prediction of MeSH assignment.J Am Med Inform Assoc,2008,15(4):546-553.
7.Schellekens GA,Visser H,de Jong BA,et al.The diagnostic properties of rheumatoid arthritis antibodies recognizing a cyclic citrullinated peptide.Arthritis Rheum,2000,43(1):155-163.