王金宇,張 可,夏翠萍,王中新
近年來,隨著免疫抑制劑和廣譜抗生素不合理地應用,以及各種侵入性診療的進行,臨床真菌感染率、耐藥率及病死率大幅升高[1]。為了指導臨床抗生素的使用,需要及早檢測出真菌對抗生素的耐藥性。
基質輔助激光解吸電離飛行時間質譜(matrix-assisted laser desorption/ionization-time-of-flight mass spectrometry,MALDI-TOF MS)以其快速、可靠的菌種鑒定能力,已廣泛用于實驗室菌種的快速鑒定[2-4]。同時,MALDI-TOF MS主要通過分析指紋圖譜特征峰的差異來區分耐藥株及敏感株[5],但是僅通過有限的特征很難準確區分。機器學習算法能夠計算出數據的統計相關性和非線性特征之間的影響。為了充分利用MALDI-TOF MS數據中包含的信息來簡化耐藥性的測定[6-9],該研究引入機器學習算法來探討一種快速區分三唑(氟康唑、伏立康唑、伊曲康唑)耐藥和敏感熱帶念珠菌的方法。
1.1 菌株來源收集2018年1月—2021年3月自安徽醫科大學第一附屬醫院臨床各類標本中191株熱帶念珠菌,其中120株為三唑敏感的熱帶念珠菌,71株為三唑耐藥的熱帶念珠菌。所有分離株均通過MALDI-TOF MS平臺進行鑒定。耐藥性依據美國臨床和實驗室標準化協會(CLSI)指南,使用微量肉湯稀釋法對上述菌種進行藥物敏感性實驗。
1.2 儀器與試劑Autof ms1000全自動微生物質譜檢測系統及配套試劑(鄭州安圖實驗儀器有限公司)、生物安全柜(上海瑞仰凈化裝備有限公司)、UP700 恒溫培養箱(英國GreenPrima公司)、微量移液器(德國Eppendorf公司)、科馬嘉顯色培養基(合肥天達診斷試劑有限公司)。
1.3 方法
1.3.1MALDI-TOF MS數據采集 數據采集流程:① 菌株接種,35 ℃溫箱過夜培養16~18 h;② 挑選生長良好的單個菌落均勻涂抹于靶板上;③ 加入1 μl甲酸;④ 加入1 μl基質溶液;⑤ 使用質譜儀Autof ms1000進行峰值采集。
1.3.2特征峰選擇 采用隨機森林(random foreset,RF)算法[10]對特征峰重要性進行評分,10倍交叉驗證保證結果的穩定,挑選出重要性排名前10的特征峰,使用Mann-Whitney U-test對特征峰進行相關性分析(表1),檢驗均為雙側檢驗,P<0.01具有統計學意義。符合條件的峰值作為特征峰用于RF模型及徑向基函數核非線性支持向量機(the radial basis function support vector machine,RBF-SVM)模型的開發。
1.3.3RF模型及RBF-SVM模型構建與性能評估 本實驗引入RF模型及RBF-SVM模型對熱帶念珠菌敏感株和耐藥株進行識別分類。RF模型及RBF-SVM模型均基于Python環境開發的機器學習模塊scikit-learn[11]提供預封裝的工具包進行構建。RF模型調優:使用隨機搜索交叉驗證對參數決策樹數量 、最大深度進行調優,然后用網格搜索在一定浮動范圍內微調選擇參數最優解。SVM模型調優:再通過相同的方法,確定RBF-SVM的最佳核參數(γ)和最佳代價參數(C)。對RF模型及SVM模型進行10倍交叉驗證以確保參數的穩定性。在模型的性能評估中,計算每種模型的準確性、AUC、F1值、特異性和敏感性作為評價指標。此外繪制非線性分類器RF模型與SVM模型受試工作者特征(receiver operating characteristic curve,ROC)曲線,對模型進行更直觀的比較。模型構建流程見圖1。

圖1 模型構建流程圖
1.4 統計學處理采用Mann-WhitneyU-test對MALDI-TOF質譜峰特征進行分析,所有統計檢驗均為雙側檢驗,P<0.01為差異有統計學意義。
2.1 數據采集結果所有熱帶念珠菌應用MALDI-TOF MS進行光譜采集的結果均處于得分區間[9.0, 10.0] ,達到種水平置信度。耐藥株及敏感株在質荷比2 000~20 000范圍內的所得到的總光譜峰數分別為5 746、9 620個,特征峰得到76個。
2.2 特征峰選擇結果特征峰3 481、7 549、6 500、3 048、6 892 m/z經過雙側檢驗后P<0.01,據有統計學意義。為了盡量減少數據內部信息的損失,根據RF算法的結果,基于10倍交叉驗證,60%以上的模型篩選出2 596 m/z也納入后續模型的構建。
2.3 RF模型及RBF-SVM模型性能評估的結果圖2顯示對于模型區分熱帶念珠菌中敏感株和耐藥株的性能,最佳預測模型為RBF-SVM模型(AUC=0.930 5,95%CI:0.868 1~0.955 3)。其中RF模型(AUC=0.927 3,95%:0.830 1~0.949 9)具有相似的性能。表1列出了RBF-SVM模型和RF模型預測性能評估結果,與RF模型相比,RBF-SVM模型敏感度為0.91低于RF模型,特異度為0.73高于RF模型。所有結果均進行10倍交叉驗證確定。兩種預測模型性能很接近且整體預測性能都能達到0.8以上。

表1 RBF-SVM模型和RF模型性能評估結果
機器學習算法[11]主要包括支持向量機、RF、遺傳算法、K近鄰算法等。目前,最佳的機器學習算法尚未明確,國內外研究[5,8,12-13]通過應用多種機器學習算法建立不同的分類模型,最終選擇結果最優的模型作為最優分類模型,并且這些研究結果證明了支持向量機算法和RF算法在分類模型中的優越的表現,因此,本研究采用這兩種算法對MALDI-TOF MS平臺收集的光譜進行分析。
模型構建的重點在于模型的穩定性和可靠性。多數研究[8,12-13]通過交叉驗證(5或10倍)來避免模型的過擬合。模型構建圖顯示,在本研究實驗流程中,通過10倍交叉驗證來實現模型的穩定性和可靠性。RBF-SVM模型和RF模型性能評估結果顯示兩種模型效能非常接近,這與Wang et al[13]研究結果類似。但是本研究中兩種模型的準確度僅為0.84,這很可能與數據采集過程中多種因素有關,包括菌種反復凍融、靶點上菌落涂抹厚薄不均、基質液裂解不充分、MALDI-TOF MS參數調優不佳等。
本研究得到的76個特征峰中,并不是所有的特征峰都有助于敏感株和耐藥株的區分,通過Mann-WhitneyU-test得到的峰中,只有3 481、7 549、6 500、3 048、6 892 m/z具有統計學意義。Fangous et al[6]和Rhoads et al[9]的研究通過單個或者幾個特征峰來判斷菌株的耐藥性,也證明了在判斷敏感株和耐藥株時,并不是所有的峰都有意義。
在臨床應用中,常規抗生素敏感性試驗結果通常在真菌分離后至少需要24 h才能得到,成本也比較昂貴。抗生素治療的不及時會導致住院時間延長、治療費用增加,以及因不恰當的抗生素治療增加住院死亡率。然而本實驗所研究的RF模型及RBF-SVM模型的優點是速度快、成本低,可以快速獲得熱帶念珠菌藥敏結果,從而指導臨床醫生進行準確且快速的抗真菌感染治療,這對于規范臨床抗生素的使用以及因抗生素的濫用導致細菌耐藥率逐年增高方面有著重要意義。
RF和RBF-SVM模型雖然平均準確度都能夠達到0.8以上,具有較好的分類識別能力,但是模型的普適性仍有待研究。如提取方法不同,Lu et al[14]研究使用了試管提取法,而本實驗使用直接涂板法,這增加了數據采集時的不穩定;Liu et al[12]研究中特征峰是基于統計或多元回歸進行選擇的,相比之下,本實驗直接使用RF算法來選擇特征峰值;到目前為止,最佳的數據的降維處理方式還不明確,不同的降維分析方式對于結果的影響有待后續的研究。同時,MALDI-TOF MS光譜質量范圍通常僅為2~20 ku,然而,與真菌耐藥密切相關的一系列高分子量酶往往不在這一領域,如熱帶念珠菌中的羊毛甾醇14-α去甲基化酶分子量遠大于2 ku,細菌中的青霉素結合蛋白分子量約為76 ku[15],這將導致菌株中一些重要信息無法在光譜中反應出來,使得分類模型無法發揮到最佳性能。
綜上所述,該研究表明機器學習算法結合MALDI-TOF MS平臺的方法可以一定程度上快速區分熱帶念珠菌的敏感株和耐藥株。這種方法有助于指導臨床醫師更快速、精確地使用抗生素,從而減少患者住院時間和費用。但是機器學習算法結合MALDI-TOF MS平臺方法仍處于起步階段,在后續的研究中有必要解決樣本量小、缺乏外部驗證、重現性差等相關問題。