張娟,劉依萍,曹士盛,李欣,董曉曦,李宏霄
(1.天津醫(yī)科大學(xué)口腔醫(yī)院修復(fù)科,天津 300070;2.天津醫(yī)科大學(xué)口腔醫(yī)院牙周科,天津 300070;3.中國醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)工程研究所,天津 300192)
慢性牙周炎是由牙菌斑生物膜中的牙周致病菌引起的牙周組織慢性感染性疾病[1]。2型糖尿病是以胰島素作用受損引起的高血糖為主要特征的代謝紊亂[2]。研究[3-4]表明,伴或不伴2型糖尿病的慢性牙周炎患者的齦下菌斑微生物水平存在差異。
拉曼光譜技術(shù)是一種非侵入性的分析技術(shù),可檢測生物流體、細(xì)胞和組織等復(fù)雜生物樣品的化學(xué)成分。拉曼光譜技術(shù)與機(jī)器學(xué)習(xí)算法相結(jié)合,已廣泛用于微生物學(xué)和醫(yī)學(xué)研究[5-6]。本研究運(yùn)用拉曼光譜技術(shù)獲得伴或不伴2型糖尿病的慢性牙周炎患者及健康成人齦下菌斑的拉曼光譜數(shù)據(jù),并通過機(jī)器學(xué)習(xí)算法構(gòu)建分類模型,區(qū)分這3種類型受試者的齦下菌斑,驗(yàn)證齦下菌斑微生物在2型糖尿病中的監(jiān)測預(yù)警功能,以期為2型糖尿病的早期發(fā)現(xiàn)提供新思路。
于2021年12月至2022年2月期間,在天津醫(yī)科大學(xué)口腔醫(yī)院、天津醫(yī)科大學(xué)朱憲彝紀(jì)念醫(yī)院招募志愿者,最終納入受試者66例,包括確診慢性牙周炎伴2型糖尿病患者20例(A組),確診單純慢性牙周炎(不伴2型糖尿病)患者23例(B組),無2型糖尿病和慢性牙周炎的健康成人23例(C組)。納入標(biāo)準(zhǔn):(1)年齡20~70歲;(2)不限性別;(3)口內(nèi)天然牙≥14顆;(4)3年內(nèi)無吸煙史。排除標(biāo)準(zhǔn):(1)1型糖尿病或其他特殊類型糖尿病;(2)伴有全身其他系統(tǒng)疾病,如高血壓、心血管疾病、肝、腎功能異常、免疫疾病、骨質(zhì)疏松癥等;(3)妊娠期或哺乳期;(4)服用雙磷酸鹽、環(huán)孢霉素、苯妥英鈉、硝苯地平、鈣通道阻滯劑等藥物;(5)3個(gè)月內(nèi)接受過牙周治療、抗生素治療或使用含有抗菌素的漱口水。慢性牙周炎納入標(biāo)準(zhǔn):(1)口內(nèi)天然牙≥14顆;(2)臨床附著喪失(clinical attachment loss,CAL)≥1 mm牙齒占受檢牙齒的30%以上。2型糖尿病診斷標(biāo)準(zhǔn)符合1999年WHO糖尿病診斷標(biāo)準(zhǔn),已確診≥1年,近3個(gè)月服藥無變化。本研究獲得天津醫(yī)科大學(xué)倫理委員會(huì)批準(zhǔn)(編號(hào):TMUh-MEC2019047),所有受試者均簽署知情同意書。
1.2.1 牙周檢查:使用UNC-15牙周探針(豪孚迪Hu-Friedy公司,美國)檢查并記錄所有研究對象口內(nèi)余留牙,每顆牙記錄6個(gè)位點(diǎn)(近頰、正中、遠(yuǎn)頰、近舌、正中、遠(yuǎn)舌)的牙周探診深度(probing depth,PD)和CAL,記錄每顆牙頰舌面的牙齦出血指數(shù)(bleeding index,BI)和菌斑指數(shù)(plaque index,PLI)。
1.2.2 指數(shù)牙的齦下菌斑獲取:所有研究對象選取6顆指數(shù)牙16、11、26、31、36、46(若指數(shù)牙缺失則以該區(qū)段其他牙齒代替)。用無菌棉球擦去齦上軟垢,使用消毒后的Gracey刮治器(豪孚迪Hu-Friedy公司,美國)于每顆牙刮取6個(gè)位點(diǎn)(近頰、正中、遠(yuǎn)頰、近舌、正中、遠(yuǎn)舌)的齦下菌斑,置于裝有1.5 mL PBS(北京索萊寶科技有限公司,中國)的微量離心管中,凍存于-80 ℃?zhèn)溆谩?/p>
1.2.3 拉曼光譜數(shù)據(jù)采集:(1)將奧譜天成拉曼光譜儀(ATR3110-785,奧譜天成公司,中國)與電腦連接,顯示在線狀態(tài);(2)調(diào)整拉曼光譜儀參數(shù),激光波長785 nm,激光強(qiáng)度200 mW,積分時(shí)間10 s,積分次數(shù)1次,光譜掃描范圍200~2 600 cm-1,擦鏡紙擦拭拉曼光譜儀光纖探頭;(3)使用校準(zhǔn)樣品乙腈作為測量樣品,得到正確光譜曲線數(shù)據(jù),確認(rèn)可使用;(4)對裝在1.5 mL微量離心管中的菌斑樣本進(jìn)行測量(注意使光纖探頭正對菌斑樣本),每個(gè)樣本重復(fù)測量10次。
采用SPSS 25.0統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析,計(jì)數(shù)資料采用Fisher’s精確檢驗(yàn)或Pearson χ2檢驗(yàn)比較;計(jì)量資料以±s表示,2組比較采用獨(dú)立樣本t檢驗(yàn),3組比較采用單因素方差分析。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
本研究使用拉曼光譜儀自帶的扣除暗底功能,將扣除暗底基線平滑后的原始數(shù)據(jù)納入研究。應(yīng)用Auto-Sklearn工具包[7],使用8種機(jī)器學(xué)習(xí)算法構(gòu)建模型,算法包括極限樹(extra trees,ET)、自適應(yīng)提升(AdaBoost,ADA)、梯度提升(gradient boosting,GB)、線性判別分析(linear discriminant analysis,LDA)、支持向量機(jī)(support vector machine,SVM)、多層感知器(multi-layer perceptron,MLP)、被動(dòng)攻擊分類器(passive-aggressive classifier,PAC)和二次判別分析(quadratic discriminant analysis,QDA)。
本研究共得到20個(gè)A組齦下菌斑樣本(200個(gè)光譜)、23個(gè)B組齦下菌斑樣本(230個(gè)光譜)和23個(gè)C組齦下菌斑樣本(230個(gè)光譜)3個(gè)數(shù)據(jù)集。驗(yàn)證過程采用3折交叉驗(yàn)證[8],3個(gè)數(shù)據(jù)集中的每一個(gè)均按照齦下菌斑樣本編號(hào)隨機(jī)劃分為3個(gè)大小近似相等的子集,3次訓(xùn)練和驗(yàn)證過程中,每次都有3個(gè)類別的各1個(gè)子集作為驗(yàn)證集,其余2個(gè)子集作為訓(xùn)練集,重復(fù)3次后,每個(gè)子集都作為1次驗(yàn)證集和2次訓(xùn)練集參與了整個(gè)交叉驗(yàn)證過程。樣本的類別標(biāo)簽由其10個(gè)光譜的預(yù)測標(biāo)簽采用多數(shù)投票制決定。
如表1所示,3組年齡比較有統(tǒng)計(jì)學(xué)差異(P<0.05);3組性別比較無統(tǒng)計(jì)學(xué)差異(P=0.11);A組與B組體質(zhì)量指數(shù)(body mass index,BMI)比較無統(tǒng)計(jì)學(xué)差異(P=0.06),A組、B組與C組BMI比較有統(tǒng)計(jì)學(xué)差異(P<0.01)。

表1 3組一般特征比較Tab.1 Comparison of general characteristics among the three groups
如表2所示,A組與B組PD比較無統(tǒng)計(jì)學(xué)差異(P=0.14),A組、B組與C組比較有統(tǒng)計(jì)學(xué)差異(P<0.05);A組與B組CAL比較有統(tǒng)計(jì)學(xué)差異(P<0.05);A組與B組BI比較無統(tǒng)計(jì)學(xué)差異(P=0.52),A組、B組與C組比較有統(tǒng)計(jì)學(xué)差異(P<0.05);A組與B組PLI比較無統(tǒng)計(jì)學(xué)差異(P=0.95),A組、B組與C組比較有統(tǒng)計(jì)學(xué)差異(P<0.05)。

表2 3組牙周狀況比較Tab.2 Comparison of periodontal status among the three groups
如圖1所示,3組齦下菌斑的平均拉曼光譜中,較為明顯的拉曼高峰為代表鳥嘌呤的397 cm-1[9],代表蛋白質(zhì)S-S二硫鍵拉伸的524 cm-1[10],代表磷酸鹽離子相互作用的806/807 cm-1[10],代表脯氨酸和羥脯氨酸C-C拉伸的839 cm-1[10],代表蛋白質(zhì)和核酸的υ(C-C)擺動(dòng)的971 cm-1[10],代表脂質(zhì)υ(C-C)的1 151 cm-1[10],代表核酸嘌呤堿基中CH3/CH2擺動(dòng)模式的1 328 cm-1[10],代表核酸模式的1 458 cm-1[10]。

圖1 3組齦下菌斑的平均拉曼光譜Fig.1 Average Raman spectra of the three groups of subgingival plaques
2.4.1 三分類的最優(yōu)模型:圖2所示為測試的8種算法模型在光譜級別的3折交叉驗(yàn)證結(jié)果。該準(zhǔn)確率是3組子集分別作為驗(yàn)證集時(shí)的準(zhǔn)確率均值。區(qū)分3組齦下菌斑在光譜級別的最優(yōu)模型是LDA,準(zhǔn)確率為62.5%。圖3所示為測試的8種算法模型在樣本級別的3折交叉驗(yàn)證準(zhǔn)確率,最優(yōu)模型是LDA,準(zhǔn)確率為60.6%。

圖2 測試的8種算法模型在光譜級別的3折交叉驗(yàn)證結(jié)果匯總的混淆矩陣Fig.2 Confusion matrix of the 3-fold cross-validation results at the spectral level for the eight tested models

圖3 測試的8種算法模型在樣本級別的3折交叉驗(yàn)證結(jié)果匯總的混淆矩陣Fig.3 Confusion matrix of the 3-fold cross-validation results at the sample level for the eight tested models
2.4.2 二分類的最佳模型:為了探索任意2組齦下菌斑拉曼光譜之間的差異,分別在3組二分類數(shù)據(jù)上訓(xùn)練了8個(gè)機(jī)器學(xué)習(xí)算法模型。圖4中條形圖顯示了分類器在光譜級別和樣本級別區(qū)分2組(A組 vs.B組、A組 vs.C組、B組 vs.C組)齦下菌斑的準(zhǔn)確率。在光譜級別,3組二分類數(shù)據(jù)的最佳模型分別來自LDA算法(A組 vs.B組,準(zhǔn)確率75.7%),ET和SVM算法(A組 vs.C組,準(zhǔn)確率70.9%),LDA算法(B組 vs.C組,準(zhǔn)確率86.9%)。在樣本級別,3組二分類數(shù)據(jù)的最佳模型分別來自LDA算法(A組 vs.B組,準(zhǔn)確率79.3%),ET和QDA算法(A組 vs.C組,準(zhǔn)確率74.2%)和LDA算法(B組 vs.C組,準(zhǔn)確率 87.2%)。8個(gè)模型中有7個(gè)模型區(qū)分“B組 vs.C組”比區(qū)分“A組 vs.C組”準(zhǔn)確率更高,區(qū)分“A組 vs.C組”比區(qū)分“A組 vs.B組”準(zhǔn)確率更高。

圖4 機(jī)器學(xué)習(xí)算法在樣本或光譜級別區(qū)分齦下菌斑的準(zhǔn)確率Fig.4 Accuracy rate of machine learning algorithm in differentiating subgingival plaque at the sample or spectral level
2型糖尿病可能會(huì)在一定程度上影響齦下牙周致病菌的水平,與健康對照組相比,2型糖尿病患者的齦下菌斑樣本中牙周致病菌的檢出率更高[4],2型糖尿病患者比單純慢性牙周炎患者具有更多齦下菌斑細(xì)菌計(jì)數(shù)[3],齦下菌斑微生物具有提示2型糖尿病的潛力。
既往對不同人群齦下菌斑的研究常用常規(guī)和實(shí)時(shí)PCR及16s rRNA基因測序技術(shù),需要復(fù)雜的樣品制備、昂貴的實(shí)驗(yàn)試劑和很高的技術(shù)要求。本研究使用拉曼光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法構(gòu)建模型,可區(qū)分不同人群的齦下菌斑,不需要復(fù)雜的樣本制備及昂貴的試劑,甚至可以椅旁操作,具有簡便、快速的優(yōu)點(diǎn)。
本研究應(yīng)用拉曼光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法構(gòu)建模型,對伴或不伴2型糖尿病的慢性牙周炎患者及健康成人的齦下菌斑進(jìn)行區(qū)分,準(zhǔn)確率最高達(dá)62.5%(LDA算法)。當(dāng)本研究對3組齦下菌斑進(jìn)行兩兩比較時(shí),模型分類準(zhǔn)確率有了一定的提高,模型分類準(zhǔn)確率最高可達(dá)70.9%~87.2%(LDA算法和ET算法)。如圖4所示,在3組齦下菌斑的二分類模型中,8個(gè)模型中有7個(gè)模型區(qū)分單純慢性牙周炎和健康成人的準(zhǔn)確率比區(qū)分慢性牙周炎伴2型糖尿病和健康成人更高,區(qū)分慢性牙周炎伴2型糖尿病和健康成人的準(zhǔn)確率比區(qū)分慢性牙周炎伴2型糖尿病和單純慢性牙周炎更高。說明本研究中伴或不伴2型糖尿病慢性牙周炎患者的齦下菌斑差異要小于健康成人和慢性牙周炎患者的齦下菌斑差異。本研究發(fā)現(xiàn),LDA算法在三分類模型和二分類模型中分類準(zhǔn)確率高且性能良好,推薦用于類似的鑒別工作。
綜上所述,拉曼光譜技術(shù)與機(jī)器學(xué)習(xí)算法結(jié)合的方案在識(shí)別3種人群齦下菌斑和探究不同人群齦下菌斑成分方面顯示出廣闊的發(fā)展前景,未來可作為篩查或診斷工具與臨床實(shí)踐相結(jié)合。該模型還具有改進(jìn)的空間,今后可通過增加樣本量,豐富訓(xùn)練和測試數(shù)據(jù),在更大的人群篩查中進(jìn)行2型糖尿病診斷時(shí),將獲得更高的靈敏度和特異度。
中國醫(yī)科大學(xué)學(xué)報(bào)2023年12期