




摘 要:醫(yī)學(xué)數(shù)據(jù)的類重疊問(wèn)題會(huì)嚴(yán)重影響疾病的智能診斷效果。為了減輕腰椎間盤樣本的類重疊對(duì)分類器產(chǎn)生的不良影響,提出了一種可減輕類重疊的混合采樣算法———CO_HS算法。該算法將訓(xùn)練樣本劃分為核心樣本、邊界樣本和噪聲樣本,對(duì)重疊區(qū)域的樣本進(jìn)行采樣,以減輕樣本集的類重疊程度。采用CO_HS算法產(chǎn)生的新訓(xùn)練樣本集訓(xùn)練RF等分類模型,并建立了6種新的腰椎間盤退變分類器。實(shí)驗(yàn)結(jié)果顯示,建立的新分類器在多項(xiàng)性能指標(biāo)上均實(shí)現(xiàn)了顯著提升,其中準(zhǔn)確度提升了7.8百分點(diǎn)~12.7百分點(diǎn),kappa 系數(shù)提升了11.6百分點(diǎn)~20.2百分點(diǎn),敏感性提升了7.9百分點(diǎn)~16.8百分點(diǎn),特異性提升了9.0百分點(diǎn)~18.2百分點(diǎn),F(xiàn) 指標(biāo)提升了9.4百分點(diǎn)~18.4百分點(diǎn)。因此,CO_HS算法被證明是一種能有效解決樣本類重疊問(wèn)題、改善分類性能的高效方法。
關(guān)鍵詞:智能醫(yī)學(xué);類重疊;混合采樣;腰椎間盤退變
中圖分類號(hào):TP181;R604 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
腰椎間盤是處于兩個(gè)相鄰椎骨之間的軟骨組織,具有緩解震蕩、保證脊柱靈活性的重要功能[1-2]。隨著年齡的增長(zhǎng),人體的腰椎間盤會(huì)自然發(fā)生退變。有研究表明,腰椎間盤退變(Lumbar Disc Degeneration,LDD)是造成腰背痛的主要原因[3]。目前,腰背痛的發(fā)病率持續(xù)上升,已成為一個(gè)全球性的健康問(wèn)題[4-5]。為了更有效地預(yù)防和治療腰椎間盤退變引起的腰部疾病,對(duì)腰椎間盤退變程度進(jìn)行準(zhǔn)確診斷顯得尤為重要。
腰椎間盤的代謝組學(xué)可以全過(guò)程捕獲LDD 的演化狀態(tài)[6]。現(xiàn)有研究證實(shí),腰椎間盤代謝組學(xué)變化在先,形態(tài)改變與臨床癥狀在后[7]。借助機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能方法建立基于代謝組學(xué)的腰椎間盤退變分類器,可以輔助醫(yī)生診斷LDD,提高治療頑固性腰背痛和抑制脊柱功能衰退的效果[8-9]。然而,研究中采集到的不同退變程度的腰椎間盤樣本在特征空間上相互交集,存在所謂的類重疊問(wèn)題[9]。直接采用有類重疊的樣本集訓(xùn)練分類器會(huì)導(dǎo)致分類器性能不佳[10-11]。因此,采用適當(dāng)?shù)姆椒ǎㄈ鐢?shù)據(jù)重采樣方法)減輕腰椎間盤樣本集的類重疊程度,是提高LDD分類器性能的有效途徑。