彭景,鄒憶懷,宿家銘,吳康,宋凡,陳星
1.北京中醫藥大學東直門醫院 a.腦病科;b.腎病內分泌科;c.腦功能檢查室,北京 100700;2.北京航空航天大學 生物與醫學工程學院,北京 100191
頭暈是神經內科門診最常見的癥狀之一,在門診就診患者中占比5%~10%[1],其病因較復雜,且多種疾病均可引起頭暈,由于傳統MRI、CT等檢查方式的陽性率較低,且臨床上尚缺乏頭暈診斷的相關指南,導致頭暈的誤診率較高。經顱多普勒超聲(Transcranial Doppler,TCD)檢查能夠對不同類型的頭暈患者腦血流動力學改變進行分析,在實時監測血流動力學方面優勢明顯,可作為頭暈患者常用的輔助檢查手段[2]。然而,臨床上TCD檢查顯示的某些腦血管異常情況與頭暈之間的關系尚不明確,導致研究結果存在差異,且TCD臨床診斷受醫生的主觀因素影響較大。因此,探尋一種能從個體水平預測頭暈的腦血流特征,對頭暈患者臨床診斷及療效判斷具有重要意義。
機器學習算法的提出,為從個體腦血流特征參數預測頭暈等疾病提供了可能,如周興偉[3]采用BP神經網絡及最小二乘支持向量機理論實現了TCD信號的分類,并達到較滿意的分類正確率,表明使用機器學習聯合TCD預測腦血管相關疾病具有可行性。利用機器學習算法,計算機可以對現有知識進行結構劃分,并從繁雜的數據中自動分析獲得規律,檢測出難以識別的模式,已被廣泛用于關鍵特征的訓練和識別,以及群體的分類中[4]。
機器學習算法包括支持向量機、邏輯回歸、多層感知機等,其中支持向量機是一種解決非線形和線形問題的機器學習工具[5],其嘗試在高維或無限維空間中構造一個超平面或一組超平面,可用于分類、回歸或其他任務。在解決非線性問題時,核函數可以用來向原始數據添加額外的維數,從而使其在高維空間中成為線性可分問題。常用的核函數有多項式核函數、高斯核函數等,可以通過使用交叉驗證,以嚴格的統計方法選擇出最優的核函數[6]。邏輯回歸算法是機器學習中解決二元分類問題的一種常用方法,其使用Sigmoid函數作為研究中的預測函數,通過線性函數y=wx+b的運算來對輸入變量x和輸出變量y之間的關系進行建模[7],y則通過Sigmoid函數轉換成標簽化的結果,該函數閾值是一個可調節的參數。多層感知機屬于人工神經網絡,主要包括輸入層、隱藏層和輸出層[8],它中間可以有多個隱藏層。其作為一種簡明有效的網絡,能夠有效地優化目標函數,提高模型準確率[9]。
傳統機器學習算法具有模型簡單、易于提取特征、小樣本結果穩定等優點,但單一的機器學習模型所能解決的問題有限,需要較為復雜的特征工程,且泛化能力差。而集成學習[10]通過訓練若干個弱學習器,經過一定的結合策略最終形成一個強學習器來解決問題,能夠顯著提高學習系統的泛化能力[11]。此外,基于L2,1范數的稀疏特征選擇方法,使用各種不同的稀疏模型,使得被選擇出來的特征盡可能稀疏且具有判別性,從而進一步提高機器學習模型識別精度[12]。
基于此,本研究旨在利用高魯棒性的L2,1范數有效提煉出預測頭暈患者的TCD血流特征參數,并應用機器學習模型從個體水平分類和預測頭暈患者,建立診斷模型,以期為頭暈的診斷與防治提供一定的理論依據。
選取2020年4月至2021年10月在北京中醫藥大學東直門醫院腦病科門診主訴頭暈并經TCD檢查的患者41例,并選取同時期健康體檢者21例作為研究對象。頭暈診斷標準采用Troost[13]的方法(包括身體不穩、虛弱無力等癥狀)。納入標準:① 符合上述診斷標準的患者;② 病歷資料完整的患者;③ 已獲得患者或家屬的知情同意。排除標準:① 前庭周圍性疾病、腦出血、中樞神經系統脫髓鞘疾病、顱內腫瘤、神經系統病變、全身性疾病所致頭暈的患者;② 對檢查不配合或不能有效完成檢查的患者。共納入男性27例,女性35例,其中頭暈組年齡(53.98±11.25)歲,體檢組年齡(50.71±7.96)歲,兩組受試者年齡(t=-1.18,P=0.24)、性別(χ2=0.214,P=0.64)比較差異均無統計學意義。本研究經北京中醫藥大學東直門醫院倫理委員會審核批準(倫理號:DZMEC-KY-2019-180)。
TCD檢查:采用美國Natus公司生產的TCD診斷儀(型號:SONARA/tek),探頭頻率2 MHz。通過顳窗、眼窗和枕窗,分別記錄雙側大腦中動脈、雙側頸內動脈終末段、雙側頸內動脈虹吸段、雙側大腦前動脈、雙側大腦后動脈、雙側椎動脈、基底動脈近遠端的血流信號,測量以上14個血管部位的收縮期峰值流速(Peak Systolic Velocity,Vs)、舒張期末期流速(End Diastolic Velocity,Vd)、平均流速(Mean Velocity,Vm)、搏動指數(Pulsatility Index,PI)、阻力指數(Resistance Index,RI),并根據有無頭暈癥狀分別賦值“0”和“1”(頭暈患者賦值“0”,健康體檢者賦值“1”)構建數據集。圖1為1例典型頭暈患者的TCD血流特征參數圖。

圖1 1例典型頭暈患者的經顱多普勒血流特征參數圖
1.3.1 數據集劃分
按照自然比例,將所有研究對象隨機劃分為10份,其中8份作為訓練集,2份作為測試集。為解決正負樣本不平衡問題,使用SMOTE算法通過構造新的小類樣本進行訓練集的數據擴增,并進行訓練集數據平衡,使兩類訓練集上數據變為1∶1。
1.3.2 特征選擇

1.3.3 模型建立與評價
特征選擇完成后,采用3種獨立機器學習算法及1種集成學習算法構建頭暈的TCD輔助診斷模型,包括邏輯回歸、支持向量機和多層感知機,以及將上述3種獨立分類器進行集成學習(軟投票方法:即將上述3種單一分類器的投票結果乘以一個權重wi,再將所有乘以權重后的結果求和,最終以最大的票數類別作為集成模型最終的預測類別)。對于模型的超參數,在訓練集上進行5折交叉驗證,通過平均受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under Curve,AUC)值,以及網格搜索法來選擇機器學習模型的超參數;然后基于訓練集進行模型的構建,再基于測試集對構建的分類器模型分別進行預測。并使用總體正確率(Accuracy,ACC)、AUC值評價模型性能。
SPSS 20.0為統計學處理方式,機器學習特征選擇與模型建立均使用Python 3.9進行。
使用L2,1范數方法共提取出29個特征,圖2展示了權重由大到小的前10個特征,依次為:右側椎動脈舒張末期流速(Right Vertebral Artery End Diastolic Flow Velocity,Vd-RVA)、右側大腦中動脈收縮期峰值流速(Right Middle Cerebral Artery Peak Systolic Flow Velocity,Vs-RMCA)、右側椎動脈收縮期峰值流速(Right Vertebral Artery Peak Systolic Flow Velocity,Vs-RVA)、右側椎動脈阻力指數(Right Vertebral Artery Resistance Index,RI-RVA)、右側大腦中動脈舒張末期流速(Right Middle Cerebral Artery End Diastolic Flow Velocity,Vd-RMCA)、右側大腦中動脈阻力指數(Right Middle Cerebral Artery Resistance Index,RIRMCA)、左側大腦后動脈搏動指數(Left Posterior Cerebral Artery Pulsatility Index,PI-LPCA)、右側頸內動脈終末端阻力指數(Right Internal Carotid Artery Resistance Index,RIRICA)、右側大腦后動脈阻力指數(Right Posterior Cerebral Artery Resistance Index,RI-RPCA)、右側大腦后動脈搏動指 數(Right Posterior Cerebral Artery Pulsatility Index,PIRPCA)。

圖2 區分頭暈患者排名前10的腦血流特征及其權重情況
本研究基于邏輯回歸、支持向量機和多層感知機3種獨立分類器,以及基于上述3種單一分類器軟投票方法的集成學習算法進行模型構建,其模型評價結果如表1所示。由表1可知,在對頭暈患者的TCD血流數據的預判上,單一分類器中邏輯回歸的效果最好,其ACC達到了0.750,與集成學習模型的效果相同,其次為支持向量機和多層感知機,其ACC均為0.667。圖3顯示的是各個分類器模型在訓練集上的ROC曲線。由圖3可知,在訓練集上采用5折交叉驗證的集成學習模型平均AUC值達到了最高,其次為多層感知機、邏輯回歸和支持向量機。圖4顯示的是各個分類器模型在測試集中的ROC曲線,由圖4可知,4種機器學習方法AUC值排名依次是集成學習為0.906,邏輯回歸為0.875,支持向量機和多層感知機均為0.844。

圖3 4種分類器模型在訓練集中的ROC曲線

圖4 4種分類器模型在測試集中的ROC曲線

表1 4種分類器模型的訓練集及測試集ACC和AUC值
TCD檢查在腦血管疾病的診斷中具有簡單、易行、可重復、無創、經濟等優點,對于可能存在腦血流動力學改變的頭暈患者是較適用的臨床輔助檢查工具[16]。截至目前,TCD血流特征參數與頭暈的相關性研究多采用傳統的單變量分析方法,側重于組水平患者TCD血流信號與頭暈之間的統計關系[17-18]。但是,從個體水平識別頭暈患者血流動力學的改變可以提供豐富的隱藏信息。因此,本研究從個體水平探究了TCD所示的腦血流參數異常與頭暈之間的關系,創新性地將L2,1范數方法運用于頭暈患者腦血流參數的特征選擇,并運用邏輯回歸、支持向量機和多層感知機3個獨立的分類器及軟投票的集成學習進行模型構建。
基于L2,1范數方法數據分析顯示,按權重大小篩選出的前10個關鍵特征變量作為TCD檢查中腦血流改變的關鍵特征,對頭暈患者的診斷具有重要指導意義。首先,由圖2可知,頭暈患者腦血流動力學改變以椎基底動脈為主,包括權重比較靠前的Vd-RVA、Vs-RVA和RI-RVA等。椎基底動脈系統為小腦、腦干等中樞前庭系統和內耳等外周前庭系統的主要供血來源,其發育不良或動脈粥樣硬化等病變導致血管狹窄或閉塞而出現的血流動力學出現異常是頭暈患者腦血流動力學改變的主要形式[19-20]。此外,屬于頸內動脈系統的大腦中動脈、大腦后動脈、頸內動脈終末段血流流速異常也是區分頭暈患者和健康者的重要特征。頸內動脈系統提供全腦血供的3/5,當頸內動脈系統出現嚴重狹窄或閉塞時,顱內血液可通過前、后交通動脈重新分布,或通過其他側支開放供應前循環,腦干會顯示出“顱內盜血綜合征”[21],同樣可以造成椎基底動脈供血不足致頭暈的表現。曹麗芝[22]探究235例頭暈患者腦血流動力學改變,結果認為椎基底動脈系統的收縮期峰值流速降低以及大腦中動脈、大腦前動脈的收縮期峰值流速增快為主要表現,且劉菊華[23]對180例頭暈患者行TCD檢查發現,受累最多的部位是椎基底動脈系統,其次為頸動脈系統,與本研究結果一致。除腦血管流速改變外,頭暈患者異常腦血流特征參數還包括RI和PI。TCD的RI可反映外周血管對血流阻力的變化,PI則是評價血管阻力及腦血流灌注狀況的指標,可反映血管的順應性。本研究結果顯示,后循環RI變化對于區分頭暈患者占有更大的權重。正常情況下,血管在收縮期時,心臟射血導致血管管腔變大,此時血管阻力變小,若血管阻力出現異常,即RI值異常增大,提示管腔變小,血管很可能發生了阻塞或狹窄而導致后循環腦血流灌注不足導致頭暈甚至腦梗死的征兆[24]。
對于模型的建立,本研究同時將邏輯回歸、支持向量機和多層感知機3種獨立分類器進行集成學習,達到了最高的分類ACC及AUC值,提示集成學習方法更適合于頭暈患者TCD血流特征的分類和預測,具有較好的效能。集成學習的優勢之一為其可以通過一定的集成策略將多個弱分類器的結果整合在一起,其集成過程可以降低過擬合的風險,提高數據集的泛化水平和分類器的泛化能力,從而達到更好的集成學習精度[25]。目前集成學習作為一種可以最大化提升學習效果的技術,推動了醫療健康等諸多領域的發展,廣泛應用于疾病輔助診斷系統、人類行為識別、人臉識別[26]等領域。此外,表1結果顯示,邏輯回歸和支持向量機模型測試集AUC值高于訓練集,推測原因為在訓練集和測試集同分布情況下樣本量有限所致,但綜合分類結果ACC值,整體上訓練集結果優于測試集。
本研究運用L2,1范數的機器學習法對頭暈患者TCD血流動力學參數進行識別,發現頭暈與椎基底動脈、大腦中動脈、大腦后動脈、頸內動脈終末段等血流動力學改變密切相關,且利用集成學習法能夠結合多個模型算法,從而建立較為精確的診斷模型。