吳暉南 陳淑嬌 陳展峰 楊葉楠 曾程浩 吳莎莎 蘇雪云
糖尿病是一種由異常高血糖引起的內分泌系統疾病,是全球最常見、增長最快的疾病之一。國際糖尿病聯合會(International Diabetes Federation,IDF)預測2016—2045 年,糖尿病的患者數量將從4.25 億上升至6.29 億。我國目前已有1.63 億成年人,患病率為11.4%,高居全球首位,其中90%為2 型糖尿病;2045 年將達到2.12 億[1]。同時,糖尿病患者往往會并發多種疾病,這些患者每年在疾病治療上背負著巨大的經濟負擔[2-4]。據許多研究報道,年齡、性別、身高、體質量、高血壓、血脂等因素是糖尿病風險評分系統的傳統危險因素[5-7]。這些大量且沒有相對重要性的指標使臨床醫生在糖尿病臨床風險評估上難以做出決策。因此,有必要構建一種糖尿病預測模型以幫助臨床醫生早期識別患者的發病風險,同時為患者提供早期治療,以達到早發現、早治療、減緩疾病進展、減少其并發癥的目的。糖尿病預測模型的建立可以更精準地早期發現和預測糖尿病的發生[8]。早期發現有助于發現糖尿病前期患者并及時進行干預,避免發展成糖尿病;且有助于預防并發癥的發生。糖尿病的各種急性或慢性并發癥,會對患者的生活、心理健康和經濟產生很大的影響,會嚴重影響患者的生活質量,縮短壽命。早期風險評估結合有效的干預措施將有助于預防糖尿病的發生、減緩糖尿病的進展。近年來,疾病風險預測模型已經被廣泛應用。在人工智能的計算機科學時代,機器學習結合統計技術的應用使計算機能夠在沒有明確編程的情況下“學習”特定的任務[9]。日常的機器算法模型有Logistic 回歸、貝葉斯網絡、隨機森林、XGBoost 和輕量級梯度提升術(Light gradient boosting machine,LightGBM)等[10]。本研究基于機器學習算法和群體數據,構建了一種高效的糖尿病預測模型,利用LightGBM 機器學習方法和傳統的Logistic 回歸方法進行模型建立,達到最精確地預測患者患糖尿病的可能性。
提取2016 年1 月—2021 年12 月石獅市某社區衛生服務中心的體檢及就診數據庫。
在多種機器學習算法中,選擇使用LightGBM 機器學習方法,并以傳統的Logistic 方法作為對照。
1.2.1 數據集預處理
收集石獅市某社區衛生服務中心的群體數據,數據集含有165 263 行,42 個特征。對收集到的數據進行數據清洗、缺失值處理、特征選擇和均值標準化處理。通過數據探索性分析(exploratory data analysis,EDA),探索特征與糖尿病之間的關系,篩選出可能最利于模型預測的特征,并對數據進行特征編碼,以提高模型的預測能力。
1.2.2 模型訓練和性能評估
將原數據集隨機劃分為訓練集(80%數據)和測試集(20%數據)。訓練集使用k 折交叉驗證方法(k =5)交叉驗證。評估模型在訓練集上的性能,并對模型進行參數選擇和超參數優化。測試集用于測試模型,并評估模型的準確性。使用精確度、召回率(即敏感度)、特異性通過測試集進行模型性能評估。
數據使用Kolmogorov-Smirnov(KS)方法進行正態性檢驗,P<0.05 為差異有統計學意義。數據由python 3.8 分析,LightGBM 基于LightGBM 庫(https://github.com/microsoft/LightGBM)。合成少數類過采樣技術(synthetic minority oversampling technique,SMOTE)和NearMiss 基于imbalanced-learn 庫(https://imbalanced-learn.org/stable/)。
本次用于模型訓練的數據共有165 263 條,其中糖尿病患者占比僅2.4%,數據集存在正負樣本不平衡的問題(圖1A);因此,嘗試了SMOTE 過采樣和NearMiss 下采樣方法以提高模型的表現,發現過采樣方法效果更佳。通過確診日期距離體檢日期的天數分布直方圖可以看出大部分患者在體檢后3 年內確診,很多確診間隔<60 d,因此間隔時間短(<5 d)的數據可能更適合作為診斷模型而非預測模型(圖1B)。

圖1 用于模型訓練的數據基本情況。A:糖尿病患者在全部模型訓練數據中占比;B:確診日期距離體檢日期的天數分布直方圖。
選取了20%的樣本分別對兩種模型進行了驗證,驗證樣本包含48 420 名正常人,1 159 例患者。通過表1可以觀察到,傳統Logstic 模型綜合準確率為73%,宏觀精確度為53%,宏觀召回率為76%,F1 值48%,針對患病群體的精確度僅為6%。而相較于傳統Logistic 模型,LightGBM 模型綜合準確率為97%,宏觀精確度72%。宏觀召回率80%,F1 值75%,針對患病群體的精確度為42%。

表1 兩種模型評估結果比較(%)
因為糖尿病的發病率與年齡的增長呈正相關,為了去除年齡分層對模型結果的干擾,按照0~50 歲、51~60 歲、61~70 歲、70 歲以上進行分層,做出對應的細分小模型(表2)。但分層后模型的效果并未有顯著提升。其中,年齡層越大的模型對應的性能表現越好,因為對應的樣本量和患者數量越多,但表現并未超出主模型太多。因而,根據年齡進行分層并不能有效提升模型表現。

表2 各年齡層樣本分布情況(例)
近年來,隨著大數據時代的到來,基于機器學習的糖尿病預測模型也成為學術研究的熱點[11-12]。LightGBM 模型是機器學習中的一種算法,它是基于經典的梯度提升決策樹(gradient boosting decision tree,GBDT)算法的改進,旨在解決GBDT 在海量數據中遇到的問題,讓GBDT 可以更好更快地被應用。近年來,LightGBM 模型廣泛地應用于醫學領域,如心臟病預測、腦出血相關肺炎預測、妊娠期糖尿病預測等[13-15]。LightGBM 模型比傳統Logistic 模型具有一定的優勢。
通過對比可以觀察到,在模型存在一定的正負樣本不平衡的情況下,LightGBM 模型比傳統Logistic模型預測2 型糖尿病更準確。LightGBM 模型應用范圍極廣,曾被用于預測高危人群腦卒中風險、膽囊癌、急性腎損傷等疾病評估[16-17];也有多個研究證實了使用LightGBM 對糖尿病進行預測的優越性,但這些研究均基于皮馬印第安人等國外人群樣本,而沒有基于我國本土人群的更為特異的LightGBM 預測模型[18-21]。通過本研究證明了LightGBM 基于本土數據集遠優秀于傳統Logistic 模型的糖尿病預測準確度,同時證實了LightGBM 在糖尿病預測上的廣泛應用前景,表明了機器學習算法的預測準確性。
本研究基于LightGBM 模型的糖尿病預測模型,旨在通過機器學習方法提高糖尿病預測的準確性。使用社區衛生服務中心包含糖尿病患者和非糖尿病患者的大規模數據集。數據集包括患者的基本信息、生活習慣、生化指標等多個特征。在預處理階段,本研究對數據進行了缺失值處理、異常值處理和特征縮放等操作,以確保數據質量。在訓練過程中,本研究采用了交叉驗證方法,以評估模型的泛化能力。同時,本研究調整了LightGBM 模型的超參數,以優化模型性能。
本研究結果顯示,LightGBM 模型的糖尿病預測模型的綜合準確率、宏觀準確度、宏觀召回率、F1 值都高于Logistic 模型,可能因為收集的大數據庫大多為不平衡標本,Logistic 模型處于劣勢。針對患病群體的精確度在Logistic 模型只有6%,而LightGBM 模型可以達到42%,而且隨著后續機器繼續學習,精確度還會逐漸提升。考慮到糖尿病發病與年齡因素有明確的正相關,為排除年齡對預測模型的影響,本研究按照0~50 歲、51~60 歲、61~70 歲、70 歲以上4 個年齡段進行分層,做出對應的細分小模型。分層后重建模型,但模型的效果并未有顯著提升。雖然,年齡層越大的模型對應的性能表現越好,因為對應的樣本量和患者數量越多,與主模型無明顯差異。因此,最后模型設計未采納年齡分層的模式。
研究基于LightGBM 模型的糖尿病預測模型,通過對臨床數據中的生物特征、生活習慣、基本生化指標等因素進行分析,預測糖尿病的患病風險。結果表明,該模型具有較高的準確率,可以為醫生提供更多的客觀數據支持,幫助其做出更準確的診斷和治療決策,同時也可以為患者提供個性化的健康管理建議,從而有效降低糖尿病的發病率和并發癥風險,改善患者的生活質量。在未來的研究中,將繼續優化模型,提高預測精度,并為臨床實踐提供更加有效的支持。通過實驗研究,發現機器學習算法在糖尿病預測模型中具有以下優點:(1)提高預測準確性:機器學習算法可以自動處理和分析大量數據,挖掘出潛在的風險因素,從而提高模型的預測準確性。(2)優化特征選擇:機器學習算法可以自動選擇最重要的特征,去除無關緊要或冗余的特征,從而提高模型的泛化能力。(3)高效構建模型,可反復驗證和修正:機器學習算法邏輯關系確定后可以反復進行驗證和修正,而且通過數據量的逐漸增加,日趨接近真實情況。
然而,機器學習算法也存在一些局限性,如對數據質量和標注的依賴較強,需要大量的訓練數據才能達到較好的性能等。此外,不同的機器學習算法可能適用于不同的數據類型和問題場景,需要根據具體情況進行選擇。
綜上所述,本研究利用LightGBM 和傳統Logistic 算法,基于本土數據模型構建了更加具有特異性的糖尿病預測模型。首先,在對石獅市某社區衛生服務中心進行數據預處理的基礎上,將處理過的數據隨機劃分為訓練集和測試集,將測試集代入訓練后的模型以驗證糖尿病預測的準確性;本研究以同樣的方法利用傳統Logistic算法搭建模型進行疾病預測,并將兩種模型的預測結果進行對比,證實了LightGBM 模型的準確性;通過試驗得出,基于本土樣本的LightGBM 模型特異性強,精確度高,模型解釋能力強,有廣闊的臨床應用價值。LightGBM 算法可以得到預測精度較高的預測模型,但訓練后得到的模型面臨黑箱問題,其可解釋性較差,即難以使醫生理解其決策過程。筆者將繼續對模型進行完善,并嘗試使用博弈論模型的方法(shapley additive explanations,SHAP)和(local interpretable model-agnostic explanations,LIME)運用于解釋模型的輸出,以幫助醫生理解和應用模型。后續還需進一步通過機器學習優化模型表現,并進行轉化為應用模式,以幫助更多的公衛醫生和臨床醫師進行決策。此文的研究結果也為糖尿病預測模型后期標準制定提供了借鑒內容。