鄭彩霞,王 靜,楊 杰,代 哲,武瓊華
臨床預測模型是指利用參數、半參數和非參數的數學模型,預測個體臨床相關結果存在或將來發生的概率[1]。準確的臨床預測模型可以幫助個體有效識別高危因素,減少疾病的發生和發展。作為一種評估風險和收益的量化工具,臨床預測模型還可以促進醫務工作者優化臨床決策,提升生命質量,因此其應用廣泛[2]。糖尿病是一種威脅全球健康的代謝紊亂性疾病;全世界約有 1/11的人群患有糖尿病[3]。利用臨床預測模型預測糖尿病及其并發癥的發生和發展,為糖尿病的早期篩查、診斷和治療等方面提供快速、科學、準確的方法學工具,可以降低糖尿病患者的醫療負擔、致殘率和致死率。目前,國內外開發了越來越多與糖尿病相關的預測模型[4-6],但缺乏系統分析。因此,本文對糖尿病領域相關文獻進行可視化分析,探索糖尿病預防領域研究者的關注方向,有利于醫護人員早期識別高風險人群,以期為今后臨床預測模型在糖尿病研究中的應用提供支持和參考。
本文選擇Web of Science 核心合集為數據庫來源,檢索式為:(主題=“diabetes”OR“mellitus”OR“diabetes mellitus”OR“hypoglycemia”OR“gestational diabetes”OR“diabetic foot ulcer”OR“diabetic nephropathy”)AND(主題=“prediction model”OR“risk prediction”OR“clinical prediction model”),時間限定為2010 年1 月至2021 年9 月,文獻類型為Article,人工剔除與研究主題不相關的文獻和會議記錄,最終納入3 006 篇文獻。
利用Web of Science核心合集數據庫的文獻分析功能分析文獻的年度分布,采用CiteSpace5.8.R3 軟件對國家、機構、作者、關鍵詞和共被引文獻進行可視化分析,將Web of Science 的文獻以“全記錄與引用參考文獻”的格式導出,以“純文本”格式導入CiteSpace 軟件。時間跨度選擇2010-2021 年,時間切片為1 年,閾值為Top N=50,裁剪方式為Path Finder、Pruning Sliced Networks 和Pruning the Merged Network。
Web of Science 數據庫收錄的2010-2121 年糖尿病風險預測模型研究文獻數量總體呈上升趨勢,其中2010-2014 年為緩慢增長期,2014-2017 年為持續增長期,2017-2020 年為快速增長期。2020年相關研究文獻數量最多(為439 篇),2021 年1-9 月已發表389 篇。
以Country(國家)和Institution(機構)為節點進行分析,結果顯示,共有96 個國家和地區、318 個機構發表了糖尿病風險預測模型研究文獻。其中,相關研究文獻數量排名前10 位的國家和機構如表1 所示,美國相關研究文獻數量最多,中國次之;英國和美國中心度最大,中國和印度中心度最低。發文機構中,瑞典Lund University(隆德大學)相關研究文獻數量最多,中心性也最高。研究作者中,高產作者均來自芬蘭。對文獻被引頻次進行分析,得到15 篇高被引文獻,可概括為以下幾類:預測糖尿病的患病率、糖尿病的診斷與分類、糖尿病預測模型的驗證和預測性能的評估,以及糖尿病研究中的機器學習和數據挖掘。

表1 糖尿病風險預測模型研究文獻數量排名前10 位的國家和機構
利用CiteSpace 軟件以Keyword(關鍵詞)為節點進行分析,關鍵詞共現圖譜如圖1 所示。表2列出了出現頻次排名前20 位的關鍵詞,通過刪除與主題詞相關的詞和合并同義詞,將關鍵詞分為糖尿病的診斷和預防、糖尿病的心血管并發癥、糖尿病患者的生活方式和自我管理、妊娠糖尿病,以及兒童糖尿病5 類。

圖1 糖尿病風險預測模型研究文獻關鍵詞共現圖譜

表2 糖尿病風險預測模型研究文獻出現頻次排名前20 位的高頻關鍵詞
2010-2021 年糖尿病風險預測模型研究文獻的關鍵詞突現情況如圖2 所示,得到19 個突現關鍵詞,其中早期關注主題為follow up(隨訪)、islet cell antibody(胰島細胞抗體)、C reactive protein(C 反應蛋白)、coronary heart disease(冠心病)、IDDM(胰島素依賴性糖尿病)、artery disease(動脈疾病)。研究時間較長的主題是glycated hemoglobin(糖化血紅蛋白),研究持續時間為7 年;其次是cardiovascular risk factor(心血管危險因素),研究持續時間為6年。后期研究及研究前沿主要集中在peripheral arterial disease(外周動脈疾病)、kidney disease(腎病)、management(管理)、hypoglycemia(低血糖)和machine learning(機器學習)等方面。

圖2 糖尿病風險預測模型研究文獻的關鍵詞突現分析
通過分析2010-2021 年糖尿病風險預測模型研究文獻數量,發現隨著糖尿病發病率及不良預后發生率的增高,對糖尿病及其并發癥的預防逐漸成為研究者關注的重點。近年來,糖尿病領域臨床預測模型相關文獻數量呈快速增長趨勢。相關文獻數量和中心度的排名結果顯示,美國、英國等歐美國家在糖尿病臨床預測模型方面的研究取得了一定的成果,影響力較大。其中瑞典、芬蘭、丹麥等北歐國家雖然人口較少,但糖尿病預測相關研究十分集中且成熟,該領域有影響的研究機構約一半來自北歐國家。芬蘭和瑞典都有糖尿病預防相關研究中心,并提倡精準醫學,即針對到每個人基因、環境和生活方式等個體差異的一種新型疾病治療和預防方法[7],以促進更準確的治療和預防。
我國相關研究文獻數量方面排在世界第2 位,研究成果頗豐,說明我國在該領域具備較強的科研能力,然而中心性較低且無高產作者和機構,說明研究相對較為分散,缺乏權威性核心研究機構;同時我國與其他國家的合作交流較少,國際影響力有待進一步擴大。我國應加強與歐美國家及機構的合作,借鑒芬蘭、瑞典等北歐國家的糖尿病預防模式。目前已有研究表明,芬蘭版糖尿病風險評估量表在靈敏度和預測性能上優于中國版[8],未來我國應在糖尿病發病病因的預測方面深入研究,以取得突破性進展。
3.2.1 心血管疾病
從關鍵詞頻次和突現情況看,2020-2121 年“冠心病”“動脈疾病”“心血管危險因素”“外周動脈疾病”等關鍵詞持續出現,說明糖尿病并發心血管疾病是研究者重點關注的內容。糖尿病是心血管疾病的公認危險因素,心血管疾病也是糖尿病主要的死亡原因[9]。針對糖尿病患者的心血管并發癥,除了控制血糖外,及時預測和嚴格控制心血管危險因素也很重要[10]。風險預測是評估心血管疾病高危個體的關鍵手段,有利于醫務人員對高危個體進行健康教育和制定個體化的治療方案[11]。目前國外構建的2 型糖尿病心血管病臨床預測模型主要分為兩類,一類是基于一般人群建立的模型,另一類是基于2 型糖尿病人群建立的模型。有學者采用這兩類模型在我國2 型糖尿病人群中進行驗證,發現模型預測的校準度較差,可能與種族和文化不同、基線特征存在較大差異有關[12]。我國目前尚缺乏靈敏度、校準度和預測性能高的針對糖尿病患者開發的心血管疾病預測模型。
3.2.2 自我管理
從關鍵詞頻次分析看,“肥胖”“生活習慣”“管理”等生活方式和自我管理類關鍵詞出現頻次較高,說明加強糖尿病防治的重要方法是加強自我管理和改變生活方式[13]。患者的自我管理對預防2 型糖尿病并發癥和降低死亡率至關重要,我國一項針對3 個省社區糖尿病人群的調查發現,患者在飲食管理、合理運動和血糖監測方面依從性較低,自我管理能力有待提高,醫護人員對糖尿病患者的健康教育有所欠缺[14]。糖尿病患者的自我管理是控制血糖的重要因素,應以不同形式加強對患者的健康教育,降低患者再入院率和并發癥的發生率。
3.2.3 妊娠期糖尿病
從關鍵詞頻次分析看,妊娠期糖尿病(gestational diabetes mellitus,GDM)也是研究熱點。GDM 的發病率逐年增高,一項Meta 分析結果顯示,中國GDM 的總發病率已上升至14.8%[15]。GDM主要發生在妊娠中期和晚期,常出現圍產期并發癥,如巨大兒、肩難產和新生兒低血糖,主要危險因素有高齡、孕前超重肥胖及口服葡萄糖耐量測試(OGTT)結果異常,早期進行干預可有效改善不良妊娠結局[16-17]。近年來,有較多國內外學者聯合多項指標構建了妊娠期糖尿病早期預測模型,預測疾病的發生風險,進行早期篩查和預警。這些模型有一定的預測價值,但仍需要大樣本驗證,從而將預測性能較好的模型應用于臨床[18]。
3.3.1 糖尿病腎病
從共被引文獻分析和關鍵詞突現情況看,“糖尿病腎病”是近幾年的研究熱點和趨勢。糖尿病腎病(diabetic nephropathy,DN)是糖尿病微血管病之一,是全球終末性腎病(end stage renal disease,ESRD)的主要原因。DN 患者的死亡率比無腎病的糖尿病患者高約30 倍,并且絕大多數DN 患者在達到ESRD 之前多死于心血管疾病[19]。如何延緩DN 發展為ESRD 是目前研究的重點,我國已有多位學者開發并驗證了DN 的診斷模型,預測性能較好[20-22],在改善DN 預后方面具有一定的價值,可推廣應用,以進行早期預警,降低ESRD 的發生率。
3.3.2 低血糖
從關鍵詞突現情況看,“低血糖”是近幾年的研究熱點和趨勢。作為糖尿病最常見的并發癥,低血糖會增加心血管事件和死亡的風險[23],在近一半的病例中,患者無癥狀[24]。因無法預測和干預低血糖事件,導致低血糖反復發生,患者防御能力受損,從而出現惡性循環,增加嚴重低血糖的發生風險[25]。因此,預測低血糖是改善糖尿病患者生活質量的重要措施。
3.3.3 機器學習
從共被引文獻分析和關鍵詞突現情況看,“機器學習”是未來構建糖尿病預測模型的新趨勢。機器學習起源于計算機科學,它賦予計算機以一定的預測能力,廣泛應用于醫療保健領域[24]。常用的機器學習算法包括K 近鄰、樸素貝葉斯、邏輯回歸、支持向量機、決策樹、集成的樹模型和人工神經網絡[26]。在糖尿病領域,機器學習算法是從豐富的糖尿病相關數據中提取信息的有效手段,已廣泛應用于糖尿病診斷及管理,尤其是糖尿病并發癥的預測和防治[27]。與傳統的logistic 回歸算法相比,機器學習算法在處理高度計算復雜和高度不確定的臨床大數據時能力較強,可將高維數據簡化,大大降低運算成本[28],已經成為構建臨床預測模型常用的算法。
本文基于Web of Science 收錄的糖尿病臨床預測模型相關研究文獻,對國際糖尿病風險預測模型相關研究進展進行了分析,反映了該領域近2020-2021 年的研究熱點與前沿。我國相關研究數量較多,但尚未形成核心研究機構且影響力不夠。未來我們應結合自身特點開發適用于我國人群的糖尿病預測模型。本文的局限性在于僅分析了1 種數據庫收錄的文獻,后期研究將在數據獲取和分析角度等方面進一步完善,以期能夠更加準確、全面地揭示該領域的特征。