【摘要】 目的 為人工智能模型應用于骨質疏松癥臨床診療的效用提供實證依據。方法 選取原發性骨質疏松癥診療指南核心章節,由10位骨科醫師從準確性、全面性、可解釋性、臨床應用性4個維度對ChatGPT和DeepSeek的回答內容與指南標準對比評分,并結合臨床骨密度檢測結果,評估模型決策的準確性與科學性。結果 10位骨科醫師評分一致性較高。DeepSeek準確性評分高于ChatGPT,在藥物管理及參數解析方面更精準契合指南更新要點。2種模型全面性及可解釋性評分雖無統計學差異,但DeepSeek通過整合藥物假期管理、FLS協作模式及OSTA篩查工具構建多維評估框架,并采用圖表提升信息呈現效率。DeepSeek臨床應用性評分優于ChatGPT,其建立的決策路徑與全周期監測體系有效縮短臨床決策時耗。臨床骨密度檢測分析顯示,ChatGPT僅提供基礎診療框架,而DeepSeek具有更完整的指南依從性和臨床適用性。結論 AI能提升骨質疏松癥臨床決策效率和質量,DeepSeek解讀的表現比ChatGPT更優異。
【關鍵詞】 人工智能模型;骨質疏松癥;DeepSeek;ChatGPT;精準醫療
Comparative analysis of two artificial intelligence models for the diagnosis and treatment guidelines of primary osteoporosis and the interpretation of clinical bone mineral density examination
HU Chaofeng, ZHENG Songtao, CHEN Ruiqiang, LI Shangfu
(Department of Spinal Surgery, the Third Affiliated Hospital of Sun Yat-sen University, Guangzhou 510630, China)
Corresponding author: LI Shangfu, E-mail: lishangfu@mail.sysu.edu.cn
【Abstract】 Objective To provide empirical evidence for the application of artificial intelligence model in the clinical diagnosis and treatment of osteoporosis. Methods The core chapters of the guidelines for the diagnosis and treatment of primary osteoporosis were selected, and 10 orthopedic surgeons compared the answers of ChatGPT and DeepSeek with the guidelines from the four dimensions of accuracy, comprehensiveness, interpretability, and clinical applicability. Combined with the results of clinical bone mineral density test, the accuracy and scientificity of the model decision-making were evaluated. Results The scores of 10 orthopedic surgeons were consistent. The accuracy score of DeepSeek was significantly higher than that of ChatGPT, and DeepSeek was more accurate in drug management and parameter analysis, which conformed to the key points of guideline update. Although there was no statistical difference in comprehensiveness and interpretability score, DeepSeek built a multidimensional evaluation framework by integrating drug leave management, FLS collaboration mode and OSTA screening tools, and used charts to improve the efficiency of information presentation. The clinical application score of DeepSeek was better than that of ChatGPT, and its decision-making path and full-cycle monitoring system effectively shortened the time consumption of clinical decision-making. Clinical bone mineral density analysis showed that ChatGPT only provided a basic diagnosis and treatment framework, while DeepSeek showed a more complete guideline compliance and clinical applicability. Conclusion AI can improve the efficiency and quality of clinical decision-making in osteoporosis, and the performance of DeepSeek interpretation is better than that of ChatGPT.
【Key words】 Artificial intelligence model; Osteoporosis; DeepSeek; ChatGPT; Precision medicine
隨著全球人口老齡化的加劇,原發性骨質疏松癥作為全球性公共衛生問題挑戰日益嚴峻,據估計,骨質疏松全球患病率約為19.7%[1],已成為患者致殘及死亡的重要因素[2]。由于診療指南不斷更新[3],診療標準也逐步向多方面風險評估、精準化藥物選擇及動態監測方向發展。然而,由于指南內容復雜且涉及多學科交叉[4-5],相關媒體及網絡的骨質疏松信息良莠不齊,如何高效準確解讀指南及臨床骨密度檢查結果已成為臨床實踐及大眾科普的迫切需求。
近年來,人工智能(artificial intelligence, AI)在醫學相關領域中的應用也越來越廣泛[6-7]。在牙科放射學領域,AI影像系統可精準識別齲齒及牙科植入物,推動個性化口腔健康管理模式的革新[8]。在高等教育領域,AI驅動的教學評估體系已成為跨學科知識轉化的例子[9]。在骨質疏松領域,AI應用已涵蓋抗骨質疏松藥物研發的分子模擬[10]、電子健康記錄的骨折風險預測模型[11]及骨質疏松性椎體骨折識別等方面[12-13],其高靈敏度和低假陰性率的特性有效優化了臨床工作流程[14]。AI通過結構化知識提取與動態循證更新機制,為骨質疏松癥標準化診療路徑的優化提供解決方案[15]。目前,ChatGPT 4.0與DeepSeek-R1作為代表性模型展示了各自的技術特征。ChatGPT依托GPT-4架構實現多語言通用性,但其知識時效性受到訓練數據截止周期的限制,在動態醫學知識整合方面存在一定局限[16-17]。DeepSeek作為中文領域優化的大語言模型,其私有化部署特性與實時知識更新機制,在醫療數據安全與臨床場景適配方面具有顯著優勢[18]。盡管可解釋性AI評估框架已在醫學其他領域建立了較為完善的方法論體系[8, 19-20],但針對臨床骨質疏松癥診療的準確性和科學性評價方面仍屬空白。
本研究擬對比ChatGPT和DeepSeek 2種模型在原發性骨質疏松癥診療指南解讀中的適用性,并利用臨床骨密度檢查結果驗證AI對骨質疏松癥診療的準確性與科學性。同時,探討AI技術如何融入臨床骨質疏松癥診療及決策,旨在為構建“DNA”(Doctor-Nurse-AI)模式,通過整合醫生、護士和AI技術的優勢,優化醫療流程、提升診療效率和患者護理質量,推動骨質疏松癥分級診療體系智能化轉型提供理論依據。
1 對象與方法
1.1 研究對象
本研究以ChatGPT 4.0和DeepSeek-R1 2種人工智能模型針對《原發性骨質疏松癥診療指南(2022)》(以下簡稱指南)生成的問答內容為研究對象。
1.2 研究方法
針對指南,向2種人工智能模型提問,選取10名經驗豐富且熟悉指南的骨科醫師,從4個維度對2種模型回答結果與指南進行系統性對比分析:準確性、全面性、可解釋性、臨床應用性。再通過臨床實例驗證其回答,并與臨床骨密度檢查結果進行對比。研究方法及流程見圖1。
1.3 問題選擇
本研究圍繞指南的核心臨床實踐需求,確保問題集兼具指南依從性、臨床實用性與知識挑戰性,從骨質疏松癥的診斷標準、防治措施、骨折危險因素及風險評估、鑒別診斷和抗骨質疏松癥藥物5個方面進行提問。對2種人工智能模型賦予具有豐富臨床經驗并了解指南的骨科醫師的角色。
問題1:幫我解讀一下原發性骨質疏松癥診療指南(2022)中關于骨質疏松癥診斷標準。
問題2:幫我解讀一下原發性骨質疏松癥診療指南(2022)中關于骨質疏松癥防治措施。
問題3:幫我解讀一下原發性骨質疏松癥診療指南(2022)中關于骨質疏松癥骨折危險因素及風險評估。
問題4:幫我解讀一下原發性骨質疏松癥診療指南(2022)中關于骨質疏松癥的鑒別診斷。
問題5:幫我解讀一下原發性骨質疏松癥診療指南(2022)中關于抗骨質疏松癥藥物。
1.4 統計學方法
采用SPSS 27.0進行數據分析,針對10位骨科醫師對ChatGPT和DeepSeek模型在5個臨床問題上的評分結果(每位醫師對同一問題的2種模型評分形成50對配對數據),采用Wilcoxon符號秩和檢驗進行組間比較。由于某些評分者的評分分布極端,如部分評分為1或5,常規的評分者間一致性檢驗不適用[21],因此本研究將評分者間的評分一致性分成3個等級:完全一致(評分為5),基本一致(評分為2、3、4),完全不一致(評分為1),通過計算百分率評估一致性情況。所有檢驗以雙側P lt; 0.05為差異有統計學意義。
2 結 果
2.1 10位骨科醫師基本情況及評估結果的一致性
10名骨科醫師均來自三甲醫院,具有博士學歷和較豐富的臨床診療經驗,見表1。10位骨科醫師對2種模型回答情況的評分見表2。骨科醫師之間的評分一致性均較高,見圖2。
2.2 2種模型回答結果對比分析
2.2.1 準確性
ChatGPT與DeepSeek在回答原發性骨質疏松癥診療指南相關問題時,均展現了較高的準確性,但兩者的準確性評分存在差異(Z = -3.62,P =
0.001),見圖3A,骨科醫師對DeepSeek的回答的準確性認可度更高。具體而言,ChatGPT雖然能覆蓋骨密度閾值判定等基礎診斷標準,并對抗骨質疏松癥藥物進行基本分類,但在一些關鍵細節的表述上仍存在模糊性。相比之下,DeepSeek在關鍵細節的處理上更貼合指南精細化要求。此外,DeepSeek還明確了中國人群FRAX?骨折風險干預閾值的地域化調整,即主要骨折概率達到7%或以上時需采取干預措施。在抗骨質疏松癥藥物分類方面,DeepSeek不僅詳細闡述了羅莫珠單抗在臨床應用中對心血管事件風險的監測要求,還規范了停藥后雙膦酸鹽的序貫治療方案,與指南的更新要點保持高度一致。對回答結果進一步分析發現,DeepSeek在復雜參數解析和動態決策支持方面具有一定優勢,特別是在風險分層工具的本土化應用以及藥物序貫治療邏輯的精準匹配方面更為突出。準確度更高的AI模型能夠幫助臨床醫師快速獲取最新指南的核心標準,減少因信息遺漏導致的診療偏差,尤其在涉及Z值、FRAX?骨折風險閾值等復雜參數的應用時,能夠提供更精準的臨床決策支持。
2.2.2 全面性
2種模型在指南內容覆蓋全面性方面的評分差異沒有統計學意義(Z = -1.65,P = 0.092),見圖3B。ChatGPT雖然能夠概述個體化治療原則,但在關鍵內容的深度解析上仍存在不足。例如,其對FLS流程、OSTA與FRAX?聯合篩查的階梯式策略缺乏詳細說明,這可能影響指南在臨床實踐中的有效落地。而DeepSeek在全面性覆蓋方面仍存在一定的優勢。例如,在指南的系統性整合方面,DeepSeek表現更為突出,其防治措施描述不僅涵蓋基礎干預,如鈣劑補充和運動處方,還完整納入了藥物假期管理,包括雙膦酸鹽5年療程后的風險評估。此外,該模型對骨折聯絡服務(fracture liaison service,FLS)這一多學科協作模式進行了詳細解析,并覆蓋了基層醫療機構的分級診療路徑,使指南應用更加系統化和具有可操作性。在風險評估維度,DeepSeek不僅提及了FRAX?模型,還補充了亞洲人骨質疏松自我篩查工具(Osteoporosis Self-Assessment Tool for Asians,OSTA)的臨床應用,以及骨轉換標志物動態監測的價值。此外,該模型還能識別中國人群的特異性危險因素,如握力lt;18 kg和慢性腰痛史,從而形成更為全面的多維評估框架。
2.2.3 可解釋性
ChatGPT與DeepSeek在指南解讀的可解釋性方面的表現無統計學差異(Z = -0.51,P = 0.614),見圖3C。但在結構化信息的呈現方式上,二者展現出不同的特征。ChatGPT雖然能夠系統列舉鑒別診斷條目,并能分點描述7種繼發性骨質疏松病因,但在信息提煉上存在不足。同時,在部分術語解釋上更傾向于病理機制理論,而非臨床實踐。與之相比,DeepSeek在解讀指南時更傾向于通過臨床場景化工具提升可讀性。此外,DeepSeek構建了流程圖來直觀展示診斷路徑,如基于骨密度T值和脆性骨折史的風險分級流程,從而優化了信息提取效率。在術語解釋方面,DeepSeek的描述更貼合臨床決策語境。例如,其對序貫治療的定義明確指向藥物轉換的最佳時機,而迫在眉睫的骨折風險也給出了量化標準,使臨床應用更具指導性。
2.2.4 臨床應用性
臨床應用性是臨床醫師最為關心的一個指標,AI技術不僅需要具備高準確性、全面性和可解釋性,更重要的是能夠順暢融入臨床工作流程,切實提升醫師的診療效率并確保醫療決策的安全性和可靠性。ChatGPT與DeepSeek在臨床應用性的評分存在差異(Z = -3.13,P = 0.001),見圖3D,骨科醫師對DeepSeek的臨床實踐價值認可度更高,這種差異主要體現在臨床場景適配性和動態管理支持方面。ChatGPT雖然能夠系統分類抗骨質疏松藥物,但在特殊人群劑量調整方面缺乏針對性指導。相比之下,DeepSeek不僅能夠將指南建議轉化為可操作的決策路徑,例如在腎功能不全患者中優先推薦唑來膦酸而不是地舒單抗,還能細化圍手術期藥物的管理方案,包括雙膦酸鹽停藥時機及術后抗骨質疏松治療的銜接策略。此外,該模型構建了涵蓋一線用藥選擇、極高風險強化治療以及長期監測調整的全周期管理框架。在動態監測方面,DeepSeek建議每年進行骨密度復查,并結合骨轉換標志物檢測,同時強調了地舒單抗停藥后椎體骨折反跳的風險及相應的預防策略,與指南的精細化要求高度一致。
2個模型具體比較結果詳見表3。
2.3 臨床實例驗證
提問內容:女性患者,年齡75歲,身高153 cm,體重53 kg;腰椎L1骨密度為0.600 g/cm2,腰椎L2骨密度為0.668 g/cm2,腰椎L3骨密度為0.634 g/cm2,腰椎L4骨密度為0.604 g/cm2,請問這位患者的診斷是什么?有什么治療和預防的建議?
在骨質疏松癥臨床診斷的規范性方面,ChatGPT依據于世界衛生組織推薦的T-score標準(診斷閾值≤-2.5),計算出平均T值-3.12,符合基本診斷要求。然而,該模型的分析存在兩方面不足。首先,未納入Z值評估體系,忽略了不同年齡群體在骨密度判定上的差異。其次,未提及繼發性骨質疏松的鑒別診斷,與2022版《原發性骨質疏松癥診療指南》的要求存在一定差距。指南明確指出,當Z值≤-2.0時,應進一步排查內分泌和代謝性疾病,例如甲狀腺功能亢進或維生素D缺乏,以鑒別繼發性骨質疏松的可能性。與之對比,DeepSeek展現出更完整的診斷邏輯,不僅系統計算了各椎體的Z值,例如L3和L4均≤-2.0,還針對性地建議開展血清鈣、甲狀旁腺激素和甲狀腺功能等實驗室檢驗,以進一步完善鑒別診斷。這種診斷流程與指南規范高度一致,提升了對潛在繼發性因素的識別能力。此外,DeepSeek嚴格遵循指南分層管理原則,強調嚴重骨質疏松癥的診斷需結合患者的脆性骨折史進行病情分級,這一做法對于制定階梯化治療方案具有重要的臨床指導價值,能夠確保高風險患者獲得更精準的干預措施。
在治療策略的完整性方面,雖然ChatGPT正確推薦了雙膦酸鹽、地舒單抗等一線抗骨質疏松藥物和基礎的營養補充方案,但其分析中存在3個關鍵遺漏。首先,未明確藥物使用的周期,例如未指出雙膦酸鹽的標準療程應為3~5年。其次,未界定特立帕肽的適用條件,未提及該藥物應僅用于嚴重骨質疏松或骨折高風險患者。最后,缺乏對藥物禁忌證的詳細說明。反觀DeepSeek的治療建議更加符合循證醫學的原則。該模型明確指出,雙膦酸鹽的使用需評估患者的腎功能和胃腸道耐受性,并推薦將地舒單抗作為腎功能不全患者的首選藥物。對于特立帕肽,DeepSeek嚴格限制其用于嚴重病例,并推薦其治療療程不超過2年。此外,在營養干預方面,DeepSeek特別強調動態監測血清1, 25(OH)2D3水平,并建議目標值應≥30 ng/mL,符合骨質疏松癥個體化治療的要求。DeepSeek還在診療流程中引入了Z值異常時優先排查繼發性骨質疏松的臨床路徑,進一步確保了治療的全面性和針對性,并且有助于為患者提供更為精準和個性化的治療方案。
在疾病管理的科學性方面,雖然ChatGPT提出的基礎預防措施具有一定合理性,但未納入國際通用的FRAX?骨折風險評估工具,也未強調指南推薦的高危人群篩查策略,例如65歲以上女性應常規進行骨密度檢測等建議。相比之下,DeepSeek的防控體系更為系統化,采用FRAX?工具量化10年骨折風險,嚴格執行年齡分層篩查標準,并對跌倒預防措施進行細化,包括居家環境改造和輔助器具的使用。此外,DeepSeek特別提醒在長期管理過程中,如地舒單抗需要持續給藥,避免因患者自主停藥而導致的骨量丟失反彈,這一提醒對提高患者依從性具有重要的臨床意義。
3 討 論
本研究對比了2種代表性的人工智能模型在原發性骨質疏松癥診療指南解讀和臨床實例驗證中的表現,觀察兩者對于臨床實際工作的應用價值。結果顯示,兩者都能通過高效的信息整合提升骨質疏松癥的診療效率,人工智能模型解讀與臨床骨密度檢查的實際診斷報告的結果亦基本吻合。在指南解讀方面,10位骨科醫師在4個維度的評分一致性高,DeepSeek在準確性和臨床應用性上比ChatGPT更優。而全面性和可解釋性方面無統計學差異,這可能與樣本量限制或評分尺度趨中性有關,還可能受評分者對可視化工具偏好差異或部分場景下文本解釋等效性的影響。兩者對解讀指南結果的差異主要可能是因為其機制不同,DeepSeek可結合患者的數據進行精準分析,還能夠直接調用醫學數據庫等;而ChatGPT主要依賴已有的訓練數據,更擅長語言理解和對話等。本研究通過臨床實例驗證的結果顯示,相較于ChatGPT的基礎性診療框架,DeepSeek展現出更為完整的指南依從性和臨床適用性。這種系統性、全周期的疾病管理框架,有助于提高骨科醫師臨床決策的精準性和效率,從而優化骨質疏松癥患者的長期治療效果。因此,AI能夠輔助醫師診治骨質疏松癥,提升臨床效率和決策質量,DeepSeek在原發性骨質疏松癥診療指南及臨床骨密度檢查中解讀的表現比ChatGPT更優異。
人工智能目前已廣泛應用于骨質疏松癥診療研究領域。Ferizi等[22]的研究結果顯示,AI通過基于MRI影像特征的機器學習預測模型可以對MRI數據進行分析后預測脆性骨折。本研究通過AI對骨密度、FRAX?骨折風險預測和OSTA初篩進行了更全面的評估。此外,Kruse等[20]的研究表明機器通過學習可以預測髖部骨折的風險,其研究價值主要體現為特定解剖部位的風險預警。本研究亦提示DeepSeek在預測骨質疏松性骨折方面有更好的表現,為骨質疏松癥的預測及相關預防措施的開展提供了新途徑。與Scanlan等[23]的研究相比,本研究對臨床應用性方面進行了驗證,而Scanlan等介紹的方法可能僅適合作為骨質疏松癥早期診斷的人群篩查。
然而,AI醫療化進程仍面臨多重挑戰。首先,盡管AI能夠根據現有的骨質疏松癥指南提供決策支持,但由于指南不斷發展,要求模型也要持續迭代[24]。若AI更新滯后可能會影響其臨床適用性[25]。其次,AI模型的有效性依賴于大量個人健康數據的收集與處理,數據依賴性可能會引發患者隱私風險[26]。在醫療全流程中,必須確保數據的安全性和患者的隱私得到充分保護,防止數據泄露或濫用[27-29]。隨著AI在骨質疏松癥臨床中的深入應用,AI系統的臨床決策失誤的責任界定也需要符合相關倫理和法律[30]。因此,未來當AI 模型融入骨質疏松癥診療時,AI生成的建議雖能輔助診療,但仍然無法完全替代醫師的專業判斷,最終決策還是需要依賴醫師的臨床經驗與綜合分析。
未來若能將AI模型嵌入骨質疏松癥醫療信息系統來構建預警網絡,例如能夠在電子病歷實時監測骨代謝指標異常波動,通過可穿戴設備的數據來預判跌倒風險,并在區域醫療網絡中建立分級診療決策樹[27],將顯著提高骨質疏松癥的早期檢出率并為患者提供動態健康管理的支持。而AI模型經過訓練后,在基層醫師接診骨質疏松患者時,AI可同時完成風險評估、禁忌篩查和治療推薦;三級醫院專家則能通過AI預篩的復雜病例開展深度會診[31],能夠大大提高醫療效率[32]。目前,AI在醫學領域呈現出專業化與泛化能力的互補態勢。DeepSeek模型在精準醫療領域展現出獨特優勢[33],其階梯式篩查算法能融合FRAX?骨折風險預測與OSTA初篩特性,在保證骨質疏松癥診斷準確性的同時提升篩查效率。相較而言,ChatGPT憑借其強大的自然語言處理能力,能夠成為骨質疏松癥患者對話式的健康助手[34],能動態解析骨質疏松癥相關的專業術語并為不同文化程度患者生成科普內容[35-36]。
本研究亦存在一定的局限性,首先,研究只選取了10位骨科醫師對AI模型回答的問題進行評分,評分的人數可能稍顯不足。另外,研究還應評估將AI模型整合到骨質疏松癥診療過程中的準確性以及對工作效率提升的作用。
綜上所述,本研究結果表明,DeepSeek比ChatGPT在原發性骨質疏松癥診療指南及臨床骨密度檢查結果的解讀中表現更為優異,有望在未來成為一種輔助骨質疏松癥診療的工具。當AI模型融入骨質疏松癥診療中時,應注重AI算力和骨科醫師的臨床經驗,始終堅持以人為主導的決策機制,將骨科醫師的臨床經驗作為診療決策的核心依據,通過構建“DNA”模式,為患者提供更加個性化的診療服務及提升臨床的診療效率。
利益沖突聲明:本研究未受到企業、公司等第三方資助,不存在潛在利益沖突。
參 考 文 獻
[1] LIU Y, HUANG X, TANG K, et al. Prevalence of osteoporosis and associated factors among Chinese adults: a systematic review and modelling study[J]. J Glob Health, 2025, 15: 04009. DOI: 10.7189/jogh.15.04009.
[2] WANG H S, KARNIK S J, MARGETTS T J, et al. Mind gaps and bone snaps: exploring the connection between Alzheimer’s disease and osteoporosis[J]. Curr Osteoporos Rep, 2024,
22(5): 483-494. DOI: 10.1007/s11914-023-00851-1.
[3] 中華醫學會骨質疏松和骨礦鹽疾病分會. 原發性骨質疏松癥診療指南(2022) [J]. 中國全科醫學, 2023, 26(14): 1671-91. DOI: 10.12114/j.issn.1007-9572.2023.0121.
Chinese Society of Osteoporosis and Bone Mineral Research. Guidelines for the Diagnosis and Treatment of Primary Osteoporosis (2022)[J]. Chin Gen Prac, 2023, 26(14): 1671-1691. DOI: 10.12114/j.issn.1007-9572.2023.0121.
[4] SONG M, ELSON J, BASTOLA D. Digital age transformation in patient-physician communication: 25-year narrative review (1999-2023)[J]. J Med Internet Res, 2025, 27: e60512. DOI: 10.2196/60512.
[5] KARAM L, PACCOU J. Management of adverse skeletal effects following bariatric surgery procedures in people living with obesity[J]. Curr Osteoporos Rep, 2025, 23(1): 11. DOI: 10.1007/s11914-025-00902-9.
[6] CONROY G, MALLAPATY S. How China created AI model DeepSeek and shocked the world[J]. Nature, 2025, 638(8050): 300-301. DOI: 10.1038/d41586-025-00259-0.
[7] GIBNEY E. China’s cheap, open AI model DeepSeek thrills scientists[J]. Nature, 2025, 638(8049): 13-14. DOI: 10.1038/d41586-025-00229-6.
[8] PUTRA R H, DOI C, YODA N, et al. Current applications and development of artificial intelligence for digital dental radiography[J]. Dentomaxillofac Radiol, 2022, 51(1): 20210197. DOI: 10.1259/dmfr.20210197.
[9] SYMEOU L, LOUCA L, KAVADELLA A, et al. Development of evidence-based guidelines for the integration of generative AI in university education through a multidisciplinary, consensus-based approach[J]. Eur J Dent Educ, 2025. DOI: 10.1111/eje.13069.
[10] LEI C, SONG J H, LI S, et al. Advances in materials-based therapeutic strategies against osteoporosis[J]. Biomaterials, 2023, 296: 122066. DOI: 10.1016/j.biomaterials.2023.122066.
[11] KHANNA V V, CHADAGA K, SAMPATHILA N, et al. A decision support system for osteoporosis risk prediction using machine learning and explainable artificial intelligence[J]. Heliyon, 2023, 9(12): e22456. DOI: 10.1016/j.heliyon.2023.e22456.
[12] SHEN L, GAO C, HU S, et al. Using artificial intelligence to diagnose osteoporotic vertebral fractures on plain radiographs[J]. J Bone Miner Res, 2023, 38(9): 1278-1287. DOI: 10.1002/jbmr.4879.
[13] TSAI D J, LIN C, LIN C S, et al. Artificial intelligence-enabled chest X-ray classifies osteoporosis and identifies mortality risk[J]. J Med Syst, 2024, 48(1): 12. DOI: 10.1007/s10916-023-02030-2.
[14] FERIZI U, HONIG S, CHANG G. Artificial intelligence, osteoporosis and fragility fractures[J]. Curr Opin Rheumatol,
2019, 31(4): 368-375. DOI: 10.1097/BOR.0000000000000607.
[15] GATINEAU G, SHEVROJA E, VENDRAMI C, et al. Development and reporting of artificial intelligence in osteoporosis
management[J]. J Bone Miner Res, 2024, 39(11): 1553-1573. DOI: 10.1093/jbmr/zjae131.
[16] ERDEN Y, TEMEL M H, BA?CIER F. Artificial intelligence insights into osteoporosis: assessing ChatGPT’s information quality and readability[J]. Arch Osteoporos, 2024, 19(1): 17. DOI: 10.1007/s11657-024-01376-5.
[17] CHOUDHURY A, SHAMSZARE H. The impact of performance expectancy, workload, risk, and satisfaction on trust in ChatGPT: cross-sectional survey analysis[J]. JMIR Hum Factors, 2024, 11: e55399. DOI: 10.2196/55399.
[18] KAYAALP M E, PRILL R, SEZGIN E A, et al. DeepSeek versus ChatGPT: multimodal artificial intelligence revolutionizing scientific discovery. From language editing to autonomous content generation-redefining innovation in research and practice[J]. Knee Surg Sports Traumatol Arthrosc, 2025. DOI: 10.1002/ksa.12628.
[19] JIN W, LI X, FATEHI M, et al. Guidelines and evaluation of clinical explainable AI in medical image analysis[J]. Med Image Anal, 2023, 84: 102684. DOI: 10.1016/j.media.2022.102684.
[20] KRUSE C, EIKEN P, VESTERGAARD P. Machine learning principles can improve hip fracture prediction[J]. Calcif Tissue Int, 2017, 100(4): 348-360. DOI: 10.1007/s00223-017-0238-7.
[21] 黎超, 陳優美, 段亞妮,等. 生成式人工智能在生成影像學報告方面的表現評估 [J]. 新醫學, 2024, 55(11): 853-860. DOI: 10.3969/j.issn.0253-9802.2024.11.001.
LI C, CHEN Y M, DUAN Y N, et al. Evaluation of the performance of generative artificial intelligence in generating radiology reports[J]. J New Med, 2024, 55(11): 853-860. DOI: 10.3969/j.issn.0253-9802.2024.11.001.
[22] FERIZI U, BESSER H, HYSI P, et al. Artificial intelligence applied to osteoporosis: a performance comparison of machine learning algorithms in predicting fragility fractures from MRI
data[J]. J Magn Reson Imaging, 2019, 49(4): 1029-1038. DOI: 10.1002/jmri.26280.
[23] SCANLAN J, LI F F, UMNOVA O, et al. Detection of osteoporosis from percussion responses using an electronic stethoscope and machine learning[J]. Bioengineering, 2018,
5(4): 107. DOI: 10.3390/bioengineering5040107.
[24] LAI H, GE L, SUN M, et al. Assessing the risk of bias in randomized clinical trials with large language models[J]. JAMA Netw Open, 2024, 7(5): e2412687. DOI: 10.1001/jamanetworkopen.2024.12687.
[25] KANJEE Z, CROWE B, RODMAN A. Accuracy of a generative artificial intelligence model in a complex diagnostic challenge[J]. JAMA, 2023, 330(1): 78-80. DOI: 10.1001/jama.2023.8288.
[26] ZHU L, LAI Y, MOU W, et al. ChatGPT’s ability to generate realistic experimental images poses a new challenge to academic integrity[J]. J Hematol Oncol, 2024, 17(1): 27. DOI: 10.1186/s13045-024-01543-8.
[27] PENG Y, MALIN B A, ROUSSEAU J F, et al. From GPT to DeepSeek: significant gaps remain in realizing AI in
healthcare[J]. J Biomed Inform, 2025, 163: 104791. DOI: 10.1016/j.jbi.2025.104791.
[28] JEYARAMAN M, BALAJI S, JEYARAMAN N, et al. Unraveling the ethical enigma: artificial intelligence in healthcare[J]. Cureus, 2023, 15(8): e43262. DOI: 10.7759/cureus.43262.
[29] PETERS V, BAUMGARTNER M, FROESE S, et al. Risk and potential of ChatGPT in scientific publishing[J]. J Inher Metab Disea, 2023, 46(6): 1005-1006. DOI: 10.1002/jimd.12666.
[30] MELLO M M, GUHA N. ChatGPT and physicians’ malpractice risk[J]. JAMA Health Forum, 2023, 4(5): e231938. DOI: 10.1001/jamahealthforum.2023.1938.
[31] XU T, WENG H, LIU F, et al. Current status of ChatGPT use in medical education: potentials, challenges, and strategies[J]. J Med Internet Res, 2024, 26: e57896. DOI: 10.2196/57896.
[32] 祁冬, 姚傳順, 胡淑敏, 等.人工智能在冠狀動脈CT血管成像圖像后處理和冠狀動脈狹窄診斷中的應用[J]. 江蘇大學學報(醫學版), 2023, 33(4): 323-327, 332. DOI: 10.13312/j.issn.1671-7783.y220147.
Qi D, YAO C S, HU S M, et al. The value of artificial intelligence in post-processing coronary CTA images and diagnosing coronary artery stenosis[J]. J Jiangsu Univ(Med Ed), 2023, 33(4): 323-327, 332. DOI: 10.13312/j.issn.1671-7783.y220147.
[33] NORMILE D. Chinese firm’s large language model makes a splash[J]. Science, 2025, 387(6731): 238. DOI: 10.1126/science.adv9836.
[34] LIM Z W, PUSHPANATHAN K, YEW S M E, et al. Benchmarking large language models’ performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard[J]. EBioMedicine, 2023, 95: 104770. DOI: 10.1016/j.ebiom.2023.104770.
[35] PREIKSAITIS C, ROSE C. Opportunities, challenges, and future directions of generative artificial intelligence in medical education: scoping review[J]. JMIR Med Educ, 2023, 9: e48785. DOI: 10.2196/48785.
[36] GAN W, OUYANG J, LI H, et al. Integrating ChatGPT in orthopedic education for medical undergraduates: randomized controlled trial[J]. J Med Internet Res, 2024, 26: e57037. DOI: 10.2196/57037.
(責任編輯:鄭巧蘭)