

摘" 要:隨著技術的不斷進步,生成式人工智能(Generative AI)在醫學數據分析領域的應用前景日益廣闊。該文旨在評估其在醫學數據分析領域的應用潛能和挑戰,并探討其在實際應用中的優勢和局限性。通過例舉生成式人工智能,如文心一言在賦能Python編程中處理醫學數據的具體實踐,揭示其在醫學數據分析過程中的一般方法和路徑。生成式人工智能憑借其卓越的數據處理和模式識別能力,極大簡化數據分析的過程,降低技術難度門檻,并提高分析工作的效率和準確性,為醫學數據分析提供新的視角和方法。
關鍵詞:生成式人工智能;Python編程;醫學;數據分析;文心一言
中圖分類號:TP18" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2025)06-0001-05
Abstract: With the continuous advancement of technology, Generative AI has increasingly broad application prospects in the field of medical data analysis. This paper aims to evaluate its application potential and challenges in the field of medical data analysis, and explore its advantages and limitations in practical applications. By citing the specific practice of Generative AI, such as ERNIE Bot(a Chinese AI model), which, in empowering Python programming to process medical data, showcases its general methods and paths in the process of medical data analysis. With its excellent data processing and pattern recognition capabilities, Generative AI greatly simplifies the process of data analysis, reduces the technical difficulty threshold, and improves the efficiency and accuracy of analysis work, providing a new perspective for medical data analysis. and methods.
Keywords: Generative AI; Python programming; medicine; data analysis; ERNIE Bot
隨著技術的不斷進步,人工智能(AI)正深刻影響并重塑著社會的方方面面。其中,生成式人工智能(Generative AI,以下簡稱“生成式AI”)作為AI領域的新興力量,正展現出其巨大的潛力和廣泛的應用場景。在此背景下,深入探究生成式AI對醫學數據分析的賦能作用,審視醫學數據分析與生成式AI的深度融合,對于推動醫學數據分析領域的創新突破和持續發展具有重要意義。
1" 生成式人工智能及其在醫學領域應用現狀概述
1.1" 定義
生成式人工智能(Generative AI)是指基于算法、模型、規則生成文本、圖片、聲音、視頻和代碼等內容的技術[1]。其核心在于模擬人類的創造力和想象力,從而生成文本、圖像、音頻和視頻等多種類型的數據。生成式AI系統依靠海量數據,通過預訓練大模型等方法,能夠產生與訓練數據相似又帶有創新元素的新內容。
目前,如美國Open AI公司的ChatGPT,以及國內的文心一言、訊飛星火、通義千問、智譜清言和月之暗面Kimi等都是比較有名的生成式AI,這些生成式AI在各自領域內均取得了顯著成果并產生了廣泛影響力。
1.2" 發展歷程
生成式AI的發展歷程可以追溯到20世紀50年代,當時科學家們開始探索人工智能領域,試圖讓計算機具備類似于人類思維的能力。生成式AI經歷了早期發展階段(20世紀50年代至70年代:依賴于規則和模板生成文本和語言);技術積累與突破階段(20世紀80年代至2010年代:計算機、神經網絡、深度學習等技術的發展);實質性發展階段(2014年至今:生成式對抗網絡的提出,大型預訓練模型的興起,應用場景的拓展)這3個階段。從開始探索如何讓計算機模擬人類智能到專家系統的出現,以及卷積神經網絡(CNN)、循環神經網絡(RNN)等技術的發展,直至2014年生成對抗網絡(GAN)模型的提出標志著生成式AI進入實質性發展階段。再到近年來,隨著Transformer架構的提出和大規模預訓練模型的發展,生成式AI在語言理解和生成能力上取得了巨大突破。緊接著,生成式AI在制造、醫療、教育、軍事和金融等多個領域展現出廣泛的應用前景。
1.3" 生成式AI在醫學領域的應用現狀
目前生成式AI在醫療輔助診斷方面表現出色。如基于深度學習技術,其可以高效分析醫學影像資料(如X光、CT、MRI等)、自動識別病灶、測量病變大小、分析組織結構變化以及評估病情進展,從而輔助醫生實現早期的疾病診斷和治療。在診療過程中,生成式AI能夠有效識別患者的疾病類型和病情程度,并為患者量身定制個性化的治療方案,從而顯著提升醫生診療水平和工作效率。
在醫學教育領域,生成式AI同樣表現優秀。通過模擬真實情境,使醫學生和醫生能夠在沒有真實患者風險的情況下進行大量練習,給予醫學人員更多的機會去探索、嘗試,即使犯錯也無需擔憂可能帶來的負面后果,從而幫助醫學生和醫生提高診斷技能、治療計劃和溝通技巧。同時,其還可以根據不同學習者的學習進度和掌握情況,生成個性化的學習材料,實施更高效的學習培訓。值得一提的是生成式AI具有強大的學習能力,能及時更新醫學研究成果,確保學習者可以獲得最前沿的信息。
在藥物研發領域,生成式AI通過對大量數據的分析和綜合,能夠快速識別潛在的有效化合物。這種技術能夠處理和分析超出人類能力范圍的數據量,提供基于數據驅動的見解,從而加速藥物再利用的過程。
在醫療記錄管理方面,生成式AI通過自然語言處理技術,能夠自動提取和整理患者信息,高效完成電子健康記錄(EHR),從而快速提高醫生的工作效率。
同時,生成式AI還在心理健康領域、個性化治療、健康監測與預防和手術輔助等眾多領域都發揮著重要的作用。
這些應用不僅有效提升了醫療服務的效率與品質,同時也促進了醫療行業的智能化發展。當然,任何新技術的應用,都會帶來一系列機遇與挑戰并存的局面。同樣,生成式AI在醫學領域的應用也面臨一些挑戰,如存在缺乏統一評估、數據隱私保護、結果可控性和算法可解釋性等方面的挑戰。相信,隨著技術的不斷進步,生成式AI在醫學領域的應用前景將更加廣闊。
2" 生成式AI賦能醫學數據分析概述
2.1" 醫學數據分析的重要性
醫學數據分析在醫學研究和臨床實踐中發揮著至關重要的作用,通過醫學數據分析,可以幫助醫生更準確地診斷疾病,提供個性化的醫療服務,同時還有助于醫學科研深入發展,促進臨床決策,提升醫療服務質量。另外,進行醫學數據分析,還能夠加速新療法的發現和驗證過程,從而為患者帶來更加先進和有效的治療方案。還有,醫學數據分析在助力提升疾病預防與控制的效果及更合理地分配有限的醫療資源等方面也發揮著至關重要的作用。
2.2" 醫學數據分析面臨的挑戰
由于醫學數據分析涉及海量、復雜且敏感的醫療數據,其在實施過程中面臨著多方面的挑戰。主要包括醫學數據的質量與完整性、醫學數據的安全和隱私、醫學數據分析過程的嚴謹性和科學性、醫學數據分析人員的專業知識和技術能力等,這些方面共同構成了醫學數據分析復雜而多維的挑戰體系。
2.3" 生成式AI賦能醫學數據分析優勢
生成式AI憑借其強大的數據處理和模式識別能力,能夠自動化地進行數據清洗、特征提取和規律發現,極大地提高了數據分析的效率與準確性。這不僅加速了醫學研究的進程,還為科研人員提供了更多洞察疾病機制、評估治療效果的新視角,對于推動醫學科學的發展具有重要意義。
2.4" 生成式AI賦能醫學數據分析實際應用價值
隨著醫學大數據時代的到來,生成式AI在醫學數據分析中展現巨大價值。它能夠在巨量的影像、化驗及診斷數據中迅速、準確且細致地檢索到所需信息,并以此輔助或提升臨床診斷的準確性和效率。同時,生成式AI能夠生成數據彌補數據缺失,確保研究可靠性。這些應用提升了醫學研究精準度,促進了科研成果轉化,為患者帶來個性化和高效治療方案。有理由相信,隨著技術的不斷進步和創新,生成式AI在醫學數據分析中的實際應用價值將越發凸顯。
3" 生成式人工智能賦能Python編程,開展醫學數據分析實踐
3.1" Python概述
當下,市面上流行的編程語言種類繁多,如Python、JavaScript、Java和C#等,每種語言都有其獨特的特點和優勢。目前,在眾多編程語言之中,Python脫穎而出,成為了一種極為流行且易于上手的語言。近年來,它憑借易于閱讀、語法簡單易學、在諸多專業領域的信息化應用方面有豐富的資源[2],以及擁有廣泛的庫支持而深受歡迎。
Python程序可至其官網(https://www.python.org)下載,目前Python較新版本為3.12。Python IDLE提供了一個交互式的Python解釋器和一個基于文本的代碼編輯器,用戶可以用來編寫、執行和調試Python代碼。
3.2" 醫學數據與問題
研究石杉堿甲治療增齡相關記憶障礙的效果,選取15例增齡相關記憶障礙患者,年齡60~80歲,平均72歲,男性9例,女性6例,小學以上受教育程度,緩慢發生部分記憶減退3 a以上,并按統一標準入選。其治療前后長期記憶功能評分(包括“1—100背數評分”“100—1背數評分”和“1—19累加評分”3個定量指標),見表1。假定資料滿足參數檢驗的前提條件,試分析治療前后各項長期記憶功能評分差異是否有統計學意義[3]。
3.3" 生成式AI賦能醫學數據分析
在本例中,采用傳統分析法時,胡純嚴和胡良平的做法是首先對數據結構進行深入分析,隨后基于分析結果創建SAS數據集,最后利用SAS工具進行統計分析。整個過程涉及廣泛的專業知識,對醫學研究人員而言,復雜且耗時。這不僅是一個技術挑戰,更是一個對數據敏感度和分析能力的考驗。(經胡純嚴和胡良平分析顯示:3個定量指標差量組成的均值向量與假定的均值向量[0,0,0]’之間差異有統計學意義[3]。)
隨著生成式AI的崛起,為醫學研究人員提供了新機遇,醫學研究人員通過自然語言與其交流,即可快速獲得所需編程代碼,實現預期功能。這一功能極大地減輕了醫學研究人員的負擔,使其能夠更專注于核心業務邏輯的實現。實踐中,生成式AI在理解開發者需求、自動生成代碼、簡化編碼流程、降低編程復雜度,以及提高代碼質量等方面展現出巨大的潛力和價值。
在本例中,研究人員可以通過與生成式AI進行對話,獲得分析所需的Python代碼,在Python IDLE中調試運行,即可快速得到分析結果。
下面以國內較著名生成式AI——文心一言(文心一言,網址為https://yiyan.baidu.com/,是百度公司研發的知識增強大語言模型,注冊后即可免費使用)來例舉生成式AI賦能醫學數據分析的方法和路徑。
總體思路:①對話提出需求;②文心一言生成Python代碼;③Python IDLE調試代碼;④得到結果。
輸入對話內容:請分析cp文件,試分析治療前后各項長期記憶功能評分差異是否有統計學意義。請編寫python代碼進行分析,給出是否有統計學意義的結論。提示:cp.xlsx文件Sheet1表中第三行開始是列名。(關于對話內容的解釋:為了便于文心一言更好地分析理解問題,本例中將“表1”的數據存于cp.xlsx文件的Sheet1表中,在與文心一言進行對話時一并上傳該文件。如不上傳文件,則在對話中還將給予文心一言更多必要的提示。)
根據對話,文心一言首先給出提示:“為了分析cp.xlsx文件中3組數據(1—100背數評分、100—1背數評分、1—19累加評分)在治療前后的長期記憶功能評分差異是否具有統計學意義,我們可以使用Python的pandas庫來讀取數據,并使用scipy.stats庫中的統計測試(如配對樣本t檢驗)來檢驗差異。由于這里涉及的是患者治療前后數據的對比,因此配對樣本t檢驗是合適的。首先,我們需要安裝必要的庫(如果尚未安裝):pip install pandas numpy scipy。”
緊接著給出Python代碼,并同時提供了“解釋”:“這段代碼首先導入了必要的庫,然后讀取了Excel文件中的數據,跳過了前兩行非數據部分,并重新設置了列名以匹配數據。之后,使用scipy.stats中的ttest_rel函數對3組評分數據分別進行了配對樣本t檢驗,并輸出了統計量和p值。最后,根據p值的大小判斷差異是否具有統計學意義,并打印了相應的結論。”
根據文心一言的提示,由于本例代碼要使用Python的pandas庫來讀取和處理數據,使用scipy庫來進行統計檢驗。如事先沒有安裝該庫,則需要先安裝。文心一言給出了安裝命令:pip install pandas numpy scipy。(Python庫的安裝可在CMD命令窗口完成。)
在確保相應的Python庫安裝成功后,可在Python IDLE解釋器中進行代碼調試。復制文心一言生成的Python代碼,運行后得到答案:(3組數據)差異有統計學意義。此結論與胡純嚴和胡良平用傳統分析法給出的結論一致。如圖1所示。
過上例表明,生成式AI極大地簡化了醫學數據分析的流程,降低了其復雜性與準入門檻,使得即便不具備深厚技術背景的研究者也能輕松獲取精確的實驗結論。
4" 討論
4.1" 生成式AI在醫學數據分析中的優勢與局限性
4.1.1" 優勢
在醫學數據分析中,生成式AI在多個方面展現了顯著的優勢,具體表現在,①提高效率:通過上例醫學數據分析實例,發現利用生成式AI,如文心一言,可以快速生成針對特定數據分析需求的Python代碼,極大地提高了數據分析的效率。②降低難度:對于非編程專業的醫學研究人員來說,文心一言提供了一個友好的接口,研究人員能夠通過簡單的對話方式獲得所需的代碼,降低了數據分析的門檻。③加快進度:對于急需快速知道實驗答案的研究者來講,生成式AI可謂一把利器,簡化了數據分析過程,使得醫學研究人員能夠擺脫繁瑣的計算,將更多精力專注于實驗設計,從而加速醫學研究的進度。④處理不完整數據:在某些任務中,輸入數據可能存在不完整或缺失的信息,生成式AI能夠通過學習概率分布來生成可能的完整數據[4],從而填補這些空白。這種能力使得生成式AI在處理具有不確定性和不完整性的實際問題時表現出色。
可見,生成式AI的引入,不僅為醫學數據分析帶來了新的技術工具和方法,也為促進醫學研究的創新和發展注入了新的活力。生成式AI,如文心一言,有望在未來成為醫學研究的重要工具。
4.1.2" 局限性
在實踐層面,使用生成式AI,如文心一言在賦能醫學數據分析中,也發現了其一定的局限性。具體表現在,①理解局限:生成式AI對于自然語言的智能理解以及對文件的分析上還有所欠缺。如在處理例題的過程中,剛開始經多次嘗試,均無法獲得有用的python代碼。后在與其多次對話過程中,發現原來文心一言對于excel列名的識別不佳。所以,在處理一些較為復雜的問題時,與文心一言進行對話過程中要提供必要的且更為清晰的提示語,這樣能夠更好地幫助其理解問題,從而給出更加精準的“回答”。②過程缺失:鑒于生成式人工智能技術的固有特性和工作原理,生成式AI提供的答案往往缺少詳細的解釋過程。在醫學領域,理解數據分析的過程和結果同樣重要。例如,目前的生成式AI技術,如文心一言,無法像傳統的醫學數據分析那樣給出詳盡完整的分析過程。其在借助編程的過程中,往往依賴于程序中的函數、庫等技術,使得只有“結論”,卻沒有“過程”。限于技術層面的局限,可能導致研究人員對得出的結論,無法進行驗證,從而產生質疑或不確定。③黑盒風險:由于生成式AI為不透明的“黑盒”人工智能,其給出的答案還可能存在錯誤或偏見,并且有可能完全不被發現[5]。④倫理困境:隱私與倫理問題也是制約生成式AI在醫學數據分析中應用的重要因素。醫療信息具有較高的隱私性與敏感性,若醫療數據信息被非法泄露,不僅會對患者的財產、健康造成威脅,嚴重時會危及到社會秩序安全[6]。因此在利用生成式AI進行分析前,必須確保數據的合規處理與匿名化,避免信息泄露。這一過程中,如何平衡數據利用與隱私保護,是當前技術實施中的一個難點。
綜上所述,盡管生成式AI,如文心一言在賦能醫學數據分析方面展現出潛力,但由于醫學領域的專業知識深厚且復雜,涉及大量專業術語和特定上下文環境,生成式AI賦能Python編程助力醫學數據分析實踐中仍面臨一定的挑戰。
4.2" 生成式工人智能與傳統數據分析方法的比較
4.2.1" 方法與技術
傳統數據分析方法通常依賴于統計學模型,如回歸分析、假設檢驗等,或借助于Excel、SQL等工具,或使用SPSS、SAS等統計軟件進行統計分析,要求研究人員具備扎實的專業知識和技能,專業性較強。而生成式AI則在生成模型的支持下,依賴深度學習、神經網絡等先進技術,使用諸如Python等現代編程語言和框架,擅長自然語言處理、文本生成和理解,其使用門檻相對較低,使得非專業的研究者也能輕松上手,快速得到數據分析結果。
4.2.2" 數據處理能力
傳統數據分析受限于傳統工具的處理方式和能力,比較耗時耗力且數據量處理有限。而生成式AI則能夠自動從數據中學習特征,高效地處理海量數據,迅速提取有價值的信息,提供更加準確和全面的分析結果。值得一提的是,生成式AI則還能夠處理除文本以外的圖像、音頻和視頻數據信息,這使得其在醫學數據分析領域具有巨大的應用潛力。
4.2.3" 數據隱私與安全
傳統數據分析由于數據量較小且通常已經過處理,隱私問題相對較少。而生成式AI則處于相對開放的環境中,需要特別注意數據隱私和安全問題。
4.2.4" 解釋性和透明度
傳統數據分析由于模型較為簡單,解釋性較好,更容易理解和驗證分析結果。而生成式AI往往使用黑盒模型,其內部的工作機制對于外部觀察者來說是不可見或難以理解的,因此其解釋性和透明度較低,需要額外的技術來增加模型的可解釋性。
綜上所述,生成式AI則以其強大的數據處理能力、較低的使用門檻以及對非結構化數據的良好適應性,展現出巨大的潛力和廣泛的應用前景。
5" 結論與展望
5.1" 結論
本文通過探討生成式AI在醫學數據分析中的應用,展示了其強大的賦能作用。以Python編程為橋梁,生成式AI,如文心一言等模型能夠顯著簡化數據分析流程,降低技術門檻,提高分析效率與準確性。通過具體案例分析,驗證了生成式AI在進行醫學數據分析中的有效性和便捷性,為醫學研究和臨床實踐提供了新的思路和方法。同時,生成式AI在醫學數據分析中的應用仍存在一定局限性,如自然語言理解的準確性、解釋過程的詳盡性、隱私與倫理問題等,這需要在未來發展中不斷完善和解決。
5.2" 展望
展望未來,隨著生成式AI技術的持續突破與應用場景的不斷拓寬,其在醫學數據分析領域的應用前景將愈發廣闊。未來,醫學、計算機科學、統計學等學科將進一步加強合作,共同推動生成式AI在醫學數據分析中的深入應用,同時隨著與深度學習、強化學習等更多先進技術相融合,將開發出更加智能、高效的數據分析工具。另外,隨著數據保護法規的不斷完善與技術手段的持續進步,生成式AI在醫學數據分析中的應用將更加注重隱私保護與倫理規范,確保患者數據的安全與合規使用。
總之,生成式AI賦能Python編程助力醫學數據分析的實踐研究不僅為醫學領域帶來了新的技術工具和方法,也為推動醫學研究和臨床實踐的發展注入了新的活力。有理由相信,在未來的發展中,生成式AI將在醫學領域發揮更加重要的作用,其未來發展值得期待,并將深刻改變醫學研究與臨床實踐的未來面貌。
參考文獻:
[1] 畢文軒.生成式人工智能的風險規制困境及其化解:以ChatGPT的規制為視角[J].比較法研究,2023(3):155-172.
[2] 陳浩強,梁振,劉方,等.新工科背景下的Python程序設計教學微改革[J].電腦知識與技術,2024,20(17):141-144.
[3] 胡純嚴,胡良平.合理進行均值比較——單組和配對設計定量資料多元方差分析[J].四川精神衛生,2023,36(S1):25-29.
[4] 蘇莉雯,吳楊.生成式人工智能在口腔醫學的應用潛力與挑戰[J].口腔醫學研究,2024,40(1):11-17.
[5] 寧春輝,孔萌,張家林,等.生物醫學數據分析方法綜述[J].數學建模及其應用,2022,11(1):1-15.
[6] 馬存寧.醫院醫療數據隱私保護與安全共享[J].網絡安全技術與應用,2024(4):130-132.
作者簡介:查昶瑋(2004-),男。研究方向為信息技術與醫學融合。