楊 晟,尤東方,邵方
(南京醫科大學 公共衛生學院,江蘇 南京 211166)
生物統計學作為一門應用學科,對學生的培養重點在如何使用生物統計學方法和工具解決實際的生物醫學問題,尤其是在本科教育階段,生物醫學大數據分析已成為醫學研究與應用的剛性需求。基于現代醫學大數據開展真實世界研究及數據挖掘所面臨的因果推斷、高維數據分析等剛性需求,都依賴于生物醫學大數據分析的理論和實操能力。因此,亟待解決生物統計專業生物醫學大數據分析能力的培養問題,以滿足實際工作需求。目前,生物統計學專業的教學主要集中在統計分析方法的理論基礎上,缺乏實踐經驗的培養。溝通能力和處理實際問題的相關經驗,被很多用人單位看作是新員工的關鍵技能[1-3]。同時,職業道德是生物醫學大數據分析能力培養的核心組成部分[1]。目前雖然一些課程采用大作業練習或項目學習,為學生提供了有價值的入門訓練,但這些課程練習和項目往往比較陳舊,和實際工作有一定的差別且持續時間較短[4]。我們認為,培養實踐技能和解決實際問題的能力,需要足夠的時間和經驗,這是培養方案應該關注的重點。參考其他應用學科,住院醫師模式的出現不僅使得醫學培訓變得越來越標準化,還確保年輕醫生獲得了重要的實踐經驗。因此,對心理學和教育學學生的培養采用了類似的模式[1]。這說明住院醫師模式可以為以實踐經驗為中心的生物醫學大數據分析應用能力的培養提供借鑒。基于以上論述,我們提出了以實踐經驗為中心的生物統計學專業生物醫學大數據分析能力的培養方案,借鑒醫學住院醫師的培養模式,以長期在實際應用環境下的課題項目作為培養重點。專注于獲得真實世界實踐經驗的培養方案,將更好地確保學生就業時具有生物醫學大數據分析的全面技能。
醫學和心理學的教學已經開始通過核心能力的視角來看待專業教育,為設計能滿足學生需求的培養方案提供了大體框架[1]。表1列出了在制訂培養方案時,考慮的生物醫學大數據分析能力及所涉及的指標體系。
表1為生物醫學大數據分析所必備的能力提供了一個參考框架。這些能力不僅相互依賴,而且在特定的項目過程中會重復使用。傳統的課程教學并不能全面、綜合地培養這些實踐能力。為了培養學生的生物醫學大數據分析能力,借鑒住院醫師的培養模式,我們認為在實際應用環境下的長期課題項目是一種很好的方式。生物醫學大數據分析課題項目的生命周期一般分為八個階段,包括問題識別、范圍確認、數據獲取、初步探索、制訂計劃、分析建模、實際驗證和實施維護。下面將對課題項目的各階段進行詳細描述,展示相關能力的綜合應用,并通過女性卵巢老化風險預測的現實例子來加以說明。

表1 生物醫學大數據分析能力及所涉及的指標體系
課題項目啟動時,需要對問題的解決方案進行探討。生物統計師既要就技術上的可行性發表意見,也要承擔道德責任,強調其中的局限性和風險性。同時,需要了解數據隱私和共享的法律法規,幫助決策者了解現有數據如何被使用,以及是否可收集其他數據。例如,婦產科的臨床醫生通過接診發現,與女性卵巢老化相關的疾病越來越多,但目前的做法只是在病人來醫院就診后才進行治療。醫生們希望在常規檢查中主動識別可能有風險的女性,從而減少女性由卵巢老化導致的疾病。
課題項目開始進行后,溝通和問題定義的能力對實際工作的范圍確認是非常重要的。生物統計師需要評估哪些問題可以用現有數據來回答,并與干系人密切合作,了解他們的需求。此階段的道德問題包括考慮如何處理和保護敏感數據。例如,召開討論會議,包括臨床醫生和生物統計師,了解可用的數據及如何將其投入使用。由于需要處理與個人健康信息有關的數據,決定將所有分析工作限制在醫院的安全服務器環境中并進行脫敏處理。主要的干預措施被確定為基于回歸模型對女性卵巢老化程度進行風險評估,對高風險女性進行治療,減輕或減少其相關疾病。
在這一階段的工作中,生物統計師需要應用處理和構造原始數據的技能。例如,合作醫院提供了一個數據庫和服務器,用于分析個人層面的基礎數據及檢查報告。來自其他來源的數據被導入環境中,包括人口普查和公共數據庫中可獲取的相關數據。生物統計師與每個數據源的所有者緊密合作,以確保他們了解數據結構和字段。
在這個分析的初始階段,主要通過匯總統計、可視化和初步建模來探索數據中的趨勢和關系。在大多數項目中,此階段還需要重新處理缺失數據,以及識別標簽、潛在變量特征和數據中潛在的偏差與不一致。例如,生物統計師結合使用描述性統計、變量相關和時間序列分析,了解數據中變量間的關系及其局限性。通過數據中的缺失值確定了提取、轉換、加載過程中的錯誤,并通過新的數據提取過程進行糾正。
在此階段,生物統計師需要有效地將初步結果傳達給干系人,并和干系人共同制訂分析計劃,為項目建立起技術路線。例如,根據初步探索數據得到的結果,生物統計師與臨床醫生合作,以臨床中卵巢老化的相關疾病涉及的變量特征為基礎,確定檢查中應涉及的項目,以及后續分析建模所需要的工具和流程。
該階段所使用的具體技能,將從數據描述轉向總結、預測和解釋。一般來說,這個階段涉及生成大量的模型、分析或結果,然后進行分析得出有意義的結論。在建立預測模型時,涉及模型選擇過程,平衡不同的性能和指標,以得出一個單一的模型,并將其投入實際應用中。這一階段還可能涉及成果展示,這不僅要使用溝通表達和數據可視化技能,還需要總結大數據分析的結果并給出解釋和有意義的結論。例如,生物統計師基于訓練集數據,應用回歸模型進行建模。基于均方根誤差、赤池信息量準則等指標,折中選擇泊松分布對數線性模型,并對涉及的變量特征進行篩選降維,在驗證集中進行驗證。
前一階段的成果是形成一套最終的分析結果或模型,準備在現實中進行試點或驗證。例如,開發了一個為期一年的現場試驗,期間每月隨機對250名婦產科就診病人進行相關檢查,以確定是否存在卵巢老化的問題,并對發現的相關疾病進行治療。該試驗證實了該模型在識別女性卵巢老化方面的性能。同時,開發相關網頁工具可方便病患基于檢查結果實時進行風險識別。
為了使大數據分析項目產生實際價值,應推動成果的落地實施。進一步推廣成果,并持續進行維護和改進。例如,該模型的應用使更多的女性關注卵巢老化問題,主動進行預防并減少相關疾病的惡化。醫院婦產科決定投入資源維護,并定期更新和重新評估該模型。
單獨來看,課題項目的每個階段都會需要一系列不同的能力,突出了生物醫學大數據分析中全面的技能發展需要。目前許多大數據分析能力的培養,都沒有達到培養勝任的、全面的分析師的目的。分析師應當有能力處理他們在實際工作中遇到的各種細微問題,而不是僅僅通過課堂教學的學習,掌握分析方法或工具。實踐經驗的積累需要時間和正確的引導,因此,長期的生物醫學大數據課題項目是合理有效的能力培養途徑。
借鑒住院醫師的培養模式,我們認為以實踐經驗為中心的實際應用環境下的長期大數據分析課題項目,是生物統計學專業生物醫學大數據分析能力的有效培養途徑。基于此,我們做出了初步探討,制定了具體的培養方案(見表2)。

表2 生物統計學專業生物醫學大數據分析能力培養方案
從以上培養方案可以看出,第一學年,主要進行常規的課程教學,涵蓋數學、計算機基礎和素質培養。學生對高等數學、線性代數、計算機系統、數據庫、演講與口才、溝通技巧等有了初步的掌握,目的是使學生構建相關理論基礎知識,并提升交流表達能力等“軟”能力。第二學年,學生除了學習專業的常規專業課程(包括統計學相關專業課程、計算機編程和數據庫課程)外,還應開展生物醫學大數據分析案例系列講座。其目的是在常規課程之外,讓學生通過案例,直觀地對生物醫學大數據分析有所了解,明白整個分析流程及所需要掌握的工具和能力,為后續生物醫學大數據分析課題項目的開展做鋪墊。同時,應開展生物醫學大數據分析課題項目的銜接課程,針對后續項目的實施推進做準備,將已經掌握的常規課程內容有針對性地轉換為課題項目所需的工具和能力。銜接課程大致可以分為三個部分,分別針對項目前期工作、中期分析工具方法和后期成果展示進行靈活講授,目的是讓學生為后期直接上手開展課題項目打下基礎。第三學年,課程應加深相關模型、算法和軟件實現的教學,同時開辦生物醫學大數據分析應用前沿系列講座。通過這些講座使學生在提高接受水平的同時,對當前生物醫學大數據分析的前沿應用有全面的認知,為學生開展課題項目工作提供與時俱進的指導。生物醫學大數據分析課題項目從第三學年開始進行,學生需要與對口醫療機構合作,利用所學知識進行真實環境下的大數據分析課題研究工作。該課題項目持續時間約兩年,學生將在實際應用環境下完整經歷前文所述項目的八個階段,全面綜合地培養學生的各項能力,積累實踐經驗。課題項目工作可以根據實際情況,與第四學年的實習和畢業論文(設計)進行合并,避免重復。
為了更好地促進生物醫學大數據分析能力的培養,各高校應加強交流,取長補短。鼓勵學生有針對性地積極參與國內外各類大數據分析建模競賽中的與生物醫學相關的競賽任務,比如Kaggle和百度舉辦的各類大數據分析建模大賽。這樣不僅可以開闊學生的視野,還可以橫向比較,加強自我認識。
從優秀的生物統計師需要掌握的能力指標體系來看,目前的培養方案存在不足,無法有效滿足生物醫學大數據分析的實際工作需求,仍需要畢業生通過工作經驗來填補。基于此,我們提出了一個培養生物統計學專業學生生物醫學大數據分析能力的新方案,借鑒住院醫師的培養思路,將實踐經驗的積累作為培養重點,通過實際應用環境下的長期大數據分析課題項目來實現。希望該培養方案不僅能在生物醫學大數據分析能力培養探索道路上邁出新的一步,還能拋磚引玉,帶來其他形式的創新實踐,旨在培養學生通過生物醫學大數據分析能力的訓練,獲得積極的實際影響。