溫平鏡,董柏青,李海,馬金鳳,羅丹,陳世藝,崔海辰,李忠友,覃光球通信作者)
(廣西中醫藥大學公共衛生與管理學院,廣西 南寧)
預防醫學是與臨床醫學、基礎醫學并列的三大現代醫學一級學科,它以人群為主要研究對象,應用宏觀與微觀的技術手段,研究健康影響因素及其作用規律,闡明外界環境因素與人群健康的相互關系,制定公共衛生策略與措施,以達到預防疾病增進健康延長壽命提高生命質量為目標的一門醫學科學[1]。公共衛生人才是具有公共衛生與預防醫學專業基礎知識和基本實踐技能的人才,其有明確的職業性、實用性、實踐性和高層次性的應用型人才[2-3]。以人群為主要研究對象的特性意味著公共衛生實際工作將面對人群健康大數據,因此數據挖掘和應用能力是公共衛生人才的核心能力。
“大數據”早已成為當下互聯網社會的一大熱詞。2015年9月中國頒布的《促進大數據發展行動綱要》,2016 年 6 月頒布的《關于促進和規范健康醫療大數據應用發展的指導意見》(后文簡稱《意見》)兩大政策文件構成了我國健康醫療大數據發展的核心戰略,成為其他相關戰略制定的綱領性文件,是全國乃至各省份推行健康醫療大數據最為核心的指導文件。在健康醫療領域,《綱要》重點提出要推廣大數據應用,完善健康領域信息資源建設,構建電子健康檔案、電子病歷數據庫,建設醫療健康管理和大數據應用服務體系,加強大數據基礎研究,面向健康醫療等重點需求,探索建立數據科學驅動行業應用的模型。《意見》將健康醫療大數據視為國家重要的基礎性戰略資源,對健康醫療大數據的發展作出更具體的指示和戰略指導,標志著健康醫療大數據應用發展被納入國家大數據戰略。
隨著健康大數據的發展,以人群和個體為研究對象的公共衛生領域發生了深刻變革,主要表現為健康相關的數據呈指數級涌現:(1)醫療數據。隨著數字化醫院的建設,大量醫療數據被規范化存儲,把患者個體數據當作為整體進行研究時,能夠挖掘出大規模公共衛生事件相關的信息。隨著分級診療和家庭醫生簽約服務項目推進,家庭護理及家庭醫生健康監測也將成為公共衛生數據的重要源頭。(2)家庭便攜式智能設備數據。家用智能健康測量裝置,如智能體重秤、藍牙血糖儀、電子血壓計等,以及智能穿戴產品,智能手環、計步器、專門測量呼吸的運動背心等,都將產生大量健康數據[4-5]。(3)地理信息數據。因公共衛生研究通常具有時空性,將地理信息系統數據(地理位置、行政區域)與環境、氣象、健康等公共衛生大數據結合,數據的時空性可有效體現[6]。(4)生物醫學數據庫和政府基礎平臺數據。互聯網各類公共生物數據庫,如NCBI,GenBank、uniprot等,提供了大量生物分子、微生物分類等數據[7]。中國最新建設的“國家人口與健康科學數據共享平臺”,包含237個數據集,數據量達到49.1TB,覆蓋包括生物醫學、基礎醫學、臨床、公共衛生、中醫藥學、藥學、人口與生殖健康七大類,將帶動生物醫學數據資源整合與共享,為實現健康中國2030年的戰略目標發揮重要作用。(5)其他數據。氣象、輿情、疫情、農作物和食品安全等數據,均可用于公共衛生研究。
以上數據具有大量性、高速性、多樣性、真實性和復雜性,需要具備一定數據挖掘應用能力,才能進行提取和整理,通過深入挖掘和分析獲取重大疾病影響因素、流行病的傳播規律等信息及其他健康/疾病發生發展的規律,以服務新時代公共衛生,保障人民健康[8]。當今公共衛生人才如不具備一定數據挖掘應用能力將難以勝任新時代公共衛生發展需求。
衛生統計學是以概率論和數理統計為基礎一門課程,由于課程相對抽象,因而被認為是較難學的一門課程[9-10]。在認知方面,大多數預防醫學本科生對衛生統計學課程不感興趣,其原因可能為課程難度大,內容過于抽象有關[11]。限于師資和學時限制,統計實驗課多數是“模式化”教學,教師按照實習指導使用一套規范、整齊的數據進行實驗教學。在缺乏實踐的教學中,學生甚至誤以為實際工作中處理的數據都是整齊、規范、無缺失、完全符合統計學要求的[12]。
在本科畢業論文數據處理中可明顯窺見學生數據處理能力不足,主要表現為:(1)調查表設計模式化,甚至不懂為何要設計某一問題;(2)收回調查表后遇到混雜數據、偏倚數據、離群數據時往往不知如何進行處理;(3)數據處理不規范、數據錄入不對、統計方法不對、統計圖表應用不恰當。面對真實場景的數據感到 猝不及防,發現自己的數據跟課堂練習的完全不一樣,無知如何對無效數據、偏倚數據和無規則數據進行挖掘分析。
目前我國預防醫學人才國家質量標準中,要求必須安排的專業基礎課和專業課有衛生統計學、流行病學、毒理學基礎、環境與健康等課程,并未要求開設數據挖掘應用相應課程,其存在一定程度滯后性。經我們調查,2017年參加全國公共衛生與預防醫學學科評估的34所高校中,僅7所高校將數據挖掘相關課程作為在預防醫學專業的專業課程,分別是南京醫科大學(醫學研究的數據管理與分析)、華中科技大學(衛生統計方向:SAS基礎、SPSS基礎、多元統計分析、醫學數據庫、衛生資源統計、醫院統計學)、首都醫科大學(數據管理與基本統計分析)、中國醫科大學(衛生信息管理學)、中南大學(數據庫應用基礎)、西安交通大學(數據管理與分析)、華北理工大學(健康數據管理與分析)。大部分開設預防醫學專業的高校并未將數據挖掘相關課程作為專業課。2020年在《國務院辦公廳關于加快醫學教育創新發展的指導意見》指出,為深入推進新醫科建設決定建設一批高水平公共衛生學院。《意見》中明確指出,要改革創新公共衛生人才培養模式:以公共衛生和健康問題為導向深化教育教學改革,加快構建現代化的公共衛生教育課程教材體系,將人文社科、工程科學、數據科學、信息技術等多學科知識融入公共衛生教育教學。很顯然,在健康大數據時代背景下我們很多高校人才培養體系并不能滿足建設高水平公共衛生學院的相關要求,相關改革亟待實施。
預防醫學專業大部分教師能意識到大數據的重要性,但限于時間、精力、能力、自身研究方向等原因,除了流行病和統計學課程教師,大部分教師不愿意在數據挖掘方面進行鉆研,因為其涉及到計算機信息技術、數據科學相關知識的重新學習且數據來源有限,不能進行很好的練習。預防醫學專業本科生普遍認為只要能掌握統計學和流行病學就能應付將來日常工作需求,也沒有更專業的老師帶領其進行數據挖掘,日常學習實踐中不懂大數據來源。大部分同學計算機基礎薄弱,無專任教師帶領對數據挖掘興趣不足。
圍繞公共衛生人才數據應用能力的培養,在預防醫學人才國家質量標準框架下,組織預防醫學專業指導委員會專家商討人才培養方案,在其中增加數據挖掘相關課程,如《醫學數據挖掘》、《大數據處理與分析》、《Python程序設計基礎》,形成切實可行的方案。根據人才培養方案修訂相關課程教學大綱,以適應人才培養的需求。
根據現有課程體系,循序漸進開設數據挖掘相關課程。先將課程在公選課、限選課中開設,引導、鼓勵學生選課,當課程獲得較好效果時,之后在預防醫學專業必修課中開設。在理論教學中運用PBL法,情景教學法增加公共衛生數據挖掘的生動案例;在實踐/實驗教學中增加設計性實驗比例,增加對現實數據練習。
(1)從權威的中國疾病預防控制中心《中國現場流行病學調查報告》、《中華流行病學雜志》、《中華預防醫學雜志》、美國疾病預防控制中心流行病學精英服務(EIS)等材料中選取有代表性的數據應用案例,形成案例庫。
(2)安排有公共衛生工作經驗的教師或邀請公共衛生機構專家運用PBL法,情景教學法對案例進行生動講解,增加學生對公共衛生數據挖掘的興趣,提升其對公共衛生數據的專業理解。
通過以下方式提升教師及學生的大數據素養:(1)線上線下多形式參加數據健康會議;(2)瀏覽挖掘各種平臺數據資源,如國家人口與健康科學數據共享平臺,世界衛生組織衛生報告,公共衛生數據中心,中國健康與營養調查等;(3)學習、剖析公共衛生數據應用案例;(4)廣泛了解學習健康大數據在公共衛生領域的應用,明確數據運用的廣泛性,提升對數據挖掘的興趣。
在第二課堂中,在教師帶領下利用網絡資源學習鞏固一些數據挖掘技術,如數據開發技術(Hadoop)、分布式數據倉庫(Hive)、數據庫技術(NoSQL)、大數據處理技術 Spark(基礎、中級、高級)、Python 編程、數據分析與挖掘、大數據可視化技術、機器學習(基礎、中級、高級)等模塊。利用網絡下載數據進行數據挖掘的練習,鼓勵其在本科階段發表論文。
(1)利用假期時間到公共衛生部門、醫院、衛生健康委員會信息健康統計中心等單位/部門實習實踐,實戰挖掘環境與健康、疫苗、慢性病、傳染病等大數據,鼓勵她們發文章。(2)以賽促學,組織學生參加全國公共衛生“數據共享大賽”。(3)校企合作,使學生參與到企業資助的公共衛生大項目中,獲得數據并挖掘分析數據。(4)鼓勵學生申報數據挖掘相關課題,做數據挖掘相關內容的畢業論文/設計。
建立校地聯合培養的長效機制,聘請有公共衛生數據應用經驗的地方專家到學校帶教,同時增強教師公共衛生經驗、知識、素養,鼓勵學校教師利用假期到公共衛生機構輪崗。
打破傳統考核機制,在數據挖掘相關課程中主要考核學生數據發現、數據挖掘技術、數據解釋能力,以報告/論文形式完成學期終評。具體如下:(1)正式課堂和第二課堂參與度、數據挖掘熱情、大數據素養、假期實習實踐等平時表現占終成績10%。(2)數據挖掘理論考試,主要檢驗學生數據挖掘的理論,占終成績20%。(3)數據挖掘技術占終成績30%,給出真實公共衛生數據,以不同方式/模型對數據進行挖掘分析,主要檢驗學生數據挖掘技術掌握程度。(4)數據挖掘論文占終成績40%,要求學生自行到相關數據平臺挖掘大數據資源,并運用合適的數據挖掘技術進行數據處理、數據可視化、數據解釋,最終形成論文/報告,鼓勵學生將論文發到高水平雜志。
在健康大數據時代背景下公共衛生領域數據呈指數級增長,對其進行挖掘分析并有效應用可發現疾病發生發展規律和健康促進因素、助力醫藥生物技術發展,為宏觀衛生決策提供技術,提升公共衛生應急水平[13]。 但目前現有教學限制、預防醫學專業國家質量標準滯后、教師及學生大數據素養較弱、缺乏數據挖掘實踐機會等因素影響,目前大部分公共衛生人才大數據挖掘應用能力普遍較弱,尚不能有效利用這些大數據,因此急需培養出醫學基礎扎實,公共衛生素養高,數據挖掘應用技術強的復合型公共衛生人才。要培養出合格的具備數據挖掘應用能力的公共衛生人才需要在教育部頂層設計之下,融合數據科學、信息學相關技術改革人才培養方案;需要高等院校解放思想,真正地以學生能力培養為中心,大膽進行教學改革;需要數據資源平臺大力支持;需要聯合學校、公共衛生及其他醫療機構、社會企業及師生共同努力。具備數據挖掘應用能力的公共衛生人才才能適應甚至推動現代公共衛生的發展。