索智楊
愛丁堡大學化學系,英國 EH89YL
全球公共衛生問題成為危及人類健康的重大問題,如何從海量的健康數據中分析、解讀有關公共衛生、疫情防護和人類的健康問題,成為公共衛生和數據科學等多學科共同關注的問題。全球各國相關高校相繼增設或創建健康數據科學專業或方向,培養碩士或博士等高層次人才[1]。中國部分高校近些年也設立了“健康大數據研究院/所”,從事健康數據研究和高層次人才的培養。2016 年北京大學設立健康醫療大數據研究中心,2018 年改為健康醫療大數據國家研究院,并首家設立“健康數據科學”博士點,從事博士生的培養工作[2]。為了解國外高校健康數據科學專業的設置與人才培養等情況,為我國相關院校健康數據科學專業設置提供參考,本文擬通過對中、英、美部分重點高校健康數據科學專業設置情況進行調查分析,了解其專業設置構成與特色。
萬維網的發展和大數據與人工智能等技術的興起,以數據為基礎的“第四研究范式”受到廣泛關注,越來越多的學科積極探索與數據科學的交叉和融合。
健康大數據、健康信息學、健康科學數據、健康數據科學四個概念存在不同程度的混用現象。
①健康科學數據與健康數據科學 健康管理和生物醫學研究數據集(data set of health management and biomedical studies)是健康數據的子集。健康科學數據的研究對象是健康領域的科學數據。概括地說,它是以收集“第一研究范式”為主的基礎研究、應用研究和試驗開發等產生的生物醫學研究數據、通過監測和檢驗等獲得的臨床數據(如患者記錄和臨床醫師文檔)、健康統計數據(如死亡率和利用率)和私人患者數據(如體育數據和保險數據)等[3]。其研究問題主要是健康領域科學數據的管理與存儲等,常伴隨著醫學倫理學相關的論證。而健康數據科學是關于健康數據如何處理分析的科學。其研究對象是健康數據,研究問題是健康數據的科學處理問題,即利用科學的方法對健康數據進行處理與分析,獲得對有關健康問題的認識。
②健康信息學與健康數據科學 健康信息學(health informatics,HI)是由健康科學與現代信息技術融合而成,是研究搜集、整理并可視化健康信息的交叉學科[4]。健康信息學的研究對象是健康信息,主要來源于各類文本中與健康有關的信息[5]。其研究重點在于理解與醫學相關的信息系統、數字化信息組織、信息檢索及信息計量研究[6]。信息不同于數據,健康信息也不同于健康數據,因而,健康信息學也不同于健康數據科學。
③健康信息學與健康大數據 健康信息學既不同于健康信息管理(health information management,HIM),也不同于健康大數據。健康信息學的產生不僅晚于健康信息管理,而且研究內容也與其有較大的區別。而健康大數據是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的健康數據的集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[7]。
①健康數據科學的學科性質 健康數據科學是醫學、數據科學、數學、統計學與計算機科學等多學科交叉形成的新的學科,其前身是生物統計和醫學信息學。
②健康數據科學的內涵 首先需要了解數據科學。數據科學是一門將“現實世界”映射到“數據世界”之后,在“數據層次”上研究“現實世界”的問題,并根據“數據世界”的分析結果,對“現實世界”進行預測、洞見、解釋或決策的新興科學。也是基于數據統計、數據分析、數據可視化等理論基礎,混合數學、計算機科學等的交叉學科。
總之,健康數據科學是以健康醫療領域數據驅動,以數據科學方法為工具,通過對健康領域數據的分析處理,實現對健康領域問題的預測、洞見、解釋或決策的科學。
采用網絡調查法,通過訪問相關高校的主頁、搜索與瀏覽,并獲取其有關院系的專業設置相關信息。調查時間是2022 年5 月1~25 日。調查學校包括中國的雙一流高校(36 所A 類)和英國的倫敦大學聯盟、羅素大學集團高校及美國的常青藤高校。調研內容:①是否設置健康數據科學及其相關專業;②設置專業的名稱;③設置該專業的院系或學科;④課程設置情況(不同學科的課程構成);⑤培養層次(本碩博)。檢索策略:首先是找到調研范圍所規定的高校主頁,然后是檢索相關專業設置信息。中文檢索詞:健康數據科學;英文檢索詞:health data science。
國內36 所雙一流高校中7 所高校設置有健康數據科學相關專業。英國倫敦大學聯盟成員與羅素大學集團高校中,11 所高校設置有健康數據科學相關專業。美國常青藤高校中3 所高校設置有健康數據科學相關專業。
2.3.1 我國健康數據科學專業設置情況 從表1 可知,我國36 所雙一流高校中有7 所高校設有健康數據或信息相關專業。其中,北京大學設置健康數據科學;清華大學等3 所高校設置健康大數據專業;復旦大學等3 所高校設置醫學信息學專業。從專業設置分析,主要有以下三種方式:①創建新的研究院。北京大學的“健康數據科學”和廈門大學的“健康醫療大數據”設立在“健康醫療大數據國家研究院”,屬于新創建的,均隸屬于學校的獨立的研究機構,在人員配置和目標定位上具有明確的交叉學科的特征。②在原有學科基礎上建立新的專業方向,如山東大學公共衛生學院新建“健康大數據”專業。③在原有專業學科基礎上轉型和拓展;吉林大學的“醫學信息學”、四川大學和復旦大學的“醫學信息學”等均是在原有的醫學圖書情報學基礎上的創新和拓展。

表1 中國雙一流高校設置健康數據科學相關專業情況
2.3.2 英國高校健康數據科學專業設置情況分析從表2 可以看出,英國的11 所高校中有8 所新設置健康數據科學專業,2 所高校基于健康信息或醫學信息學的轉型和拓展。

表2 英國倫敦大學成員和羅素集團成員高校設置健康數據科學專業情況
2.3.3 美國常青藤高校健康數據專業設置情況美國哈佛大學等3 所高校設置健康數據科學專業,賓夕法尼亞大學設置有醫學信息學專業。美國的4所高校中,設置在醫學院和公共衛生學院各2 所。
總之,從中、英、美三國的22 所高校相關專業設置看,我國4 所、英國7 所、美國3 所設置有健康數據科學專業。另有6 所高校設置有醫學(或健康)信息學專業。整體上,我國高校設置該專業的數量較少,英國最多。22 所高校中7 所高校設置在醫學院,4 所高校設置在公共衛生學院;除外我國3 所高效是新組建的跨學科的交叉研究機構。英國和美國高校主要是在原有一級學科下新增二級專業或方向;另外有少量高校是對原有醫學圖書情報學科的拓展。
①專業定位 健康數據科學是一門新興的多學科綜合的研究領域,涉及公共衛生、數學、統計學、計算機科學等。其中,數學和統計學提供最基本的數據分析處理方法論。計算機科學提供海量數據的存儲與運算能力。公共衛生、醫學和生命科學,既是健康數據的來源,又為數據分析結果的解讀提供理論支撐(或基礎),同時還是健康數據科學的價值,解決健康醫療衛生領域的相關問題,為保障人類的健康服務。
②培養目標 健康數據科學專業人才培養目標是培養具有能夠對健康領域數據進行科學處理能力并對處理結果進行解釋的高級專業人才。從被調查的22 所高校看,在培養層次方面差異不大。多數高校是以碩士培養為主,12 所高校也同時培養博士。我國7 所高校中均招收碩士和博士,有2 所高校還培養本科生。英國的碩士生以教學型為主,但牛津大學和劍橋大學僅招收博士生。我國和美國的碩博生以學術型為主。
我國北京大學等4 所雙一流高校設有健康數據科學專業,從其課程構成看,包括“醫學”、“數據科學”、“數學和統計學”和“計算機科學”等,占18%。另外與“社會學”、“管理學”、“經濟學”存在一定關聯,占9%。在整個課程體系中,與數據相關的學科占54%。可見健康數據科學有兩個明顯的特征:一是非常強烈的數據時代、二是多學科交叉。
復旦大學等3 所雙一流高校設置醫學信息學專業。其中,“醫學”相關課程占30%;其次與“圖書情報”學科相關的信息組織、檢索等占20%;“計算機”、“管理學”、“統計學”、“信息學”和“生物統計學”學科均存在一定關聯,分別約占10%。由此可知,此三所高校的課程體系也具有明顯的多學科交叉特征,但相對來說,原有學科專業痕跡較明顯,且學科構成也較均衡。
有7 所英美高校將該專業設置在醫學院校下,是設置該相關專業最多的學院。在醫學院校下設置該類型專業的有帝國理工大學的健康數據分析和機器學習理學碩士、牛津大學健康數據科學博士、耶魯大學健康科學博士后(臨床方向)、愛丁堡大學醫學信息學博士、埃克塞特大學健康數據科學理學碩士、達特茅斯學院健康數據科學碩士和醫學信息學碩博。
這些學校的課程設置偏重于醫學,以計算機科學技術和數據科學為輔助課程。如牛津大學的健康數據科學設置在牛津大學醫學博士培養中心。牛津大學還將可穿戴設備作為專門的課程列出,這部分高校健康數據科學的課程構成與我國新建專業較為相似,主要是醫學和數據科學兩大門類學科的交叉。
在博士階段,以愛丁堡大學為代表,愛丁堡的醫學信息學博士學位的設置更偏向于研究,所完成的項目一類是基于電子處方和記錄的處理,如電子處方優化提高藥品管理的安全性,通過電子健康記錄提取進行元分析和數據關聯研究治療效果;另一類是建立醫學健康相關數據庫,如對哮喘、呼吸健康、帕金森語音的收集所建立的數據庫;此外該學位還涉及研究醫療健康數據的管理與組織。
綜上,通過對中、英、美22 所高校健康數據科學相關專業的調查分析發現:①從數量上看,英國倫敦大學成員和羅素集團高校中設置健康數據科學的高校較多,美國常青藤高校中設置健康數據科學的高校比例與我國雙一流高校大體相當。②從人才培訓層次上看,三個國家均以培養碩士和博士高層次人才為主。③從健康數據科學專業設置看,英美較為相似,主要設在醫學和公共衛生學院,我國以新建和新增為主。④從課程構成看,三個國家均非常重視“多學科交叉”,主要有臨床醫學、公共衛生學、統計學和計算機科學等四個學科組成,充分體現交叉學科的特征,但不同的建設模式,其不同學科課程的構成比例有所不同。