王路漫 齊惠穎 王 靜 王 晨
(北京大學醫學人文學院 北京 100191)
隨著大數據時代的到來,世界各國都把大數據看作一種重要的戰略資源,大數據建設和發展的核心競爭力是人才培養,培養數據獲取、分析和利用等能力的數據素養教育成為世界各國關注的焦點。早在 2012 年,美國總統奧巴馬就發布了“大數據研究和發展計劃”,從國家層面呼吁各個行業領域充分利用大數據技術進行革命創新,重點強調數據素養教育的重要性,提出大力開展數據素養類課程,培養新一代具有數據科學素養的研究型人才[1]。隨后,世界各國相繼將開展數據素養教育提上日程。我國也于2015 年由國務院印發《促進大數據發展行動綱要》,該綱要提出要加強專業人才培養,建立健全多層次、多類型的大數據人才培養體系[2]。
大數據技術的蓬勃發展,深入推動了各個行業的創新與變革,各個領域都急需具有數據素養的專業人員,醫療領域因為其獨特的行業價值而受到各個層面的關注。2016年國務院辦公廳印發《關于促進和規范健康醫療大數據應用發展的指導意見》,將醫學大數據納入國家大數據戰略布局之中[3];《“健康中國2030”規劃綱要》中也指出要加強醫學大數據體系的建設;十九大報告提出的“實施健康中國戰略”總體規劃中也包括醫學大數據的相關規劃及設計[4]。醫學大數據內容涵蓋居民的整個醫療健康過程,利用大數據發掘數據中的潛在價值對于推動醫學研究的進步、全面實施健康中國戰略、滿足人民群眾健康醫療需求都具有重要促進作用。大數據時代對數據的獲取、分析和利用能力已經成為醫學生的必備素養。
面對新時代的發展需求,為培養醫學生應對時代變革所需的能力,北京大學醫學部于2016 年推出了一門研究生通識課程——《醫學大數據分析》。本文將總結該通識課程建設過程中的教學實踐經驗,為面向專門領域的數據素養教育提供參考。
數據素養的概念最早出現在2004 年,隨著大數據時代的到來,數據素養的概念也在不斷完善。目前對數據素養較為統一的定義為:具備數據意識和數據敏感性,能夠有效且恰當地獲取、分析、處理、利用和展現數據,并具有對數據的批判性思維能力。該定義是對統計素養和信息素養的延伸和擴展[5-7],也是本文研究工作的前提基礎。我們通過對國內外數據素養教育相關文獻進行梳理,從數據素養教育研究和教學實踐兩個方面來闡述相關研究的進展。
圍繞數據素養教育,國外學者已經開展了較為深入的研究。在課程教學設計層面,對課程數據使用、教學內容、教學周期等多個方面綜合分析,進行詳細的數據素養教學框架的研究[8];設置iSchool 院校數據素養課程[9];探討在數據素養課程中使用真實數據進行教學實踐,激發學生的學習興趣,增強學習體驗[10];開發評價數據素養能力的測量工具,用于數據素養類課程的教學效果評價[11]。雖然國內院校對數據素養的教育研究起步較晚,但已達成了普遍的共識,即數據素養是大學生需要具備的核心能力之一。針對國內外有代表性的高校,開展了數據素養類課程的教育研究。例如研究生數據素養課程設置[12],數據素養課程群的構建等[13],包括構建面向不同培養對象的多維數據素養體系、注重課程內容的層次遞進性、重視教學方式的有效性與普適性等[14]。這些對高校數據素養類課程的教學研究更多集中在數據素養現狀介紹、典型案例分析、數據科學專業教育等方面。不同領域的數據素養教育有著不同的特點,但從專門領域的角度探討數據素養教育的研究較少涉及。
培養數據素養最重要的途徑是設計合理有效的課程及培訓項目[15-16],目前國內外已經開展了一些相關的教學實踐活動,開設針對不同專業學生的數據素養課程,部分高校開設的具體課程內容如表1 所示。例如:美國比較有代表性的普渡大學、哈佛大學為了滿足學生的數據素養提升需求,開展相應的教學項目及培訓。美國約翰·霍普金斯大學醫學院、哈佛醫學院通過開設數據素養類課程,幫助醫學專業學生提高利用大數據技術從紛繁復雜的數據中提取關鍵信息、得出科學結論的能力[17]。國內有很多高校通過借鑒國外的數據素養類課程也開展了相關的教學實踐。部分院校如武漢大學利用圖書館文獻數據資源開展數據分析軟件、文獻數據庫利用等實踐教育方面的培訓[18]。南京大學借助R、Python 等程序設計語言,從計算機技術的角度來構建數據素養教育的知識體系。復旦大學將數據素養類課程加入本科生“科學探索與技術創新”課程體系模塊中,形成課程之間的交叉與融合。國內大部分院校開設“數據科學與大數據技術”等相關課程,大多基于數據結構、數據庫等計算機知識體系來進行教學內容的設置,主要面向相關專業的學生,不適合沒有相關知識儲備的學生學習[19],而圖書館開設的數據素養類課程主要針對文獻數據庫的利用和相關軟件的使用。目前針對專門領域構建數據素養類通識課程的實踐比較缺乏[20]。因此,本文通過《醫學大數據分析》課程建設,探索一種面向醫學領域的數據素養通識教育教學實踐,為開展面向專門領域的數據素養教育研究提供參考。

表1 國內外數據素養課程及項目簡介
文章基于2016—2020 學年《醫學大數據分析》課程的建設和教學實踐情況,從教學目標、教學內容以及教學效果三個維度進行介紹,并在此基礎上總結其經驗和策略。
為了設定課程的教學目標,我們分析了國內外數據素養類課程,使用“問卷星”平臺以問卷調查的形式對所有選修該課程的醫學生進行課前數據素養能力摸底,在此基礎上,對標“新時代”醫學教學改革要求,以培養醫學生的數據素養為目標,采用數據分析方法和醫學應用實踐相結合的方式講解醫學大數據分析課程。
根據課程教學目標和學生的實際情況,制定了為期12周36 個學時的教學計劃,主要教學內容包含以下四個方面:
3.2.1 醫學大數據概述
醫學大數據是大數據在醫學領域的一個分支,泛指所有與生命健康和醫療相關的數字化數據。本部分既要介紹醫學數據的來源和特征,也要涵蓋與醫學大數據特征緊密聯系的數據主體(包括個人和群體)的相關權益等內容。例如,數據的收集是否基于個人自愿?數據主體是否知曉并允許這些數據基于特定的目的被收集和使用?他們是否同意將數據保存起來進行二次利用?基于哪些目的可以使用醫學數據?如何才能合法合規地利用醫學數據等。這些都是醫學數據收集、使用過程中必須要面對的倫理問題,也是大數據課程的重要內容。
3.2.2 醫學大數據的獲取
獲取醫學大數據的渠道很多,面對來源不同的醫學數據,將根據數據的種類及特征講授獲取方法。例如,對于醫院及社區等醫療衛生部門的電子病歷、健康檔案等傳統的醫學數據來源采用信息系統提供的導出功能、API 接口等方式;對于互聯網等平臺的數據,采用網絡爬蟲、API 接口等方式進行醫學大數據的獲取。
3.2.3 醫學大數據預處理
醫學大數據最大的優點是可靠性高,因此非常適合進行數據分析。但其也存在一些缺陷,如:數據結構復雜、維度高、含有噪聲、非規范數據多、時效性強等。因此針對醫學數據的特點及數據分析的目標,需要講授如何選擇數據預處理的方法,從而提高數據分析的質量和效率。
3.2.4 醫學大數據分析、評估和應用
該部分是課程的核心內容,課程設置為24 學時,講授內容包括:描述性分析方法,講授代表性算法關聯規則、聚類;診斷性分析方法,講授典型算法回歸分析和分類算法;預測性分析方法,主要講授神經網絡和馬爾科夫預測算法。
通過課程評估可以了解教學效果,判斷使用的教學方式是否有效,學生的收獲是否達到預期,學生數據素養能力是否提高等。表2 是2016—2020 年學生對醫學大數據分析課程的評教結果,該表可以較為真實地反映學生對該課程的學習感受,總體來說獲得了較為積極的反饋。

表2 學生對課程的教學情況反饋
由表2 可以看出,五年總的評教平均分為95.8 分,高于全校所有課程年平均評估分數89 分,這反映了學生對該課程的認可。表格中16 項評價指標,可全面衡量該課程的教學質量。課程在第1、8、12、13、16 條指標中得到較高的分數,而第3、6、10 條指標得分較低。即學生認為該課程教學目標清晰,內容設計合理,采用的教學方法能有效調動學習的積極性,使他們收獲很大。同時該課程也存在一些缺陷,例如:雖然該課程講授了醫學領域的相關案例,但沒有面面俱到地講授學生感興趣的所有方向;同時,較少設計課堂討論環節,主要是以老師講授為主。今后可以在課堂上針對學生感興趣的話題展開深入的討論,激發學生的學習熱情。
北京大學醫學部的《醫學大數據分析》課程于2016 年3 月首次面向全校研究生開設,為保證教學效果,課程限定選課人數為30 人,近五年來選課學生總計133 人,其所屬院系及專業分布如圖1 和圖2 所示。其中附屬醫院(44%)、公共衛生學院(32%)、基礎學院(17%)三個院系的選課人數占比最多。在選課學生的專業人數分布中,公共衛生(14人)、內科學(14 人)、系統生物醫學(13 人)、流行病與衛生統計學(12 人)專業選課人數占比較高。選課學生覆蓋了醫學部的所有學院、附屬醫院的各個專業,這在一定程度上體現了學生對于數據素養類課程的普遍需求,也體現了課程的通識特點。

圖1 選課學生的院系分布

圖2 選課學生的專業分布
由于疾病及其并發疾病的多樣性,治療和效果的異質性,不同類型的患者具有不同特征等特點,因此用于分析、評估和解釋醫療數據的研究設計和分析方法也較為復雜。課程根據醫學大數據鮮明的領域特征,分層次設計教學內容,課程框架如圖3 所示。

圖3 課程教學內容框架
課程分析方法主要有四種類型:①描述性分析是醫療領域中最普遍的一類數據分析方法,它可以回答“發生了什么”這一問題。它是通過調查數據并分析過去發生的事件,了解過去的行為如何影響未來的結果,從而獲取有助于未來發展的知識。②診斷性分析方法是回答“為什么會發生”這一問題。若使用描述性分析了解了已經發生的事件,并且想知道造成該事件發生的根本原因,診斷性分析可以深入數據內部找到答案。在診斷性分析中,要深入理解相關領域的知識和影響因素。典型的應用有使用多個因素對患者進行不同類型的劃分,衡量住院風險。③預測性分析方法可以回答“什么可能會發生”這一問題。預測性分析方法使用數據來確定事件未來可能的結果或發生的可能性。④指導性分析方法可以回答“該做些什么”這一問題。它是基于已有數據綜合分析已發生的事件,發生的原因以及預測的各種情況,提出一種或幾種方案,并說明每種方案可能的結果。
這四種類型的分析方法是醫學領域廣泛使用的數據分析方法,它們之間相輔相成,并在某些情況下相互疊加,即必須先使用簡單基礎的分析才能使用更復雜的分析,因此課程內容也遵循其規律由簡到繁設置。
基于《醫學大數據分析》課程的教學實踐,筆者總結出如下幾個方面的建設經驗及策略。
在對數據素養教學內容進行設計的時候,需要有明確的教學目標。一方面教學目標的設定要和學科領域的需求緊密結合,如《醫學大數據分析》教學目標的設定首先以面向醫學領域研究問題需求的數據分析方法為主線。另一方面,教學目標的設定和教學對象也有緊密的聯系,本研究中的課程設置是針對研究生的,因此我們使用問卷調查的形式對研究生數據素養情況進行摸底,共進行了3 次問卷,每次的合格問卷數為48、51、30,設計多個數據素養類問題,針對每個問題,提供掌握、熟悉、了解、聽說過、沒有聽說過5 個選項。利用SPSS 對有效問卷進行了信效度評估,結果表明,3 次問卷的平均克朗巴哈系數(Cronbach's alpha)為0.867,平均KMO 值為0.785,并且Bartlett 樣本球形檢驗(P<0.005)達標,表明問卷結果可靠。結果發現,雖然絕大部分醫學生都接觸過數據,也有利用數據的經歷,但學生普遍缺乏實際數據處理及分析的能力。因此本課程在上述調研結果的基礎上,以大數據研究的生命周期為主線,重點培養醫學研究生的數據搜集、處理和分析能力,基于這些前提設定教學目標,學生在學習了課程知識以后可以提高數據素養水平,為開展科研工作奠定堅實的基礎。
面向領域的課程設置以大數據的理論方法與領域應用相結合,使學生在掌握數據分析理論的基礎上,獲得實際的操作能力。例如:本課程內容設置將醫學案例貫穿于理論講解,如表3 所示。對于描述性分析方法的講解,采用關聯規則算法識別基因作為藥物反應的候選驅動因素,分析抗癌藥物的臨床反應。對于診斷性分析方法的講解,利用回歸方法分析65 歲以上急診患者摔倒和多種危險因素(平衡、步態、肌肉骨骼系統、視力、心血管狀況、神經功能)之間的關系,篩查并識別住院時有跌倒危險的患者。對于預測性分析方法的講解,采用神經網絡和馬爾科夫預測等算法分析年齡、BMI、膽固醇、疾病史、治療史等可變數據,預測其是否易患心臟病。對于指導性分析方法的講解,采用乳腺癌患者的數據進行分析,開展不同算法的比較與評估,判斷病情是否復發,以確定最佳的解決方案,用于臨床決策支持。從課程評估的結果可以看出,有針對性地將大數據理論知識與實際應用領域相結合,有利于學生更加透徹地理解知識。

表3 《醫學大數據分析》課程內容
由于大數據科學是一門快速發展的學科,相關的方法及技術層出不窮,教學過程不僅要教授學生數據分析的知識,還要發掘學生的學習潛能,使學生具有自主學習能力及動力。為了激發學生對數據科學課程的興趣,可以使用研究性學習和探索性學習的方法綜合培養學生的學習能力。研究性學習主要是通過讓學生自主選擇領域數據分析的相關文獻,進行文獻綜述報告,鍛煉學生通過最新文獻閱讀進行自主學習,進而培養學生發現問題和解決問題的能力。探索性學習是學生根據自己的專業或者感興趣的方向,收集醫學相關數據并對該數據進行分析,最終進行分析結果的匯報,從而將理論知識與實踐聯系起來,深刻體會數據分析的整個流程,培養學生的動手實踐能力。
我們從2020 年學生提交的作業中分別提取了10 份研究性學習匯報作業和10 份探索性學習項目展示作業來了解學生的學習成果,具體研究題目及報告內容如表4 和表5 所示。

表4 10 份研究性學習匯報作業
研究性學習匯報注重理論與實踐相結合,培養學生用課程學習知識解決領域研究問題的能力。從表4 中可以看出,這些報告內容和題目大部分是圍繞對患者數據的分析。學生通過該研究性學習過程,學習了如何針對本領域的研究問題,采用相應的大數據分析方法解決問題,大大拓展了知識掌握的深度和廣度。
探索性學習項目培養學生利用所學知識完成自主選擇的研究項目,可以反映學生數據分析技能的掌握情況。表5中顯示了探索性學習項目展示作業的研究對象、研究目的、研究方法。從該表中可以看出,學生收集了不同來源的醫學數據,包括公開數據庫、北京大學公共數據庫、個人調查數據等。學生根據自主設定的研究目標,使用課程講授的大數據算法實現數據分析。該作業體現了學生數據分析的實踐能力,促進學生進行深度思考,完成提出問題、分析問題、解決問題的整個流程,有利于提升其數據素養的綜合實力。

表5 10 份探索性學習項目展示
數據素養能力由特定的知識和技能組成,對醫學領域而言,這些知識和技能包括對醫學大數據的認識和倫理問題、根據大數據來源和類型獲取數據、數據預處理、基于不同的目的選擇不同的數據分析方法、評估數據分析算法的效果,并將結果應用于醫學決策。面向專門領域的數據素養教育的核心是培養該領域數據素養能力突出的人才。醫學領域數據素養通識課程的教學實踐表明,數據認知、數據獲取以及數據分析能力是被普遍重視的,這些能力也是在具體研究與學習中最容易接觸和經常使用到的。
由于數據素養教育具有學科化、應用情景化的特征,因而數據素養教育需要與具體學科深入交叉融合,在教育實踐環節也要結合領域問題需求,體現領域差異。如本研究在面向醫學領域開展數據素養課程建設時,根據醫學領域不同類型的問題,將課程內容中涉及的數據分析方法劃分為描述性分析、診斷性分析、預測性分析和指導性分析四種,并基于這四類問題設計教學內容。在教育實踐環節通過研究性學習和探索性學習實踐,讓學生發現醫學領域大數據需要解決的問題,學會基于問題收集數據,并利用所學知識解決問題。
不同領域的數據有著不同的特征和應用,例如:醫療行業利用大數據可以更好地理解和預測疾病,跟蹤流行病的傳播;銀行證券行業依賴大數據進行風險分析;交通領域使用大數據進行交通管制、出行路線規劃、智能交通管理等。正是由于各個領域處理的大數據問題不同,相應的解決方案也有所區別,因此數據素養教育具有領域多樣性的特點,開展面向不同專門領域的數據素養教育實踐顯得越發重要?;诓煌I域需求,開展面向不同教育對象、教育內容、教育方式的教學實踐可以推動面向不同專門領域的個性化數據素養教育的有序開展。
由于數據素養教育具有領域差異性的特點,因此開展面向不同領域的數據素養教育探索非常必要。本研究面向醫學領域開展數據素養教學研究和實踐,從教學目標、教學內容以及教學效果幾個方面論述教育實踐開展情況,并總結經驗和策略,得出具體的思考和啟示,以期能夠豐富數據素養教育體系,為相關研究提供借鑒。
(來稿時間:2022 年 4 月)