潘媛媛 ,黃道斌,盧小杰,葉明全
(1.皖南醫學院 醫學信息學院,安徽 蕪湖 241002;2.皖南醫學院 健康大數據挖掘與應用研究中心,安徽 蕪湖 241002)
2016 年國務院印發《關于促進和規范健康醫療大數據應用發展的指導意見》,健康醫療大數據成為國家重要的基礎性戰略資源之一,逐漸成為社會關注的焦點[1-2]。作為有效挖掘醫療大數據潛在價值的關鍵手段[3],健康醫療大數據分析與挖掘技術越來越被醫藥企事業重視,相關技術人才的需求增長也越來越迅速,然而具有一定健康醫療知識背景的大數據分析和挖掘人才依舊稀缺。在此背景下,醫學院校為相關專業開設數據挖掘課程具有重要意義。通過數據挖掘課程的學習,學生可以掌握數據預處理、關聯規則、分類、聚類、可視化等挖掘技術,并應用到生物、健康及醫藥衛生領域。同時,大數據時代的數據分析與挖掘需要學生具有優秀的數據挖掘建模能力,而能力培養離不開實踐教學[4]。數據挖掘是一門數學理論要求高、實踐性強的課程,對醫學院校的本科生來講實踐教學具有一定的難度[5]。
數據挖掘這門課程早期是面向綜合院校計算機專業開設的課程,但隨著數據挖掘技術在健康醫療行業中的廣泛應用,已成為醫學院校相關專業本科生的專業課,如信管專業、醫學信息工程專業等。目前,醫學院校數據挖掘課程在實踐教學中存在諸多不足。
(1)實踐教學未能結合健康醫療行業特點。健康醫療大數據除了具備通用的大數據性,還具備高度專業性、多態性、隱私性、時序性、不完整性等醫療特性[6]。醫學院校數據挖掘技術的人才培養應該進一步結合健康醫療行業特征,不僅要求學生有扎實的挖掘技術,還要熟悉健康醫療行業和相關業務需求,這也是醫學院校開設醫學數據挖掘課程的培養目標。然而,鑒于醫學院校醫學特點,數據挖掘課程開設較晚,在很大程度上“照搬”計算機專業,缺乏與健康醫療行業的結合。課程實驗資源一般來自不同行業領域,與健康醫療相關的實踐教學資源匱乏,不能讓學生掌握醫療大數據的醫療特性,從而無法滿足醫療大數據背景下對數據分析、數據處理的人才培養要求。
(2)實踐教學無法滿足不同層次學生的實踐需求。在教學活動中,學生占學習活動的主體地位,每個學生都有自身不同的學習需求[7],調動學生學習熱情,實踐教學就必須圍繞學生的主體地位展開。相較于綜合院校計算機專業,醫學院校學生計算機理論基礎薄弱,實踐教學沒有考慮不同層次的學生理解能力以及實踐能力的差異性,將實驗內容和數據統一打包布置給學生,對于同一個實驗內容,部分學生認為簡單而重復性操作,部分學生則認為較難無法完成實驗,忽視不同層次學生的學習需求,從而不能激發學生的學習積極性。
(3)實踐教學資源不能體現完整的挖掘過程。完整的數據挖掘過程是包含數據采集、預處理、挖掘算法、結果評估、模型解釋的完整過程[8]。以往的實驗項目側重于決策樹、貝葉斯、支持向量機等具體模型的構建,忽視輔助模型構建的前期數據處理以及后期數據可視化等工作,不能讓學生體會完整的醫學數據挖掘過程,造成學生一拿到數據就開始套用模型卻不知道選擇模型的理由。
1)結合健康醫療特征。
有別于綜合院校開設數據挖掘課程,醫學院校開設數據挖掘旨在讓學生掌握數據挖掘理論以及如何用數據挖掘技術解決實際健康醫療問題,這就要求課程培養必須緊密結合醫療健康業務特征。所以,實踐教學資源庫的建設應圍繞培養健康數據分析人才而設計,其中實驗案例和實驗數據應以醫學健康數據資源為主。例如,在自主研發實驗案例時,將具體的數據挖掘理論(決策樹、神經網絡、貝葉斯、聚類、支持向量機)融入到臨床診斷、生物檢測、醫院管理、健康管理等應用場景中,合理設計與醫學背景知識相關的實驗案例;在編寫試卷時,應重點考查學生應用數據挖掘技術解決健康醫療數據的綜合能力。
2)考慮不同層次需求。
實踐教學必須圍繞學生的主體地位展開,因此資源庫建設須考慮不同層次學生的實踐需求,具體表現為能讓學生考慮自身包括興趣、能力等在內的因素進行自主選擇適合自己的實驗項目。例如,針對決策樹這一章內容,其資源庫的建設過程中便可以同時包括以下實驗項目:①給定一個糖尿病數據集,試計算年齡、高血壓、吸煙史3 個屬性的信息熵;②給定一個完整的糖尿病數據集,實現基于信息熵進行劃分選擇的決策樹算法,并為數據集生成一棵決策樹;③給定一個具有連續屬性值的含有缺失值的糖尿病數據集,能否用決策樹算法實現分類?若能則產生基于信息熵的決策樹,若不能則說明理由。
以上3 道實驗項目難度逐層遞進,通過第1道實驗項目的實踐,學生能夠及時復習鞏固課堂理論知識,適合基礎稍弱的學生完成;通過第2道實驗項目的實踐,學生能夠掌握決策樹分類的基本過程,能讓學生意識到用所學知識完成實際問題的成就感,激發學習熱情,比較適合基礎較扎實的學生完成;第3 道實驗項目具有創新性,需要學生大膽推測、積極摸索與實踐。資源庫的層次性原則保證了不同層次學生都能找到適合自身的實驗內容,激發學習的熱情和積極性。
3)遵循開放性。
開放性原則包括兩方面含義:一方面,對于教師而言,資源庫建設應該匯聚醫學數據挖掘課程組全體教師的集體力量和智慧,給予教師上傳、修改和完善資源庫的權限,同時資源庫共享給老師作為課堂教學的案例來源;另一方面,對于學生而言,既要保證資源庫形式的開放性,有自主選擇的驗證性實驗、綜合性實驗、設計性實驗等,又要保證資源庫實驗案例的構成應具備開放性,設置必做實驗(教師要求必須要做的實驗),設置“自助實驗套餐”(學生選擇自己想要做的實驗),設置“實驗套餐”(教師要求的部分必做實驗和學生可做的部分可選實驗),不同的學生根據自己的實際需求選擇適合自己的實驗項目或套餐進行操作,也保障學校實驗課的安排和老師對學生實驗效果的評價過程。
根據資源庫建設應遵循的原則以及對數據挖掘實踐教學不足分析,采用“三級四層”設計方法對實踐教學資源庫進行建設。按照素材級資源、案例級資源和試卷級資源對資源庫資源進行三級劃分建設,考慮資源整合程度、學生實踐需求以及醫學院校人才培養特點按照基礎層、初級層、應用層、提高層對資源庫進行層次建設?!叭壦膶印痹O計框架如圖1 所示。

圖1 資源庫建設框架
1)素材級資源。
素材級資源是指通過網絡收集、醫院信息系統采集、自主編寫以及科研課題產生等各種形式獲得的原始數據資源。主要包括實驗數據集、文本、圖片、視頻、動畫以及仿真軟件等,如公開地剔除病人隱私的醫學病例文檔和圖像、數據說明詞典、實驗操作視頻、實踐指導文檔等。素材級資源是沒有經過處理的第一手資源,保留實驗資源的原始特征和規模,教師可根據實驗教學的實際需要進行自主處理,提高實驗案例設計和編寫的靈活性。
2)案例級資源。
案例級資源是指在素材級資源的基礎上按照數據挖掘課程的教學重難點對資源進行整理、加工形成的實驗教學案例資源,既是學生掌握課程知識點和提升實踐能力的重點資源,也是老師理論、實驗教學的主要案例來源。實驗案例資源可通過專業老師和學生共同完成設計、編寫和修正。
3)試卷級資源。
試卷級資源指從素材級資源、案例級資源的基礎上隨機產生的評價學生學習效果的各種測試卷。主要包括課堂測試卷、課程期中試卷、課程結束考試卷以及學生平時練習卷等,從而充分發揮考察學生學習效果的功能。
“四層”框架結構是實踐教學資源庫對“三級”資源進行具體的整合和設計,主要分為基礎層、初級層、應用層和提高層。
1)基礎層設計。
資源庫基礎層是對“三級”資源的初級整合,主要是對各級資源通過整理、加工、分類、維護、排序、檢索和傳輸等數據處理過程形成的各種素材庫、案例庫和試卷庫。其中素材庫按照資源類型形成數據集子庫、文檔子庫、圖片圖像子庫和仿真軟件子庫等;案例庫按照課程知識點形成決策樹案例子庫、聚類案例子庫、貝葉斯分類子庫和支持向量機案例子庫等?;A層的設計目標主要是便于師生對教學相關素材的查詢和獲取。
2)初級層設計。
初級層是對“三級”資源的深入整合,主要是設計幫助學生理解數據挖掘算法,復習基礎知識點,明確基礎方法的驗證性實驗庫。驗證性實驗庫包含一系列具有明確目的、詳細步驟的與知識單元一一對應的驗證性資源。例如,給定一個小型的乳腺癌數據集,讓學生按照實驗指導上的實驗步驟一步步完成數據規范化的處理。驗證性實驗庫比較適用于學習基礎稍弱、理解能力稍差的學生按照實驗要求完成相應實驗步驟。
3)應用層設計。
應用層是對“三級”資源的更加深入的整合,主要是設計具有課程教學邏輯的綜合性實驗庫,綜合性實驗庫包含一系列能夠覆蓋若干知識點和方法的考查學生綜合運用能力的綜合性資源。主要是按照數據挖掘技術方法對資源進行的任務化設計,例如,給定門診患者體檢指標數據集,讓學生先結合分類模型對數據集進行特征選擇,再在篩選所得數據集上根據k-均值聚類算法(采用歐式距離)計算前五次迭代后的三個聚類中心和聚類結果(設k=3,初始聚類中心為6、16 和26)。綜合性實驗庫比較適用于基礎較好、學習能力強的學生,指導學生應用一個或多個數據挖掘方法分析復雜的健康醫療數據。
4)提高層設計。
提高層是對“三級”資源的最深入的整合,主要是以項目的形式構建設計型實驗庫,又稱為創新型實驗庫,比如設計臨床決策支持系統、糖尿病預警系統等。此類實驗針對完整的數據挖掘過程,即包含數據采集、預處理、算法應用、結果分析、結果解釋和呈現等。主要目的在于使學生了解實際數據挖掘的完整流程,使學生在主動參與設計課題的過程中逐步構建起對數據挖掘應用的認識。實驗項目可以分解為多個子任務來分步實施,且一般由實驗小組合作完成。設計性實驗庫比較適用于創新意識較強的學生,培養學生既熟悉醫院信息系統業務邏輯,也能真正解決健康醫療領域中實際問題的創新能力。創新性實驗庫可成為輔助學生參加校內外各種數據分析比賽的訓練場。
在健康醫療大數據背景下,醫學院校為相關專業開設數據挖掘課程具有重要意義。實踐教學資源庫的建立對培養具有一定健康醫療知識背景的大數據分析和挖掘人才有重要的促進作用?;趯嵺`教學資源庫建設原則提出的“三級四層”資源庫建設框架,培養了學生的實踐和創新能力,適應健康醫療大數據的人才需要。另外,為了使實踐教學資源庫更好地服務于教師和學生,在今后的研究中應進一步構思數字化實踐教學平臺的建設。