黃道斌 潘媛媛 王培培 畢迎春 葉明全

摘要:文章以醫學數據挖掘課程為例,從教學現狀出發,分析該課程在醫學本科院校中的教學現狀和存在的問題,探討了如何提升醫學信息工程和信息管理與信息系統等專業本科生的數據挖掘理論基礎,實踐能力和綜合素養等,并應用數據挖掘技術解決醫學相關的實際問題的能力。在實際教學中已取得了一些較好的效果,為醫學院校的新工科建設提供了良好的示范作用。
關鍵詞:醫學數據挖掘;教學改革;成績評價;案例轉化
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)17-0128-03
隨著醫院信息化的快速發展和數據挖掘技術在其他領域的不斷應用,很多醫學院校都意識到數據挖掘技術的重要性,都開設了數據挖掘相關課程,這為畢業生在工作中應用相關技術奠定了基礎。目前,醫院信息科擁有大量的醫療數據,但沒有被開發利用,如何從這些數據中挖掘出有用的信息,已成為很多醫院和醫療軟件公司要解決的問題。因此,醫學本科院校培養的信息人才,擁有數據挖掘技能已成為一種趨勢,在專業改革和課程改革中,數據挖掘技術將占十分重要的地位[1]。數據挖掘課程在我校已開設多年,該課程是一門融合了概率論、高等數學、機器學習和現代醫學信息等學科的交叉學科,其目的是發現海量醫學數據中的模式與規律。目前在數據挖掘教學改革過程中,多所高校都進行了該課程的教改[2-5],主要經典的數據挖掘算法有:決策樹、貝葉斯、關聯規則、聚類,支持向量機和神經網絡等,這些算法已經在醫學數據挖掘中得到了成功的應用,都顯示出各自獨特的優越性,它們在各類疾病的診療、醫學教研以及醫院的管理等方面會發揮重大作用。下面我們將結合我校相關專業在進行數據挖掘教學中的情況闡述下教學的困惑與改革的想法。
1 教學現狀分析
我校開設數據挖掘課程始于2013信息管理與信息系統專業開設的“醫學數據挖掘”;2018年,根據數據挖掘發展現狀,結合課程實際教學情況,結合技術發展動態,充實了相關的技術內容,構建了《醫學數據挖掘》新的課程體系,后期又將課程名稱調整為《生物醫學數據挖掘》,他們之間主要在案例選擇上有細微差別,下文中我們將課程統稱為醫學數據挖掘。這門課早期主要面向信息管理與信息系統專業學生,后面擴展到醫學信息工程與智能醫學工程專業,目前每年必修課學習人數約120~150人。通過多年的教學實踐,學生基本能掌握數據挖掘的基本概念,熟悉數據挖掘的各種經典算法以及利用算法的主要步驟和具體實現方法,了解相關技術在醫療領域的應用;在實踐上能夠利用數據挖掘工具WEKA軟件平臺,同時部分學生還能使用Python高級語言實現簡單編程對實際數據進行分析,實現數據挖掘的具體操作。下面就教學中出現曾經出現的問題簡單列舉如下:
1.1 教材問題,教材的選用對課程很重要
目前可選的數據挖掘教材很多,但偏向醫學方向的數據挖掘教材卻很少,沒有特別合適的。不管是老師還是學生,對教材都不是十分滿意。理論教學采用傳統數據挖掘教材代替,同時補充醫學應用案例的方式來組織教學,案例與算法理論的存在不一致的地方。在實際教學過程中教材發揮的作用非常有限,得通過各種途徑來做知識的補充。
1.2 學生先導課程知識掌握薄弱
醫學數據挖掘是《高等數學》《線性代數》《概率統計》《Python程序設計語言》等先修課程的實踐應用和拓展。醫學本科院校中學生在數學與程序設計等方面,掌握得不是非常好,在理論教學過程中對算法的理解有難度,導致部分學生因理解困難出現厭學情緒。
1.3 教學過程理論部分偏重,教學模式單一
理論教學內容一般根據數據挖掘教材進行講解,授課重心傾向于如何使得學生了解和掌握數據挖掘的各種算法,而輕視了實驗與實踐教學,從而使得學生在實際解決問題能力不強。
1.4實驗設計方式單一,實驗主要以驗證性的為主
試驗課使用的是WEKA平臺,其優點是入手相對容易,使用者可以在很短的時間內完成一個簡單的數據挖掘任務,同時該款軟件在實際工程中也有應用,這是我們當初選擇這個作為實驗平臺的重要原因。但在實驗教學中過程中發現采用WEKA軟件平臺來實施實驗教學存在一個很嚴重的問題,雖然它封裝了很多算法,可以直接通過點擊鼠標來完成實驗,但學生過分依賴傻瓜式的操作,無法通過實驗了解算法的實際運算過程,從而導致實驗教學不能很好地鞏固理論教學的知識點,實驗與理論之間存在很大的間隔。
1.5 完整的數據挖掘案例缺失
應用數據挖掘技術到不同的領域,涉及的過程很多,比如數據的預處理,特征提取,模型訓練,結果解析等。因為上實驗課時間的關系,老師事先把數據處理好,只讓學生運行理論課程算法,這樣能保證實驗課學生能做出結果,但太過于理想,不利于學生將數據挖掘技術應用于實際項目。
1.6 學生學習的主動性不強,課程成績評價機制簡單
以往的教學主要以老師講授為主,學生被動聽課,參與度不高,而且數據挖掘算法理解難度較大,學生的積極性不高,部分學生學習態度不端正,設計的課程考核機制不能有效地促進學生的學習積極性。
2 課程改革思路
進行課程改革目標是希望通過本課程的改革,使得學生在理論上掌握數據挖掘的基本概念,熟悉數據挖掘的各主要功能以及實現數據挖掘的主要步驟和具體實現方法,在實踐上能夠利用數據挖掘算法,實現對醫學數據的信息挖掘的具體操作。通過理論教學和實驗的訓練,培養學生理論和實際相結合的實際運用能力。下面我們主要從如下幾方面來解決教學實踐過程中的問題。
2.1 醫學數據挖掘教材與教學內容選擇
醫學數據挖掘作為數據挖掘在醫學上面的擴展,不管是在教材選擇方面還是在授課內容方面不同的院校都側重點不一樣,很明顯通過傳統的數據挖掘教材來執行教學計劃十分的不合適,主要原因有二:傳統數據挖掘教材主要面向計算機等專業學生,其學生的數學素養較高,在算法講授上更容易接受,對于醫學院校的學生,在掌握的能力上有所欠缺,其次是傳統教材更注重算法原理推導,而對于醫學專業學生更注重算法的應用性,綜合上述兩點,我們的采用策略是理論講解以教材為主,盡可能使理論算法通俗易懂,避免學生陷入復雜的數學推導;而對于案例設計以醫學背景的數據集合為主,重點突出不同數據挖掘算法應用在不用醫學數據上的效果。未來的教學我們將整理近幾年的教學資料形成授課講義。教學內容的選擇上我們沒有像有些院校把不同領域的前沿算法在課堂上講授給學生,我們課程的指導原則是以最基礎的數據挖掘算法為基礎,在內容選擇以經典算法為主,比如關聯規則算法(Apriori算法),聚類,決策樹,樸素貝葉斯算法,神經網絡,支持向量機等。最新的相關算法以課后擴展閱讀的方式提供給學有余力的同學。我們的這種選擇不管從學生素質還是培養目標來看,都更加合理。
2.2 鼓勵學生以數據挖掘技術為基礎,參加各類科研與大創項目
將所學的算法應用到實際的場景中,是對學生積極性的極大促進[4]。從目前幾屆的學生情況來看,通過參加各類競賽和項目的同學,不但算法理論掌握扎實, 也極大地培養了學生動手實踐能力,為后續應用數據挖掘算法打下了很好基礎。后續的教學改革中,我們將繼續引導對學生朝這方面努力,將所學的理論算法落地應用。目前已有多名同學申請了大學生科研項目和省級大創項目,同時還有同學以所學知識參加全國計算機設計大賽、人工智能挑戰賽等賽事。通過這些活動極大地促進學生的學習積極性。
2.3 轉化授課教師科研項目用于案例教學
醫學數據挖掘授課教師主要從事數據挖掘方向科研,有很多科研項目用到了數據挖掘算法,比如SVM,決策樹,貝葉斯算法等,對于這些項目如果直接照搬過來給學生用,難度較大,學生難以掌握,因此需要把相對復雜的科研算法經過精簡后作為案例教學,這是我們課程組一致認為只有教師自己把算法理解通透并應用到了實際場景,才能在授課的時候把算法應用講解透。目前我們已經成功地把基因特征選擇的相關算法應用在案例教學上,學生非常感興趣,讓學生體會到所學知識的力量,后續我們將加大案例轉化這方面工作,把更多老師的工作整理成教學案例。
2.4 理論教學設計
數據挖掘是理論性較強的課程,理論教學是學生掌握相關算法的重要環節,要完成課堂教學,必須從學生的特點,教材,授課目標,教學策略等方面展開。根據醫學院校學生特點,我們采取課前發布本章所需的背景知識,比如講解貝葉斯算法的時候,把相關的條件概率,全概率公式提前讓學生復習了解,從而保證理論教學過程中的重點思想的理解。課堂教學我采取的策略是把基本算法講透,擴展算法適當介紹的策略,課后我們鼓勵學生利用網絡教學資源,學習理論課程的網絡視頻資料,教師在整個教學過程中始終定位為一名引導者,堅持做到課堂教學與自主學習的相互促進,及時作業鞏固對課程的學習也是必要的,對于有能力的同學,推送相關的學術論文。
2.5 實驗教學層次設計
實驗教學是理論教學的有效補充,兩者相互促進,缺一不可。后期實驗主要分三個層次,驗證性實驗主要通過WEKA來完成;其次是設計性實驗,主要通過Python來實現,促進學生對算法工作原理的掌握;最后是綜合性實驗設計,通過對數據的預處理,比如異常數值處理、歸一化等技術,然后做特征選擇,模型訓練,直到跑出預測結果。上述的每個過程對學習效果都會有影響,讓學生能深入各個環節。具體如表1所示:
2.6 改革成績評價機制,學習過程考核與期末測試相結合
以前成績評價是以考試成績加平時成績為主的方式進行,發現有很多的弊端,主要原因是平時成績記分方式簡單,流于形式,不能很好地起到促進學習過程的作用。為了更加有效地促進學習,我們設計的形成性評價方案包含如下幾個部分:期末考試成績占70%(學校要求不能低于這個標準,授課老師認為60%更加合適),過程性的成績占30%。30%的過程性成績由15%的平時成績,10%的綜合作業成績,以及5%的考勤。其中平時成績主要體現平實作業,檢驗學生及時消化和鞏固理論試驗教學內容,這個相當于階段性的測試成績。授課教師可以通過這項成績發現教學中的問題,把問題解決在萌芽狀態。10%的綜合作業成績主要體現綜合大作業的完成度,主要考查學生利用所學知識分析解決實際問題的能力。這種過程性設計,將考核目標朝多元化方向發展,使得學生更加注重學習的過程。
3 總結
在教育部大力發展新工科的背景下,醫學數據挖掘作為醫學院校中的信息類專業的專業課,順應了人才培養目標要求。我們的教改從教材選用、教學內容,實驗設計以及多層次評價等多個方面進行了改革與探索。實踐表明,明確了教學內容,授課方式和輔助手段,培養了學生的自主學習能力,提升了學生的實踐動手能力,在合理的課程評價體系下,很好地促進了學生的學習進程。總之,這門課程的教學改革,雖然我們取得了一些成績,但還有很多不足的地方,我們將堅持改進與創新,不斷完善課程。
參考文獻:
[1] 葛曉燕.數據挖掘課程混合式教學改革探索[J].電腦與電信,2021(6):43-46.
[2] 湯顯,石蘊玉.新工科背景下數據挖掘課程教學改革與探索[J].教育教學論壇,2019(42):141-142.
[3] 李姍姍,李忠.新形勢下本科數據挖掘課程教學的反思與改革[J].新校園(上旬),2017(6):105-106.
[4] 修宇,劉三民.基于“競賽驅動”的數據挖掘課程教學改革探索[J].福建電腦,2018,34(2):75-76,79.
[5] 邵俊明,楊勤麗.理論創新驅動的數據挖掘課程教學改革[J].計算機教育,2017(4):92-93,97.
收稿日期:2021-12-24
基金項目:皖南醫學院校級精品開放課程“醫學數據挖掘”(2018kfkc08);“互聯網+創新教育”下醫學信息基礎課程混合式教學模式研究(2019jyxm25);省級“六卓越、一拔尖”卓越人才培養創新項目(2020zyrc159); 安徽省新工科研究與實踐項目(2020-24); 皖南醫學院示范實驗實訓中心(2020sxzx01); 皖南醫學院校級教學研究項目“大數據背景下醫學數據挖掘課程實踐教學研究”(2018JYXM10);2021年度皖南醫學院教學質量與教學改革工程線上課程(2021ylkc03);2020年安徽省高等學校省級教學示范課(2460)
作者簡介: 黃道斌(1981—),男,江西永豐人,講師,碩士,主要研究方向為數據挖掘,機器學習,深度學習。