余 維 肖偉昌 聶小英 彭 微
(湖北科技學院 湖北·咸寧 437100)
目前,很多高校結合自己的優勢進行轉型發展,其中不乏向應用型進行轉型,更加注重培養應用型人才。針對理工多學科交叉專業,比如醫學信息工程專業的專業課教學,傳統的理論教學面臨重大的挑戰。傳統的理論教學往往是學生被動填鴨式的接受知識,雖然能讓學生學到很多理論知識,但是在解決實際問題時十分茫然,不能做到舉一反三。因此有必要以任務驅動為導向,在結合案例教學的基礎上增加學生的主動性,將教師與學生的角色互換,充分發揮學生的主觀能動性,讓學生享受學習的過程,在提高學習成效的同時提高理論與實踐應用的能力。
目前,人口老年化一直呈現出上升趨勢,而帕金森綜合征是一種常見的神經系統退行性疾病,常見于老年人。發病平均年齡約為60歲,帕金森病在40歲以下的年輕人中很少見。大多數帕金森病患者是散發性的,只有不到10%的人有家族病史。
本文從加州大學歐文分校(UCI)的機器學習庫①中的帕金森綜合征數據集入手,對其數據進行分析并構建一個帕金森綜合征預測模型,以供決策者提高診斷效率及準確率。根據所要解決的問題,按照數據挖掘的流程,本文所得到預測帕金森綜合征的分類模型是通過數據獲取、數據預處理、挖掘建模、模型評估等幾個階段完成的。通過對理論與實踐操作,學生能對數據挖掘過程中的每個階段有更深刻的認識。
本文選取的公開數據集來自伊斯坦布爾大學醫學院神經內科188例帕金森綜合征患者(男性107例,女性81例),年齡從33歲到87歲不等(65.1±10.9)歲。對照組為64例健康人(男23例,女41例),年齡41-82歲(61.1±8.9)歲。在數據收集過程中,麥克風設置為44.1kHz,并根據醫生的檢查,從每個受試者中收集元音/a/的持續發音,并進行三次重復(見表1)。

表1:帕金森病分類數據集
對于龐大的數據量,原始數據集中的數據或多或少是存在質量下降的現象,直接利用該數據進行數據挖掘,不僅會增加挖掘工作的難度,還會影響挖掘效果的準確性。為了減輕影響數據挖掘的多種因素,提高用來挖掘的數據質量,通常獲取數據后需對數據集進行預處理,以使混亂無序的數據變為容易分析處理的數據。對獲取的數據進行預處理步驟通常包括數據清洗、數據集成、數據變換、數據精簡等。
要解決的問題是通過對帕金森綜合征數據集進行數據挖掘,分類得到能有效判斷罹患帕金森綜合征的預測模型。基于python的第三方工具庫中,sklearn作為機器學習領域知名的模塊之一,包含了很多重要的數據挖掘算法。鑒于此,考慮選用兩種常用分類算法(如KNN算法和決策樹算法)對帕金森綜合征數據集進行分析預測,并在python語言編程環境下結合sklearn庫進行建模②。
1.3.1 決策樹算法建模
將采集到的188例帕金森綜合征患者數據分成兩部分:一部分作為訓練集,用來構建模型;另一部分作為測試集,用來評估模型的準確性。利用sklearn庫中的train_test_split生成訓練集和測試集,利用sklearn庫中的Decision Tree Classifier生成決策樹,得到決策樹模型的核心代碼如下:

1.3.2 KNN算法建模
與上述決策樹算法建模操作相似,將188例帕金森綜合征患者數據集分成訓練集和測試集,利用sklearn庫中的train_test_split生成訓練集和測試集,利用sklearn的KNeighbors-Classifier方法對KNN算法進行建模,得到KNN算法模型的核心代碼如下:

利用1.3節對188例帕金森綜合征患者數據集分離出的訓練集生成出對應的決策樹算法模型和KNN算法模型后,用相應的測試集對生成的兩種模型進行精確度評估。通過驗證,得到兩種不同模型的預測精度。
1.4.1 決策樹算法模型評估
利用predict對測試數據集x_test進行預測,y_predict為預測結果,借助y_test,利用sklearn庫中的metrics.confusion_matrix生成混淆矩陣結果并對y_predict進行分析,核心代碼如下:

結果見表2決策樹算法模型混淆矩陣表。通過表2所示的混淆矩陣,計算出模型的準確率和錯誤率見表4。

表2:決策樹算法模型混淆矩陣表
1.4.2 KNN算法模型評估
與1.4.1節類似,通過測試集對模型進行預測,并對預測結果進行分析,核心代碼如下:

結果見表3 KNN算法模型混淆矩陣表。通過表3所示的混淆矩陣,計算出模型的準確率和錯誤率見表4。

表3:KNN算法模型混淆矩陣表

表4:算法模型準確率和錯誤率
由表4能看出,兩種不同的模型中,決策樹模型對帕金森綜合征的預測更加準確。
通過對公開的帕金森綜合征數據集入手,對目標任務進行分析,構建一個帕金森綜合征預測模型。針對該分類問題,本文利用python編程環境和相關工具庫完成了帕金森綜合征數據挖掘,包括數據獲取、數據預處理、算法建模與模型評估等四個階段。利用機器學習領域著名的 sklearn庫實現了決策樹算法模型和KNN算法模型,并對188例帕金森綜合征數據集分離出的測試集進行模型評估。通過對比決策樹模型和KNN模型的精確度,能夠得出決策樹算法在帕金森綜合征數據挖掘上的應用優于KNN算法的結果。與單純理論教學相比,課堂學習中,將實踐與理論結合,使學生在學習理論的同時加強編程的練習,能有效提高學生理解并掌握所學的數據挖掘方法在臨床工作中的應用。
注釋
① http://archive.ics.uci.edu/ml/index.php
② https://scikit-learn.org/stable/