林楠,王建,張兵兵,張建威,李巍,邢曦文
(大連醫科大學現代教育技術中心,遼寧 大連 116044)
關鍵字:學生成績;多維數據;數據挖掘;K-means聚類算法
隨著國家教育信息化政策的不斷深化,醫學院校教育信息化的發展與建設也在不斷加強,先進的信息化技術和方法對醫學院校教育教學管理的各個方面都產生了深遠影響。
將傳統數據分析方法與大數據復雜算法相融合的數據挖掘技術引入到醫學院校教育教學管理中,對現有的大量多維度的教學管理數據進行多種角度、多種結合、多種維度的挖掘分析,找到對本校教育教學管理具有潛在價值的信息數據,為學校教育管理人員提供決策輔助起到了至關重要的作用[1-2]。
在醫學院校本科生教學管理中,與學生相關的綜合信息數據是非常重要的一部分[3]。隨著教學信息量的大幅度增加,簡單的學生成績查詢、留存、統計等管理方法已經無法對積累下來的海量數據進行深層的科學分析及預測。因此,采用數據挖掘技術,突出醫學院校專業特點,以本校部分本科學生的學習成績和多維數據(包括圖書借閱信息、校園一卡通消費行為信息、學生身體健康信息、師資力量信息等)作為研究對象,進行數據處理,采用聚類算法中的K-means算法分析了本校本科學生學習成績與多維數據之間的關系,根據本校實際教學管理工作進行具體分析并給出相關結論。
采用數據庫中的醫學本科生的業務數據(如學生成績數據等)及對數據挖掘分析有益的其它外部數據。
根據需求明確數據選擇,在專屬數據服務器上搭建了與數據挖掘目標有關的數據表,確定了表的具體結構。包括學生基本信息表(主要包括:姓名、性別、民族、年級、專業、學院、班級等信息)、圖書借閱基本信息表、學生成績信息表(主要包括:學號、學年、學期、課程類別、成績、學分、課程名稱等信息)、學生體質信息表(主要包括:姓名、性別、身高、體重、BMI評價等信息)等。
對已選擇的數據(本科生成績信息、本科生借閱信息、消費信息,本科生體質信息)進行數據清洗、屬性規約和數據變換的預處理操作。
(1)數據清洗。通過對所選本科生數據的分析,發現數據中存在許多缺失值(記錄為空或記錄為0)。由于原始醫學生信息數據量過大,且類似數據所占百分比較小,且對于該問題的分析效果影響不大,所以對這部分數據做丟棄刪除操作。
(2)屬性規約。醫學本科生原始數據中的值屬性太多,去除與建模不相關、弱相關或冗余的值屬性數據。
(3)數據變換。數據變化的主要作用是縮減該數據的維度,即從最初始的特征里面找到確確實實有效的特征,用來縮小挖掘數據時要顧慮的特征個數或變量的個數。依照需求的傾向,探求有效的特征來表現數據,采用壓縮或變動控件的方式來縮減要顧慮的有用變量數量。
k-means算法[4](如圖1所示)是把一組包含多個范本的特征矩陣劃分成K個沒有交集的簇,從直觀角度來說,簇就是許多組聚在一起的數據。

圖1 K-means 算法示意圖
同一個簇中的數據可以視為是同一個類別,簇就是聚類結果表現。簇中所有數據的均值μ和j通常被稱為這個簇的“質心”,在一個二維平面中,一個簇有橫縱兩個坐標,簇的質心的橫縱坐標分別代表該簇數據點的橫豎坐標均值,同理可推廣至高維空間[5]。
采用傳統模型的屬性分析方法可以分析出目標學生群,但是由于分析得過于細化,分析出的學生群體過多,不僅會使數據挖掘分析效率降低還會影響我們對教學指導的針對性總結[6]。因此,本文將構建SCB模型來分析醫學院校學生用戶群體,識別出各類不同學生群體加以指導。
本文將學生成績(S)、學生消費情況(C)、學生圖書借閱信息(B)三個指標信息作為建模指標,命名為SCB模型,如表1所示。

表1 指標含義
使用K-means聚類算法對于已有的醫學生數據,按照數據樣本之間的間隔大小,先確定劃分的K個簇(所有數據的集合,簇中對象是相似的),簇內聯系盡量緊密,簇間間隔盡可能大一些。用數據表達式表示,則最小化平方誤差E(平方誤差被用來評價模型,即值越小越接近質心,效果越好)


上述過程得到學生特征分析中的成績指標(S)、消費指標(C)和借閱指標(B),如表2所示,根據不同閾值設定優勢特征和弱勢特征,學生群1在SCB的屬性大于閾值則定義為優勢特征,學生群3在SCB的屬性小于閾值,則定義為劣勢特征。

表2 學生群體特征描述表
每個群體都有不同的表現特征,總結表2中的聚類結果,將所有群體的優劣特征定義四個等級的類別:重要保持、重點發展、重點考察、重點監督。
重要保持:這類醫學生的學習成績優異,學習能力及學習主觀能動性強,對專業知識和本學科知識的把握能力較強。因此,對于這類醫學生需重點培養和提高學生“思學做”三位一體的能力,既要加強醫學理論和科學研究的創新性培養,又要注重醫學實踐技術的動手操作能力,培養醫學生發現問題、主動思考的能力,并將所學的醫學理論與實際操作相結合。
重點發展:這類醫學生成績良好,但自主學習意識不強,是能夠通過積極正向引導而提高學習積極性的學生群體,具有很強的潛力價值。要知道,此類醫學生是具有較強的學習和實際操作能力的,只是在本專業的學習興趣上勢頭不足。對于這類學生,教學教育一定要注重對方式方法的研究,將重點放在興趣培養等主觀能動性激勵上,只有切實提高此類醫學生的學習積極性,才能幫助此類醫學生在專業上有所進步。
重點考察:這類醫學生成績徘徊在及格邊緣,只能基本掌握專業內容,對專業知識興趣不大,可以說是既沒有良好的學習習慣,也沒有想要鉆研醫學的精神。對這類醫學生群體首先要做的是培養良好的學習習慣,得讓他們先“坐”下來、“靜”下來,必要的時候,需要教育工作者用“外力”來推動此類醫學生學習,其次才是通過養成良好的學習習慣,逐步引導其對醫學的興趣和學習熱情,只有這樣才能針對性地解決此類醫學生的問題。
重點監督:這類醫學生成績較差,沒有自主學習意識,甚至對本專業知識根本不感興趣。針對這類醫學生群體不能把目光只局限在知識學習上,要透過現象發現此類問題的本質,即教育工作者需要從多個角度、多個方面來考慮,包括學生的心理因素情況、學生的身體情況、興趣的引導情況、自身主觀能動性情況等,必要時可以考慮轉換專業。
本文通過對醫學院校學生的多維數據挖掘分析,將數據信息化手段引入高校教育教學,既保證了數據分析的科學性,又通過模型建設為多元化的本科醫學生數據評價提供了新的思路。同時,也為學校個性化教育的建立實施提供了理論基礎和數據支撐,幫助學校做出正確決策或調整策略,進一步深入學校教育教學管理和教育業務信息系統信息化建設,不斷提升學校數據信息化理念,著力解決機制不完善、內容單一等漏洞,得出一些可以推廣的理念和經驗[7-8]。