施美華,姚衛新,劉 冰
(東華大學 教務處,上海 201620)
隨著知識經濟時代的到來,單一的專業教育已不適應社會對復合型或綜合型人才的需要,社會的發展需要培養和造就一大批高素質的、有創造力的復合型或綜合型人才。在這種社會需求大背景下,21世紀初各高校紛紛大力發展輔修教學,鼓勵學有余力的學生在學習主修專業課程的同時輔修另一專業的主要課程,掌握更多的科學文化知識,成為基礎扎實、知識面寬、適應性強的復合型人才,增強畢業后的就業競爭力,主動適應社會經濟建設的需要。
在這十幾年的輔修教學歷程中,隨著同學修讀規模的不斷擴大,輔修專業在各高?;緦崿F了信息化和網絡化的教學管理,如輔修報名、排課管理、成績管理等等,但僅限于簡單的數據錄入、查詢和統計,而沒有開展深入的數據研究。同時根據以學生為本的教學管理要求,需要了解學生對輔修教學過程的認知和評價,如學生選報輔修專業的學習動機、輔修專業的教學效果反饋等等,這些都沒有權威的數據來支撐,為此有必要從學生的角度出發,建立輔修教學調查評價體系,采集數據。通過綜合輔修各方面信息,并深入數據研究,我們就可以在教學管理中有針對性地加強引導和強化管理。
從數據自身出發,找出潛在規律,正是數據挖掘技術的要旨。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識[1]。把數據挖掘技術應用于輔修教學管理領域,通過相關算法,對大量數據進行挖掘分析,就有可能得到數據背后所隱含的規律。
由此,我們根據需求建立輔修教學調查評價體系,并收集調查數據信息,同時主要運用聚類分析中的k-中心點算法和關聯規則中的Apriori算法進行數據挖掘,期望通過數據挖掘的一些方法,對輔修教學招生、教學安排、教學評價中存在的一些關聯和潛在的規則進行分析和評估,引導學生的選報或修讀,并為實施因材施管提供決策依據。
輔修的生源來自不同的學校、不同的專業,學生流動性大。因其教學有特殊性,有必要全方位了解輔修教學管理的客觀狀況,如對學生選報輔修學習的動機、學生對任課教師教學情況的評價、學生對輔修教學軟硬件管理情況的一個評價和認可、教學實際效果和修讀的穩定性等等,只有掌握了這些數據才能對教學情況作出評價和引導。因此教學調查指標體系的建立從這四個層面著手,設計出的教學調查問卷能使學生從自身利益出發來綜合反映輔修的教學情況,評估教學的質量及學生的滿意水平。
在問卷調查中,所需測評的本質是一個定量分析的過程,即用數字去反映顧客對測量對象的態度。量表的設計分兩步:第一步是“賦值”,根據設定的規則,對不同的態度特性賦予不同的數值;第二步是“定位”,將這些數字排列或組成一個序列,根據受訪者的不同態度,將其在這一序列上進行定位,之所以將測量指標量化(數字化),一是因為數字便于統計分析,二是數字使態度測量活動本身變得容易[2]。教學情況測評了解的是學生對教學軟硬件、教學質量、教學效果的看法和態度等,考慮到教學情況調查表將由學生在網上填寫,學生希望看到的問題能明確,回答能簡單和便捷,故對這類問題的測量采用了“5級李克特量表”,采用的5級態度是:完全不同意、較為不同意、基本同意、較為同意、完全同意,相應賦值為1、2、3、4、5。
綜合以上情況和要求,建立了輔修教學調查情況指標體系,具體見附表1。其中在學生學習動機層面根據內外因設計了10個題項,教師教學情況層面根據教師教學態度和課堂教學質量設計了8個題項,教學管理情況設計了8個題項,教學效果層面從知識掌握程度、能力提高情況、教學效果穩定性方面共設計了9個題項,教學調查表的建立,基本能反映輔修教學管理的客觀狀況。
聚類算法主要是借助數學手段進行一定歸類的數據簡化技術,它把基于相似數據特征的變量或個案組合在一起,是一種無監督的學習和分類。聚類算法用于數據挖掘時,它既可以作為一個獨立的方法,用以發現數據庫中一些內在的數據分布信息,也可以作為數據挖掘算法中的一個預處理步驟,其他挖掘算法能夠在聚類分析所生成的簇上作進一步的分析和處理。
k-中心點算法是聚類算法中基于有代表性對象的劃分方法,它的目的是對N個數據對象給出k個劃分,它對在中小規模的數據庫中發現球狀簇很適用。k-中心點算法的基本策略是:首先為每個簇隨意選擇一個代表對象Oj,剩余的對象根據其與代表對象的距離分配給最近的一個簇,然后反復地用非代表對象Orandom來代替代表對象Oj,由此不斷改進聚類的質量。聚類結果的質量用一個代價函數來估算,該函數度量對象與其參照對象之間的平均相異度。如果一個當前的中心點對象被非中心點對象所代替,代價函數計算平方-誤差所產生的差異。替換的總代價是所有非中心點對象所產生的代價之和。如果總代價是負的,那么實際的平方-誤差將會減小,Oj可以被Orandom替代。如果總代價是正的,則當前的中心點Oj被認為是可接受的,在本次迭代中不發生變化[3]。k-中心點算法的流程具體如下:
輸入:N個對象的數據庫,期望得到的簇的數目k;
輸出:k個簇,使得所有對象與其最近中心點的相異度總和最小。
方法:
(1) 隨機選擇k個對象作為初始的中心點;
(2) 把每個剩余的對象指派給離它最近的中心點所代表的簇;
(3) 隨機地選擇一個非中心點對象Orandom;
(4) 計算用非中心點對象Orandom代替中心點Oj的總代價S;
(5) 如果總代價S為負,則Orandom替換Oj,形成新的k個中心點的集合;
(6) 重復第2步到第5步,直到不再發生變化。
在輔修數據分析中選擇聚類挖掘,是希望能夠通過對不同類型的修讀輔修的學生進行聚類,把學生劃分成不同類型的群體,在同一群體內試圖找出某種未曾引起注意的共性特點,在不同群體間找出主要的區別因素,同時也能深入了解輔修各個層面的信息。
用SQL語言來實現算法的關鍵點是根據臨時表中存放的距離值,找出數據表中每個點i到最近中心點的距離,并嘗試把i劃分給該中心點;計算Orandom替換Oj后的總代價的變化,以此決定是否真正需要用Orandom替換Oj,形成新的中心點。如果所有的Orandom都不再能夠替換Oj,則現有中心點就是最終結果。
對教學信息調查主題庫按教學各個層面用k-中心點算法進行了挖掘,經過預處理后,有效數據為2 096條,我們將學生按學習動機、教學效果、教學質量、教學軟硬件各個層面分別進行聚類挖掘,限于篇幅,列舉兩個聚類結果分析。

表1 按學生學習動機進行聚類,選擇的聚類數為3
注:按完全同意每選項5分計,內因共為25分,外因共為25分。

表2 將學生按照教學效果的三個方面進行聚類,選擇的聚類數為4
注:按完全同意每選項5分計,知識掌握共為10分,能力提高共為15分,教學穩定共為20分。
從表1中看出以中心點1為代表的是指選報受內因一定影響的學生,同時也受到外因一定影響,這部分占了總人數的24.8%。以中心點2為代表的是選報受內因影響不大的學生,受外在因素影響也不大,這一類群體屬于學習動機相對較模糊,不明確,這部分占了36.3%。以中心點3為代表的是指選報以內因為主導的學生,他們幾乎不受外在因素的影響,這部分占了大概38.9%,這部分學生有強烈的求知欲望,學習主動性比較強。表2將學生按教學效果分成四類,如以中心點1為代表的為知識掌握、能力提高及教學穩定性方面非常滿意的學生,這部分學生比較多,占了總人數的21.8%,說明教學效果不錯,學生非常認可。以中心點4為代表的是對知識掌握、能力提高和教學穩定性方面都較滿意的學生,這部分占的比重為31%,在管理中要加強這兩部分人在班集體中的引導作用,促進大家學習的積極性。
由此,對輔修教學的各個層面進行聚類挖掘,根據挖掘到的信息從輔修管理的各個層面進行了分類,并掌握了各個分類的特性,從而深入地了解輔修管理的各個層面的情況,能對輔修教學管理作出一些建設性的指導意見,并以此聚類結果作進一步挖掘的預處理。
關聯規則挖掘通過支持度和可信度定量地描述這種關聯關系的程度,以指導數據分析的過程。關聯規則的典型應用是購物籃分析,通過分析指導商品貨架設計、倉儲規劃、降價銷售等系列決策行為,發現大量數據之間的關聯關系在選擇購物、決策分析和商務管理方面是非常有用的。對于給定的一個交易集D,關聯規則的挖掘過程就是產生大于最小支持度和最小置信度的關聯規則的過程。規則?X?Y在交易數據庫D中的支持度(support)是交易集中包含X和Y的交易數與所有交易數之比,記為support(X?Y),規則XY在交易集中的置信度(confidence)是指包含X和Y的交易數與包含X的交易數之比,記為confidence(XY)[4]。
Apriori算法是最經典的關聯規則算法之一,它可在一個事務數據庫中,找出所有滿足最小支持度的項集(itemsets)。其使用逐層搜索的迭代方法,首先找出頻繁1-項集的集合,記作L1,把L1用于尋找頻繁2-項集的集合L2,而L2用于找L3,如此下去,把k-項集應用于對 (k+1)-項集的探索,直到不能找到頻繁k-項集,表明已找出所有滿足條件的規則[5]。在找每個Lk時,利用“Apriori性質”的重要特性,事先識別出一部分非頻繁項集,對它們不再需要通過掃描數據庫加以驗證。“Apriori性質”指的是:頻繁項集的所有非空子集都必須也是頻繁的,對于一個k-候選項集,檢查候選項集的所有(k-1)-子項集是否頻繁,若有一個不是頻繁的,則可以直接刪除這個候選項集,不必為它掃描數據庫[6]。
我們采用SQL語言實現該算法的主要步驟如下:
輸入參數T:數據表;min_support:最小支持度;min_confidence:最小置信度
輸出參數R:存儲關聯規則的數據表
步驟:
(1) 生成頻繁1-項集:從T中選擇支持度>min_support的每個項itemi,存入表L1;
(2)k=2;
(3) 當Lk<>條件成立時,執行第4步—第7步循環;
(4) 連接k-1項集Ck;
(5) 如果k>2,則應用“Apriori性質”,修剪Ck中候選項集;
(6) 生成頻繁k-項集:驗證Ck中的每個候選項集,把滿足在T中的支持度>min_support的候選項集存入Lk;
(7)k=k+1;
(8) 結束該循環;
(9) 從L1,…,Lk中提取規則,把置信度>min_confidence的規則存入表R中。
在用SQL語言實現算法時主要步驟就是由L1→C2→L2→ … →Ck→Lk的過程,通過迭代循環,直到不能產生新的頻繁項集的集合為止,最后從L1, …,Lk中提取關聯規則。為了提高算法的效率,不必對數據表T進行掃描,可以直接由Lk-1和Lk產生形式如item1∪item2∪…∪itemk-1→itemk的規則。
Apriori算法可以對輔修數據的多個層面進行挖掘分析,如對學生修讀信息主題庫進行關聯挖掘、按教學層面聚類所得的簇進行關聯規則挖掘、教學調查主題庫中學生基本信息以及通過聚類所得的簇進行關聯規則挖掘,從而得出了一系列在學生選報、修讀、教學管理各個環節的隱性特征。如表3為學生基本信息,以及通過聚類所得的簇進行挖掘的關聯規則,選取最小支持度為5%,最小置信度為60%。

表3 教學調查表中學生基本信息以及通過聚類所得的簇進行關聯規則挖掘結果
從表3中,我們可以挖掘到一些特征如下:(1)管理和經濟學科背景對輔修教師的教學質量認可度比較高,如序號10中可以看到主修學科為經濟學的同學對教學質量滿意的占到70.3%,序號11中主修學科為管理學的同學對教學質量滿意的占到82%。(2)外校生源,主修學科為文學,輔修學科類別為藝術,對教學效果非常滿意的占到93.8%。(3)主修學科為管理,修讀輔修學科為經濟的,修讀動機是以內因為主導的占到81.5%。(4)對于工科學生,選報專業的動機方面有性別傾向,從序號1中可以看到工科女生選報文學為輔修學科的選報動機不足,比較盲目的占到67.1%,而工科的男生選報管理為輔修學科的以內因為主導的,則占到71.4%。由此我們可以根據挖掘到的結果進行分析和有針對性的引導。
在進行關聯挖掘中,輸出的關聯規則很多,但真正有效的規則很少,這就需要我們對關聯規則能進行很好的解釋。在運行程序時,合理地選擇最小支持度和最小置信度非常重要。
輔修教學的管理是一個動態的教學管理,在修讀的過程中變動因素也較多,把數據挖掘到的大量的隱性規則和日常管理工作結合起來,在輔修教學的招生選報階段、修讀階段建立起輔修教學管理指導、測評系統,從而能有的放矢、針對性地進行引導,全面規范輔修教學管理。如在招生選報階段,可以根據歷屆不同學科背景學生選報的動機、學習情況的數據挖掘信息,對新生進行選報測評、指導,從而能避免學生選報輔修專業的盲目性。在修讀的過程中,通過教學情況狀態數據挖掘,建立起教學過程監測,及時了解不同主修專業背景、不同輔修專業學生類別對教學狀態的反饋,加強主動性的管理,確保學生修讀的穩定性。從而能在教育信息化條件下,利用數據挖掘技術,探討現代高校教學管理工作的新模式。
輔修教學管理是教務管理的一部分,可以把數據挖掘技術深入應用到教務管理中,可以促進教育管理的進一步改革、完善和發展。通過對數據挖掘工具的有效利用,能較客觀地反映教務系統中存在的問題,為決策提供重要的依據。當然,數據挖掘本身不是萬能的,它的應用離不開實際背景,只有遵循以人為本的原則,才能使它真正具有現實的意義和廣闊的前景。
[1] 金延軍.數據挖掘技術在高校學生就業指導中的應用.黑龍江工程學院學報:自然科學版,2009,(1):64-67.
[2] 趙連寶.如何進行企業顧客滿意度研究[J].合作經濟與科技,2006,(5s):15-16.
[3] 劉志成,文全剛.“k-中心點”聚類算法分析及其實現[J].電腦知識與技術:技術論壇,2005,(2):20-24.
[4] 楊秋葉.Apriori算法改進研究[J].電腦知識與技術,2013,(9):33-35.
[5] 杜家強.Web日志中用戶頻繁路徑快速挖掘算法研究[J].計算機工程與應用,2005,(22):164-167.
[6] 況莉莉.Apriori算法與FP-tree算法的探討[J].淮北煤炭師范學院學報:自然科學版,2010,(2):44-49.
附錄1:教學情況調查表
教學情況表,主要涉及學生學習的動機、任課教師教學情況、教學管理軟硬件情況、教學效果調查四個層面,具體的內容如下:
一、基本情況調查
1.學生來源:[ ] 本校學生 [ ] 外校學生
2.你的性別:[ ] 男生 [ ] 女生
3.你的主修專業學科類別:[ ]文 [ ]理 [ ]工 [ ]管理 [ ]經濟 [ ]教育 [ ]法學
4.你的輔修專業學科類別:[ ]文 [ ]理 [ ]工 [ ]管理 [ ]經濟
二、你為什么要學習輔修專業(其中1~5為學習動機外因,6~10為學習動機內因)
1.學習輔修專業是因為父母的愿望和要求。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
2.學習輔修專業是因為學校、輔導員、任課教師宣傳、影響。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
3.學習輔修專業是因為看到別的同學選,我也選。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
4.學習輔修專業是因為費用比其他學?;蚺嘤枡C構低。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
5.學習輔修專業是因為證書比較容易獲得。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
6.學習輔修專業是希望學有專長,更好地報效祖國。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
7.學習輔修專業是因為本人強烈的求知欲望,證書不重要。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
8.學習輔修專業是希望有兩個專業交叉背景,將來找個好工作。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
9.學習輔修專業是因為不喜歡主修專業,希望改變自已的專業背景。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
10.學習輔修專業是希望能有一個新的學習環境、班集體和認識更多的同學。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
三、任課教師教學情況調查(其中11~14為教師教學態度,15~18為課堂教學質量)
11.教師重視輔修教學,對教學工作充滿熱情。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
12.教師對作業/測驗等作認真批閱或分析。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
13.教師上課不遲到、早退,遵守課堂教學紀律。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
14.教師能真誠關懷學生,愿與學生交流探討問題。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
15.教師能有效調節課堂氛圍。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
16.教師對課程進度安排合理。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
17.教師能根據教學內容,采用恰當的教學手段。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
18.教師不照本宣科,能采用啟發式教學。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
四、教學管理軟硬件情況調查
19.輔修專業教學計劃、課程結構安排合理。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
20.課程集中安排在雙休日,更有利于輔修的學習。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
21.輔修專業的各種教學安排,成績等能通過多種途徑方便查詢獲知。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
22.班主任能經常聯系同學,對各種教學變動,都能配合作妥善安排。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
23.教學安排中的問題,能及時得到相關管理部門的解決。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
24.輔修專業班集體同學關系融洽,經常交流。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
25.輔修專業的教材還是統一購買好,省心又方便。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
26.教室、多媒體設備配備情況良好。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
五、教學效果情況調查(27~28為知識掌握程度;29~31為能力提高方面;32~35為教學效果穩定性方面)
27.通過輔修專業的學習,拓寬了自己的知識面。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
28.通過輔修專業的學習,對自己第一專業知識理解、掌握更深入。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
29.能積極主動完成作業,參與課堂討論。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
30.感到自己的自學能力、學習積極性有所提高。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
31.通過學科的交叉,感到自己的數理邏輯思維能力或語言表達能力有較大提高。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
32.通過一段時間的輔修學習,感覺輔修的學習學有所值,更喜歡輔修這個專業了。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
33.如低年級同學向你打聽,你會建議他(她)選報參加輔修的學習。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
34.如讓你重新選擇,你仍會選擇你現在所學的輔修專業。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意
35.不管輔修的學習有多累,我一定會堅持把輔修學好、學完。
[ ]完全不同意 [ ]較為不同意 [ ]基本同意 [ ]較為同意 [ ]完全同意