姜 蕓
(西安交通大學(xué) 理學(xué)院,陜西 西安 710049)

數(shù)據(jù)挖掘技術(shù)在高校教學(xué)實踐中的應(yīng)用
姜蕓
(西安交通大學(xué) 理學(xué)院,陜西 西安 710049)
摘要:闡述了經(jīng)典的決策樹ID3算法,并利用該算法對高校大學(xué)物理實驗課程學(xué)生成績進行數(shù)據(jù)挖掘,從中提取有價值的信息,并對得到的結(jié)果進行分析,得出了影響學(xué)生成績的原因,為提高高校教學(xué)管理水平提供了依據(jù).
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;ID3算法
1引言
當(dāng)今社會,人們利用高速發(fā)展的信息技術(shù)得到了大量數(shù)據(jù),在給生活提供方便的同時,也帶來了一些問題,由于積累的數(shù)據(jù)不斷增多,對所隱藏的數(shù)據(jù)知識挖掘方法知道的又比較少,使得數(shù)據(jù)囤積量大爆炸,盡管數(shù)據(jù)庫在技術(shù)上不斷成熟,可是卻沒有充分地發(fā)揮與利用數(shù)據(jù)庫里蘊含的豐富的知識和信息. 由于現(xiàn)代社會數(shù)據(jù)庫的量以幾何狀態(tài)不斷地增長[1],要在數(shù)據(jù)的汪洋中對信息去粗存精、去偽存真,靠傳統(tǒng)方法是不行的,要想高效地管理、組織這些數(shù)據(jù)并對其進行分析和應(yīng)用并非是一件易事,這就要求計算機系統(tǒng)能夠提供更高層次的數(shù)據(jù)分析,而數(shù)據(jù)挖掘是最有效的方法. 數(shù)據(jù)挖掘(Data mining)則是知識發(fā)現(xiàn)(KDD)的核心部分,它指的是從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等. 數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索和空間數(shù)據(jù)分析等多個領(lǐng)域的理論和技術(shù). 進入21世紀(jì),數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學(xué)科,并且數(shù)據(jù)挖掘技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來.
2數(shù)據(jù)挖掘在高校教學(xué)實踐中的初步應(yīng)用
在高等學(xué)校教學(xué)實踐中,學(xué)生是主體,存在著學(xué)生學(xué)籍管理、教學(xué)儀器管理,以及教師對學(xué)生課程管理、成績管理等各種數(shù)據(jù)系統(tǒng). 在這些數(shù)據(jù)庫中存儲了大量的數(shù)據(jù),然而隱藏在這些數(shù)據(jù)背后的信息一直未得到開發(fā)應(yīng)用. 學(xué)生是學(xué)校的核心,學(xué)生的學(xué)習(xí)成績作為一種總結(jié)性評價,能反映出他們的知識掌握情況和相應(yīng)知識技能的獲得情況,學(xué)習(xí)成績是加權(quán)綜合值,它不僅包括書面考試成績,而且還包括人文的考核項目,比如出勤率、課堂表現(xiàn)、各種活動等. 學(xué)生成績不僅對學(xué)生的學(xué)習(xí)效果和教師的教學(xué)效果具有檢測作用,而且還能反饋教學(xué)活動,反作用于教師的教和學(xué)生的學(xué). 在高校的教務(wù)數(shù)據(jù)庫中學(xué)生成績記錄非常龐大,對學(xué)生成績的評定分2種:一種是定量評價,一種是定性評價. 定量評價也就是平時所說的某門課程考了多少分,而定性評價一般分優(yōu)、良、中、差等4個級別. 僅僅從單獨一門課進行分析,很少關(guān)注到學(xué)生取得這些成績背后的影響因素和原因. 數(shù)據(jù)庫是從定性的角度分析學(xué)生成績,缺點是得到的結(jié)果不精確;而數(shù)據(jù)倉庫是從定量的角度對學(xué)生成績進行分析,能精確地得到各個方面的數(shù)據(jù). 因此使用數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)對學(xué)生成績進行深層的分析,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律或模式,根據(jù)挖掘結(jié)構(gòu)提出指導(dǎo)性建議,從而更好地指導(dǎo)教師教學(xué),提高教學(xué)效率,進而有效地提高學(xué)生成績.
3決策樹法中的ID3算法
數(shù)據(jù)挖掘技術(shù)主要有集合論法、決策樹法、遺傳算法、神經(jīng)網(wǎng)絡(luò)方法等. 決策樹法又分為ID3算法、CLS算法、IBLE算法等. ID3算法(Iterative Dichotomiser 3)是由Ross Quinlan首先提出的[2],該算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn)[3],實現(xiàn)對數(shù)據(jù)的歸納分類.
已知有C個結(jié)果的訓(xùn)練集S:
Entropy(S)=∑-p(I)log2p(I).
(1)
這里p(I)是屬于類I的S的比例. ∑是對C求和. log2以2為底的對數(shù).
如果所有S屬于相同的類,熵為 0(數(shù)據(jù)分類完畢),熵的范圍是 0(分類完畢)到 1(完全隨機). 注意:S不但是屬性而且也是整個樣本集.
(2)
Gain(S,A) 是屬性A在集S上的信息增益,定義為:
Gain(S,A) = Entropy(S)-Entropy(S,A) .
(3)
Gain(S,A)是指已知屬性A的值后導(dǎo)致熵的減少. Gain(S,A)越大,說明選擇測試屬性A對分類提供的信息越多.
4實例分析
通過對大學(xué)物理實驗課程學(xué)生成績評定的典型實例,說明數(shù)據(jù)挖掘的步驟及決策樹方法在高校教學(xué)實踐中的應(yīng)用.
大學(xué)物理實驗課程基本每學(xué)年考核1次,考評由3部分組成:課內(nèi)教學(xué)、課后實驗報告及每學(xué)年期末考核. 整個實驗課程成績主要依據(jù)在規(guī)定時間內(nèi)完成的課后實驗報告的內(nèi)容和質(zhì)量來決定,實驗課和期末考核作為較次要的考核內(nèi)容. 由上述物理實驗教學(xué)內(nèi)容之間的關(guān)系,可以建立數(shù)據(jù)模型:學(xué)生情況數(shù)據(jù)庫,含學(xué)號、性別、實驗報告、實驗課、期末考核、平均成績、名次等項目.
選擇2個班,每班25人,對學(xué)生情況數(shù)據(jù)庫進行如下的量化、轉(zhuǎn)換、清理、集成等處理工作,得到了相應(yīng)的數(shù)據(jù)庫(如表1所示).

表1 學(xué)生情況數(shù)據(jù)庫
學(xué)號字段定義為:1~50. 性別字段定義為:男或女. 實驗報告加分定義為:0表示沒有通過,0.5表示通過,1表示較好. 實驗課加分定義為: 0表示基本不上實驗課,0.2表示適當(dāng)上實驗課,0.5表示按期上實驗課. 期末考核加分定義為: 0表示基本不參加期末考核,0.5表示參加期末考核并取得了較好的成績. 平均成績定義為:學(xué)習(xí)成績總體情況,字段值為0~100. 名次定義為1~50,且記錄按名次從高到低排列.
應(yīng)用ID3算法建立相應(yīng)的決策樹,先確定正例個數(shù)p和反例個數(shù)n. 將名次排在前15名成績好的學(xué)生定義為正例,后35名成績不好的學(xué)生定義為反例,即p=15,n=35.
為及時了解滑坡體的演化過程,準(zhǔn)確捕捉特征信息,需對滑坡進行監(jiān)測,內(nèi)容包括地表變形、地下變形、地聲、應(yīng)變、水文以及降水量、地溫等其他環(huán)境因素。眾多可測量的數(shù)據(jù)中,位移是滑坡的最直接狀態(tài)量,且施測簡單,文章介紹了位移監(jiān)測的常用方法,簡述它們的基本原理和優(yōu)缺點。


gain(實驗報告加分)=I(p,n)-E(實加)=
0.881-0.616=0.265,
gain(實驗課加分)=I(p,n)-E(課加)=
0.881-0.801=0.08,
gain(期末考核加分)=I(p,n)-E(測加)=
0.881-0.879=0.002.
通過計算可知,實驗報告加分具有最大的信息增益,故將實驗報告加分選為根節(jié)點并向下擴展,最終生成的決策樹,如圖1所示.

圖1 成績分析決策樹
通過分析圖1的決策樹,可以得到以下結(jié)論:
1)學(xué)生上完實驗課后,如按期且獨立保質(zhì)保量完成實驗報告,成績均較好.
2)學(xué)生實驗報告完成得較好,也就是在實驗課上動手能力較強,善于思考和分析,可以看出他們在實驗的基礎(chǔ)上較為重視歸納和總結(jié),均沒有過重的課內(nèi)實驗壓力,其中課內(nèi)實驗課安排適度的學(xué)生學(xué)習(xí)成績也好.
3)對于剛通過實驗報告測評的學(xué)生,情況就顯得較為復(fù)雜,要視具體情況而定,一方面學(xué)生的大作業(yè)、課內(nèi)實驗、期末考核安排合理時學(xué)習(xí)成績也好,另一方面,如果學(xué)生經(jīng)常不參加課內(nèi)實驗或不參加期末考核時,也會影響到他們的學(xué)習(xí)成績,造成學(xué)習(xí)成績不好.
根據(jù)表1和圖1,對學(xué)生情況數(shù)據(jù)庫所建決策樹進行分析,可以初步判別:實驗報告、實驗課、期末考核是相輔相成的,互相影響和制約的,一般而言,學(xué)習(xí)成績較好的學(xué)生,其實驗課和期末考核也是積極參加者.
這樣,教師就可以針對不同的學(xué)生進行事先輔導(dǎo),使教學(xué)內(nèi)容在時間上得到延伸,學(xué)生能夠提前預(yù)習(xí)和掌握實驗教學(xué)內(nèi)容,這樣,就可以減輕學(xué)生在實驗課上的壓力,既緊張又輕松地完成預(yù)期實驗. 同時,也要看到,如果僅重視上實驗課和參加期末考核而不重視實驗報告同樣也會影響到自身的學(xué)習(xí)成績. 對于大學(xué)物理實驗這門課程,學(xué)習(xí)成績好的學(xué)生,他們的上進心、責(zé)任心也都相對較強,能夠很好地處理上述三者之間的關(guān)系;反之,對自己約束力較差、經(jīng)常不上課或不認(rèn)真完成作業(yè)的學(xué)生,學(xué)習(xí)成績自然就較差.
5數(shù)據(jù)挖掘技術(shù)在高校教學(xué)實踐中的改進與探索
雖然數(shù)據(jù)挖掘技術(shù)在商業(yè)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域已有比較成功的應(yīng)用,但在高校教學(xué)實踐中仍處于初級階段,其主要原因一是數(shù)據(jù)量有限,二是各學(xué)科、各院系之間缺少廣泛的數(shù)據(jù)交流. 要想更好地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校教學(xué),筆者認(rèn)為有以下幾方面需要改進與探索.
1)在有限的數(shù)據(jù)庫中要經(jīng)常挖掘、搜集和整理有價值的數(shù)據(jù). 由于高校除了大面積教學(xué)以外,剩余主要是科研,教學(xué)環(huán)境中數(shù)據(jù)量較少,無法與商業(yè)環(huán)境中的大量數(shù)據(jù)相比,因此,要在相對有限的環(huán)境中做數(shù)據(jù)挖掘的基礎(chǔ)工作.
2)各學(xué)科、各院系之間相對獨立,教師和科研人員手中的數(shù)據(jù)有的集中在學(xué)校、有的則在家里,彼此間缺少廣泛的數(shù)據(jù)交流,無法形成有效的數(shù)據(jù)鏈,這也是亟待改進的任務(wù)之一.
3)重視人才培養(yǎng)和開發(fā). 數(shù)據(jù)挖掘技術(shù)對于人員素質(zhì)要求較高,不僅要求了解和初步掌握該技術(shù),而且還要求懂得數(shù)據(jù)定義和挖掘算法等技能,只有這樣,才能夠應(yīng)用好這個工具,進而對結(jié)果做出科學(xué)的分析和評價.
4)加強和優(yōu)化硬件環(huán)境. 數(shù)據(jù)挖掘技術(shù)的所有基礎(chǔ)性工作都是建立在可靠的硬件設(shè)施上的,數(shù)據(jù)挖掘需要有一定存儲量和運算能力的計算機,要有能夠提供信息傳遞和信息共享的暢通網(wǎng)絡(luò). 目前,有些高校硬件建設(shè)尚不能滿足數(shù)據(jù)挖掘技術(shù)的進一步提升,同時內(nèi)部也未建立MIS系統(tǒng),使得信息的收集、傳遞、存貯等受到一定的影響. 相信隨著信息的不斷擴大和需求,最終一定會形成適合于數(shù)據(jù)挖掘技術(shù)的信息鏈.
6結(jié)束語
數(shù)據(jù)挖掘技術(shù)經(jīng)過了十幾年的充實和發(fā)展,到目前為止已經(jīng)成功地運用在各個不同的領(lǐng)域. 伴隨著科學(xué)技術(shù)的不斷發(fā)展和信息量的海量增加,如依靠傳統(tǒng)的方法要在龐大的數(shù)據(jù)庫中找到具有科學(xué)決策的信息是非常困難的,數(shù)據(jù)挖掘技術(shù)從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識和線索,借助于數(shù)據(jù)挖掘本身的技術(shù)去挖掘蘊藏在數(shù)據(jù)庫中的客觀規(guī)律,從而為科學(xué)合理的決策提供有力的支持. 將數(shù)據(jù)挖掘技術(shù)引入到高校教學(xué)實踐中,一是發(fā)展的必然,二是有助于在日常教學(xué)管理中不斷獲得有規(guī)律的信息,為學(xué)校管理層提供決策依據(jù),從而不斷提高教學(xué)質(zhì)量. 本文通過對大學(xué)物理實驗課程學(xué)生成績評定的實例分析,簡述了數(shù)據(jù)挖掘技術(shù)在分析影響學(xué)生
參考文獻:
[1]路延. 數(shù)據(jù)挖掘技術(shù)在高等學(xué)校教學(xué)中的應(yīng)用研究[J]. 科技資訊,2013(13):201.
[2]王惠中,彭安群. 數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢[J]. 工礦自動化,2011(2):29-32.
[3]王小巍,蔣玉明. 決策樹ID3算法的分析與改進[J]. 計算機工程與設(shè)計,2011,32(9):3069-3072,3076.
[責(zé)任編輯:尹冬梅]
Application of data mining in university teaching practices
JIANG Yun
(School of Science, Xi’an Jiaotong University, Xi’an 710049, China)
Abstract:A classical method-decision tree ID3 was expounded. Using this method, the work of data mining on students’ achievement in college physical experiments was carried out. A lot of useful information was retrieved and analyzed. Some reasons that influenced students’ achievement were obtained. It would provide a scientific basis for college teaching management.
Key words:data mining; decision tree; ID3 algorithm
中圖分類號:G642.423
文獻標(biāo)識碼:A
文章編號:1005-4642(2015)03-0015-03
作者簡介:姜蕓(1963-),女,陜西西安人,西安交通大學(xué)理學(xué)院物理實驗中心工程師,學(xué)士,主要從事物理實驗教學(xué)研究及管理工作.
收稿日期:2014-08-19;修改日期:2014-09-11