翟青
摘 要 本文主要研究數據挖掘技術在留學生教學管理中的應用。隨著我國高校留學生規模的擴大,對現有的高校教學管理也提出了更高的要求。為了合理利用高校多年來在教學和管理工作中積累的大量數據,本文把數據倉庫及數據挖掘技術與教務管理系統相結合。采用數據挖掘技術理性地分析學校教學方面的成效與得失,多角度研究影響留學生發展的各方面因素,深入分析影響留學生成績的主次因子,獲得隱藏的輔助決策知識,指導教學工作,使得教學管理有的放矢,從而進一步提高教學質量。
關鍵詞 留學生 數據挖掘 關聯規則 教學管理 教學計劃
中圖分類號:G642 文獻標識碼:A DOI:10.16400/j.cnki.kjdkz.2016.05.012
Abstract This thesis mainly studies on the application of data mining technology in teaching. As the number of students abroad in China grows, we need to find a better way to make Chinese teaching management more efficiency. It combines the technology of data warehouse and data mining with educational management system to rationally utilize the mass data accumulated in the work of teaching and management. Then, in order to acquire the potential decision-support knowledge to guide the work of teaching and enable teaching management to operate with a definite object and thus further improve the quality of teaching, this paper makes research from the following areas. Firstly, it applies the technique of data mining to analyzing the effect and gain and loss in the teaching reasonably, then, it studies a variety of factors which influence the well development of students from multi-angle. Finally, with regard to the primary and secondary factors affecting students' performance, it carries out deep analysis.
Key words data mining; association rules; teaching management; teaching plan
0 引言
近幾年來華留學生教育進入快速發展時期,我國已經成為國際學生流動的重要目的地國家之一。隨著我校留學生規模的不斷擴大,如何更有效地對來華留學生進行教學管理已成為一個重要的研究課題。而運用數據挖掘技術,從大量的留學生相關數據中挖掘出一些有價值的信息,將更有利于構建切合我校留學生實際的培養體系,更好地保證培養質量。
一方面,從招生角度上來講。目前我校留學生的生源渠道主要分為三類:第一類是由中國國家留學基金委直接分配至我校學習的獲中國政府獎學金的學生。第二類是學生自己通過網上申請,我校根據學生提供的材料進行審核錄取。第三類是由國外大學或中介機構根據協議推薦來我校學習的學生。由于外國留學生來自不同的國家,之前在各自不同的教育體系中接受高中教育,文化課背景差異很大,這就導致生源的質量參差不齊。運用數據挖掘技術可以找到其中有價值的信息,如哪個國家的教育水平相對較高,來自哪個國家的學生平均申請成績較好,使用何種母語更容易融入中國高校教學等。這為招生工作提供了參考,從招生源頭提高留學生質量。
另一方面,從教學管理角度來講。目前,我校留學生數據庫中存放著歷屆學生的各科考試成績,海量的數據只是單純地記載了數據信息,對學生信息、成績等數據的處理一般還停留在簡單的數據備份和查詢階段,如傳統數據庫技術可以查詢最高分最低分和平均分等表層信息,但卻無法發現隱藏數據之間的規律或者說有指導意義的知識。大量有價值的信息被淹沒在海量數據中。事實上不論是課程與課程之間,還是課程的設置之間,與學生成績都存在著千絲萬縷的聯系,現階段已有的數據并沒有發揮其真正的價值,而運用數據挖掘技術則可能更好地發現隱藏在數據背后的豐富信息。通過對學生成績數據庫中所包含的各種類型數據進行相應的處理,如:抽取、轉換、分析和模型化處理,從中尋找影響學生學習成績的眾多因素,以及這些因素所涉及到的相關問題。應用數據挖掘技術分析學生的成績水平,使學生深入了解其在學生整體中的相對位置,由此來調整個人學習計劃。同時,幫助教師和學校決策者洞悉教學過程中存在的問題,進而反思教學質量。還可以根據關聯規則挖掘得到的一系列有價值的規則,分析檢查課程體系的合理性,比如:相關課程之間的銜接與先后順序是否恰當等,根據分析結果最大限度地優化培養計劃和決策。此外,利用數據挖掘技術還可以發現數據中存在的潛在關系與規則,比如:根據學生的出勤次數和作業的上交情況預測學生成績發展趨勢等。為教師的教學環節提供建設性的意見和建議,為學生管理工作提供有價值的決策支持,從而幫助學校做出實時適時的決策調整,使得學生管理工作有的放矢。
1 數據倉庫與數據挖掘
1.1 數據倉庫
傳統數據庫在聯機事務處理(OLTP)中獲得了較大的成功,而傳統數據庫中只保留當前的管理信息,缺乏決策分析所需要的大量歷史信息,故不能滿足管理人員的決策分析要求。為了解決這一問題,進行相關決策分析,數據倉庫應運而生。簡而言之,數據倉庫就是能夠滿足決策分析所需要的數據環境。數據倉庫的概念,由“數據倉庫之父”W.H.Inmom博士提出:數據倉庫是一個面向主題的,集成的、與時間有關的,非易失的數據集合,為管理部門提供決策支持。它實際上是一個特殊的數據庫,這種系統稱為OLAP系統。本文中我們就利用留學生成績數據庫中的各種類型的數據建立相應的數據倉庫,為數據挖掘提供數據平臺。
1.2 數據挖掘
近年來隨著信息技術的迅猛發展,人們所擁有的數據信息急劇增大。如何從大量隨機的數據中挖掘出一些有價值的信息,成為一個重要的研究課題,由此帶動了數據挖掘技術的產生和飛速發展。數據挖掘就是從大量的,不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的,但又有潛在的有用信息和知識的過程,是數據庫中的知識發現的核心??梢哉f,有數據積累的地方,就有數據挖掘技術的用武之地。
數據挖掘的分析方法分為:聚類分析,關聯分析,時序模式分析和分類分析。其中聚類分析是指通過數據本身具有的相似特點把海量數據集歸納為若干個簇,即“物以類聚”。同一簇中的數據之間相距小,相似度高;不同簇中的數據之間相距較大,數據相異度高。關聯分析是指利用關聯規則進行數據挖掘,其主要評價標準有:支持度、置信度、興趣度等。本文中我們將數據挖掘技術與留學生教學管理相結合,挖掘在留學生教學管理中隱藏的有價值的信息,為留學生管理提供決策指導與決策支持。
2 數據挖掘在教學領域中的應用
數據挖掘與數據倉庫相結合,是完成決策分析的關鍵因素。教務數據主要存儲在關系型數據庫中,其主要任務是執行聯機事務和查詢處理,對其中大量的教學信息及數據的應用僅限于某些單方面的分析,而缺乏相關的綜合分析,大部分數據難以再次利用,不能滿足決策分析的要求,為此需要對各種類型的數據進行抽取,轉換、匯總加載到留學生成績數據倉庫中,借助數據挖掘技術,為教學提供決策支持服務。
在留學生成績數據庫中,包含著多種類型的數據,它們既相互獨立又相互聯系。運用數據倉庫的理論和方法,對這些數據進行適當的預處理,即可產生支持教學決策所需要的信息。留學生成績倉庫的應用模型如圖1所示。
根據留學生成績的特點,以學生成績分析為主題建立星型結構的留學生成績倉庫。星型結構主要由事實表與維度表兩部分構成。事實表是星型模型的核心,維度表是事實表的附屬表,一個事實表一般擁有一組維度表,每個維度表都通過主鍵與事實表相連,維度表之間通過事實表的中介相互建立聯系。該數據倉庫主要涉及到的信息有:留學生基本信息,教師信息,課程信息,試卷信息,知識點信息及專業信息等。星型結構的留學生成績數據倉庫的具體構建情況如圖2所示。
2.1 數據挖掘在成績分析中的應用
定性評價在生活中有著廣泛的應用,我們往往把學生成績硬性地劃分為:優、良、中、差四個等級。而這種傳統的硬性區間劃分法,存在著眾多弊端。例如將成績90分定為“優”,而成績79分確定為“良”,這往往只是根據經驗但卻缺乏理論指導,而實際上二者之間并沒有那么明顯的差距。如果我們利用數據挖掘中的聚類分析法對學生成績進行適當處理,就可以有效地對學生成績進行等級劃分,為學生學習和教師的教學提供更合理的參考標準。在合理的等級劃分基礎上,我們就可以利用關聯規則挖掘技術對學生成績進行多角度、多方向的深入分析,獲得可以為教學工作提供決策支持的有價值的隱藏規則。比如:學生成績的好壞跟作業上交情況有著明顯的關系,該規則說明教師可以通過及時督促學生上交作業來提高學生成績。此外,我們也可以采用決策樹挖掘技術來分析影響學生某門課程成績的主要因素。比如:針對學生出勤率,作業上交情況,國籍,學生中英文水平四個因素對學生成績的影響程度進行決策樹挖掘分析,我們發現學生出勤率、作業上交情況以及學生的中英文水平是影響學生成績的主要因素,而國籍則是次要因素。由此說明較高的出勤率、良好的作業上交情況以及較好的中英文水平是學生取得良好成績的重要保障。
2.2 數據挖掘在培養計劃制定中的應用
培養計劃對一個專業的學習至關重要,一個好的培養計劃將會獲得事半功倍的效果,反之,將會產生事倍功半的結果。目前我校對于本科留學生雖然部分課程有全英文授課模式,但是就培養方案、教學計劃來講,大部分課程與本專業國內學生的幾乎一樣。而我國大學課程大綱的起點都是按照和國內高中畢業的程度銜接制定的,特別是數理化這樣銜接性很強,對基礎和選修課程要求很高的課程,大部分留學生不能跟上學習進度,教學效果較差,學習困難較大。
傳統的教務系統無法為留學生的培養計劃的制定提供建設性的決策支持。然而,利用數據挖掘技術對留學生信息維表,課程維表和學生成績維表進行關聯規則挖掘,則可以找出不同課程之間的關聯,從而為留學生單獨制定一套行之有效的特殊培養方案,適當調整外國留學生的必修和選修課程,提高教學效果和質量。如對石油工程專業留學生課程成績進行關聯規則挖掘,獲得等級為“優”的課程之間存在的有價值的規則,如表1所示。
相應的規則解釋有:(1)規則2 表明,“高等數學(Ⅱ)I”與“高等數學(Ⅱ)II”作為“理論力學”的先行課程的信任度為88.3%,因此“高等數學(Ⅱ)I”與“高等數學(Ⅱ)II”作為“理論力學”的先行課程比較合理。(2)規則3表明,“理論力學”作為“材料力學”先行課的信任度為90.6%,所以“理論力學”作為“材料力學”的先行課程比較合理。(3)規則4表明,“理論力學”和“材料力學”作為“油田開發地質”的先行課程的信任度為86.0%,所以“理論力學”和“材料力學”作為“油田開發地質”的先行課程比較合理。綜合(1)(2)(3)可知,高等數學(Ⅱ)(I ,II),理論力學,材料力學,油田開發地質這四門課程的合理開課順序應該是:(1)高等數學(Ⅱ)(I ,II)(2)理論力學(3)材料力學(4)油田開發地質。如果對上面列出的規則進行多次推導,可以得出“石油工程”這個專業大致合理的開課順序:(1)高等數學(Ⅱ)I、高等數學(Ⅱ)II;(2)高等數學(Ⅱ)(I ,II),理論力學,材料力學,油田開發地質;(3)測井綜合解釋,鉆井工程、油藏工程、氣藏工程,石油工程的全面設計;(4)環境保護在石油和天然氣領域,強化開采理論。
由上述的關聯規則及相應的結果解釋,我們可以清楚地看到,相關課程成績之間存在較高的關聯程度,先行課程的學習情況將直接影響其后續課程的學習。我校即可根據上述結論為學習“石油工程專業”的本科留學生合理安排課程順序,使其獲得良好的學習效果。
2.3 數據挖掘在留學生選課方面的應用
高校愈來愈注重個性化人才培養,學校教育方式越來越人性化、多樣化,學生自主選課就成為課程改革的必然產物。但由于留學生初到中國對環境的不熟悉,包括一開始的語言障礙、溝通障礙,顯然對中國高校的課程設置了解有限,這樣有可能致使他們選課僅僅是憑表面感覺來進行。如:學生在選擇“中國概況”這門課的時候,可能僅僅是因為對中國歷史文化的好奇,而并不了解應如何合理選擇其他相關課程來加深對這門課程的理解?!爸袊艣r”這門課程需要有一定中文語言基礎,盲目選課將導致留學生對中國概況的學習僅限于皮毛,而不能深入了解中國歷史文化。
現有的選課系統不能為學生選課提供建設性意見,但如果利用數據挖掘技術對學生漢語成績進行關聯規則挖掘,找出課程之間的關聯,就可以在學生選擇某門課時為其推薦相關課程,完善學生在該領域的學習體系。若獲得如下規則:“中級漢語”和“中國概況”成績等級為“優”;該規則說明漢語水平高低與中國概況的了解程度有較強的關聯程度,所以我們在學生選擇“中國概況”這門課程的時候,就應當向其推薦“中級漢語”,從而加強學生對該課程的學習。
2.4 數據挖掘在教學中其他方面的應用
通過對學生基本信息,學生成績與留級或退學情況進行關聯規則分析,從中分析導致學生留級或退學的因素,從而可由學生的現有情況預測其被留級或退學的可能性,及時對有退學或留級危險的學生進行適時指導,避免退學或留級情況的出現,使每個學生都能享有充實圓滿的大學生活。另外,采用關聯規則與決策樹挖掘技術對學生基本信息,學生成績與就業情況進行深入分析,比較國籍,專業方向,性別,專業課成績,英語水平,參賽(參加科技比賽)情況,從中可以獲得相關信息,對學校的招生工作提供參考。如:來自巴基斯坦國家的學生普遍成績不錯,就業情況較好,這樣對招生部門來講,可以提高對該國的學生的招收比例,從而提升整個高校的留學生質量。
3結論
數據挖掘技術作為一種新興的數據分析技術,被充分應用到留學生的教學管理中。從招生管理方面來講,通過數據挖掘技術,可以了解不同國家的生源質量,從而為學校的擇優錄取提供理論參考。從教學方面來講,采用數據挖掘技術可以理性地分析在留學生教學方面的成效與得失,使留學生在學習過程中,更好地掌握理論基礎和專業知識,并且可以把獲得的基本的中文聽、說、讀、寫能力運用到所學專業領域中。在教育信息化的大趨勢下,數據挖掘技術在教育領域內必然有十分廣闊的應用前景,而隨著數據挖掘技術的發展,它也必將會在留學生教學管理中起到越來越重要的作用。
參考文獻
[1] 嚴華,陳文菁.關聯規則在學生成績分析中的應用.福建醫科大學學報(社會學版),2008.9(1):46-49.
[2] 呂爽,陳高云.數據挖掘技術在高校教學評估中的應用[J].廣東廣播電視大學學報,2006.3(15):24-28.
[3] J.Brachman,T.Anand. The Process of Knowledge Discovery in Databases.A Human-centered Approach,1996:37-58.
[4] 趙輝.數據挖掘技術在學生成績分析中的研究與應用.大連:大連海事大學,2007:6-10.
[5] 張莉.數據挖掘技術在高校學生成績分析中應用的研究.青島:中國石油大學(華東),2009:6-10,56-57.
[6] 潘鋒.教務管理系統中的數據挖掘.重慶:重慶大學,2008:36-38.
[7] 彭玉青,張紅梅,何華等.數據挖掘技術及其在教學中的應用.河北科技大學學報,2001.22(4):21-24.
[8] 王利.數據挖掘技術在高效管理中的應用[J].福建電腦,2005.6:45-48.
[9] 盧正中.淺談我校本科留學生教育質量保障體系建設.南昌教育學院學報,2012:62-63.