文/天津農學院 林月嬌
利用學科成績數據挖掘提升高校教務管理水平的路徑探索
——基于知識發現理論
文/天津農學院 林月嬌
隨著信息化和網絡化進程的不斷演進,人類由于生活和生產作業所形成的數據信息量正以幾何級的增長速度不斷產生。目前,我國許多高校都開展了以校園網為平臺的“數字化”校園建設,大量與學生成長相關的學科成績和其他評價分析數據被儲存記錄下來。本文主要研究利用知識發現的理論方法對這些數據做深度的研究分析,挖掘出數據間隱含的關聯關系,以便更好地應用管理創新理論,提高學生管理的信息化水平,提升高校教務管理水平。
(一)知識發現的研究綜述
知識發現(Knowledge Discovery in Databases,KDD)一詞最早出現在1989年8月美國底特律召開的第11屆國際聯合人工智能學術會議上[1]。1996年,知識發現被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識發現是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對KDD的研究主要包括從數據庫的角度進行研究以強調知識發現的效率,從機器學習的角度進行研究以強調知識發現的有效性,從統計分析的角度進行研究以強調知識發現的正確性,從微觀經濟學的角度進行研究以強調知識發現的最大效用。KDD過程是多個步驟交互螺旋式上升的學習和總結過程[3],基本流程包括:
(1)限定學習領域,儲備預先知識、確定學習目標;
(2)聚焦目標數據集,選擇一個數據集或在多數據集的子集上聚焦;
(3)數據預處理,數據降噪或數據清洗;
(4)數據轉換;
(5)確定數據挖掘功能法則;
(6)獲得知識信息、運用知識成果并重新選定學習目標。
在創新的過程中,單單依靠顯性知識已經不足以支撐整個思維求異和技術創新的全流程。隨著數據量的爆炸式增長,傳統數據庫的檢索查詢已不能滿足信息社會的深層次需求,再加上傳統分析手段的落后,大量數據來不及整理、分析或利用就已“時過境遷”成為無效信息,而且被長期積壓在數據庫中浪費存儲資源。為了及時消解數據產生和數據理解之間的矛盾,還必須定期對數據進行深度挖掘,使得大量被隱藏的、有價值的信息得到有效利用。
(二)數據挖掘的理論探索
數據挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識發現過程的一個重要步驟。數據挖掘融合了機器學習、模式識別、數據庫技術、統計學理論、人工智能及信息管理系統等多門學科的最新成果。應用數據挖掘技術從大型數據庫中發現隱藏在其中的規律和有用信息,為管理層決策提供事實型數據和研究模式。
根據KDD的目標任務,數據挖掘任務可分為:分類或預測模型發現、數據總結與聚類發現、關聯規則發現、序列模式發現、相似模式發現、混沌模式發現、依賴關系或依賴模型發現、異常和趨勢發現等。而所要挖掘的對象則可以分為:關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及web等對象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機器、統計、神經網絡(Neural Network)、遺傳算法(Genetic Algorithm)、數據庫、近似推理和不確定性推理、基于證據理論和元模式、現代數學分析、粗糙集(Rough Set)、集成方法等方法[4]。
(三)小結
綜上,知識發現用于從大量數據中抽取規律信息,發現非預期或潛在的價值量,而數據挖掘作為知識發現的重要一環是與實踐應用緊密相連的,兩者不僅僅是對數據的簡單檢索調用,而是從數據集合中自動提取出隱含在數據中的關系和模式,進而對未來可能發生的行為進行預測,為決策者提供有力支持。
成績是學生在校學習期間對所學知識理解掌握情況和教師教學質量評價的原始記錄,對學校的教學管理和教學改革措施評價具有重要的參考價值[5]。成績管理是高校教學管理中的最為基礎性的一個環節,是根據教學目的和教學任務,
通過學生的實際量化考核分數來進行統計、查閱和分析的綜合性數據處理過程。該過程的科學與否,直接關系到教務管理的實際質量和教學工作的可持續發展,特別是在網絡化和信息化的新形勢下,該項工作被素質教育賦予更加深遠的現實意義。本文所指學科成績不僅限于學生的筆試成績,還包括了學生參加各種校內外實習和培訓,以及其他形式素質教育的量化數據。
(一)高校成績管理所面臨的新形勢
從宏觀上講,隨著國家高等教育普及工作的不斷推進,以及教育戰線“以人為本”理念的逐步深入,高校教務在成績管理這一環節上所面臨的任務顯得比以往任何時刻都更加繁重。
首先,院校擴建和學生擴招為學科成績管理模塊在數據容量上增加了壓力。近幾年,隨著一些高校教學資源的整合和擴充,許多高校設立了新校區、設置了新專業,反映在學生成績管理上則是成績數據的時空容量同時增長。每多出一個學生,從學籍材料到各年度學科數據再到圖形化成績資料都會相應增加,教師教務管理系統所要處理的信息量也會相應增加,這首先在量上增加了數據壓力。
同時,素質教育為學科成績管理如何更好地服務教師施教和學生學習提出了新的課題。素質教育是我國長期以來所推行的一項基本國策。學科成績是高校學生在校的唯一量化評價指標,如何通過這些數據來及時反映出學生的學習效果和心理需求、反映出教師隊伍的教學質量和教學改革進度,已經成為教務管理系統化的一個重要課題。
其次,教學管理模式改革為建立規范化的成績管理系統并進行深度信息挖掘提出迫切需求。當前許多高校都在積極推進教學管理制度改革,逐步以學分制和選課制替代原有的學年制和班級授課制度,這種模式的改革在提高學生的學習積極性的同時,無形之中也為成績管理工作帶來了一定難度,比如增加了課程設置的不確定性,成績管理不能再以自然班級為單位,而是必須以單個的學生或者學生組合為單位,使得成績管理更加復雜。
最后,網絡化和信息化的需求為傳統成績管理模式的轉型升級提出新的任務和方向。隨著學分制等改革進程的推進,學生成績管理系統的表單鏈路和字段設置都與傳統的數據庫有較大差異,如何及時處理這些數據并實現與其他系統的無縫鏈接,也是新時期高校成績管理的一大難題。
(二)應用知識發現提高教務管理水平的路徑探索
根據上述知識發現理論,首先將本系統研究的“學習”目標確定為“提取學生信息、提升教學質量、完善學科設置”三大定位。而研究所涉及的目標數據集則包括學生從高考到進入高校期間的與學習考核或實習成績相關的所有數據記錄。
在數據挖掘功能法則方面,采用“全流程式”和“切片式”挖掘方式,確保對每個學生入校后各個時期的成績數據都能監控和分析,而且能夠實現“點面結合”的分析模式。擬通過以下三個路徑達到上述目標:
1.繪制學生學習成長路線圖
高等教育階段是學生從接受知識到邁入社會工作的重要轉折點,也是學生個人性格形成和轉變的重要節點。這個過程中,學生的大部分時間在校內度過,此間學生的學習興趣轉移和情感波動情況,都會在學科成績上反映出來,學科成績不可替代地成為完整記錄和反映學生特長和成長情況的重要量化數據。從培養學生綜合能力的角度出發,學校要及時掌握學生成績出現明顯波動,或持續偏科等現象,利用學科成績等數據以連續的時間序列繪制出學生的學習成長路線圖。成長路線圖不單單可以供學校使用,也可以供學生家長全面了解學生在校的學習情況,還可以在學生畢業時候,形成一張富有多維度信息量的“立體成績單”供企業參考,以便企業更加全面地了解畢業生的特長和綜合素質。
2.構建教師教學質量評估體系
傳統的教師教學質量一般通過課堂授課和調查問卷的評價形式進行,這種方式會因為選取樣本的時間采樣點較少而無法對某個教師在較長時間周期內的教學質量進行全面評估,也不利于對教師的教學質量形成量化的評估數據。因此,可以通過借助考察學生成績的方式,從學生的學習成果反推得到教師的授課效果,從側面得到教學水平的衡量效果。這種方式尤其適用于高校公開課等參與學生較多的課程評價,而且能夠形成實時的直觀結果。
3.完善學校學科課程設置方案
高等教育的學科劃分和高等學校主要以學科為基礎的專業設置,是現代大學的立學之本,教學之范。它關系著人才培養的規劃和目標、教育資源的配置和協調、教育的質量和效益、學術的繁榮和發展以及高等教育與社會發展的協調與和諧等一系列重要方面[6]。在學分制和選修教育改革后,高校的課程設置變得更加靈活,設置方案也變得更加復雜。如何與時俱進來調整課程設置,也成為高校教務管理的一大課題。教學管理系統應該根據特定時期內學生的課程選修變化態勢和成績數據的變化情況,相應調整部分選修課程的設置,以滿足學生的興趣培養和社會需求。
知識發現的過程就是數據處理和分析應用的過程,本節將就如何進行學科成績數據挖掘的宏觀框架設計和軟件實現進行探討。
(一)利用知識發現理論進行學科成績數據挖掘的頂層設計
如圖1所示,首先對整個學校學科成績的不同數據源進行整合,包括對字段、內容的格式化,合并為單個的目標數據庫。再根據本次知識發現的主要目的,選擇核心數據源提取作為分析重點,根據不同的挖掘法則建立模型,并對隱含在數據中的信息進行分析預測,為供教務管理決策提供理論依據。

圖1 利用知識發現理論對學科成績數據進行挖掘的流程設計
(二)信息挖掘系統的軟件實現
為方便不同目的的用戶使用本系統,建議同時采用B/S和C/S的軟件架構實現信息查詢系統?;诰W頁的B/S架構可以方便校外用戶或企業通過電信網訪問系統,基于C/S架構的查詢系統可以用于校內管理用戶實現對數據的快速查詢操作,并實現數據的備份等操作。具體的實現路線如圖2所示:

圖2 學科信息挖掘系統的軟件實現
綜上所述,隨著高校管理和決策者對信息質量的要求不斷提升,傳統的靜態統計分析法已經難以適應需求,面對海量、多維而寶貴的學科成績如何做到去粗取精、充分利用已經成為高校教務管理朝著智能化、信息化發展的大方向。本文期望從知識發現和數據挖掘的基本理論出發,構建起一套能夠充分利用學科成績等數據的分析和處理系統,解決目前高校普遍存在的“信息數量與信息質量不對等”情況,并從系統的宏觀設計到軟件的框架搭建給出建議和意見,期望能對高校管理人員,特別是教務管理人員起到啟示作用。
[1]GRIGORIS ANTONIOU(希).語義網基礎教程[M].北京:機械工業出版社,2008.
[2]Fayyad U.From Data Mining to Knowledge Discovery in Databases[J].Ai Magazine,1996,17(3):37-54.
[3]邱曉輝.知識發現與數據挖掘分析[J].情報探索,2011 (1):99-101.
[4]毛國君.數據挖掘技術與關聯規則挖掘算法研究[D].北京工業大學,2003.
[5]李丹,許鑫,董亞楠.高校成績管理存在的問題及改革措施[J].河北聯合大學學報:醫學版,2013,15(1):126-127.
[6]紀寶成.中國大學學科專業設置研究[M].北京:中國人民大學出版社,2006.
責任編輯朱守鋰
天津農學院2014年度本科教育教學研究與改革項目“我校實施創新學分過程中的問題及對策的研究”(2014-B-18)。]