文益民,易新河,李憂喜 ,文博奚
(桂林電子科技大學 1.計算機與信息安全學院;2.現代教育技術中心,廣西 桂林 541004)
?
·項目論文·
高校人才培養全過程與信息技術深度融合中的數據挖掘
文益民1,2,易新河1,李憂喜1,文博奚1
(桂林電子科技大學1.計算機與信息安全學院;2.現代教育技術中心,廣西桂林541004)
摘要:針對當前我國高校對教育數據挖掘重視程度不夠,教育數據挖掘的應用范圍不廣,教育數據挖掘的研究成果還沒有得到很有效應用的現狀,以高校人才培養過程為線索,綜述了高校人才培養全過程的五個階段中的數據挖掘研究工作,并分析了數據挖掘對高校教育信息化的三個新要求。
關鍵詞:教育數據挖掘;大數據;人才培養
引言
維克托·邁爾-舍恩伯格和肯尼斯·庫克耶編寫的《大數據時代》提出大數據具有4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)[1]。目前大數據已得到各國學術界、政府機構和企業界的高度重視。國際著名學術期刊Nature和Science分別于2008年和2011年推出大數據專刊;美國于2012年啟動了大數據研究與發展計劃,提出“通過收集、處理龐大而復雜的數據信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創新步伐,強化美國國土安全,轉變教育和學習模式”;沃爾瑪利用語義數據進行文本分析、機器學習和同義詞挖掘等,使得在線購物完成率提升了10%-15%;PredPol公司利用大數據分析算法預測犯罪發生的幾率,可以精確到500平方英尺的范圍。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分別下降了33%和21%。大數據讓人清醒地認識到了數據的價值。
在教育領域也積累了大量數據[2],美國于2012年發布的《通過教育數據挖掘和學習分析促進教與學》介紹了美國國內大數據教育應用領域和案例及應用實施所面臨的挑戰;《新媒體聯盟地平線報告(2014高等教育版)》提出:教育范式正在向包含更多的在線學習、混合式學習和協作學習的方向轉移,“翻轉課堂”和“學習分析”一年內漸被采納。到目前為止,教育數據挖掘已經引起了國際學術界的高度重視,成立了國際教育數據挖掘協會,發起了國際教育數據挖掘會議,發表了多篇關于教育數據挖掘的綜述[3-9]和專著[10,11]。2013年中國高等教育學會院校研究分會專門舉辦了“院校研究數據分析的對象、內容和方法”研討會[12]。
我國《教育信息化十年發展規劃(2011-2020年)》提出:重點推進信息技術與高等教育的深度融合,促進教育內容、教學手段和方法現代化,創新人才培養、科研組織和社會服務模式,推動文化傳承創新,促進高等教育質量的全面提高。MOOC、SPOC及在線教育正在中國快速發展。這些都表明:信息技術日益成為高校人才培養過程中不可或缺的重要組成。數據挖掘是現代信息技術的一種,以發現數據中的知識為目的[13]。本文以高校人才培養全過程為線索,綜述數據挖掘在高校人才培養全過程中的種種應用,并分析數據挖掘給高校教育信息化帶來的新要求。本文的主要貢獻在于:從高校人才培養的角度對數據挖掘在高校人才培養過程中的應用提供了一個較完整的介紹,并分析了數據挖掘給高校教育信息化帶來的三個新要求,使得我們可以更好地從大系統的高度來進行高校人才培養與信息技術相融合的頂層設計。
一、高校人才培養全過程的內涵
高校人才培養是個系統工程。到目前為止,關于高校人才培養模式和人才培養全過程,學術界并沒有給出規范的定義。劉獻君等提出人才培養模式不僅僅關涉“教學”過程,更關涉“教育”過程,它涉及到了教育的全過程,遠遠超出教學的范疇……人才培養模式的創新,要樹立以學生為本的核心理念[14];鐘秉林提出人才培養模式改革是高等學校內涵建設的核心,深化高校人才培養模式改革需從如下方面著手:科學定位,明確人才培養目標和規格;加強專業建設和改革,建立科學的專業體系;優化課程體系和教學內容;重視能力培養;改革教學方法和教學手段;倡導教學科研融合;完善內部質量保障體系[15]。
參考以上理論,本文按照時間順序將高校人才培養全過程劃分為如下五個階段:人才培養方案設計階段、招生階段、學生在校學習與生活階段、學生就業階段以及校友跟蹤調查階段。人才培養方案設計階段包括:人才需求及需求標準設置、人才培養目標確定、課程設置與教學方法選擇。招生是高校人才培養工作的入口。《國際工程教育認證通用標準》提出學校要具有吸引優秀生源的制度和措施。招生階段包括:招生宣傳及新生招錄。學生在校學習與生活階段包括:專業選擇、課堂學習、第二課堂學習、參加考試、參與科研與創新創業活動、參加各種學科競賽、參加各種文化活動及在校消費。學生就業階段包括:學校人才供給信息發布、就業信息推送、學生就業單位選擇、學生創業及畢業生調查。校友跟蹤調查階段包括:校友調查和用人單位調查。在這五個階段中最關鍵的是學生在校生活與學習階段。
二、高校人才培養全過程中的數據挖掘
1.人才培養方案設計階段
專業人才培養方案是高校實施人才培養的綱領性文件。在這個階段中,對新專業建設而言,高校首先要從行業、企業及社會獲得專業人才需求的數量、發展趨勢、職位要求及專業聲譽等信息,然后要結合高等教育本身的規律、國家或者區域的發展規劃、學校開辦這個專業的基礎等去回答一個專業是否值得辦,是否能辦,進而設計專業的人才培養目標、畢業標準、課程設置及適用的教學方法等。對于已有專業而言,則需要利用這些信息對專業人才培養方案進行調整。
當前,用人單位一般都在招聘網站上發布各類職位招聘信息,這些信息可為高校專業人才培養方案設計提供豐富的基礎數據。Carlson等利用信息抽取技術從招聘網站提取職位名稱、工作地點、職位類型、職位提供者、職位要求、職位發布時間等[16];王靜等提出利用樹型結構分層條件隨機從智聯招聘、中國人才招聘網和中國英才網提取招聘網頁中的招聘單位名稱、職位名稱、職位描述、薪金和職位要求等信息[17];廖樂健等利用本體與規則相結合的方法,消解招聘網頁中詞的歧義,以提取更準確的招聘信息[18];王西鋒等利用中文命名實體的識別方法提取招聘單位名稱、職位名稱[19];俞琰利用隱馬爾科夫方法從招聘網站提取招聘職位名稱、專業名稱、招聘人數及職位對年齡、性別、工齡、專業、學歷及技能的要求[20]。
從網頁中抽取到相關數據后,便可以利用數據挖掘算法進行深入分析,為專業人才培養方案設計提供參考。鐘曉旭等[21]利用從招聘網站獲取的招聘數據分析職位與學歷的關系、職位與專業的關系;本文作者則利用從招聘網站上爬取到的工作地點、招聘人數、學歷、職位職責及職位要求等數據,根據自建的課程名稱庫,分析課程之間的關聯關系,分析職位需求的熱點區域,還進行職位聚類以設計針對一類職位的課程,為專業的課程設置提供依據。但是,到目前為止,這方面的研究工作還不多。
2.招生階段
招生階段的核心工作是完成招錄指標任務,招錄到質量高的新生。招生宣傳是宣傳學校,吸引考生的重要措施。任湘郴等以大一學生為調查對象,發放調查問卷,主要涉及高考志愿填報及錄取期間對高考的意義、高校的認知、宣傳渠道的偏好、宣傳方式方法的選擇、宣傳效果的主觀認定等14個項目,對其進行主成份分析,發現如下因素會較大地影響招生宣傳的效果:考生對高等教育及高校的認知和價值判斷,獲取信息的有效渠道,考生在獲取信息時對其呈現方式的偏好及考生對高校宣傳活動的感受和認可情況[22]。
根據第35次中國互聯網絡發展狀況統計報告,截至2014年12月,我國網民10-19歲和40-49歲年齡段分別達到22.8%和12.3%。這說明高校招生網站已經成為高考考生和其父母收集高校及其專業信息的主要渠道之一。費志勇等提出了基于本體的招生信息揭示方法,通過分面組配來大大減少考生或考生家長從招生網站上獲取相關信息的步驟,以提高招生宣傳信息揭示的效率[23]。網站分析是通過網站獲取用戶信息的重要手段。曹梅等利用網站的連接特征指標、流量指標等網絡計量指標,分析31個省級教育門戶網站的影響力[24];張勇進等提出通過用戶的網絡屬性、社會屬性和注冊內容等分析判斷用戶需求被滿足的程度,進而識別用戶公共需求[25]。如果能對高校招生網站進行類似的分析,就能更準確地了解用戶需求,從而決定招生宣傳及招生指標投放的重點區域,以有效提升高校招生網站的影響力和用戶體驗感。
楊悅等提出利用數據挖掘方法可進行考生成績分析、錄取預測、學生綜合素質分類、招生計劃分配及考生專業需求變化發現等[26];侯亞榮等利用高考成績分析考生語文、數學、外語、綜合這四門課程及課程成績等級之間的關聯關系[27];何小明等分析了考生填報的專業之間的關聯性,以用于指導志愿填報[28];俸世洲等利用關聯規則分析工具分析考生填報專業之間的關聯關系,以優化高考指標投放分配[29];孫曉瑩利用河南某普通高校歷年的招生數據,對其重構后使用支持向量機預測招生人數[30];李敬文等利用學生的高考錄取批次、生源地、對學校的喜歡程度、錄取省控制線、招生計劃及上線一志愿報考人數,利用模糊灰色模型預測高校的高考錄取分數線[31];劉思宏等使用學生的高考成績、性別、戶口類別、考生類別、地區、專業和錄取批次,利用決策樹方法分析影響學生報到的因素,以預測學生是否會來校報到[32]。
3.學生在校學習與生活階段
學生在校學習與生活階段是高校人才培養的關鍵階段。利用這階段產生的數據可以進行:學習內容選擇分析、線上學習行為分析、線下學習行為分析、學習狀況分析與評價及在校消費行為分析等。
學習內容選擇分析是指根據學生自身特點、學習目標、學習環境及歷史學習行為分析學生的學習特點,并根據此特點向學生推薦課程或者學習路徑,以提高學習效率和學習效果。周麗娟等對課程進行聚類,以構建無缺失的課程評價矩陣,在此基礎上根據學生對相似課程的評分預測學生的興趣愛好,為學生提供個性化的課程推薦[33];沈苗等利用學生基本信息對學生進行分類和對課程進行加權[34],潘偉利用學生與課程的交互行為對學生進行聚類[35],然后利用協同過濾算法實施課程推薦;Parameswaran等研究了選課系統對學生選課有約束的情形下對課程的協同過濾推薦[36]。Chen考慮了學習者的水平、課程的難易程度和學習內容的連續性,提出了個性化學習路徑推薦系統。該系統可根據預先測試的學習者個人的不正確測試反應生成相應的學習路徑[37];Durand等利用學習者的學習對象、學習領域、學習路徑的最大長度、學習者的成績、學習者當前的能力、期望達到的能力水平及學習方式等構造了基于馬爾科夫模型的學習推薦系統來推薦學習路徑[38];程巖利用學習者的學習風格與學習水平、學習對象的知識表達特征與難度系數,以及各學習者以往的學習路徑,利用蟻群算法給學習者推薦個性化學習路徑[39]。
線上學習行為包括學生使用和選擇各類數字化教學資源的行為,在學習過程中開展交流的各種行為及學習工具的使用行為,甚至包括學生在進行線上學習時的情感反應等。彭文輝等將線上學習行為分為信息檢索行為、信息加工行為、信息發布行為及溝通交流等四種,以及高、中、底三個層次[40]。線上學習行為分析與學習分析關系密切。世界學習分析研究會(SoLAR)認為學習分析是對學生學習過程和學習環境信息的測量、收集、分析及報告,以更好地理解并優化學生學習過程和學習環境。Ferguson對到2012年為止的學習分析研究成果進行了綜述[41];傅鋼善等采集了在校學生的學習時間跨度、學習總時長、學習次數、在線學習時長、重復學習率、討論交流、學習筆記及接收短信數量等八種學習行為特征,利用數據挖掘方法和統計方法分析其與學習效果之間的關系[42];田娜等采集了學生完成的課時、作業分數、教學材料的瀏覽次數、登陸次數、頁面瀏覽時間、發帖回帖的次數等數據,分析這些學習行為與課程成績之間的關系[43];魏順平采集了學生在線學習時登陸學習平臺的次數、各教學資源的瀏覽情況來分析學習平臺各模塊之間的訪問跳轉及學生學習群體特征[44];蔣卓軒等采集了學生選修北京大學在Coursera上開設的6門慕課的學習行為數據,對學習者的成績進行預測[45];Thai-Nghe等使用學生在導教系統中產生的數據,利用矩陣分解模型來預測學生掌握了多少知識,是否能完成練習[46];Liu等提出了一個能分析學生閱讀文獻時的信息需求,并能給學生推薦視頻、PPT、程序源代碼等教學資源的算法[47];黎孟雄等采集學生對教學資源的復制、下載、打印、瀏覽時間等行為后進行用戶模糊聚類,以實現對教學資源的推薦[48]。
線下學習行為是指學生不在在線學習平臺上展開的學習行為。這些學習行為包括學生的圖書借閱行為、在教室里的各類學習行為,比如舉手回答問題、抬頭看黑板、低頭閱讀學習內容等,還包括學生應用所學知識解決實際問題時產生的行為。舒忠梅等采用回歸分析方法得到關于學生學習滿意度的20個獨立變量:學生生源情況、學校學習資源提供、學生學習投入、校園文化、學生學習成果等,然后使用決策樹方法分析學生的學習滿意度與各獨立變量之間的關系,為學校改進教學工作提高學生學習滿意度提供參考[49]。在以上提及的線下學習行為中,除了圖書借閱行為便于采集以外,其他目前還不便于采集。學生的圖書借閱行為能反映學生的閱讀興趣、學習態度和職業追求,但目前這方面的研究成果尚少。錢強等使用借閱信息,如:讀者證號、控制號、條形碼、借出時刻、應還時刻、實還時刻、續借次數及圖書信息,使用SOM算法將學生聚類成九類,發現各類學生在借閱內容、借閱次數上有著較明顯的差別[50]。根據學生的圖書借閱行為,可以分析學生的閱讀偏好,從而進行圖書推薦。董坤提取讀者借閱書目、學科專業、學歷、角色等信息計算相似讀者,使用協同過濾算法進行圖書推薦[51];李樹青等利用大學生在圖書館的圖書借閱數據構造二分網絡,以此為基礎設計了一種測度圖書可推薦質量的迭代算法,結合圖書類別目錄層次、標題語義信息的提取處理方法、基于加權XML模型的用戶個性化模式表達方法及其權值擴散策略,提出了三種圖書館個性化圖書推薦算法[52];付沙、田元等根據讀者借閱圖書記錄,利用關聯規則挖掘方法進行圖書的關聯分析,以實現圖書推薦[53,54];李克潮等結合讀者專業、性別、年級及借還時間間隔計算讀者之間基于云的相似度,向讀者推薦有復本的圖書[55]。
學習狀況分析與評價包括:考試成績分析、學業預警及生源質量分析等。考試是當前高校評價學生學習效果的重要手段之一,分析影響考試成績的因素是考試分析的主要任務。武森等根據學生若干門課程的成績將學生聚類,分析各類學生的強勢課程和弱勢課程,并分析選擇專業之后各類學生的強勢課程和弱勢課程的變化[56];丁智斌等利用含學號、性別、英語成績、社會活動情況、文體活動情況、平均成績、名次等這些數據庫字段分析影響高校學生學習成績的因素[57]。學業預警是指根據學生前一階段的表現預測學生是否會輟學。學業預警使得教師能盡早實施干預,促使學生順利完成學業。Bayer等通過電子郵件和論壇產生的學生社會行為數據,構建一個社交圖來預測學生的輟學和上學失敗率[58];萬星火等針對高校招生規模擴大,學生整體素質下滑,學業完成情況惡化等教育問題,選擇普通話成績、計算機二級成績、英語四級成績、績點、選修課、已修學分、累積不及格課程門數及累積所欠學分等數據,利用核主成分分析方法建立了大學生學業預警模型,實現對大學生學業的動態定性預警與定量預警[59]。利用學生進入大學后的成績,結合高考數據可進行生源質量分析。鄧溪瑤等對K大學畢業的16320名本科生的四年GPA與其省份來源數據進行分析,構建了EI指數以評測K大學學生群體在地域維度上的學業表現差異,以科學合理地確定分省招生計劃[60];邢濤采集了新生入學數據庫和學生成績數據庫(含競賽類和科研類成績)中的相關數據,利用小波閾值聚類算法對學生進行聚類,在聚類后進行關聯分析,從而評價生源質量[61]。
學生消費信息能為高校人才培養提供更全面的信息。從學生消費中可以了解學生的消費習慣、生活價值觀及課余時間使用等信息。蔡建偉等采集了家庭月均收入、每月消費總支出、食物支出、衣著支出、娛樂支出、學習支出和通訊支出等在校消費數據,對大學生在校消費水平與消費結構進行量化分析,采用聚類分析方法將三類家庭的大學生分成高、中、低三類消費水平,并分析各類學生的消費特征[62]。當前很多高校都裝備了一卡通系統,然而到目前為止還基本沒有看到對一卡通數據進行挖掘分析的研究成果。
4.學生就業階段
這個階段的主要工作是促進學生就業,為學生就業選擇提供充足信息,并對畢業生進行調查為改進人才培養方案提供參考。薛瑞峰等以師范學院大學生的專業綜合成績、計算機水平、學生是否就業及就業單位的性質等數據分析學生的就業去向與其成績之間的關系[63];張曉萍等利用高校就業信息數據表中的數據,采用量化關聯方法分析畢業生在校表現與其就業質量之間的關系[64];楊克玉等利用院系名稱、專業名稱、職業名稱、工作城市名稱、獲得第一份工作的渠道等數據分析學生專業與職業及職業與職業之間的關聯關系[65];樊春蘭等采集了畢業生信息及學生是否就業等數據,訓練神經網絡以實現對成功就業的預測[66];劉玉華等采集學生個人信息、從事行業及從事崗位、企業信息及招聘崗位等數據,進行聚類分析和關聯分析,以實現面向畢業生的就業信息推薦和面向企業的人才信息推薦[67]。畢業生調查可為學校進一步改進人才培養方案提供有效的參考,但目前還未見到相關研究成果。
5.校友跟蹤調查階段
校友資源的綜合開發與研究已成為高等教育研究的一個熱門話題。賀美英等提出校友畢業后的工作經歷和體驗,對學校人才培養和教學改革起著重要的推動作用[68];李歡等認為從校友那里獲得的反饋可為更新人才培養方案提供非常重要的參考[69]。范靜波等利用回歸分析方法進行實證研究發現高等教育生源質量和教育質量確實對工作收入存在顯著的影響[70];李永山通過對校友的問卷調查,發現社會實踐、學習動機、校風學風、社會環境、個性特征、發展機遇等六種要素對于大學生成長成才具有非常重要的作用[71];鞏建閩等通過設計調查問卷獲得校友對專業能力和職業素質對其從事行業的重要性、校友對剛就業學生的專業能力和職業素質的評價、校友對在校期間開設的一些主要課程的評價及校友個人信息,分析了大學開設的課程對“繼續深造學生”和“直接工作學生”的重要程度,對畢業生應該具備的能力進行了聚類分析[72]。
當前我國高校教育信息化已經取得巨大成果,這為利用數據挖掘技術對高校人才培養進行深入分析提供了很好的基礎。但從以上分析來看還存在不少問題:第一,對數據挖掘的重視程度不夠。主要體現在高校對數據挖掘在人才培養過程中的支持作用認識不到位。比如,各高校已經積累了大量的教學管理數據,但當前這些數據主要用于記錄學生的學習過程,很少對其進行深入分析后反饋學生或者教師。另外,關于高校人才培養數據挖掘的研究成果很少發表在高水平的學術刊物上,哪怕是教育類的重要刊物也較少發表這方面的論文。第二,針對人才培養數據挖掘的研究與應用不平衡。目前高校對學生在校學習與生活階段進行數據挖掘的研究工作較多,而對人才培養全過程中其他階段的研究較少。第三,數據挖掘的研究成果對高校人才培養的貢獻還不夠大。目前主要停留在研究階段,實實在在地利用這些研究成果去指導、改革高校人才培養工作的成果還很少。
三、數據挖掘對高校教育信息化的新要求
從以上文獻綜述可以知道,數據挖掘適用于高校人才培養各個階段中的數據分析,可讓高校更準確地了解學生或更好地為學生提供各項服務,大學管理要形成用數據“說話”的理性決策思維[73]。但是要充分發揮數據挖掘在高校人才培養中的作用,還有賴于高校教育信息化水平質的提升。
1.提升高校人才培養全過程中各階段的數據采集能力
要進行教育數據挖掘,首先需要數據。因此,高校需以人才培養全過程為主線,切實構建各階段的數據采集能力。除了要繼續完善已建立的各類數據庫系統外,高校還要重視開發各類數據采集軟件,以從現有的服務器日志系統、一卡通系統、移動設備后臺系統、校園監控系統、招生招聘網站、網絡教學系統、各類教學軟件等提取人才培養分析所需的數據。比如:招生網站要有采集用戶瀏覽行為的功能,課堂教學質量監控系統要有采集學習與教學行為數據的功能。另外,對一些不便于使用計算機軟件采集的數據要做好抽樣調查。這就要求高校在推進教育信息化過程中要有良好的數據素養與數據采集意識,在開發各類教育教學信息化平臺時對于數據采集予以充分重視。另外,還需特別重視數據的積累,數據的歷史積累能夠為很多人才培養相關問題的分析帶來很大好處。
2.詳細設計對高校人才培養全過程實施數據挖掘所需的各類數據
要以高等教育學原理為指導,詳細設計以人才培養為中心的數據體系及數據標準,以實現對高校人才培養全過程的“全息”測量。這里的“全息”要求在縱向上覆蓋大學生接受教育的各階段,在橫向上覆蓋大學生在校學習、生活的各方面。另外,采集的數據在粒度上要有層次。比如,成績管理系統不能只存儲課程考試總成績,還需在更細的粒度上存儲學生各道測試題的得分,甚至還要記錄與各道測試題相關的知識點;視頻教學系統不能只簡單記錄學生看了多少次,還需詳細記錄學生觀看視頻時的倒退次數及倒退發生的時間等行為,等等。人才培養的復雜性對這種“全息”數據提出了迫切需求。各種移動應用為采集人才培養“全息”數據提供了有力且有效的技術支持;國務院《促進大數據發展行動綱要》(國發(2015)50號)提出“要實現學生學籍檔案在不同教育階段的縱向貫通”,為采集人才培養“全息”數據也提供了政策支持。
3.創新機制促進高校人才培養全過程數據的校內共享和校際共享
由于管理體制的原因,當前要想獲得高校內部各部門關于人才培養的數據不是件容易的事,至于要實現校際之間的數據共享更是難事。然而,不這么做就無法通過數據挖掘從數據中獲得可信度高的規律與模式,也無法有效地驗證這些規律與模式。因此,教育行政管理部門和各高校應該打破私心,積極創新促進高校人才培養全過程數據共享的機制。比如:通過制定校內或者校際的數據管理辦法,對數據的采集、使用、成果發布及應用做出明確規定。同時,還需加強教育教學數據標準的研制工作。2012年教育部發布了7個教育管理信息行業標準,4個教育資源建設方面的標準。目前與學習者、虛擬實驗與學習、多媒體教學環境、在線課程等相關的數據標準正在研究或者測試中。但這些標準中所描述的數據其實還不足以覆蓋高校人才培養全過程的各個階段,還不能覆蓋各個階段的縱深,還不能完全滿足新一代信息技術條件下開展教育教學活動的要求。
(責任編輯:梁京章)
(感謝華中科技大學教育科學研究院張俊超副教授對本文提出的寶貴意見!)
參考文獻:
[1]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶. 大數據時代[M]. 杭州:浙江人民出版社,2013.
[2]顧小清,林仕麗,袁海軍. 教育數據30年:從CMI 到DDDM[J].電化教育研究,2010(9): 55-63.
[3]BAKER R S J D,YACEF K. The state of educational data mining in 2009: A review and future vision[J]. Journal of educational data mining,2009,1(1): 1-15.
[4]SHU-HSIEN L,PEI-HUI C,PEI-YUAN H. Data mining techniques and applications-a decade review from 2000 to 2011[J]. Expert Systems with Applications,2012,39(12): 11303-11311.
[5]ROMERO C,VENTURA S. Educational data mining: a review of the state of the art[J]. IEEE Transaction on systems,man,and cybernetics,part C: applications and reviews,2010,40(6):601-618.
[6]ROMERO C,VENTURA S. Educational data mining: a survey from 1995 to 2005[J]. Expert Systems with Applications,2007,33(1): 135-146.
[7]ALEJANDRO P A. Educational data mining: A survey and a data mining-based analysis of recent works[J]. Expert Systems with Applications,2014,41(4): 1432-1463.
[8]李婷,傅鋼善. 國內外教育數據挖掘研究現狀及趨勢分析[J]. 現代教育技術,2010,20(10): 21-25.
[9]周慶,牟超,楊丹.教育數據挖掘研究進展綜述[J].軟件學報,2015,26(11):3026-3042.
[10]ROMERO C,VENTURA S,PECHENIZKIY M,et al. Handbook of Educational Data Mining[M]. Ohio,CRC Press,2010.
[11]葛道凱,張少剛,魏順平.教育數據挖掘:方法與應用[M]. 北京: 教育科學出版社,2012.
[12]張俊超. 院校研究如何通過數據分析為大學管理決策服務[J].高等教育研究,2013,34(8):105-109.
[13]韓家煒,KAMBER M,裴健. 數據挖掘:概念與技術[M].北京:機械工業出版社,2012.
[14]劉獻君,吳洪富.人才培養模式改革的內涵、制約與出路[J].高等教育研究,2009(12):10-13.
[15]鐘秉林. 人才培養模式改革是高等學校內涵建設的核心[J]. 高等教育研究,2013,34(11): 71-76.
[16]CARLSON A,SCHAFER C. Bootstrapping Information Extraction from Semi-structured Web Pages[C]//the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases,Antwerp ,2008:195-210.
[17]王靜,劉志鏡. 基于概率模型的Web信息抽取[J]. 模式識別與人工智能,2010,23(6): 847-855.
[18]廖樂健,曹元大,李新穎. 基于Ontology的信息抽取[J]. 計算機工程與應用,2002(23):109-113.
[19]王西鋒,張曉孿. Web招聘信息抽取中命名實體識別的研究[J]. 計算機與數字工程,2012,40(5): 34-37.
[20]俞琰. 基于隱馬爾可夫模型的招聘網絡信息抽取[J]. 北京電子科技學院學報,2008,16(4): 93-98.
[21]鐘曉旭,胡學鋼. 基于數據挖掘的Web 招聘信息相關性分析[J]. 安徽建筑工業學院學報(自然科學版),2010,18(4): 93-96.
[22]任湘郴,何志祥,蔣陽飛,等.高教改革視野下招生宣傳績效評價與解讀[J]. 大學教育科學,2013(6): 44-47.
[23]費志勇,趙新力. 基于本體驅動的高校網站招生信息分面組配揭示[J]. 圖書情報工作,2008,52(12): 81-84.
[24]曹梅,閔宇鋒. 教育網站影響力評價的實證研究——基于我國31個省級教育門戶網站的網絡計量[J].開放教育研究,2011,17(6):104-110.
[25]張勇進,楊道玲. 基于用戶體驗的政府網站優化:精準識別用戶需求[J].電子政務,2012(8): 19-27.
[26]楊悅,郭大勇.數據挖掘在高校招生工作中的應用前景[J].教育科學,2007,23(5):66-68.
[27]侯亞榮,萬雅奇,張書杰. 教育考試數據挖掘的研究與實現[J]. 計算機工程與應用,2008,44( 16): 132-134.
[28]何小明,張自力,肖燦,等. 基于OLAP與數據挖掘的高考招生數據分析[J]. 計算機科學,2012,39(6):175-178.
[29]俸世洲,周尚波. 關聯規則在獨立學院招生決策中的應用[J].計算機科學與工程,2012,34(1): 119-123.
[30]孫曉瑩,郭飛燕. 數據挖掘在高校招生預測中的應用研究[J].計算機仿真,2012,29(4):387-391.
[31]李敬文,陳志鵬,李宜義,等. 組合預測模型在高考數據預測中的應用研究[J]. 計算機工程與應用,2014,50(7): 259-262.
[32]劉思宏,余飛. 決策樹技術在高校招生決策中的研究與應用[J]. 齊齊哈爾大學學報,2014,30(5): 24-28.
[33]周麗娟,徐明升,張研研,等.基于協同過濾的課程推薦模型[J].計算機應用研究,2010,27(4):1315-1318.
[34]沈苗,來天平,王素美,等. 北京大學課程推薦引擎的設計和實現[J]. 智能系統學報,2015,10(3): 1-6.
[35]潘偉. 基于協同過濾技術的個性化課程推薦系統研究[J].現代情報,2009,29(5): 193-196.
[36]PARAMESWARAN A,VENETIS P,GARCIA-MOLINA H. Recommendation systems with complex constraints: A course recommendation perspective[J]. ACM Transactions on Information Systems,2011,29(4):20-33.
[37]CHEN C M.Intelligent web-based learning system with personalized learning path guidance[J].Computers & Education,2008(51):787-814.
[38]DURAND G,LAPLANTE F,KOP R. A learning design recommendation system based on Markov decision processes[C]//The the 17th ACM SIGKDD Conference on Knowledge Discovery and Data Mining workshop,San Diego,2011: 69-76.
[39]程巖.在線學習中基于群體智能的學習路徑推薦方法[J].系統管理學報.2011,20(2):232-237.
[40]彭文輝,楊宗凱,黃克斌. 網絡學習行為分析及其模型研究[J]. 中國電化教育,2006(10):31-35.
[41]FERGUSON R. Learning analytics:drivers,developments and challenges[J]. International Journal of Technology Enhanced Learning ,2012,4(5/6),304-317.
[42]傅鋼善,王改花.基于數據挖掘的網絡學習行為與學習效果研究[J].電化教育研究,2014(9):53-57.
[43]田娜,陳明選.網絡教學平臺學生學習行為聚類分析[J].中國遠程教育,2014(11):38-41.
[44]魏順平.在線學習行為特點及其影響因素分析研究[J]. 開放教育研究,2012,18(4):81-90.
[45]蔣卓軒,張巖,李曉明.基于MOOC數據的學習行為分析與預測[J].計算機研究與發展,2015,52(3):614-628.
[46]THAI-NGHE N,HORVáTH T,SCHMIDT-THIEME L. Factorization models for forecasting student performance[C]//The 4th international conference on educational data mining ,Eindhoven,2011: 11-20.
[47]LIU X Z,JIANG Z R,GAO L C. Scientific Information Understanding via Open Educational Resources (OER)[C]// The 38th Annual ACM SIGIR Conference,Santiago,2015:654-654.
[48]黎孟雄,郭鵬飛. 基于模糊聚類的教學資源自適應推薦研究[J]. 中國遠程教育,2012(7):89-92.
[49]舒忠梅,徐曉東. 學習分析視域下的大學生滿意度教育數據挖掘機分析[J]. 電化教育研究,2014(5):39-43.
[50]錢強,李英. 數據挖掘技術在圖書館讀者分析中的應用[J].圖書情報工作,2009(6):121-124.
[51]董坤.基于協同過濾算法的高校圖書館圖書推薦系統研究[J].現代圖書情報技術,2011(11):44-47.
[52]李樹青,徐俠許,敏佳.基于讀者借閱二分網絡的圖書可推薦質量測度方法及個性化圖書推薦服務[J].中國圖書館學報,2013,39(205):83-95.
[53]付沙. 基于序列模式挖掘的圖書館用戶借閱行為分析[J]. 情報理論與實踐,2014,37(6): 103-106.
[54]田元,李佳,宋緯華. 一種基于用戶層次信息的關聯規則圖書推薦系統[J]. 現代情報,2010,30(12):73-76.
[55]李克潮,藍冬梅,凌霄娥. 云模型和多特征的高校讀者借閱偏好不確定性圖書推薦研究[J]. 現代圖書情報技術,2013(5): 54-58.
[56]武森,俞曉莉,倪宇,等. 數據挖掘中的聚類技術在學生成績分析中的應用[J].中國管理信息化,2009,12(15): 45-47.
[57]丁智斌,袁方,董賀偉. 數據挖掘在高校學生學習成績分析中的應用[J].計算機工程與設計,2006,27(4):590-592.
[58]BAYER J,BYDZOVSKá H,GéRYK J,et al. Predicting drop-out from social behaviour of students[C]//The 5th international conference on educational data mining,Chania,2012: 103-109.
[59]萬星火,鄭俊玲,金永超.基于KPCA 的高校學業預警模型及其應用[J].數學理論與應用,2014,33(4):99-104.
[60]鄧溪瑤,喬天一,于曉磊,等. 高校分省招生計劃的效率判據——學生群體學業表現地域差異大數據研究[J]. 中國高教研究,2014(12):23-27.
[61]邢濤. 小波聚類算法在本科招生生源質量分析中的應用[J]. 南京航空航天大學學報,2009,41(6):823-827.
[62]蔡建偉,曾生達,修德茂,等.大學生消費水平與消費結構分析[J].經濟視角,2012(5):106-108.
[63]薛瑞峰,彭墩陸. 數據挖掘技術在本科畢業生就業指導中的應用研究[J]. 中國管理信息化,2013,16(3): 108-109.
[64]張曉萍,朱玉全,陳耿.量化關聯規則在高校就業信息數據中的應用[J].計算機技術與發展,2013,23(11):199-212.
[65]楊克玉,劉斌. 數據挖掘技術在高職畢業生跟蹤調查中的應用[J]. 電腦知識與技術,2014,10(31): 7256-7259.
[66]樊春蘭,高殿軍. BP 神經網絡的大學畢業生就業信息分析——以遼寧工程技術大學為例[J]. 遼寧工程技術大學學報(社會科學版),2011,13(3):272-274.
[67]劉玉華,陳建國,張春燕. 基于數據挖掘的國內大學生就業信息雙向推薦系統[J]. 沈陽大學學報( 自然科學版),2015,27(3):226-232.
[68]賀美英,郭樑,錢錫康. 對高校校友資源的再認識[J]. 清華大學教育研究,2004,25(6): 78-82.
[69]李歡,孫建三,袁本濤. 基于校友數據庫的高校人才培養質量控制系統模型[J].高等工程教育研究,2011(2):82-86.
[70]范靜波. 高等教育生源質量與教育質量對個人收入的影響[J]. 教育科學,2013,29(3): 71-75.
[71]李永山. 論影響大學生成長成才的因素[J]. 合肥工業大學學報(社會科學版),2009,23(3): 6-9.
[72]鞏建閩,蕭蓓蕾,董文娜.基于校友反饋的人才培養質量問卷及案例分析[J]. 高等工程教育研究,2012(5): 121-126.
[73]張俊超.大數據時代的院校研究與大學管理[J].高等工程教育研究,2014(1):128-135.
Data Mining in the Process of In-depth Integration of ICT with Talent Training in Chinese Universities
WEN Yi-min1,2,YI Xin-he2,LI You-xi,WEN Bo-xi1
(1.School of Computer Science and Information Security;2.Research Center of Modern Education Technology,Guilin University of Electronic Technology,Guilin 541004,China)
Abstract:For the reasons of paying less attention to educational data mining(EDM),limited application of EDM,and being not fully used of the achievements of EDM in Chinese universities,we took the process of talent training as indices to survey the research works of educational data mining in the five stages in the process of talent training,and proposed three new problems which Chinese universities should to consider during the development of education informationization.
Key Words:educational data mining;big data;talent training
中圖分類號:G642
文獻標識碼:A
文章編號:1671-9719(2016)4-0018-07
作者簡介:文益民(1969-),男,教授,博士,碩士生導師,現代教育技術中心副主任,研究方向為教育數據挖掘。
收稿日期:2016-01-20修稿日期:2016-02-19
基金項目:中國高教學會教育信息化專項課題“利益相關者理論視域下全日制本科在線課程建設研究”(2014XXH1205YB);廣西高等教育教學改革工程項目“全日制本科在線課程建設研究與實現”(2014JGZ116);教育部在線教育研究基金(全通教育)課題“全日制本科SPOC教學模式創新及關鍵支撐技術研究”(2016YB155)。