丁國勇
(南京審計大學 教務處,江蘇 南京 211815)
高校進行內涵式發展,就是要推進內部治理體系現代化和治理能力現代化,進一步提升辦學水平和教育質量[1]。21世紀以來,現代信息技術的快速發展和廣泛應用給高等教育帶來了教學模式、管理手段、思維方式的變革[2]。以Coursera、edX、Udacity、愛課程網等為代表的國內外在線課程平臺得到全面應用,不僅推進了教學模式的全面改革,也給我們帶來了包含與教師、學生、教學過程相關的海量教育數據[3];同時,高校教育管理信息化手段的不斷更新、智慧校園建設以及各類教育教學管理信息系統的應用,也產生了類型多樣、內容豐富的教育數據。在高校治理的背景下,我們應當通過對這些海量教育數據的挖掘與分析,尋找出高校教育教學一般規律,促進高校決策科學化,推動利益相關者參與高校共同治理,實現教育治理現代化。
教育數據挖掘是指綜合運用統計學、機器學習和數據挖掘的技術對教育數據進行處理、分析和數據建模的應用領域以及方法與工具[4]。高校治理現代化迫切需要借助教育數據挖掘的手段,使高校的治理體系立根于可靠的、可信的、科學的數據基礎之上。
高校治理現代化是指通過民主化制度化的方式形成內外部利益相關者共同參與高校治理的體系,提升處理各種事務和關系的能力和水平,確保高校整體的協調性與效率性[2]。教育信息化是實現高校治理現代化的必由之路,為形成“教育共識”、推動“教育治理”提供了真實性、正當性和真誠性前提[5]。教育數據是教育信息化進程中的主要產物,各利益相關者承擔著教育數據的不同角色:生產者、管理者、提供者、使用者等,以教育數據為媒介,實現協同共治。
在高校治理體系趨于完善、穩定的前提下,高校治理能力的提升將成為實現治理現代化的關鍵要素。高校治理能力提升的路徑之一就是通過對于教育數據的充分和高效率的挖掘與分析,為高校多元治理主體提供準確的信息,更好地服務于高校教學質量的提升和學生的持續發展。因此,在推動高校治理現代化建設的背景下,教育數據挖掘的應用將進入蓬勃發展期,步入“新時代”。
教育數據產生于教育主體、教育客體和教育活動,覆蓋教育全過程,是對教育世界的抽象與一般化,是教育數據挖掘的“原料”和“礦石”。高校中各種教學管理平臺產生的多樣態復雜化的數據,已經具備了大數據的基本特征。
高校教育大數據主要包括四種類型:基礎數據、狀態數據、資源數據和行為數據。基礎數據包括保障教育活動的各類基礎信息,狀態數據包括教育裝備、教育環境、教育業務的運行狀態,資源數據包括教育過程中建設生成的教學資源,行為數據包括教學活動中教師和學生的教學行為數據等[6]。高校教育大數據來源于各種教育管理信息系統、在線課程平臺等,既有存儲于數據庫中的結構化數據,也有文本、音視頻等非結構化數據,一所萬名學生規模的高校一年中產生的數據大概在100T(1T=1000G)左右。如此來源復雜、形式多樣、規模巨大的高校教育大數據是一個巨型的“金礦”,教育數據挖掘應用的過程就是從“金礦”中挖掘中“金子”的過程。
教育數據挖掘應用的順利開展離不開相關的學術研究以及專業的技術、算法和工具的設計與開發。國際學術組織對于教育數據挖掘的發展功不可沒,從2000年成立第一個與教育數據挖掘相關的工作組到2011年正式成立了“國際教育數據挖掘學會”,推動了研究者之間的學術交流,相關研究成果不斷呈現,比如羅米歐(Romero)等人編著《教育數據挖掘工作手冊》、國際教育數據挖掘雜志等[7]。在國際教育數據挖掘學會的推動下,2008年至2017年在美國、加拿大、中國等國家連續召開了十屆教育數據挖掘國際會議(International Conference on Educational Data Mining),匯集了各國學者的研究論文和研究報告700余篇,關于教育數據挖掘的研究已經產生了數據分析及可視化、為教育者提供反饋、為學生提供推薦、預測學生成績、學生建模、監測異常學生行為、學生分組、社會網絡分析、概念圖開發、課件設計、計劃與安排等多個分支研究和應用領域[8]。
由于教育數據的復雜性,教育數據挖掘需要在不同的階段應用不同的工具來解決問題,這其中包括數據挖掘的通用工具以及進行教育數據挖掘的專門工具。通用工具包括SPSS Statistics、SPSS Modeler、RapidMiner、Weka、KNIME、Orange、KEEL等,專用工具包括用于文本挖掘的LIWC、WMatrix、Coh-Metrix等、用于社會網絡分析的Gephi、EgoNet、NodeXL、Pajek、SNAPP等、用于貝葉斯知識跟蹤的BKT-BF、BKT-SM等。斯拉特爾(Slater,S.)等分析了教育數據挖掘領域可能會用到的40個工具軟件并比較了其優勢和缺陷,提出了使用建議,這些工具都能為教育數據挖掘的順利實施提供技術保障[9]。
伴隨著信息技術的發展和大數據時代的來臨,高校治理面臨著“本領恐慌”,如何迅速跟上技術變革的步伐、不斷提升治理能力,已經成為值得高校重視的課題。教育數據挖掘可以從精準化、智能化、個性化等多方面支持高校的科學決策、改進內外部利益相關者的治理體驗。
決策科學化是高校政策制定與行政決策中的重要原則,也是完善高校內部治理的核心要求[10]。教育數據挖掘在支持高校決策科學化中的作用是將淹沒在眾多數據集合中的海量數據加以采集、挖掘與分析,為相關主題的決策提供方向、依據甚至證據,從而幫助學校領導者做出科學的決策。決策是高校治理中的關鍵性因素,科學決策十分重要,決策支持系統是決策體系的重要組成部分[11]。
美國大學中的院校研究辦公室負責維護決策支持系統,實施教育數據挖掘。院校研究辦公室負責收集校內外的各種類型的教育數據以及與教育相關的市場、環境等數據,然后按主題進行數據挖掘與分析,為高校治理主體提供重大戰略性決策的建議[12]。美國加州大學建有近30名工作人員的院校研究辦公室,主管領導為教務長(執行副校長),主要職能就是進行以數據為依據的決策方案設計和決策參與。近幾年由于美國經濟衰退的影響,公立大學教育經費遭受削減的困擾,有人提出“增加教師授課時間”“側重職業培訓”等方案,加州大學院校研究辦公室進行數據采集與清洗、數據整合、挖掘分析、信息展示和結果驗證等操作,證明如果增加教師的授課時數將弱化大學科研工作的力度,降低本科生參與科研的機會以及就讀滿意度。這些研究結論被寫入校學術委員會的報告,影響了學校領導的決策,最終使“增加教師授課時間”等方案被否決[13]。
教學活動是高校最根本的活動,教師和學生是高校最核心的內部利益相關者。信息技術對于高校教學活動的改造,體現在學習管理系統和在線課程系統的廣泛應用。這些系統中沉淀的大量教學和學習行為數據,能使教育數據挖掘更有用武之地。通過對這些教學和學習行為數據的挖掘分析,找出教學活動中的規律性信息,并及時反饋給教師和學生,改進教師、學生等內部利益相關者的教學體驗和學習體驗。
教育數據挖掘可以通過四個方面改進師生的教學體驗,包括建立和改進學生模型、構建領域知識模型、分析教學支持的有效性和探究經驗證據拓展教育理論,每一方面都已經有一些成果和案例[14]。基于教育數據挖掘技術,美國普渡大學開發了一套“課程信號”系統,綜合學生背景特征、學業歷史記錄和從學習管理系統采集的課程學習行為數據,即時預測學生在該門課程中的學業表現,并給每位學生發送個性化郵件,以交通信號燈的形式顯示學生的課程學習狀態[15]。哥倫比亞大學教育學院設計了一套智能課程推薦系統“Pundit”,通過學習管理系統和圖書館電子數據建立課程內容索引,基于用戶特征信息提取關鍵詞,應用關聯數據挖掘技術建立兩者關系,為學生提供課程推薦建議[16]。
高校治理中的外部利益相關者包括政府、市場、社會、校友等,改善與外部利益相關者的關系對于高校自身建設與發展至關重要。校友是外部利益相關者中一個規模巨大的群體,通過捐贈等方式維系與母校的情感聯系。校友捐贈是美國高校經費的主要來源,2012年美國高校獲得的捐贈中約有44%來自于校友。相比而言,我國高校辦學經費中校友捐贈的比例仍然較低,只在1%-2%之間,并且大都依賴于極個別的“富豪”校友。僅僅依賴“富豪”校友的模式并不可持續、不可復制,高校應該對所有校友一視同仁,建立面對全體校友的聯系制度,發揮校友這一重要外部利益相關者的作用。
為提高效率,高校不可能對數量巨大的校友群體進行全面募捐,需要對校友進行細分并定向募捐。教育數據挖掘在建立校友細分模型中可以發揮較好的作用。伊麗莎白(Elizabeth J.Durango-Cohen)等對一所中西部研究型私立大學的34萬余條歷史捐贈記錄進行分析,基于有限混合模型聚類方法構建校友細分模型,把校友細分為七個類別,每個類別的校友均具有不同的特征和捐贈模式,對于不同類別的校友發出不同金額的捐贈請求(Ask Amounts)[17]。
教育數據挖掘作為一個新的應用研究領域,具有獨特的技術優勢和發展前景,但也存在應用的困難和挑戰,我們需要對教育數據挖掘的未來和問題進行更加深入的探討,以期發揮其在高校治理中的適切作用。
教育數據挖掘的順利實施,首先需要建立教育數據倉庫,按照某種預定標準將相應數據采集到數據倉庫中,再使用相關算法工具進行分析。這個過程中存在三種類型的挑戰:一是建立教育數據倉庫的挑戰。教育數據倉庫的建立主要包括分析與規劃、設計與實施、上線與交付、回顧與優化等環節,在教育數據挖掘的全過程中占用30%-75%的時間,而且存在著失敗的風險。二是采集教育數據的挑戰。教育數據形式多樣、規模巨大、來源復雜,需要對不同系統數據源的數據結構、數據字典及元數據都進行了解后才能進行數據采集。三是教育數據質量的挑戰。要根據教育數據倉庫中的數據標準進行數據標準化和數據清洗,特別要關注數據清洗后的整合、分析和價值利用。
人是實踐活動的主體,具有實踐能力并從事實踐活動,教育數據挖掘的順利實施必然離不開人這一核心要素。教育數據挖掘的技術再發達、工具再先進,在某一高校內部的應用,還是要依靠具有一定實踐能力的人員。教育數據挖掘基于統計學、計算機科學等學科,需要掌握統計學、計算機科學的背景知識,所要解決的又是教育領域的問題,對教育學科的理論背景與現實狀況也要熟悉。因此,教育數據挖掘實施需要多部門跨學科研究人員的協同推進。我國大部分高校中院校研究的功能還依托于高教所等教育研究機構,與信息化管理部門相對分隔,“想分析的不會分析,會分析的不知道分析什么”,這對教育數據挖掘的順利實施是一大挑戰。
教育數據挖掘實施的相關制度安排也是一大挑戰。首先要對生產者、管理者、提供者、使用者等教育數據的利益相關者的權責進行安排,明確每種角色在教育數據的生命周期不同階段的職責和權益。其次要對教育數據挖掘實施者的職責和實施流程進行規范,誰負責采集、誰負責分析、誰負責發布、誰負責解釋都要明確,既有分工也有協作。最后還要落實教育數據挖掘實施的保障機制,包括經費投入、軟硬件設備、風險估計、成本收益分析等等。
教育數據挖掘采集分析了教師、學生和教學活動過程中的大量行為數據,其中會包含著個人隱私數據,這些隱私數據存在著被泄露的風險,數據采集越完備越充分,泄露的風險就越大。利益相關者對自身數據享有知情權的在獲得其授權后才能合理使用。通過教育數據挖掘形成的結果也應該被利益相關者知曉,并且結果中不能出現利益相關者的詳細信息[18]。
教育數據挖掘在某些案例中的成功應用,也可能會被那些非理性的數據至上主義者奉為至寶,鼓吹數據就是一切,進行數據崇拜和數據迷信,片面夸大教育數據挖掘的作用,忽視教育中的其他因素[19]。教育數據挖掘的結果也存在被錯用、濫用的可能性,比如通過基于學生特征和之前的學業表現記錄,預測出某一類特征的學生學業失敗的可能性大,這會使對這一類學生產生不良影響[20]。
總而言之,在高校治理的背景下,教育數據挖掘找到了其生存空間,進入了蓬勃發展期,在支持高校決策科學化、改進內部利益相關者教學學習體驗、改善外部利益相關者關系等方面發揮其優勢。作為新興事物,教育數據挖掘還存在許多不成熟不完善的地方,還面臨一些較大的挑戰,但高校應學會“戴著鐐銬跳舞”,趨利避害,充分發揮教育數據挖掘在高校治理改進中的作用,促進高校人才培養質量提升和實現內涵式發展。