摘要:大數據能夠真實地擷取、存儲和處理規模巨大的有效信息,因此在商業服務、公共衛生等領域備受矚目。而面對愈加不能滿足當今需求的傳統教育,大數據的發展使得教育面臨一場新的變革。分析了教育領域中大數據的產生背景,介紹了國內外一些教育大數據的實踐,提出了現階段教育大數據面臨的若干問題和挑戰。
關鍵詞:大數據;數據挖掘;個性化教育
作者簡介:張燕南(1980-),女,河北唐山人,第二軍醫大學基礎部外語教研室,講師;胡繼岳(1965-),女,江蘇阜寧人,第二軍醫大學基礎部外語教研室主任,教授。(上海 200433)
中圖分類號:G640 文獻標識碼:A 文章編號:1007-0079(2013)32-0005-03
我國各種教育機構每年投入大量資源用于網絡課程的建設,然而許多課程網站不過是課堂搬家和材料羅列,將網絡課程建成了網絡教材,難以調動學生群體的學習熱情和主動性。建立大型學習資源庫本身并不能改變學習,真正有巨大價值的是在學習過程中的每一個學習行為所表達的意義,當前大力發展的教育信息化公共服務平臺和數字化校園建設,如果缺乏對數據的深度挖掘和專業分析,同樣也只能流于形式。大數據能夠將這些行為進行整合和處理,揭示背后隱藏的價值,指引一系列變革舉措,如教育環境的設計、教育實驗場景的布置、教育時空的配置、學習場景的完善、教育管理數據的采集和決策等。隨著計算機硬件的高速革新和軟件的高度智能化進程,大數據這一蓬勃發展的新生事物必將掀起一輪嶄新的教育信息化浪潮。
一、大數據概況
1.大數據的涵義
大數據(big data)或稱巨量資料,其概念來源于最早經歷信息爆炸的學科,如天文學、物理學和生物學等,用于描述目標數據量的規模遠遠超出了一般電腦處理能力的情形。現今各行各業的每個領域都面對著數據量的爆發式增長,據研究預測,人類存儲信息量的增長速度比世界經濟的增長速度快4倍;截至2013年,世界上存儲的數據預計能達到約1.2ZB,其中98%都是數字數據。[1]
為解決數據急劇擴張引發的技術瓶頸問題,技術研究人員致力于開發和改進數據處理技術與工具,如基于云技術的大型數據集分析框架MapReduce和分布式系統基礎平臺Hadoop等,大大增加了可處理的數據量。大數據的涵義也隨之發生了變化,不僅用于描述需要進行批量處理或分析的大量數據集,還同時涵蓋了處理數據的速度。
美國互聯網數據中心將大數據定義為:通過高速捕捉、發現和/或分析,從大容量數據中獲取價值的一種新的技術架構。[2]進而概括為四個英文字母V:更大的容量(Volume)、更高的多樣性(Variety)、更快的生成速度(Velocity),以及由前面三個“V”組合推動的第四個因素——價值(Value),即對大數據的掌握程度可轉化為經濟價值的來源。
2.大數據的應用
2011年5月,麥肯錫全球研究院發表了一篇題為《大數據:創新、競爭和生產力的下一個新領域》的報告。[3]該報告主要提出了兩個觀點:一是數據已經滲透到每一個行業、每一個業務職能領域;二是海量數據的應用意味著下一波或者新一輪生產率的增長和消費者盈余浪潮的到來。
支付寶自2011年起發布“年度個人對賬單”。每個用戶都能通過個人年度對賬單看到自己一年來詳細的網上支出狀況,包括購物類別、每月支出、消費排行,以及對用戶的購物習慣和消費態度的分析。在亞馬遜和京東商城等網站購物時會得到個性化的商品推薦,這就是通過數據挖掘技術追蹤和發現用戶的行為習慣與喜好,從凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品與服務,從而實現對產品和服務的調整與優化。
2009年,谷歌的工程師在《自然》雜志上發表了一篇論文,成功預測了甲型H1N1流感在美國的爆發和傳播,并且具體到特定的州和地區。[4]與公共衛生機構相對滯后的官方數據相比,谷歌通過觀察和分析來自用戶的海量網上搜索記錄,發布了更為有效和及時的預測。基于大數據時代的數據儲備和技術理念,能夠實現以前所未有的方式洞見事物的發展趨勢。
上述事例表明,大數據不僅能夠成為經濟價值的來源,其中也潛在大量的科學價值和社會價值,經濟學、政治學、社會學和許多科學門類都會發生巨大甚至本質上的變化與發展,進而影響人們的價值體系、知識體系和生活方式,教育學科和教育領域的研究也必然在此之列。
二、教育領域中的大數據
1.教育大數據的產生背景
(1)MOOC的蓬勃發展。2006年,薩爾曼·可汗(Salman Khan)創辦了利用在線視頻進行免費授課的可汗學院,現有關于數學、歷史、金融、物理、化學、生物、天文學等科目的3400多段視頻,注冊用戶超過了1000萬人。2011年,斯坦福大學的一門人工智能網上課程吸引了190多個國家的16萬名學生參加學習,該課程的講授者塞巴斯蒂安·特倫(Sebastian Thrun)教授創辦了在線教育網站Udacity。2012年,盈利性在線大學教育平臺Coursera上線,和普林斯頓大學、斯坦福大學、密歇根大學和賓夕法尼亞大學等83所大學協同提供課程,目前在全球擁有380萬的注冊用戶。同年,哈佛大學與麻省理工學院宣布結成非營利性合作伙伴關系,聯合發起了名為“edX”的網上課程系統,聯手提供免費的在線課程,搭建共同教育平臺,包括清華大學、北京大學在內的其他26所全球名校也相繼加入了這一平臺。
MOOC是Massive(大規模的)、Open(開放的)、Online(在線的)、Course(課程)四個英文單詞的首字縮寫,意為大規模網絡開放課程。互聯網技術的發展帶動了教育的網絡化和國際化,MOOC更將傳統的遠程教育推向了新的高度和廣度,催動了網絡學習時代的到來。在教育活動中,相對于通過師生面對面的接觸獲取教育數據的途徑而言,基于大型網絡課程平臺進行數據挖掘的方式顯然有效得多:學習行為的數據將自動留存,更易于后期的學習行為評價和評估;教師只需通過分析整合學習行為就能得到學習過程中的規律;利用數據挖掘的關聯分析和演變分析等功能,在學生管理數據庫中挖掘有價值的數據,分析學生的日常行為,可得知各種行為活動之間的內在聯系,并提出相應的對策。
(2)社會科學研究方法的局限。在信息處理能力受限的時代,研究人員需要處理數據以解釋未知世界的規律,卻缺乏用于收集和分析數據的技術工具。在云計算等互聯網技術高速發展的今天,感應器、手機導航、網站點擊產生的大量數據可以被輕易獲取,而且計算機也具有高速甚至實時處理這些數據的能力,那些屬于工業時代的一系列問題已不再難以解決。社會科學,不論是社會學、心理學、經濟學還是教育學,過去都曾非常依賴通過問卷調查法進行樣本分析,甚至在無法獲得實證數據時純粹依賴假設、經驗去嘗試解釋未知領域的規律。大數據時代的來臨,使得社會科學研究者能夠在更多的領域和更深的層次中獲得與使用全面數據和完整數據,從而實現從演繹到歸納這一思維路徑的改變。
從信息的真實性來說,社會科學領域的研究者們面臨的問題是研究對象的復雜性。“人性”與“物性”不同,自然科學研究的物質世界比較穩定,因此更容易獲取數據并從中尋找規律,而人的心理具有動態性和敏感性,變化多端,難以總結。傳統教育數據主要通過階段性測試或調查量表等形式進行獲取,如學生整體的學業水平、身體發育與體質狀況、社會性情緒及適應性的發展、對學校的滿意度等,整個過程中被試者完全知情,不免會受到來自實驗環境以及主試者的表情、手勢、語氣等變量的干擾。而大數據的收集憑借一定的觀測技術與設備的輔助,在不影響學生日常學習與生活的前提下記錄被試者的日常狀況。可以說在大數據時代,教育研究者比任何時候都更接近真正的學生。[5]
(3)個性化教育的需求。國際個性化教育協會(International Personalization Education Association,簡稱IPEA)將個性化教育定義為:“為受教育者量身定制教育目標、教育計劃、教育培訓方法、輔導方案并加以執行,組織相關專業人員為受教育者提供學習管理策略和知識管理技術以及整合有效的教育資源,幫助受教育者突破生存限制,實現自我成長、自我實現和自我超越。”[6]為學生構建個性化教育環境,根據學生的實際學習步調和學習情況開展有針對性的學習指導,使其真正融入學習過程中,這就需要對學生已有的學習準備、能力、興趣和天分、學習風格等加以評估,這在信息獲取手段匱乏的傳統數據時代極難實現。
目前,美國的一些高校正在利用大數據進行個性化教育實踐:亞利桑那州立大學通過在線課程為學生提供個性化學習體驗。學校使用Facebook應用程序挖掘學生的個人頁面數據,根據學生的興趣點為其推薦志同道合的朋友;另一程序可跟蹤學生使用校園卡的時間和地點,分析學生是否參與到了學習中。里奧薩拉多學院利用數據分析軟件預測學生在課堂上的表現,并把學習報告發送給教授,以幫助學生改進學習方法。
學生在學習和生活的過程中留下一串數字足跡碎片,如在線學習和網絡社交行為、校園卡的使用等。當這些數據被整合、挖掘和分析時,學習者的行為模式則會得以揭示。大數據的到來,使得教育研究領域能夠藉由前沿技術的發展從宏觀群體走向微觀個體,跟蹤每一個學習者的數據不再困難,從而實現了真正意義上的、全面細致的個性化教育。
2.教育大數據的運作
達雷爾·M·韋斯特(Darrell M. West)指出,數據挖掘、數據分析和在線決策面板是利用大數據進行教育研究和評價的三大要素。[7]
數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息過程。教育領域的數據挖掘關注于開發新的工具和算法、發掘數據模式,側重于以合理、快速的方法從教育數據庫中發現相關信息和知識。
數據分析是指用適當的統計方法對收集來的大量的第一手資料和第二手資料進行分析,以求最大化地開發數據資料的功能、發揮數據的作用。教育領域的數據分析聚焦于在教學系統中更廣泛地應用工具和技術。
在線決策面板是在線內容管理系統的控制頁面,其功能是以簡潔、直觀的圖表和數字展現數據分析的結果。通常需要采取緊急應對措施的項目會標示在頁面的明顯位置,而不太重要的統計數據則被下移到頁面底部,方便教師檢視學生當前的學習情況。
基于數據挖掘、數據分析和在線決策面板三大要素的教育大數據運作流程具體可劃分為六個步驟,如圖1所示。[8]一是學生使用在線系統進行學習;二是系統收集和記錄學生的在線學習行為,存入數據庫;三是進行數據分析和處理、預測學生的學業表現;四是對預測和反饋結果進行可視化處理;五是提供適合學生個人的學習材料;六是教師、管理人員和開發人員適時給予學生指導和幫助。
3.大數據的教育實踐
(1)個性化課程分析。佛羅里達州立大學利用eAdvisor程序為學生推薦課程和跟蹤其課業表現。奧斯汀佩伊州立大學的“學位羅盤(Degree Compass)”系統在學生注冊課程前,通過機器人顧問評估個人情況,并向其推薦他們可能取得優秀學業表現的課程。系統首先獲取某個學生以前(高中或大學)的學業表現,然后從已畢業學生的成績庫中找到與之成績相似的學生,分析以前的成績和待選課程表現之間的相關性、結合某專業的要求和學生能夠完成的課程進行分析、利用這些信息預測學生未來在課程中可能取得的成績,最后綜合考量預測的學生成績和各門課程的重要性,為學生推薦一個專業課程的清單。
(2)輟學行為的預測。美國西部州際高等教育委員會(Western Interstate Commission for Higher Education,簡稱WICHE)以鳳凰城大學和里奧薩拉多學院等6所學校的64萬名學生為對象,建立了一個教育數據庫。該數據庫可以記錄3百萬條課程信息,進行33個針對在線課程的變量分析。當一些與輟學行為有關的關鍵因素(如曠課、紀律問題、課堂表現)發生變化時,系統會向校方發出預警。里奧薩拉多學院有43000名接受在線學習的學生,學院的預警系統允許教師看到代表學生行為的紅、黃、綠色指示燈,并根據學生的在線互動行為評估其表現,如閱讀教科書和回應教師要求的頻率。
(3)助學需求的預測。華東師范大學的“家庭經濟困難學生預警系統”通過收集校園卡的記錄進行分析測算,向可能存在經濟困難的學生發送詢問短信。系統具體的做法是:跟蹤學生的校園卡,對全校本科生周一到周四的中、晚餐消費值進行統計,分別計算出男女同學的平均消費值,乘以0.6的系數,得出預警消費線。如經系統篩選發現就餐消費明顯偏低,學校勤工助學中心在對比分析學生入學時填寫的資料后,會主動向學生發出短信以征詢情況,同時也會通過院系教師做進一步了解,以判定學生是否真的面臨家庭困難,需要幫助。
(4)學術研究趨勢的把握。斯坦福大學的文學實驗室正在進行一項研究,嘗試以通過谷歌圖書計劃放置在互聯網上的海量書籍為平臺,進行數據挖掘和分析,把握和預測文學作品和學術研究的發展趨勢。斯坦福的英語教授馬修·L·喬卡斯(Matthew L. Jockers)在一堂課上布置了內容涵蓋1200篇小說的作業。學生要完成的并不是逐篇閱讀,而是通過計算機程序來研究文學風格、觀點、語言和文化的演變。人文學科,無論是歷史、文學還是語言研究,只要是聚焦于書本的,都可以用這個思維來進行研究。
(5)其他實踐。美國的房產網站TRULIA將房產信息、稅收信息、犯罪信息、學區信息、學校政府評價、社會評論集成在一起,美國幾乎任何一個學校和學區的情況都可以在這一數據基礎上通過可視化技術直觀地展現在人們眼前;有研究指出,[9]教育大數據還可以用于分析合作學習小組中的強、弱方,促進學習任務的合理分配;教育機構還能從大數據中看到是否將教育款項恰當地撥到了需要的地方。
4.教育大數據面臨的挑戰
盡管大數據開啟了重要的時代轉型,推動著教育理念的變革,但同時也伴隨著不少問題和挑戰。
首先,關于人才和技能。有效利用大數據,需要來自數學、統計學或計算機工程等領域的眾多專業人員,如管理硬件部件的系統管理員、搭建平臺的程序開發人員、運用算法解決問題的數據分析員、收集高質量數據的數據專員等等,因此人才的募集和培訓存在較大困難。
其次,隱私和倫理的問題。大數據時代的個性化服務是建立在對行為的追蹤和分析的基礎上的,這意味著會在某種程度上觸及到個人無意公之于眾的隱私信息。此類信息的所有權和使用權的歸屬并不明確,數據可能遭到濫用。
再次,數據主宰一切的隱憂。為了追求更好的成績而基于學生以往的學業表現為其推薦課程,有可能導致學生只學習過于簡單的課程,不利于其挑戰性和積極性的激發,學生也有可能被迫放棄夢想轉修一些實用課程。
最后,研究方法的不成熟。大數據研究目前還沒有形成清晰的方法和路徑,同時也缺乏統一的標準,每個教育機構都可能采用不同的運作形式。
三、結語
總而言之,大數據在教育領域的應用惠及以下相關人員:學生是其中最大的受益方,如上所述,每一個學生都有機會獲得為自己量身定做的教學活動和資源;家長得以通過嶄新的視角掌握全面、真實的教育信息;教師則從中獲取對教學的客觀反饋、對課程內容和學習過程進行評價、挖掘學生的學習模式、改進個性化教學的手段;教育管理者能夠更好地組織教育資源、制定教育改革的方向和措施;教育研究者能夠借此轉變思路,開拓新的研究思維和路徑。盡管大數據為教育帶來了巨大的啟發和機遇,但是作為新鮮事物,許多與之相關的研究仍處于探索和嘗試階段,有待于在實踐過程中不斷完善。
參考文獻:
[1]維克托·邁爾-舍恩伯格.大數據時代[M].盛楊燕,等,譯.杭州:浙江人民出版社,2013.
[2]John Gantz David Reinsel.Extracting Value from Chaos [EB/OL].http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.
[3]James Manyika.Big data:The next frontier for innovation,competition,
and productivity[EB/OL].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.
[4]Jer.Open Science,H1N1,Processing,and the Google Spreadsheet API[EB/OL].http://blog.blprnt.com/blog/blprnt/open-science-h1n1-processing-and-the-google-spreadsheet-api.
[5]張韞.大數據帶給教育的機遇與挑戰[EB/OL].http://www.age06.com/Age06.Web/Detail.aspx?InfoGuid=ec46cae7-e39b-4da1-ae0f-980fe4d68929.
[6]楊妮.美國高中個性化教育策略及其啟示[J].教育導刊,2013,(1).
[7]Darrell M.West.Big Data for Education:Data Mining,Data Analytics,and Web Dashboards[EB/OL].http://www.brookings.edu/~/media/
research/files/papers/2012/9/04%20education%20technology%20west/04%20education%20technology%20west.pdf.
[8]COLLEGESTATS.How Can Data Mining Analytics Enhance Education?[EB/OL].http://collegestats.org/articles/2013/01/how-can-data-mining-analytics-enhance-education/.
[9]Kim Rose.Big data’s potential for higher education[EB/OL].http://hortonworks.com/blog/big-datas-potential-for-higher-education/.