邢蓓蓓 楊現民 李勤生
?
教育大數據的來源與采集技術
邢蓓蓓1楊現民2李勤生3
(1.江蘇師范大學化學化工學院,江蘇徐州 221116;2.江蘇師范大學智慧教育研究中心,江蘇徐州 221116;3.河北省沙河市孔莊學區,河北沙河 054100)
教育數據的全面、自然、動態、持續采集是構建教育大數據的基礎性和先導性工作。業務的差異性直接導致教育數據來源更加多元、數據采集更加復雜。文章探討了教育大數據的來源,認為教育大數據產生于各種教育實踐活動,核心數據源頭是“人”和“物”;介紹了4大類、13種常見數據采集技術,包括物聯感知類技術、視頻錄制類技術、圖像識別類技術以及平臺采集類技術,指出每類技術采集的數據范圍和重點有所不同;總結了教育數據采集的注意事項:要提前規劃設計,要有清晰的邊界,要保持連續性和規范性,采集粒度要盡可能小,采集過程要符合倫理道德。
教育大數據;數據來源;采集技術;注意事項
2015年是中國的教育大數據元年[1],政府、企業、學校、研究者、管理者、教師、社會公眾等都開始關注教育大數據,相關政策文件、研究機構、學術活動、市場產品等開始紛紛出現。然而,我國的教育大數據研究與實踐領域整體還處于起步探索階段,是在“摸著石頭過河”,涉及一系列關鍵問題亟待解決(如教育數據的自然采集、教育數據的安全管理與隱私保護、教育數據的無縫流轉與開放共享、教育數據的深度挖掘以及學習分析等)。其中,教育數據的全面、自然、動態、持續采集是構建教育大數據的基礎性和先導性工作,這就需要厘清一些基本問題:教育數據的產生源頭在哪里?哪些數據需要采集?有哪些常用的數據采集技術?采集時需要注意什么?本文嘗試回答上述問題。
教育是一個超復雜的系統,涉及教學、管理、教研、服務等諸多業務。與金融系統具有清晰、規范、一致化的業務流程所不同的是,不同地區、不同學校的教育業務雖然具有一定的共性,但差異性也很突出,而業務的差異性直接導致教育數據來源更加多元、數據采集更加復雜。
教育大數據產生于各種教育實踐活動,既包括校園環境下的教學活動、管理活動、科研活動以及校園生活,也包括家庭、社區、博物館、圖書館等非正式環境下的學習活動;既包括線上的教育教學活動,也包括線下的教育教學活動。教育大數據的核心數據源頭是“人”和“物”——“人”包括學生、教師、管理者和家長,“物”包括信息系統校園網站、服務器、多媒體設備等各種教育裝備。

圖1 教育大數據的來源
依據來源和范圍的不同,可以將教育大數據分為個體教育大數據、課程教育大數據、班級教育大數據、學校教育大數據、區域教育大數據、國家教育大數據等六種,它們從下向上、從小到大逐級匯聚[2]:①個體教育大數據包括教育部2012年正式發布的《教育管理信息化系列行業標準(教技[2012]3號)》中規定采集的教職工與學生的基礎信息、用戶各種行為數據(如學生隨時隨地的學習行為記錄、管理人員的各種操作行為記錄、教師的教學行為記錄等)以及用戶狀態描述數據(如學習興趣、動機、健康狀況等);②課程教育大數據是指圍繞課程教學而產生的相關教育數據,包括課程基本信息、課程成員、課程資源、課程作業、師生交互行為、課程考核等數據,其中課程成員數據來自個體層,用于描述與學生課程學習相關的個人信息;③班級教育大數據是指以班級為單位采集的各種教育數據,包括班級每位學生的作業數據、考試數據、各門課程學習數據、課堂實錄數據、班級管理數據等;④學校教育大數據主要包括標準規定的各種學校管理數據(如概況、學生管理、辦公管理、科研管理、財務管理等)、課堂教學數據、教務數據、校園安全數據、設備使用與維護數據、教室實驗室等使用數據、學校能耗數據以及校園生活數據;⑤區域教育大數據主要來自各學校以及社會培訓與在線教育機構,包括國家標準規定的教育行政管理數據、區域教育云平臺產生的各種行為與結果數據、區域教研等所需的各種教育資源、各種區域層面開展的教學教研與學生競賽活動數據以及各種社會培訓與在線教育活動數據;⑥國家教育大數據主要匯聚了來自各區域產生的各種教育數據,側重教育管理類數據的采集。
教育數據的采集需要綜合應用多種技術,每種技術采集的數據范圍和重點都有所不同。圖2展示了教育數據采集的技術體系,共包括4大類、13種常見數據采集技術。
1 物聯感知類技術
該類技術主要包括物聯網感知技術、可穿戴設備技術和校園一卡通技術。其中,物聯網感知技術主要用于采集設備狀態數據,可穿戴設備技術主要用于采集個體生理數據與學習行為數據,校園一卡通技術則主要用于采集各種校園生活數據。
物聯網感知技術是實現萬物相連的前提,是采集物理世界信息的重要渠道[3]。目前在教育領域利用物聯網感知技術采集基礎信息,主要通過傳感器和電子標簽等方式進行——通常情況下,傳感器用來感知采集點的環境參數,電子標簽用于對采集點的信息進行標識。而對于采集后的信息數據,需經過無線網絡上傳至網絡信息中心進行存儲,并利用各種智能技術對感知數據進行分析處理以實現智能控制。學校的教室設備、會議設備、實驗器材等分布離散、信息透明度小、管理難度大,通過給這些物理教學設備粘貼RFID標簽或傳感器,分配專人管理,可以實現統一管理和調度,有效檢測設備的工作狀態。

圖2 教育大數據采集技術圖譜
可穿戴設備技術可以把多媒體、傳感器和無線通信等技術嵌入人們的衣著中,支持手勢和眼動操作等多種交互方式[4]。近年來,智能眼鏡、智能手表、智能手環等新產品的不斷出現,形態各異的可穿戴設備正在逐步融入人們的日常生活與工作中。可穿戴設備技術為自然采集學習者的學習、生活和身體數據提供了可能。通過佩戴相關設備可以實時記錄學習者的運動狀態、呼吸量、血壓、運動量、睡眠質量等生理狀態數據,以及學習者學習的時間、內容、地點、使用的設備等學習信息。除此之外,可穿戴設備技術還可以與虛擬仿真、增強現實技術相結合,優化內容呈現方式、豐富學習環境,對學習者的所見、所聞、所感進行全息記錄。
校園一卡通技術是以校園網為載體,以電子和信息技術為輔助手段,集身份識別、校務管理以及各項校園服務等應用項目為一體的完整系統[5],可以采集的數據范圍包括:餐飲消費、洗浴收費、超市購物、運動健身、課堂考勤、圖書借閱、銀行轉賬、上機收費、學生選課、學生補助、就醫買藥等,幾乎涵蓋了校園生活的方方面面。部分地區的校園一卡通系統還與城市交通、醫療等系統關聯,學生可以方便地使用一卡通坐公交、地鐵,購買藥物等。這些數據的采集不僅對于教育管理有價值,對于整個城市的管理與規劃也有重要意義。
2 視頻錄制類技術
該類技術主要包括視頻監控技術、智能錄播技術與情感識別技術。其中,視頻監控技術主要用于采集校園安全數據,智能錄播技術主要用于采集課堂教學數據,情感識別技術主要用于采集學生學習過程中的情感數據。
校園安全監控系統是一套旨在用于全面、實時監控校園運行情況,跟蹤學生出入學校情況,從而準確監控和預測校園中可能發生的危機地點,實現校園防火防盜和綜合等安全管理工作的系統[6]。校園安全監控系統的核心技術是視頻監控,主要借助不同監控點的攝像機采集整個校園數據,以服務于學校管理中心、市教育局監控中心等不同監控單位來實時診斷校園安全。視頻監控系統能夠實現對學生教師以及校外人員出入校園情況的監控,實現對校園異常情況如對突發性奔跑、人員密集等進行預警,實現對校園設備的全面監控與管理,實現對各班級情況的有效監控[7]。
智能錄播系統通過先進的流媒體及智能化全自動控制技術,可以實時、自動地采集課堂教學數據,并同步實現在校園網或Internet上的視頻直播以及遠程互動教學功能,成為網上可實時直播、點播的學習資源,全真再現課堂教學的全過程[8]。智能錄播系統主要通過教室內3臺可跟蹤定位的攝像機,來實時采集教學過程中的視頻與音頻信息。此外,智能錄播系統還通過對電子白板的錄屏采集教學課件,最終形成3份不同角度的課堂實錄視頻、教學課件錄像以及定制的合成視頻。通過在教室中安裝智能錄播系統來實時采集課堂中教師的提問、引導、評價等教學行為,可以完整采錄教師在教學中使用課件的內容、使用的時間以及使用的方法,還可以采集到學生課堂上的回答內容、記錄、傾聽以及走神等行為。
情感識別技術通過觀察人的表情、行為和情感產生的前提環境來推斷情感狀態,其基本目的在于賦予計算機像人一樣觀察、理解和生成各種情感特征的能力。目前,情感識別技術主要通過面部表情和語音特征來提取情感信息。情感是影響線上線下學習效果的重要變量,學習過程中的情感數據采集至關重要。通過情感識別技術可以即時判斷學生的情緒狀態,進而提供針對性的支持服務。以在線學習為例,當學生在學習過程中出現煩躁情緒時,通過情感識別技術,系統可以給予學生適當的鼓勵或者減慢學習進度;當學生感到枯燥乏味、情緒低落時,系統可以適當降低內容難度并給出調動學生積極性的鼓勵話語;當學生感到充滿自信時,系統可以根據學生的水平提供更具挑戰性的學習內容與材料[9]。
當前,主流的情感識別技術是基于面部表情特征的情感計算,該技術通過攝像頭實時采集學習者的臉部五官位置、肌肉運動等表情特征值來進行情緒識別。除此之外,還可以實時采集學習者的語音、文本、繪圖等輸入信息,對其中蘊含的情緒信息進行內容挖掘和智能分析識別。近年來,隨著人類對人腦結構認識的不斷深入,未來基于腦電波的情感識別采集技術將成為情感數據采集和情感識別的重要渠道。
3 圖像識別類技術
圖像識別類技術是人工智能的一個重要領域,是指利用計算機對圖像進行匹配、處理、分析,以識別各種不同模式的目標和對象的技術[10],主要包括網評網閱技術、點陣數碼筆技術與拍照搜題技術。其中,網評網閱技術主要用于采集學生考試成績數據,點陣數碼筆技術主要用于采集各種作業、練習、考試數據,拍照搜題技術主要用于采集學生作業練習數據。
互聯網閱卷系統是目前中考、高考、英語四級或六級考試等大型考試活動慣用的閱卷技術,是學生考試成績數據的重要采集技術。閱卷系統以計算機網絡技術和圖像處理技術為依托,采用專業掃描閱讀設備,對各類考試答卷和文檔進行掃描和處理,實現客觀題機器自動評卷以及主觀題教師網絡高效評卷。隨著試題庫系統以及人工智能技術的不斷發展,一些產品已實現對部分主觀題的自動評閱。
點陣數碼筆是一種新型高科技紙面書寫工具。通過在普通紙張上印刷一層不可見的點陣圖案,點陣數碼筆前端的高速攝像頭能隨時捕捉筆尖的運動軌跡,同時將數據傳回數據處理器,最終將信息經由藍牙或者USB線向外傳輸[11]。點陣數碼筆既可以保存學習者的最終書寫結果,又可以記錄學習者的書寫過程信息,如書寫方式、書寫順序、書寫時間等,還可以結合書寫或者繪畫過程同步錄入聲音,采集書寫時的情景信息。點陣數碼筆是一種非常自然的書寫數據采集工具,十分貼近用戶的日常書寫習慣,因此有望成為作業、練習數據的主導采集工具。
拍照搜題技術是圖像識別技術在教育領域的應用形式之一,主要通過終端設備(如智能手機、平板等)來獲取相關題目的照片,繼而由系統根據已有的題庫進行自動匹配、處理與分析,最終篩選出與圖片最為相似的題目、答案及其解答思路。市場上越來越多的作業題庫產品開始提供拍照搜題功能,為學生日常作業練習數據的采集提供了很好的渠道。拍照搜題技術除了可以實現題目答案的檢索,還可以通過拍照上傳的方式存儲學生的作業練習結果以及過程數據。這些數據通過軟件平臺的處理分析,可以有效服務于教師的教學決策和學生的自我診斷。
4 平臺采集類技術
該類技術主要包括在線學習與管理平臺技術、日志搜索分析技術、移動APP技術與網絡爬蟲采集技術。其中,在線學習與管理平臺技術主要用于采集各種在線學習與管理數據,日志搜索分析技術主要用于采集運維日志與用戶日志數據,移動APP技術主要用于采集各種移動學習過程數據,網絡爬蟲采集技術主要用于采集教育輿情數據。
在線學習與管理平臺是當前教育數據采集的重要載體,可以采集大多數網上學習、教研與管理活動數據。各種在線學習類平臺與管理類平臺,因定位和功能的不同,其支持采集的教育數據范圍和類型也有所不同——通常情況下,在線學習類平臺主要負責采集課程學習數據,如課程基本信息、課程資源、課程作業、師生交互信息、課程考核結果等;管理類平臺(如資產管理系統、人事管理系統等)主要負責學籍、設備資產、科研、財務、人事等信息的采集與管理。除了使用專門的在線學習與管理平臺采集數據外,還可以通過第三方的插件來采集數據,如基于火狐瀏覽器的油猴腳本可以自動采集BlackBoard平臺中的交互數據,包括學生信息交互頻次、交互內容以及交互的方向等[12]。
日志文件中存儲了大量的用戶以及系統的操作信息,通過日志搜索分析技術可以有效篩選出有用的信息。日志搜索分析技術是指通過日志管理工具,對日志進行集中采集和實時索引,提供搜索、分析、可視化和監控等,最終實現對線上業務的實時監控、業務異常原因定位、業務日志數據統計分析以及安全與合規審計[13]。日志搜索分析技術一方面可以實時監控教育設備及資產的運行狀況,如設備耗電量、故障信息、安全威脅等,為智能運維提供數據支撐;另一方面可以詳細記錄用戶的操作行為,如系統登錄次數、登錄時間、增刪查改等基本信息,用于教師、學生以及管理者的行為模式診斷。
近年來,隨著移動終端和通訊技術的發展,移動APP技術逐漸成為移動學習過程數據采集的主導技術。從本質上來看,移動APP技術與在線學習與管理平臺技術類似,只是采集渠道來自于移動終端,采集方式更加靈活、多樣。學生可以通過無線網絡,使用移動終端(如智能手機、平板、PDA等)與云端學習平臺進行互動。通過結合移動終端的定位技術,系統將實時采集學習者的學習地點、學習時間、學習內容以及學習狀態等信息,以服務于教師對學生學習情況的實時監測,進而實現個性化智能輔導。
網絡爬蟲是一個自動下載網頁的計算機程序或自動化腳本,是搜索引擎的重要組成部分[14]。網絡爬蟲類產品如八爪魚采集器、網頁抓取軟件等,在數據采集領域有著廣泛的應用,可以定期實時采集各大門戶網站數據、監控各大社交網站、博客,自動抓取企業產品的相關評論。隨著互聯網新媒體(如門戶網站、微博、微信)的興起,教育領域的信息傳播呈現出傳播速度快、波及范圍廣和內容多樣化的特點。網絡爬蟲采集技術可以實時監控、采集教育領域網絡輿情數據,從而為有效處理各種突發事件提供可能。
數據采集是建設教育大數據的基礎性、先導性工作。隨著很多新型技術(如眼動追蹤技術、語音交互技術、體感技術等)的逐步成熟,將有越來越多的數據采集技術應用到教育領域,推動教育大數據更加實時、連續、便捷的采集。為了保證高質量教育數據的可持續性采集,教育數據采集在實踐過程中需要注意如下事項:
1 要提前規劃設計
教育大數據的建設與應用是一項系統工程,需要進行頂層設計,以便有目的、有序地采集高質量教育數據。規劃設計的內容包括:數據采集的范圍、使用的數據采集技術、數據采集環境的部署、數據采集質量的保障措施、采集數據的應用目的和場景、數據的存儲方案、數據的更新機制、數據的交換標準等。
不同層級的教育數據采集應當有不同的側重點——國家教育大數據和區域教育大數據應以管理類數據采集為主,同時注重與人口、社會、醫療、交通等領域大數據的關聯交叉分析與挖掘,重點服務教育政策的制定以及區域教育的均衡發展;學校、班級、課程大數據應以教與學活動數據采集為主,重點服務教學質量的提升;個體大數據應以學習者個體的行為數據、狀態數據、情境數據等采集為主,重點服務學習者的個性化學習診斷和個性化發展。
2 要有清晰的邊界
大數據雖然具有混雜性、來源多樣性等特征,數據的存儲成本也越來越低,但并非要囊括一切數據,沒有價值的數據是不值得收集和分析的。教育大數據同樣如此,其采集應當有清晰的邊界,而非盲目采集任何教育活動數據。究竟要采集哪些數據,取決于數據的應用目的。舉個例子,為了檢測評估學生的學習進展,就需要對課程瀏覽、作業練習、交流互動、提問答疑等數據進行實時采集和分析,而不必采集學生的飲食、運動等數據。當然,我們并不否認飲食、運動等數據在診斷學生體質狀況方面的價值。這里所提的“數據邊界”是相對于具體的應用目的而言的,任何數據分析模型的構建都需要依賴特定的數據集合,唯有如此才能保證分析模型的有效性和分析結果的應用價值。
3 要保持連續性和規范性
很多時候,僅憑某個學生的一次作業成績并不能說明什么問題,但如果將一個班級每位學生歷次的作業成績數據甚至包括作業的過程數據都全部采集到,便可以客觀評估學生的整體學習效果、發現學習盲點、診斷教學難點,開展針對性教學和個別化輔導,這時的作業數據便具有了“大”價值。
教育大數據的采集應秉持“持續創造價值,規范提升價值”的理念。教育數據的采集一方面應當保持連續性,即根據前期規劃設計,定期、連續、有規律地采集各種教育數據,通過長時間累計從小數據生成大數據;另一方面,為了保證后期數據的融通互換和一致化處理,教育數據的采集應遵循特定的技術標準和規范。目前,全國信息技術標準化技術委員會教育技術分技術委員會已在教育信息化標準研制方面做了大量的工作,有些技術標準已經成為國標,各應用系統的研發應當遵循教育管理信息化標準、教育資源建設標準等。此外,國際上一些通用標準也值得借鑒,如IMS-QTI(問題與測試交互)標準、xAPI(學習體驗記錄)規范等。
4 采集粒度要盡可能小
數據粒度是指數據的細化和綜合程度[15]。一般來說,細化程度越高,粒度越小;細化程度越低,粒度越大。呂海燕等[16]認為,數據采集應處于一個合適的粒度級別,粒度的級別既不能太高也不能太低。這是因為,低的粒度級別能提供詳盡的數據,但要占用較多的存儲空間、需要較長的查詢時間;高的粒度級別能快速方便地進行查詢,但不能提供過細的數據。
就教育大數據采集而言,在保證數據有效性的基礎上,數據粒度應盡可能細,以便從中挖掘更多的潛在價值。傳統的教育數據以分數為核心,一份作業、一張試卷最后采集到的僅僅是一個表征成績的數字符號,即采集的數據粒度比較大。如果基于在線學習平臺或點陣數碼筆技術能夠采集到每個學生的答題過程,如做題的順序、每道題的停留時間、答案修改次數等更細化的過程記錄數據,便能更加精準地判斷學生在哪些知識點存有疑惑和答錯的具體原因(馬虎大意還是未掌握知識)。因此,可以說“小顆粒匯聚大數據,大數據蘊藏大價值”。
5 采集過程要符合倫理道德
數據隱私與安全一直是大數據發展的障礙之一。教育數據的采集源頭來自廣大學生、教師、家長以及學校,數據繁雜多樣,其中成績、排名、家庭背景等諸多信息涉及個人隱私。目前,國內在教育數據隱私保護方面的法律法規還不健全,學校、教育機構等學生數據的保護意識亟待加強。由于監管不到位,教育行業中不乏一些為了商業利益而私售師生以及家長信息的不良企業。
不管出于研究、管理還是商業目的,任何教育數據在采集之前,都應當遵循教育數據采集倫理道德規范(建議相關部門盡快編制),數據產生主體也應當享有一定的知情權和選擇權。數據采集的初衷和最終目的應該本著“服務教育發展、服務師生成長”的理念,而非盲目采集或基于利益驅動去采集數據。
[1]楊現民,唐斯斯,李冀紅.教育大數據的技術體系框架與發展趨勢——“教育大數據研究與實踐專欄”之整體框架篇[J].現代教育技術,2016,(1):5-12.
[2]楊現民,王榴卉,唐斯斯.教育大數據的應用模式與政策建議[J].電化教育研究,2015,(9):54-61.
[3]李盧一,鄭燕林.物聯網在教育中的應用[J].現代教育技術,2010,(2):8-10.
[4]湖北省科學技術廳.可穿戴技術[OL].
[5]張升平.數字化校園之校園一卡通的建設[J].重慶工商大學學報(自然科學版),2008,(1):56-59.
[6]朱琳.基于云計算的分布式校園視頻監控系統的設計[J].計算機測量與控制,2013,(10):2676-2679.
[7]李勝,呼家龍,劉俞.RFID智慧校園安防管理系統研究與應用[J].現代教育技術,2013,(3):95-99.
[8]張飛碧.全自動智能錄播系統的架構分析[J].中國電化教育,2008,(5):104-108.
[9]趙力,黃程韋.實用語音情感識別中的若干關鍵技術[J].數據采集與處理,2014,(2):157-170.
[10]吳小菁,陳星娥.遺傳算法在圖像識別技術中的應用[J].保山學院學報,2013,(5):67-69.
[11]劉增輝.基于數碼筆的答題紙系統設計與實現[J].計算機應用與軟件,2011,(8):240-243.
[12]Macfadyen L P, Dawson S. Mining LMS data to develop an “early warning system” for educators: A proof of concept[J]. Computers & Education, 2010,(2):588-599.
[13]日志易.日志易產品概述[OL].
[14]孫立偉,何國輝,吳禮發.網絡爬蟲技術的研究[J].電腦知識與技術,2010,(15):4112-4115.
[15]李靜.數據倉庫中的數據粒度確定原則[J].計算機與現代化,2007,(2):57-58、61.
[16]呂海燕,車曉偉.數據倉庫中數據粒度的劃分[J].計算機工程與設計,2009,(9):2323-2325、2328.
Source and Acquisition Technology of Big Data in Education
XING Bei-bei1YANG Xian-min2LI Qin-sheng3
The comprehensiveness, naturalness, dynamics and continuous acquisition is the foundational and precursory work in the construction of educational big data. Differences in service would directly cause the source of educational data more multivariate and the acquisition of data more complicated. This paper discussed the source of big data in education, and proposed that big data in education derived from all kinds of educational activities and the core data sources were “persons” and “things”; introduced four categories and thirteen kinds of data acquisition technologies that were commonly used in educational field, including internet of things perception technology, video recording technology, image recognition technology and platform acquisition technology, and pointed that the difference appeared in the ranges and emphases of each type of data acquisition technologies; concluded some attention items for educational data acquisition: pre-planning and designing, having a clear boundary, maintaining the continuity and normativity, making the granularity of acquisition as small as possible, making the acquisition process conform to the ethics and morality.
big data in education; data source; acquisition technology; attention items
G40-057
A
1009—8097(2016)08—0014—08
10.3969/j.issn.1009-8097.2016.08.002
本文為江蘇省普通高校專業學位研究生實踐創新計劃項目“初中化學立體化閱讀材料的創新設計與應用研究”、江蘇高校優勢學科建設工程資助項目“江蘇師范大學教育學省優勢學科建設”(項目編號:蘇政辦發〔2014〕37號)、江蘇高校品牌專業建設工程資助項目的階段性研究成果。
邢蓓蓓,在讀碩士,助理實驗師,研究方向為技術增強學習、科學閱讀材料設計,郵箱為xingbeibei8888@163.com。
2016年5月13日
編輯:小西