◆黃志宏 巫莉莉
優質數字化教育資源共享是課程建設的根本出發點,加快數字化資源建設是高校教學質量和教學改革工程的重要舉措之一,是促進課程建設、提高教學質量的關鍵環節。2018 年4 月13 日發布的《教育部關于印發〈教育信息化2.0行動計劃〉的通知》(教技〔2018〕6 號)中明確提出:“國家將實施教育大資源共享計劃,利用大數據技術采集、匯聚互聯網上豐富的教學、科研、文化資源,為各級各類學校和全體學習者提供海量、適切的學習資源服務,打破教育資源開發利用的傳統壁壘。”[1]
目前高校雖然都在陸續開展數字化教育資源的共享建設,但在建設過程中仍存在一些問題。
1)數字化教育資源數據海量且共享度低,價值密度較低的數據無法有效提純。
2)數據資源維度少,師生的個性化標簽太少,數字化教育資源無法與師生精準匹配,實現因材施教及個性化教學,從而導致數字化教育資源共享應用推廣成效不佳。
為了解決上述問題,需要借助大數據分析技術對師生的教學過程數據進行分析,幫助教師對海量的數字化教育資源進行優化篩選,向學生推送適合自己的學習內容,實現個性化教學。
平臺框架校園數字化教育資源共享應用平臺以虛擬化平臺為基礎支撐,基于大數據實驗平臺和管理平臺中的數據采集、清洗、存儲、分析技術,對在線課程平臺中的師生教學過程數據進行分析研究,對學生學習狀態進行評估,構建學生個人行為畫像,并向學生推薦個性化學習所需的圖書館優秀數字資源和互聯網教育資源。平臺框架如圖1 所示。
關鍵技術
1)大數據技術[2-4]。數據采集是大數據生命周期的第一個環節,就是綜合利用FTP、http、WebService、JDBC、syslog 等接口以及網絡爬蟲工具,獲取信息系統業務數據、設備日志數據、互聯網數據等結構化、半結構化、非結構化數據,它是大數據知識服務模型的根本。
數據清洗是過濾掉海量數據中沒價值的、錯誤干擾數據,保留滿足業務分析所需的有效數據。通過制定對應的ETL 數據清洗策略來保證數據質量,同時保障根據時間演進不斷更新數據模式,確定數據實體及其之間的關系,最終將數據按照統一的格式進行存儲,以便提供給上層進行數據分析。
數據存儲是采用關系數據庫、大數據分布式存儲、數據倉庫并行的模式將數據加載在大數據管理平臺,依據相關規范,合理制定并完成數據存儲及異構數據關聯,將提供的數據細化到字段級別。數據倉庫主要是對清洗后的數據進行加載、入庫、存儲的操作。

圖1 數字化教育資源共享應用技術平臺框架

圖2 數字化教育資源共享應用技術平臺功能圖
數據建模是抽象描述現實世界的一種工具和方法,是通過抽象的實體及實體之間聯系的形式,來表示現實世界中事務的相互關系的一種映射。數據模型抽象表現的是實體和實體之間的關系,通過對實體和實體之間關系的定義和描述,來表達實際的業務中具體的業務關系。
2)非結構化數據處理。非結構化數據的處理主要包括對視頻數據、音頻數據、圖片數據以及文檔數據的處理。視頻數據是非結構化類型數據中相對最為復雜的數據類型,具有編碼格式繁多、數據規模龐大、描述信息維度多、機器識別解析難度高等特點。對于視頻數據的處理,可通過轉碼工具,將各種不同的視頻格式數據在不明顯影響清晰度等數據質量的前提下轉換為統一格式的視頻數據,并按文件大小以及視頻時長進行統一規格的切片。同時提取視頻中的音頻信息并轉化為文字信息,以識別該視頻數據的內容信息,并將此作為檢索數據的重要依據標簽之一。
音頻數據處理任務可以分為兩類,一是來自原始音頻數據的分類處理任務,二是來自視頻格式數據中提取的音頻數據處理任務。這兩類任務核心目標是通過技術手段獲取音頻數據中的語音信息,在將其轉化為文本信息后,實現音頻數據的分類和標簽化處理,以供檢索。
圖片數據處理主要通過來自數據源的信息、源文件的描述信息和人工鑒別與分類的方式獲取圖片數據的分類和檢索信息,同時借助OCR 等圖片識別工具,對圖片中的文字信息加以識別,從而提取更全面的圖片數據所包含的特征信息,實現更精準的分類與檢索。
文檔數據處理主要通過OpenOffice 組件,針對Office(Word、Excel、PPT)文件以及PDF 等常用的文檔數據進行分析處理,從而形成文檔數據的分類與檢索信息。
平臺功能模塊數字化教育資源共享應用技術平臺包含數據采集、數據清洗、數據存儲、數據建模、應用服務五大功能模塊,如圖2 所示。
1)數據采集模塊。數據采集模塊主要采集來自校內業務系統的數據和來自校外互聯網的數據。業務數據采集主要是數據采集模塊通過DB 接口、Socket 接口、WebService接口、FTP 文件接口工具、ETL 工具、網絡爬蟲等數據工具采集分布式數據,關系數據庫中結構化、半結構以及非結構化的數據,來源于教務系統、圖書管理系統的業務數據,以及在線教學平臺的視頻資料、音頻資料、文本資料、訪問日志和師生教學過程數據。數據采集模塊通過設定不一樣的采集頻率策略,使用任務調度模塊調用接口采集工具對接口的數據進行采集、清洗和入庫處理。同時,在這過程中對數據質量進行監控。
外部數據采集主要是數據采集模塊采用通用的網絡爬蟲工具對外部網站、論壇上的相關數據進行采集,使用網絡爬蟲或網站公開的API 等方式從關聯網站獲取數據,并使用分詞等技術對爬取的數據進行處理。此外,數據采集模塊可實現附件與正文的自動關聯,可將圖片、音頻、視頻等非結構化數據從網頁中抽取出來,存儲為統一的本地數據文件,并轉換成結構化的方式存儲[5]。
2)數據清洗模塊[2]。數據清洗模塊的任務是按照一定規則過濾不符合要求的殘缺數據、不正確數據和冗余數據,然后把過濾后的數據按照業務需求進行存儲。數據清洗首先根據業務定義和規則分析數據源數據是否存在不正常的數據結構;接著對結果集中的數據進行屬性適配,并基于清洗規則進行數據匹配;最后將正常和非正常數據分別存入清洗結果集和異常結果集,并把結果集存入數據庫,記錄清洗結果。
為了保證清洗后的數據可以為數據建模、挖掘分析、應用開發提供數據服務,數據清洗模塊在數據清洗過程中通過保證數據的精確性、完整性、一致性、有效性、唯一性、時間性和穩定性,實現數據的可靠性和可用性。
3)數據存儲模塊。數據存儲模塊采取關系數據庫存儲和大數據系統存儲并行的策略:關系數據庫存儲,采用Oracle 數據庫集群;大數據數據庫存儲,采用HBase 數據庫;大數據文件系統,采用HDFS 存儲。業務系統中結構化的關系型數據主要存儲在Oracle RAC 中,海量高速增長的互聯網數據則存儲在大數據文件系統中。數據存儲模塊通過標準化數據接口,為上層應用服務。
4)數據建模模塊。數據建模模塊主要通過定義和描述業務指標和數據源之間的關系模型,定義業務指標的概念描述,確定業務指標的數據維度,設計各功能的數學模型,使大數據功能符合業務邏輯的要求。
5)應用服務模塊[6]。應用服務模塊基于學校目前的在線學習平臺,對學生的學習行為及教師的教學行為進行綜合分析,利用大數據技術分析出學生在網絡上的學習行為,如學習效果、學習興趣等,幫助學生去學習適合自己的學習內容;同時針對學校教師的教學情況進行大數據分析,幫助教師去優化其在線教育資源的授課模式。
①師生教學互動分析。教師及學生在學校的教學行為是高校關注的重點。平臺通過采集在線教學平臺中師生教學過程數據,能對學生的學習行為以及教師的教學行為進行分析,分析出教師的教學行為差異對學生學習效果的影響、學生每章節的學習質量、學生在線人數、學生訪問活躍度,提供教師活躍度、教師工作明細、資源建設情況、網站訪問情況、課程的互動明細等數據。
②數字化教育資源使用情況分析。通過對網絡教育資源覆蓋情況和網絡教與資源的集中熱度進行分析,可以了解學生對數字化教育資源的選取與利用情況,以便向學生推送更加適合自己的教育資源,推動學生的學習從以教師主講的單向指導模式向建設性、發現性的學習模式轉變,變被動學習為主動學習,變教師傳播知識為學生自己重新構建知識,有效地培養了學生的信息素養和建構知識的能力。
③課程綜合分析。統計學校每學期在線教育平臺的課程,從各專業培養方案和教學計劃中開設的課程等不同維度進行分析,為不同專業任課教師崗位人數設置提供依據,科學合理地配置師資力量。具體功能包括熱門課程排名、課程師資評價分析及排名、統計所有任課教師人數、選修學生人數、平均授課學時、統計每個教師負責學生人數、每周授課學時等。
④教學數據分析。通過對各類教學數據的分析,匯總班級學生學習的整體進度,幫助教師掌握學生的在線時段;提供每位學生的章節學習情況、資料使用情況;對于學習進度落后于規定計劃的學生,可以進行在線督促;提供學習明細、學生在線統計、學生訪問活躍度、教師活躍度、教師工作明細、資源建設情況、課程互動明細、同類課程平均值等數據;通過對學生典型學習特征進行抽取,通過標簽的方式對其進行畫像描述,從整體上呈現其學習狀態;通過挖掘學生學習過程數據發現其學習規律和特征,對不符合規律的異常行為進行判斷并預警和干預;根據學生的學習數據,分析其學習特征及偏好,并基于此推薦個性化的學習內容和學習活動;支持查看用戶情況,查看統計班級學生、團隊人數、訪問占比、訪問時長等數據。
⑤教學能力評估。全面考慮教師的教學工作量和教學效果,建立教師的教學能力評估模型,作為教師評優和開課量的參考,也為評估教師的綜合能力提供基礎教學能力數據,同時可以向學生提供選課參考。具體功能為統計學生評教情況、學生成績等數據,考核教師的教學質量,綜合分析教學工作數量、課程開設數、選課人數、學生評教分數、學生成績等指標。
數據整合,降低成本投入數字化教育資源是一種無形的數字資產,充分地挖掘與運用這座可無限開采的數據“金礦”,可實現數據“資產”價值的最大化。教育改革既要有膽魄,更要有科學依據,將教育活動中所產生的教育數據進行采集,依據大數據分析出的結果,給管理部門提供客觀的決策依據,可以合理減少人力、物力投入[7]。
個性化學習,決策有依據教育政策的制定不再是簡單的經驗模仿,而是強調更精細化地捕捉各個層面的變化數據,以及由數據展現的復雜相關性和因果關系,推動學生個性化學習,將教育治理與政策決策帶來的危機轉化為機遇。同時,隨著數字化教育資源的分析推廣,高校管理者在教育決策過程中能夠更加清晰地了解教育現狀,及時掌握全面有價值的信息,在此基礎上制定出更加符合教育現代化要求的教育策略,并最終保障其有效地落地實施[8-9]。
為了推動高校教育教學模式的不斷創新和改革,優化教學管理方式,提高學生個性化自主學習的能力,將來需要構建更加先進的教學理論模型,對多源、多維度的數據資源和師生的教學行為進行挖掘分析。教師及學生個人行為的標簽越豐富,優質數字化教育資源的匹配越精準。■