◇廊坊衛生職業學院 侯 婧
中國人民警察大學 賈 南
隨著教育大數據和現代智能技術的不斷發展,用戶畫像技術被逐漸應用于教育研究領域,通過準確刻畫教學參與者的特征,助推精準教學,提升教學質量。本文對用戶畫像技術在我國教育領域的研究現狀進行了梳理,首先介紹了教育領域用戶畫像技術的總體應用情況,然后從應用主題、所用算法和技術等方面進行了詳細分析,最后指出了當前用戶畫像技術在教育領域研究情況的局限性和未來發展方向。
用戶畫像技術是由交互設計之父A.Cooper最早提出的,根據其研究成果,用戶畫像是指“基于用戶真實數據的虛擬代表”[1]。通過統計分析、建立數學模型等方法對用戶的個人信息、工作數據、生活習慣和社會活動等信息進行畫像和分析,給畫像對象打上“標簽”,從而實現對用戶信息的高度凝練和深度挖掘。在大數據和人工智能技術不斷發展的背景下,上述用戶畫像技術正在被越來越多的學者用于教育領域相關問題的研究[2-3]。由于現今學生的知識基礎、學習能力和興趣愛好呈現多元化,統一的教學方法往往難以實現良好的教學效果,而用戶畫像技術的應用可以提供更加精確的學情診斷、個性化學習分析和智能決策,有助于教學效果的提升和學生個性化培養的實現。
通過在中國知網進行文獻檢索,檢索方式為主題=“‘教育’and‘用戶畫像’”or“‘學生’and‘用戶畫像’” or“‘教師’and‘用戶畫像’”,檢索時間不限,經過剔除非相關文獻,檢索出符合主題的文獻僅為44篇,可見該領域是一個較新穎的研究領域。發文量隨年度變化情況如圖1所示,用戶畫像技術在教育領域的應用從2016年開始,呈逐年遞增的趨勢,僅2019年1月至8月就發表文獻22篇,占檢索總數的一半。

圖1 文獻發表數量年度走勢圖
本文所檢索的44篇文獻中期刊論文共34篇,碩士論文9篇,報刊1篇。期刊論文中共10篇發表在中文核心期刊,占29.4%。另外,所發表的期刊中錄用論文最多的為《中國教育信息化》,數量為4篇;碩士論文中來自北京郵電大學和華東師范大學的最多,均為2篇。
論文被引用情況可反映出論文的影響力,影響力較高的5位作者分別是陳海建、趙國亮、張華峰等人,他們的論文信息如表1所示,其中3位作者發表的期刊為中文核心期刊。

表1 高引用次數論文情況
當前國內研究人員運用用戶畫像技術在教育領域的相關研究主要集中在以下幾個方向。
在應用用戶畫像技術研究教育問題的44篇文獻中,共有26篇著重于對學生的各種行為和特征進行畫像,所占比例為59.09%,可見針對學生的畫像技術應用是目前的主要研究方向。其中楊浩[4]基于學習、論壇評論、日常消費等數據設計了學生畫像系統;劉柏巖[5]依托教育大數據,圍繞mooc教學平臺,構建了包含兩個方面、三個維度的學生畫像模型。唐佳誠等[6]通過分析作業、考勤、實驗等數據構建出學生的用戶畫像,為老師掌握學生情況提供了重要依據。
在檢索出的文獻中,教師畫像的研究共有6篇,所占比例為13.63%。胡小勇等[7]基于精準教研視域,從數據預處理、構建模型、標簽建立和模型評估四個環節對教師畫像進行了深入研究。程小恩等[8]收集了教師的網絡課程信息、教務系統信息等數據,運用用戶畫像技術對教師的教學行為進行了多維度刻畫。
研究個性化學習路徑推薦策略是本領域研究的另一種視角。牟智佳等[9]為提升學習者學習針對性,從興趣愛好、知識儲備、綜合實力三個方面對學生進行了精準畫像,進而設計了個性化學習路徑。師亞飛等[10]通過分析學習者的網絡學習數據,以推薦學習元列表的方式實現了個性化學習路徑的精準推薦。
為更好的服務特定教育領域,部分學者著力于用戶畫像技術在其所從事的專業教育領域開展落地研究。李保澄等[11]為提升公安院校的教學質量,依托公安教育大數據,采用用戶畫像技術對教師和學生的行為和特征進行刻畫,為師生個性化發展提供了重要支撐。徐艷[12]以提升高校思政教育為目標,充分發揮了用戶畫像技術的優勢,對教學過程中的大量教育數據進行深度挖掘和分析。
分類算法是機器學習算法中的一個重要分支,其核心內容是依據數據集中各個樣本的多維度特征,將其劃分到給定的不同類別中。楊浩等[4]使用SVM(支持向量機)建立分類模型來預測學生的掛科情況,同時運用C4.5決策樹算法對學生的生活和學習中的異常行為進行預警。唐佳誠等[6]通過收集公共必修課中學生的作業、考勤、實驗等數據,運用GBDT(梯度提升決策樹)算法建立了教學模式分類模型,經實際數據檢驗,達到了很好的分類效果。
聚類算法為機器學習算法中的另一種重要類型。與分類算法不同,聚類算法不預設各樣本的類別,即數據集不帶標簽,通過分析數據集中各樣本的相似性和差異性將其分為不同類別。黃剛等[13]為分析學生的消費習慣、學習情況,采用K-means聚類算法建立模型,對學生的各個維度數據進行了挖掘。王曉芳等[14]選取學習過程中五類具有代表性的事件作為特征,運用K-means聚類算法建立模型,最終將學習者分為四類群體并詳細分析了各類群體的特征。
關聯規則挖掘也是機器學習算法中的一個重要研究方向,其目的是發現隱藏在數據項間潛在的關聯關系。陳海建等[15]、王凱月等[16]分別從學習風格和課程聯系兩個研究角度出發,運用關聯規則進行了深入挖掘。
廣大學者運用用戶畫像技術在教育領域進行了積極探索,取得了一定的成果,但當前的研究還存在一些局限性,主要體現在以下幾個方面。
(1)研究主題和所獲取數據不夠全面。當前運用用戶畫像技術解決教育問題的落腳點主要集中在對學生和教師的分別畫像等主題,研究方向略顯單一。用于畫像的數據大多集中在學生的興趣愛好、學習成績、社交活動等畫像個體本身層面,缺少對學生家庭情況、學校管理情況和教師教學情況等外部數據的畫像,影響了畫像結果的整體質量。
(2)畫像主要體現在靜態畫像。目前相關研究多著眼于基于學生或教師的歷史數據的靜態畫像,而人和環境都是在不斷變化的,靜態畫像結果與現今畫像對象的實際情況會存在偏差,需進一步解決。
(3)畫像模型的精度有待提升。當前用戶畫像技術所依賴的算法大多為決策樹、K近鄰等機器學習算法,這些算法的畫像精度受模型本身影響較大,需進一步探索模型的改進以提升畫像質量和精度。
(1)研究教師、學生共同體的畫像。在教學過程中,教師的教與學生的學相互影響、密不可分;單獨對教師或學生畫像忽視了二者的聯系,與客觀實際存在偏差。因此,未來應進行基于教師與學生共同體的各維度數據畫像,以便更好地為精準化教學和學生的個性化培養服務。
(2)運用動態畫像技術提升研究的時效性。教師和學生的情況是動態變化的,收集靜態數據刻畫出的教師或學生特征及對應的教學策略調整都具有一定的滯后性。因此,需要對各維度數據進行實時采集或不斷更新,準確地反映出畫像對象當前的狀態和特征,從而提升教學方法調整的時效性。
(3)基于深度學習提升用戶畫像性能。當前用戶畫像技術大多依賴于機器學習算法,畫像精度有待提高;未來隨著教學大數據資源的不斷增加,運用深度學習或其他融合模型或許能進一步提升畫像的效果。
本文梳理了用戶畫像技術在我國教育領域的研究現狀:從總體情況來看,用戶畫像技術在教育領域的研究尚處于起步階段,發展空間較大;從研究主題來看,用戶畫像的對象主要集中學生或教師,并進一步推薦個性化學習路徑;從研究方法來看,當前研究者主要運用機器學習算法中的分類、聚類和關聯規則挖掘等技術對學生的特征進行刻畫挖掘。綜上所述,筆者認為當前研究存在研究主題和所獲取數據不夠全面、畫像主要局限于靜態畫像、畫像模型的精度有待提升等問題,可以從研究教師和學生共同體的畫像、運用動態畫像技術提升研究的時效性、基于深度學習算法提升用戶畫像性能等方向進行進一步研究。