

摘要:在人工智能助推教師隊伍建設的背景下,采集多源多維教師大數據,挖掘教師偏好和行為特征構建高校教師畫像平臺,可以助力高校教師精準管理,實現高校教師隊伍管理數字化轉型。在國內教師畫像研究現狀基礎上,提出多源多維數據下高校教師畫像平臺的構建流程,包括數據采集與預處理、標簽體系建立、畫像標簽建模及服務平臺設計四個步驟,以實例搭建教師畫像平臺并探討其應用場景,可以為實現高校教師精準管理提供參考。
關鍵詞:教師畫像;多源多維數據;數據挖掘;精準管理
一、教師畫像相關研究綜述
教師畫像的概念源自用戶畫像,用戶畫像最早由交互設計之父Cooper提出,他認為用戶畫像是基于大量真實數據構建出來的虛擬用戶模型,最初主要應用在電子商務、圖書館、醫療、旅游、社交媒體等領域。教師畫像屬于用戶畫像研究的一個重要分支。近年來,隨著大數據和人工智能等新技術的應用,基于用戶畫像來描繪高校教師特征的研究也逐步展開,如提取教師科研特征的科研人員畫像[1-2]、反映教師教學行為特征的教學行為畫像[3]、體現教師學習行為特征的學習者畫像[4-5]等,這些研究成果側重于教師單維特征的描繪,主要聚焦標簽模型的構建和實現。
從教師專業發展來看,高校教師是集教學、科研、服務、管理等于一體的綜合性人才,應該從多個平面去描繪教師特征,使得教師形象更加豐滿。因此,本研究從教師大數據的視角出發,提出一種多源多維數據下教師畫像平臺構建方法,一方面收集教師大數據,建立多層次、多維度的教師畫像平臺標簽體系,豐富畫像平臺展示維度。另一方面將數據挖掘技術與教師大數據結合,重點分析構建流程中的標簽建模關鍵技術。最后實例探討教師畫像平臺在高校精準管理等方面的應用,為實現高校教師隊伍精準管理提供參考。
二、教師畫像平臺構建流程
針對現有教師畫像的構建流程,胡小勇[6]將教師畫像的構建流程分為數據采集、數據預處理、畫像模型構建、標簽體系建立、畫像質量評估和畫像精準應用六個步驟;于方[7]將畫像的構建流程分為教育數據采集與預處理、建立用戶標簽體系、建立畫像挖掘模型和提供面向應用的數據服務四個模塊;肖君[5]指出,完整的畫像構建流程包括畫像目標設定、數據收集、畫像建模、畫像生成和畫像應用評價五個階段。參考上述學者的畫像構建流程,結合高校實際應用需求,本研究將教師畫像平臺的構建流程分為四個步驟,包括數據采集與預處理、標簽體系建立、畫像標簽建模、畫像平臺設計。
(一)數據采集與預處理
高校教師的活動主要圍繞晉升、培訓、教學、科研、服務開展,因此本研究依據教師的職業發展軌跡,并結合數據可及性提出了教師畫像平臺所需的六個維度數據,包括人員基本數據、工作晉升數據、教師培訓數據、教研成果數據、課堂教學數據、社會服務數據。平臺所采集的數據是多源異構的,并不能直接用于分析,為保證標簽計算結果的精確性和可靠性,需要進一步對數據進行預處理,一般包含數據清洗、實體抽取、數據融合三個步驟[8]。數據清洗是為了解決數據缺失、數據重復、數據異常、邏輯沖突等問題。例如,采集人員基本數據過程中缺少部分學科數據,則可以依據所屬院系、成果類型等數據進行補充。實體抽取指從文本數據中抽取所需的字段。例如,從評教系統的學生評價中抽取關鍵詞、從個人主頁中抽取社會兼職信息等。數據融合需要整合來自不同數據源的數據,統一存儲在畫像數據庫中。例如,需要統一校內人員編號和第三方平臺的人員編號,涉及人名消歧等技術。
(二)標簽體系建立
標簽體系是建立教師畫像的關鍵環節,一個好的標簽樹結構要滿足高概括性和強延展性這兩個條件[9],按照上述原則,并參考現有學者的標簽體系架構,本研究綜合梳理了覆蓋教師活動軌跡的教師畫像平臺七維層次化標簽體系,分別為人員屬性、晉升特征、知識特征、教學特征、科研特征、社會服務、風險控制,并在七大維度的基礎上,細分出二級歸類和三級歸類。圖1所示為教師畫像平臺層次化標簽體系的整體架構,前六個維度分別對應六大數據來源,可以覆蓋高校教師的日常活動。借鑒電商平臺在構建用戶畫像標簽體系時會設置風險控制維度,可以有效監控存在賬號風險、借貸風險等平臺不良用戶,以消滅或減少風險事件的發生。將風險控制維度引入到教師畫像平臺標簽體系中,則可以幫助高校管理人員監控存在各類風險的教師群體,提前采取措施以提高人才培養質量、減少人才流失,因此風險控制維度的設立是非常有必要的,本研究將其作為標簽體系的第七個維度。
(三) 畫像標簽建模
1.標簽定義
標簽建模是畫像平臺構建過程中最主要的環節,根據標簽的生產方式可以將標簽劃分為三種類型:第一種是統計類標簽,該類標簽是基于原始數據構建的,構建難度低,可以從數據庫中直接獲取或者通過簡單的統計得到,如{“性別”:“女”}{“近10年高水平論文數”:8}等。第二種是規則類標簽,該類標簽是基于教師行為及確定的規則產生的,如對知識特征中的“學習頻度高”這一標簽的定義為“近30天學習次數≥2”。第三種是挖掘類標簽,該類標簽通過機器學習挖掘產生,用于對教師的某些屬性或某些行為進行預測判斷,如根據教師的科研行為判斷其科研潛力、預測人才流失風險等,這類標簽可以表示為{“科研潛力”:0.85}{“人才流失風險”:0.3},分值即標簽屬性值。綜合三類標簽的特點,可以發現統計類和規則類標簽是最常見的標簽類型,主要是對已有數據的統計,構建難度低,是標簽體系的主要組成部分。而挖掘類標簽需要算法的參與,構建相對復雜,是標簽體系的重點部分,圖1中用深色背景標出了部分挖掘類標簽。
2.挖掘類標簽提取模型
現有描繪教師特征的挖掘類標簽建模技術主要有范曉玉、王東等通過構建科研偏好向量、科研能力計算、科研關系網絡和科研信用分析模型進行標簽抽取 [1-2]。黃建國[10]通過構建學習態度、行為偏好、資源偏好模型進行標簽抽取。王莉莉[4]通過構建學習行為和文本情感模型進行標簽提取。從上述研究中發現,對不同類型用戶畫像進行標簽抽取所使用的模型有共通之處,因此本研究參考現有挖掘類標簽抽取所使用的分析模型,通過構建偏好模型、預測模型、聚類模型進行本平臺挖掘類標簽的提取。
偏好模型的構建主要是從用戶的行為日志中進行核心信息的抽取、標簽化和統計,通過內容建模和興趣衰減得到用戶的興趣偏好。以“研究方向偏好”為例,根據教師發表論文的關鍵詞來表示研究方向,首先計算每個關鍵詞的次數權重,接著使用自適應指數衰減函數[1]構建研究偏好模型,計算關鍵詞在作者研究生涯中的時間衰減權重。其次權衡次數權重和衰減權重得到每個關鍵詞的綜合得分,最后對得分排序得到教師的研究方向偏好。本文的偏好類標簽主要分布在知識特征維度的資源偏好、教學特征維度的學生印象和教研領域、科研特征維度的科研方向等部分,在不同的場景中會根據偏好變化的速度來靈活調整時間衰減級別,如按周、學期進行衰減。
預測模型的構建是以統計理論為基礎,通過一系列用于分類和回歸的機器學習算法對已知的訓練數據做統計分析從而獲得規律,再運用規律對未知數據做預測。以“人才流失預測”為例,需要判斷人才是否會流失,屬于二分類問題。首先對流失人才數據做標注,將數據集分為訓練和測試數據。其次選取有效特征建立人才流失模型,由于標簽體系中的特征維度較多不利于統計分析,故需要對特征數據進行降維、降噪,如主成分分析法、逐步篩選法等。再次進行機器學習模型選擇,本平臺參考scikit_learn[11]官方指南選擇隨機森林模型。最后進行參數調優和測試集驗證。本文的預測類標簽主要分布在風險控制維度的業務預警和人才流失預測、科研特征維度的潛在科研合作者等部分。
聚類模型的構建是通過聚類過程將樣本劃分成不同的組,使得同一組內的樣本具有相似的特征,即“物以類聚,人以群分”,用于分析組內特點或者組間差異。以“教師教學模式挖掘”為例,首先選取有效特征建立聚類模型,本例中假設選取了課堂講授、課堂測試、自主探究、小組協作、總結評價、反思提升為特征屬性。其次進行聚類算法的選擇和評估,常用的聚類算法有k均值、DBSCAN和凝聚聚類。最后對聚類結果進行解釋,生成聚類標簽。本文的聚類標簽主要分布在教學特征維度的教學形態和教學能力、科研成果維度的科研綜合能力、社會服務維度的成果轉化能力等部分。
(四)畫像服務平臺
現有研究對教師畫像的論述主要集中在數據處理、標簽建模及應用展望上,對畫像平臺的建設缺乏整體規劃。其實畫像服務平臺就是將畫像標簽“產品化”的過程,可以為教師畫像的精準應用奠定平臺基礎。參考主流用戶畫像的產品設計后,本研究根據教師畫像的應用場景設計了標簽廣場、人群圈選、對比分析、標簽管理四大功能模塊。一是標簽廣場,用于展示標簽維度、標簽值及標簽含義,使用者可以直觀地了解所有標簽。二是人群圈選,可以自定義標簽組合,通過標簽之間的交、并、差來創建人群包,如圈選科研發表能力強的青年教師群體。三是分析對比,可以針對單個教師進行全方位畫像描繪,也可以實現教師個體間及教師群體間的可視化對比,如不同學科教師不同維度數據的對比。四是標簽管理,主要面向后臺管理員,可以對標簽進行增刪改查、生命周期維護和平臺對接,并提供權限管理。基于此平臺,管理者可以對教師特征進行進一步分析挖掘,實現精準服務。
三、畫像平臺構建實例
本研究實例部分的數據是從多個平臺獲取的。數據包括從人事系統中獲取教師的基本數據和工作晉升數據形成人員屬性維度及晉升特征維度,從培訓平臺中獲取教師的行為數據形成知識特征維度,從三方數據庫中獲取教師的科研發表情況并爬取科研社交平臺的好友情況共同形成科研特征維度,從教務系統中獲取教師的教研成果數據并與教學反饋數據形成教學特征維度,從個人主頁中獲取教師的社會活動數據并與科研系統中的智庫數據共同形成社會服務維度。最后基于以上六個維度的數據構建預警模型和人才流失模型,形成風險控制維度。
本研究根據平臺構建流程搭建教師畫像平臺,首先通過數據集成工具、爬蟲工具、線下文檔等方式采集原始數據并進行數據的預處理。然后根據圖1中設定的標簽類型生成相應的特征標簽,淺色標簽是統計類標簽和規則類標簽,主要是對已有數據的轉換和統計,而深色標簽則是挖掘類標簽,涉及算法模型的構建。標簽建模完成后,將得到的特征標簽存儲在MySQL數據庫中,最終形成{教師ID,標簽ID,維度ID,有效狀態,創建時間}特征表,便于畫像平臺調用。
畫像服務平臺在特征表的基礎上設置兩大功能模塊:一是個人畫像模塊,平臺基于標簽體系設計了教師個人畫像頁面,包括個人與群體特征的橫縱向對比、標簽的可視化展示形式等,如圖2所示的教師畫像個人頁面。二是人群圈選與分析模塊,畫像平臺可以根據具體場景進行人群圈選、分析對比。例如,學工管理者可以根據研究領域標簽圈選某個研究方向的教師群體,查看得分排行并下鉆研究歷程,以便于開展定向合作,或者教師考核工作辦公室可以根據聘期考核預測標簽圈選下一次聘期考核預測不通過的教師群體,查看名單并下鉆教師個人預警雷達圖,有針對性地予以幫助。
四、結語
傳統的教師數據以教學、科研、管理等結構化數據為主,隨著智慧教學平臺、在線培訓平臺、教研交流平臺等三方平臺的建設,產生了課堂教學行為、學習培訓記錄、研究互動日志等半結構化和非結構化數據。這些數據的產生極大地豐富了教師數據維度,提供了洞見現象和問題的客觀基礎。同時,數據挖掘技術可以將教師畫像從“千人一面”的數據展示變為“千人千面”的個性化標簽集合,進而提供精準、個性化的數據服務。
鑒于此,本文提出構建高校教師畫像平臺的四步構建流程,首先對多源數據進行采集和預處理。其次基于高概括性和強延展性的原則構建層次化教師畫像標簽體系,然后重點介紹畫像標簽生成所涉及的關鍵模型,最后借助可視化平臺實現標簽生成展示、人群圈選對比等功能。
目前,高校教師畫像的研究相對匱乏,本文旨在提出一個全面、系統的框架并進行實例構建,豐富并拓展了教師畫像平臺的研究路徑,為教師大數據的應用與教師畫像平臺的落地提供了有力參考。限于篇幅,本文僅展示部分實證過程,后續將在本文基礎上深入探討復雜標簽模型的構建以及教師畫像在促進教師隊伍建設等方面的應用。
參考文獻
[1]范曉玉,竇永香,趙捧未,等.融合多源數據的科研人員畫像構建方法研究[J].圖書情報工作,2018,62(15):31-40.
[2]王東,李青,張志剛,等.科研人員畫像構建方法研究[J].情報學報,2022,41(08):812-821.
[3]王冬青,劉歡,邱美玲.智慧課堂教師行為數據的分析方法與應用驗證[J].中國電化教育,2020(05):120-127.
[4]王莉莉,郭威彤,楊鴻武.利用學習者畫像實現個性化課程推薦[J].電化教育研究,2021,42(12):55-62.
[5]肖君,喬惠,李雪嬌.大數據環境下在線學習者畫像的構建[J].開放教育研究,2019,25(04):111-120.
[6]胡小勇,林梓柔.精準教研視域下的教師畫像研究[J].電化教育研究,2019,40(07):84-91.
[7]于方,劉延申.大數據畫像——實現高等教育“依數治理”的有效路徑[J].江蘇高教,2019(03):50-57.
[8]王世奇,劉智鋒,王繼民.學者畫像研究綜述[J].圖書情報工作,2022,66(20):73-81.
[9]楊楠楠,李凱東,陳新濤,等.數據產品經理實戰進階[M].北京:機械工業出版社,2023.
[10]黃建國,唐燁偉,范佳榮,等.基于xAPI的在線學習環境中精準師訓畫像構建研究[J].中國電化教育,2020(04):102-108.
[11]Scikit-learn.(n.d.).Machine Learning Map[EB/OL].Retrieved from http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html.
基金項目:2022年度高等教育科學研究規劃重點課題“融合多源數據的教師全息畫像構建與應用研究”(項目編號:22XX0303)
作者單位:對外經濟貿易大學網絡安全和信息化處
責任編輯:王穎振、鄭凱津