劉博文(天津外國語大學信息化建設辦公室 天津 300401)
近幾年,隨著互聯網、移動技術的迅猛發展,高校信息化及數字化校園建設取得了較大進步,高校的管理、教學、科研等相關信息化深度和廣度不斷增強,在高校積累了大量師生用戶及行為數據,通過電子畫像技術將這些數據進行有效利用,能對學校起到重要的指導、輔助作用。
2.1 電子畫像。電子畫像是大數據技術的一個重要應用,其目的是針對用戶在多維度上構建描述性的標簽屬性,從而對用戶的社交信息、基本信息、行為信息等多方面的真實特征進行描繪勾勒,可用于描述用戶的興趣、行為、特征及偏好[1]。目前,已經有根據運商數據進行用戶征信的客戶畫像研究[2],針對網絡安全的用戶行為畫像的研究[3],基于電力大數據的標簽畫像技術與應用[4]等不同方向的研究。近幾年已有一些高校開始了一些關于用戶畫像應用的嘗試,電子科技大學已將電子畫像技術應用到掛科預警[5],復旦大學對不同分類群體的學生進行數據分析,發現了來自不同區域和背景的學生成績的顯著差異性。本文以高校學生數據為研究對象,結合電子畫像技術在高校的的應用進行了研究。
2.2 整體架構。電子畫像主要由數據采集、數據預處理、數據標簽化和畫像展示應用四個部分構成,如圖一所示。

(1)數據采集。數據采集前首先要準確識別目標用戶,本文以高校學生數據為研究對象,而學生數據分為成兩類:靜態數據和動態數據。靜態數據包括了用戶屬性、性別、年級、戶口所在地、專業等穩定的信息;動態數據包括了課程成績、食堂消費信息、圖書館借閱信息等動態變化的信息。靜態數據可以采用批處理的方式進行采集,調度周期可以很長,動態數據采集可以使用工具Flume。
目前,很多高校已經基本建立了完備的教務管理信息系統、學工管理系統、一卡通管理系統等,在統一數據中心存儲了大量數據,因此可以從統一數據中心進行數據采集,選取出需要的數據進行下一步的處理。
(2)數據預處理。數據中心的數據不全是結構化的,還積累了大量的非結構化和半結構化數據,并且為了保證數據的質量,需要對采集的數據進行數據加載、數據清洗、數據去重、標準化等處理。使之轉化為機器更容易讀取、使用的結構化數據。同時還需要根據時間演進,比如時間周期有日、周、月等維度,不斷更新數據模式,確定數據實體之間的關系。最終數據將按統一的格式進行存儲,為標簽化工作做好了準備。
(3)數據標簽化。標簽通常一種是人為規定的高精煉的特征標識,是一種可以把數據形象化的方法,是基于人為定義的一種規則,為所要描繪的狀態給出一個明確語義描述。通過對采集到的原始數據進行處理、統計分析,抽取、集成得出特征數據,并對特征進行擴展、訓練,從而歸納出標簽模型。
標簽有以下兩個特點:
語義化:由于是人制定標簽規則,人們可以方便地理解每個標簽的含義,標簽化語言也可以避免每次不同人、不同解釋帶來的理解偏差。
短文本:每一個標簽通常只表示一個含義,標簽本身已不需要做過多文本分析等預處理的工作,為機器讀取標準化的信息、聚合分析提供了便利。
(4)畫像展示。畫像展示包括個體畫像展示、分類群體畫像展示、全體畫像展示以及自定義群體畫像展示。由于結果之間可能數據維度較多、關聯關系復雜,因此需要利用可視化技術,將對象數據進行結構化的擺放,突出關鍵信息,以適合人類思維圖形化的方式將最終結果進行呈現。同時,畫像展示應該能夠支持人為對畫像結果進行調整,以適應不同需求,并且可根據用戶點擊情況自動地識別出用戶關注度,來對標簽權限進行調整。
高校積累了大量用戶數據,比如學生專業、性別等基本信息,宿舍出入門禁信息、食堂消費等生活信息,圖書借閱、網絡學習、選課等學習信息,以及參加社團、活動等各種信息。因此,通過電子畫像技術對以上信息進行收集和分析,進行用戶建模,可以來對學生進行就業情況分析、行為軌跡查詢與分析、綜合預警、心理分析等。下面以職業傾向預測和學生社交畫像為例進行說明。
3.1 職業傾向預測。影響就業傾向的關鍵因素有很多,比如學生的家庭經濟情況、興趣愛好、技能掌握情況。家庭經濟情況可以根據學生的消費信息進行分析,通過采集一卡通消費數據建立起消費數據的時間序列,對消費的周期性、波動性與沖動性等進行度量;專業技能掌握情況可以通過采集和分析學生不同科目的成績,判斷出學生對不同知識的掌握情況;由于不同職業傾向的學生在圖書借閱上會有較大差別,比如準備出國的學生往往會增加對外國歷史、文學、托福和雅思類書籍的借閱,考研的學生更會傾向數學、政治等考研科目的參考書,所以情趣愛好可以通過對圖書借閱信息進行采集和分析進行判斷。通過對學生以上三種數據的采集、分析和挖掘,可以生成對應著不同的學生特征標簽,通過標簽結果可以對學生未來的就業傾向進行精準預測,有助于就業指導教師對畢業生提供個性化的就業指導。
3.2 學生社交畫像。通過分析學生在校園行為軌跡的相似性可以對其社交網絡進行構建。需要統計在短時間內在同一地點不同學生出現的頻率,分析共現的顯著性,并且對學生基本數據進行采集,如性別、專業、民族等,以此分析出每個人的個性化社交需求,刻畫其社交圈。比如通過采集一卡通信息,發現如果有兩、三個同學一天內同時進出過宿舍、食堂、小賣部,并且這一現象周而復始,再結合其基本信息,比如年級、專業等數據進行分析,那么就可確定這位同學的社交圈,并且通過標簽模型可對學生社交情況進行定義,為學校學生管理者提供更好的工作參考,有助于為學生匹配有共同文化認可的社交團體,更好地滿足學生個體社會交往需要。同時,當發現某位學生的社交范圍過于狹窄甚至為0時,則會通過標簽信息給出預警和進行危機干預的建議,對學生成長起到正面的促進作用。
通過電子畫像技術對高校用戶進行分析,為學校對學生進行個性化、精準化的指導提供了有效依據,對推進學校治理體系和治理能力的現代化、提升教學及管理水平具有積極輔助作用。然而還有很多挑戰需要克服,比如異構的數據類型和參差不齊的數據質量給數據采集、集成提出了新的挑戰。高校應該探索如何將結構化、非結構化以及半結構化數據進行融合,同時注重數據采集的質量,強化數據文化。此外還需要緊密跟蹤業界研究動態,同時加強高校間的溝通協作,不斷探索新技術與高校數據的結合與應用。