文/張海華 郭田友 張非
隨著社會(huì)步入大數(shù)據(jù)時(shí)代,高校不可避免的需要在教學(xué)及管理方面進(jìn)行一系列改革。這其中最大的變化在于,學(xué)生的一切行為在學(xué)校面前都將是“可視化”的,隨著大數(shù)據(jù)技術(shù)的深入研究與應(yīng)用,高校在教學(xué)及管理領(lǐng)域的專注點(diǎn)將聚焦于如何利用教育大數(shù)據(jù)為學(xué)生提供優(yōu)質(zhì)的課程設(shè)計(jì)、良好的學(xué)習(xí)環(huán)境、精準(zhǔn)的生活服務(wù)。于是,“大學(xué)生畫像”概念應(yīng)運(yùn)而生。
用戶畫像(persona)的概念最早由交互設(shè)計(jì)之父Alan Cooper在《About Face:交互設(shè)計(jì)精髓2》一書中提出:“Personas are a concrete representation of target users.” 是指真實(shí)用戶的虛擬代表,是建立在一系列真實(shí)屬性數(shù)據(jù)之上的目標(biāo)用戶模型。
大學(xué)生畫像來自于用戶畫像,其定義目前尚無(wú)統(tǒng)一標(biāo)準(zhǔn)。[1]李光耀等描述為“基于大數(shù)據(jù)技術(shù),通過整理搜集學(xué)生在網(wǎng)上的瀏覽、點(diǎn)擊、留言、評(píng)論等碎片化的行為軌跡,研究學(xué)生言行,這些學(xué)生的言行軌跡直接或間接反映了用戶的性格、習(xí)慣、態(tài)度等信息”。[2]董瀟瀟等描述“大學(xué)生行為畫像是利用校園數(shù)據(jù)將學(xué)生行為信息標(biāo)簽化?!?/p>
本文將大學(xué)生畫像描述成“基于以學(xué)生為中心的理念和校園大數(shù)據(jù),根據(jù)其人口學(xué)特征、學(xué)習(xí)行為、社交活動(dòng)、消費(fèi)行為、思想動(dòng)態(tài)、興趣愛好等信息抽象出來并標(biāo)簽化的一系列學(xué)生模型集合?!?/p>
大學(xué)生畫像對(duì)于高校的教學(xué)、管理和服務(wù)等方面均有著重要的指導(dǎo)意義和現(xiàn)實(shí)價(jià)值。
在課程設(shè)置方面,分析學(xué)生學(xué)業(yè)畫像,可以幫助教學(xué)管理部門更加客觀的了解學(xué)生對(duì)大學(xué)課程的真實(shí)需求,更加科學(xué)的設(shè)置課程體系,能夠精準(zhǔn)的評(píng)價(jià)每一名學(xué)生。成都電子科技大學(xué)通過構(gòu)建“學(xué)生畫像”成功實(shí)現(xiàn)大學(xué)生學(xué)習(xí)掛科預(yù)警機(jī)制。
在學(xué)生工作方面,分析學(xué)生消費(fèi)畫像,可以幫助學(xué)工部門了解學(xué)生的經(jīng)濟(jì)和消費(fèi)狀況,從而設(shè)計(jì)精準(zhǔn)、科學(xué)的幫扶機(jī)制,幫助貧困生順利完成學(xué)業(yè)。南京大學(xué)成功將大數(shù)據(jù)技術(shù)應(yīng)用于貧困生幫扶。安徽師范大學(xué)利用大數(shù)據(jù)挖掘技術(shù)為科學(xué)資助和精準(zhǔn)資助提供了決策支持。
在畢業(yè)指導(dǎo)方面,分析學(xué)生職業(yè)畫像,根據(jù)學(xué)生的能力模型進(jìn)行職業(yè)發(fā)展軌跡推薦和“學(xué)生-企業(yè)”雙向推薦,實(shí)現(xiàn)畢業(yè)生個(gè)人素質(zhì)、求職意愿和企業(yè)崗位需求信息的“人崗精準(zhǔn)對(duì)接”。海南師范大學(xué)利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)學(xué)生精準(zhǔn)就業(yè),提升了聘效率,拓寬學(xué)生就業(yè)渠道,有效管控就業(yè)數(shù)據(jù)。
根據(jù)大學(xué)生在校期間各項(xiàng)活動(dòng)和數(shù)據(jù),我們可以構(gòu)建學(xué)生基礎(chǔ)畫像、學(xué)業(yè)畫像、消費(fèi)畫像、心理畫像、思想政治畫像、職業(yè)畫像、人格畫像、評(píng)優(yōu)助困畫像、健康畫像等一系列大學(xué)生畫像集合。
構(gòu)建大學(xué)生畫像主要包括數(shù)據(jù)采集、數(shù)據(jù)清洗、用戶建模、標(biāo)簽挖掘、畫像聚類、可視化等工作。
數(shù)據(jù)采集按實(shí)時(shí)性分為在線采集和離線采集,其中在線采集包含個(gè)人基礎(chǔ)數(shù)據(jù)和使用智慧校園系統(tǒng)發(fā)生的行為數(shù)據(jù)(如學(xué)習(xí)、消費(fèi)、交流、上網(wǎng)等)。離線采集包括對(duì)各類系統(tǒng)交互日志和網(wǎng)絡(luò)爬蟲數(shù)據(jù)按照一定的算法規(guī)則進(jìn)行挖掘收集。
通過數(shù)據(jù)采集得到的原始數(shù)據(jù)源存在“臟數(shù)據(jù)”,為了保證后期標(biāo)簽挖掘的準(zhǔn)確性,需要進(jìn)行填空、去噪、刪重、修正、規(guī)范化等預(yù)處理。通過文本挖掘算法得到標(biāo)簽元數(shù)據(jù)和標(biāo)簽數(shù)據(jù)集并使之標(biāo)準(zhǔn)化,基于前述畫像維度進(jìn)行用戶建模,并通過聚類算法對(duì)學(xué)生畫像分類。
在進(jìn)行用戶建模之前,需要進(jìn)行數(shù)據(jù)采集和清洗,我們選擇Python中的Sklearn和Pandas等模塊作為數(shù)據(jù)清洗工具。
分析結(jié)構(gòu)化數(shù)據(jù)的構(gòu)成,我們做了如下清洗工作:通過使用常量替換、均值填充、回歸預(yù)測(cè)等方法處理如考試成績(jī)、三餐消費(fèi)等缺失值、異常值問題;篩選并刪除重復(fù)數(shù)據(jù);利用分箱技術(shù)的箱體均值法處理圖書借閱的噪音數(shù)據(jù)問題;通過格式轉(zhuǎn)換處理數(shù)據(jù)編碼和日期表示不一致問題;最后對(duì)清洗結(jié)果中同一維度的數(shù)據(jù)進(jìn)行歸一化和正則化處理,如家庭收入、學(xué)習(xí)成績(jī)均處理成[0,1]之間的數(shù)字。
一個(gè)事件模型包括時(shí)間、地址、人物、內(nèi)容四要素,每一次學(xué)生行為均是一次隨機(jī)事件,可以描述為誰(shuí)在何時(shí)何地址做何操作。因此數(shù)據(jù)模型概括為如下公式:學(xué)生標(biāo)識(shí)+時(shí)間+行為類型+應(yīng)用系統(tǒng)+內(nèi)容。
學(xué)生標(biāo)簽的權(quán)重可能隨時(shí)間增加而衰減,因此定義時(shí)間衰減因子為r,行為類型、應(yīng)用系統(tǒng)決定權(quán)重,內(nèi)容決定了標(biāo)簽,可轉(zhuǎn)換為公式:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×應(yīng)用權(quán)重。
如某學(xué)生上月10日在圖書館系統(tǒng)查詢了主題為大數(shù)據(jù)研究的論文,假設(shè)時(shí)間衰減因子公式r=1-(m-m0)*0.05(即每隔一個(gè)月衰減0.05),圖書館系統(tǒng)的權(quán)重為0.8,則其數(shù)據(jù)模型為:
學(xué)生學(xué)術(shù)標(biāo)簽為:科研,大數(shù)據(jù),權(quán)重為(1-0.05)*0.8=0.76。
通過定義各類行為的時(shí)間衰減因子和系統(tǒng)以及內(nèi)容權(quán)重,就可以對(duì)學(xué)生的全部行為建模。
標(biāo)簽元數(shù)據(jù)是用于描述標(biāo)簽分類的數(shù)據(jù),我們將標(biāo)簽元數(shù)據(jù)劃分為基本標(biāo)簽、經(jīng)濟(jì)標(biāo)簽、成績(jī)標(biāo)簽、知識(shí)標(biāo)簽、體育標(biāo)簽、消費(fèi)標(biāo)簽、飲食標(biāo)簽、社交標(biāo)簽、性格標(biāo)簽、心理標(biāo)簽、學(xué)習(xí)標(biāo)簽、思想標(biāo)簽等。
從數(shù)據(jù)提取維度來看,標(biāo)簽分為事實(shí)標(biāo)簽、模型標(biāo)簽和策略標(biāo)簽。事實(shí)標(biāo)簽來源于真實(shí)數(shù)據(jù),定性描述學(xué)生的基本屬性等,如家庭好、消費(fèi)高、學(xué)霸。模型標(biāo)簽是對(duì)學(xué)生屬性及行為進(jìn)行抽象和聚類概況出來的,如足球迷群體、電競(jìng)迷群體。策略標(biāo)簽是根據(jù)學(xué)生信息和行為配合一定的規(guī)則策略設(shè)定,如可能掛科、有自殺傾向等。
在實(shí)踐中,通過抓取校園論壇挖掘思想動(dòng)態(tài)標(biāo)簽,抓取百度貼吧挖掘社交標(biāo)簽,分析學(xué)習(xí)成績(jī)?cè)O(shè)置成績(jī)標(biāo)簽,分析圖書借閱數(shù)據(jù)設(shè)置知識(shí)標(biāo)簽,分析消費(fèi)行為和消費(fèi)水平設(shè)置消費(fèi)標(biāo)簽、飲食標(biāo)簽等。
通過挖掘標(biāo)簽以及設(shè)定權(quán)重,我們就可以用模型完整的表示一個(gè)大學(xué)生。
聚類,顧名思義就是“物以類聚,人以群分”,其主要思想是按照特定標(biāo)準(zhǔn)把數(shù)據(jù)集聚合成不同的簇,使同一簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí),使不同簇內(nèi)的數(shù)據(jù)對(duì)象的差異性盡可能大。就本文而言,聚類就是把相似的大學(xué)生分到同一組。
譜聚類(Spectral Clustering)是一種基于圖論的聚類方法——將帶權(quán)無(wú)向圖劃分為兩個(gè)或兩個(gè)以上的最優(yōu)子圖,使子圖內(nèi)部盡量相似,而子圖間距離盡量距離較遠(yuǎn),以達(dá)到常見的聚類的目的。
譜聚類的圖模型可解釋為:無(wú)向帶權(quán)圖模型G=
基于Python實(shí)現(xiàn)譜聚類算法流程如下:
(1)利用歐氏距離計(jì)算距離矩陣;
(2)利用kNN計(jì)算鄰接矩陣A。
(3)由鄰接矩陣A計(jì)算度矩陣D和拉普拉斯矩陣L,并標(biāo)準(zhǔn)化L→D-1/2LD-1/2。
(4)對(duì)L→D-1/2LD-1/2進(jìn)行特征值分解,得到特征向量Hnn;
(5)將Hnn當(dāng)作樣本送入K-means進(jìn)行聚類,獲得聚類結(jié)果C=(C1, C2, ..., Cn)。
針對(duì)高校智慧校園系統(tǒng)產(chǎn)生的海量數(shù)據(jù),探究大學(xué)生畫像的應(yīng)用具有重要的現(xiàn)實(shí)意義。本文通過描述數(shù)據(jù)采集、用戶建模、標(biāo)簽挖掘、畫像聚類等一系列流程構(gòu)建大學(xué)生畫像集合,可以為每一位大學(xué)生提供個(gè)性化、精準(zhǔn)的學(xué)習(xí)規(guī)劃和校園服務(wù)。