田永健
(內(nèi)蒙古自治區(qū)大數(shù)據(jù)中心,內(nèi)蒙古 呼和浩特 010000)
近年來,隨著互聯(lián)網(wǎng)及大數(shù)據(jù)等技術(shù)快速發(fā)展給人們的學(xué)習(xí)生活帶來便利,內(nèi)蒙古教育云平臺的教育資源也呈幾何級數(shù)增長,然而面對海量的資源,師生仍然難以獲取自己需要的優(yōu)質(zhì)資源。教育部下發(fā)的教育新型基礎(chǔ)設(shè)施的指導(dǎo)意見提出,優(yōu)化資源供給服務(wù),升級資源搜索引擎,通過平臺模式為師生提供海量的優(yōu)質(zhì)資源和精準(zhǔn)的資源服務(wù)。
推薦系統(tǒng)就是解決這種用戶沒有明確需求或者內(nèi)容數(shù)量巨大、凌亂情況下的用戶資源服務(wù)體驗的問題的。目前,教育資源的推薦系統(tǒng)主要包括:基于關(guān)聯(lián)規(guī)則的推薦、基于內(nèi)容的推薦、基于知識的推薦、協(xié)同過濾的推薦等。在教育資源的推薦過程中,仍然存在推薦不精準(zhǔn)、指向不明等情況。本文以內(nèi)蒙古教育云平臺的系統(tǒng)實踐為例,就其在教育云資源推薦系統(tǒng)中的體系架構(gòu)、推薦流程及推薦算法邏輯進行闡述。
首先采用智能技術(shù)通過各來源匯聚優(yōu)質(zhì)資源,包括內(nèi)部自建資源、平臺教師共建資源及外部合作及購買資源。建立一個教育資源庫并進行數(shù)據(jù)預(yù)處理。然后提升基礎(chǔ)設(shè)施環(huán)境,搭建教育資源模塊化系統(tǒng),建立用戶數(shù)據(jù)模型、資源數(shù)據(jù)模型、用戶關(guān)系模型和行為數(shù)據(jù)模型,以及算法調(diào)度系統(tǒng)架構(gòu)等。建立資源服務(wù)系統(tǒng),面向教師用戶的教學(xué)場景提供資源推送服務(wù)。最后結(jié)合教育云平臺提供資源的智能化服務(wù),以及資源的供給分析服務(wù),從而促進優(yōu)質(zhì)資源的覆蓋,實現(xiàn)為教師的資源精準(zhǔn)化服務(wù),提升教育均衡發(fā)展,建立更加適切、更加人本、更加平等、更加可持續(xù)的教育體系。
教育資源推薦業(yè)務(wù)流程圖見圖1。

圖1 教育資源推薦業(yè)務(wù)流程
首先,教育資源精準(zhǔn)推送需要基于各方面匯聚的教育資源數(shù)據(jù)、教育用戶數(shù)據(jù)及用戶行為數(shù)據(jù)等各方面數(shù)據(jù),因此需要一個大數(shù)據(jù)基礎(chǔ)平臺,用來采集匯聚以及管理各方面的相關(guān)數(shù)據(jù),并可以進行數(shù)據(jù)治理,提交給后續(xù)算法模塊的數(shù)據(jù)必須經(jīng)過清洗、建模后的數(shù)據(jù),需要保證良好的數(shù)據(jù)質(zhì)量,否則推薦結(jié)果必然不準(zhǔn)。
有了各類數(shù)據(jù)原料之后,推薦引擎作為推薦系統(tǒng)的核心模塊實現(xiàn)數(shù)據(jù)、算法和推薦服務(wù)的銜接。推薦引擎要為算法準(zhǔn)備數(shù)據(jù),評估數(shù)據(jù)是否符合算法要求;推薦引擎還要能調(diào)整算法參數(shù)不斷優(yōu)化推薦結(jié)果,能將多種算法的結(jié)果組合形成不同的推薦策略并進行對比。
推薦系統(tǒng)每一次用戶使用推薦教育資源內(nèi)容后的反饋信息都可以促使推薦系統(tǒng)優(yōu)化、完善,從而使用戶節(jié)約更多的無效搜索和查找教育資源的時間,更能體現(xiàn)出教育資源推薦系統(tǒng)的價值。
教育資源精準(zhǔn)推送體系架構(gòu)見圖2 所示。
建立教育大數(shù)據(jù)中心,利用大數(shù)據(jù)中心平臺匯聚內(nèi)外部優(yōu)質(zhì)資源數(shù)據(jù),包括內(nèi)蒙古教育云資源數(shù)據(jù)、一師一優(yōu)課資源數(shù)據(jù)、名師工作室資源數(shù)據(jù)、活動獲獎資源數(shù)據(jù)、優(yōu)質(zhì)廠商資源數(shù)據(jù)等,對數(shù)據(jù)進行清洗、整合、建模和數(shù)據(jù)挖掘,形成基于資源匯聚和資源數(shù)據(jù)模型的知識圖譜、基于資源應(yīng)用行為數(shù)據(jù)模型的資源畫像、基于用戶數(shù)據(jù)模型的人際關(guān)系網(wǎng)絡(luò)、基于通用行為數(shù)據(jù)模型的用戶畫像等模型。基于以上模型,推薦引擎根據(jù)教育資源使用場景定義推薦策略和規(guī)則,結(jié)合多種機器學(xué)習(xí)和人工智能的推薦算法提供資源推薦能力。然后為用戶提供智能資源應(yīng)用服務(wù),智能導(dǎo)航主要是幫助用戶快速準(zhǔn)確查找資源;智能錯題本則是融合了用戶畫像和知識圖譜的為學(xué)生提供的個性化學(xué)習(xí)資源,另外還有智能備課、智能組卷等。通過開放平臺可以進一步將智能資源應(yīng)用接入第三方應(yīng)用,擴大智能資源應(yīng)用服務(wù)的覆蓋面。資源服務(wù)優(yōu)化決策中心使得管理者能夠方便管理資源服務(wù),決策者隨時全面了解資源服務(wù)的總體情況和關(guān)鍵服務(wù)指標(biāo)情況。
基于內(nèi)蒙古教育云平臺的相關(guān)數(shù)據(jù),建設(shè)資源推薦的系統(tǒng)方案包括以下部分:
資源應(yīng)用過程跟蹤計算中心是匯聚教育云資源數(shù)據(jù)并建立模型為資源智能服務(wù)提供數(shù)據(jù)支撐的大數(shù)據(jù)中心。其建設(shè)內(nèi)容有:基于資源匯聚和資源模型的知識圖譜、基于資源應(yīng)用行為的資源畫像、基于用戶數(shù)據(jù)的人際關(guān)系網(wǎng)絡(luò)、基于通用行為數(shù)據(jù)模型的用戶畫像。
1.基于資源應(yīng)用行為數(shù)據(jù)模型的資源畫像
基于統(tǒng)一的大數(shù)據(jù)采集規(guī)范,通過對用戶在資源應(yīng)用過程中的行為數(shù)據(jù)采集,構(gòu)建包含用戶查找、收藏、分享、推薦、評價等行為以及用戶資源訪問歷史的資源應(yīng)用行為數(shù)據(jù)模型,形成資源畫像。
資源應(yīng)用行為描述資源全生命周期的所有事件,描述用戶通過平臺查找資源的行為過程;描述用戶分享、推薦資源的行為過程;描述資源評價數(shù)據(jù)模型和用戶評價行為模型。
在教育云平臺提供資源檢索行為記錄的基礎(chǔ)上,采集用戶檢索資源的行為。查找行為數(shù)據(jù)模型應(yīng)記錄檢索類型和檢索入口。須采集檢索人、檢索時間、關(guān)鍵字、檢索結(jié)果數(shù)量、檢索入口、檢索類型等信息。
采集資源的分享、收藏、推薦等行為。采集的數(shù)據(jù)包括:資源的訪問行為、資源的分享類別和時間周期。
資源評價行為通常表現(xiàn)為:點贊、評論等,采集數(shù)據(jù)包括:資源的訪問行為、評價行為類型、評價的結(jié)果信息。
資源的訪問歷史數(shù)據(jù)須采集:(1)基礎(chǔ)行為數(shù)據(jù)。時間、資源體、用戶;(2)行為前導(dǎo)信息數(shù)據(jù)。檢索、推薦;(3)行為過程數(shù)據(jù)。停留時間、有無下載等。
2.基于用戶數(shù)據(jù)模型的人際關(guān)系網(wǎng)絡(luò)
遵循國家教育信息管理標(biāo)準(zhǔn)規(guī)范,采集內(nèi)蒙古教育云、第三方應(yīng)用的用戶數(shù)據(jù),構(gòu)建包含用戶個體基礎(chǔ)信息、群體信息、人際關(guān)系信息的數(shù)據(jù)模型,實現(xiàn)人際關(guān)系網(wǎng)絡(luò),支持用戶信息在各系統(tǒng)間的安全共享。
個體基礎(chǔ)信息指用戶個人相關(guān)的數(shù)據(jù),包括特征型數(shù)據(jù)、檔案型數(shù)據(jù)。特征型數(shù)據(jù)是指具有特定值的用戶信息,如性別、年齡等;檔案型數(shù)據(jù)是指每個用戶有多個值的數(shù)據(jù),如成就、學(xué)習(xí)經(jīng)歷等。在特征型數(shù)據(jù)和檔案型數(shù)據(jù)的基礎(chǔ)上,可派生出分類屬性,用于用戶分類。
群體信息是指因各類活動需要組成的用戶群體,是一種組織行為形成的用戶聚集,例如行政班、教學(xué)班、工作組等,群體之間存在從屬關(guān)系,每個群體最多有一個父群體。在群體基本信息的基礎(chǔ)上,可派生出分類屬性,用于群體的分類,如年級段。
人際關(guān)系可以通過群體體系體現(xiàn),如同學(xué)關(guān)系、校友關(guān)系等。也可通過相互關(guān)注的好友關(guān)系體現(xiàn)。從數(shù)據(jù)中提取這些關(guān)系建構(gòu)人際關(guān)系網(wǎng)絡(luò),在推薦的時候使用。
3.基于通用行為數(shù)據(jù)模型的用戶畫像
通用行為是指用戶、群體應(yīng)用各類系統(tǒng)的行為數(shù)據(jù),如用戶的登錄行為、與其他用戶的互動行為等。通用行為模型包括:個體行為數(shù)據(jù)模型和群體行為數(shù)據(jù)模型。
個體行為數(shù)據(jù)采集信息通常包括行為發(fā)起人信息、行為發(fā)起時間和持續(xù)時間、行為過程信息、行為結(jié)果信息等。群體行為數(shù)據(jù)可通過群體動態(tài)信息表征。群體動態(tài)信息按類別存放,如班級活動、學(xué)校活動,不同群體可以有同類動態(tài)信息。
基于統(tǒng)一的大數(shù)據(jù)采集規(guī)范,通過對用戶在各類應(yīng)用系統(tǒng)上的通用行為數(shù)據(jù)采集,構(gòu)建包含用戶個體行為、群體行為的通用行為數(shù)據(jù)模型,形成內(nèi)蒙古各類教育用戶的用戶畫像。推薦算法結(jié)合用戶畫像,為用戶實現(xiàn)更為精準(zhǔn)的資源推送。
教育資源推薦引擎是一個推薦算法平臺,提供多種推薦算法的靈活組合配置。教育資源推薦系統(tǒng)的流程分為離線層、算法層和配置層。
在資源應(yīng)用過程跟蹤計算中心使用機器學(xué)習(xí)和數(shù)據(jù)挖掘算法完成知識圖譜、人際關(guān)系網(wǎng)絡(luò)、資源畫像及用戶畫像等模型的構(gòu)建。算法層位于離線和配置層之間,主要由各種推薦算法組成。算法層從離線層獲取數(shù)據(jù)并加載到高速存儲供算法調(diào)用。配置層對算法規(guī)則進行配置,包括規(guī)則配置、權(quán)重配置,以及對結(jié)果進行排序組合;通過AB 測試進行流量分流驗證,看哪種算法配置更有效;效果監(jiān)控是對算法推薦的結(jié)果的數(shù)據(jù)分析呈現(xiàn),最終為不同用戶呈現(xiàn)個性化的推薦結(jié)果。
教育云的資源推送不同與互聯(lián)網(wǎng)的那些推薦,不能簡單照搬互聯(lián)網(wǎng)的推送模型。首先,教育的資源推送具有很強的學(xué)科和學(xué)段的差異性,不同學(xué)科的知識內(nèi)容結(jié)構(gòu)差異很大,特別是一些理科與文科的差別,還有一些學(xué)科注重實踐,所以在推薦系統(tǒng)設(shè)計時要特別考慮。其次,教育推薦是為了幫助教師的教學(xué)和幫助學(xué)生學(xué)習(xí)為主,不能完全以個人的好惡來評判。
根據(jù)內(nèi)蒙古現(xiàn)有數(shù)據(jù)基礎(chǔ),我們設(shè)計了如下幾個算法作為推薦系統(tǒng)的基礎(chǔ)算法。
1.基于資源畫像推薦算法
根據(jù)資源行為計算S(行為)數(shù)據(jù)評分,構(gòu)建資源畫像數(shù)據(jù)集。根據(jù)用戶特征構(gòu)建用戶特征標(biāo)準(zhǔn)矩陣。資源畫像數(shù)據(jù)集與用戶特征標(biāo)準(zhǔn)矩陣通過相似度算法(余弦相似度)計算相似度。給用戶推薦相似度最高的TopN 資源。算法按照學(xué)科學(xué)段分批計算。
S(行為)=S(click)*w1+S(favor)*w2+S(download)*w3+S(share)*w4
w1,w2,w3,w4 為權(quán)重
S(行為),S(click), S(favor),S(download),S(share),分值范圍控制在0-1 區(qū)間
W1+w2+w3+w4=1
S(score)=(S0+S(mean))/2平均值,S0為沒有評分的初始值計算相似度的時候,每個特征還有一個權(quán)重值參與計算。
基于資源畫像推薦算法流程見圖3:

圖3 基于資源畫像推薦算法流程圖
算法思路,基于資源行為的資源畫像與用戶特征匹配,推薦最匹配N 個資源。
算法步驟:分析算法主要包括數(shù)據(jù)清洗、整合及轉(zhuǎn)換,評分計算,然后構(gòu)建用戶特征矩陣,然后通過相似度算法計算最匹配N 個資源推薦。
算法價值:根據(jù)資源的行為及用戶評分的資源畫像,來匹配用戶特征,得到最優(yōu)匹配的推薦資源。
2.基于用戶畫像推薦算法
根據(jù)用戶的資源通用行為形成用戶畫像數(shù)據(jù)集,通過kmeans 聚類算法,將用戶分為k 類,反映不同用戶使用教學(xué)資源的行為模式類別。然后根據(jù)用戶所在的不同用戶簇,對用戶推薦該集群評分大于初始評分S0 的最高的N 個資源。
基于用戶畫像推薦算法流程圖見圖4:

圖4 基于用戶畫像推薦算法流程圖
算法步驟:分析算法主要包括數(shù)據(jù)清洗、整合及轉(zhuǎn)換,評分估計,基于用戶通用教學(xué)行為數(shù)據(jù)對用戶進行聚類,計算各聚類簇評分最高的N 個資源,對用戶進行TopN 推薦。
算法價值:根據(jù)用戶的通用教學(xué)行為,通過聚類把行為類似的用戶聚集在一起。然后根據(jù)聚類簇中用戶的平均評價行為去預(yù)測聚類簇中單個用戶的行為。
3.基于人際關(guān)系推薦算法
此算法即根據(jù)用戶的人際組織關(guān)系,將相同組織關(guān)系的用戶使用的資源,推薦給同組織的其他用戶。
基于人際關(guān)系推薦算法流程見下圖5:

圖5 基于人際關(guān)系推薦算法流程圖
算法步驟:根據(jù)用戶級組織關(guān)系數(shù)據(jù),獲取并加載用戶組織數(shù)據(jù)集,并對數(shù)據(jù)進行評估檢查,利用資源行為數(shù)據(jù)對資源進行評分,便于推薦排序,計算各組織下評分最高的N 個資源,對用戶進行TopN 推薦。
算法價值:根據(jù)同組織用戶關(guān)系進行推薦,體現(xiàn)用戶同組織的趨同性。
4.基于資源行為的熱度推薦算法
基于教育云資源使用行為數(shù)據(jù),計算資源熱度,然后按照學(xué)科、學(xué)段分類,將最熱的資源推薦給同類用戶。該算法作為基礎(chǔ)的默認(rèn)推薦。算法公式如下:
熱度分=(初始熱度分+用戶交互產(chǎn)生的熱度分)/隨時間衰減的熱度分
Score=(S0+S(Users))/S(Time)
用戶行為分為點擊(click),收藏(favor),下載(download),分享(share)
S(Users)= 1*click+3*favor+5*download+5*share
各種行為的權(quán)重分別式1,3,5 這些參數(shù)作為算法參數(shù)可調(diào)整。
Click、favor、download 需要做歸一化處理。
時間衰減:
T(Time) = e ^ (k★(T1 - T0))
T0 是發(fā)布時間,T1 是當(dāng)前時間,天單位
熱度的發(fā)展最終是一個無限趨近于零熱度的結(jié)果,最終的新聞的熱度算法也調(diào)整為:
Score=(S0+S(Users))/T(Time)
基于資源行為的熱度推薦算法流程圖見圖6:

圖6 基于資源行為的熱度推薦算法流程圖
算法步驟:獲取資源數(shù)據(jù)和行為數(shù)據(jù),計算資源行為評分,加入時間衰減系數(shù)計算熱度評分,按照學(xué)科學(xué)段將結(jié)果評分最高的TopN 推薦給用戶。
算法價值:根據(jù)多種主要用戶資源行為,綜合評估資源熱度,并結(jié)合時間衰減因素和初始評分考慮初始資源的冷啟動問題。
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,基于用戶特征的信息主動推送或個性化推薦服務(wù)已廣泛應(yīng)用于互聯(lián)網(wǎng)應(yīng)用方面,在教育信息化領(lǐng)域亟須將此項技術(shù)在教育資源方面推廣應(yīng)用起來。本文基于內(nèi)蒙古教育資源公共服務(wù)平臺為例,從省級數(shù)字教育資源服務(wù)平臺的定位和功能出發(fā),描述了數(shù)字教育資源主動推送及個性化服務(wù)的規(guī)模化實現(xiàn)方式。組合分析資源畫像和用戶畫像特征數(shù)據(jù),進而給出精準(zhǔn)的推薦;利用推薦引擎的靈活算法組合策略配置,并希望通過用戶的持續(xù)使用和算法策略的不斷優(yōu)化,使得推薦越來越精準(zhǔn),為廣大教育用戶提供更加優(yōu)質(zhì)的推薦服務(wù)。