文/龐超 劉倩 王穎 寧福旺
隨著郵政企業培訓事業的蓬勃發展,中國郵政網絡培訓學院(以下簡稱“中郵網院”)的各項培訓業務規模不斷擴大,遠程培訓資源在數量也呈爆炸式增長,面對大量的教學資源,學員很難從中發現適合自己的課程信息,受到信息過載和信息迷航的困擾。因此針對學員的個性化推薦服務成為郵政企業遠程培訓系統亟待研究和解決的問題。
本文提出一種適用于郵政企業培訓的基于混合推薦技術的郵政企業學習資源個性化推薦模式。通過引入個性化推薦技術,對學習資源進行過濾,對學員的學習行為進行數據分析,提取學員學習的興趣點,將學員對資源的被動接受轉變為系統對學員的主動推送,實現課程資源的個性化推薦服務,對實現資源的有效利用,提升企業培訓效能都有重要的現實意義。
近幾年,隨著中郵網院業務發展,微課在總量上逐年增加,種類不斷豐富,上升趨勢明顯。
(1)從課程點播情況分析,發現影響點播率的主要因素包括:培訓需求、業務需求、技能需求三個方面。值得關注得是“標題吸睛”在影響因素中排名第四位,這說明吸引人的課程名稱,也可以極大提升課程的關注度。
(2)從課程類別分析,發現點播課程主要集中于管理類、職業素養類和金融類,其種類分布不均衡,應加大微課資源建設力度,豐富課程類型和內容。

圖1:混合推薦模型

圖2:個性化推薦整體框架
(3)從課程評價反饋分析,建議將點贊、評論、推薦、打分、收藏、轉發等評價因素綜合考量,建立多維度指標評價體系,更加立體化反映學習效果。
(1)按照共性與個性邊界清晰,緊密結合工作實踐的要求,從人力資源管理系統,篩選出10 項員工信息的關鍵指標:出生日期、進入系統時間、用工形式、政治面貌、最高學歷或學位等級、所屬板塊、部門類別、崗位序列、專業類別、崗位對應職業。
(2)按照學習前、學習中、學習后的階段劃分要求,梳理學員的學習記錄數據,篩選出能夠反映學習過程的關鍵行為指標:學習行為5 類、學習時長6 類、學習情境2 類、學習方式2 類、課程評價5 類等相結合,分析員工學習行為模式。
2.1.1 指標降維
不論員工個人信息,還是課程資源信息,很多指標,其數據指標取值范圍非常大,導致數據運算維度過高,耗費時間和資源成倍增長。在盡量保持原有數據特征和信息量的基礎上,通過降低指標維度,簡化數據量,可以極大地減少運算量,提升運算效率。
2.1.2 顯示評分與隱式評分
顯示評分是指學員學習完課程后,對課程直接評分過程。
隱式評分是將那些可以體現學員對課程偏好的行為因素加以記錄,然后將行為記錄轉換成學員對課程的評分。
將隱式評分歸為5類:瀏覽(L)、點播(P)、點贊(D)、收藏(C)、推薦(T),各類之間可以通過組合生成綜合評價,評分越高越能反映學員對此課程或此類課程的喜愛程度。
2.1.3 雙評分矩陣
郵政有近百萬員工,各類課程信息上千門,基于學員-課程評分生成的矩陣維度非常高,且往往評分信息不足,使得推薦系統計算性能和效率非常低,會導致相似度產生偏差。
通過數據分析發現,學員在一段時間內選擇學習的課程,呈現出系統化、體系化的特點。學員對某一門課程的偏好,在一定程度上也代表著學員對此類課程屬性的偏好,選擇同類課程的學員相似度更高。
在學員-課程評分矩陣的基礎上,引入學員-課程屬性偏好評分矩陣,采用雙評分矩陣模式,將學員對課程的偏好轉化為學員對課程屬性的偏好,可以把高維評分矩陣映射到相對低維空間中,從而降低了近鄰搜索的時空開銷,提高了系統響應速度、降低了數據的稀疏性。
將聚類分析應用于協同過濾推薦算法,將對課程屬性偏好相似的學員歸到同一簇內,而不同簇之間的學員相異性則盡可能大。
根據學員-課程屬性評分的歐式距離進行計算,選取距離最大兩個學員作為聚類中心,重復此過程,直到找到K 個初始聚類中心。計算剩余學員到初始聚類中心的歐式距離,將學員劃分到距離最小的簇,計算每個簇中所有對象的均值,得到新的聚類中心,重復此步驟直至聚類中心不再發生變化。然后在相近的若干個簇中查找最近鄰居,這種聚類算法能夠在盡量少的學員空間上查詢到盡量多的最近鄰居。
本文研究的混合推薦模型,在傳統推薦模型基礎上,更注重分析學員的學習行為數據,引入隱式評分機制更好的反映出學員對課程的偏好程度。通過聚類分析技術,發揮大數據分析技術優勢,有效提升推薦過程查找最近鄰居效率,更強調學員之間或課程之間的多屬性綜合相似性的度量,基于學員-課程評分和學員-課程屬性偏好評分,為學員推薦資源,提升資源推薦準確率。如圖1所示。
個性化推薦引擎是個性化推薦整體架構核心模塊,也是學習資源個性化推薦實現的中樞,如圖2所示。
在人力資源管理系統、中郵網院培訓系統,抽取近三年的培訓數據及課程資源,將本文研究的個性化資源推薦模型實例化,并進行應用評測與效能分析。
根據方案設計需求,構建學員特征表、課程屬性表、學習行為表、學員-課程評分表、學員-課程屬性評分表的數據庫表結構;根據已經設計好的數據表,進行數據降維、標準化處理,存儲到數據表,為后續計算分析做好數據準備。
在抽取1200 名學員及其1635 門課程中,設定聚類數目為40 時候,搜索40%的學員空間能找到學員將近75%的最近鄰居,并且其系統耗費時間與平均絕對誤差值(MAE)在四種方案效率比最高。
獲取學員聚類結果后,目標學員的最近鄰居可以在相近的若干個簇中進行查找。分別對學員-課程評分矩陣、學員-課程屬性偏好矩陣,采用修正余弦相似性算法的相似性度量方法進行計算,并將兩種度量方法相結合考慮學員相似性。
獲得最近鄰居集合后,目標學員對于未評分課程的評分,就可以根據最近鄰集合學員與目標學員的相似度值以及鄰居學員對項目評分數據,計算目標學員對其未評分過的項目的預測評分,最終按照預測評分排序,生成對學員的推薦結果。
如本文抽取的目標學員“龍玉儀”,其最近鄰居“康江朝”(相似度0.762)和“李金”(相似度0.785),通過計算將“李金”學習過的“郵保安康產品理賠規劃”、“其美多吉:雪線郵路,我一生的路”兩門課程推薦目標學員“龍玉儀”。
在測試集數據中選取部分學員,對其學習資源個性化推薦課程,通過郵件方式發放調查問卷,完成應用培訓效能評測反饋。
培訓效能評估的關注點,主要集中在個人學習效率、個人學習效果提升方面,共計發放問卷40 份,收回問卷30 份,有效占比為75%,其中3 分及以上(有提升)占比80.4%,2 分及以下(無提升)占比19.6%。問卷調查結果說明,基于學習資源個性化推薦模式能夠有效提升培訓效能。
利用大數據分析的方式,通過郵政企業培訓課程資源體系、學員學習行為模式研究這兩個視角作為切入點,提出亟待解決的學員培訓需求個性化與學習資源利提供方式單一化兩者間矛盾,通過對個性化推薦模式研究的解決方案,能夠有效提升課程資源利用率,又調動了學員培訓的積極主動性。
將個性化推薦技術引郵政企業培訓的實際應用中,通過構建學習資源的個性化推薦模式,將課程資源體系、學習行為模式、培訓效能提升緊密結合,打造“三位一體”的學習資源個性化推薦模式新應用,并結合中郵網院平臺,進行了初步的應用與評測。
更正
茲有吳青衡同志刊于《電子技術與軟件工程》雜志2019年1月上半月刊,第243頁《基于大數據時代視角下人工智能實踐》一文,原文摘要中“職能”改為“智能”、去掉第一個“實現”;第3 要點中“任然”改為“仍然”;結束語中“不在”改為“不再”、“發展的中”改為“發展中的”。
《電子技術與軟件工程》編輯部
2019年5月