凌宇,單志龍
基于興趣增強的知識概念推薦系統
凌宇1,單志龍1,2*
(1.華南師范大學 計算機學院,廣州 510631; 2.華南師范大學 人工智能學院,廣東 佛山 528225)(?通信作者電子郵箱ZLshan@m.scnu.edu.cn)
現有的知識概念推薦系統并未考慮用戶的短期興趣。針對該問題,提出一種基于興趣增強的知識概念推薦系統(KCRec-IE)。首先,根據用戶的知識概念點擊序列捕獲用戶的短期興趣,并利用側信息構造一個異構圖。其次,利用元路徑指導的圖卷積在異構圖上進行知識概念實體和用戶實體的表示學習。與知識概念實體的表示學習不同,學習用戶實體的表示時,根據用戶的短期興趣可區分不同鄰居用戶對目標用戶的貢獻。最后,根據知識概念實體、用戶實體和用戶的短期興趣進行評分預測。在公開數據集Xuetang X上的實驗結果表明,相較于KCRec-SEIGNN,KCRec-IE在HR@5指標上提升了3.60個百分點;相較于KCRec-IEn,KCRec-IE在HR@10指標上提升了1.02個百分點;相較于KCRec-SEIGNN,KCRec-IE在NDGC@5和NDGC@10指標上分別提升了1.60和1.18個百分點,驗證了所提方法的有效性。
圖神經網絡;序列推薦;用戶興趣;個性化推薦;教育大數據
隨著互聯網的普及,越來越多的人開始進行在線學習[1-3]。在線教育的出現加快了知識的傳播,不管是學生還是職場人士,不管身處何地都能享受優質的教育資源。與此同時,越來越多的教師開始將線上和線下教育結合起來,在線教育成為學生進行課程拓展學習的一種方式,未來在線教育將會在教學領域發揮重要的作用。
隨著在線教育規模的擴大,一些問題也開始出現:1)在線教育平臺中的很多課程,通常依賴某些先修課程的某些知識概念[4],學生不知道如何才能快速地掌握所需的先修知識概念,降低了學生對在線教育的熱情;2)在線教育平臺中存在很多同名或名稱相似的課程,但是它們的側重點不同,所需的先修知識概念也不相同[5]。這些問題加重了學生挑選合適課程的負擔。因此,為了更好地了解和獲取學生的興趣和知識點結構,為他們推薦更加合適的課程,知識概念推薦系統應運而生。
現有的知識概念推薦系統[5-10]主要是基于異構圖神經網絡[11-12]實現,在基于元路徑[13]聚合目標節點的鄰居節點信息以獲得目標節點的嵌入表示時,并沒有區分不同鄰居節點的貢獻。此外,這些方法主要通過捕獲用戶的長期偏好推薦知識概念,未考慮對用戶的短期偏好建模從而應對用戶偏好的短期變化。
針對這些問題,本文提出一種基于興趣增強的知識概念推薦系統(Knowledge Concept Recommendation system based on Interest Enhancement, KCRec-IE)。KCRec-IE主要從兩個方面對基于異構圖神經網絡的方法進行增強:一方面,在學習用戶的嵌入表示時,利用用戶的短期興趣區分不同鄰居節點的貢獻;另一方面,在進行評分預測時,不僅考慮用戶的長期興趣,還考慮用戶的短期興趣。
目前,基于知識概念推薦模型主要可以分成3類:基于異構圖神經網絡的方法[5-7]、在異構圖神經網絡的基礎上利用強化學習增強的方法[8-9]、異構圖神經網絡和交互圖神經網絡混合的方法[10]。
基于異構圖神經網絡是目前構造知識概念推薦模型的主流方法。ACKRec(Attentional heterogeneous graph Convolutional deep Knowledge Recommender)[5]是一種基于分層注意力圖卷積的知識概念推薦模型,它采用注意力機制獲取實體在不同元路徑上的嵌入表示,并將同一實體在不同元路徑上得到的實體嵌入表示通過注意力機制進行聚合,從而得到實體最終的嵌入表示;CERec-ME(Community Enhanced course concept Recommendation with Multiple Entities)[6]在基于異構圖神經網絡推薦知識概念的基礎上,通過定義實體社區并對實體社區中節點的相似度進行度量,最后將社區的結構信息和節點的鄰域信息加入損失函數,提升模型的推薦效果;MOOCIR(MOOC(Massive Open Online Course) Interest Recommender)模型[7]提出了兩種新的注意力機制用于聚合用戶和知識概念在不同元路徑上的嵌入表示,提升模型的推薦效果。
為了在異構圖上獲得更好的嵌入表示,有學者提出了在異構圖神經網絡的基礎上利用強化學習進行增強的方法。Gong等[8]提出了一種名為AGMKRec(Automatic Generation of Meta-path graph for concept Recommendation)的模型,利用強化學習技術自動發現有用的元路徑和多跳連接,以獲得更多有用的元路徑,并進一步提升用戶和知識概念的嵌入表示質量;Gong等[9]提出了一種名為HinCRec-RL(Concept Recommendation in MOOCs based on Heterogeneous information networks and Reinforcement Learning)的模型,采用了基于強化學習的方法,可以根據推薦結果動態更新異構圖神經網絡,適應用戶偏好的變化,進一步提升推薦效果。
此外,受到交互圖推薦模型的啟發,研究人員提出了一種混合方法,將異構圖神經網絡和交互圖神經網絡相結合,以進一步提高推薦效果。KCRec-SEIGNN(Knowledge Concept Recommendation model based on a Structure-Enhanced Interactive Graph Neural Network)[10]是一種利用異構圖和交互圖進行知識概念推薦的方法。KCRec-SEIGNN首先利用所有用戶的知識概念點擊序列構造一個全局知識概念交互圖;其次在該交互圖之上學習知識概念的實體嵌入,并保留交互圖中的結構信息;接著在利用側信息生成的異構圖上學習用戶的實體表示;最后利用得到的用戶和知識概念實體的嵌入表示進行知識概念推薦。

本文提出的知識概念推薦系統的工作流程主要包括以下步驟:
1)實體特征提取和實體關系提取。
2)知識概念表示學習。
3)用戶短期興趣提取。
4)用戶表示學習。
5)基于矩陣分解進行知識概念推薦。
2.3.1實體特征提取
1)知識概念實體特征提取。知識概念的名稱通常是對它所涵蓋內容的概括,如“向量內積”“定語從句”和“二叉樹”等。因此,可以借助詞嵌入技術生成知識概念實體特征,如Word2vector[14]就可以生成詞嵌入。
2)用戶實體特征提取。對于用戶實體特征,可以用One-hot編碼生成用戶的知識概念狀態作為它的特征。
2.3.2實體關系提取


圖1 實體關系提取





圖2 知識概念表示學習
對于基于異構圖神經網絡的推薦模型[15-16],在學習用戶的實體表示時,通常只關注用戶的長期興趣,忽略了用戶的短期興趣。把用戶的短期興趣納入節點聚合過程中時,這些短期興趣可用于區分不同鄰居節點對目標節點的貢獻,有效提升推薦效果。






如圖3所示,在通過聚合的鄰居節點的實體表示得到在特定元路徑上的實體表示時,既考慮鄰居用戶自身的實體特征,也考慮鄰居用戶的短期興趣。

基于擴展矩陣分解進行評分預測時,用戶對知識概念的評分為:


在函數中加入正則化項,則最終的目標函數為:

為了評估模型的性能,本文在Xuetang X數據集[5]和MOOCCube_lite數據集[18]上進行了實驗。
Xuetang X是一個公開數據集,用于知識概念推薦任務。該數據集包含2 844門MOOC課程、803個視頻、937個課程概念、2 136名MOOC用戶和2 372名教師。此外,該數據集還包括用戶-知識概念、用戶-課程、用戶-教師和用戶-視頻這4種關系。
MOOCCube也是一個公開數據集,由學堂在線MOOC平臺的真實數據構成,經過了自動過濾、眾包標注和專家標注這3個階段的處理。由于MOOCCube中的數據量過大,模型所需要的計算資源遠不能滿足,故本文從MOOCCube數據集中提取了一部分數據,構建了MOOCCube_lite數據集用于實驗。該數據集包含156門MOOC課程、1 915個視頻、4 850個課程概念、2 201名MOOC用戶、262名教師和26所學校。此外,該數據集還包括用戶-知識概念、視頻-知識概念、視頻-課程、課程-教師和教師-學校這5種關系。根據MOOCCube生成MOOCCube_lite的過程如下:
輸入 用戶-視頻觀看記錄集合,視頻-知識概念關系;
輸出 用戶-知識概念交互記錄集合。
步驟1 構建候選知識概念集合。
步驟1.1 根據用戶-視頻觀看記錄集合和視頻-知識概念關系構建用戶-知識概念交互記錄。
步驟1.2 根據用戶-知識概念交互記錄統計各個知識概念與用戶的交互次數。
步驟1.3 篩選前2 000個與用戶交互次數最多的知識概念,組成候選知識概念集合。
步驟2 遍歷每一個用戶-視頻觀看記錄,篩選該觀看記錄中的最長連續子序列,該子序列中的每一個視頻對應的知識概念都在候選知識概念集合中,然后將該最長連續子序列作為整個序列的代替。
步驟3 針對每一個用戶-視頻觀看記錄,生成相應的用戶-知識概念交互記錄。
用戶-知識概念交互記錄集合 = set()
for 用戶-視頻觀看記錄 in 用戶-視頻觀看記錄集合
用戶-知識概念觀看記錄 = list()
for 視頻 in 用戶視頻觀看記錄
根據視頻-知識概念關系獲取視頻對應的知識概念集合
for 知識概念 in 視頻對應的知識概念集合
用戶-知識概念觀看記錄.add(知識概念)
用戶-知識概念交互記錄集合.add(用戶-知識概念觀看記錄)
實驗使用通用的評估指標[19]評估所有模型,包括HR和NDCG。在進行模型評估時,將設置為5和10,并報告測試集中所有用戶的平均指標。
為了探究不同序列長度對模型推薦性能的影響,本文在兩個數據集上進行了實驗,并在圖4中呈現了實驗結果。
可以觀察到,隨著序列長度的增加,推薦性能呈現先增加后遞減的現象。對于Xuetang X數據集,當序列長度為30時,模型的性能最佳;對于MOOCCube_lite數據集,當序列長度為20時,模型的性能最佳。

圖4 序列長度對模型性能的影響
為了評估本文模型(KCRec-IE)的性能,實驗選取的對比方法如下:
1)ACKRec[5]。一種基于異構圖神經網絡的知識概念推薦方法。
2)CERec-ME[6]。一種基于社區增強的知識概念推薦方法。
3)MOOCIR[7]。一種基于異構圖神經網絡的知識概念推薦方法。相較于ACKRec,它使用隱式反饋代替評分,并提出了兩種新的注意力機制用于聚合用戶和知識概念在不同元路徑上的嵌入表示。
4)ACKRec-H。使用HAN(Heterogeneous graph Attention Network)模型[16]分別學習用戶和知識概念的實體表示,然后采用與ACKRec中相同的方法,利用學習到的用戶和知識概念的實體表示進行基于擴展矩陣分解的知識概念推薦。其中HAN模型是一種高效的異構圖神經網絡,與ACKRec模型相比,它可以獲得更好的實體表示。
5)KCRec-SEIGNN[10]。一種基于結構增強交互圖神經網絡的知識概念推薦方法。
6)SASRec[17]。一種序列推薦方法。
7)NAIS[20]。一種物品到物品的協同過濾算法,但使用一種注意機制方法區分不同在線學習行為的權重。
8)FISM[21]。一種物品到物品的協同過濾算法,它根據所有行為歷史的平均嵌入和目標知識概念的嵌入進行推薦。
9)KCRec-IEn。KCRec-IE的一個變種,在基于擴展矩陣分解進行評分預測時,沒有考慮用戶的短期興趣。
在進行實體表示學習時,使用表1所示的元路徑集合,并將圖卷積的層數設置為3;將用戶實體和知識概念實體的向量維度設置為100。在進行用戶短期興趣提取時,針對Xuetang X數據集和MOOCCube_lite數據集,分別將序列長度設為30和20。在基于擴展矩陣分解的評級層中,將潛在因子數設置為30。
表1實驗中采用的元路徑

Tab.1 Meta-paths used in experiments
將KCRec-IE與其他對比方法在知識概念推薦任務上進行比較,比較結果如表2所示。從實驗結果可以觀察到:
1)相較于基于協同過濾的方法,基于異構圖表示學習的方法在兩個不同的數據集上,分別在HR@5和HR@10指標上實現了顯著的性能提升。具體地,在數據集Xuetang X上,異構圖學習方法中表現最好的KERec-IE相較基于協同過濾中最好的ACKRec提升了18.91和11.05個百分點;在數據集MOOCCube_lite上,KERec-IE相較ACKRec提升了9.36和8.54個百分點。這是因為基于協同過濾的方法主要依賴用戶-物品交互數據進行推薦,當數據稀疏時,很難準確地推薦物品給用戶;而基于異構圖表示學習的方法可以將用戶、知識概念、課程、視頻等實體作為圖中的節點,將它們之間的關系表示為邊,利用豐富的側信息對節點進行表示學習,從而可以充分利用實體之間的關系進行推薦,緩解數據稀疏性問題,并提高模型的性能。
2)對于Xuetang X數據集,與ACKRec、CERec-ME和MOOCIR方法相比,ACKRec-H、KCRec-IEn和KCRec-IE方法的HR@5和HR@10指標分別提高了3.86~18.91和4.25~11.05個百分點,KCRec-IE方法相較于KCRec-SEIGNN方法提高了3.60和2.76個百分點。對于數據集MOOCCube_lite,與ACKRec、CERec-ME和MOOCIR方法相比,ACKRec-H、KCRec-IEn和KCRec-IE方法的HR@5和HR@10指標分別提高了1.16~9.36和2.75~8.54個百分點,KCRec-IE方法相較于KCRec-SEIGNN方法提高了8.22~5.82個百分點。這主要是因為ACKRec、CERec-ME、MOOCIR和KCRec-SEIGN在進行用戶表示學習時,采用的鄰居節點信息聚合方式無法有效區分不同鄰居節點的貢獻,導致對不同類型的節點和邊采用相同的處理方式,這使得模型不能很好地適應這些差異性,進而影響了模型的性能表現。ACKRec-H、KCRec-IEn和KCRec-IE在基于鄰居節點進行信息聚合時使用自注意力機制區分不同鄰居節點的貢獻,將更多的關注點放在與目標節點相關的鄰居節點上,從而提高模型的性能。因此,基于鄰居節點進行信息聚合時,區分不同鄰居節點的貢獻是非常重要的。
3)在Xuetang X數據集上,KCRec-IEn和KCRec-IE方法相較于ACKRec-H方法,在HR@5、HR@10指標上分別提高了5.97和11.05、0.86和1.88個百分點。在MOOCCube_lite數據集上,KCRec-IEn和KCRec-IE方法相較于ACKRec-H方法,在HR@5、HR@10指標上分別提高了3.86和7.22、1.98和4.13個百分點。這是因為用戶的短期興趣通常隨著時間快速變化,即使是在長期興趣相同的用戶之間,短期興趣也會存在較大的差異。在進行用戶表示學習時,將用戶的短期興趣加入鄰居節點的注意力值計算中,有助于模型更好地利用短期興趣信息區分不同鄰居節點的貢獻,從而獲得更加準確的用戶表示。
4)相較于KCRec-IEn方法,在Xuetang X數據集上,KCRec-IE方法在HR@5、HR@10指標上分別提高了5.08和1.02個百分點;在MOOCCube_lite數據集上,KCRec-IE方法在HR@5和HR@10指標上分別提高了3.36和2.15個百分點。這是由于KCRec-IEn在評分預測時僅考慮了用戶的長期興趣,而未能充分考慮用戶的短期興趣,這導致了在應對快速變化的短期興趣時存在不足。KCRec-IE在評分預測時綜合考慮了用戶的長期興趣和短期興趣,能夠更全面地反映用戶當前的需求,從而提高了推薦系統的準確性。
5)在Xuetang X數據集上,KCRec-IEn和KCRec-IE相較于SASRec和ACKRec-H,在HR@5、HR@10指標上分別提高了5.97和29.22、0.86和5.95個百分點。在MOOCCube_lite數據集上,KCRec-IEn和KCRec-IE相較于SASRec和ACKRec-H,在HR@5和HR@10指標上分別提高了3.86~8.54和1.98~7.22個百分點。這表明將序列推薦的方法和基于圖神經網絡的方法結合,可以更好地綜合考慮用戶的長期興趣和短期興趣,同時利用圖結構中的側信息緩解數據稀疏性問題,從而提高推薦系統的準確性和可靠性。

表2 不同方法的性能比較
本文研究了MOOC平臺中的知識概念推薦問題,提出了一種基于興趣增強的知識概念推薦系統。該系統將用戶的短期興趣加入鄰居用戶對目標用戶的注意力值計算中,從而更好地區分不同鄰居節點對目標節點的貢獻。此外,還將用戶的短期興趣加入評分預測中,從而進一步提高推薦效果。在后續的研究中,計劃考慮如何結合社區發現[22]以有效地區分不同鄰居節點對目標節點的貢獻,進而提升知識概念推薦系統的性能。
[1] KING C, ROBINSON A, VICKERS J. Targeted MOOC captivates students [J]. Nature, 2014, 505(7481): 26-26.
[2] ZHANG J. Can MOOCs be interesting to students? An experimental investigation from regulatory focus perspective[J]. Computers and Education, 2016, 95: 340-351.
[3] 董永峰,王雅琮,董瑤,等. 在線學習資源推薦綜述[J]. 計算機應用, 2023, 43(6):1655-1663.(DONG Y F, WANG Y Z, DONG Y, et al. Survey of online learning resource recommendation [J]. Journal of Computer Applications, 2023, 43(6):1655-1663.)
[4] PAN L, LI C, LI J, et al. Prerequisite relation learning for concepts in MOOCs [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2017: 1447-1456.
[5] GONG J, WANG S, WANG J, et al. Attentional graph convolutional networks for knowledge concept recommendation in MOOCs in a heterogeneous view[C]// Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2020: 79-88.
[6] YE B, MAO S, HAO P, et al. Community enhanced course concept recommendation in MOOCs with multiple entities[C]// Proceedings of the 2021 International Conference on Knowledge Science, Engineering and Management, LNCS 12816. Cham: Springer, 2021: 279-293.
[7] PIAO G. Recommending knowledge concepts on MOOC platforms with meta-path-based representation learning [C/OL]// Proceedings of the 14th International Conference on Educational Data Mining [2022-09-19].https://parklize.github.io/publications/EDM2021.pdf.
[8] GONG J, WANG C, ZHAO Z, et al. Automatic generation of meta-path graph for concept recommendation in MOOCs [J]. Electronics, 2021, 10(4): No.1671.
[9] GONG J, WAN Y, LIU Y, et al. Reinforced MOOCs concept recommendation in heterogeneous information networks [J]. ACM Transactions on the Web, 2023, 17(3): No.22.
[10] LING Y, SHAN Z. Knowledge concept recommender based on structure enhanced interaction graph neural network[C]// Proceedings of the 2022 International Conference on Knowledge Science, Engineering and Management, LNCS 13368. Cham: Springer, 2022: 173-186.
[11] SHI C, HU B, ZHAO W X, et al. Heterogeneous information network embedding for recommendation [J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(2): 357-370.
[12] 周麗華,王家龍,王麗珍,等. 異質信息網絡表征學習綜述[J]. 計算機學報, 2022, 45(1):160-189.(ZHOU L H, WANG J L, WANG L Z, et al. Heterogeneous information network representation learning: a survey[J]. Chinese Journal of Computers, 2022, 45(1):160-189.)
[13] GORI M, MONFARDINI G, SCARSELLI F. A new model for learning in graph domains [C]// Proceedings of the 2005 IEEE International Joint Conference on Neural Networks — Volume 2. Piscataway: IEEE, 2005:729-734.
[14] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. (2013-09-07)[2022-11-22].https://arxiv.org/pdf/1301.3781.pdf.
[15] 葛堯,陳松燦. 面向推薦系統的圖卷積網絡[J]. 軟件學報, 2020, 31(4):1101-1112.(GE Y, CHEN S C. Graph convolutional network for recommender systems[J]. Journal of Software, 2020, 31(4):1101-1112.)
[16] WANG X, JI H, SHI C, et al. Heterogeneous graph attention network[C]// Proceedings of the 2019 World Wide Web Conference. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2019:2022-2032.
[17] KANG W C, McAULEY J. Self-attentive sequential recommendation [C]// Proceedings of the 2018 IEEE International Conference on Data Mining. Piscataway: IEEE, 2018: 197-206.
[18] YU J, LUO G, XIAO T, et al. MOOCCube: a large-scale data repository for NLP applications in MOOCs [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2020:3135-3142.
[19] KRICHENE W, RENDLE S. On sampled metrics for item recommendation[C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2020: 1748-1757.
[20] HE X, HE Z, SONG J, et al. NAIS: neural attentive item similarity model for recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(12): 2354-2366.
[21] KABBUR S, NING X, KARYPIS G. FISM: factored item similarity models for top-recommender systems [C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 659-667.
[22] 寧懿昕,謝輝,姜火文. 圖神經網絡社區發現研究綜述[J]. 計算機科學, 2021, 48(11A):11-16.(NING Y X, XIE H, JIANG H W. Survey of graph neural network in community detection[J]. Computer Science, 2021, 48(11A):11-16.)
Knowledge concept recommendation system based on interest enhancement
LING Yu1, SHAN Zhilong1,2*
(1,,510631,;2,,528225,)
The existing knowledge concept recommendation system does not consider the short-term interest of users. To solve the problem, a Knowledge Concept Recommendation system based on Interest Enhancement (KCRec-IE) was proposed. Firstly, users’ short-term interests were captured according to the users’ knowledge concept click sequences, and a heterogeneous graph was constructed by using the side information. Then, the representation learning of knowledge concept entities and user entities was carried out on heterogeneous graph by using meta-path-guided graph convolution. Different from the representation learning of knowledge concept entities, when learning the representation of user entities, the contributions of different neighbor users to target users were able to be distinguished according to the short-term interests of users. Finally, the score prediction was realized according to the knowledge concept entities, the user entities and the user’s short-term interests. Experimental results on public dataset Xuetang X show that compared with KCRec-SEIGNN, KCRec-IE is improved by 3.60 percentage points on HR@5; compared with KCRec-IEn, KCRec-IE is improved by 1.02 percentage points on HR@10; compared with KCRec-SEIGNN, KCRec-IE is improved by 1.60 and 1.18 percentage points respectively on NDGC@5 and NDGC@10 respectively, verifying the effectiveness of the proposed method.
graph neural network; sequential recommendation; user interest; personalized recommendation; educational big data
TP311
A
1001-9081(2023)12-3697-06
10.11772/j.issn.1001-9081.2022111786
2022?12?06;
2023?04?13;
2023?04?18。
凌宇(1996—),男,湖南衡陽人,碩士研究生,主要研究方向:教育大數據、推薦系統;單志龍(1976—),男,湖南衡陽人,教授,博士,CCF會員,主要研究方向:教育數據挖掘、物聯網。
LING Yu, born in 1996, M. S. candidate. His research interests include educational big data, recommendation system.
SHAN Zhilong, born in 1976, Ph. D., professor. His research interests include educational data mining, internet of things.