999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種知識圖譜增強的在線課程推薦方法

2022-02-25 06:43:38孫玉虹丁長青劉利聰
軟件導刊 2022年1期
關鍵詞:方法模型課程

陳 欣,孫玉虹,丁長青,劉利聰

(山東科技大學計算機科學與工程學院,山東 青島 266590)

0 引言

隨著“互聯網+教育”模式的推廣和人工智能、大數據、云計算等技術的發展,在線教育作為教育信息化的重要手段,為學習者提供了便捷的學習平臺,使學習者不受時間、空間限制,根據自身學習興趣需求,獲取豐富的學習資源[1]。為此,全國高校在MOOC、學堂在線等主流教育平臺上推出了大量文本、音頻、視頻等形式的學習資源。對于全日制學習者而言,可將課程資源作為學習的補充,課后查缺補漏,夯實基礎;而對于終身或成人教育學習者,在線課程學習是一種最常用的方式,為他們提供了大量的學習資源。但教育平臺提供的學習資源繁多,學習方向多元化,存在一定的弊端:①在線教育平臺沒有與正規高等教育學校相同的培養計劃,無法系統、漸進地組織課程,無法為學習者提供有效的學習指導,從而造成信息過載,課程完成率較低;②對于那些終身或成人教育的學習者而言,很難找到與自身水平匹配的課程資源;③課程之間存在重復內容,對學習者會產生一定困擾。因此,為了實現在線課程價值最大化,必須研究課程有效推薦的解決方案。

隨著互聯網技術快速發展,推薦系統已廣泛應用于電影、書籍、社交和購物平臺,有效解決了信息過載問題。為了降低學生查找課程的困難,通過分析學生在MOOC 平臺上的相關歷史數據,推薦系統可在眾多課程資源中向學生精確推薦所需課程。現有課程推薦方法通常為協同過濾(CF)方法[2],結合學生課程交互歷史和共同偏好進行推薦。但CF 將推薦任務視為有監督學習問題,將學生每次課程交互假設為具有附帶信息的獨立實例,忽略了實例與課程間的關系,未能從學生集體行為中提取協作信號,存在數據稀疏性和冷啟動問題。

為了解決上述問題,研究者考慮將輔助信息融合到協同過濾中,提升推薦效果。在各類輔助信息中,知識圖譜由一條條知識組成,包含了豐富的事實和聯系,如圖1 所示。知識圖譜有利于增強課程推薦性能,例如在學習《零基礎學Java 語言》之前,要先學習計算機入門課程《C 語言程序設計入門》。由于學生A 的歷史學習記錄中有《C 語言程序設計入門》,推薦算法會根據課程知識圖譜的聯系,向學生A 推薦《零基礎學Java 語言》。受此啟發,本文考慮將知識圖譜增強推薦方法應用于課程推薦領域來提升推薦效果。

本文首先將推薦問題形式化;然后爬取MOOC 平臺課程屬性,并根據本科教學大綱總結課程的先修關系構建課程知識圖譜;最后基于卷積神經網絡,提出融合知識圖譜的深度卷積神經網絡(Course Knowledge Graph Convolutional Networks,KGCN-CR),并與協同過濾算法進行性能對比。

1 相關工作

課程推薦策略主要利用CF 方法考慮學生課程的歷史交互,基于潛在的相似興趣推薦學生共同偏好,例如矩陣分解方法SVD++[3]、因子分解方法LibFM[4]。CF 在實際推薦場景中有效性和通用性較高,但無法建模輔助信息,例如課程屬性、學生配置文件和上下文。因此,在學生和課程交互矩陣極為稀疏的情況下,推薦效果極差。為了解決該問題,本文引入神經網絡方法,將學生id 與課程id 轉換為通用特征向量,輸入監督學習模型中預測得分。例如基于神經網絡的協同過濾推薦NCF[5],基于Inception 結構的神經網絡協同過濾方法NCF-i 模型[6],神經因子分解機NFM[7],Wide&Deep 模型[8],這些方法為推薦系統提供了強大的性能,但都將每個學生的課程交互建模為獨立的數據實例,未能考慮它們之間的關系,無法從學生集體行為中提取基于課程屬性的協作信號。

知識圖譜作為一種語義網絡,擁有極強的表達能力和建模靈活性,可對現實世界中的實體、概念、屬性及它們之間的關系進行建模[9]。知識圖譜的概念于2012 年5 月17日由谷歌公司提出并發布了知識圖譜課程,宣布將以此為基礎構建下一代智能化搜索引擎,其中關鍵技術包括從互聯網網頁中抽取實體、實體屬性信息以及實體關系[10]。最近,研究人員提出了NELL、DBpedia、谷歌知識圖譜和Microsoft Satori,這些知識圖譜已成功應用于軍事[11]、文本分類[12]等諸多領域。

利用知識圖譜的推薦系統現已應用于電影、書籍、音樂、新聞等領域。協同知識庫嵌入(CKE)[13]將協同過濾(CF)模塊與項目的知識嵌入、文本嵌入和圖像嵌入結合在統一的貝葉斯框架中。經過實例驗證,CKE 更適用于知識圖補全和鏈接預測,推薦效果較差。深度知識感知網絡(DKN)[14]將實體和詞嵌入作為不同的通道,使用卷積神經網絡(CNN)將它們組合進行新聞推薦。但在使用DKN 之前需要進行實體嵌入,導致DKN 缺乏端到端的訓練方式。此外,DKN 除了文本信息外,它幾乎無法包含其它層面的信息。RippleNet[15]是類似內存網絡模型,通過該模型可傳播用戶在KG 中的潛在偏好,并探索用戶的層次興趣,但RippleNet 的關系處理能力較差。MKR[16]是多任務特征學習模型,通過知識圖譜嵌入任務輔助增強推薦,但在嵌入任務中,未能體現關系的重要性,限制了推薦的性能。

Fig.1 Recommended examples of computer courses圖1 計算機課程推薦示例

2 研究思路與方法

首先制定知識圖譜用于推薦問題;然后闡述課程知識圖譜構建方法;最后提出融合課程知識圖譜的卷積神經網絡(KGCN-CR)。

2.1 問題形式化

課程推薦問題簡化而言就是將課程推薦給學生。在課程推薦場景中,有一組M 個學生為U={u1,u2,…,uM},一組N個課程為V={v1,v2,…,vN}。根據學生隱式反饋構造交互矩陣Y={yuv|u∈U,v∈V},若學生u與課程v進行了交互,則yuv= 1,否則yuv= 0。具體表達式如式(1)所示。

G表示課程知識圖譜,課程知識圖譜G是由大量的實體-關系-實體三元組(h,r,t)構成,其中h∈ε,r∈R,t∈ε分別表示知識圖譜中的頭實體、關系和尾實體,ε和R分別表示知識圖譜中的實體集合和關系集合。

課程推薦問題目的是給定交互矩陣Y和知識圖譜G,預測學生u是否對之前沒有交互過的課程v存在潛在興趣。模型目標是學習預測評分=F(u,v;Θ)。其中,表示學生u點擊課程v的可能性,Θ表示函數F的模型參數。

2.2 面向在線課程的知識圖譜構建

本文采用自底向上的構建方法,從MOOC 平臺中爬取計算機類、音樂類與舞蹈類的課程屬性。所爬取的數據具有一定的數據結構,并將此類知識要素進行歸納,抽象為概念,構建知識圖譜。構建方法如圖2 所示。

Fig.2 Constructing method of curriculum knowledge graph圖2 課程知識圖譜構造方法

首先獲取結構化數據,得到初始的知識表示。由于在構建知識圖譜時,相同名稱的實體可能存在歧義,通常采用實體消歧技術在理解上下文后對實體進行準確地識別和描述,得到了一系列三元組。

(1)知識獲取。從MOOC 平臺中計算機類、音樂類與舞蹈類課程中爬取課程數據。如表1 所示,課程數據由所有課程數據進行實體識別、實體分類以及關系抽取所得到的結構化數據。其中,實體識別主要識別課程名稱、教師名、學校名等;實體分類將識別后的實體按類別分類;關系抽取主要抽取兩個或多個實體之間的某種聯系。

Table1 Course data fragment表1 課程數據片段

(2)三元組獲取。針對MOOC 平臺具體的實際應用場景,本文抽取的課程實體包括課程名稱、學校名稱、教師名稱、類別名稱等。關系包括所屬學校(屬于同一個學校)、授課老師(屬于同一個老師)和所屬類別(屬于同一個專業類別)。根據知識抽取以及實體鏈接技術構建知識圖譜的三元組形式。此外,在計算機類課程中,可利用知識圖譜對課程進行進階描述,根據計算機課程教學大綱與新增先修課程關系能更好掌握學生需求(見圖3)。

2.3 推薦算法

本文提出的KGCN-CR 模型可實現面向學生的課程推薦,利用該模型捕獲知識圖譜中實體之間的高階連接,將課程實體表示及其鄰域節點(綠色節點)相聚合,形成下一次迭代(深藍色節點)。KGCN-CR 模型框架如圖4 所示。

在KGCN-CR 的一階連接中,用N(v)表示學生u直接連接v的實體集,rei,ej表示實體ei和ej之間的關系。模型用函數g:?d× ?d→? 計算用戶對關系的興趣度,如式(2)所示。

其中,u∈?d,r∈?d為學生u與關系r的向量表示,d是向量維度。

為了表征課程的鄰近結構,本文將鄰域的線性組合表示如式(3)所示。

其中,e是實體e的向量表示,在計算實體的鄰域表示時,作為個性化過濾器捕獲學生的學習興趣[17]。

Fig.3 Examples of knowledge graphs for computer courses圖3 計算機課程知識圖譜示例

Fig.4 KGCN-CR model framework圖4 KGCN-CR 模型框架

最后,將實體表示及鄰域表示聚合到單個向量中,將兩個向量相加,進行非線性變換,計算公式如式(5)所示。

實體最終表示為自身表示及鄰域表示,為了保持計算高效,為每個實體采用固定大小的鄰域。最后,將一階表示擴展到多階,以便更深入地探索用戶偏好。

為了提高計算效率,在訓練期間使用非負采樣策略,完整的損失函數如下:

其中,J是交叉熵損失函數,P是負采樣分布,Tu是學生u的負采樣數,在本文中服從均勻分布,最后一項是防止過度擬合的L2 正則化項,λ是平衡參數。

3 實驗對比與分析

本文選擇的數據集MOOC-Music 是MOOC 平臺中音樂、舞蹈類別的學習數據。MOOC-Music 包含109 門課程信息和15 914 位學生對109 門課程的評分。由于多數學生只選擇一門課程進行學習,造成音樂課程學生課程交互數據十分稀疏,系統難以進行推薦。數據集MOOC-Computer是MOOC 平臺中計算機類別的交互數據。MOOC-Computer 包含297 門課程信息和113 630 位學生對297 門課程的評分,本文為了減少交互矩陣的稀疏性,在MOOC-Computer中篩選交互次數大于4 的9 022 位學生。表2 顯示了數據集的基本統計信息。

Table 2 Basic statistics of the data set表2 數據集基本統計信息

本文提出的課程推薦方法將與以下模型進行比較。

(1)SVD[3]將高維學生課程評分矩陣分解為低維學生特征向量矩陣、課程特征矩陣及奇異值的對角矩陣。生成學生特征向量矩陣與課程特征向量矩陣后,模型參數根據已有打分數據進行更新,然后SVD 將更新的學生課程評分矩陣作為模型輸入。

(2)LibFM[4]是基于特征的分解模型,將學生和課程的原始特征作為LibFM 的輸入。其中,維度為{1,1,8},訓練次數為50。

(3)Wide&Deep[8]結合了線性和非線性通道的深度推薦模型。Wide&Deep 的輸入與LibFM 中的相同,學生、課程維度為64,使用維度分別為100 和50 的兩層深度渠道以及廣度渠道。

(4)RippleNet[16]是類似于內存網絡的方法,可以在知識圖上傳播學生的偏好。超參數設置為d= 8,H= 2,λ1=10-6,λ2= 0.01,η= 0.02。

本文選擇ROC 曲線下面積(AUC)、準確率(ACC)、精確率(Presicion)、召回率(Recall)作為性能評價指標,衡量各算法的性能優劣,如式(7)-式(9)所示。在固定訓練集的情況下,模型ACC、Presicion、Recall 和F1 計算越高,表明推薦模型更高效。

其中,TP(True Positive)表示真陽性,即課程樣本被正確推薦給學習者的數量;TN(True Negative)表示真陰性,即不屬于推薦課程的樣本沒有推薦給學生的課程數量;FP(False Positive)表示假陽性,即不屬于正確推薦課程的樣本被錯誤推薦給學生的數量;FN(False Negative)表示假陰性,即屬于推薦課程的樣本沒有推薦給學生的課程數量。

在KGCN-CR 模型中設置K= 1,fRS作為內積,λ2=10-6,其他超參數L= 1,d= 8,t= 3,λ1= 0.5 由驗證集通過優化AUC 確定,建立學生課程評分矩陣。本文矩陣為稀疏矩陣,其中正實例為學生對課程交互(評分)的實例,而負實例則從學生沒有交互過的實例中進行采樣。訓練集、驗證集與測試集的比例為6∶2∶2,每個實驗重復四次,計算平均性能。評估方法為點擊率預測(CTR),將訓練后的模型應用于測試集中的每個交互實例,并輸出預測的點擊概率。最后,使用AUC 和ACC 評估預測效果。

本文所提方法的CTR 預測和top-K 推薦結果如圖5-圖7 和表3 所示。實驗結果表明,在課程推薦中加入知識圖譜模型RippleNet、KGCN-CR 的實驗效果要優于SVD、LibFM、Wide&Deep,即使在學生課程交互及其稀疏的情況下仍能表現出良好的性能。SVD、LibFM 協同過濾方法由于無法建模輔助信息,在學生和課程交互矩陣極為稀疏的條件下,推薦效果較差。Wide&Deep 本質上是一種神經網絡方法,在性能上要優于SVD、LibFM,但Wide&Deep 將每個學生課程交互建模為獨立的數據實例,沒有考慮它們之間的關系,未能從學生集體行為中提取基于課程屬性的協作信號,故推薦效果略差于加入知識圖譜的模型。RippleNet 在所有模型中表現最佳,特別是在MOOC-Computer 數據集下推薦準確率要優于KGCN-CR。這表明在學生課程交互較為密集的情況下,RippleNet 可精確捕獲學生興趣,同時證明了知識圖譜的有效性。但在MOOC-Music 數據集中RippleNet 表現比KGCN-CR 差,所以KGCN-CR 更適用于稀疏場景。總體而言,在MOOC-Computer 數據集上的模型方法推薦性能優于MOOC-Music,但在MOOC-Music 數據集上運用知識圖譜性能優于MOOC-Computer,說明運用知識圖譜的推薦算法模型能夠較好解決稀疏場景造成的問題。

Fig.5 Accuracy prediction results recommended by top-K圖5 top-K 推薦的精確率預測結果

Fig.6 Recall prediction results recommended by top-K圖6 top-K 推薦的召回率預測結果

Fig.7 F1 prediction results recommended by top-K圖7 top-K 推薦的F1 預測結果

Table 3 Curriculum click-through rate prediction probability表3 課程點擊率預測概率

4 總結

本文將知識圖譜應用于課程推薦領域,建立課程知識圖譜捕獲不同類型實體之間豐富的語義信息,并納入表示學習過程中。提出了融合課程知識圖譜的卷積神經網絡KGCN-LV,通過聚集鄰域信息,獲取學生個性化潛在興趣。通過在數據集MOOC-Music 及MOOC-Computer 上的實驗可見,KGCN-CR 始終優于基準線,表明融合知識圖譜的課程推薦方法優于傳統課程CF 推薦方法,能夠準確實現課程資源推薦。

當然,KGCN-CR 也存在一些不足,由于數據限制,在推薦過程中只利用評分表示學生的興趣。接下來將結合學生評分、學習時間、個人愛好等多指標表示學生的興趣,建立學生端知識圖譜,提供更高效的課程推薦服務。

猜你喜歡
方法模型課程
一半模型
數字圖像處理課程混合式教學改革與探索
重要模型『一線三等角』
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
重尾非線性自回歸模型自加權M-估計的漸近分布
為什么要學習HAA課程?
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产成人午夜福利免费无码r| 中文字幕乱码中文乱码51精品| 精品欧美一区二区三区在线| 亚洲人成影视在线观看| 亚洲IV视频免费在线光看| 中文字幕在线永久在线视频2020| 日韩欧美视频第一区在线观看| 精品国产美女福到在线直播| 亚洲国产成人精品一二区 | 亚洲永久色| 国产女人水多毛片18| 天天操天天噜| 国产一区二区人大臿蕉香蕉| 亚洲av片在线免费观看| 亚洲天堂免费观看| 青青草欧美| 国产精品香蕉| 丰满少妇αⅴ无码区| 国产精品美乳| 婷婷在线网站| 国产区在线观看视频| 黄色网在线| 亚洲日本一本dvd高清| 亚洲 欧美 日韩综合一区| 亚洲αv毛片| 免费看一级毛片波多结衣| 色天天综合| yy6080理论大片一级久久| 四虎免费视频网站| 天天视频在线91频| 久久超级碰| 9966国产精品视频| 国产成人精品一区二区免费看京| 2024av在线无码中文最新| 制服无码网站| 先锋资源久久| 91热爆在线| 国产欧美在线观看视频| 自拍偷拍欧美| 国产欧美在线观看视频| 日韩成人在线一区二区| 国产精品一区二区在线播放| 国产经典三级在线| 日韩福利在线观看| 凹凸国产分类在线观看| 国产视频入口| 欧美色视频在线| 精品人妻系列无码专区久久| 亚洲人成成无码网WWW| 国产精品网址在线观看你懂的| AV色爱天堂网| 日日噜噜夜夜狠狠视频| 国产SUV精品一区二区6| 精品一区二区三区自慰喷水| 天天干天天色综合网| 久久婷婷色综合老司机| 国产精品天干天干在线观看| 欧美成人一区午夜福利在线| 99热亚洲精品6码| 亚洲中文字幕23页在线| 99re这里只有国产中文精品国产精品 | 国产极品粉嫩小泬免费看| 精品福利一区二区免费视频| 91啦中文字幕| 国产成人精品三级| 在线播放精品一区二区啪视频| 狂欢视频在线观看不卡| 午夜国产大片免费观看| 9cao视频精品| 99在线视频精品| 午夜不卡视频| 在线观看无码av五月花| 亚洲天堂网在线播放| 1769国产精品视频免费观看| 国产精品999在线| 中文字幕波多野不卡一区| 最新国产午夜精品视频成人| 91高清在线视频| 毛片网站在线看| 亚洲日韩久久综合中文字幕| 国产高清不卡视频| 国产日韩精品欧美一区灰|