仲兆滿, 施 珺, 管 燕
(江蘇海洋大學計算機工程學院,江蘇連云港222005)
在Web 2.0 時代,互聯網上積累了海量的教育大數據,有的來源于企業、高校構建的權威教育資源平臺,有的是教師、學生、專家等各類網民在互聯網上生成的數據,包括博客、貼吧、論壇、微信等社交媒體。學習者面對的學習資源已經從權威的“中心化”數據,向大量個體生成的“碎片化”數據拓展。
面對互聯網上豐富的學習資源,學習者如何快速、精準的獲取自己感興趣的知識是教學改革迫切需要解決的問題。教育推薦服務的目的在于根據學習者的愛好,使用推薦算法從海量的學習資源中為用戶推薦精準的學習資源,是解決“信息過載”的有效途徑。
從2000 年開始,國際上就有學者將推薦系統引入到教育改革領域。目前,國內外的諸多學者圍繞推薦服務的系統框架、教育資源的建設、學習者模型的構建、推薦算法應用等領域進行了廣泛的研究探索。國內的諸多研究成果發表在《中國電化教育》《電化教育研究》《中國遠程教育》《現代教育技術》《遠程教育雜志》等核心期刊。與此同時,一些教育機構、IT 企業、數據公司開始運用大數據、人工智能、云計算、區塊鏈、物聯網等新一代信息技術,研究與開發互聯網教育大數據背景下的教學資源推薦系統,包括科大訊飛、網易、百度等大型IT企業。
本文研究的主要內容為:①結合學習資源推薦,定義了多異構信息網絡融合的相關概念并進行了形式化描述;②針對學習資源產生于各種互聯網媒體的現狀,研究了面向多異構信息網絡融合的在線學習資源推薦;③對多異構信息網絡的學習資源推薦的共性關鍵模塊進行了研究和實踐,包括學習者學習興趣建模、基于學習興趣相似度的學習資源推薦以及基于學習者相似度的學習資源推薦等。
推薦服務系統是在分析用戶歷史行為的基礎上,構建信息與用戶的表示與相似性度量模型,為用戶推薦興趣匹配的信息。亞馬遜、豆瓣、當當網、MovieLens、Tapestry、Netflix 等都已成功運用推薦服務系統為用戶提供智能化服務。
對學習資源推薦而言,就是要構建學習者與學習資源的表示與相似性度量模型,為學習者推薦興趣匹配的學習資源。Salehi等[1]提出了基于多維度屬性的學習素材推薦系統,將各種推薦算法進行了結合。而后,他們通過對學習資源的建模評分,進一步提升了推薦的精準性[2]。Aher等[3]根據用戶的選課歷史記錄,將集群和關聯規則等機器學習算法應用到課程推薦。王劍等[4]提出的e-Learning 協作學習推薦包含課程推薦、協作學習和過程評估及反饋3 個部分。劉靜等[5]根據學習者的基本信息、行為信息和需求信息構建學習者模型,基于資源庫的基本特征、標簽信息和價值信息構建資源模型,在決策系統的支持下為學習者提供個性化服務,進而構建了教育資源個性化推薦的服務框架。李寶等[6]提出了包含數據采集、數據存儲、數據處理和展現的個性化學習資源推送框架,將資源最鄰近、相似用戶矩陣、特征匹配、學習者反饋以及混合推薦技術應用于推薦。丁繼紅等[7]研究了大數據環境下基于多維關聯分析和張量算法的學習資源精準推薦。馬秀麟等[8]研究了面向學校教育的個性化資源推薦的關鍵要素,提出了一種個性化智能推薦模型,確定了影響資源推薦的核心要素和關鍵因子。
隨著信息技術的發展,“互聯網+開放教育資源”的模式得以推廣,極大地拓展了學習者的時空邊界。2001 年,麻省理工學院的OCW(Open Course Ware)項目率先將其自身課程資源在互聯網上免費向全世界開放。隨后,國際上出現了以在線視頻課程資源為主的平臺(Coursera 和Khan Academy),全媒體資源共享平臺(Openstax 和OpenLearnCreate),教育書籍開放資源平臺(WikiBooks)以及資源共享與教學活動度融合的學習平臺(OpenLearn)等。這些平臺大多支持用戶評分、課程熱度計算,個別平臺支持課程資源的推薦,比如Khan Academy。
從2003 年起,我國加快了開放教育資源的建設。2010 年,《國家中長期教育改革和發展規劃綱要》中提出“建設覆蓋各級各類教育的教學資源庫和服務平臺”。2015 年,教育部提出建設“能學、輔教”的教學系統,實現對資源庫應用推廣。國內也建成了有影響力的在線開放教育資源平臺,包括中國大學MOOC、網易公開課、華文MOOC、學堂在線、ShareCourse 和精品課等。
一些學者圍繞互聯網教育資源的建設取得了一些研究成果。郭光友等[9]圍繞教學資源的表征,提出了教學資源的主要屬性包括編號、名稱、說明簡介、關鍵詞、學科歸屬、通用對象、編著者、創建時間、媒體格式、文件大小等。丁繼紅[10]提出了基于教育元數據、社會標注和社會網絡分析的教育資源聚合模型,基于社會標注的教育資源表示為:

式中:S 為學習者集;T 為標簽集;R 為教學資源集;Y為S、T和R之間的關系集。
陳路萍[11]調研了遠程教育學習資源的建設現狀并提出了建設策略。劉豐源等[12]借鑒區塊鏈的共識驗證安全技術,設計了包含資源存儲、資源評估和互連的教育資源共享框架。熊明巧等[13]面向社區教育資源,提出了構建社區教育資源的約束、協調及運行機制。孫卓[14]研究了遠程學習資源的建設策略,包括學習資源的真實性、針對性、建設體系、評價反饋機制等要素。何文濤[15]借鑒眾籌的思想研究了教育資源的整合問題,精英教師、大眾教師、學生在整個知識圖譜中承擔了不同的眾籌角色。趙磊等[16]認為MOOC 是“互聯網+教育”的有效模式,可以促進教育公平。張俊飛等[17]利用分布式處理技術,設計了針對大文件教學資源的分布式文件系統(HDFS)存儲方案和小文件教學資源的DFS存儲方案。
推薦對象作為推薦服務的核心要素,具有復雜的表征形式,既有靜態的背景屬性,又有動態的生成內容。構建推薦對象模型,以期給出精準的用戶畫像,是實現智能化推薦的基礎。
對學習資源推薦而言,需要為每一個學習者構建興趣模型,進而為學習者與學習資源的精準匹配提供支撐。丁旭[18]設計了以學習者為中心的學習行為分析模型,主要分析學習者的需要、興趣和行為習慣。孫歆等[19]建立了用戶的學習行為模型,關注的是用戶的主觀評價數據收集與分析。Xu等[20]對傳統向量空間方法進行了改進,使用遞歸算法挖掘學習者的興趣。白雪等[21]在研究教育資源管理與推薦模型時,使用了用戶對教育資源的標記、收藏、使用資源的行為等數據。牟智佳等[22]提出了使用個人、學業、關系、偏好、績效等信息構建學習者模型。馬志強等[23]將學習者模型分為知識模型、認知模型、情感模型、行為模型等類別。黃昌勤等[24]使用了動態可視化方法揭示學習者的行為關聯。
(1)異構信息網絡。表示為一個三元組:

式中:V為實體類型的集合;E為關系類型的集合;L為描述語言的集合。對異構網絡而言,>1 或者>1。
比如,新浪微博包含用戶和博文兩種實體類型,用戶之間可以建立關注關系,博文之間可以建立評論關系,以中文描述信息為主,是一種典型的異構信息網絡。
(2)多異構信息網絡學習者融合。異構信息網絡HINi,HINj通過學習者的對齊進行融合,LA ={u1Align u2)|l1∈HINi,l2∈HINj,i≠j},l1,l2是同一學習者在不同信息網絡的賬號。
(3)多異構信息網絡學習資源融合。異構信息網絡HINi,HINj通過學習資源的對齊進行融合,CI ={c1Align c2)|c1∈HINi,c2∈HINj,i≠j},c1,c2是相同學習資源在不同信息網絡的描述。
學習資源在不同異構信息網絡的呈現一種是顯示模式,即同一學習資源在不同信息網絡上的復制;另一種是隱式模式,即采用不同的表達方式對相同的學習內容進行描述,各個描述內容獨立,但又關聯到了同一學習資源。
學習資源推薦服務通過構建用戶興趣模型、挖掘學習資源主題、度量學習資源與學習者的興趣相似度、度量學習者之間的相似度,為學習者推薦精準的學習資源,從而促進學習資源的有效傳播。本文提出的學習資源推薦系統總體設計如圖1 所示。

圖1 學習資源推薦系統總體設計
圖1 所示所設計的學習資源推薦系統核心部件包括:①梳理、采集、構建多異構信息網絡學習資源庫,為學習者提供學習資源;②學習者學習興趣建模,包括基于學習興趣標簽的學習者靜態學習興趣,以及基于閱讀、收藏歷史學習資源挖掘的學習者動態興趣;③基于學習興趣相似度的學習資源推薦,從學習資源中挖掘主題,計算學習資源與學習者學習興趣的相似度,相似度達到一定閾值就進行推薦;④基于學習者相似度的學習資源推薦,有些學習者缺少學習興趣標簽而且學習內容很少,難以有效挖掘學習者的學習興趣,可以將相似學習者閱讀、收藏的學習資源在相似用戶間推薦。
2.3.1 學習者學習興趣建模
(1)學習者靜態學習興趣。指從學習者的興趣標簽中挖掘出的學習興趣點,記為:

每個學習興趣點為:

式中:kwi為興趣詞;wi為學習者的興趣詞權重。
(2)學習者動態學習興趣。指從學習者的學習內容中挖掘出的隨時間變化的學習興趣點,記為:

其中,topici是由多個關鍵詞組成的興趣點,wi為學習者的話題權重,T ={t1,t2,…,ts}為學習者對興趣話題topici的時間分布。
學習者的學習興趣分為兩種情況:①長期學習興趣,由學習興趣標簽反映,比如學習者的學習興趣標簽為“編程、Java 語言、面向對象”;②短期學習興趣,由瀏覽、收藏的學習資源反映,比如學習者臨時對“區塊鏈”“中美貿易戰”等話題感興趣。
學習者學習興趣標簽,可以讓學習者手工勾選或者由學習者自由填寫若干關鍵詞,將用戶的學習興趣標簽記為:

用戶動態學習興趣模型的更新是實現個性化學習資源推薦的關鍵。由于學習者的學習興趣在不斷變化,需要根據學習者所累積的學習資源不斷調整,以達到準確描述學習者真實學習興趣的目的。學習者動態學習興趣更新模型如圖2 所示。

圖2 學習者動態學習興趣更新模型
2.3.2 基于學習興趣相似度的資源推薦模型
基于學習興趣相似度的學習資源推薦模型如圖3所示。
圖3 所示模型中,首先,從學習資源中挖掘主題并進行向量化表示,比如采用向量空間模型(VSM),某一學習資源表示為:

式中:kw為學習資源的主題;w 為主題的權重。然后,分別計算學習資源與學習者靜態學習興趣的相似度、學習資源與學習者動態興趣的相似度。最后,加權靜態學習興趣和動態學習興趣得到學習資源與學習者的相似度,滿足一定的閾值后,決定是否將該學習資源推薦給學習者。對于多個學習資源,按照相似度從大到小排序,選取top-k個學習資源推薦給用戶。

圖3 基于學習興趣相似度的學習資源推薦模型
用戶閱讀、收藏的學習資源可以通過分詞構建詞匯庫。詞匯庫中的每個詞相互獨立,可以使用word2vec方法將學習資源向量化表示。word2vec有兩種模型Skip-gram和CBOW,CBOW模型通過一個詞的上下文詞匯來推測目標詞匯,Skip-gram模型通過目標詞匯推測上下文詞匯。對CBOW模型而言,已知詞匯w與其上下文詞匯context(w),目標函數為:

對Skip-gram 模型而言,已知詞匯w 與其上下文詞匯context(w),目標函數為:

2.3.3 基于學習者相似度的資源推薦模型
基于學習者相似度的學習資源推薦模型如圖4 所示。學習資源推薦模型通過計算學習者之間的相似度達到學習資源推薦的目的,可以有效避免單純依靠學習資源與學習者學習興趣相似度推薦方法的缺陷。該推薦模型核心的問題是學習者之間相似度的度量。

圖4 基于學習者相似度的學習資源推薦模型
學習者相似度計算模型如圖5 所示。

圖5 學習者相似度計算模型
學習者間的社交關系指學習者關注的社交圈子情況,相似度計算可以使用Jaccard方式:

學習者間的靜態學習興趣相似度計算可以使用Jaccard方式:

學習者間的動態學習興趣相似度計算可以使用余弦相似度的方式:

筆者所在的智慧教育團隊多年來一直從事教育資源庫建設、課程改革、教學平臺、學習推薦等領域的研究。在上述多異構信息網絡融合的學習資源推薦模型的指導下,選取了中國大學MOOC、博客、論壇、貼吧等異構信息網絡作為學習資源的采集目標,使用搜索采集的網絡爬蟲策略采集了幾個平臺的部分學習資源。根據學習者融合、學習者學習興趣建模、學習資源主題挖掘向量化表示、學習興趣相似度計算、學習者相似度計算等模型和方法,開發了多異構信息網絡融合的學習資源推薦原型平臺-“江蘇海洋大學學習資源推薦系統”,探索了面向多異構信息網絡融合的教學改革,為學生精準獲取在線學習資源提供支持。圖6 所示為系統的登錄頁面。
學習者的靜態學習興趣主要通過學習者的興趣標簽反映。學習者在定制學習興趣標簽時,系統既支持學習者從系統標簽庫中選取,也支持學習者自由輸入,輸入多個興趣點時,興趣點之間用分號隔開。圖7 所示為學習者興趣標簽定制頁面。

圖6 系統登錄頁

圖7 學習者學習興趣定制頁
從各類信息網絡采集獲取學習資源后,基于學習興趣相似度的學習資源推薦模型和基于學習者相似度的學習資源推薦模型,向學習者自動推薦的學習資源如圖8 所示。
教學改革已經從課堂授課向課外獲取拓展知識。在人人都是自媒體的時代,互聯網上包含了大量學習資源,已經不再局限于特定的教學平臺,而是分散于各類信息網絡中,包括微博、博客、貼吧、論壇、微信等社交媒體。如何改革已有的教學模式,為學生提供精準的學習資源,是智慧教育研究的一部分。對學習者而言,推薦系統可以有效解決學習者海量信息背景下的“信息過載”問題,節省他們獲取信息的時間和精力。面向學習者的學習資源推薦應注重各類媒體信息的深度融合,已經引起了研究者的廣泛關注。本文研究并實踐了多異構信息網絡融合的學習資源推薦,從相關概念、系統總體設計、核心模塊設計等各個方面進行了詳細的描述,相關教改成果可為學生精準獲取在線學習資源提供支持。

圖8 學習資源推薦頁