鄭明 舒暢 黃宇健
摘 要: 互聯(lián)網(wǎng)的迅猛發(fā)展改變了人們的生活方式,數(shù)字校園發(fā)展也在悄然的發(fā)生變化。來(lái)自各個(gè)不同地區(qū)的學(xué)生個(gè)體,其文化背景、家庭經(jīng)濟(jì)狀況、喜好特點(diǎn)、學(xué)習(xí)情況差距較大,學(xué)生接受網(wǎng)絡(luò)信息的多樣化、復(fù)雜化等,都給高校數(shù)字校園的管理工作帶來(lái)了巨大的挑戰(zhàn),同時(shí),資源的豐富性,信息過(guò)載,使得用戶(hù)在面對(duì)大量信息時(shí)無(wú)法從中獲得對(duì)自己真正有用的那部分信息,對(duì)信息的使用效率反而降低。由此,本文將對(duì)數(shù)字化校園圖書(shū)資源進(jìn)行個(gè)性化推薦的研究,選取學(xué)生課程信息、圖書(shū)借閱信息,通過(guò)協(xié)同過(guò)濾推薦算法進(jìn)行挖掘和分析,來(lái)提高圖書(shū)資源的使用效率,避免信息過(guò)載,主動(dòng)為用戶(hù)進(jìn)行選擇或直接為其提供有針對(duì)性的資源信息,為學(xué)校管理決策提供支持,為學(xué)校教育工作的改進(jìn)提供有效的依據(jù)。實(shí)驗(yàn)結(jié)果表明,該算法能有效提高校園圖書(shū)信息化服務(wù)的推薦質(zhì)量,節(jié)省用戶(hù)獲取有用資源的時(shí)間。
關(guān)鍵詞: 數(shù)字校園;協(xié)同過(guò)濾;個(gè)性化推薦
一、引言
大數(shù)據(jù)時(shí)代數(shù)字化校園如何在現(xiàn)有互聯(lián)網(wǎng)基礎(chǔ)上營(yíng)造更加豐富多彩的數(shù)字化氛圍,捕獲師生更為真實(shí)的興趣需求,創(chuàng)建一個(gè)便捷的信息溝通與交流環(huán)境,便成為在新一代數(shù)字校園建設(shè)發(fā)展中,我們必需面臨和思考的問(wèn)題。而高校師生這類(lèi)對(duì)于信息異常敏感和關(guān)注的群體,其每天都要面對(duì)大量的各類(lèi)信息,客觀上造成了所謂的“信息冗余”。
數(shù)字校園中圖書(shū)資源面臨的是數(shù)字資源呈幾何級(jí)增長(zhǎng),面對(duì)海量的數(shù)字資源,利用推薦技術(shù)可以更智慧、更高效的將圖書(shū)資源向用戶(hù)推薦[4]。
本文將從5個(gè)方面來(lái)對(duì)數(shù)字化校園個(gè)性化推薦進(jìn)行研究:第1節(jié)簡(jiǎn)單介紹了數(shù)字化校園與圖書(shū)資源的相關(guān)概述,在概述中介紹了協(xié)同過(guò)濾的概念及本文的結(jié)構(gòu)安排。第2部分從數(shù)字化校園圖書(shū)資源的現(xiàn)狀出發(fā),提出目前數(shù)字化校園中圖書(shū)資源存在的問(wèn)題及解決辦法。第3部分根據(jù)提出的問(wèn)題和解決策略,通過(guò)傳統(tǒng)協(xié)同過(guò)濾推薦算法的研究提出本文基于K近鄰用戶(hù)和N近鄰項(xiàng)目的有效結(jié)合的算法。第4部分通過(guò)相關(guān)數(shù)據(jù)集,采用相關(guān)相似性的計(jì)算方法得出K近鄰用戶(hù)和N近鄰項(xiàng)目有效結(jié)合的實(shí)驗(yàn),并通過(guò)借閱量、點(diǎn)擊率的方法驗(yàn)證該方法的可行性。最后,對(duì)數(shù)字校園進(jìn)行前景展望。
二、存在的問(wèn)題
高校數(shù)字化校園的目標(biāo)是實(shí)現(xiàn)高校教學(xué)、科研、管理、服務(wù)的數(shù)字化與信息化,實(shí)現(xiàn)教育資源的合理分配與利用,提高辦學(xué)質(zhì)量、辦學(xué)效益和科研水平,提高高校管理水平。我國(guó)推廣教育信息化已有多年,高校經(jīng)過(guò)多年的信息化建設(shè),已經(jīng)建成完善的校園主干網(wǎng)絡(luò),建設(shè)了統(tǒng)一認(rèn)證平臺(tái)、教務(wù)管理系統(tǒng)、科研管理系統(tǒng)、人事財(cái)務(wù)管理系統(tǒng)、教學(xué)資源庫(kù)、精品課程與視頻公開(kāi)課、學(xué)生信息管理系統(tǒng)等涵蓋教學(xué)、科研、管理的應(yīng)用系統(tǒng),這些信息化建設(shè)內(nèi)容在高校實(shí)際應(yīng)用中效果良好,為高校智慧校園的建設(shè)創(chuàng)造了很好的基礎(chǔ)。[2]但高校這些應(yīng)用系統(tǒng)的建設(shè)與多年的應(yīng)用,積累了大量的數(shù)據(jù),導(dǎo)致用戶(hù)無(wú)法從中獲得對(duì)自己真正有用的那部分信息,信息過(guò)載和信息決策迷航現(xiàn)象。其次,對(duì)于師生個(gè)體而言,他們之間的需求在一定程度上并不具有普遍性,比如興趣愛(ài)好、地理位置、閱讀習(xí)慣、學(xué)習(xí)特點(diǎn)等。雖然國(guó)內(nèi)對(duì)于推薦系統(tǒng)研究已經(jīng)應(yīng)用于教育領(lǐng)域中,但數(shù)量比較少,且并未具體結(jié)合師生真實(shí)的應(yīng)用數(shù)據(jù)進(jìn)行深度數(shù)據(jù)挖掘、興趣預(yù)測(cè)并形成推薦。因此,個(gè)性化推薦是解決信息過(guò)載的有效途徑之一,它特點(diǎn)用戶(hù)地域分布,學(xué)習(xí)特點(diǎn)及興趣偏好提供推薦信息,從而幫助用戶(hù)進(jìn)行,引導(dǎo)用戶(hù),減少用戶(hù)時(shí)間和精力的投入,提高決策效率。為學(xué)校師生提供更好的數(shù)據(jù)服務(wù),建立基于圖書(shū)資源的個(gè)性化推薦,解決信息過(guò)載,節(jié)省資源獲取時(shí)間成為本文要解決的問(wèn)題。
個(gè)性化推薦中,傳統(tǒng)的協(xié)同過(guò)濾的算法核心是分析用戶(hù)興趣,在群體中找到與指定用戶(hù)的相似(興趣)物品,綜合這些相似用戶(hù)對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定資源對(duì)此信息的喜好程度預(yù)測(cè)。近年來(lái)協(xié)同過(guò)濾的算法在國(guó)內(nèi)外得到了廣泛研究。但應(yīng)用于數(shù)字校園較少。因此,研究協(xié)同過(guò)濾推薦算法應(yīng)用于數(shù)字化校園圖書(shū)資源是有必要的。
因此,本文正是利用數(shù)字校園里的課程、圖書(shū)借閱數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,推測(cè)用戶(hù)的潛在興趣和愛(ài)好,構(gòu)建協(xié)同過(guò)濾推薦算法,從而篩選和過(guò)濾出有用的圖書(shū)資源信息,展現(xiàn)用戶(hù)最關(guān)注和最感興趣的個(gè)性化信息。
三、相關(guān)工作
3.1研究開(kāi)發(fā)目標(biāo)
本文研究的目的是為了建立基于圖書(shū)資源的個(gè)性化推薦,解決數(shù)字化校園中圖書(shū)資源的信息過(guò)載、個(gè)性化匱乏等問(wèn)題,基于圖書(shū)資源的個(gè)性化推薦將主要對(duì)數(shù)字校園里用戶(hù)的課程、圖書(shū)資源數(shù)據(jù)進(jìn)行研究,推測(cè)用戶(hù)的潛在興趣和愛(ài)好,并構(gòu)建協(xié)同過(guò)濾推薦引擎,為用戶(hù)展現(xiàn)其最關(guān)注和最感興趣的個(gè)性化圖書(shū)資源信息。所以,首要目標(biāo)是獲取高校各個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)中的用戶(hù)業(yè)務(wù)數(shù)據(jù),并根據(jù)用戶(hù)的屬性及行為數(shù)據(jù)進(jìn)行興趣建模,準(zhǔn)確理解用戶(hù)當(dāng)前情境下的需求,然后基于此設(shè)計(jì)高效的推薦算法,通過(guò)推薦系統(tǒng)接口,提供個(gè)性化推薦服務(wù),從而能夠更加有針對(duì)性的服務(wù)于各類(lèi)用戶(hù)。
3.2協(xié)同過(guò)濾概念及推薦算法
本文通過(guò)用戶(hù)課程、圖書(shū)借閱情況建立興趣模型,調(diào)用相應(yīng)的算法分析用戶(hù)的興趣度,進(jìn)行個(gè)性化推薦。該模型的構(gòu)建其實(shí)質(zhì)是用戶(hù)-物品興趣矩陣的形成過(guò)程。該項(xiàng)興趣矩陣可以通過(guò)相關(guān)相識(shí)度算法進(jìn)行分析,從而達(dá)到個(gè)性化推薦的目的。而推薦算法中使用最廣的為協(xié)同過(guò)濾推薦系統(tǒng)和矩陣分解推薦系統(tǒng)。
本文中的協(xié)同過(guò)濾推薦系統(tǒng),首先是根據(jù)特征進(jìn)行相似性匹配運(yùn)算,選擇K個(gè)相似性最高的用戶(hù)作為目標(biāo)用戶(hù)的近鄰,根據(jù)K個(gè)近鄰用戶(hù)偏好,預(yù)測(cè)目標(biāo)用戶(hù)未選擇或訪問(wèn)的項(xiàng)目。選擇N個(gè)興趣度最高的項(xiàng)目通過(guò)權(quán)重篩選相應(yīng)類(lèi)型作為推薦結(jié)果展示給用戶(hù)。而度量相似性的方法有很多,常見(jiàn)的有cosine相識(shí)度,Jaccard相似度,歐式距離,Pearson相似度等。本文根據(jù)圖書(shū)借閱及課程選擇數(shù)據(jù)集的特點(diǎn),選擇余弦相似度,通過(guò)協(xié)同過(guò)濾來(lái)描述用戶(hù)興趣模型,并對(duì)局部進(jìn)行修正。
3.3推薦流程
推薦流程包括以下幾部分,如下圖3.3.1用戶(hù)興趣模型的創(chuàng)建過(guò)程。
1.篩選數(shù)據(jù)集。通過(guò)從服務(wù)器獲取用戶(hù)課程數(shù)據(jù)、圖書(shū)借閱相關(guān)數(shù)據(jù)集。篩選出課程、借閱書(shū)籍名稱(chēng)、學(xué)號(hào)、選修標(biāo)識(shí)等必要的數(shù)據(jù)集。將數(shù)據(jù)集進(jìn)行必要的清洗,將標(biāo)稱(chēng)型數(shù)據(jù)處理為啞變量。同時(shí),統(tǒng)計(jì)圖書(shū)借閱類(lèi)型次數(shù),作為最終推薦時(shí)的權(quán)值。如用戶(hù)A,借閱了4本書(shū),瘋狂英語(yǔ)、口語(yǔ)500句、體育與健康、心里健康,根據(jù)書(shū)籍的類(lèi)型分類(lèi),其2本為英語(yǔ)類(lèi),1本為體育類(lèi),1本為綜合類(lèi),故相應(yīng)的權(quán)重w1=2,w3=1,w10=1,其他類(lèi)型未選擇的,則w2...w4為0。構(gòu)建的矩陣如上表3.3.1形式。考慮某些用戶(hù)沒(méi)有借閱信息或者借閱書(shū)籍較少的情況,課程表的數(shù)據(jù)將作為解決冷啟動(dòng)辦法。
2.建立用戶(hù)-項(xiàng)目矩陣。通過(guò)處理好的特征進(jìn)行余弦相似性匹配運(yùn)算,獲得每個(gè)用戶(hù)與其他用戶(hù)的相識(shí)度。形成相似度矩陣User—Similarity[U][N]。
3.尋找K近鄰。通過(guò)其相識(shí)度最小的K個(gè)做為相似性最高的用戶(hù)作為目標(biāo)用戶(hù)的近鄰用戶(hù)。
4.獲取N近鄰項(xiàng)。根據(jù)K各近鄰用戶(hù)的偏好,只篩選圖書(shū)特征作為候選項(xiàng),來(lái)預(yù)測(cè)目標(biāo)用戶(hù)未選擇或未訪問(wèn)的N個(gè)興趣度最高的項(xiàng)目。
5.獲取最終推薦項(xiàng)。通過(guò)選擇的N個(gè)興趣度最高的項(xiàng)目,通過(guò)權(quán)重w1....wn給予相應(yīng)類(lèi)型的排名,從而作為推薦結(jié)果展示給用戶(hù)。
3.3.1用戶(hù)興趣模型的創(chuàng)建過(guò)程
四、實(shí)驗(yàn)結(jié)果及分析
本文采用的實(shí)驗(yàn)平臺(tái)為 PC(Intel(R),CPU 2.93GHz,RAM 4 GB)和Windows 7 操作系統(tǒng),開(kāi)發(fā)工具使用 Python2.7,Spyder 和 Oracle,算法使用 Python語(yǔ)言編寫(xiě)。
4.1.數(shù)據(jù)集
為了驗(yàn)證本文所提及方法在數(shù)字校園環(huán)境下的有效性和可行性,本系統(tǒng)主要使用圖書(shū)借閱、課程數(shù)據(jù)集,故主要對(duì)用戶(hù)的借閱書(shū)籍信息進(jìn)行數(shù)據(jù)挖掘。由于用戶(hù)的借閱書(shū)刊信息與用戶(hù)所學(xué)的專(zhuān)業(yè)有很大的聯(lián)系,在本系統(tǒng)中還需要對(duì)讀者的專(zhuān)業(yè)加以考慮,因此需要從圖書(shū)館系統(tǒng)的數(shù)據(jù)庫(kù)中提取讀者專(zhuān)業(yè)屬性數(shù)據(jù)和書(shū)刊借閱數(shù)據(jù)。本文數(shù)據(jù)源來(lái)自某高校圖書(shū)館集群管理系統(tǒng)數(shù)據(jù)庫(kù)文件,取2014年1月至2015年1月的借閱數(shù)據(jù),共計(jì)106238條。選取的數(shù)據(jù)集包括用戶(hù)編號(hào)、讀者院系、讀者借閱證號(hào)、記錄號(hào)、讀者借閱證號(hào)、索書(shū)號(hào)、書(shū)名、分類(lèi)號(hào)、作者和出版社、選課時(shí)間,選課課程,課程類(lèi)型。讀者信息表因?yàn)橛兴饺诵畔](méi)有列出。該數(shù)據(jù)中的部分?jǐn)?shù)據(jù)樣本如下表所示。
圖4.1部分?jǐn)?shù)據(jù)樣本
為了達(dá)到實(shí)驗(yàn)的可操作性,必須將數(shù)據(jù)集進(jìn)行清洗,篩選出適合推薦算法。
首先,將書(shū)籍名、學(xué)院、課程標(biāo)稱(chēng)型數(shù)據(jù)轉(zhuǎn)換為啞變量,如將每門(mén)課程當(dāng)做一個(gè)特征,用戶(hù)選了該門(mén)課程,則記錄數(shù)據(jù)為1,否則為0。同時(shí)根據(jù)《中國(guó)圖書(shū)館分類(lèi)法》將分類(lèi)號(hào)轉(zhuǎn)換為哲學(xué)、軍事、經(jīng)濟(jì)、文化、教育等22種類(lèi)型,再將用戶(hù)歷史借閱書(shū)籍通過(guò)該類(lèi)進(jìn)行統(tǒng)計(jì)次數(shù),作為推薦結(jié)果的排名權(quán)重。同時(shí),對(duì)于課程需要清洗含(上)、(下),(一)等后綴標(biāo)記,讓相同課程盡量歸為同一類(lèi)。如網(wǎng)球(一),網(wǎng)球(二)都屬于網(wǎng)球。經(jīng)過(guò)上述一系列預(yù)處理后,最終用于實(shí)驗(yàn)的數(shù)據(jù)格式如下表。
圖4.2部分處理后數(shù)據(jù)樣本
4.2實(shí)驗(yàn)結(jié)果分析
基于協(xié)同過(guò)濾推薦算法,通過(guò)計(jì)算用戶(hù)與用戶(hù)之間的相識(shí)度,來(lái)進(jìn)行偏好預(yù)測(cè)。截選部分推薦結(jié)果如表1。其中,學(xué)院類(lèi)型、專(zhuān)業(yè)課不作為推薦結(jié)果,只作為訓(xùn)練特征,推薦參考理由。通過(guò)協(xié)同過(guò)濾算法推薦結(jié)果,用戶(hù)3產(chǎn)生了4個(gè)偏好最高的候選項(xiàng);通過(guò)歷史借閱書(shū)籍對(duì)應(yīng)的類(lèi)型可知,藝術(shù)類(lèi)權(quán)重最高。因此,將項(xiàng)目3和項(xiàng)目4排列在項(xiàng)目1之前優(yōu)先推薦給用戶(hù)3。
表1算法生成結(jié)果部分?jǐn)?shù)據(jù)
通過(guò)隨機(jī)篩選1000個(gè)用戶(hù)的借閱情況及點(diǎn)擊信息分析,如下圖1可知,推薦前,未借閱人數(shù)較多,書(shū)籍借閱總數(shù)較少,推薦后未借閱人數(shù)明顯增加,借閱1-3本人數(shù)明顯增加。圖2可知,未推薦前瀏覽基本處于2500水平,通過(guò)推薦后,用戶(hù)點(diǎn)擊數(shù)明顯上升,協(xié)同過(guò)濾推薦算法比傳統(tǒng)不進(jìn)行推薦其圖書(shū)借閱有明顯提高,從而表明在數(shù)字校園個(gè)性化服務(wù)領(lǐng)域的有效性和可行性。因此,可以在數(shù)字校園中使用協(xié)同過(guò)濾算法進(jìn)行推薦來(lái)節(jié)省用戶(hù)檢索資源的時(shí)間,提升個(gè)性化服務(wù)質(zhì)量。
圖1 沒(méi)有推薦前與推薦后的借閱本書(shū)對(duì)比 圖2 沒(méi)有推薦前與推薦后的點(diǎn)擊瀏覽對(duì)比
五、前景展望
數(shù)字化校園建設(shè)是一個(gè)長(zhǎng)期的、系統(tǒng)性工程,涉及學(xué)校的每個(gè)職能部門(mén),一個(gè)成功的數(shù)字化校園可以推動(dòng)學(xué)校管理體制和思想觀念的轉(zhuǎn)變,大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)技術(shù)的發(fā)展為高校數(shù)字化校園個(gè)性化建設(shè)提供了技術(shù)基礎(chǔ)。在海量數(shù)據(jù)中,挖掘、分析出大數(shù)據(jù)背后隱藏的有價(jià)值信息,可以更好地提高數(shù)據(jù)管理質(zhì)量,提高學(xué)校各職能部門(mén)的工作效率,為學(xué)校領(lǐng)導(dǎo)層的決策提供科學(xué)依據(jù),在教學(xué)、管理、校園安全等方面提供有益的幫助,同時(shí)對(duì)實(shí)現(xiàn)高校教育信息化可持續(xù)發(fā)展有著重要的推動(dòng)意義,未來(lái)的校園將是智慧校園,會(huì)更加完善,更具“智慧”。
參考文獻(xiàn)
[1]劉敏斯,陳少波.大數(shù)據(jù)時(shí)代高校智慧校園建設(shè)研究.2015(08).
[2]張維國(guó).大數(shù)據(jù)時(shí)代數(shù)字化校園建設(shè)的研究.2015(09).
[3]高瀅,齊紅,劉亞波,劉大有.基于用戶(hù)等級(jí)的協(xié)同過(guò)濾推薦算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2008,46(3): 489~493.
[4]林敏.基于云計(jì)算的協(xié)同過(guò)濾推薦算法在智慧圖書(shū)館中的應(yīng)用.2013.