999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的相關(guān)圖書推薦研究

2022-05-15 06:35:48張金柱蔣霖琪
關(guān)鍵詞:關(guān)聯(lián)語(yǔ)義特征

張金柱,蔣霖琪,王 玥,孔 捷,高 揚(yáng)

1.南京理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,南京210094

2.南京理工大學(xué),南京210094

隨著圖書資源的不斷豐富,讀者獲取感興趣圖書的難度不斷增大,圖書推薦技術(shù)隨之產(chǎn)生。圖書推薦技術(shù)利用用戶信息、圖書信息以及用戶歷史行為信息來(lái)預(yù)測(cè)用戶可能感興趣的圖書,主動(dòng)地進(jìn)行圖書推薦,使得用戶可以快速、準(zhǔn)確地獲得相關(guān)圖書,節(jié)約大量時(shí)間[1]。此外,優(yōu)質(zhì)的圖書推薦方法也能夠幫助圖書銷售平臺(tái)提升其精準(zhǔn)化推薦的能力,從而增強(qiáng)核心競(jìng)爭(zhēng)能力。

圖書推薦主要包括以下三種方法,分別是基于內(nèi)容的、基于協(xié)同過(guò)濾的和基于關(guān)聯(lián)規(guī)則的圖書推薦[1]?;趦?nèi)容的圖書推薦主要根據(jù)用戶過(guò)去借閱或購(gòu)買的圖書,為用戶推薦與歷史書目相似的圖書;基于協(xié)同過(guò)濾的圖書推薦則根據(jù)用戶偏好或圖書相似性進(jìn)行圖書推薦;基于關(guān)聯(lián)規(guī)則的圖書推薦根據(jù)用戶購(gòu)買或者借閱的記錄,從中選取頻繁共同出現(xiàn)的圖書形成圖書組合,根據(jù)組合向目標(biāo)用戶推薦圖書[2]。這三種方法在圖書推薦方面取得了較好的效果,但利用的圖書特征項(xiàng)還稍顯單一,仍需進(jìn)一步擴(kuò)充和綜合利用其他多種圖書特征項(xiàng)提高推薦的準(zhǔn)確性和效果,并區(qū)分和明晰不同特征對(duì)于圖書推薦的貢獻(xiàn)程度和影響。此外,這些方法推薦的圖書在內(nèi)容上都極為相似,缺乏多樣性,無(wú)法為用戶提供多樣化的選擇,難以滿足用戶的潛在興趣和需求。因此,本文希望在推薦過(guò)程中充分?jǐn)U展和融合多種圖書特征及其關(guān)聯(lián)關(guān)系,提高推薦的準(zhǔn)確性,并從語(yǔ)義相關(guān)角度為讀者推薦種類多樣的圖書。

網(wǎng)絡(luò)表示學(xué)習(xí)能夠?qū)⒕W(wǎng)絡(luò)中的節(jié)點(diǎn)以及節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系進(jìn)行語(yǔ)義融合,進(jìn)而將網(wǎng)絡(luò)中的節(jié)點(diǎn)表示為稠密低維向量,作為多種分類、聚類和鏈路預(yù)測(cè)任務(wù)的輸入,并取得了較好的效果[3]。基于此,本文綜合利用圖書、關(guān)鍵詞、作者、購(gòu)買者、類別和出版社等多種特征及其多維關(guān)聯(lián)關(guān)系,引入網(wǎng)絡(luò)表示學(xué)習(xí)方法對(duì)它們進(jìn)行語(yǔ)義融合,形成圖書的語(yǔ)義向量表示,進(jìn)而借助向量相似度指標(biāo)計(jì)算圖書相關(guān)性,從語(yǔ)義相關(guān)角度提高圖書推薦的準(zhǔn)確性和多樣性,明晰不同特征對(duì)于圖書推薦的貢獻(xiàn)程度和影響。

1 國(guó)內(nèi)外研究綜述

本部分首先介紹圖書推薦的基本方法,分別從基于內(nèi)容的推薦、基于協(xié)同過(guò)濾的推薦以及基于關(guān)聯(lián)規(guī)則的推薦共三個(gè)方面展開;接著介紹網(wǎng)絡(luò)表示學(xué)習(xí)的常用模型與方法,介紹異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)在推薦中的應(yīng)用。

1.1 圖書推薦相關(guān)研究

根據(jù)推薦算法的工作機(jī)制,圖書推薦可分為基于內(nèi)容的推薦、基于協(xié)同過(guò)濾的推薦以及基于關(guān)聯(lián)規(guī)則的推薦[2]。

基于內(nèi)容的推薦技術(shù)(content-based recommendations,CB)是最早被使用的推薦算法[4],它根據(jù)用戶過(guò)去購(gòu)買或者借閱的圖書,為用戶推薦與歷史書目相似的圖書?;趦?nèi)容的推薦簡(jiǎn)單有效,結(jié)果直觀,容易理解,取得了較好的效果[4]。由于該算法主要考慮圖書內(nèi)容,兩本圖書間的內(nèi)容相似性是作為推薦與否的重要依據(jù)[5],因此只會(huì)為用戶推薦與過(guò)去相似的圖書,推薦同質(zhì)化較為嚴(yán)重,而且存在語(yǔ)言的語(yǔ)義模糊性問(wèn)題;此外,用戶對(duì)于圖書的評(píng)價(jià)以及圖書的重要性較難體現(xiàn)在該方法中。基于協(xié)同過(guò)濾的推薦技術(shù)(collaborative filtering recommendations,CF)是現(xiàn)如今應(yīng)用最為廣泛的推薦方法[6]。它根據(jù)用戶的偏好發(fā)現(xiàn)圖書的相似性,或者根據(jù)圖書特征發(fā)現(xiàn)用戶的相似性,然后再基于這些相似性進(jìn)行推薦。該算法可以有效利用其他用戶的偏好信息,但是隨著用戶數(shù)目的增大,用戶興趣相似度計(jì)算起來(lái)也越來(lái)越復(fù)雜,時(shí)間和空間復(fù)雜度與用戶數(shù)接近于平方關(guān)系;且在實(shí)際應(yīng)用中,用戶的歷史偏好信息是用稀疏矩陣存儲(chǔ),計(jì)算復(fù)雜度高,對(duì)于新圖書或新用戶存在“冷啟動(dòng)”的問(wèn)題。基于關(guān)聯(lián)規(guī)則的推薦技術(shù)(association rule,AR)[7]是根據(jù)用戶購(gòu)買或者借閱的記錄,利用支持度和置信度挖掘頻繁共同出現(xiàn)的圖書組合,利用生成的圖書組合向用戶推薦圖書。該算法只需用戶的圖書購(gòu)買記錄,對(duì)數(shù)據(jù)的要求簡(jiǎn)單,但該算法中最小支持度和最小置信度是人為設(shè)置,較難找到最優(yōu)值;此外,由于采用用戶的數(shù)據(jù),不可避免地存在冷啟動(dòng)和數(shù)據(jù)稀疏性的問(wèn)題,并且熱門暢銷的圖書容易被過(guò)度頻繁地推薦。

以上三種推薦方法從不同角度在不同領(lǐng)域進(jìn)行了大量圖書推薦研究,并取得了較好的效果,但是這些方法所用信息還需進(jìn)一步擴(kuò)展和融合,圖書的關(guān)鍵詞、類別、作者、出版社等可能對(duì)圖書推薦產(chǎn)生作用的特征尚未加入進(jìn)來(lái);尤為重要的是,多種特征及其關(guān)聯(lián)關(guān)系尚需進(jìn)一步融合實(shí)現(xiàn)綜合利用,從而提高圖書推薦的準(zhǔn)確性。此外,這些方法推薦的圖書在內(nèi)容上都較為相似,尚需從潛在需求角度提高圖書推薦的多樣性。

1.2 網(wǎng)絡(luò)表示學(xué)習(xí)相關(guān)研究

網(wǎng)絡(luò)表示學(xué)習(xí)是復(fù)雜網(wǎng)絡(luò)與深度學(xué)習(xí)的交叉融合,可以將網(wǎng)絡(luò)節(jié)點(diǎn)轉(zhuǎn)化為低維稠密實(shí)值向量,并將其用作已有的多種機(jī)器學(xué)習(xí)算法的輸入[3]。

針對(duì)異構(gòu)網(wǎng)絡(luò)的特點(diǎn),學(xué)者們以同構(gòu)網(wǎng)絡(luò)中的deepwalk[8]和node2vec[9]算法為基礎(chǔ),從不同角度形成和改進(jìn)了異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)模型,部分研究在推薦系統(tǒng)上驗(yàn)證了方法的效果和效率。Yu 等人[10]基于元路徑的潛在特征來(lái)表示用戶和物品之間沿不同類型路徑的相關(guān)性,利用異構(gòu)信息網(wǎng)絡(luò)中不同類型的實(shí)體關(guān)系,提出了一種隱式反饋的推薦框架。Zhao 等人[11]提出NERM(network embedding based recommendation model)模型,該模型利用用戶的物品打分記錄和打標(biāo)簽記錄構(gòu)建異構(gòu)網(wǎng)絡(luò),通過(guò)表示學(xué)習(xí)算法學(xué)習(xí)各節(jié)點(diǎn)的向量,根據(jù)相似度計(jì)算以實(shí)現(xiàn)物品推薦。Zhang等人[12]基于用戶的評(píng)分信息構(gòu)建用戶-物品及用戶-用戶網(wǎng)絡(luò),利用node2vec方法學(xué)習(xí)用戶節(jié)點(diǎn)的向量表示,將潛在社交關(guān)系融入推薦排序模型中,結(jié)果顯示在評(píng)分預(yù)測(cè)推薦場(chǎng)景中取得不錯(cuò)效果。Shi等人[13]提出基于異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)的推薦方法HERec,用于挖掘網(wǎng)絡(luò)中用戶和物品的潛在結(jié)構(gòu)與表示,并在豆瓣電影、豆瓣圖書等數(shù)據(jù)集上驗(yàn)證了該方法的有效性,但其融合的特征尚需擴(kuò)展。李樹青等人[14]根據(jù)讀者借閱記錄構(gòu)建異構(gòu)網(wǎng)絡(luò),設(shè)計(jì)算法以測(cè)度圖書推薦質(zhì)量,從而為圖書推薦服務(wù)提供了良好的推薦客體,并以高校圖書館借閱記錄為實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證了算法可以有效提高讀者滿意度。

異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的部分算法已經(jīng)在推薦系統(tǒng)上驗(yàn)證了模型的有效性和效率,提高了語(yǔ)義表達(dá)效果,降低了計(jì)算復(fù)雜度,然而,這些模型尚未根據(jù)圖書推薦這一具體任務(wù),針對(duì)性地設(shè)計(jì)、擴(kuò)展和綜合利用多種圖書特征項(xiàng)及其關(guān)聯(lián)關(guān)系,形成語(yǔ)義相關(guān)視角下的特定圖書推薦方法。

2 基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的圖書推薦方法

本文首先選取多種圖書特征構(gòu)建圖書異構(gòu)網(wǎng)絡(luò),定義特征間的多維關(guān)聯(lián)關(guān)系,并基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法,融合多種圖書特征信息,構(gòu)建每本圖書的語(yǔ)義向量表示;然后,從語(yǔ)義關(guān)聯(lián)角度,通過(guò)余弦相似度計(jì)算圖書之間的相關(guān)程度,實(shí)現(xiàn)圖書推薦;最后,利用均方根誤差、平均絕對(duì)誤差等指標(biāo),比較異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法與傳統(tǒng)協(xié)同過(guò)濾方法以及deepwalk 算法對(duì)于圖書推薦的準(zhǔn)確性,在類別和內(nèi)容多樣性兩個(gè)方面比較推薦圖書的相關(guān)性差異。

2.1 圖書異構(gòu)網(wǎng)絡(luò)構(gòu)建

圖書異構(gòu)網(wǎng)絡(luò)構(gòu)建包括圖書特征提取以及多維關(guān)聯(lián)關(guān)系定義。如圖1所示,圖書特征包括圖書b(book)、購(gòu)買者u(user)、類別c(category)、作者a(author)和出版社p(publisher)以及表示圖書內(nèi)容信息的關(guān)鍵詞k(keyword)等。特征間的多維關(guān)聯(lián)關(guān)系以多種基本關(guān)聯(lián)關(guān)系為基礎(chǔ)進(jìn)行拼接和擴(kuò)展,其中五種基本關(guān)聯(lián)關(guān)系為圖書分別與購(gòu)買者、類別、出版社、作者、關(guān)鍵詞來(lái)形成,即bu或ub,bc 或cb,bp 或pb,ba 或ab 以及bk 或kb,并由此可以擴(kuò)展形成多種關(guān)聯(lián)關(guān)系類型,如ub和ba形成uba的關(guān)聯(lián)關(guān)系,ub、ba,ab和bu形成ubabu的關(guān)聯(lián)關(guān)系。出于效率考慮,以及越長(zhǎng)的路徑對(duì)于圖書推薦的作用可能越小,本文選取長(zhǎng)度小于或等于5的路徑作為圖書特征間的多維關(guān)聯(lián)關(guān)系。

圖1 圖書異構(gòu)網(wǎng)絡(luò)Fig.1 Heterogeneous network of books

2.2 基于網(wǎng)絡(luò)表示學(xué)習(xí)的圖書特征語(yǔ)義融合表示

圖書特征間的多維關(guān)聯(lián)關(guān)系為圖書提供了豐富的語(yǔ)義信息,可以通過(guò)網(wǎng)絡(luò)表示學(xué)習(xí)形成圖書的語(yǔ)義向量表示。首先,在圖書特征間通過(guò)隨機(jī)游走生成特征間的多維復(fù)雜關(guān)聯(lián)關(guān)系序列。與一般的隨機(jī)游走不同,圖書推薦隨機(jī)游走根據(jù)特征間的關(guān)聯(lián)關(guān)系類型對(duì)游走路徑進(jìn)行了約束和限制,使得路徑與圖書密切相關(guān),并且便于之后的融合表示。游走路徑生成和約束的公式化表達(dá)如公式(1)所示[13]:

其中,nx為游走路徑的第x個(gè)節(jié)點(diǎn),v的類型為Tm,是類型為Tm+1的節(jié)點(diǎn)v的鄰居。例如關(guān)聯(lián)關(guān)系“bub”約束了游走時(shí)經(jīng)過(guò)的節(jié)點(diǎn)類型為圖書、購(gòu)買者和圖書,且游走順序滿足“圖書→購(gòu)買者→圖書”。當(dāng)一名購(gòu)買者購(gòu)買了多本圖書時(shí),這些被購(gòu)買的圖書便通過(guò)該名購(gòu)買者產(chǎn)生了語(yǔ)義關(guān)聯(lián),表明這些圖書可能具有一定的相關(guān)性;同樣的,當(dāng)多名購(gòu)買者購(gòu)買了多本不同的圖書時(shí),如圖2 所示,通過(guò)圖書購(gòu)買關(guān)系使得圖書之間具備了多種語(yǔ)義關(guān)聯(lián),如圖書B1和B4通過(guò)U1和U2形成了關(guān)聯(lián)路徑B1U1B4和B1U2B4,圖書B3和B4通過(guò)U2和U3形成了關(guān)聯(lián)路徑B3U2B4和B3U3B4。依此類推,通過(guò)約束隨機(jī)游走可以產(chǎn)生多種關(guān)聯(lián)類型、多種長(zhǎng)度的關(guān)聯(lián)序列。

圖2 約束隨機(jī)游走下的圖書購(gòu)買者關(guān)聯(lián)路徑示例Fig.2 Example of book-user association path under constrained random walk

其次,本文利用圖書特征項(xiàng)序列得到的路徑信息,對(duì)每一條路徑通過(guò)目標(biāo)優(yōu)化函數(shù)公式(2)來(lái)學(xué)習(xí)圖書節(jié)點(diǎn)的語(yǔ)義向量表示,其中Nv是路徑下圖書節(jié)點(diǎn)v的鄰居,采用隨機(jī)梯度下降算法優(yōu)化目標(biāo)函數(shù)。

最后,對(duì)于一個(gè)圖書節(jié)點(diǎn)v,可以學(xué)習(xí)到該圖書節(jié)點(diǎn)的一系列表示,通過(guò)融合函數(shù)公式(3)對(duì)學(xué)習(xí)到的圖書節(jié)點(diǎn)表示進(jìn)行融合轉(zhuǎn)換,其中為圖書節(jié)點(diǎn)v在第l條路徑下的表示,P為路徑集合,是圖書節(jié)點(diǎn)對(duì)于第p條路徑的偏好權(quán)重,Ap和bp分別表示第l條路徑下的變化矩陣和偏置向量,經(jīng)過(guò)融合后得到圖書的低維稠密向量表示。

2.3 基于相似度計(jì)算的圖書推薦

圖書異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)將圖書特征項(xiàng)及其多種關(guān)聯(lián)關(guān)系融合表示為圖書的語(yǔ)義向量后,就可以借助多種向量相似度計(jì)算指標(biāo)和方法,計(jì)算圖書之間的語(yǔ)義相似性,進(jìn)而實(shí)現(xiàn)圖書推薦。

向量間相似度計(jì)算的方法很多,其中代表性的方法有余弦相似度、歐氏距離、Jaccard系數(shù)、馬氏距離等。本文采用余弦距離來(lái)計(jì)算圖書向量間的相似度。以x=(x1,x2,…,xn)T和y=(y1,y2,…,yn)T分別表示兩本圖書的向量,相似度計(jì)算公式如式(4)所示:

2.4 推薦效果評(píng)估

本文選擇使用常用的平均絕對(duì)誤差MAE(mean absolute error)和均方根誤差RMSE(root mean squared error)方法來(lái)評(píng)價(jià)推薦準(zhǔn)確度,通過(guò)計(jì)算預(yù)測(cè)的用戶評(píng)分與實(shí)際用戶評(píng)分之間的偏差度量,可以直觀地度量推薦結(jié)果的準(zhǔn)確性,MAE、RMSE 越小則說(shuō)明推薦效果越好。計(jì)算公式如(5)、(6)所示,其中ri,j是用戶i對(duì)于圖書j的實(shí)際評(píng)分,r′i,j是用戶i對(duì)于圖書j的預(yù)測(cè)評(píng)分,Dtest是指測(cè)試集上的評(píng)分?jǐn)?shù)據(jù)。

圖書推薦不僅僅需要通過(guò)高準(zhǔn)確率來(lái)滿足用戶,還需從多樣性角度滿足用戶的潛在興趣和需求,而這也是語(yǔ)義相關(guān)視角下的圖書推薦的作用和優(yōu)勢(shì)。因此,本文從類別和內(nèi)容多樣性兩個(gè)角度對(duì)圖書推薦多樣性進(jìn)行評(píng)測(cè)。

(1)類別多樣性的評(píng)價(jià)指標(biāo)借助學(xué)科交叉測(cè)度中的多樣性指標(biāo)(diversity)[15]來(lái)實(shí)現(xiàn),具體包括學(xué)科豐富度(varity)、平衡性(balance)和差異度(disparity),其中學(xué)科豐富度是指涵蓋學(xué)科數(shù)量的多少,平衡性是指學(xué)科占比的均衡性,差異度是指學(xué)科間的差異性[15]。對(duì)應(yīng)到圖書推薦的多樣性,將分別從類別豐富度NC(number of category)、平衡性SE(shannon entropy)以及類別差異度SIM(similarity)三個(gè)方面進(jìn)行評(píng)價(jià)分析。如公式(7)~(9)所示:

Ci表示推薦圖書的所屬類別,pi表示不同圖書類別的概率分布,ci、cj表示基于word2vec的圖書類別語(yǔ)義向量表示,S(ci,cj)是兩本圖書i、j所屬類別之間的相似度。

(2)對(duì)于內(nèi)容多樣性的評(píng)價(jià)指標(biāo),選取差異度SIM作為衡量推薦圖書內(nèi)容層次多樣性的指標(biāo)。如公式(10)所示,bi、bj是基于doc2vec 的推薦圖書摘要內(nèi)容向量表示,S(bi,bj)是兩本圖書i、j之間的相似度。

3 實(shí)證分析

本文以亞馬遜圖書數(shù)據(jù)集為基礎(chǔ),輔以爬蟲技術(shù)獲取圖書的作者、出版社以及摘要中抽取的關(guān)鍵詞,擴(kuò)展圖書特征項(xiàng)并構(gòu)建圖書異構(gòu)網(wǎng)絡(luò),基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法得到每本圖書的向量表示,進(jìn)而基于余弦相似度計(jì)算圖書之間的相關(guān)度,然后基于RMSE、MAE指標(biāo)比較異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法與協(xié)同過(guò)濾方法以及deepwalk算法對(duì)于圖書推薦的準(zhǔn)確性,從類別和摘要內(nèi)容多樣性兩個(gè)層次比較推薦圖書的相關(guān)性,從而驗(yàn)證異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法在圖書推薦運(yùn)用中的可行性和有效性,最后通過(guò)定量比較融合不同元路徑后的推薦結(jié)果,以探究不同圖書特征對(duì)推薦結(jié)果的影響。

3.1 數(shù)據(jù)來(lái)源

本文通過(guò)擴(kuò)展亞馬遜圖書數(shù)據(jù)集中的圖書特征項(xiàng),形成本文的實(shí)驗(yàn)數(shù)據(jù)。首先從中提取已有圖書特征項(xiàng),如圖書異構(gòu)網(wǎng)絡(luò)中所涉及到的圖書b、購(gòu)買者u、圖書類別c 節(jié)點(diǎn);在此基礎(chǔ)上,利用網(wǎng)絡(luò)爬蟲方法獲取圖書作者a、出版社p 以及從摘要中抽取的表示圖書內(nèi)容的關(guān)鍵詞k,擴(kuò)展形成完整的數(shù)據(jù)集。其中,關(guān)鍵詞抽取通過(guò)RAKE 算法(rapid automatic keyword extraction)來(lái)實(shí)現(xiàn)[16],每篇文章中選取排名前5的關(guān)鍵詞作為其表示。最終,實(shí)驗(yàn)數(shù)據(jù)集包含28 382個(gè)用戶、2 301本圖書、11 124個(gè)關(guān)鍵詞、55 個(gè)圖書類別、2 106 個(gè)作者及927 個(gè)出版社。表1列出了實(shí)驗(yàn)中涉及的五種基本關(guān)聯(lián)關(guān)系和對(duì)應(yīng)路徑的統(tǒng)計(jì)信息。

表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)Table 1 Statistics of experimental data

3.2 推薦準(zhǔn)確性對(duì)比分析

本文將異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法運(yùn)用在圖書推薦這個(gè)問(wèn)題上,并將推薦效果與現(xiàn)在最為主流的協(xié)同過(guò)濾推薦方法以及deepwalk方法進(jìn)行對(duì)比,結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results

對(duì)于本實(shí)驗(yàn)數(shù)據(jù),將評(píng)分?jǐn)?shù)據(jù)按不同比例分成訓(xùn)練集和測(cè)試集,設(shè)置了不同的訓(xùn)練樣本百分比,分別在80%、70%、60%、50%的數(shù)據(jù)集上進(jìn)行訓(xùn)練,在對(duì)應(yīng)余下的數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表2 所示。結(jié)果顯示,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法分別在80%、70%、60%、50%訓(xùn)練集情況下,圖書推薦上的MAE 指標(biāo)均低于協(xié)同過(guò)濾方法以及基于deepwalk 的推薦方法。在訓(xùn)練樣本80%的情況下,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法在圖書推薦上的RMSE 也同樣取得了最優(yōu)的效果;在訓(xùn)練樣本為70%、60%、50%情況下,deepwalk 圖書推薦上的RMSE指標(biāo)反而略微優(yōu)于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí),其原因可能是deepwalk 的輸入網(wǎng)絡(luò)同樣是包含了所有圖書屬性特征以及多維關(guān)聯(lián)關(guān)系的異構(gòu)網(wǎng)絡(luò),并在deepwalk中當(dāng)作同一節(jié)點(diǎn)類型進(jìn)行了訓(xùn)練,間接增加了圖書間的關(guān)聯(lián)關(guān)系。總體來(lái)看,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)所預(yù)測(cè)的即在圖書推薦的應(yīng)用上異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的效果是比較優(yōu)秀的,采用異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)模型進(jìn)行推薦具有更好的推薦效果,提高了推薦的準(zhǔn)確性。

3.3 推薦結(jié)果的多樣性比較與分析

大多數(shù)推薦方法所推薦的圖書可能在類別上具有單調(diào)性,內(nèi)容上存在重復(fù)性,難以滿足用戶的多樣性需求和可能的潛在興趣,因此,下面將從多樣性角度出發(fā)對(duì)推薦結(jié)果進(jìn)行相關(guān)性比較和分析,更全面地對(duì)推薦結(jié)果進(jìn)行評(píng)估。

3.3.1 類別多樣性角度

圖書推薦的類別多樣性將從類別豐富度、平衡性以及類別相似度三個(gè)方面進(jìn)行評(píng)價(jià)分析。針對(duì)每一本圖書的推薦結(jié)果,取其前n本作為最相關(guān)的圖書,當(dāng)n等于1、3、5、7、9 時(shí),計(jì)算平均類別數(shù)average_NC、平均信息熵average_SE、平均類別相似度average_SIMcategory,結(jié)果如表3所示。

表3 圖書推薦的類別多樣性比較結(jié)果Table 3 Comparison results of diversity of recommended book categories

平均類別數(shù)隨著n的變化如圖3(a)所示,可以發(fā)現(xiàn),隨著推薦圖書數(shù)量的增多,推薦圖書的類別也隨之增加。異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)推薦的平均圖書類別數(shù)目均多于基于內(nèi)容和協(xié)同過(guò)濾方法,即異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)推薦的圖書更加多元化,推薦書目的類別更加豐富。平均信息熵和平均類別相似度指標(biāo)所反應(yīng)的結(jié)論和平均類別數(shù)指標(biāo)基本一致,如圖3(b)和圖3(c)所示,其中,平均類別相似度越低,表明推薦圖書類別的差異越大。值得一提的是,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法隨著推薦圖書數(shù)量的增加,平均類別相似度逐漸變大,這從側(cè)面反映了異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法首先推薦的可能是與原圖書類別差異較大的類別的圖書,并隨著數(shù)量增加,推薦的圖書類別越來(lái)越相似。

圖3 類別多樣性統(tǒng)計(jì)結(jié)果Fig.3 Statistics of category diversity

以ASIN碼為“078510870X”的圖書Ultimate Marvel Team-Up為例具體說(shuō)明,此書的類別為“Children’s Books”,推薦的前10 本圖書如表4 所示,分別計(jì)算NC、SE、SIM這三個(gè)多樣性指標(biāo),結(jié)果如表5所示。

表4 圖書Ultimate Marvel Team-Up的圖書推薦類別Table 4 Recommended categories of Ultimate Marvel Team-Up

表5 推薦圖書類別多樣性比較結(jié)果Table 5 Comparison results of diversity for recommended book categories

根據(jù)表4 可以發(fā)現(xiàn),基于內(nèi)容的方法推薦了4 個(gè)類別的圖書,其中“Children’s Books”類別圖書共有6 本,協(xié)同過(guò)濾所推薦的圖書種類只有3 種,其中,“Literature&Fiction”的類別有6 本,“Science Fiction &Fantasy”類別3 本,推薦的書本以小說(shuō)文學(xué)類為主;而異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法推薦的類別多達(dá)7 種,其中,“Children’s Books”“Comics &Graphic Novels”及“Literature &Fiction”類別的圖書各2本,推薦的圖書包含但又不限于兒童、小說(shuō)文學(xué)類別,該方法推薦的圖書更多元化,類別更豐富。表5的指標(biāo)計(jì)算結(jié)果同樣證實(shí)了該結(jié)論。

3.3.2 從內(nèi)容多樣性角度

針對(duì)每一本圖書的前n個(gè)推薦結(jié)果作為最相關(guān)的圖書,抽取這n本書的摘要內(nèi)容,利用doc2vec進(jìn)行語(yǔ)義表示,分別計(jì)算圖書兩兩之間的內(nèi)容相似度,并對(duì)其求平均得到平均內(nèi)容相似度。如果平均內(nèi)容相似度越小,表明推薦結(jié)果列表中的圖書越不相似,推薦結(jié)果的多樣性就越好。

不同推薦方法推薦的圖書與原圖書的內(nèi)容相似度如表6 所示。可以看到,基于內(nèi)容、基于協(xié)同過(guò)濾方法所推薦的圖書平均內(nèi)容相關(guān)性這一指標(biāo)比較穩(wěn)定,分別保持在0.96和0.92左右,這說(shuō)明無(wú)論推薦圖書的數(shù)量如何變化,基于內(nèi)容及協(xié)同過(guò)濾指標(biāo)所推薦的圖書在內(nèi)容上都與原圖書相似度很高;而基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法所推薦的圖書平均內(nèi)容相似度保持在0.87,低于其他兩種方法,這同樣說(shuō)明了相比之下,基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法所推薦的圖書在內(nèi)容上更加豐富。

表6 推薦圖書內(nèi)容相關(guān)性總體比較結(jié)果Table 6 Comparison results of overall correction for recommended book content

圖4 內(nèi)容多樣性結(jié)果變化Fig.4 Results of change for content diversity

同樣地,以ASIN碼為“078510870X”的圖書Ultimate Marvel Team-Up為例進(jìn)行分析,結(jié)果如表7所示。從內(nèi)容語(yǔ)義層面的相似度指標(biāo)顯示,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)算法所推薦的圖書內(nèi)容更加多樣。

表7 推薦圖書內(nèi)容多樣性比較結(jié)果Table 7 Results of diversity comparison of recommended books

上述結(jié)果顯示,無(wú)論是在類別層面還是在內(nèi)容層面上,協(xié)同過(guò)濾方法所推薦的圖書都是更加相似,協(xié)同過(guò)濾更多地強(qiáng)調(diào)相似性;而異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)推薦的結(jié)果類別更加豐富,內(nèi)容更加多元,更多地強(qiáng)調(diào)相關(guān)性?;诋悩?gòu)網(wǎng)絡(luò)表示的推薦不僅具有高準(zhǔn)確率,而且所推薦的圖書更加多樣,注重相關(guān)性,能更好地滿足用戶的潛在興趣。

3.4 圖書特征對(duì)圖書推薦的貢獻(xiàn)度和影響分析

不同圖書特征對(duì)圖書推薦的貢獻(xiàn)度和影響可能不同,本文通過(guò)逐步融合不同特征形成的關(guān)聯(lián)關(guān)系,結(jié)合多種評(píng)測(cè)指標(biāo),評(píng)估圖書特征對(duì)于圖書推薦的貢獻(xiàn)度和影響。本文首先選定和某個(gè)特征相關(guān)的路徑信息,然后逐一將其他特征相關(guān)的關(guān)聯(lián)關(guān)系加入到現(xiàn)有路徑中,通過(guò)計(jì)算評(píng)估指標(biāo)的變化發(fā)現(xiàn)特征項(xiàng)對(duì)于圖書推薦的影響。具體實(shí)驗(yàn)流程如下:首先選定購(gòu)買者相關(guān)的路徑,即“ubu”和“bub”這一組元路徑;隨后在此基礎(chǔ)上加入圖書作者相關(guān)的路徑,即融合“ubabu”和“bab”路徑;依次加入主題詞相關(guān)路徑“ubkbu”與“bkb”、圖書類別特征路徑“ubcbu”與“bcb”以及出版社特征路徑“ubpbu”與“bpb”。每個(gè)步驟中均分別計(jì)算均方根誤差和平均絕對(duì)誤差兩個(gè)指標(biāo)用于評(píng)估圖書推薦效果,結(jié)果如表8所示。

表8 圖書特征影響Table 8 Results of effect for book characteristics

由表8可以看出,隨著圖書特征的逐步融入,RMSE、MAE 兩個(gè)指標(biāo)都有所降低,說(shuō)明推薦效果逐步得到改善,但是隨著融入的圖書特征信息越來(lái)越多,RMSE、MAE 這兩個(gè)指標(biāo)卻有所上升,效果不僅沒(méi)有得到改進(jìn)反而下降,這可能是因?yàn)橐恍┞窂桨胍艋蚺c現(xiàn)有路徑有沖突。由此可知,并非融入圖書特征信息越豐富,模型越復(fù)雜就能達(dá)到更好的效果,在構(gòu)建異構(gòu)網(wǎng)絡(luò)模型時(shí)應(yīng)是有選擇地融入重要特征,通過(guò)甄選少量高質(zhì)量的圖書特征及其路徑來(lái)控制模型的復(fù)雜度,同時(shí)能夠較大地提高推薦的準(zhǔn)確性。

在此基礎(chǔ)上,通過(guò)單獨(dú)計(jì)算每種特征及其關(guān)聯(lián)關(guān)系下的圖書推薦效果,可以判斷每種特征項(xiàng)對(duì)于圖書推薦的貢獻(xiàn)程度。本文分別把購(gòu)買者、關(guān)鍵詞、類別、作者和出版社相關(guān)的路徑信息加入到圖書異構(gòu)網(wǎng)絡(luò)關(guān)聯(lián)模型中,計(jì)算均方根誤差RMSE和平均絕對(duì)誤差MAE,結(jié)果如表9 所示。由于平均絕對(duì)誤差MAE 和均方根誤差RMSE值越小,表明效果越好,因此,對(duì)圖書推薦貢獻(xiàn)程度從高到低的特征依次為作者、關(guān)鍵詞、類別、購(gòu)買者和出版社,這也為特征項(xiàng)選取提供了思路和方法。

表9 不同圖書特征推薦效果比較Table 9 Comparison of recommendation effects of different book features

4 總結(jié)與展望

為了提高圖書推薦的準(zhǔn)確性和多樣性,滿足用戶可能的潛在需求,本文通過(guò)融合更多的圖書特征信息,構(gòu)建圖書異構(gòu)網(wǎng)絡(luò),引入網(wǎng)絡(luò)表示學(xué)習(xí)方法,從語(yǔ)義相關(guān)的角度設(shè)計(jì)了圖書推薦方法,利用平均絕對(duì)誤差、均方根誤差等定量指標(biāo)評(píng)估推薦的準(zhǔn)確性,利用豐富度、均衡性、差異度等指標(biāo)分析圖書推薦的多樣性。在擴(kuò)展的亞馬遜圖書數(shù)據(jù)集上的實(shí)證結(jié)果表明,相較于協(xié)同過(guò)濾,該方法的均方根誤差、平均絕對(duì)誤差最多分別降低了19.52%、20.51%,相較于deepwalk,該方法的均方根誤差、平均絕對(duì)誤差最多分別降低了0.17%和2.9%,準(zhǔn)確性得到較大提高;多樣性評(píng)測(cè)指標(biāo)也顯示該方法推薦的圖書種類更多元、內(nèi)容更豐富,多樣性同樣得到了提高;明晰了不同特征對(duì)圖書推薦的貢獻(xiàn)程度,從高到低依次為作者、關(guān)鍵詞、類別、購(gòu)買者和出版社。

該方法在圖書推薦方面取得了一定的效果,但由于是初步研究和探索,在以下方面仍需進(jìn)一步深入研究。首先,可以通過(guò)獲取和融合更多的特征類型,以進(jìn)一步提高推薦的準(zhǔn)確性和全面性;其次,本文僅擴(kuò)展了亞馬遜圖書數(shù)據(jù)集并驗(yàn)證了異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法融合多種圖書特征項(xiàng)的有效性,尚需擴(kuò)展研究方法和研究領(lǐng)域,在多種平臺(tái)和圖書資源上進(jìn)行推薦并進(jìn)行方法驗(yàn)證。

猜你喜歡
關(guān)聯(lián)語(yǔ)義特征
“苦”的關(guān)聯(lián)
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 丝袜亚洲综合| 日韩精品高清自在线| 国产精品视频系列专区| 91久久国产热精品免费| 超清人妻系列无码专区| 亚洲精品福利网站| 亚洲av成人无码网站在线观看| 久久国产高潮流白浆免费观看| 亚洲国产综合精品一区| 真人高潮娇喘嗯啊在线观看| 最新日本中文字幕| 欧美第九页| 99久久精品视香蕉蕉| 亚洲欧美日韩中文字幕在线一区| 在线观看欧美国产| 亚洲最大福利视频网| 国产一二三区在线| 亚洲日韩AV无码一区二区三区人| 国产微拍一区二区三区四区| 国产不卡网| 国产欧美精品午夜在线播放| 亚洲热线99精品视频| 波多野结衣一级毛片| 色综合a怡红院怡红院首页| 无码一区18禁| 亚洲天堂久久新| 伊人久久大线影院首页| 欧美亚洲另类在线观看| 国产成人一区在线播放| 午夜欧美理论2019理论| 久久综合久久鬼| 日本www在线视频| 精品国产一区二区三区在线观看| 精品久久蜜桃| 国产美女精品在线| 国产乱子伦视频在线播放| 亚洲自拍另类| 国产又粗又猛又爽| 久久永久免费人妻精品| 国产福利影院在线观看| 精品三级在线| a色毛片免费视频| 亚洲天堂.com| 成人一级免费视频| 熟女成人国产精品视频| 国产一区二区免费播放| 亚洲视频影院| 中文字幕在线观| 国产欧美一区二区三区视频在线观看| 亚洲欧美日韩中文字幕在线| 国产精品久久国产精麻豆99网站| aaa国产一级毛片| 国产高清在线精品一区二区三区| Jizz国产色系免费| 亚洲精品第一页不卡| 在线播放国产99re| 自偷自拍三级全三级视频| 国产真实二区一区在线亚洲| 国产农村精品一级毛片视频| 中文毛片无遮挡播放免费| 啪啪免费视频一区二区| 久久这里只有精品66| 福利在线不卡| 国产地址二永久伊甸园| 鲁鲁鲁爽爽爽在线视频观看 | 国产午夜看片| 综合久久五月天| 在线无码av一区二区三区| 国产黄网永久免费| 久久无码免费束人妻| 99这里只有精品在线| 国产97视频在线观看| 欧美全免费aaaaaa特黄在线| 欧美日韩亚洲综合在线观看| 99久久国产自偷自偷免费一区| 国产00高中生在线播放| 久久香蕉国产线看观看精品蕉| 精品综合久久久久久97| 亚洲无码37.| 丁香五月激情图片| 97se亚洲综合在线韩国专区福利| 日日噜噜夜夜狠狠视频|