999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于項(xiàng)目語(yǔ)義的協(xié)同過(guò)濾冷啟動(dòng)推薦算法研究

2021-11-22 08:03:02杜宣萱
關(guān)鍵詞:語(yǔ)義文本用戶(hù)

徐 俊,張 政,杜宣萱,肖 剛

(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)

1 引 言

互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的快速發(fā)展導(dǎo)致信息爆炸式增長(zhǎng),為用戶(hù)獲取信息提供了便利,但同時(shí)用戶(hù)面對(duì)如此紛繁復(fù)雜的數(shù)據(jù)難以快速、準(zhǔn)確地獲取自己想要的數(shù)據(jù).推薦技術(shù)就是依據(jù)用戶(hù)的個(gè)性化偏好在海量數(shù)據(jù)中選擇符合用戶(hù)需求的信息、產(chǎn)品及服務(wù)提供給用戶(hù),目前已經(jīng)廣泛應(yīng)用在電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域[1].

基于協(xié)同過(guò)濾的方法是應(yīng)用最廣的推薦技術(shù),其中基于模型的方法和基于內(nèi)存的方法是傳統(tǒng)協(xié)同過(guò)濾方法的兩大類(lèi)別[2].特別是基于模型的方法因?yàn)橛休^高的推薦精度和良好的可擴(kuò)展性,所以受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[3].然而,在大數(shù)據(jù)環(huán)境下,隨著評(píng)分矩陣規(guī)模的不斷擴(kuò)增,未評(píng)分記錄越來(lái)越多,新用戶(hù)和新項(xiàng)目的不斷加入,這兩種協(xié)同過(guò)濾推薦算法都面臨著嚴(yán)重的數(shù)據(jù)稀疏性和冷啟動(dòng)挑戰(zhàn)[4].研究人員一般采用結(jié)合輔助信息,例如用戶(hù)人口統(tǒng)計(jì)學(xué)數(shù)據(jù)[5-8]、社會(huì)網(wǎng)絡(luò)數(shù)據(jù)[9-12]和語(yǔ)境感知[13-15]等多方面數(shù)據(jù),來(lái)解決數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題.這些多源數(shù)據(jù)一般為高維稀疏性數(shù)據(jù),數(shù)據(jù)真實(shí)性和可靠性不高、噪聲大且涉及隱私較難獲取或并不真實(shí)存在.

項(xiàng)目語(yǔ)義是指項(xiàng)目本身的描述信息包含的語(yǔ)義,例如電影的劇情簡(jiǎn)介、產(chǎn)品的功能描述等,根據(jù)這些自然語(yǔ)言的描述文本提取語(yǔ)義向量表示項(xiàng)目語(yǔ)義.由于項(xiàng)目語(yǔ)義具有更加準(zhǔn)確、穩(wěn)定且容易獲取的優(yōu)勢(shì),并且能表達(dá)項(xiàng)目間的深層次關(guān)聯(lián)性,因此本文提出了一種基于項(xiàng)目語(yǔ)義的協(xié)同過(guò)濾冷啟動(dòng)推薦算法(ISCF),通過(guò)改進(jìn)TF-IDF算法構(gòu)建語(yǔ)義表示模型來(lái)提取項(xiàng)目語(yǔ)義向量,并融入到矩陣分解中補(bǔ)全評(píng)分矩陣,利用聚類(lèi)對(duì)評(píng)分矩陣進(jìn)行分割,然后通過(guò)協(xié)同過(guò)濾冷啟動(dòng)推薦.

2 相關(guān)知識(shí)

本部分主要對(duì)本文算法以及本文研究領(lǐng)域方面所用到的一些知識(shí)進(jìn)行簡(jiǎn)單介紹.

2.1 語(yǔ)義表示模型

word2vec是Google的Mikolov等人[16]在2003年提出的一種基于深度學(xué)習(xí)的詞向量模型.它的基本思想是通過(guò)訓(xùn)練語(yǔ)料庫(kù)將每個(gè)單詞轉(zhuǎn)換成n維實(shí)向量,利用向量之間的距離來(lái)計(jì)算單詞的語(yǔ)義相似度.下面是CBOW模型(Continuous Bags-of-Words Model)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示:

圖1 CBOW模型網(wǎng)絡(luò)結(jié)構(gòu)

該網(wǎng)絡(luò)結(jié)構(gòu)主要分為3層:輸入層、映射層和輸出層.W(t-k),…,W(t-2),W(t-1),W(t+1),W(t+2),…,W(t+k)為當(dāng)前詞W(t)的上下文Context(t),通過(guò)調(diào)整k選擇上下文的范圍.CBOW模型利用當(dāng)前詞W(t)的上下文Context(t)預(yù)測(cè)當(dāng)前詞W(t)的概率P(W(t)|Context(t)),通過(guò)極大似然估計(jì)把概率最大化.Word2vec模型會(huì)因?yàn)檫x取向量維度和上下文個(gè)數(shù)的不同導(dǎo)致向量效果不同.

因?yàn)閃ord2vec模型是對(duì)文本中的詞構(gòu)建向量,而不是對(duì)整個(gè)文本構(gòu)建向量,因此Word2vec在向量空間上可以進(jìn)行加減法運(yùn)算[17],文獻(xiàn)[18]中結(jié)合TF-IDF(term frequency inverse document frequency)算法構(gòu)建文本語(yǔ)義表示模型.TF-IDF算法是一種常用加權(quán)技術(shù),廣泛應(yīng)用與信息檢索和文本挖掘,核心是利用權(quán)重來(lái)評(píng)價(jià)特征詞對(duì)整個(gè)文本貢獻(xiàn)的程度.該算法通過(guò)統(tǒng)計(jì)詞頻TF和逆向文件頻率IDF來(lái)評(píng)估特征詞對(duì)文本語(yǔ)義貢獻(xiàn)的重要程度,詞頻TF的公式定義如下所示:

(1)

其中,該特征詞在文本j中的總次數(shù)表示為ni,j,所有特征詞在文本j中出現(xiàn)的總次數(shù)表示為∑knk,j.特征詞的普遍重要性利用逆向文件頻率IDF來(lái)統(tǒng)計(jì),所有文本總數(shù)與出現(xiàn)該特征詞的文本數(shù)量比的對(duì)數(shù)統(tǒng)計(jì)就是IDF,IDF值與特征詞的重要性呈正相關(guān).逆向文件頻率IDF的公式定義如下:

(2)

公式(2)中,語(yǔ)料庫(kù)中所有文本的總數(shù)為|D|,包含特征詞ti的文本數(shù)量為|{j:ti∈dj}|,為了避免無(wú)特征詞導(dǎo)致分母0,公式對(duì)分母進(jìn)行加1操作,即|{j:ti∈dj}|+1.通過(guò)詞頻TF與逆向文件頻率IDF的相乘放大了權(quán)重,從而可以將權(quán)重較小的常見(jiàn)特征詞過(guò)濾掉,篩選出高權(quán)重的特征詞.TF-IDF算法如下所示:

TF-IDFi,j=TFi,j*IDFi,j

(3)

文本語(yǔ)義向量將TF-IDF權(quán)重與Word2vec模型結(jié)合,其計(jì)算公式如下:

(4)

其中,vj表示文本j的語(yǔ)義向量,wi表示項(xiàng)目描述中抽取的第i個(gè)關(guān)鍵詞,Vwi表示為第i個(gè)關(guān)鍵詞通過(guò)Word2vec工具轉(zhuǎn)換后的語(yǔ)義向量,n表示文本j中特征詞總數(shù)量.

2.2 矩陣分解模型

矩陣分解模型因?yàn)榫哂辛己玫目蓴U(kuò)展性和高效性,所以被廣泛的應(yīng)用于推薦系統(tǒng)中.模型將用戶(hù)-項(xiàng)目評(píng)分矩陣Rm×n分解為Pm×d和Qd×n這兩個(gè)潛在特征矩陣,示意圖如下所示:

圖2 矩陣分解示意圖

其中n表示用戶(hù)總數(shù),m表示項(xiàng)目總數(shù),d表示潛在特征維度,然后再通過(guò)P和Q的內(nèi)積預(yù)測(cè)評(píng)分.

3 ISCF算法

本部分將詳細(xì)描述ISCF算法,主要包含3部分:

1)利用基于TF-IDF改進(jìn)算法的項(xiàng)目語(yǔ)義表示對(duì)項(xiàng)目語(yǔ)義信息進(jìn)行向量化描述;

2)在矩陣分解中融入項(xiàng)目語(yǔ)義;

3)通過(guò)聚類(lèi)分割進(jìn)行協(xié)同過(guò)濾冷啟動(dòng)推薦.

3.1 基于TF-IDF改進(jìn)算法的項(xiàng)目語(yǔ)義表示

項(xiàng)目描述是由多種多樣特征詞構(gòu)成的文本,可以利用語(yǔ)義表示模型計(jì)算項(xiàng)目語(yǔ)義向量.語(yǔ)義表示模型中的TF-IDF算法雖然能夠提取文中關(guān)鍵特征詞,并將常見(jiàn)特征詞過(guò)濾掉,但是該算法僅是利用特征詞的數(shù)量統(tǒng)計(jì)權(quán)重,并沒(méi)有考慮過(guò)特征詞本身所具有的含義.例如,兩個(gè)特征詞盡管不一樣,但蘊(yùn)含的意思相近,即近義詞,那么TF-IDF算法將會(huì)把它們分別進(jìn)行統(tǒng)計(jì)詞頻,從而降低了關(guān)鍵特征詞的提取精度.對(duì)此,本文利用不同特征詞之間的語(yǔ)義相關(guān)性改進(jìn)傳統(tǒng)TF-IDF算法,增強(qiáng)文中關(guān)鍵特征詞的提取精度.在統(tǒng)計(jì)特征詞的詞頻過(guò)程中,改用語(yǔ)義詞頻STF,即統(tǒng)計(jì)文本中與該特征詞語(yǔ)義相關(guān)的特征詞出現(xiàn)的頻率,而非簡(jiǎn)單的統(tǒng)計(jì)特征詞在文本中出現(xiàn)的次數(shù)TF,語(yǔ)義詞頻STF定義如下:

(5)

其中,N(j)表示為項(xiàng)目j中的特征詞總數(shù)量,ε是一個(gè)閾值,當(dāng)cos(Vwt,j,Vwi,j)>ε時(shí),則認(rèn)為特征詞t和特征詞i屬于同一類(lèi)別的詞,即近義詞.因?yàn)榫哂邢嚓P(guān)性的特征詞集合能反映出整個(gè)文本的語(yǔ)義特征,不用傳統(tǒng)的詞頻統(tǒng)計(jì)而改用改用特征詞之間的語(yǔ)義相關(guān)性來(lái)統(tǒng)計(jì),可以挖掘文本中重要的特征詞從而更好的凸顯出文本的語(yǔ)義特征.改進(jìn)之后的TF-IDF權(quán)重計(jì)算公式如下所示:

STF-IDFi,j=STFi,j*IDFi,j

(6)

具有語(yǔ)義相關(guān)的特征詞通過(guò)該公式可以獲得詞頻的增加從而提高自身的權(quán)重值.然后利用改進(jìn)后的TF-IDF算法來(lái)優(yōu)化每個(gè)特征詞的語(yǔ)義權(quán)重值,再利用Word2vec來(lái)實(shí)現(xiàn)項(xiàng)目語(yǔ)義向量的表示,計(jì)算公式如下:

(7)

其中,vj表示項(xiàng)目j的語(yǔ)義向量,STF-IDFi,j表示為結(jié)合了語(yǔ)義相關(guān)性的項(xiàng)目j描述文本中特征詞wi的權(quán)重,n表示項(xiàng)目j描述文本中特征詞總數(shù)量,該方法可以增強(qiáng)項(xiàng)目語(yǔ)義的特征表示.

3.2 融入項(xiàng)目語(yǔ)義的矩陣分解

矩陣分解模型在推薦系統(tǒng)中被廣泛應(yīng)用,但其精度受限于數(shù)據(jù)的完整性,當(dāng)用戶(hù)評(píng)分矩陣數(shù)據(jù)稀疏時(shí),其預(yù)測(cè)評(píng)分的精度不佳.本文將額外的項(xiàng)目語(yǔ)義信息融入到矩陣分解模型中改善因數(shù)據(jù)稀疏性帶來(lái)的預(yù)測(cè)評(píng)分欠佳問(wèn)題.

在矩陣分解中引入用戶(hù)在項(xiàng)目語(yǔ)義上的偏好潛在特征,并通過(guò)一個(gè)調(diào)節(jié)因子來(lái)調(diào)整用戶(hù)評(píng)分偏好和用戶(hù)語(yǔ)義偏好在評(píng)分預(yù)測(cè)中的比例,評(píng)分預(yù)測(cè)函數(shù)如下:

(8)

(9)

本文通過(guò)借助隨機(jī)梯度下降法求解上述的損失函數(shù)方程.各個(gè)學(xué)習(xí)參數(shù)的梯度方向通過(guò)下面公式求解:

(10)

(11)

(12)

參數(shù)訓(xùn)練完成后,通過(guò)評(píng)分預(yù)測(cè)函數(shù)預(yù)測(cè)評(píng)分矩陣R中的缺省值,并進(jìn)行填補(bǔ)獲得補(bǔ)全評(píng)分矩陣R′.

3.3 基于聚類(lèi)分割的冷啟動(dòng)推薦

在補(bǔ)全評(píng)分矩陣R′的基礎(chǔ)上,本文利用到了k-means聚類(lèi)算法在線下對(duì)補(bǔ)全后的評(píng)分矩陣R′進(jìn)行聚類(lèi)分割,在線上利用新用戶(hù)屬性信息和項(xiàng)目語(yǔ)義信息快速尋找到分割后的數(shù)據(jù)小矩陣,并通過(guò)協(xié)同過(guò)濾進(jìn)行預(yù)測(cè)評(píng)分.在預(yù)測(cè)評(píng)分中,使用分割后的小矩陣進(jìn)行預(yù)測(cè)計(jì)算,計(jì)算量的減少使得計(jì)算速度大大加快,同時(shí)還使得算法具備了可擴(kuò)展性和實(shí)時(shí)性.

本文利用內(nèi)容上的相似表達(dá)項(xiàng)目之間的關(guān)系,即通過(guò)項(xiàng)目的語(yǔ)義向量vi和vj計(jì)算余弦值表示項(xiàng)目的相似度simI(i,j).用戶(hù)的相似度參考文獻(xiàn)[5]中的屬性相似度計(jì)算方法:

(13)

其中,n為用戶(hù)所有屬性的總數(shù),Aik和Ajk表示為用戶(hù)i和用戶(hù)j的第k個(gè)屬性的屬性值,sim(Aik,Ajk)表示為用戶(hù)i和用戶(hù)j的第k個(gè)屬性的相似度,wk表示為第k個(gè)屬性的權(quán)重值.屬性相似度sim(Aik,Ajk)使用絕對(duì)指數(shù)相似度計(jì)算,其具體公式如下所示:

sim(Aik,Ajk)=e-|Aik-Ajk|

(14)

其中,sim(Aik,Ajk)值的范圍在[0,1]之間,用戶(hù)i和用戶(hù)j的第k個(gè)屬性越相似,其值越接近于1,反之,則越接近于0.wk是屬性的權(quán)重值,每個(gè)屬性對(duì)用戶(hù)的影響程度不同,為精確每個(gè)屬性的權(quán)重值,提取屬性k相同的所有用戶(hù)所評(píng)分最高的前t個(gè)項(xiàng)目集合,并分析不相同的集合個(gè)數(shù),計(jì)算平均值ave(k),再通過(guò)下面公式計(jì)算每個(gè)屬性的權(quán)值,具體公式如下所示:

(15)

通過(guò)數(shù)據(jù)統(tǒng)計(jì)獲得的屬性權(quán)值相比于人工賦值更加的可靠和準(zhǔn)確.

本文分別通過(guò)用戶(hù)和項(xiàng)目的相似度計(jì)算方法進(jìn)行k-means算法聚類(lèi),根據(jù)用戶(hù)和項(xiàng)目的類(lèi)簇對(duì)評(píng)分矩陣進(jìn)行數(shù)據(jù)分割,圖3展示了該數(shù)據(jù)分割.

圖3 用戶(hù)和項(xiàng)目類(lèi)簇分割數(shù)據(jù)

上述圖3中同種顏色的表示為一個(gè)數(shù)據(jù)塊小矩陣,使用用戶(hù)類(lèi)簇和項(xiàng)目類(lèi)簇來(lái)對(duì)評(píng)分矩陣中的行和列進(jìn)行共同分割,將一個(gè)高緯度的評(píng)分矩陣分割成了更加細(xì)小且大小不同的低緯度小矩陣.新用戶(hù)和新項(xiàng)目根據(jù)與類(lèi)簇質(zhì)心的相似度將獲得用戶(hù)和新項(xiàng)目各自所屬的類(lèi)簇xc和yc,然后可以通過(guò)這兩個(gè)值快速的確定評(píng)分矩陣中唯一小矩陣,利用這個(gè)小矩陣中的數(shù)據(jù)進(jìn)行協(xié)同過(guò)濾預(yù)測(cè)評(píng)分.評(píng)分預(yù)測(cè)具體公式如下所示:

(16)

4 實(shí)驗(yàn)方案與結(jié)果分析

4.1 實(shí)驗(yàn)方案

本文實(shí)驗(yàn)的硬件環(huán)境為處理器 i7 9700,3.00GHz,8核8線程,內(nèi)存 8GB,顯卡1050ti 4GBRAM.算法實(shí)現(xiàn)采用Python語(yǔ)言.實(shí)驗(yàn)數(shù)據(jù)的公開(kāi)數(shù)據(jù)集來(lái)源于Movielens,其包括了用戶(hù)、電影以及電影評(píng)分?jǐn)?shù)據(jù).其用戶(hù)對(duì)電影的評(píng)分取值為{1,2,3,4,5},分?jǐn)?shù)越高代表對(duì)電影越青睞,數(shù)據(jù)稀疏度為93.7%.此外,本文為構(gòu)建項(xiàng)目語(yǔ)義在互聯(lián)網(wǎng)電影資料庫(kù)(Internet Movie Database,簡(jiǎn)稱(chēng)IMDb)中利用爬蟲(chóng)技術(shù)獲取了1682部電影的劇情文本描述信息.

評(píng)分預(yù)測(cè)的準(zhǔn)確度采用平均絕對(duì)誤差(MAE)和均方根誤差(RESE)評(píng)價(jià).其計(jì)算方式如下:

(17)

(18)

4.3 結(jié)果分析

本部分將對(duì)算法中的參數(shù)a、緩解數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題進(jìn)行實(shí)驗(yàn)分析.

4.3.1 參數(shù)a分析

參數(shù)a控制用戶(hù)評(píng)分信息和項(xiàng)目語(yǔ)義信息的貢獻(xiàn)程度,為了確定參數(shù)a的最佳值,我們將a從0以0.1的步長(zhǎng)遞增到1觀察其對(duì)預(yù)測(cè)結(jié)果的變化影響.當(dāng)a=0時(shí),數(shù)據(jù)僅包含用戶(hù)評(píng)分信息,此時(shí)模型等同于MF,當(dāng)a=1時(shí),數(shù)據(jù)僅包項(xiàng)目的語(yǔ)義信息.

圖4展示了a值不斷提高時(shí)融入項(xiàng)目語(yǔ)義的矩陣分解的預(yù)測(cè)效果,起初在a值從0.1增加到0.6的過(guò)程中,MAE的值在下降,即預(yù)測(cè)評(píng)分的準(zhǔn)確性上升,但在a值從0.6增加到1的過(guò)程中,MAE的值又開(kāi)始上升,即預(yù)測(cè)評(píng)分的準(zhǔn)確性下降.因此,當(dāng)a=0.6時(shí)預(yù)測(cè)評(píng)分的效果達(dá)到了最佳.同時(shí),該實(shí)驗(yàn)也證明了融入項(xiàng)目語(yǔ)義能夠提高矩陣分解的預(yù)測(cè)效果,緩解數(shù)據(jù)稀疏性問(wèn)題.

圖4 參數(shù)a的影響

4.3.2 緩解數(shù)據(jù)稀疏性問(wèn)題分析

為了說(shuō)明融入項(xiàng)目語(yǔ)義的矩陣分解能夠有效得了緩解數(shù)據(jù)稀疏性問(wèn)題,本文將分別與以下算法進(jìn)行比較:

1)Basic MF:基礎(chǔ)矩陣分解,僅利用用戶(hù)評(píng)分矩陣預(yù)測(cè)評(píng)分.

2)PMF:概率矩陣分解,結(jié)合概率論的矩陣分解模型.

3)BPMF:基于馬爾可夫蒙特卡羅方法的貝葉斯概率矩陣分解.

4)CBMF:由文獻(xiàn)[13]提出的內(nèi)容加強(qiáng)矩陣分解,在矩陣分解過(guò)程中結(jié)合了標(biāo)簽信息.

5)CISMF:由文獻(xiàn)[8]提出的基于耦合相似度的矩陣分解,利用了耦合相似度的矩陣分解方法.

6)CSMF:本文研究的融入項(xiàng)目語(yǔ)義的矩陣分解,將項(xiàng)目語(yǔ)義信息作為輔助信息融入到矩陣分解過(guò)程中.

本文的實(shí)驗(yàn)采用五折交叉驗(yàn)證的方法,測(cè)試數(shù)據(jù)拆分為4份訓(xùn)練集和1份測(cè)試集,與其他算法的對(duì)比效果如表1所示.

表1 本文所提算法與其它矩陣分解比較

本文所提融入項(xiàng)目語(yǔ)義的矩陣分解的實(shí)驗(yàn)參數(shù)設(shè)置為λ1=λ2=λ3=0.02,a=0.6,d=5,ε=0.8.圖5展示了本文所提算法與其它算法在測(cè)試集上的結(jié)果,CBMF、CISMF、CSMF引入輔助信息的推薦算法相比于MF、PMF、BPMF無(wú)輔助信息的推薦算法明顯降低了MAE值和RMSE值,即提升了預(yù)測(cè)結(jié)果的準(zhǔn)確性,這說(shuō)明引入輔助信息能過(guò)有效地緩解數(shù)據(jù)稀疏性問(wèn)題.其中本文所提的融入項(xiàng)目語(yǔ)義的矩陣分解(CSMF)算法均優(yōu)于其它算法,原因是CSMF算法不同于其它算法僅將輔助信息作為正則化來(lái)限制矩陣分解,而是將輔助信息,即項(xiàng)目語(yǔ)義作為分解過(guò)程中的潛在特征參數(shù),并分解出用戶(hù)主觀上的語(yǔ)義偏好潛在特征,在預(yù)測(cè)評(píng)分過(guò)程中,結(jié)合了用戶(hù)主觀語(yǔ)義上的影響因素和客觀歷史評(píng)分上的影響因素,因?yàn)樵诂F(xiàn)實(shí)世界中項(xiàng)目的語(yǔ)義信是影響用戶(hù)行為的重要因素之一.因此將用戶(hù)的語(yǔ)義偏好引入到矩陣分解中,能夠有效地提升矩陣分解的評(píng)分預(yù)測(cè)能力,緩解數(shù)據(jù)稀疏性問(wèn)題.

4.3.3 解決冷啟動(dòng)問(wèn)題分析

為了說(shuō)明本文所提的ISCF算法在提升新用戶(hù)評(píng)分預(yù)測(cè)準(zhǔn)確性以及解決冷啟動(dòng)問(wèn)題上的效果,本文將與以下冷啟動(dòng)算法進(jìn)行比較:

1)PredictMean:一種計(jì)算已有評(píng)分平均值作為預(yù)測(cè)的基礎(chǔ)推薦算法.

2)UDCF:通過(guò)人口統(tǒng)計(jì)學(xué)屬性特征計(jì)算用戶(hù)相似度的協(xié)同過(guò)濾冷啟動(dòng)推薦的方法.

3)COS-CF:通過(guò)屬性的耦合相似度進(jìn)行協(xié)同過(guò)濾冷啟動(dòng)推薦的方法[19].

4)ISCF:本文所提的在補(bǔ)全評(píng)分矩陣的基礎(chǔ)上,利用聚類(lèi)分割進(jìn)行協(xié)同過(guò)濾冷啟動(dòng)推薦方法.

本部分依然采用五折交叉驗(yàn)證的方法,與其它冷啟動(dòng)算法的對(duì)比效果如表2所示.

表2 本章所提算法與其它冷啟動(dòng)相關(guān)算法比較

圖5 矩陣分解算法MAE對(duì)比圖Fig.5 MAE comparison of Matrix factorization algorithm 圖6 冷啟動(dòng)推薦算法MAE對(duì)比圖Fig.6 MAE comparison of cold start recommendation algorithms

由圖6可看出,本文所提的基于項(xiàng)目語(yǔ)義的協(xié)同過(guò)濾冷啟動(dòng)推薦算法(ISCF)對(duì)新用戶(hù)的評(píng)分預(yù)測(cè)精度高于其它對(duì)比算法,這是因?yàn)镮SCF算法不僅利用了已有評(píng)分?jǐn)?shù)據(jù),還將未評(píng)分項(xiàng)通過(guò)之前的預(yù)測(cè)也加入到了推薦過(guò)程中,使得數(shù)據(jù)更加全面和完善.此外,在計(jì)算評(píng)分上,同時(shí)利用了用戶(hù)相似關(guān)系和項(xiàng)目語(yǔ)義相似關(guān)系.首先通過(guò)項(xiàng)目語(yǔ)義協(xié)同過(guò)濾計(jì)算已有用戶(hù)對(duì)這類(lèi)項(xiàng)目的平均分,然后再通過(guò)用戶(hù)屬性協(xié)同過(guò)濾計(jì)算新用戶(hù)對(duì)此類(lèi)項(xiàng)目的預(yù)測(cè)評(píng)分.

圖7展示了最近鄰個(gè)數(shù)對(duì)各種冷啟動(dòng)推薦算法的影響,隨著橫坐標(biāo)最近鄰個(gè)數(shù)的增加,對(duì)應(yīng)的MEA值變化的過(guò)程.

圖7 ISCF與其它冷啟動(dòng)推薦算法的性能比較

觀察圖7中可知,伴隨橫坐標(biāo)最近鄰個(gè)數(shù)的增加,UDCF、COS-CF、ISCF的MAE值都在不同程度減小,最后趨向于平穩(wěn)狀態(tài).由結(jié)果可知,本文所提的ISCF算法始終優(yōu)于其它對(duì)比算法,這是因?yàn)镮SCF算法不僅利用了用戶(hù)端的信息,還利用到了項(xiàng)目端的信息,即項(xiàng)目語(yǔ)義,在兩端分別進(jìn)行了聚類(lèi)處理.由于實(shí)驗(yàn)中僅用了職業(yè)、性別、年齡這三個(gè)特征對(duì)用戶(hù)進(jìn)行聚類(lèi),所以對(duì)比差距不大,如果在用戶(hù)信息更全面的環(huán)境下,該算法的優(yōu)勢(shì)會(huì)更加明顯.

5 總 結(jié)

本文所提的基于項(xiàng)目語(yǔ)義的協(xié)同過(guò)濾冷啟動(dòng)推薦算法,首先利用語(yǔ)義相關(guān)性改進(jìn)TF-IDF算法,對(duì)項(xiàng)目語(yǔ)義進(jìn)行向量化表達(dá),然后融入到矩陣分解中以緩解數(shù)據(jù)稀疏性問(wèn)題,補(bǔ)全評(píng)分矩陣,最后通過(guò)聚類(lèi)對(duì)補(bǔ)全后的評(píng)分矩陣進(jìn)行分割,獲得多個(gè)低緯度的評(píng)分小矩陣,利用小矩陣中的數(shù)據(jù)進(jìn)行協(xié)同過(guò)濾預(yù)測(cè)評(píng)分,有效的解決了冷啟動(dòng)問(wèn)題,并提升了算法的可擴(kuò)展性和實(shí)時(shí)性.下一步的研究方向則是考慮如何將用戶(hù)心理特征結(jié)合到推薦領(lǐng)域中,改善冷啟動(dòng)推薦的效果.

猜你喜歡
語(yǔ)義文本用戶(hù)
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
關(guān)注用戶(hù)
關(guān)注用戶(hù)
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
關(guān)注用戶(hù)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何獲取一億海外用戶(hù)
主站蜘蛛池模板: 国产精品自在在线午夜 | 亚洲永久免费网站| 精品少妇人妻无码久久| 中文字幕啪啪| 天天综合网色| 福利国产在线| 国产91成人| www.亚洲色图.com| 一区二区影院| 亚洲 欧美 中文 AⅤ在线视频| 国产办公室秘书无码精品| 小13箩利洗澡无码视频免费网站| 91激情视频| 伊人91在线| 福利在线一区| a亚洲视频| www.国产福利| 久久精品中文字幕少妇| 毛片基地美国正在播放亚洲| 国产欧美视频在线| 国产女人喷水视频| 亚洲国产精品VA在线看黑人| 99热这里只有精品免费国产| 天天综合色网| 97超碰精品成人国产| 亚洲精品不卡午夜精品| 狼友视频一区二区三区| 亚洲va在线∨a天堂va欧美va| 夜夜操狠狠操| 1级黄色毛片| 亚洲日韩国产精品无码专区| 91精品国产自产在线老师啪l| 亚洲妓女综合网995久久| 日韩欧美中文在线| 97久久超碰极品视觉盛宴| av天堂最新版在线| 在线欧美一区| 漂亮人妻被中出中文字幕久久| 九九九国产| 婷婷午夜影院| 国产精品免费p区| 最新日韩AV网址在线观看| 97免费在线观看视频| 久久综合五月婷婷| 欧美日韩国产成人高清视频| 亚洲全网成人资源在线观看| 一级毛片免费观看不卡视频| 国产亚洲欧美另类一区二区| 亚洲精品大秀视频| 欧美激情第一欧美在线| 色香蕉影院| 99一级毛片| 亚洲精品少妇熟女| 最新国语自产精品视频在| 欧美一区二区自偷自拍视频| 国产亚洲精品91| 亚洲精品午夜无码电影网| 国产人免费人成免费视频| 国内精自线i品一区202| 色播五月婷婷| 国产亚洲精久久久久久无码AV| 中文国产成人久久精品小说| 蝴蝶伊人久久中文娱乐网| 午夜福利免费视频| 国产丝袜91| 国产精品一区二区在线播放| 日韩在线欧美在线| 亚洲浓毛av| 色综合五月婷婷| 99久久精品久久久久久婷婷| 97视频精品全国在线观看 | 中文字幕啪啪| 亚洲激情99| 午夜无码一区二区三区| 成人va亚洲va欧美天堂| 国产麻豆精品久久一二三| 国产成人精品2021欧美日韩| 国产主播喷水| 午夜国产精品视频| 国产免费a级片| 国产日韩丝袜一二三区| 一级毛片基地|