基于神經(jīng)網(wǎng)絡(luò)和社區(qū)發(fā)現(xiàn)的高維數(shù)據(jù)推薦系統(tǒng)

2020-07-13 12:56:28唐新宇張新政劉保利

計算機應(yīng)用與軟件 2020年7期

關(guān)鍵詞：用戶

唐新宇張新政劉保利

1(廣東工商職業(yè)技術(shù)大學(xué)計算機工程學(xué)院廣東肇慶 526040)2(廣東工業(yè)大學(xué)自動化學(xué)院廣東廣州 510090)3(空軍工程大學(xué)理學(xué)院陜西西安 710000)

0 引言

隨著網(wǎng)絡(luò)信息的爆炸式增長，用戶從網(wǎng)絡(luò)獲取目標(biāo)信息的效率降低，許多大型購物網(wǎng)站、新聞網(wǎng)站和視頻網(wǎng)站等集成了推薦系統(tǒng)為用戶提供感興趣的內(nèi)容[1]。傳統(tǒng)的推薦系統(tǒng)大多根據(jù)用戶對項目的評分信息為用戶提供推薦列表，但用戶評分矩陣具有極大的稀疏性，且冷啟動問題和灰羊用戶問題也為推薦系統(tǒng)帶來了極大的挑戰(zhàn)[2]。隨著社交網(wǎng)絡(luò)的普及，各種應(yīng)用場景也包含了復(fù)雜的社交關(guān)系，例如在購物網(wǎng)站中店鋪和用戶之間存在關(guān)注關(guān)系，買家之間也存在社交關(guān)系[3]。將推薦系統(tǒng)和社交網(wǎng)絡(luò)之類的上下文相結(jié)合，是解決推薦系統(tǒng)稀疏性問題、冷啟動問題和灰羊用戶問題的一種方式[4]。

文獻[5]挖掘社交網(wǎng)絡(luò)來發(fā)現(xiàn)隱藏的用戶-物品偏好關(guān)系，然后對用戶建模分析并選擇合適的推薦引擎進行個性化物品推薦，該算法展開了對用戶社交關(guān)系和隱性反饋的研究，加入了社交關(guān)系、人口統(tǒng)計學(xué)信息和用戶消費記錄等隱性信息。文獻[6]先基于社交網(wǎng)絡(luò)將用戶分組，再使用局部敏感哈希技術(shù)為分組提供推薦列表。文獻[7]設(shè)計了好友強度指標(biāo)計算社交圈的緊密性，然后根據(jù)好友強度和社交圈緊密度預(yù)測用戶的偏好，提高推薦的準(zhǔn)確率。文獻[8]將社交網(wǎng)絡(luò)關(guān)系引入?yún)f(xié)同過濾推薦系統(tǒng)中，從社交網(wǎng)絡(luò)提取用戶偏好和社區(qū)偏好信息并建模為質(zhì)量函數(shù)，通過Dempster組合規(guī)則將多個偏好融合，由此提高協(xié)同過濾推薦系統(tǒng)的推薦性能。隨著社交關(guān)系日益復(fù)雜，用戶可能受到多重社交關(guān)系和上下文的影響，這些影響因素稱為“上下文維度”[9]。現(xiàn)有的方案[5-8]為了提高推薦系統(tǒng)的性能，大多考慮了全部的“上下文維度”，導(dǎo)致計算復(fù)雜度提高，并且對推薦的準(zhǔn)確率也產(chǎn)生了負面的影響。

為了解決“上下文維度”問題，本文設(shè)計了基于神經(jīng)網(wǎng)絡(luò)和社區(qū)發(fā)現(xiàn)的推薦系統(tǒng)。建立多層感知神經(jīng)網(wǎng)絡(luò)來識別最相關(guān)的上下文維度，學(xué)習(xí)上下文維度對用戶偏好的影響力；設(shè)計了社區(qū)發(fā)現(xiàn)算法將用戶分組，解決稀疏性問題并降低數(shù)據(jù)的維度；采用張量分解模型處理相關(guān)上下文維度，提高處理效率；最終基于上下文信息豐富的真實數(shù)據(jù)集完成了仿真實驗，實驗結(jié)果驗證了本文算法的有效性。

1 總體結(jié)構(gòu)設(shè)計

圖1為本文推薦系統(tǒng)的總體結(jié)構(gòu)設(shè)計。系統(tǒng)包含4個模塊：(1) 采用神經(jīng)網(wǎng)絡(luò)識別影響力大的上下文維度；(2) 基于社交關(guān)系、地理位置、人口統(tǒng)計學(xué)將用戶分組；(3) 基于用戶分組的張量分解模型處理上下文維度數(shù)據(jù)；(4) 產(chǎn)生推薦列表。

圖1 推薦系統(tǒng)的總體結(jié)構(gòu)

2 基于神經(jīng)網(wǎng)絡(luò)的上下文維度分析

通過多層感知神經(jīng)網(wǎng)絡(luò)[10]分析上下文維度，識別影響力大的上下文維度。

2.1 訓(xùn)練神經(jīng)網(wǎng)絡(luò)

多層感知神經(jīng)網(wǎng)絡(luò)分為輸入層、隱層和輸出層。以電影推薦數(shù)據(jù)集LDOS-CoMoDa[11]為例，設(shè)數(shù)據(jù)集為D，D共有12個上下文特征，12個上下文的維度為48，輸入層節(jié)點的數(shù)量等于上下文的維度。假設(shè)上下文為c1=時間{早晨,下午,晚上,夜間}，c2=日期{工作日,周末},c3=互動{第1次觀看電影，第n次觀看電影}。神經(jīng)網(wǎng)絡(luò)的輸入和輸出關(guān)系表示為：

OI=II

(1)

式中：OI為輸入層的輸出；II為輸入層的輸入。

輸入層節(jié)點與隱層節(jié)點連接，隱層節(jié)點與輸出層節(jié)點連接，連接的權(quán)重分別設(shè)為wij和wjk，通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)確定wij和wjk。隱層節(jié)點是輸入數(shù)據(jù)的加權(quán)調(diào)和函數(shù)，根據(jù)試錯實驗的結(jié)果將隱層節(jié)點數(shù)量設(shè)為11，此時驗證實驗的精度最高。隱層的神經(jīng)元向量定義為：

h(j)=f(w(j)Th(j-1)+b(j))

(2)

式中：h(j)表示j層神經(jīng)元的向量；w(j)為j層的權(quán)重矩陣；b(j)為偏差項；f為激活函數(shù)。

隱層節(jié)點計算輸入量的加權(quán)調(diào)和值，計算方法為：

(3)

式中：IH為隱層節(jié)點的輸入；wij為輸入層到隱層連接的權(quán)重；OIi為輸入層第i個節(jié)點的輸出；bH為隱層的偏差；p為預(yù)測器的分級數(shù)；h為隱層的神經(jīng)元數(shù)量。采用單隱層網(wǎng)絡(luò)減少計算復(fù)雜度，如圖2所示。

圖2 上下文維度的單層神經(jīng)網(wǎng)絡(luò)

隱層節(jié)點支持在預(yù)測器和響應(yīng)變量之間建模非線性關(guān)系，因為本文神經(jīng)網(wǎng)絡(luò)為前饋神經(jīng)網(wǎng)絡(luò)，所以采用雙曲正切激活函數(shù)作為輸入到輸出的映射函數(shù)。雙曲正切激活函數(shù)的輸出為OH=φ(IH)，φ(IH)定義為：

(4)

每個預(yù)測類別創(chuàng)建一個輸出層神經(jīng)元，如果用戶滿意度范圍為1～5，那么輸出層的神經(jīng)元數(shù)量為5。輸入層到輸出層的映射函數(shù)定義為：

(5)

式中：IO為輸出層的輸入；wjk為隱層到輸出層連接的權(quán)重；OHj為第j個隱層神經(jīng)元的輸出；bO為輸出層的輸入偏差；j為隱層的神經(jīng)元數(shù)量；t為目標(biāo)類別的數(shù)量。

Softmax函數(shù)能夠預(yù)測多分類數(shù)據(jù)的輸出，所以采用Softmax函數(shù)作為輸出層的激活函數(shù)。神經(jīng)網(wǎng)絡(luò)的最終輸出定義為：

(6)

通過最小化交叉熵誤差獲得Softmax激活函數(shù)期望的輸出。計算每個目標(biāo)類別觀察值和實驗值的交叉熵誤差之和E：

(7)

式中：t為目標(biāo)類別的數(shù)量(實例中為5)；y為樣本o是否被正確分類的標(biāo)記值；p為觀察樣本的預(yù)測率。

然后通過反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)，最小化預(yù)測誤差。在反向傳播階段比較實際輸出和期望輸出，如果存在誤差，則調(diào)節(jié)權(quán)重來獲得接近期望的輸出。使用梯度下降法計算最小化誤差的權(quán)重，將誤差對每個權(quán)重向量δwij求偏導(dǎo)δE：

Δwij=-l[δE/δwij]

(8)

式中:l為學(xué)習(xí)率。

學(xué)習(xí)率和動量是反向傳播訓(xùn)練的兩個重要參數(shù)。動量m設(shè)為0.9。采用衰減的學(xué)習(xí)率因子β，定義為：

β=(1/mK)×ln(η0/ηlow)

(9)

式中：η0為初始化學(xué)習(xí)率，設(shè)為0.4；ηlow為學(xué)習(xí)率的下限，設(shè)為0.001；K為訓(xùn)練樣本的數(shù)量。

2.2 識別影響力大的上下文維度

例子中共有12個上下文特征，但每個維度的重要性不同，因此需要識別出對用戶偏好影響力大的維度。在神經(jīng)網(wǎng)絡(luò)模型中則是選出對評分影響較大的預(yù)測器。算法1是評估上下文維度重要性的算法。

算法1上下文維度的重要性評估算法

輸入：輸入層-隱層連接權(quán)重wij，隱層-輸出層連接權(quán)重wjk。

輸出：上下文維度ci的相對重要性。

For each上下文維度cido

計算每個隱層神經(jīng)元的wj=wij×wjk；

將wj除以j的輸入神經(jīng)元總數(shù)量；

//j為隱層神經(jīng)元

對所有輸入神經(jīng)元的值求和Sum；

將Sum除以輸入神經(jīng)元的數(shù)量，其結(jié)果為上下文維度的相對重要性。

3 基于社區(qū)發(fā)現(xiàn)的用戶分組

設(shè)計了基于社區(qū)發(fā)現(xiàn)的用戶分組算法，以用戶的社交關(guān)系、用戶的人口統(tǒng)計信息(年齡、性別等)、地理位置等信息作為社區(qū)發(fā)現(xiàn)的判斷依據(jù)。該模塊能夠利用用戶組的相似性，解決稀疏性問題。目前的社區(qū)發(fā)現(xiàn)方法存在兩個問題：(1) 采用隨機參數(shù)導(dǎo)致穩(wěn)定性較弱；(2) 需要預(yù)設(shè)社區(qū)數(shù)量。這兩個問題導(dǎo)致這些方法無法適用于推薦系統(tǒng)，所以本文設(shè)計了基于子空間傳播的社區(qū)發(fā)現(xiàn)算法，包括以下3個步驟：

步驟1使用線性稀疏編碼將圖映射到低維空間。

步驟2檢測社區(qū)的代表中心。

步驟3通過標(biāo)簽傳播機制構(gòu)建最終的社區(qū)。

圖3為用戶分組的流程圖。

圖3 用戶分組的流程圖

3.1 子空間映射

根據(jù)子空間的自表達特性：子空間內(nèi)的每個數(shù)據(jù)點可表示為其他點的線性組合[12]。借助該特性將鄰接矩陣映射到低維空間，低維空間內(nèi)社區(qū)結(jié)構(gòu)的分離度高于原高維空間。首先計算兩個節(jié)點的最短路徑，然后采用高斯核將網(wǎng)絡(luò)映射到全局的相似性空間，最終采用線性稀疏編碼將相似性空間映射到低維空間。

首先為每個節(jié)點vi生成一個距離向量Gi。距離向量包括：用戶的社交關(guān)系、用戶的人口統(tǒng)計信息(年齡、性別等)、地理位置。該向量是從vi到其他所有節(jié)點的最短路徑集合，所有向量的集合表示為G∈Rn×n，G=[G1,G2,…,Gn]，n為節(jié)點數(shù)量。然后通過以下的高斯核函數(shù)將距離向量轉(zhuǎn)化為相似性評分：

(10)

式中：σs為衰減率計算為(2×G)的平均總標(biāo)準(zhǔn)偏差；⊙為點積運算。社區(qū)內(nèi)連接較為密集，社區(qū)間連接較為稀疏，因此同一個社區(qū)內(nèi)節(jié)點的最短路徑數(shù)量應(yīng)該小于社區(qū)之間。每個節(jié)點vi的相似性為其他節(jié)點的線性組合：

(11)

式中：αi=[αi(1),αi(2),…,αi(n)]為相似性系數(shù)的向量，αi(j)為節(jié)點vi到vj的相似性系數(shù)；sj是節(jié)點vj相似性向量。vi到vj的相似性系數(shù)可能不同于vj到vi的相似性，即αi(j)≠αj(i)。

根據(jù)文獻[12]一個類內(nèi)的每個數(shù)據(jù)點可表示為同一個類內(nèi)其他數(shù)據(jù)點的線性組合。因此采用l1-正則化的稀疏線性分解法計算最優(yōu)相似性系數(shù)向量，其目標(biāo)函數(shù)定義為：

(12)

(13)

式中：D為對稱線性稀疏矩陣。

3.2 檢測社區(qū)的代表中心

首先使用節(jié)點排序策略計算每個節(jié)點的全局影響值，然后根據(jù)影響值檢測社區(qū)的代表中心。該策略的核心思想是社交網(wǎng)絡(luò)中的社區(qū)一般圍繞有影響力的節(jié)點。采用影響力和重要性度量節(jié)點在其子空間內(nèi)的影響值，節(jié)點vi的影響值定義為：

(14)

式中：di為D的第i行。該式采用節(jié)點密度和距離向量計算節(jié)點的影響值。子空間的節(jié)點越多或者子空間內(nèi)節(jié)點間相似性更高，該子空間組成社區(qū)的概率越大。

子空間內(nèi)影響值最大的節(jié)點被選為社區(qū)中心的候選節(jié)點，節(jié)點vi的子空間定義為：

sSpace(vi)={vj|?j=1,2,…,n,j≠i,D(i,j)>β}

(15)

式中：β定義了每個節(jié)點的影響范圍。算法2為社區(qū)中心的檢測算法。

算法2社區(qū)中心檢測算法。

輸入：β,D,S

輸出：社區(qū)中心CC

計算節(jié)點重要性Pt；

//使用式(14)計算

CC=NULL；

for eachifrom 1 toN

計算子空間sSpace(vi)；

//使用式(15)計算

for each 節(jié)點vjinsSpace(vi)

Tag=TRUE；

ifPt(vj)>Pt(vi) then

Tag=FALSE；

end if

end for

if(Tag==TRUE) then

CC=CC∪{vi}；

end if

end for

3.3 標(biāo)簽傳播

標(biāo)簽傳播為每個節(jié)點分配社區(qū)，包括搜索微社區(qū)和構(gòu)建最終的社區(qū)兩個過程。

(1) 搜索微社區(qū)。微社區(qū)定義為成員間相似性最大的一組節(jié)點。初始化將每個社區(qū)中心作為一個微社區(qū)，然后將其子空間內(nèi)能夠增強其質(zhì)量的節(jié)點加入該微社區(qū)。根據(jù)式(16)選擇加入第i個微社區(qū)的節(jié)點：

CM(Ci)={vj|?j=1,2,…,n,j≠i,JD(Ci,vj)>0}

(16)

式中：Ci為算法1初始化的第i個社區(qū)。設(shè)JD為局部關(guān)系和子空間關(guān)系的組合,用于度量節(jié)點和微社區(qū)的相似性，計算為：

JD(vi,vj)=D(vi,vj)×JS(vi,vj)

(17)

式中：JS為Jaccard相似性矩陣，D為式(13)的結(jié)果。JS度量了每對節(jié)點的局部密度：

(18)

式中：Γ(vi)為節(jié)點vi的相鄰節(jié)點集。

采用以下的適應(yīng)度函數(shù)計算節(jié)點vj加入社區(qū)Ci的質(zhì)量增益：

ef(Ci,vj)=fCi∪vj-fCi

(19)

f定義為：

(20)

(21)

(22)

淘汰每個微社區(qū)的無效節(jié)點。該步驟計算每對節(jié)點的全局相似性，定義為Jaccard相似性和高斯相似性的乘積：

sim(vi,vj)=S(vi,vj)×JS(vi,vj)

(23)

算法3為建立微社區(qū)的程序。

算法3建立微社區(qū)的算法。

輸入：D,S,JS,CC

輸出：微社區(qū)集合MCS

JD=D⊙JS；

Foreachifrom 1 toCC

Ci={CC(i)}；

CMi={vj|?j=1,2,…,n,JD(Ci,vj)>0}

Nextmax:Max_Fit=0；

Foreachkfrom 1 to |CMi|

ef=fCi∪CMik-fCMik；

//式(17)計算相似性

ifef>max_fitthen

max_fit=ef；

candi_node=CMik；

end if

end for

if max_fit>0 then

Ci=Ci∪candi_node；

CMi=CMicandi_node；

Goto Nextmax；

Endif

Nextmin：min_fit=0；

forkfrom 1 to |Ci|

ef=fCi-fCivk；

//式(23)計算相似性

if min_fit=ef；

min_fit=ef；

candi_node=vk；

end if

end for

if min_fit<0 then

Ci=Cicandi_node；

Goto Nextmin；

end if

end for

(2) 組建最終社區(qū)的結(jié)構(gòu)。使用式(23)計算每個無標(biāo)記節(jié)點的適應(yīng)度，選擇其中適應(yīng)度最高的社區(qū)分配方案。通過一個簡單實例解釋用戶分組的每個步驟，對LDOS-CoMoDa數(shù)據(jù)集進行了訓(xùn)練實驗，神經(jīng)網(wǎng)絡(luò)的參數(shù)σs和β最優(yōu)值分別為1.199 3和0.01。圖3中：(a)是17個節(jié)點和3個社區(qū)的網(wǎng)絡(luò)；(b)將網(wǎng)絡(luò)映射到低維相似性空間，節(jié)點上的數(shù)值為式(23)計算的全局重要性；(c)是算法2選擇的社區(qū)中心，分別為節(jié)點1、10、15。(d)是微社區(qū)候選節(jié)點；(e)是刪除無效節(jié)點后的微社區(qū)；(f)是標(biāo)簽傳播建立的最終社區(qū)結(jié)構(gòu)，具體方法是使用式(23)計算每個無標(biāo)記節(jié)點的適應(yīng)度，選擇其中適應(yīng)度最高的社區(qū)分配方案。

(a) 3個社區(qū)的網(wǎng)絡(luò) (b) 網(wǎng)絡(luò)映射到低維空間

(e) 構(gòu)建微社區(qū) (f) 標(biāo)簽傳播建立社區(qū)圖4 社區(qū)分簇的實例

4 基于簇的張量分解模型

4.1 奇異值分解

用戶評分矩陣A的元素(i,j)表示為aij，元素(i,j,k)的三階張量表示為Aijk。采用奇異值分解模型(Higher Order Singular Value Decomposition Model,HOSVD)處理用戶-評分矩陣。首先建立3階張量<用戶,電影,上下文信息>，再根據(jù)張量建立新矩陣，對每個矩陣進行SVD，最終重建張量。

(1) 初始化張量。將不同的上下文維度建模為張量，三個模式的張量記為TM∈RIu×Im×Ci。張量TM的元素表示了在上下文環(huán)境下的興趣，例如：一個28歲的女性用戶在和孩子觀看電影的情況下，評分為4。

(2) 展開張量。展開張量將張量轉(zhuǎn)化為矩陣形式。例如：在“用戶-電影-上下文”的維度，假設(shè)張量為TM∈RIu×Im×Ci，TM表示用戶u在上下文i對電影m評分r。在“評分-好友”的維度，此時基于社交關(guān)系預(yù)測用戶的評分。

(3) 應(yīng)用SVD處理矩陣。應(yīng)用SVD處理每個展開的矩陣，具體方法為：

TM1=U(1)·S1·V1TM2=U(2)·S2·V2,

TM3=U(3)·S3·V3

(24)

式中：U(1)、U(2)、U(3)為SVD的左矩陣。SVD計算張量SM的所有維度。

(4) 建立核心張量SM。核心張量SM能夠發(fā)現(xiàn)用戶和項目之間的多維度關(guān)系。其計算方法為：

(25)

(26)

4.2 生成推薦列表

5 實驗

5.1 實驗方法和環(huán)境

采用真實的電影評分數(shù)據(jù)集LDOS-CoMoDa。LDOS-CoMoDa數(shù)據(jù)集通過問卷調(diào)查形式統(tǒng)計了用戶在不同上下文的情況下對電影的評分，該數(shù)據(jù)集包括了用戶的人口統(tǒng)計學(xué)信息、用戶觀看電影的上下文信息以及用戶間的好友關(guān)系。LDOS-CoMoDa數(shù)據(jù)集共有113位用戶對于1 186部電影共2 094條評分記錄，該數(shù)據(jù)集共有12種上下文因素，評分范圍為1～5，稀疏度為1.6%，如表1所示。

表1 員工基本信息

為了驗證本文提出的方法的有效性，引入了4種不同類型的推薦算法：ESVD[13]、HRMARM[14]、PCAP[15]和HACAR[16]，并比較它們的推薦效果。ESVD是一種基于增強奇異值分解的推薦算法，因為本文算法采用了張量分解技術(shù)，所以選擇該算法作為對比方法。HRMARM是一種基于關(guān)聯(lián)規(guī)則挖掘和社交關(guān)系的推薦算法，本算法也考慮了社交關(guān)系和社區(qū)劃分處理，所以選擇該算法作為對比方法。PCAP和HACAR均通過分析用戶上下文信息增強推薦系統(tǒng)的性能，這兩個算法未考慮上下文維度的影響力，而本文算法考慮了上下文維度的影響力，所以選擇這兩個算法作為對比方法。

基于MATLAB 2017b實現(xiàn)本算法。采用5折交叉檢驗方法進行推薦實驗，將每組實驗結(jié)果的平均值統(tǒng)計為最終的性能結(jié)果。

采用平均絕對誤差MAE、均方根誤差RMSE和精度評估推薦系統(tǒng)的推薦性能。

(27)

(28)

式中:pu,i為用戶u對電影i的預(yù)測評分；ru,i為用戶u對電影i的實際評分；N為數(shù)據(jù)集內(nèi)的評分總數(shù)量。MAE值越低表示推薦的準(zhǔn)確率越高。

精度Pr定義為：

(29)

5.2 上下文影響力實驗

本文的核心思想是利用多層感知神經(jīng)網(wǎng)絡(luò)選出影響力大的上下文維度，以期提高推薦系統(tǒng)的性能。采用文獻[17]的連接權(quán)重方法測試預(yù)測器的重要性，該方法計算輸入層-隱層和隱層-輸出層的預(yù)測器重要性之和，將結(jié)果作為上下文維度的相對重要性。圖5是神經(jīng)網(wǎng)絡(luò)所計算的不同上下文維度的影響力結(jié)果，圖中結(jié)果顯示endEmo和dominantEmo是兩個影響力較大的上下文維度，Decision和interaction的影響力較低。

5.3 推薦系統(tǒng)的總體性能

將本文算法與4個對比方案進行比較，圖6、圖7分別為5個推薦算法對于LDOS-CoMoDa數(shù)據(jù)集的平均MAE結(jié)果和RMSE結(jié)果。可以看出，PCAP、HACAR和本文算法均明顯優(yōu)于ESVD和HRMARM算法，所以考慮推薦系統(tǒng)的上下文環(huán)境對于LDOS-CoMoDa數(shù)據(jù)集的推薦性能較好。PCAP和HACAR算法的性能極為接近，而本文算法的性能略優(yōu)于PCAP和HACAR算法，所以本文算法通過多層感知神經(jīng)網(wǎng)絡(luò)為分析上下文維度的重要性，有效地提高了推薦的準(zhǔn)確率。

圖6 推薦系統(tǒng)對于LDOS-CoMoDa數(shù)據(jù)集的MAE結(jié)果

圖7 推薦系統(tǒng)對于LDOS-CoMoDa數(shù)據(jù)集的RMSE結(jié)果

5.4 上下文維度對推薦精度的影響

根據(jù)圖5可看出上下文維度endEmo、dominantEmo和season是影響力最大的維度。實現(xiàn)多層感知神經(jīng)網(wǎng)絡(luò)來分析顯著預(yù)測器，最大化用戶在不同上下文情況下評分的方差。圖8是12個上下文維度的神經(jīng)網(wǎng)絡(luò)預(yù)測精度結(jié)果，結(jié)果表明endEmo、dominantEmo和season的預(yù)測精度明顯高于其他的上下文維度。此外，5.2節(jié)中social維度的影響力較為普通，但其預(yù)測精度高于平均值，其原因是本算法的用戶分組策略中考慮了社交關(guān)系和人口統(tǒng)計學(xué)信息，使得社交關(guān)系對推薦的精度產(chǎn)生了有利的影響。

圖8 上下文維度的神經(jīng)網(wǎng)絡(luò)預(yù)測精度結(jié)果

5.5 不相關(guān)上下文維度對推薦性能的影響

圖8表明endEmo、dominantEmo、season和social上下文維度對預(yù)測精度的貢獻較為突出，說明推薦系統(tǒng)引入不相關(guān)的上下文維度則會導(dǎo)致推薦性能降低。將不相關(guān)上下文維度建立為張量，然后為用戶產(chǎn)生推薦列表，圖9為引入不相關(guān)上下文維度后的推薦系統(tǒng)MSE值。可以看出，引入不相關(guān)維度導(dǎo)致總體的推薦性能大約衰減了15%，因此本系統(tǒng)通過對上下文維度的篩選有效地排除了不相關(guān)維度帶來的負面影響。

圖9 引入不相關(guān)上下文維度后的推薦系統(tǒng)MSE值

6 結(jié) 語

本文推薦系統(tǒng)通過神經(jīng)網(wǎng)絡(luò)識別影響力大的上下文維度，基于社交關(guān)系、地理位置、人口統(tǒng)計學(xué)將用戶分組，基于用戶分組的張量分解模型處理上下文維度數(shù)據(jù)，最終產(chǎn)生推薦列表。基于LDOS-CoMoDa數(shù)據(jù)集的實驗結(jié)果表明，本系統(tǒng)通過上下文維度的分析有效地提高了推薦的性能。

本文基于LDOS-CoMoDa數(shù)據(jù)集進行了實驗驗證，但該數(shù)據(jù)集僅有2 094條記錄，數(shù)據(jù)規(guī)模較小。目前研究領(lǐng)域中沒有符合上下文維度要求的大規(guī)模數(shù)據(jù)集，未來將考慮構(gòu)建大規(guī)模的相關(guān)數(shù)據(jù)集，測試本算法處理大數(shù)據(jù)的效果。

基于神經(jīng)網(wǎng)絡(luò)和社區(qū)發(fā)現(xiàn)的高維數(shù)據(jù)推薦系統(tǒng)

0 引 言

1 總體結(jié)構(gòu)設(shè)計

2 基于神經(jīng)網(wǎng)絡(luò)的上下文維度分析

2.1 訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2.2 識別影響力大的上下文維度

3 基于社區(qū)發(fā)現(xiàn)的用戶分組

3.1 子空間映射

3.2 檢測社區(qū)的代表中心

3.3 標(biāo)簽傳播

4 基于簇的張量分解模型

4.1 奇異值分解

4.2 生成推薦列表

5 實 驗

5.1 實驗方法和環(huán)境

5.2 上下文影響力實驗

5.3 推薦系統(tǒng)的總體性能

5.4 上下文維度對推薦精度的影響

5.5 不相關(guān)上下文維度對推薦性能的影響

6 結(jié) 語

0 引言

5 實驗