摘 要:協同過濾算法被廣泛應用的同時一直存在著伸縮性和可擴展性困難的問題。針對該問題,提出了一種基于用戶復雜網絡特征分類的推薦系統協同過濾模型。首先,在用戶集中基于度值選擇特征用戶,建立相似性閾值實現非特征用戶分組;然后,構建用戶—用戶相似性網絡,通過K-core分解完成網絡中的社區標記;最后,目標用戶在組內選擇鄰居,實現電影評分預測?;贛ovieLens和Netflix數據集的實驗結果表明,該算法與經典協同過濾算法相比,提升了時間和空間的性能,展現了更為出色的伸縮性和可擴展性。
關鍵詞:特征用戶;鏈路預測;協同過濾;復雜網絡;可擴展性
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)02-030-0493-05
doi: 10.19734/j.issn.1001-3695.2022.07.0329
Collaborative filtering model based on user complex network feature classification
Ai Jun, Dai Xinglong, Su Zhan
(School of Optical-Electrical amp; Computer Engineering, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:Although collaborative filtering algorithms become widely applicable, they also suffer from the difficulties of scalability and extensibility. To address this problem, this paper proposed a collaborative filtering model for recommendation systems based on the classification of user complex network features(UCNFC). Firstly, the method selected feature users based on degree values in the user set and established similarity thresholds to implement groups of non-feature users. Then, user-user similarity constructed the network and completed the community labeling in the network by K-core decomposition. Finally, the target users chose their neighbors within themselves group to accomplish movie rating prediction. Experimental results of Movie-Lens and Netflix datasets show that the proposed method improves both temporal and spatial performance compared with the classical collaborative filtering algorithm, is more excellent scalability and extensibility.
Key words:feature user; link prediction; collaborative filtering; complex network; scalability
高速發展的互聯網已成為用戶檢索信息資源的重要工具。目前海量的信息增加了搜索成本,如何能夠讓用戶精準且快速地獲取所需信息成為了難題[1],借助推薦系統則能夠有效地解決這一難題[2]。推薦系統能夠基于用戶的偏好對其未評級項目實現評級預測[3],并將預測評級最高的項目推薦給該用戶。推薦的核心步驟是預測用戶和某個項目之間的鏈接以及該鏈接的權重,因此在相關的領域中,推薦算法有時也被稱為鏈接預測[4]。
推薦算法主要分為協同過濾(CF)和基于內容的推薦算法以及混合推薦算法[5]幾類。協同過濾(collaborative filtering,CF)是推薦系統中應用最為廣泛的一種方法。CF算法最早由Goldberg等人[6]在1992年提出。CF算法基于一個假設,即用戶對一個物品進行評價或行為,該用戶的鄰居就會對該物品進行類似的評價和行動[7]。由于CF方法的有效性和方便性,許多擴展CF方法被提出,它們分為基于內存和基于模型兩類。基于內存的方法參照用戶或物品之間的相似性進行預測[8],而基于模型的方法基于數學模型進行預測,這一類算法包括貝葉斯網絡方法[9]、聚類方法[10]和雙聚類模型[11]?;谀P偷姆椒ㄍǔP枰^大的時間開銷進行模型構建及更新且覆蓋用戶范圍有限。
基于內存的CF中,基于鄰域的CF被廣泛用于向用戶推薦商品[12]?;卩徲虻腃F也稱為K近鄰法(K-nearest neighbors,KNN)。假設推薦系統中目標用戶有相似的用戶 (鄰居) 喜歡某項商品,那么目標用戶可能會對該商品有偏好行為[13]。一直以來,為了發現推薦系統中的相似用戶,研究人員提出了眾多相似性的評估方法,最常用的為皮爾森相似性與余弦相似性等公式計算用戶對間的相似性[14]。隨著用戶和物品的數據量不斷膨脹,計算用戶間的相似性會產生大量的計算負荷,增加巨大的計算時間開銷。假設目標用戶僅對少量項目進行評分,其與大多數用戶無法判斷相似性,計算相似性時會積累大量無效計算,導致基于內存方法的算法往往不能對大量的用戶和項目產生快速響應,存在伸縮性困難的問題。
為緩解上述問題,本文提出了一種基于用戶復雜網絡特征分類的推薦系統協同過濾模型(UCNFC)。該算法創造性地篩選特征用戶并基于特征用戶分組,結合復雜網絡社區預測實現電影的個性化推薦。
本文的主要貢獻如下:
a)提出了一種基于用戶復雜網絡特征分類的推薦系統協同過濾模型;
b)基于用戶度值選取特征用戶,實現對用戶的分組,降低了計算負荷,采用K-core標記用戶所在社區,弱化不同社區的用戶鏈接影響,保證了算法的精準度;
c)實驗結果表明,所提算法對比其他算法,時間開銷成本大幅減少,空間負擔得到減輕,體現了更健壯的可伸縮性。
1 相關工作
針對協同過濾中的伸縮性問題,許多學者對CF方法進行了改進。一個簡單的策略是將用戶或物品組成集群,然后使用這些集群作為推薦的基本單元[15]。Dhanani等人[16]提出了一種基于圖聚類的推薦方法來降低判斷相似性耗費的時間,該方法計算每個集群的兩兩相似度從而限制搜索空間,而不是搜索整個語料庫。Wang等人[17]將協同過濾轉換為一個低秩矩陣補全問題,對非凸低秩正則化方法進行改進,以此來預測用戶對項目的缺失評級。Wu等人[18]建立矩陣雙聚類結構,選擇與目標用戶相似的用戶子集,并采用飛蛾火焰優化算法優化相似用戶集,但需預先對用戶評分矩陣進行過濾和清理,以降低計算成本。文獻[19]提出了基于概率矩陣分解的隱語義模型,該方法將顯式和隱式反饋矩陣同時分解為共享子空間,當數據集比較密集時,它的迭代運行時間會過長。文獻[20]提出了利用奇異值分解增量方法和本體方法。該方法被分解為離線階段和在線階段兩個部分。在協同過濾方法的離線階段,使用奇異值分解等降維技術,并使用聚類方法形成最相似的用戶和物品依賴于偏好的聚類。但是,由于用戶的歷史數據隨著時間的推移而變化,模型需要經常更新。所以,上述方法的效率較低,無法滿足用戶的快速響應要求。
鏈路預測方法可以分為基于相似度的算法[21]、最大似然方法[22]和概率模型[23]。為了提升鏈路預測的準確度,科學家們構建復雜網絡模型[24]進行鏈接預測,復雜網絡的重要元素被抽象為節點,元素之間的相互作用被表示為邊。基于建模的網絡可以通過共同鄰居進行缺失或未來鏈路的預測[25],也可以使用節點的空間分布來提供預測鏈接。文獻[26]提出了基于項目共享傳播的鏈路排序方法,通過網絡中線性和雙向投影方式積累用戶份額和項目份額,將用戶和項目的份額彼此分享,以此預測鏈接權重。Yan等人[27]提出了一種基于社團結構的鏈接預測算法,認為相比不同社區的節點之間,位于同一社區的節點更有可能存在聯系。Ai等人[28]提出了一種基于模糊鏈路重要性空間分布模型的鏈路預測方法,通過基于物品共享標簽算法避免冷啟動。由于該方法只使用項目標簽,沒有充分利用評分信息以獲得更好的準確性。
本文試圖通過度值特征對用戶進行排序并降低目標用戶的潛在相似性用戶數量以及減輕運算負荷,從而提升時間效率以及空間使用率,增強算法的可擴展性和伸縮性,維持良好的推薦準確性。
2 用戶復雜網絡特征分類的協同過濾模型
2.1 基于度值特征與相似性進行用戶分組
不同用戶對相同項目存在行為就會產生相似性,用戶參與的項目越多,與更多用戶具有相似性鏈接的概率就會上升。相反,參與項目較少的用戶與其他用戶之間存在相似性鏈接的概率較低。電影推薦系統中用戶觀看的電影數量為用戶的度,大量的電影協同過濾推薦算法中,用戶都會與所有用戶進行計算,從而判斷是否為相似性用戶。本文認為減少低度值用戶對相似性用戶的尋找次數能夠避免度值較低的用戶造成過多的無效計算。于是本文基于用戶度值對用戶進行降序排列,執行以下步驟:
a)將序列中最高度值的用戶取出,該用戶為第一位特征用戶;
b)度值數為第二的用戶取出,與第一位特征用戶計算相似性,該相似性大于或等于給定的閾值τ,則進入第一位特征用戶的組里,成為其跟隨用戶,反之,則成為第二位特征用戶;
c)依次取出下一位用戶,與特征用戶依次計算相似性,當前用戶會進入到相似性超過τ且相似性最高的特征用戶組內,成為其跟隨用戶。相似性均小于τ,當前用戶成為新特征用戶。
本文給出了六位不同的用戶通過度值進行降序排列分組,如圖1所示。度值最高的用戶直接成為了首位特征用戶,然后依次與后面的五位用戶計算相似性。不同用戶在圖1中的連線代表其相似性大于或等于τ,沒有連線則代表相似性低于τ或不存在相似性。當第一個組的成員全部確定之后,在剩余未進組的用戶集中度值最高的會成為第二個特征用戶,再挑選其組員。分組結束后,用戶只能在自己的組內選擇具有相似性的鄰居用戶。
度量相似性的方法眾多,本文選擇了皮爾森(Pearson)[29]和資源分配(resource allocation,RA)[30]兩種相似性度量方式。皮爾森相似度將兩個用戶對相同物品的評分集以及用戶的平均評分納入計算,取值為[-1,1],值為1代表兩位用戶呈完全正相關,-1代表兩位用戶呈完全負相關,定義如下:
PCC(u,v)=∑i∈Iu,v(ru,i-u)×(rv,i-v)∑i∈Iu,v(ru,i-u)2∑i∈Iu,v(rv,i-v)2(1)
其中:Iu,v是用戶u和v共同評過分的物品集合;ru,i為u對物品i的評分集合;u與v為u和v的歷史平均評分;rv,i為v對物品i的評分集合。
資源分配作為一種高效的鏈路預測技術,與協同過濾相結合,成為資源分配協同過濾。該方法用RA系數來修正皮爾森相似度,通過收集兩個用戶的共同項目來獲得資源分配系數,每個項目將自己的資源平均分配給選擇它的所有用戶,該項目度值的倒數即為自己的分配權重。
其中:di為項目i的度值。
2.2 K-core 分解相似性網絡
為了能夠更好地挖掘用戶間的緊密度,將每位用戶作為節點,用戶間的相似性考慮為鏈接權重,進行復雜網絡建模。在復雜網絡中,節點之間的鏈接數并不會被全部保留。研究表明[31],網絡拓撲中節點之間保留最小連接數,即保留節點間的高相似度鏈接會降低社區檢測的計算復雜度,并讓網絡結構更清晰。圖2給出了來自MovieLens 25M數據集的網絡展示,每個網絡中的節點數為 2 000,每個節點表示推薦系統中的一個用戶,參數l用來約束網絡中連接的數量,定義如下:
ne=l×nq(4)
其中:nq為網絡中的節點數;ne為網絡中選擇的鏈接數。隨著l值的減小,網絡中心的密集度在降低。如圖2所示,l=1.5的網絡只保留每個節點權值最高的邊,每個節點在相似性網絡中的最小鏈路數為1。因為存在鏈接被共用,集中在網絡中心的節點的邊數是較多的,節點的邊數也被稱為該節點在網絡中的度。一個節點的重要性與度值有關,度越高,節點越重要。圖2中節點度值通過大小區分,節點的顏色表示所在社區,本文采用l=1.5的用戶相似性網絡。
圖2中,對于節點所在社區的標記往往需要大量的計算。于是本文選擇了計算復雜度較低的方法——K-core分解[32],它能夠快速地完成節點的社區標記,以此在預測過程中降低來自不同社區的鏈接權重,提升推薦系統性能。圖3展示了K-core分解規則,該方法將節點由度值從低到高逐級移除。
通過對當前層k值的節點進行連續剪枝得到剩余度,節點根據剩余度被分配到k個殼層。從所有度為k=1的節點開始移除,移除完節點后,可能會有一些節點還剩下一條鏈路,會將這些鏈路進行修剪,直到網絡中沒有k=1的節點,移除的節點與其鏈接組成一個k殼,網絡可以看做所有k個殼層的并集。一旦達到分解中最高的k核,每個節點及其關聯的節點都被一個社區標記。社區檢測算法步驟如下:
a)將網絡中的所有節點標識為獨立的團體。
b)假設網絡中不存在度值為0的節點,從度值為1的節點開始第一輪遞歸,第t輪遞歸時,參與的節點度值為t。
c)記住網絡拓撲中當前度值最小節點的鄰居。
d)刪除度等于或小于t的節點,修剪其所有鏈路,直到網絡中所有節點的最小度大于t。
e)鄰居集為空,則被刪除節點的社區保持不變;鄰居集為非空時,則找出其中權重最高的領袖節點,并將其社區分配給該從屬節點,將依賴者的團體合并到領袖的團體中。
f)網絡中存在未被記錄的節點,則從步驟b)開啟下一輪遞歸;否則,結束遞歸。
2.3 評分預測
用戶通過K-core分解相似性網絡進行社區標記后,會降低與目標用戶屬于不同社區的鄰居用戶的權重,定義如下:
其中:cu和cv分別為用戶u和v所在的社區。結合式(5),基于用戶復雜網絡特征分類的預測評分公式如下:
其中:m為用戶u的鄰居數量;ru,i為用戶u對物品i的預測評分;φ為對用戶所在的社區進行判斷,會降低位于不同社區用戶間的鏈接權重;sim(u,v)為u與v的相似性,本文用式(1)和(3)分別進行計算。
3 實驗與驗證分析
3.1 數據集與實驗環境
本文實驗數據集為MovieLens 25M和Netflix。MovieLens 25M數據集由162 000個用戶、62 000部電影以及2 500萬條評分記錄組成。Netflix數據集的用戶數量為480 189,電影數量為 17 770,用戶評分記錄數量為100 480 507條。從中隨機選擇了1 500位用戶,并通過十折交叉驗證所提算法的科學性和有效性。實驗算法使用1~200個最近鄰進行預測,從而研究近鄰數的影響。
實驗所用處理器為Intel CoreTM i5-8250U CPU@ 1.60 GHz,內存為8.0 GB,操作系統為64位Windows 10。
3.2 基準算法
本文算法采用了Pearson和RA兩種相似性方式,分別記為UCNFC-P和UCNFC-RA。實驗論證階段,除了Pearson和RA兩種基準算法,本文還選用了近年較為經典的協同過濾算法進行驗證。
a)巴氏系數(Bhattacharyya)[33]利用一對用戶的所有評級進行推薦預測,而不是僅考慮共同項目的評級。
b)多級協同過濾算法(MLCF)[34]通過分層計算相似性提高經典協同過濾算法的準確率。
c)相似性資源分配算法(SRA-a)[35]在網絡中通過鄰居可靠性系數改進資源分配。
d)信息熵協同過濾算法(Entropy)[36]收集用戶評分的信息熵改進相似性度量,從而反映用戶對物品的全局評分行為。
3.3 時間性能分析
基準算法中Pearson考慮的信息最少,所以在時間性能上相對其他算法有一定的優勢。本文從兩種數據集內選取了三組不同的用戶數量進行算法時間性能的測試,通過表1發現本文UCNFC-P算法在Pearson的基礎上降低了運算負荷,取得了比Pearson更快的運行速度,性能提升13.6%~22.6%。同樣地,UCNFC-RA算法也有著良好的時間性能表現,對比經典的RA算法,提升了10.7%~47.85%。隨著數據規模增大,Bhattacharyya和Entropy兩者的運算負荷也不斷加重,時間效率不斷下降,暴露了伸縮性較差的弱點。對比所有算法而言,本文算法則進一步增強了協同過濾算法的伸縮性。
3.4 空間性能分析
尋找鄰居用戶時,不僅額外的相似性計算會增加多余的時間開銷,而且相似性用戶信息的存儲會增加空間上的負擔。圖4展示了每個用戶在不同算法下的相似性用戶數量,縱坐標代表每位用戶的相似用戶數量,橫坐標為基于相似用戶數量降序排列得到的用戶序號。Bhattacharyya 算法中所有用戶都產生了相似性,這使得該算法在時間和空間上付出了高昂的代價。MovieLens 25M中UCNFC-RA與RA等協同過濾算法相比,使得目標用戶最多減少了500位相似性用戶,UCNFC-P最多減少了626位相似性用戶。UCNFC-RA和UCNFC-P在Netflix實現了最大縮減520位和545位相似用戶,兩個數據集的實驗均降低了協同過濾算法對內存的需求。
為了從整體上考察算法在空間上帶來的提升,圖5為不同算法中單個用戶的平均相似性用戶數量。
圖5可以觀察到UCNFC算法在空間性能方面的優勢非常明顯。UCNFC-RA和UCNFC-P在MovieLens 25M 取得平均相似用戶數為704.38和661.87,Entropy 和Bhattacharyya為1 303.48和1 499,其余算法均為1 017.61。Netflix內UCNFC-RA均值為 543.55,UCNFC-P為 763.60,Entropy 和Bhattacharyy為1 238.49和1 499,其余算法均為965.60。結合圖4和5,UCNFC算法空間性能平均優化34.96%~63.74%,明顯地降低了低度值用戶所帶來的計算冗余度,減輕了協同過濾算法在空間存儲方面帶來的負荷。
3.5 準確性分析
平均絕對誤差 (mean absolute error,MAE) 和均方根誤差 (root mean square error,RMSE) 是評價推薦系統的兩個常用指標[37],用于衡量預測評級與實際評級的距離。
其中:|test|為測試集的長度;r為用戶的真實評分。MAE 為預測值與實際值的真實誤差,RMSE 則是預測值與真實值偏差的平方,更加關注較大誤差間的差距。
不同的τ對準確度的影響幅度不同,圖6展現了 UCNFC算法準確度在不同閾值下的表現,τ對算法準確度的影響趨勢整體一致。UCNFC-P在Netflix中τ=0.2的MAE為0.797 8,τ=-0.4為0.730 6,τ=-0.7時MAE為0.729 3,較前者提升8.42%,較后者提升0.18%。同樣地,MovieLens 25M內τ取-0.7較0.2時準確度提升6.16%,比τ=-0.4僅提升0.2%。 所以UCNFC-P在τ≤-0.4時,誤差的值基本趨于穩定。UCNFC-RA在MovieLens 25M數據集上當τ≤-0.5時,誤差幾乎一致,在Netflix數據集上的波動較小。為了保證算法準確度穩定性并提升可擴展性,實驗驗證階段UCNFC-P與UCNFC-RA的τ分別設定為-0.4和-0.5。
圖7為算法MAE指標的結果對比,MovieLens 25M內UCNFC-RA在鄰居數為135取得全局MAE最優值為0.660。鄰居數少于20時,UCNFC-RA、Bhattacharyya和UCNFC-P為表現前三的算法,表明其不需要過多的鄰居參與就能得到較好的預測效果,但Bhattacharyya犧牲了時間和空間換取預測準確性,而 UCNFC 算法提供較高準確性的同時有著良好的可擴展性。RA在Netflix的MAE表現最優,其次為UCNFC-P和Pearson,而Entropy 和Bhattacharyya等算法消耗了大量計算時間,準確度效果并不佳。
相比MAE,RMSE則會更加關注算法中存在較大誤差帶來的影響。如圖8(a)所示,在鄰居數較少的時候UCNFC-P和 UCNFC-RA都能達到不錯的精度,Bhattacharyya取得全局最優RMSE為0.870,UCNFC-RA最優RMSE為0.871,Pearson和RA算法隨著鄰居數增大,誤差表現也得到了提升。圖8(b)中,UCNFC-P在鄰居數為28時取得最優值0.938 7,排名第二為RA的0.944 6。UCNFC-P在Netflix上的時間性能僅次于UCNFC-RA,也就證實其既能收獲良好時間性能,也能提供良好的預測準確性。
結合本文算法在以上兩個誤差評價指標的表現,論證了UCNFC 算法基于較少的鄰居獲取良好的預測表現,既提供較高準確性,也緩解了算法所需空間存儲壓力。同時表明協同過濾算法中不能簡單地依賴堆積鄰居數量提升預測效果,減少低度值用戶的無效計算至關重要。
F1-score指標反映了推薦系統是否能夠生成被用戶高度評價的推薦[38],是由召回率(recall)和精確度(precision)結合而來,定義如式(9)。召回率是指在所有已知高評級樣本中能夠被正確預測為高評級樣本的百分比,而精確度是指被識別成高評級的樣本中,正確預測的高評級樣本占的百分比[39]。
其中:TP為真陽性;TN為真陰性;FP為假陽性;FN為假陰性[40]。圖9為不同算法的F1-score評價結果,圖9(a)中UCNFC-RA在鄰居數為32時取得最優值0.690 7,僅次于RA。圖9(b)中RA也為最優,UCNFC-RA次之,Bhattacharyya第三。
基于UCNFC-RA在F1-score的表現,UCNFC-RA對比除了RA以外的其他算法能夠更好地分辨用戶喜愛的電影,但RA在準確度、空間和時間三項性能指標的表現均落后于UCNFC-RA。
4 結束語
為了使得協同過濾推薦算法在可擴展性方面能夠得到提升。本文首先從用戶集中選取特征用戶,基于特征用戶與非特征用戶的相似性設立閾值實現用戶分組,避免了用戶間可能存在的大量無效計算;然后構建用戶復雜網絡優化用戶節點的鏈接數量,采用K-core進行相似性網絡中的社區標記,以此對網絡中的用戶進行聚類;最后,實現對用戶的評分預測和電影推薦。實驗結果表明,UCNFC算法能夠展現更好的可擴展性,大幅提升了協同過濾算法的執行效率,降低了空間存儲需求,使得協同過濾算法在伸縮性和可擴展性的表現有了新的突破,并在準確性方面也有著良好的表現。
以后的研究工作中,會持續探究協同過濾中存在的問題,不斷地提升算法的各項性能,讓推薦系統得到更好的發展與應用。
參考文獻:
[1]Khojamli H,Razmara J. Survey of similarity functions on neighborhood-based collaborative filtering[J]. Expert Systems with Applications,2021,185: 115482.
[2]Ashokan A,Haas C. Fairness metrics and bias mitigation strategies for rating predictions[J]. Information Processing amp; Management,2021,58(5): 102646.
[3]Yan Hangyu,Tang Yan. Collaborative filtering based on Gaussian mixture model and improved Jaccard similarity[J]. IEEE Access,2019,7: 118690-118701.
[4]Lyu Linyuan,Zhou Tao. Link prediction in complex networks: a survey[J]. Physica A: Statistical Mechanics and Its Applications,2011,390(6): 1150-1170.
[5]Pujahari A,Sisodia D S. Aggregation of preference relations to enhance the ranking quality of collaborative filtering based group recommender system[J]. Expert Systems with Applications,2020,156: 113476.
[6]Goldberg D,Nichols D,Oki B M,et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM,1992,35(12): 61-70.
[7]Xu Ruzhi,Wang Shuaiqiang,Zheng Xuwei,et al. Distributed collaborative filtering with singular ratings for large scale recommendation[J]. Journal of Systems and Software,2014,95: 231-241.
[8]Zhao Wentao,Tian Huanhuan,Wu Yan,et al. A new item-based collaborative filtering algorithm to improve the accuracy of prediction in sparse data[J]. International Journal of Computational Intelligence Systems,2022,15(1): article No.15.
[9]Zhou Mingyang,Xu Rongqin,Wang Ziming,et al. A generic Bayesian-based framework for enhancing top-n recommender algorithms[J]. Information Sciences,2021,580: 460-477.
[10]Modee R,Agarwal S,Verma A,et al. DART: deep learning enabled topological interaction model for energy prediction of metal clusters and its application in identifying unique low energy isomers[J]. Physical Chemistry Chemical Physics,2021,23(38): 21995-22003.
[11]Nilashi M,Bagherifard K,Rahmani M,et al. A recommender system for tourism industry using cluster ensemble and prediction machine learning techniques[J]. Computers amp; Industrial Engineering,2017,109: 357-368.
[12]魏甜甜,陳莉,范婷婷,等. 結合項目流行度加權的協同過濾推薦算法[J]. 計算機應用研究,2020,37(3): 676-679. (Wei Tiantian,Chen Li,Fan Tingting,et al. Collaborative filtering recommendation algorithm combined with item popularity weighting[J]. Application Research of Computers,2020,37(3): 676-679.)
[13]Manakkadu S,Joshi S P,Halverson T,et al. Top-k user-based colla-borative recommendation system using MapReduce[C]// Proc of IEEE International Conference on Big Data. 2021: 4021-4025.
[14]Mana S C,Sasipraba T. Research on cosine similarity and Pearson correlation based recommendation models[J]. Journal of Physics: Conference Series,2020,1770(1): 012014.
[15]Santana R V A,Pontes H L J. Aplicao da clusterizao por K-means para criao de sistema de recomendao de produtos baseado em perfis de compra[J]. Navus-Revista de Gesto e Tecnologia,2020,10: 1-14.
[16]Dhanani J,Mehta R,Rana D. Legal document recommendation system: a cluster based pairwise similarity computation[J]. Journal of Intelligent amp; Fuzzy Systems,2021,41(5): 5497-5509.
[17]Wang Yaqing,Yao Quanming,Kwok J. A scalable,adaptive and sound nonconvex regularizer for low-rank matrix learning[C]// Proc of Web Conference. 2021: 1798-1808.
[18]Wu Huanhuan,Ke Gang,Wang Yang,et al. Prediction on recommender system based on bi-clustering and moth flame optimization[J]. Applied Soft Computing,2022,120: 108626.
[19]Chen Shulong,Peng Yuxing. Matrix factorization for recommendation with explicit and implicit feedback[J]. Knowledge-Based Systems,2018,158: 109-117.
[20]Gunjal S N,Yadav S K,Kshirsagar D B. A hybrid scalable collaborative filtering based recommendation system using ontology and incremental SVD algorithm[C]// Proc of International Conference on Smart Innovations in Design,Environment,Management,Planning and Computing. Piscataway,NJ: IEEE Press,2020: 39-45.
[21]魏映婷,倪靜. 基于鏈路預測的有向互動影響力和用戶信任的推薦算法[J]. 計算機應用研究,2020,37(5): 1349-1353. (Wei Yingting,Ni Jing. Recommendation algorithm based on link prediction for directed interaction influence and user trust[J]. Application Research of Computers,2020,37(5): 1349-1353.)
[22]Gaucher S,Klopp O. Maximum likelihood estimation of sparse networks with missing observations[J]. Journal of Statistical Planning and Inference,2021,215: 299-329.
[23]Fu Xiao,Seo E,Clarke J,et al. Link prediction under imperfect detection: collaborative filtering for ecological networks[J]. IEEE Trans on Knowledge and Data Engineering,2021,33(8): 3117-3128.
[24]Li Hui,Gao Guofeng,Chen Rong,et al. The influence ranking for testers in bug tracking systems[J]. International Journal of Software Engineering and Knowledge Engineering,2019,29(1): 93-113.
[25]Malik D,Singh A. Link prediction in multilayer networks[J]. International Journal of Business Intelligence and Data Mining,2020,16(4): 490-505.
[26]Kharroubi S,Dahmani Y,Nouali O. Improving collaborative recommendation based on item weight link prediction[J]. Turkish Journal of Electrical Engineering and Computer Sciences,2022,30(1): 109-126.
[27]Yan Bowen,Gregory S. Finding missing edges in networks based on their community structure[J]. Physical Review E,2012,85(5): 056112.
[28]Ai Jun,Su Zhan,Li Yan,et al. Link prediction based on a spatial distribution model with fuzzy link importance[J]. Physica A: Statistical Mechanics and Its Applications,2019,527: 121155.
[29]Shardanand U,Maes P. Social information filtering: algorithms for automating“word of mouth”[C]// Proc of SIGCHI Conference on Human Factors in Computing Systems. 1995: 210-217.
[30]Liben-Nowell D,Kleinberg J. The link prediction problem for social networks[C]// Proc of the 12th International Conference on Information and Knowledge Management. New York,NY: ACM Press,2003: 556-559.
[31]Ai Jun,Liu Yayun,Su Zhan,et al. Link prediction in recommender systems based on multi-factor network modeling and community detection[J]. Europhysics Letters,2019,126(3): 38003.
[32]Ai Jun,Liu Yayun,Su Zhan,et al. K-core decomposition in recommender systems improves accuracy of rating prediction[J]. International Journal of Modern Physics C,2021,32(7): 2150087.
[33]Lu Jingyi,Yue Jikang,Zhu Lijuan,et al. Variational mode decomposition denoising combined with improved Bhattacharyya distance[J]. Measurement,2020,151: 107283.
[34]Polatidis N,Georgiadis C K. A multi-level collaborative filtering method that improves recommendations[J]. Expert Systems with Applications,2016,48: 100-110.
[35]Ai Jun,Cai Yifang,Su Zhan,et al. Predicting user-item links in re-commender systems based on similarity-network resource allocation[J]. Chaos,Solitons amp; Fractals,2022,158: 112032.
[36]Lee S. Using entropy for similarity measures in collaborative filtering[J]. Journal of Ambient Intelligence and Humanized Computing,2020,11(1): 363-374.
[37]Peng Min,Zeng Guanyin,Sun Zhaoyu,et al. Personalized app recommendation based on app permissions[J]. World Wide Web,2018,21(1): 89-104.
[38]Al-Badarneh I,Habib M,Aljarah I,et al. Neuro-evolutionary models for imbalanced classification problems[J]. Journal of King Saud University-Computer and Information Sciences,2020,34(6): 2787-2797.
[39]Madadipouya K,Chelliah S. A literature review on recommender systems algorithms,techniques and evaluations[J]. Broad Research in Artificial Intelligence and Neuroscience,2017,8(2): 109-124.
[40]Tapak L,Shirmohammadi-Khorram N,Amini P,et al. Prediction of survival and metastasis in breast cancer patients using machine lear-ning classifiers[J].Clinical Epidemiology and Global Health,2019,7(3): 293-299.
收稿日期:2022-07-05;修回日期:2022-08-25 基金項目:國家自然科學基金資助項目(61803264)
作者簡介:艾均(1980-),男,黑龍江饒河人,副教授,碩導,博士,主要研究方向為推薦系統、復雜網絡;戴興龍(1998-),男(通信作者),四川宜賓人,碩士研究生,主要研究方向為推薦系統、復雜網絡(dragon_dai@126.com);蘇湛(1983-),女,遼寧鐵鈴人,講師,碩導,博士,主要研究方向為復雜網絡.