楊柳青,王 沖
1.玉林師范學院 教育技術(shù)中心,廣西 玉林 537000
2.桂林電子科技大學 商學院,廣西 桂林 541004
網(wǎng)絡中的海量信息存在異質(zhì)以及復雜特征,異質(zhì)信息提升了信息推薦難度[1-2],高效的信息推薦算法可有效解決用戶的信息處理問題。在實際的應用過程中,存在無法良好交互導致推薦準確性低且容易出現(xiàn)冷啟動情況[3]。網(wǎng)絡中豐富的商品類別信息所包含的異質(zhì)信息可提升信息推薦效果,對存在的問題能夠有效解決。以往的信息推薦算法設置用戶偏好信息為用戶評分矩陣,用戶打分標準存在較高差異[4],主觀和客觀性均存在原因,所獲取推薦結(jié)果無法滿足網(wǎng)絡眾多用戶需求。
采用異質(zhì)信息網(wǎng)絡實現(xiàn)數(shù)據(jù)處理、分類以及推薦等應用已受到研究學者的重視[5],已有眾多研究學者將創(chuàng)新的數(shù)據(jù)挖掘技術(shù)應用于異質(zhì)信息網(wǎng)絡處理中,提升信息搜索推薦性能。趙傳等人[6]利用非對稱方法獲取異質(zhì)信息網(wǎng)絡推薦結(jié)果,在均方差相似度公式的基礎上,引入非對稱系數(shù)刻畫相似度的非對稱性,再根據(jù)元路徑的特征賦予權(quán)值,對不同元路徑的相似性進行加權(quán);最后通過在矩陣分解模型中融合相似信息和評分信息,實現(xiàn)異質(zhì)信息網(wǎng)絡的評分預測推薦。Lyu等人[7]考慮的加權(quán)多信息約束矩陣分解,提出基于地理標記照片的個性化出行位置推薦算法,利用照片(視覺信息)、用戶訪問序列(順序信息)和文本標記(文本信息)全面分析用戶和旅行地點。視覺、順序和文本相似性以及基于地理距離的共同訪問概率被賦予不同的權(quán)重,以約束原始用戶旅行位置矩陣進行因子分解。郁懷波等人[8]提出基于多特征融合與樹形結(jié)構(gòu)代價聚合的立體匹配算法,通過對圖像進行色彩、梯度和Census 轉(zhuǎn)換的融合,得到了相應的匹配代價聚合,再利用基于初始圖象的最小生成樹進行了相應的調(diào)整,并利用多邊形掃描法對其進行了改進。陳嘉穎等人[9]提出一種融合語義分析特征提取的推薦算法,基于無結(jié)構(gòu)性評價的文本信息,在知識圖譜中運用本體辨識與鏈接技術(shù)從知識庫中抽取出與工程特性有關(guān)的實體,構(gòu)造出子知識庫;再運用知識圖譜表達法來進行表示學習,以實現(xiàn)低維表達。雖然上述研究取得一定進展,但僅可應用于少量信息推薦,對于網(wǎng)絡中海量信息推薦性能較差。為此提出基于多特征融合的異質(zhì)信息搜索推薦算法,選取多視圖機模型,融合異質(zhì)信息中所包含的多特征,實驗結(jié)果表明,所提出的算法具有很高的推薦效率,可以在實際的推薦算法中得到應用。本研究算法的創(chuàng)新性是提出多特征融合,當視圖數(shù)據(jù)的異質(zhì)信息非相同空間內(nèi)時,選取多視圖機模型實現(xiàn)多特征融合,該模型可有效捕捉高階交互,異質(zhì)信息搜索推薦算法具有較強的推薦性能,可應用解決實際的信息過載問題。
網(wǎng)絡中的實體是表示特征的語言單位,可有效體現(xiàn)用戶的個人偏好以及使用態(tài)度,實體是分析用戶偏好的重要方式。利用知識圖譜技術(shù)提取異質(zhì)信息特征,該異質(zhì)信息特征是具有高階相似度的節(jié)點。選取命名實體識別技術(shù)提取網(wǎng)絡中信息特征,該技術(shù)利用中心為命名實體的結(jié)構(gòu)化語義表示非結(jié)構(gòu)化文本[10],將知識庫內(nèi)相應實體與識別的實體利用實體鏈接技術(shù)鏈接,與知識圖譜相結(jié)合提取網(wǎng)絡中實體與相關(guān)實體間鏈接信息。


當多視圖數(shù)據(jù)的異質(zhì)信息非相同空間內(nèi)時,采用傳統(tǒng)方法無法實現(xiàn)特征良好融合。選取多視圖機模型實現(xiàn)多特征融合,該模型可有效捕捉高階交互,利用多視圖機整合不同表示向量,多視圖機可獲取m個視圖的數(shù)據(jù)表示向量間多階交互,實現(xiàn)多特征良好融合。

式中,p與m分別表示不同視圖數(shù)據(jù)的表示向量以及視圖數(shù)量,wiv,…,im表示多視圖機模型服務組合數(shù)據(jù)量。多視圖機將全部輸入向量多階交互,令所獲取交互信息實現(xiàn)推薦作用[12]。通過該方法可獲取多視圖機在不同向量中內(nèi)容的交互情況,實現(xiàn)各視圖不同向量特征融合,為異質(zhì)信息搜索推薦作準備。
在各視圖不同向量特征融合實現(xiàn)后,需要針對協(xié)同注意力機制的局部信息推薦、多標簽分類的全局信息推薦以及異質(zhì)信息搜索推薦進行深入研究。
1.2.1 協(xié)同注意力機制的局部信息推薦
采用協(xié)作注意機制進行異質(zhì)信息局部學習,收集異質(zhì)信息中目標商品b與商品c的直接鄰居構(gòu)建鄰域,利用矩陣分解模型排序信息中直接相連的鄰居[13],設置用戶的前K1個以及商品的前K2個節(jié)點為鄰居。


異質(zhì)信息網(wǎng)絡可體現(xiàn)眾多的組成對象以及相應關(guān)系,可精確體現(xiàn)眾多組成對象間相應關(guān)系。為驗證所研究多特征融合的異質(zhì)信息搜索推薦算法對異質(zhì)信息搜索推薦有效性,選取常應用于推薦任務中的異質(zhì)信息數(shù)據(jù)集作為測試對象,數(shù)據(jù)集中共包含用戶數(shù)量5 487個。數(shù)據(jù)集中異質(zhì)信息為電影推薦系統(tǒng)中關(guān)聯(lián)數(shù)據(jù),其中包含導演、演員、用戶、電影以及電影類型5種異質(zhì)信息,不同類型的異質(zhì)信息之間存在較高關(guān)聯(lián)。選取廣泛應用于推薦算法中的本文算法電影推薦結(jié)果、用戶guan123 電影推薦結(jié)果、復雜度對比結(jié)果以及歸一化折扣累計增益對比結(jié)果作為影響算法性能的因素,可體現(xiàn)推薦用戶感興趣信息的能力,并且可體現(xiàn)用戶所喜歡項目位于最終獲取的推薦信息推薦列表中位置。
綜合前面的描述,基于多特征融合的異質(zhì)信息搜索推薦算法研究實現(xiàn)過程如圖1所示。

圖1 異質(zhì)信息搜索推薦算法實現(xiàn)流程圖Fig.1 Implementation flow chart of heterogeneous information search recommendation algorithm
輸入:異質(zhì)信息數(shù)據(jù)集合、待推薦數(shù)據(jù)集合。
輸出:異質(zhì)信息推薦數(shù)據(jù)結(jié)果。
將本文基于多特征融合的異質(zhì)信息搜索推薦算法應用于電影推薦系統(tǒng)中,采用本文算法獲取其中10 名用戶電影推薦結(jié)果如表1所示。
由表1實驗結(jié)果可以看出,采用本文方法可依據(jù)用戶偏好為用戶推薦適合用戶的不同類型的電影,依據(jù)用戶以往觀看記錄選取用戶喜歡的電影類型,從該類型中選取適合用戶的電影。
為驗證本文算法對于異質(zhì)信息的搜索推薦性能的可行性,統(tǒng)計采用本文方法同時結(jié)合圖1異質(zhì)信息搜索推薦算法實現(xiàn)流程,為用戶guan123 推薦電影,結(jié)果如表2所示。
采用本文算法可知,用戶guan123偏好懸疑類電影,該用戶對懸疑類電影興趣深厚,本文算法為guan123所推薦電影多為懸疑類電影。本文方法從用戶以往觀看歷史中發(fā)現(xiàn)用戶對動畫類型同樣存在偏好,因此為該用戶推薦動畫類電影。通過表1 和表2 可知,采用本文算法可有效依據(jù)用戶偏好為用戶推薦適合用戶的電影,具有較高的異質(zhì)信息搜索推薦有效性。

表1 本文算法電影推薦結(jié)果Table 1 Movie recommendation results of proposed algorithm

表2 用戶guan123電影推薦結(jié)果Table 2 Movie recommendation results of user guan123
復雜度數(shù)值越低,表示算法具有越強的興趣點生成能力,推薦性能越高。復雜度計算公式如下:

式中,GH表示用戶喜歡的項目興趣點數(shù)量,| |Ru表示用戶喜歡的全部項目興趣點數(shù)量。采用文獻[6]、文獻[7]、文獻[8]算法以及文獻[9]算法搜索推薦異質(zhì)信息的復雜度,對比結(jié)果如表3所示。
由表3對比結(jié)果可以看出,不同算法搜索推薦異質(zhì)信息的復雜度均隨著迭代次數(shù)的提升而逐漸降低。采用本文算法搜索推薦異質(zhì)信息,迭代次數(shù)達到300次左右時,復雜度趨于穩(wěn)定。采用本文算法搜索推薦異質(zhì)信息的復雜度明顯低于另4種算法,說明本文算法可獲取較高的搜索推薦效果。

表3 復雜度對比結(jié)果Table 3 Complexity comparison results
選取廣泛應用于推薦算法中歸一化折扣累計增益作為評價指標評價本文算法的推薦性能,推薦歸一化折扣累計增益可體現(xiàn)用戶所喜歡項目位于最終獲取的推薦信息推薦列表中位置,具體公式為:

式中,K表示所獲取全部推薦結(jié)果,rk與zk分別表示項目是否為用戶所喜歡項目以及歸一化常數(shù),rk等于1以及等于0分別表示項目為用戶喜歡的項目以及用戶不喜歡的項目。歸一化折扣累計增益數(shù)值越大,算法的搜索推薦性能越好。采用上述內(nèi)容,分別用本文算法、文獻[6]、文獻[7]、文獻[8]算法以及文獻[9]算法計算搜索推薦異質(zhì)信息的歸一化折扣累計增益,對比結(jié)果如圖2所示。

圖2 歸一化折扣累計增益對比結(jié)果Fig.2 Comparison results of normalized discount cumulative gain
由圖2實驗結(jié)果可以看出,采用本文算法搜索推薦異質(zhì)信息的歸一化折扣累計增益明顯高于文獻[6]、文獻[7]、文獻[8]以及文獻[9]算法,采用本文算法搜索推薦異質(zhì)信息的歸一化折扣累計增益均高于0.35。本文算法不同評價指標結(jié)果均優(yōu)于文獻[6]、文獻[7]、文獻[8]以及文獻[9],說明本文算法搜索推薦性能較優(yōu)越,可有效利用全局異質(zhì)信息以及局部鄰域信息提升搜索推薦性能。本文算法將協(xié)同注意力機制與全局信息應用于推薦算法中,提高了推薦算法的有效推薦性能,改善了爆炸式增長的數(shù)據(jù)量造成信息過載情況。
信息搜索推薦算法可依據(jù)用戶歷史行為獲取用戶偏好,將用戶所需信息個性化推薦至用戶,已經(jīng)成為解決網(wǎng)絡“信息超載”的一個重要途徑。本文所研究異質(zhì)信息搜索推薦算法具有較高的搜索推薦性能,可有效應用于不同領(lǐng)域的搜索推薦中。本文所研究算法結(jié)合知識圖譜技術(shù)分析文本信息語義,提取異質(zhì)信息中所包含的眾多特征,采用多視圖機融合所提取多特征,利用融合后的多特征實現(xiàn)異質(zhì)信息搜索推薦。實驗結(jié)果表明,該算法具有很高的推薦效率,可有效改善推薦精度較差的缺陷。
但是隨著用戶數(shù)量的增加,該異質(zhì)信息搜索推薦算法的運算量也呈現(xiàn)增長,搜索推薦效率將下降,因此需要改進,未來的工作可進一步改進多特征融合的應用,提高算法的推薦效率。