張彬 徐建民 吳姣
摘?要:[目的/意義]針對大數據環境下用戶興趣數據稀疏、缺乏關聯和描繪不準確等問題,利用知識圖譜融合多源興趣知識,以提高用戶興趣的全面性和準確性。[方法/過程]從興趣之間的關聯視角出發,進行興趣建模、知識獲取和知識融合,整合興趣間的語義關聯和社交網絡關聯,構建興趣知識圖譜;挖掘興趣標簽節點與上位詞節點、百科標簽節點、社交網絡用戶節點的關系,計算興趣標簽的語義關聯度和社交網絡關聯度,生成復合關聯權重,重構興趣之間的衍生關系以實現用戶的興趣擴展。[結果/結論]該模型能夠有效融合擴展不同類型的興趣關聯知識,相對于單一來源數據在用戶興趣的覆蓋率和查準率方面均有所提升,提高了用戶興趣描繪的全面性和準確性。
關鍵詞:大數據;知識圖譜;用戶;興趣擴展;模型
DOI:10.3969/j.issn.1008-0821.2021.08.004
〔中圖分類號〕G254?〔文獻標識碼〕A?〔文章編號〕1008-0821(2021)08-0036-09
Research?on?User?Interest?Expansion?Model?Based?on
Knowledge?Graph?in?Big?Data?Environment
Zhang?Bin1?Xu?Jianmin1*?Wu?Jiao2
(1.School?of?Management,Hebei?University,Baoding?071002,China;
2.Magazine?House,Hebei?University,Baoding?071002,China)
Abstract:[Purpose/Significance]Interest?data?in?big?data?environment?is?sparse,and?there?is?no?effective?correlation?in?user?interests.In?response?to?these?problems,a?User?Interest?Expansion?Model?based?on?Knowledge?Graph?is?proposed.[Method/Process]Starting?from?the?perspective?of?the?association?relationship?between?interests,the?model?integrated?the?semantic?associations?and?social?network?associations?in?interests?through?the?process?of?interest?modeling,knowledge?acquisition?and?fusion?utilization,and?constructed?an?interest?knowledge?graph.The?relationship?among?Interest?Tag?Nodes,Hyper?Nodes,Encyclopedia?Tag?Nodes,and?Social?Network?User?Nodes?was?calculated,and?the?semantic?relevance?of?interest?tags?and?social?network?relevance?were?calculated?to?generate?composite?relevance?weights.And?the?derivative?relationships?between?interests?were?reconstructed?to?achieve?user?interest?expansion.[Result/Conclusion]Experiments?show?that?this?model?could?effectively?integrate?different?types?of?interest-related?knowledge,and?greatly?improve?the?coverage?and?accuracy?of?user?interest.It?could?improves?the?comprehensiveness?and?accuracy?of?user?interest?description.
Key?words:big?data;knowledge?graph;user;interest?expansion;model
用戶興趣挖掘是個性化推薦的關鍵,興趣特征描繪的全面性和準確性直接影響推薦系統的性能,興趣擴展是提高興趣描繪效果的有效方法之一。大數據時代的數據規模大、來源豐富、類型多樣,用戶興趣數據具有多噪聲、高維度、稀疏性和多源異構等特點,傳統的興趣挖掘模型在處理大數據時存在的問題限制了其性能的發揮[1]。如何有效融合多源興趣數據知識并挖掘興趣之間的隱含關聯,是用戶興趣擴展研究的難點問題。
用戶興趣擴展研究借鑒信息檢索技術中查詢擴展方法的思想,通過增加用戶興趣的關聯詞來提高用戶興趣特征的描繪效果[2-3]。根據知識來源的不同,現有研究主要分為利用內部興趣知識和利用社交網絡知識的興趣擴展。傳統的興趣擴展方法利用推薦系統的內部知識來挖掘用戶興趣。Liu?Q等[4]認為,在傳統的興趣挖掘模型中,潛在的用戶興趣信息并未得到充分開發,提出了一種基于協同過濾的iExpand興趣擴展模型,把用戶潛在興趣作為用戶層和項目層之間的中間層,用以提高興趣描繪和推薦效果。Bedi?P等[5]提出了一種結合上下文因素和領域本體的興趣擴展方法,利用內容的上下文數據結合領域本體中的概念,通過擴展激活來擴展用戶的興趣。由于推薦系統內部知識資源單一,效果較為有限,部分學者開始利用社交網絡知識擴展用戶興趣。Mezghani?M等[6]認為,豐富的社交媒體數據使社交網絡成為用戶興趣的重要數據源,提出了以用戶為中心的方法將用戶、標簽和資源進行了關聯,以檢測用戶的擴展興趣。Zhang?Z等[7]認為,傳統推薦算法對推薦的準確性更為關注,提出了基于用戶興趣擴展的多樣化推薦框架,采用基于社會標簽信息的用戶興趣擴展策略來增強用戶偏好的多樣性。徐建民等[8]為解決微博用戶興趣提取不準確的問題,把用戶個體興趣和從社交網絡挖掘的關聯興趣相結合,作為用戶的擴展興趣,提高了推薦的有效性和準確性。隨著數據規模的增長,傳統的興趣擴展方法難以全面覆蓋用戶興趣,社交標簽存在的歧義性、多義性、攻擊性以及噪聲等問題也更加突出,對于興趣擴展影響較為關鍵的語義關聯、社交網絡關聯等問題尚缺乏深入的研究。
近年來,知識圖譜技術的出現為大數據環境下的興趣擴展研究提供了新的思路。知識圖譜是一種有向異構信息網絡,提供了一種更好地組織、管理和理解大數據中興趣關聯信息的能力[9],具有知識結構化、語義關聯化、推理智能化等優勢[10],在興趣挖掘中引入知識圖譜能夠把推薦系統的用戶、用戶興趣、項目及其屬性之間的關系進行語義關聯和知識融合[11]。基于知識圖譜的興趣模型主要關注知識圖譜中項目之間的各種關聯路徑,通過節點路徑的特征來挖掘知識圖譜,捕獲項目之間的復雜且有意義的關系,較為直觀準確地為推薦提供輔助信息。Guo?Q等[12]提出了一個端到端的波紋網絡(RippleNet)知識圖譜推薦框架,通過知識圖譜中的鏈接自動迭代擴展用戶的潛在興趣,并證明了在各個場景下的顯著效果。Noia?T?D等[13]提出了SPrank混合推薦算法,利用DBpedia鏈接開放數據提取基于語義路徑的特征,通過Web數據中的開放知識計算前N個推薦。Gupta?M等[14]提出了一種基于元路徑的非聚類推薦模型HeteroPRS,該模型融合了異構信息網絡中與項目相關的元信息,在不進行用戶聚類的情況下,通過考慮網絡中任意的元路徑來發現用戶的內在興趣。具有異構信息融合能力的知識圖譜,在解決推薦的稀疏性和冷啟動問題方面取得了較好的效果,為用戶興趣擴展的性能提升奠定了基礎。現有基于知識圖譜的推薦研究尚不夠深入,大多利用開放知識圖譜建立用戶與項目間的路徑聯系,豐富的多源異構數據對于興趣關聯的影響尚未得到足夠的關注和重視。
本文利用知識圖譜在用戶興趣挖掘方面的優勢,從興趣之間的關聯視角出發,引入用戶、興趣標簽、語義關系以及社交網絡數據等多源興趣知識,構建融合語義關系和社交網絡數據的興趣知識圖譜;通過計算興趣標簽節點間的上位詞關聯度和百科標簽關聯度挖掘興趣間的語義關聯,利用社交網絡知識計算用戶自標簽共現度、用戶自標簽關聯度和用戶自標簽熱度,生成興趣標簽間的復合權重,重構興趣之間的衍生關系,對用戶的原始興趣進行擴展。
1?基于知識圖譜的用戶興趣擴展模型框架
為了解決興趣擴展研究中興趣數據稀疏、缺乏語義關聯和準確度不高等問題,本文設計了基于知識圖譜的用戶興趣擴展模型(Knowledge?Graph-based?User?Interest?Expansion?Model,KG-UIEM),構建融合多源知識的興趣知識圖譜,試圖通過挖掘用戶標簽之間的語義關聯和社交網絡關聯進行用戶興趣擴展。模型框架如圖1所示。
圖1?基于知識圖譜的用戶興趣擴展模型框架
根據用戶興趣擴展的知識結構特征,模型分為興趣知識圖譜構建和用戶興趣擴展兩個部分,興趣知識圖譜構建主要包括興趣知識建模、興趣知識獲取和興趣知識融合3個環節[11],在此基礎上利用興趣間的語義關聯和社交網絡關聯建立衍生關系,對外輸出用戶的擴展興趣。
2?興趣知識圖譜構建
2.1?興趣知識建模
在用戶興趣挖掘的場景中,知識圖譜能夠把涵蓋豐富用戶興趣的知識進行融合與有效利用,發現和計算用戶與興趣、興趣與興趣的知識關聯,進而挖掘用戶的潛在興趣和擴展興趣。
標簽是用戶興趣的一種有效表示方式,在興趣知識圖譜中將興趣標簽作為用戶興趣表達與存儲的主要形式。基于標簽的推薦研究中,既有用戶—標簽—項目、用戶—項目—標簽等3部圖的推薦方法,也有用戶—興趣—標簽—項目的4部圖推薦方法[15]。由于標簽具有噪聲、歧義、冗余和不夠規范等問題,導致標簽在用戶興趣描繪中的應用范圍和效果較為有限。把用戶興趣以標簽的形式引入知識圖譜,利用語義和社交網絡等信息對興趣進行優化計算和擴展,可以彌補標簽的劣勢,取得更佳的興趣描繪效果。
根據用戶興趣擴展的知識需求和數據類型,興趣知識圖譜中的實體主要分為3種類型:①用戶本體,用來存儲和描述用戶基本信息及屬性特征;②興趣詞本體,用來存儲和更新興趣詞概念和實體,興趣詞實體包括來源于上下位知識[16]和百科知識的靜態興趣詞數據,以及用戶興趣計算過程中生成的動態更新興趣詞;③社交網絡用戶本體,用來存儲和關聯用戶相關的社交網絡信息,主要包括用戶信息、自定義興趣標簽、用戶間的關注關系等。
根據興趣挖掘模型中實體關系的不同創建方式,實體關系分為原生關系和衍生關系兩類。原生關系,即利用原始數據直接產生的實體關系,這些關系作為用戶興趣挖掘的基礎,包括興趣詞—概念之間的上位詞關系、興趣詞—百科標簽之間的百科標簽關系、社交網絡用戶—用戶標簽的自標簽關系、社交網絡用戶之間的關注關系等。衍生關系,即利用知識圖譜資源和原生關系等計算出的復合關聯關系。
2.2?興趣知識獲取
興趣詞的語義知識。對用戶的興趣進行標簽化
處理和表示之后,利用興趣詞之間的上下位知識和百科標簽知識構建語義知識網絡,能夠建立興趣詞之間的語義關聯。上下位關系又稱等級關系或層級關系,表示概念或術語之間的“is-a”關聯[17]。上下位知識對實體進行了結構化的組織,具有較權威上下位關系的中文知識庫有大詞林(Bigcilin)、CN-Probase、HowNet、同義詞林等。在線百科是語義知識的另一重要來源,百科詞條通常對應于一定的實體或概念,是由網絡用戶協同編輯形成的在線知識庫[18]。百科詞條知識相對于傳統的中文知識庫,在開放性、時效性和詞條的豐富程度上具有較大優勢。在線百科的詞條標簽信息能夠作為興趣詞的分類依據,建立興趣詞之間的語義連接。
社交網絡知識。在線社交網絡提供了信息交流環境,依靠社交網絡用戶發布的內容以及用戶間關系構成的社交網絡知識庫,是涵蓋真實世界用戶興趣的重要數據源。目前關于社交網絡興趣的研究,較多關注以用戶為中心的興趣挖掘,而忽視了社交網絡本身也建立了興趣之間的關聯;可以從興趣共現、用戶關注關系中挖掘出興趣詞之間的社交關聯,為興趣挖掘提供真實、豐富的社交網絡興趣知識庫。
2.3?興趣知識融合
大數據環境下,用戶的興趣偏好具有多元化特征,興趣知識需要具有一定的廣度、深度和動態性,僅依靠單一類型的知識來源,難以達到理想效果。構建融合多源數據的興趣知識圖譜,能夠把具有相對權威的興趣詞上下位知識、開放多元的百科標簽知識以及與用戶相關的社交網絡知識進行重新組織,利用原生圖數據庫進行數據存儲和對外查詢,為用戶擴展興趣的挖掘提供有力的平臺和數據支撐。
本文對用戶的屬性特征和興趣特征等進行標簽化處理,在用戶興趣知識圖譜中采用〈實體,關系,實體〉和〈實體,屬性,屬性值〉的三元組形式進行描述和表示。將屬性特征進行標簽化處理,建立用戶與屬性標簽節點之間的關聯關系;將用戶的興趣特征轉化為興趣標簽詞實體,建立用戶實體與興趣特征之間的關聯,從不同角度為用戶興趣分析提供數據支撐。
3?基于知識圖譜的用戶興趣擴展
興趣知識圖譜把用戶、興趣標簽、上位詞、百科標簽和社交網絡等多源數據進行了數據整合和知識關聯,構成了融合多源信息的興趣知識庫。興趣知識圖譜是一個有向圖KGInterest=(E,R),其中E={e1,e2,e3,…,en}表示圖中各類實體(節點)的集合,共包含E種不同的實體;R={r1,r2,r3,…,rn}表示圖中各類關系(有向邊)的集合,共包含R種不同的關系。
3.1?語義關聯興趣擴展
興趣標簽之間存在著語義關聯,利用多標簽間的語義關系能夠更加精確地表征興趣特征,緩解原始用戶—標簽矩陣高維稀疏的問題[19]。在興趣知識圖譜中,興趣標簽節點與上位詞節點和百科標簽節點的關系體現了標簽之間的語義關系,本文用這些關聯生成興趣標簽的語義關聯度。
定義1:上位詞關聯度。對于給定的興趣標簽節點Ewj和Ewk,上位詞關聯度Rdh指兩個節點與其上位詞節點關聯強度的一種度量。
對于具有共同上位詞關聯的兩個興趣標簽節點Ewj和Ewk,存在經過上位詞節點Eho的關聯路徑PH=EwjHyperEhoHyperEwk,上位詞關聯度Rdh的計算公式為:
Rdh(Ewj,Ewk)=OH(Ewj)∩OH(Ewk)OH(Ewj)∪OH(Ewk)(1)
其中OH(Ewj)表示與興趣標簽節點Ewj關聯的上位詞節點集合,OH(Ewk)表示與興趣標簽節點Ewk關聯的上位詞節點集合。OH(Ewj)∩OH(Ewk)表示與兩個節點共同關聯的上位詞節點數量,OH(Ewj)∪OH(Ewk)表示與兩個節點關聯的上位詞節點的總數。
定義2:百科標簽關聯度。對于給定的興趣標簽節點Ewj和Ewk,百科標簽關聯度Rdw指兩個節點與百科標簽節點關聯強度的一種度量。
對于具有百科標簽關聯的兩個興趣節點Ewj和Ewk,存在經過百科標簽節點Ebw的關聯路徑PW=EwjWikiTagEbwWikiTagEwk,百科標簽關聯度Rdw的計算公式為:
Rdw(Ewj,Ewk)=OW(Ewj)∩OW(Ewk)OW(Ewj)∪OW(Ewk)(2)
其中OW(Ewj)表示與興趣標簽節點Ewj關聯的百科標簽節點集合,OW(Ewk)表示與興趣標簽節點Ewk關聯的百科標簽節點集合。OW(Ewj)∩OW(Ewk)表示與兩個節點共同關聯的百科標簽節點數量,OW(Ewj)∪OW(Ewk)表示與兩個節點關聯的百科標簽節點的總數。
定義3:語義關聯度。對于給定的興趣標簽節點Ewj和Ewk,語義關聯度指兩個節點通過語義知識建立關聯強度的一種度量。
興趣標簽節點Ewj和Ewk的語義關聯度Rds,由兩個節點的上位詞關聯度和百科標簽關聯度進行加權和計算得出,計算公式為:
Rds(Ewj,Ewk)=ω·Rdh(Ewj,Ewk)+φ·Rdw(Ewj,Ewk)(3)
在上位詞和百科標簽關系中,一個興趣標簽節點可能與多個上位詞節點或百科標簽節點具有關聯,兩個節點具有的共同節點越多,它們的語義關聯度越大。由于不同的外部語義知識庫在覆蓋度、準確度、更新周期方面存在較大差異,節點間的語義關聯計算可以引入多個外部知識庫進行計算,根據知識庫的權威度、數據量等特點評估設定權重系數,彌補單一知識庫存在的語義關系稀疏和不準確問題。
3.2?社交網絡關聯興趣擴展
通過語義關聯能夠得到興趣標簽的語義擴展詞,但擴展詞往往不能契合真實用戶的實際偏好。Web2.0時代,社交網絡提供了豐富的用戶興趣和社交關系數據資源,Mezghani?M等研究者已經證明社交網絡用戶的標簽可以有效地檢測用戶的興趣,鄰居用戶的興趣或行為也提供了相關的興趣信息[6]。部分研究者嘗試利用社交網絡構建興趣圖譜,建立用戶與興趣之間的聯系[21],但現有研究尚處于起步階段,應用效果不夠理想且適用范圍較窄。本文嘗試利用社交網絡豐富的興趣數據和社交關系,挖掘興趣標簽之間的社交關聯。
定義4:用戶自標簽共現度。對于來源于社交網絡用戶自標簽的興趣標簽節點Ewj和Ewk,用戶對兩個標簽的共同使用行為建立了節點間的共現關聯,用戶自標簽共現度UCD是對其關聯強度的一種度量。
對于具有自標簽關聯的兩個興趣節點Ewj和Ewk,存在經過社交網絡用戶節點Ess的關聯路徑PW=EwjUserLabelEssUserLabelEwk,興趣標簽節點Ewj和Ewk的用戶自標簽共現度UCD計算公式為:
UCD(Ewj,Ewk)=μ·OU(Ewj)∩OU(Ewk)OU(Ewj)∪OU(Ewk)(4)
其中OU(Ewj)表示使用興趣詞Ewj作為個人興趣標簽的社交網絡賬號節點集合,OU(Ewk)表示使用興趣詞Ewk作為個人興趣標簽的社交網絡賬號節點集合。OU(Ewj)∩OU(Ewk)表示與兩個節點共同關聯的社交網絡賬號節點數量,OU(Ewj)∪OU(Ewk)表示兩個節點關聯的社交網絡賬號節點并集的數量,μ為調節系數。
定義5:用戶關注關聯度。對于來源于社交網絡用戶標簽的興趣標簽節點Ewj和Ewk,兩個節點通過用戶的關注關系建立了關聯,用戶關注關聯度UFD是對其關聯強度的一種度量。
對于具有用戶自標簽關聯的兩個興趣節點Ewj和Ewk,經過兩個(或以上)社交網絡用戶節點Ess、Est的關注關系構成了組合路徑PW=EwjUserLabelEssFollowedEstUserLabelEwk,稱為用戶自標簽關注路徑。興趣標簽節點Ewj和Ewk的用戶關注關聯度UFD計算公式為:
UFD(Ewj,Ewk)=·PWW(Ewj,Ewk)OU(Ewj)×OU(Ewk)(5)
其中分子PWW(Ewj,Ewk)表示兩個興趣標簽節點間的關注路徑集合的路徑個數,分母為分別與兩個節點關聯的社交網絡賬號數量的乘積,即組合路徑的理論最大值,為調節系數。
用戶關注關聯度使用社交網絡用戶節點之間的雙向關注關系產生的組合路徑作為計算依據,隨著關注關系跳數的增加,用戶興趣的傳遞會產生衰減[12],考慮到多跳關注的計算復雜度會大幅增加而對興趣擴展產生的效果有限,本文僅使用社交網絡用戶之間的直接關注關聯,暫不考慮用戶節點間的多跳關注關系。
由于輸入的用戶初始興趣可能存在空或與現有興趣不匹配的情況,在興趣知識圖譜中建立特殊的零興趣節點,并通過計算用戶自標簽熱度建立零興趣節點與熱興趣詞間的關聯,用來解決零興趣輸入的需求。
定義6:用戶自標簽熱度。對于興趣標簽節點Ewh,與社交網絡用戶節點的連接數越多,它的自標簽熱度越高,用戶自標簽熱度UHD是對其受歡迎程度的一種度量。
興趣標簽節點Ewh的用戶自標簽熱度UHD計算公式為:
UHD(Ewh)=λ·PUW(Ewh)∑h∈IPUW(Ewh)(6)
其中分子PUW(Ewh)表示興趣標簽節點Ewh與社交網絡用戶的關聯路徑個數,分母為興趣標簽節點與社交網絡用戶的關聯路徑之和,λ作為調節系數。
3.3?興趣標簽的衍生關聯擴展
相對于傳統的推薦場景,大數據環境下的推薦系統具有輸入數據規模更大,稀疏性、冗余度和噪聲更大的特點[1],知識圖譜技術降低了利用多源異構數據的門檻,如何對各類知識數據進行有效的整合利用變得尤為關鍵。
興趣擴展模型分別從語義、興趣共現和社交關系多個角度分析,獲得了興趣標簽節點之間的語義關聯度、用戶自標簽共現度和用戶自標簽關聯度等關聯權重。通過對各個關聯權重進行權重歸一和加權處理,能夠生成興趣標簽節點間的復合關聯權重。
興趣標簽節點Ewj和Ewk的復合關聯權重CRD計算公式為:
CRD(Ewj,Ewk)=α·Rds(Ewj,Ewk)+β·UCD(Ewj,Ewk)+γ·UFD(Ewj,Ewk)(7)
其中權重系數根據語義關聯度、用戶自標簽共現度和用戶自標簽關聯度的數據源質量、數據豐富程度、權重分布等進行評估設定。
為了保證興趣之間的復合關聯能夠得到高效利用,本文在興趣知識圖譜中重建了興趣標簽節點之間的衍生關系,將復合關聯權重分級轉化為3種新類型的關系——強關聯、中關聯、弱關聯,并將復合關聯權重作為邊的權重屬性存儲于圖數據庫。衍生關系把興趣擴展的離線計算和在線查詢進行有效分離,為后續的二次興趣挖掘、興趣擴展查詢等提供了數據基礎。
興趣知識圖譜構建及擴展更新完成后,即可利用興趣標簽節點間的衍生關系提供興趣擴展查詢。對于原始興趣為單興趣詞的查詢,模型輸出與該興趣標簽節點具有衍生關系的興趣標簽節點集合;對于原始興趣為多興趣詞的查詢,模型輸出與多個輸入節點具有衍生關系的興趣標簽節點集合。對于原始興趣為空的查詢,模型輸出與零興趣節點關聯的熱興趣標簽節點集合。擴展興趣輸出的排序依據為輸入相關節點和輸出節點的邊權重倒序。
4?實驗結果與分析
4.1?實驗數據及預處理
由于目前沒有統一、權威的數據集可供使用,實驗采用開放鏈接知識和爬蟲工具抽取采集的數據,使用河北大學高性能計算平臺的胖節點集群進行分析計算。
興趣知識圖譜基本構建采用的數據集包括上下位關系數據集、百科標簽數據集和社交網絡數據集。其中上下位關系選用哈爾濱工業大學社會計算與信息檢索研究中心研制的大詞林作為實體基礎知識庫,包括75萬核心實體、1.8萬細粒度概念詞表以及上下位關系318萬個[16]。百科標簽數據選用復旦大學知識工場實驗室研發維護的CN-DBpedia中文通用百科知識圖譜數據包,該數據集系從中文百科類網站的純文本頁面中提取,經過濾、融合、推斷等操作形成的結構化數據[22]。本文從中篩選了百科標簽類型的三元組關系132萬條,涉及實體詞47萬個,百科標簽詞0.36萬個,作為興趣知識圖譜中百科標簽的知識來源。在社交網絡數據方面,本文以前期研究采集篩選的0.78萬個真實用戶關聯的微博賬號為種子節點,使用分布式網絡爬蟲抓取了2~3層關注關系以及相關的微博賬號信息,獲取到社交網絡用戶信息1?022萬條、關注關系6?600萬條;其中具有自定義興趣標簽的用戶334萬個,從中提取用戶興趣標簽詞45萬個,生成微博賬號和興趣標簽的三元組關聯767萬條,補全用戶節點3?159萬個,用作興趣知識圖譜的社交網絡知識庫。
在知識圖譜構建過程中,使用本體構建工具Protégé規劃和構建本體結構;利用關系數據庫對多個來源的數據進行清洗整理、關系抽取、實體補全和規范化處理,生成實體節點和原生關系;使用Neo4j-admin工具批量導入至Neo4j圖數據庫,共包括各類節點3?889萬個,三元組關系7?400萬個,用于興趣知識數據的持久化存儲和圖查詢分析。
4.2?興趣標簽的關聯分析
由原生關系組成的基礎知識圖譜和圖數據庫構建完成后,通過多級視圖和Cypher查詢相結合的方法進行聯合查詢計算,獲取與指定興趣標簽相關的興趣節點列表,使用前述公式計算生成興趣節點之間的衍生關聯。
圖2?興趣標簽節點的語義關系
興趣標簽節點“輪滑”和“足球”之間的語義關系如圖2所示,兩個節點與4個共同上位詞節點存在路徑關系,分別是“物”“抽象事物”“體育項目”和“亞運會比賽項目”;與3個共同百科標簽節點存在路徑聯系,分別是“體育”“體育人物”和“體育項目”。根據式(1)、(2)分別求得這兩個興趣標簽之間的上位詞關聯度為0.235和0.500。由于實驗選取的上位詞知識和百科標簽知識數據規模相近,知識關聯質量相對較高,且經過一系列的篩選及數據處理,因此在式(3)中的權重系數均取0.5,計算兩個興趣標簽的語義關聯度結果為0.368。在興趣標簽的語義分析過程中發現,開放知識庫的關聯數據可能存在不準確或部分缺失的現象,引入多個開放知識庫可以減少單一來源知識不準確造成的影響。
興趣標簽節點“輪滑”和“足球”之間的用戶自標簽共現關系中,兩個節點與8個社交網絡用戶節點存在自標簽關系,與兩個節點存在自標簽聯系的節點總數為179,調節系數μ取值為50,使用式(4)計算可得,兩個節點的用戶自標簽關聯度為2.23。興趣共現相當于用戶興趣的協同過濾,具有較大的數據價值;而社交網絡中存在自標簽共現的用戶比例較小,在實驗數據集中占比約為22%,因此設定了系數進行調節放大。
興趣標簽節點通過社交網絡用戶之間的關注關系,建立了節點距離為5跳的關聯路徑,如圖3所示。與圖中心興趣標簽節點“輪滑”具有多條關注路徑的節點包括“美食”(42條)、“旅游”(26條)、“名人明星”(20條)、“校園生活”(12條)等,這些多路徑節點體現了與興趣詞關聯的社交網絡群體興趣。如表1所示,通過自標簽熱度式(6)計算得出熱興趣詞排名,熱度較高的興趣詞包括“旅游”“美食”“名人明星”“搞笑幽默”“娛樂”等,用做零輸入節點的關聯興趣。豐富的社交網絡知識為興趣標簽節點之間的關聯有效地拓展了興趣知識資源。
4.3?結果分析
用戶興趣擴展模型的最主要目的是為興趣稀疏用戶擴充興趣,為了驗證模型中不同興趣知識來源對用戶興趣擴展的效果,本文參照跨域興趣融合的評價方法[23]計算不同來源的興趣知識疊加對輸入興趣的覆蓋度和對輸出興趣的受歡迎程度的影響。把各興趣知識來源設為4個數據域,其中D1域為上位詞知識,D2域為百科標簽知識,D3域為自標簽共現知識,D4域為衍生關聯知識。
在實驗過程中,采用覆蓋率和查準率指標對用戶興趣擴展效果進行評價。覆蓋率指標用來衡量知識庫對輸入興趣的覆蓋程度,即輸入用戶中可被興趣標簽節點覆蓋的用戶占比;查準率指標用來衡量輸出擴展興趣的受歡迎程度,即輸出的擴展興趣屬于熱興趣詞庫的用戶占比。為了便于對比效果,隨機抽取興趣用戶5?000個,把用戶的首選興趣詞作為用戶的興趣輸入,興趣標簽按權重排名的前5個作為輸出興趣;把社交網絡的自標簽詞按熱度降序排列,從37萬自標簽詞中篩選出熱興趣詞庫。由于D3域和熱興趣詞庫關聯程度較高,為了規避由此帶來的驗證傾向,輸入用戶興趣源使用與社交網絡無關的圖書領域,熱興趣詞中只選取了使用頻次大于8次的前5%作為熱興趣詞庫,熱興趣詞數量為1.85萬。實驗結果如表2所示。
對實驗結果進行分析,如圖4所示,外部語義知識庫的D1域和D2域對輸入興趣的覆蓋比例均超過了60%,但查準率較低。經分析發現,語義知識庫中單個上位詞或百科標簽關聯的實體詞數量極不均衡,數量范圍從1個到28萬個,這也是相關知識權威度較高而效果不佳的癥結所在。D3域自標簽共現知識在數據規模較大情況下,興趣詞庫數量適中且高頻詞較為集中,覆蓋率略高于語義知識庫,其輸出結果的查準率提升較為明顯。D4域的衍生關聯知識,將多源知識進行了疊加,并通過零興趣節點為匹配失敗節點輸出了高頻熱興趣詞,所以覆蓋率和查準率均有大幅提升,具有較高的興趣擴展性能。
圖4?用戶興趣擴展實驗結果
5?結?論
本文針對大數據環境下用戶興趣知識的特點,建立了基于知識圖譜的用戶興趣擴展模型,通過挖掘用戶興趣之間的關系擴展用戶的關聯興趣。相對于關注用戶與項目、用戶與興趣關聯的興趣挖掘模型,該模型有機地融合了大數據環境下的各種興趣知識,為跨領域、跨平臺的推薦建立了興趣關聯知識庫。興趣知識圖譜通過引入開放的語義知識庫,增強了興趣標簽之間的語義關聯,彌補了傳統興趣標簽的劣勢。社交網絡中的真實用戶興趣行為能夠提取出較為精準的熱興趣詞集,把用戶相關的群體興趣知識關聯轉化為個體興趣,結合語義知識為用戶提供了更加全面和準確的興趣擴展。研究的不足之處在于,由于數據規模相對較大,受平臺架構、計算節點數量和系統開銷等因素影響,使用圖數據庫平臺進行的復雜關系分析和衍生關聯的計算效率不高,在圖挖掘、興趣推理及大數據分析方面的研究尚不夠深入,需要繼續完善和優化。此外,用戶興趣在小世界與大世界、全面性與精準性、多樣性與新穎性等方面的指標尚需要進一步評估和權衡。
參考文獻
[1]孟祥武,紀威宇,張玉潔.大數據環境下的推薦系統[J].北京郵電大學學報,2015,38(2):1-15.
[2]余傳明,蔡林,胡莎莎,等.基于深度學習的查詢擴展研究[J].情報學報,2019,38(10):1066-1077.
[3]王鑫,陸靜雅,王英.面向推薦的用戶興趣擴展方法[J].山東大學學報:工學版,2017,47(2):71-79,93.
[4]Liu?Q,Chen?E,Xiong?H,et?al.Enhancing?Collaborative?Filtering?By?User?Interest?Expansion?Via?Personalized?Ranking[J].IEEE?Transactions?on?Systems?Man?&?Cybernetics?Part?B?Cybernetics?A?Publication?of?the?IEEE?Systems?Man?&?Cybernetics?Society,2012,42(1):218-233.
[5]Bedi?P,Richa.User?Interest?Expansion?Using?Spreading?Activation?for?Generating?Recommendations[C]//International?Conference?on?Advances?in?Computing,Communications?and?Informatics.IEEE,2015:766-771.
[6]Mezghani?M,Péninou?A,Zayani?C?A,et?al.Producing?Relevant?Interests?from?Social?Networks?By?Mining?Users?Tagging?Behaviour:A?First?Step?Towards?Adapting?Social?Information[J].Data?&?Knowledge?Engineering,2017,108:15-29.
[7]Zhang?Z,Zheng?X,Zeng?D?D.A?Framework?for?Diversifying?Recommendation?Lists?By?User?Interest?Expansion[J].Knowledge-based?Systems,2016,105:83-95.
[8]徐建民,劉明艷,王苗.基于用戶擴展興趣的微博推薦方法[J].計算機應用研究,2019,36(6):1652-1655.
[9]沈志宏,姚暢,侯艷飛,等.關聯大數據管理技術:挑戰、對策與實踐[J].數據分析與知識發現,2018,2(1):9-20.
[10]孫雨生,祝博,朱禮軍.國內基于知識圖譜的信息推薦研究進展[J].情報理論與實踐,2019,42(12):163-169,149.
[11]陳濤,劉煒,單蓉蓉,等.知識圖譜在數字人文中的應用研究[J].中國圖書館學報,2019,45(6):34-49.
[12]Guo?Q,Zhuang?F,Qin?C,et?al.A?Survey?on?Knowledge?Graph-Based?Recommender?Systems[J].Scientia?Sinica?Informationis,2020,50(7):937.
[13]Noia?T?D,Ostuni?V?C,Tomeo?P,et?al.SPrank:Semantic?Path-Based?Ranking?for?Top-N?Recommendations?Using?Linked?Open?Data[J].ACM?Transactions?on?Intelligent?Systems?and?Technology,2016,8(1):9.
[14]Gupta?M,Kumar?P.Recommendation?Generation?Using?Personalized?Weight?of?Meta-paths?in?Heterogeneous?Information?Networks[J].European?Journal?of?Operational?Research,2020,284(2):660-674.
[15]李興華,陳冬林,楊愛民,等.基于用戶興趣-標簽的混合推薦方法研究[J].情報學報,2015,34(5):466-470.
[16]Feng?X,Guo?J,Qin?B,et?al.Effective?Deep?Memory?Networks?for?Distant?Supervised?Relation?Extraction[C]//Twenty-Sixth?International?Joint?Conference?on?Artificial?Intelligence,2017.
[17]蔣婷,孫建軍.領域學術本體概念等級關系抽取研究[J].情報學報,2017,36(10):1080-1092.
[18]何振宇,董祥祥,朱慶華.多維度視角下百度百科詞條評價指標構建[J].圖書情報工作,2019,63(12):114-120.
[19]王艷茹,馬慧芳,劉海姣,等.基于多標簽語義關聯關系的微博用戶興趣建模方法[J].計算機工程與科學,2018,40(11):165-171.
[20]Kim?H?N,Alkhaldi?A,Saddik?A?E,et?al.Collaborative?User?Modeling?with?User-Generated?Tags?for?Social?Recommender?Systems[J].Expert?Systems?with?Applications,2011,38(7):8488-8496.
[21]孫雨生,張恒,朱禮軍.國內興趣圖譜研究進展[J].情報理論與實踐,2017,40(1):132-138.
[22]Xu?B,Xu?Y,Liang?J,et?al.CN-DBpedia:A?Never-Ending?Chinese?Knowledge?Extraction?System[C]//International?Conference?on?Industrial,Engineering?and?Other?Applications?of?Applied?Intelligent?Systems,2017.
[23]張彬,徐建民,吳樹芳.基于多源用戶標簽的跨域興趣融合模型研究[J].情報科學,2020,38(4):147-152,162.
(責任編輯:孫國雷)