閆婧
摘要:[目的]捕捉用戶興趣的動態性變化,優化個性化信息推薦效果。[應用背景]高效的個性化信息推薦方法可以根據用戶行為特征主動為用戶提供合適的信息資源,使信息的獲取和利用更加快捷、準確。[方法]以“新浪微博”為例,通過挖掘用戶及其關注者的微博數據,提取標簽,計算二者興趣相似度及親密度,確定用戶興趣標簽并優化標簽描述,從而構建用戶個性化“輕量級”本體,使得語義網資源能夠準確地投放到用戶界面。[結果]有效緩解了信息爆炸式增長所造成的“信息迷航”現象。[局限]微博數據中的雜音(廣告轉發、多語言描述)、數據不充分等,可能影響標簽提取的準確性。關鍵詞:標簽本體;個性化推薦;社交網絡
1 引言
隨著Web2.0的發展,互聯網從信息傳播的媒介逐漸轉變為信息資源共享和社會交流的平臺。用戶既是信息的使用者,也是信息的創造者。用戶和信息的爆炸式增長,為人們帶來豐富信息資源的同時,也造成用戶難以準確找到感興趣的資源。高效的個性化信息推薦方法可以根據用戶行為特征主動為用戶提供合適信息,使信息的獲取和利用更加快捷、準確。
社會化標簽方法是一種更強調“感知性”的信息組織方法,它由用戶自發對資源進行標注所產生的標簽組成,為發現用戶關注點、進行個性化信息推薦提供了重要的數據基礎。與此同時,標簽本身所暴露出的描述不規范、無序化、多樣性、缺乏語義關系等,很大程度上制約了其在提取個性化信息方面所發揮的作用。而本體是共享概念模型的明確形式化規范說明,能系統地表示概念間的內在語義關系,是語義構建的重要手段,可以有效地彌補上述缺陷。目前,在個性化信息推薦方面有關應用標簽和本體的研究相互間比較孤立,缺少將兩者結合起來建立模型的思想。本文以主流社交網絡“新浪微博”為例,提供了一種在社會化標簽系統中基于本體的個性化信息推薦方法,用以捕捉用戶興趣的動態性變化,優化個性化信息推薦效果。
2 相關研究
標簽是用戶主觀地對感興趣的資源進行發布時所使用的關鍵詞,它在體現用戶興趣取向的同時,也反映了資源本身的特征屬性。標簽在由用戶、標簽、資源三者組成的社會化標簽系統中扮演著核心角色,是用戶與資源之間的橋梁。規范標簽的使用、實現標簽語義的明確化表述,是降低標簽濫用率、提高檢索效率的有效手段。
近年來,針對個性化推薦方法的研究不勝枚舉。根據推薦算法的不同,YooDonghee等提出了UCTag新型標注方法,設計了基于Web的文件管理系統原型,用戶提交某一標簽后,根據相應的規則得到的標簽本體,系統會自動推薦一系列符合用戶興趣的標簽。Kawakubo等提出一種基于Folksonomy的圖片本體的自動構建模型,并利用Flickr網站的數據進行實驗舊。張云中提出一種基于FCA的半自動構建本體方法,使用造格算法將形式背景轉化成相應概念格,再由知識工程師對概念格進行分析,將結果上傳到社區,經由社區成員對本體校正或補充得出改進后的本體模型,重新應用到社區中。
目前大多數應用標簽系統進行個性化信息推薦的研究集中在推薦算法的設計優化上,沒有考慮標簽本身的局限性,降低了個性化信息推薦的準確性。本文將本體與標簽相結合,用以提高社會化標注系統的推薦效果。
3 研究方法
本文將用戶Ul及其關注用戶V發布的微博數據作為研究樣本,分別對樣本進行預處理、提取標簽。計算用戶Ul的標簽集IU1中的每一個興趣i與用戶V標簽IV1、IV2……IVn間的相似度及親密度來判斷二者間的社會相關度,從而得到可以代表用戶Ul興趣的標簽集。該標簽集是從用戶及其關注者發布微博的內容角度入手,得到的結果集是無層次結構;而本體是一類規范的集合,具有層次結構和語義性。因而,將標簽與本體相結合,對用戶興趣標簽集進行規范化、層次化處理、通過分析標簽之間的語義關系,建立能夠反映用戶興趣的標簽概念空間模型,構建用戶自身的“輕量級本體”,映射已標記語義網資源的標簽集,系統自動將匹配Top-k標簽的資源信息反饋給用戶。
4 基于本體的個性化信息推薦模型
4.1 構建模型
本文將標簽系統與本體二者相結合,構建了一種適用于社交網絡的個性化信息推薦模型,如圖1所示。該模型對社會化標簽的含義做了進一步擴展,使標簽不再是用戶以標注某個資源為目的去標注的,而是用戶在進行正常的網絡社交活動中,系統自動根據用戶的活動數據信息進行提取的,這種方式在很大程度上提高了標簽的容錯性和準確性,能夠實時、準確地監測用戶興趣變化,更加高效地向用戶提供所需資源,優化了社交網絡中個性化信息推薦服務的效果。
4.2 標簽提取模塊
如圖1所示,根據用戶微博內容,提取關鍵詞作為該用戶的標簽。本文采用哈爾濱工業大學語言技術開發平臺LTP對原始微博數據進行句法分析,具體分為:(1)提取微博語句中的無動賓結構時語句的核心謂語以及動賓結構下的核心謂語和賓語的中心詞。例如,“我下午去打球”提取“打球”和“他昨天下午去打羽毛球了”中的“打羽毛球”。(2)構建趨向動詞表對核心謂語和賓語中心詞進行修正,該表包含“上”“下”“來”“去”等趨向動詞。例如上例中的“去”這個干擾動詞。(3)提取修正有無動賓結構時的核心謂語。(4)將全部提取的核心謂語和賓語構建成動名詞關鍵詞表,即該用戶的初始興趣標簽集。
4.3 用戶興趣發現模塊
評論一個字詞在文檔中的重要程度,多采用TF-IDF統計方法。其公式為:
tf-idf=tf x logN/n
其中tf表示詞語t在文檔d中出現的次數,idf=logN/n表示逆文檔頻率,是一個詞語普遍重要性的度量;N表示總文檔數;n表示包含詞語t的文檔數。
從中不難看出,詞語t的重要程度與它出現在當前文檔中的頻率成正比,與文檔集合中出現的頻率成反比。這對于微博社交網絡而言,可能因為用戶發表的微博數量不足,而導致興趣誤判。針對這個問題,本文為tf設定一個閾值m,當tf>m時保留tf,否則tf取“0”,具體流程如圖2所示。最后取新標簽集中的Top-k為用戶U1的標簽庫Du1,利用同種方式求出用戶關注用戶的Du2……Dun。
利用標簽庫信息,求出用戶U1的關注用戶V與U1標簽庫中標簽的親密度及相似度,發現用戶U1的興趣集。
4.4 用戶興趣本體構建模塊
用戶興趣本體是提供個性化信息服務的基礎,其質量直接決定推薦內容的準確性。用戶興趣本體的建立是依托于語義網中的領域本體,在描述概念間關系的同時,也為術語賦予了相應的語義網背景知識,因為有利于知識的復用與共享,改善傳統用戶模型標簽描述隨意性的缺陷。構建用戶個體的輕量級興趣本體主要通過對標簽進行聚類分析,構造自頂向下的概念樹模型。表示用戶興趣的大類表現在高層節點,興趣的顆粒度劃分表現在底層節點,原始提取的用戶標簽表現在最底層節點。在構建用戶興趣本體時,系統根據用戶不同時期發布文章的標簽提取出不同的興趣標簽集,這種方法可以及時有效地捕捉用戶興趣的動態性變化,保證興趣本體的準確性。
4.5 用戶社群構建模塊
具有相同或相似興趣的用戶聚集而成的群體稱為用戶社群。利用本文描述的用戶興趣本體,結合社會復雜網絡技術、聚類組合等方式可以構建用戶間的社群網絡。反過來,通過社群網絡,系統會根據用戶興趣向用戶推薦同類興趣的社群,供用戶可以快速地找到并加入適合自己的群體。
4.6 個性化推薦模塊
該模塊主要向用戶推送相關個性化信息資源。系統根據資源庫所提供的資源與標簽的對應關系,將用戶興趣集中的個性化標簽與語義網中的資源進行語義匹配,得到符合用戶興趣的資源集合,最后將推薦結果在用戶主頁推薦模塊中進行展示,提供給用戶。個人應用最廣泛的有:好友推薦、興趣社區推薦、文章推薦等。商業方面,可以進行準確的廣告投放,在同等的成本消耗下,使廣告的回報率達到最大值。
5 結語
社交網絡中的個性化推薦是學界的一個研究熱點,但很少有學者將個性化推薦與社會化標簽和本體聯系起來。文章從用戶的直觀表述出發,提取文章關鍵詞作為用戶興趣的標簽的同時,參考用戶關注者的興趣標簽,將二者綜合,高效地獲取反應用戶興趣的標簽,并生成獨特的能夠反映用戶興趣的輕量級本體。建立了基于本體的個性化信息推薦模型。但是,文章只是對該模型進行了理論上的探討,并沒有在實踐中建模驗證它的推薦準確度。在接下來的實踐過程中,對于微博數據的提取、語義網中資源的標注等問題,都是值得進一步去關注和解決的。