趙國民,唐 恬
(1.廣脈科技股份有限公司,浙江 杭州 310051;2.杭州市公安局上城分局)
Web個性化推薦技術
趙國民1,唐 恬2
(1.廣脈科技股份有限公司,浙江 杭州 310051;2.杭州市公安局上城分局)
Web頁面的幾何級增長,使得用戶面對信息的海洋卻不得不為如何找到感興趣的內容而犯難。個性化推薦為解決這一難題打開了一扇窗。文章在簡單介紹個性化推薦技術現狀的基礎上,分析了傳統的協同過濾及其改進算法、基于內容的個性化推薦技術及其改進算法、基于標記的推薦技術以及將多種信息進行融合的混合個性化推薦技術。對各種技術的優缺點作了比較分析,指出基于標記的推薦技術及混合個性化推薦技術將是未來個性化推薦技術中重要發展方向。
Web;個性化推薦;協同過濾;標記推薦;混合推薦
最近幾年互聯網上的信息呈指數級增長,Web成為人們獲取信息的重要來源。而同時,人們在信息過載(Information Overload)的現實中,面對越來越多的Web頁面卻不容易找到自己感興趣的內容。讓用戶去評價并區別各種信息,顯然是行不通的。搜索引擎(Search Engine)在一定程度上解決了這個難題,然而,現有的搜索引擎工具以關鍵字匹配為主,返回的搜索結果往往包含眾多頁面,無法根據不同用戶的不同需求給出個性化的結果,此外,當用戶對所要查詢的內容缺乏認識,無法確定查詢的關鍵詞時,搜索引擎也顯得無能為力了。
如何更好地為用戶提供服務成為Internet進一步發展的一個瓶頸和技術難題,推薦系統(Recommendation Systems)成為解決這一難題最有希望的途徑,它采用知識發現技術,提供個性化的頁面推薦。
早在1987年,Malone等提出的智能化信息共享系統(Intelligent Information Sharing Systems)就是一個可以訪問高度動態資源的基礎分類系統[1]。具體地說,這些系統可以為兩類:①認知過濾系統(cognitive filtering systems);②社會學過濾系統(sociological filtering systems)。認知過濾系統,通過提取信息資源的內容和潛在用戶的信息需求中的特征,并以此作為給予用戶智能化匹配的依據。社會學過濾系統,基于個體在社區中的個人與組織的關系進行工作。早期信息共享系統就屬于第一類,是根據文本關鍵詞選擇相關的項目。所謂個性化推薦即指,通過分析對用戶訪問行為和獲取的知識,根據用戶的要求,提供個性化內容或頁面結構。通過對用戶訪問行為的不同側面進行分析,就形成不同的推薦技術。
眾多的文獻根據推薦方式的不同將個性化推薦分成以下三種主要類型:
⑴ 協同推薦(Collaborative recommendation),將具有相同的興趣和偏愛的人曾經喜歡的項目推薦給用戶;
⑵ 基于內容的推薦(Content-based recommendation),是把用戶的信息需求,事先被以某種形式描述出來,然后,推薦系統根據這些描述在新項目中預測用戶的興趣;
⑶ 基于知識的推薦(Knowledge-based recommendation),依據對用戶偏好的邏輯進行項目推薦,要求事先建立對一個用戶的特定要求的知識表示(如規則)。
隨著個性化推薦技術研究的深入,基于用戶活動的單一屬性已不能夠滿足實際需要,事實上,現在有越來越多的方法把各方面的屬性進行融合,也就是聯合前面提到的各種類型的推薦方式以獲取更好的推薦效果,如Balavanovic&Shoham[2],Claypool et al.[3],Cho&Kim[4],Li et al.[5]。
最近研究人員廣泛關注的一種個性化推薦技術——基于標記(tag-based)的個性化推薦,不同于以住任何形式的推薦技術,基于標志的技術由用戶對瀏覽的頁面進行標記,由系統對所有標記進行分析(如聚類),然后由系統根據用戶提出的訪問要求使用特定標記進行個性化推薦。
協同過濾(Collaborative Filtering),又稱為社會過濾,它從用戶那里獲得綜合的協同信息,形成總的規則,或傾向于用戶間或傾向于項目間的關聯來預測單個用戶對項目的興趣。
在協同過濾技術的發展中,第一代協同過濾技術,又被稱為基于用戶(User-based)的協同過濾。其基本原理是基于用戶行為選擇的相關性,用戶的行為選擇這里指的是下載、購買、評價等能夠顯式或隱式體現用戶喜好的行為。一旦系統能夠識別與一個用戶擁有相同喜好的用戶,就能夠將他們最感興趣的內容作為目標用戶的推薦結果推薦給他。第二代是基于內容(Item-based)的協同過濾技術[6],與基于用戶的技術不同的是,這種方法比較的是內容項之間的相似度。
協同過濾不能保證對用戶的需求總有很準確的預測,一旦與活動用戶相關的人很少的時候,以此產生的推薦可能就很不準確。原因是協同過濾系統完全依賴于個體對團體的興趣度,而不考慮推薦的內容。
基于內容的推薦技術可以根據用戶預定義的個人偏好[7]或者根據從web日志挖掘出來的用戶使用模式,來幫助用戶獲得其感興趣的信息。一般這些用戶的個人信息包括用戶的個人日程表、郵箱、最近訪問的站點等,都可以幫助推薦系統向用戶提供更準確的推薦。
基于內容的個性化推薦技術的最大的應用領域就是個性化搜索技術,近幾年受到研究人員的關注也越來越多,在一定程度上已成為一種專門的研究領域,故本文不對相關技術作進一步的介紹。
為了使用戶自己建立起來的內容更容易被其他用戶共享,最簡單的做法就是將這些信息建立相應的索引。實際應用中對內容的索引方式很多,在傳統的圖書館或檔案館,索引是一個非常專業的任務,建立起來的索引往往具有很好的一致性,也就是同一個類型的內容往往采用相同的索引,且這種索引采用層次結構組織。然而,隨著標記的引入和對在線數據庫的評級,內容索引已經從嚴格的層次化向更多的主觀化分類轉變。
協同標記(Collaborative tagging)作為一種新型的對在線內容進行索引的方式,允許用戶給自己建立起來的內容進行注解,即標記,相比于專業的網絡內容的產生機制,協同標記系統面臨著一大挑戰,即終端用戶是以一種不可控的方式安排標記,每個人可以根據自己的理解,給內容加上一個主觀性很強的標記,即使對于同類型的內容甚至同一內容,不同用戶也可能給出不同的標記,結果必然使得這種標記數據不一致,缺乏系統性。
基于標記的個性化推薦即是利用這種用戶對于內容標記的評級向用戶進行內容推薦的方法,可以在兩個階段給用戶以支持,一是提高用戶在社區中標記使用的一致性,再就是提高信息檢索時的效率。作為一種新的個性化推薦技術,基于標記的個性化推薦,已經成為個性化技術研究中的熱點,很多相應的算法被提出來。
協同過濾的主要思想是:把具有相似的訪問模式的其他用戶的訪問項目向用戶進行推薦,因為如果不考慮項目的內容,推薦的效果就往往不是很理想,尤其是對于user-item矩陣的稀疏性問題,始終很難有一個很好的解決辦法。另一方面,基于內容的個性化推薦雖然考慮到了項目內容與用戶描述的相關性,但忽視了用戶之間訪問行為相似性可提高推薦效果的這一基本事實,得到的效果也不是很理想,且這種方法比協同過濾更復雜。
現有的個性化推薦算法,很多只是用到站點的使用信息,而忽視Web站點的結構信息,導致一些重要的頁面,其盡管有很高的PageRank權威評分,卻被低估。文獻[7]提出一種新算法,UPR,一個類PageRank算法,聯系考慮使用數據和連接分析技術,依據他們在站點瀏覽圖的重要程度給網絡頁面分配一個概率值。本文將局部UPR(L-UPR)應用到個性化瀏覽子圖,以實現在線網絡頁面的評分和推薦。系統提出一個混合概率預測模型,該模型以馬爾可夫(Markov)模型和鏈接分析為基礎,從而為每一個頁面分配一個先驗概率。實驗表明,這個方法得到的推薦結果比純粹基于使用信息的方法更加客觀,更具代表性。
隨著個性化推薦技術在商業的實踐及逐步推廣,相關的技術也成為研究的熱點,基于標記的推薦技術及混合個性推薦技術將是未來個性化技術中重要方向。未來的個性化推薦技術的發展可能會體現在以下幾個方面:
⑴ 繼續將多維度信息相結合,提出更加有效的個性化推薦模式;
⑵ 由于分布式技術環境的普及,基于多Agent的個性化推薦技術的研究;
⑶ 未來的個性化推薦系統會更多地用到用戶反饋信息,通過在線用戶反饋逐步精化用戶的個性化需求;
⑷ 個性化搜索引擎技術,現在搜索引擎已成為用戶訪問網絡信息的一個重要的輔助手段,但以基于關鍵詞匹配為主的搜索手段還是讓用戶很難輕松定位想要的信息,將語義及用戶信息考慮以內的個性化搜索技術,有望在這方面取得突破。
[1]Malone,T.,Grant,K.,Turbak,F.,Brobst,S.,Cohen,M.:Intelligentinformation sharing systems.Comm.ACM,1987.30(5):390-402
[2]Balabanovic,M.,Shoham,Y.:Fab:content-based,collaborativerecommendation.Comm.ACM,1997.40(3):66-72
[3]Claypool,M.,Gokhale,A.,Miranda,T.:Combining content-based and collaborative filtersin an online newspaper.In Proc.ACM SIGIR Worksh.Recomm.Syst.Impl.Eval.,Berkeley CA,USA(1999).
[4]Cho,Y.H.,Kim,J.K.:Application of web usage mining and product taxonomy to collaborative recommendations in e-commerce.Exp.Syst,2004.26(4):233-246
[5]Li,Y.,Lu,L.,Xuefeng,L.:A hybrid collaborative filtering method for multiple-interests and multiple-content recommendation in E-Commerce.Exp.Syst,2005.28(4):67-77
[6]Balabanovic M,Shoham Y.Fab:content-based,collaborativerecommendation.Comm.oftheACM,1997.40(3):66-72
[7]MagdaliniEirinaki,Michalis Vazirgiannis.Web site personalization based on link analysis and navigational patterns.ACM Transactionson InternetTechnology,2007.4(7):21-47
Web page personalized recommendation technology
Zhao Guomin1,Tang Tian2
(1.GuangMai technology co.,Ltd,Hangzhou,Zhejiang 310051,China;2.Shangcheng branch of Hangzhou Municipal Public Security Bureau)
The geometric growth of the Web page makes the user,despite facing the ocean of information,has to make trouble with how to find the content of interest.Personalized recommendation opens a window to solve this problem.On the basis of brief introduction of the status of personalized recommendation technology,this paper analyzes the traditional collaborative filtering and its improved algorithm,content-based personalized recommendation technology and its improved algorithm,tag-based recommendation technology and a variety of information integrated hybrid personalized recommendation technology.The advantages and disadvantages of various technologies are compared and analyzed,and it is pointed out that the tag-based recommendation technology and hybrid personalized recommendation technology will be the future of personalized recommendation technology.
Web;personalized recommendation;collaborative filtering;tag-based recommendation;hybrid recommendation
TP399
A
1006-8228(2017)10-29-03
2017-08-25
趙國民(1965-),男,浙江杭州人,高級工程師,主要研究方向:通信技術,圖像與數據處理。
10.16644/j.cnki.cn33-1094/tp.2017.10.009