查詢推薦技術綜述

2011-03-17 00:23:13趙俊杰沈小玲

統計與決策 2011年9期

關鍵詞：數據挖掘用戶信息

徐勇，趙俊杰，沈小玲

（安徽財經大學信息工程學院，安徽蚌埠 233041）

查詢推薦技術綜述

徐勇，趙俊杰，沈小玲

（安徽財經大學信息工程學院，安徽蚌埠 233041）

文章介紹了用戶搜索中查詢推薦技術的相關概念、研究現狀；深入分析了目前常見的推薦算法及推薦系統中的隱私保護問題；最后，歸納了查詢推薦技術的研究熱點。

推薦系統，協同過濾，數據挖掘

1 問題的提出

進入21世紀以來，信息網絡化正在延伸到社會的每一個角落，這種全球性的信息化進程深刻地改變了人類的生存方式，Internet技術的應用給人們生活和工作的各個層面帶來了深刻的影響。

由于Internet具有信息交流的雙向性，開放式信息傳輸以及范圍廣泛等特點，使得其中的信息量以指數規模迅速增長，形成“信息爆炸”，導致用戶在使用網絡過程中出現“信息過載”和“信息迷航”等問題。“信息過載”指由于Internet提供的信息具有復雜性和廣泛性的特點，同時瀏覽者自身知識結構和認知能力等條件限制，導致瀏覽者無法正確理解和使用信息。信息迷航是瀏覽者在Internet極為復雜的網絡信息空間中迷失方向，無法確定自己現在所處信息空間的位置，進而無法進入目標節點，甚至于忘記搜索目標的一種現象[1]。

解決這一問題的有效途徑之一是將Internet從被動接受瀏覽者的請求轉化為主動感知瀏覽者的信息需求，實現網絡系統對瀏覽者的主動信息服務。“推薦系統”正是在這一背景下應運而生，成為解決大規模數據中有效信息檢索的重要技術手段之一，吸引了很多人的研究興趣。

推薦系統可以認為是一種基于網絡環境的專家系統，它能夠從有限信息中學習用戶的偏好，進而從備選項目中向用戶做出個性化的推薦。隨著人工智能、數據挖掘等相關領域的發展，網絡上的資源信息規模急劇增長，網絡上的信息服務也逐漸向人性化、個性化、智能化等方向發展，推薦系統成為其中的一個研究熱點。

2 國內外研究現狀

推薦系統的起源可以追溯到其他領域的工作，最早的推薦系統雛形可以認為是1979年在認知科學領域中Elaine Rich提出的Grundy系統[2]，其中提出了所謂的stereotypes機制用于建立用戶的模型，并通過模型向用戶推薦相關書籍。此后，隨著信息檢索和信息過濾研究的發展，推薦系統成為其中的研究熱點之一，得到了許多著名研究機構和研究者的關注，出現了較多的研究組織和應用實例：由Xerox Palo Alto研究中心開發的實驗系統Typestry是目前公認的第一個真正意義上的推薦系統，其中提供了電子文檔的存儲、用戶評價存儲和協同過濾推薦服務。但是，Typestry要求每個用戶自己確定與自己興趣愛好相似的其他用戶，使得用戶之間必須相互了解彼此的興趣愛好，所以，該推薦系統比較適合于用戶群體比較小的場合[3]。由美國Minnesota大學計算機科學與工程系的John Riedl教授領導的GroupLens研究小組于1996年開發出了使用自動協同過濾技術的新聞組信息推薦系統，并提供在互聯網上公測；目前，該小組的研究范圍包括推薦算法設計與實現、協同過濾方法的應用等；部分技術已進入商業應用領域。INDIANA大學計算機科學系主持開發的PHOAKS系統項目主要用于幫助用戶在WWW上查找相關的信息。20世紀90年代中期，陸續出現了一些關于協同過濾方面的文章[4，5]，推薦系統成為獨立的研究領域，得到廣泛關注。

1996年召開的協同工作會議CSCW’96、1998年召開的第十五屆國際人工智能會議AAAI-98等開始將電子商務推薦系統作為重要的會議主題。2006年9月12日-13日，ACM和SIGCHI在西班牙的Bilbao組織召開了名為“Recommender’06:The Present and Future of Recommender System”的研討會，對推薦系統的技術方法、應用領域、發展前景進行了深入的交流。2007年10月19日-20日ACM在美國的Minnesota組織召開了第一屆推薦系統國際會議Rec-Sys2007，為推薦系統相關研究人員提供了一個良好的交流平臺。RecSys2008于2008年10月23日-25日在瑞士Lausanne召開。

目前關于推薦系統方面的理論研究主要集中在以下幾個方面：

(1)推薦技術和算法，推薦技術主要包括基于內容過濾、協同過濾推薦技術、基于知識的推薦技術。

基于內容過濾是信息檢索領域的重要研究內容[6]，通過學習用戶已經評價過的項目的特征來獲得對客戶興趣的描述，或者說：基于內容過濾的推薦系統分析資源的內容信息，根據用戶以往的興趣建立用戶特征(Profile)，然后根據用戶特征與新的資源內容之間的相似性，向用戶提供推薦。在基于內容過濾的推薦系統中，Bayes模型、遺傳算法及其它一些機器學習技術也被用于用戶特征的建立。比較具體代表性的基于內容過濾的推薦系統包括：Malone等人提出的電子郵件系統信息過濾系統；Stanford大學提出的信息過濾工具SIFT；音樂過濾系統LyricTime等。

協同過濾推薦技術無須建立用戶特征，而是根據其他類似用戶對項目的喜好向用戶進行推薦。由于協同過濾方法無須分析資源的內容信息，因而自誕生之后，就獲得了比基于內容過濾方法的推薦技術更為廣泛的應用。目前關于協同過濾技術方面的研究主要集中在算法的改進方面。

基于知識的推薦技術：通過推斷用戶的需求來做出推薦，這種推薦系統具有特定項目滿足特定用戶需要的知識，由此推斷出用戶與推薦項目之間的關系。

(2)推薦質量控制與度量。由于在網絡環境下，推薦系統處理的數據具有高維、稀疏等特點，因此一方面，如何有效地提高推薦質量(如：推薦系統的實時性，推薦結果的準確性等)是目前的一個研究熱點；另一方面，推薦系統評價指標和體系也是重要的研究內容。

(3)推薦系統中的隱私保護及安全問題。由于推薦系統需要分析用戶的偏好及行為特征，所以在提供推薦服務的同時如何有效地保護用戶隱私、如何有效地保障系統安全等問題是值得研究的。

推薦系統最早的應用領域是電子商務系統[7]，這也是其最為成功的應用領域之一。推薦系統在電子商務系統中，模擬商家銷售人員向用戶提供商品推薦，提高用戶搜索商品的效率，商家也可以通過推薦系統保持有效客戶。目前幾乎所有的大型電子商務系統，如Amazon.com,eBay等，都不同程度地使用了各種形式的推薦系統。

隨著推薦系統研究的深入，推薦系統的應用領域也得到了廣泛拓展[8]，如圖書館的聯機數據檢索、網絡信息檢索、數字電視節目收看等各種信息服務都開始或已經應用了相關推薦算法。

3 研究展望

目前推薦系統研究雖然仍然存在一些不足：(1)缺乏個性化的推薦，很多的推薦結果是針對所有客房的，是非個性化的推薦。造成這種現象的原因是在網絡環境下沒有描述用戶的興趣偏好及其動態變化情況的有效機制和模型；(2)推薦系統的自動化、智能化程度較低，大多數的推薦系統都需要用戶與計算機的交互，由用戶輸入自己的興趣信息，推薦系統不能通過保存的客戶自動推理、學習用戶的興趣，從而在面對海量的文獻數據，推薦系統無法高效、快捷地搜索出用戶真正感興趣的文獻等；(3)電子商務應用領域的推薦技術和理論研究成果較多，但網絡環境下科技文獻共享領域的推薦技術和理論研究成果尚不多見。本課題擬針對網絡環境下的文獻共享這一課題開展用戶偏好描述、文獻協同推薦等內容開展深入的研究，以促進網絡環境下的文獻快速共享方法進一步走向實際。

目前下列幾個方面的內容值得進一步開展更多的研究。(1)研究有效的基于數據挖掘技術的協同過濾推薦策略和方法——源于數據的高維、稀疏、海量特性。由于網絡上資源信息非常龐大、且呈指數規模在不斷增長，若采用傳統的協同過濾推薦方法，在整個用戶空間、資源信息空間進行搜索的話，這是非常耗時的，是無法滿足在線論文共享需求的。因此，考慮將數據挖掘技術(關聯分析、聚類)引入到推薦系統中，實現對用戶空間、資源信息空間進行降維和提高傳統的協同過濾推薦方法效率的目的，以提高推薦系統的實時性、針對性。第一種情況——盡可能準確，首先從用戶過去的行為數據中，提取出用戶行為模式(聚類、分類)、行為特征、偏好信息，然后在推薦過程中通過度量用戶偏好與項目之間的相似度，有針對性地推薦用戶真正感興趣的信息。第二種情況——盡可能完全，首先對用戶指定的搜索關鍵詞適當泛化，然后以泛化后的關鍵詞進行搜索。如：給定關鍵詞“中科大”，則應將“科大/中國科大/中國科技大學/中國科學技術大學”作為類似關鍵詞進行搜索，還比如關鍵詞“數據挖掘”，則“知識發現”也應該作為類似關鍵詞進行搜索，搜索結果同樣也可能是用戶感興趣的內容。這種泛化，其本質是將類似關鍵詞的搜索結果同時提供給用戶；另一種含義是將關鍵詞所屬的類作為新的搜索關鍵詞，如有關鍵詞“本田”，則可以將所有屬于“轎車”類別的信息提供給用戶。(2)實現基于語義的信息檢索及基于語義的推薦技術。(3)用戶隱性偏好挖掘。早期的推薦系統只需通過用戶的直接輸入的關鍵詞等獲取簡單的用戶信息，隨著推薦系統應用領域的不斷擴展，需要考慮用戶多興趣、用戶興趣的動態變化、特別是用戶的隱性偏好需求。(4)隱私保護問題。

[1]A.M.Rashid.Mining Influence in Recommender Systems[M].Minneapolis,Minnesota:University of Minnesota,2007.

[2]E.Rich.User Modeling via Stereotypes[J].Cognitive Science,1979,3(4).

[3]D.Goldberg,D.Nichols,B.M.Oki，et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12).

[4]W.Hill,L.Stead,M.Rosenstein,et al.Recommending and E-valuating Choices in a Virtual Community of Use[C].In:proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems(CHI95),Denver,Colorado,USA,ACM Press,1995.

[5]U.Shardanand,P.Maes.Social Information Filtering:Algorithms for Automating ‘word of Mouth’[C].In:Proceedings of ACM CHI’95 Conference on Human Factors in Computing Systems,Denver USA,ACM Press,1995.

[6]N.Belkin,B.W.Croft.Information Filtering and Information Retrieval:Two Sides of the Same Coin?[J].Communication of the ACM,1992,35(12).

[7]J.B.Schafer,J.A.Konstan,J.Riedl.E-Commerce Recommendation Applications[J].Data Mining and Knowledge Discovery,2001,5(1).

[8]B.P.S.Murthi,Sumit Sarkar.The Role of the Management Sciences in Research on Personalization.ManagementScience,2003,49(10).

C931.6

1002－6487（2011）09－0168-02

國家社會科學基金資助項目(09BTQ019)；教育部人文社會科學研究青年項目基金資助(07JC870006，09YJC870001)；安徽高校省級自然科學研究重大項目資助(KJ2010ZD01)

徐勇（1978-），男，安徽涇縣人，博士，副教授，研究方向：數據庫技術、數據挖掘、信息安全。

（責任編輯/浩天）