999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于海量數(shù)據(jù)和Web挖掘的個性化推薦系統(tǒng)研究

2015-04-02 05:28:07吳海霞李慧芳
關鍵詞:用戶信息系統(tǒng)

吳海霞,連 瑋,李慧芳

(長治學院計算機系,山西長治046011)

基于海量數(shù)據(jù)和Web挖掘的個性化推薦系統(tǒng)研究

吳海霞,連 瑋,李慧芳

(長治學院計算機系,山西長治046011)

推薦系統(tǒng)是學術界和工業(yè)界研究熱門的課題,能有效解決互聯(lián)網(wǎng)海量數(shù)據(jù)中“信息過載”.首先介紹個性化推薦技術的發(fā)展、應用和相關問題,重點分析多種經(jīng)典的推薦算法及其特點,并給出推薦系統(tǒng)的性能評價方法與指標,最后對個性化推薦的未來發(fā)展做出展望。

個性化推薦;海量數(shù)據(jù);Web挖掘;推薦算法

互聯(lián)網(wǎng)加速了電子商務的應用和推廣,促進了商業(yè)模式的變化。傳統(tǒng)商業(yè)認為,抓住20%主流市場的產(chǎn)品或服務就能占據(jù)絕大部分市場,但根據(jù)Chris的長尾理論[1-2],被忽略和輕視的80%反而更加重要。如果匯聚大量市場價值較小的部分,有效開發(fā)“長尾市場”,將會創(chuàng)造極大的經(jīng)濟和社會價值,也能更好滿足不同用戶群的個性化需求。

Web2.0的出現(xiàn)促進了社會網(wǎng)絡的發(fā)展和社交媒體的成熟,用戶通過論壇、博客、微信、朋友圈等豐富的應用產(chǎn)品積極參與各種在線活動:發(fā)表日志、上傳照片、轉(zhuǎn)載微博、分享鏈接或評論信息。在充滿海量數(shù)據(jù)的社交網(wǎng)絡中,用戶通過UGC(Us?er Generated Content)的信息資源創(chuàng)作模式,既是信息的分享者和消費者,還是信息的生產(chǎn)者和創(chuàng)造者。作為世界上規(guī)模最大的公共數(shù)據(jù)源,Web文檔在以每天數(shù)十億的速度持續(xù)增長。在電子資源極度豐富的數(shù)據(jù)時代,“信息過載”日益嚴重,用戶往往迷失其中而無法確定真正需求和選擇,即“選擇困難癥”日漸明顯,需要一種快速搜索和定位的機制。

Web數(shù)據(jù)挖掘基于信息檢索、人工智能、機器學習和知識管理技術,分析大量文檔獲得隱含知識和模式,幫助人們搜索信息并制定決策[3]。近年出現(xiàn)的推薦技術,如同善解人意的私人秘書,根據(jù)用戶興趣偏好和行為習慣自適應地發(fā)現(xiàn)和挖掘,進行分析和推薦。由于媒體的碎片性和文化的多樣性,用戶需求日趨個性化,推動著高效能、高精度、高智能的推薦系統(tǒng)快速發(fā)展。

1 推薦系統(tǒng)簡介

推薦是根據(jù)用戶資料信息、歷史行為記錄及物品的特征屬性來分析用戶對物品的偏好而生成個性化推薦列表,為用戶提供信息推薦的一種過濾和挖掘技術。推薦系統(tǒng)是一個綜合眾多學科的研究領域,涉及統(tǒng)計分析、信息檢索、數(shù)據(jù)挖掘、機器學習、人工智能、自然語言處理、語義網(wǎng)、流數(shù)據(jù)、市場營銷等[4]。

1.1 推薦系統(tǒng)的特點與目標

推薦系統(tǒng)與搜索引擎技術在處理對象、檢索方法、某些評測指標等方面非常相似,但二者存在顯著區(qū)別。搜索引擎對數(shù)據(jù)和信息進行連接,而推薦引擎對人與信息進行精準連接實現(xiàn)完備的服務。Google、Baidu、Yahoo等搜索引擎被動地檢索文檔、商品、音樂等,側(cè)重于數(shù)據(jù)的查詢,結果固定而龐雜,與用戶對象無關聯(lián);推薦引擎主動為顧客推薦好友、影片、服務等,注重知識的發(fā)現(xiàn),結果動態(tài)變化,與興趣相匹配,充滿個性化。但推薦引擎開發(fā)難度大,不僅需要龐大的數(shù)據(jù)庫、快速的搜索算法,還需要合理的用戶模型和精準的預測決策算法。

推薦系統(tǒng)的基本框架為信息獲取、用戶建模、模型學習、行業(yè)應用、實驗評測和模型優(yōu)化。系統(tǒng)以用戶為中心主動獲取相關信息,一般為隱式獲取而無需用戶參與。利用機器學習等技術建立合理模型,判定用戶的興趣偏好和行為傾向,構建支持用戶決策的系統(tǒng),進行信息過濾和智能推薦,為大規(guī)模用戶提供高質(zhì)量服務,甚至超越本領域?qū)<业慕?jīng)驗和決策。個性化推薦服務具有很強的針對性、主動性、智能性。

推薦系統(tǒng)追求過程的快捷性與智能化,推薦效果的精準化、個性化和信任度。比如,系統(tǒng)從數(shù)十萬部影片中即時自動抽取一批符合用戶口味的精彩作品,用戶輕松選擇之后獲得滿意體驗和真誠反饋。通過高匹配度和個性化的推薦,將瀏覽和訪問的潛在用戶轉(zhuǎn)變?yōu)橘徺I者,迅速擴大市場,產(chǎn)生巨大價值。因此,推薦系統(tǒng)最大的目標是基于合理的預測模型給出接近用戶真實度的推薦。

根據(jù)個性化程度分為非個性化、半個性化和完全個性化推薦系統(tǒng)。第一種基于手工推薦或統(tǒng)計分析技術為每個用戶提供相同的推薦,像專家推薦或銷量排行;第二種根據(jù)不同用戶當前的瀏覽或購物行為產(chǎn)生相應推薦;第三種結合當前用戶和其他用戶歷史信息及當前行為推薦,個性化程度高。

1.2 推薦系統(tǒng)的發(fā)展與應用

推薦系統(tǒng)源于向消費者推薦物品的真實場景,在電子商務領域應用最為成熟。像谷歌、亞馬遜、阿里、淘寶、京東、唯品、eBay、CDNow、YouTuBe[3]等網(wǎng)站都部署了不同形式的推薦系統(tǒng),頁面動態(tài)提供新品、暢銷商品和特價推薦等導購服務,顯示你可能感興趣的東西等推薦指導,這些網(wǎng)站都以卓越的推薦技術取得了較大的經(jīng)濟效益和良好的用戶體驗與反饋。有數(shù)據(jù)顯示,三分之一的用戶會根據(jù)網(wǎng)站推薦購買商品。

互聯(lián)網(wǎng)企業(yè)越來越重視推薦系統(tǒng)對于自身業(yè)務的巨大提升作用。中國的高科技企業(yè)百度、華為、騰訊和百合網(wǎng)等都非常重視利用推薦技術構建業(yè)務主干,展現(xiàn)出雄厚的技術實力,發(fā)揮著巨大影響力。如騰訊和新浪微博提供了“可能感興趣的人”的推薦服務,牛贊網(wǎng)和今日頭條建立計算模型挖掘用戶“興趣DNA”以精準推薦資訊。基于社交網(wǎng)絡的主題檢測、信息檢索、好友推薦等都是學術界和工業(yè)界共同研究的重要課題,旅游宣傳和在線廣告等方面也有廣泛的應用和豐富的成果。美國的Oren Etzioni對西雅圖餐館評論數(shù)據(jù)進行整理和挖掘,開發(fā)關于餐館的推薦服務RevMiner[5]。

推薦技術在十多年間發(fā)展迅速,應用廣泛,體現(xiàn)出巨大商業(yè)價值、文化價值和社會價值。如音樂、歌曲、視頻、電影、電視劇、游戲等多媒體或娛樂產(chǎn)品,餐飲、住宿、交通等社會服務,網(wǎng)站、微博、論壇、社區(qū)等社交平臺,職業(yè)推薦、學習資源推薦[6]、高考志愿推薦[7]等教育推薦,新聞資訊、旅游產(chǎn)品、會議推薦、移動應用,及各種知識管理等應用。其中在搜索引擎、社交媒體、金融服務等領域應用最廣。成功的推薦應用包括Amazon的Kin?dle電子書、PanDoRa音樂電臺、Hulu視頻推薦、百度的“音樂隨心聽”私人頻道,“猜你喜歡”新聞資訊頻道等[8]。圖書、音樂和電影三個領域?qū)崿F(xiàn)了較高準確度的推薦,NETFLIX的Cinematch電影推薦系統(tǒng)是最典型的智能預測系統(tǒng)。

當前知名社交平臺很多,國外的Twitter、Face?book、Myspace、Epinions、Lindedin、Foursquare等,國內(nèi)的人人網(wǎng)、豆瓣網(wǎng)、開心網(wǎng)、騰訊和陌陌等。社交推薦利用社交網(wǎng)絡用戶屬性匹配來提高推薦精度。百合網(wǎng)能夠分析用戶行為,利用信息抽取和情感分析的雙向匹配算法實現(xiàn)自動匹配,并非簡單的單向推薦。建立有效的隱私保護機制,增加社會信任度是社交推薦的重點和難點。

個性化閱讀朝著個性化、移動化和社會化的方向發(fā)展,個性化閱讀產(chǎn)品能按個人興趣推薦合適的新聞,主要有自主訂閱、算法推薦和基于協(xié)同發(fā)現(xiàn)的朋友推薦三種途徑。主流產(chǎn)品有Flipboard、Zite、網(wǎng)易云閱讀、今日頭條、Zaker、指閱、鮮果等。推薦算法對檢索出的大量內(nèi)容做深度提取、摘要、去重和分類。此外,有的還嘗試精準廣告投放,根據(jù)用戶閱讀興趣推薦廣告。

面向大規(guī)模定制的個性化推薦[9]利用智能化技術引導客戶,以動態(tài)訂單贏得市場,改變了原始大規(guī)模生產(chǎn)的產(chǎn)品單一、周期長、費用高、時間和成本不可控、顧客易流失等問題。電子商務、生產(chǎn)制造、加工服務等都趨于個性化定制這一新穎的生產(chǎn)和服務方式,助于企業(yè)進入新的市場,吸引優(yōu)質(zhì)顧客,取得客戶滿意度。

知識圖譜是智慧搜索和個性化推薦的基礎,百度的知識圖譜推薦[5]引擎依托后臺強大的知識圖譜庫,在推薦解釋、關聯(lián)挖掘、數(shù)據(jù)覆蓋等方面表現(xiàn)很好,2013年上線的“知心”是擁有著技術壁壘的知識圖譜產(chǎn)品。此外,移動設備上應用商店的推薦、移動增殖業(yè)務的推薦等新的服務都已出現(xiàn)。

1.3 推薦系統(tǒng)的關鍵問題

推薦系統(tǒng)開發(fā)過程中存在一些重要因素和問題,影響并推動推薦技術的進展。

(1)數(shù)據(jù)稀疏(data sparsity)用戶和項目數(shù)量級很大時交集會很小,較多用戶選擇和評價的項目極少,形成數(shù)據(jù)稀疏問題。如Netflix電影評分數(shù)據(jù)集中有近99%數(shù)據(jù)缺失,盡管總評價率很高,但分散于大量用戶和項目中,平均每個項目和用戶評價率不高。因此需要有效辦法解決數(shù)據(jù)稀疏性。

(2)冷啟動(cold start)也叫First Rater問題,當新用戶進入系統(tǒng)尚未選擇項目也無評價歷史,或新產(chǎn)品未被選擇和評價時,相應配置為空,系統(tǒng)沒有足夠信息做出推薦,即為冷啟動。現(xiàn)有許多解決方案,如某些混合推薦,結合簡單的用戶信息(如年齡、民族、職業(yè)等),參考在其他網(wǎng)站的記錄,解決本網(wǎng)站的冷啟動。社交推薦是幫助系統(tǒng)冷啟動的重要因素。

(3)擴展性(scalability)盡管數(shù)據(jù)稀疏,但大量信息使得計算成本很高??梢钥紤]設計并行性好的算法或使用增量推薦,推薦算法在已有基礎上僅計算數(shù)據(jù)增加的部分,類似于數(shù)學和物理中的微擾理論。

(4)動態(tài)性(dynamic)大多用戶興趣廣泛且動態(tài)變化,評分情緒也隨時間波動,而多數(shù)算法忽略時間戳因素。如何利用新舊偏好和評分信息合理預測規(guī)律并精確發(fā)現(xiàn)用戶口味顯得非常重要,推薦中要考慮時間和情緒等因素的影響,推薦結果符合用戶動態(tài)興趣和最新需求,體現(xiàn)時效性。

(5)復雜性(complexity)推薦策略單一時個性化程度和用戶滿意度不高。譬如,用戶在網(wǎng)站收藏的音樂越多,獲得推薦越精準,在商城的購買和評論數(shù)越多,推薦質(zhì)量越高,通過相關數(shù)據(jù)還可預計將走紅的明星、專輯、樂隊或作家;但如果顧客收藏過多的圖書或音樂,準確性反而下降,因為顧客可能喜歡不同類型和多元風格,算法無法實現(xiàn)準確匹配。若組合多種策略則會提高推薦結果的個性化和用戶滿意度。

2 個性化推薦算法

個性化推薦系統(tǒng)利用物品信息、用戶資料、社交關系、人口統(tǒng)計信息、信任度、社會化標簽[10]等不同信息源為用戶提供預測和推薦,推薦算法起到重要作用。不同的推薦方法在不同行業(yè)、場景和數(shù)據(jù)集中表現(xiàn)出各自特點?;趦?nèi)容的推薦和協(xié)同過濾應用最廣,混合推薦是研究的熱點和趨勢。

2.1 基于關聯(lián)規(guī)則(Association Rule)推薦

關聯(lián)規(guī)則是在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中常用的技術,以關聯(lián)規(guī)則為基礎,把已購商品作為規(guī)則頭,規(guī)則體為推薦對象,發(fā)現(xiàn)數(shù)據(jù)集中項之間可能相關性。關聯(lián)規(guī)則的發(fā)現(xiàn)算法有Apriori、FPTree、HP等[3],購物籃中啤酒與尿布的關聯(lián)最為經(jīng)典。這種推薦的突出特點是不需領域知識就能發(fā)現(xiàn)用戶興趣,但規(guī)則提取較難、推薦效率和個性化較低。關聯(lián)規(guī)則的發(fā)現(xiàn)非常耗時,一般離線進行,當規(guī)則數(shù)量累積到一定程度,不再大量出現(xiàn)新規(guī)則時,即產(chǎn)生出較為準確而高效的推薦。

2.2 基于內(nèi)容(Content)的推薦

基于內(nèi)容的推薦基于物品間的關聯(lián)相似性規(guī)則,不需用戶評價。主要思想是:抽取出推薦對象的內(nèi)容特征和用戶的興趣特征,根據(jù)其他用戶的歷史記錄,計算當前用戶與候選項目間的匹配程度,為用戶推薦相似物品。即三個步驟:建立用戶興趣模型、建立項目特征向量、通過相似度和匹配度推薦項目。其中項目特征可采用基于tf-idf權重的向量空間模型(VSM)表示,用戶興趣模型可用決策樹、貝葉斯分類算法、神經(jīng)網(wǎng)絡等機器學習方法來獲取。這一算法適于文本、新聞、日志和網(wǎng)頁等的推薦。優(yōu)點體現(xiàn)在:只要獲得物品屬性即可進行新物品推薦,無需大規(guī)模用戶也可達到一定精度,推薦結果與用戶偏好較為吻合,但缺乏新穎度和驚喜度,有時存在數(shù)據(jù)稀疏、冷啟動、過擬合、擴展難的問題,對于視頻、音樂等多媒體信息的特征難以提取,推薦困難。

2.3 協(xié)同過濾(Collaborative Filtering)推薦

協(xié)同過濾是一種源于集體智慧的典型方法,推薦效果好,維護代價低。基本思想是:獲取用戶對物品偏好程度的信息,計算用戶間或物品間的相似度,進行個性化推薦。相似度計算可采用Jaccard系數(shù)、cos夾角余弦相似度、Pealson關聯(lián)系數(shù)、向量空間模型、關聯(lián)性反饋(Rocchio)[2]等方法,根據(jù)效用矩陣的數(shù)據(jù)得到項目或用戶相似度。協(xié)同過濾分為基于內(nèi)存(memory-based)和基于模型(modelbased)的協(xié)同過濾,以及近來研究較多的基于圖的協(xié)同過濾。

(1)基于內(nèi)存的協(xié)同過濾

也稱為基于鄰居集(neighborhood)的協(xié)同過濾,分為基于項目(ItemCF)和基于用戶(UserCF)的協(xié)同過濾?;陧椖康膮f(xié)同過濾通過分析項目間的相似性,以目標用戶已購買且評分較高的項目為參考,把相似項目推薦給目標用戶。像Amazon和YouTuBe的推薦系統(tǒng),利用用戶評分離線計算商品相似度,根據(jù)購物車商品列表找出關聯(lián)度最高的商品推薦給用戶。優(yōu)點是使用方便,結果易解釋,新的數(shù)據(jù)以增量更新的方式加入時不需考慮被推薦物品的內(nèi)容。缺點表現(xiàn)為較依賴用戶評價,數(shù)據(jù)稀疏時表現(xiàn)差,不能處理新用戶和新產(chǎn)品。而基于用戶的協(xié)同過濾根據(jù)用戶相似性找到與目標用戶有共同偏好的鄰居用戶集,再根據(jù)鄰居用戶的歷史信息給出對目標用戶的推薦。其前提是假設相似用戶感興趣的項目,目標用戶也有可能感興趣,即若A和B用戶對一些項目評分相似,視二者為鄰居用戶,對A未評分而B已評分的項目,可認為A也會有相同評分。Top-N推薦和基于核方法[11]的推薦都屬這類協(xié)同過濾,并高于一般方法的推薦性能和質(zhì)量。

(2)基于模型的協(xié)同過濾

這類方法并不計算相似度,而是利用神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡、聚類、線性回歸、基于最大熵、馬爾可夫決策過程[9]等機器學習和統(tǒng)計方法建立預測模型,采用LDA或SVD等降維技術[12],根據(jù)已有用戶評價數(shù)據(jù)建立模型并進行評價預測。這種方法對稀疏數(shù)據(jù)的處理能力優(yōu)于基于內(nèi)存的方法,預測結果更好,缺點是建模耗時,部分模型的預測結果不易解釋。

(3)基于圖的協(xié)同過濾

把用戶和項目作為頂點構造二部圖(Bipartitegraph),利用隨機游走的方法計算頂點關聯(lián)情況和相似性。密集關聯(lián)圖比稀疏關聯(lián)圖表現(xiàn)要好。

總之,協(xié)同過濾的優(yōu)點是系統(tǒng)無需存儲和維護物品本身的內(nèi)容和屬性,能有效緩解數(shù)據(jù)稀疏,增強系統(tǒng)擴展性,提高預測精度和推薦新穎性。不足在于建模復雜且需要周期性更新,降維易致信息損失,難以提供推薦解釋。人口統(tǒng)計推薦系統(tǒng)是協(xié)同過濾的變種,在沒有用戶評分數(shù)據(jù)的初始階段,人口統(tǒng)計數(shù)據(jù)也可啟動推薦。

2.4 基于知識(Knowledge-Based)的推薦

基于知識的推薦旨在利用領域知識、物品功能和用戶興趣需求進行邏輯推理,提供推薦信息,包括基于約束的推薦、基于實例的推薦、基于知識推理的推薦[13]。優(yōu)點是不依賴用戶的歷史行為數(shù)據(jù),能夠解決冷啟動問題,可解釋性強;缺點是推薦質(zhì)量取決于知識獲取和質(zhì)量,推薦是靜態(tài)的。

2.5 基于情境(Context-Based)的推薦

情境也稱情景,指實體的行為或上下文信息。用戶情境包括內(nèi)部和外部情境,內(nèi)部情境指性別、年齡、學歷、職業(yè)等與人有關的信息,而外部情境指可由物理設備提供的相關信息,如時間、位置、溫度、網(wǎng)速、設備參數(shù)等[14]。情景之間的聯(lián)系很大程度上反映了項目間的聯(lián)系[15]。根據(jù)用戶情境信息對歷史記錄中不相關的偏好信息過濾,可降低算法復雜度,減少計算時間,提高推薦準確度。不足在于:當存在較多情境信息時,無法預判各屬性的效用和價值,因此不同屬性的權重不確定,各種情境信息之間界限模糊,可以根據(jù)情境間的距離構建模糊相似矩陣,采用模糊聚類的方法進行推薦。

2.6 混合(Hybrid)推薦

推薦算法在不同應用背景中會體現(xiàn)出不同的優(yōu)缺點,實際應用中大都采用多種推薦方法的組合?;趨f(xié)同過濾和基于內(nèi)容的組合最為常用,基于內(nèi)容方法可以解決協(xié)同過濾中的“新項目”問題,而協(xié)同過濾可降低基于內(nèi)容算法的過擬合問題[15]。混合推薦的設計思路有整體式、并行式和流水線式[8],使用切換、交叉或加權等特別的策略把多種推薦方法的結果進行整合。Netflix Prize競賽也屬于混合推薦,GroupLens項目組創(chuàng)辦的MovieLens將協(xié)同過濾和基于關聯(lián)規(guī)則推薦相結合向用戶推薦感興趣的電影,作為在線計算系統(tǒng),復雜度隨著用戶增多而增大。

混合推薦最明顯的優(yōu)勢在于可以取長補短,缺點是組合的條件和前提不易判斷,方法選取和組合順序較難確定,權重比例難以設置和優(yōu)化,但混合推薦的效果明顯優(yōu)于傳統(tǒng)或純粹的某種推薦。

3 推薦系統(tǒng)的性能評測

3.1 評測方法

推薦評測一般有在線(Online)和離線(Offline)兩種方法。離線實驗一般采用交叉驗證[16]按一定比例將數(shù)據(jù)集分為訓練集和測試集,前者用于構造模型供學習和挖掘,后者用于驗證和測試模型性能。該方法利用歷史數(shù)據(jù)測試,不需真正用戶參與,成本低,適于不同推薦算法的比較和過濾;由于批量方式處理對數(shù)據(jù)量和算法時間要求不多,沒有及時加入最新數(shù)據(jù),計算容易過時,且缺乏用戶參與,預測質(zhì)量難以保證,在完成離線實驗后還需進行在線實驗[13]。

在線實驗是根據(jù)用戶實時反饋或事后問卷調(diào)查來衡量推薦系統(tǒng)的表現(xiàn),能響應即時事件和用戶交互。優(yōu)點在于測試到系統(tǒng)對用戶行為的影響,根據(jù)相關指標和用戶主觀感受對錯誤進行彌補;但其成本高,測試范圍和次數(shù)、算法復雜性和數(shù)據(jù)量都受到限制。還有一種接近在線(Nearline)計算,類似在線計算,但不強求實時完成。

3.2 實驗數(shù)據(jù)

數(shù)據(jù)集(dataset)是推薦系統(tǒng)進行訓練和測試的對象,有真實數(shù)據(jù)集、模擬數(shù)據(jù)集和半模擬數(shù)據(jù)集三種。在真實數(shù)據(jù)集上的實驗會發(fā)現(xiàn)有趣的現(xiàn)象,揭示隱藏的規(guī)律。各領域的數(shù)據(jù)可借助網(wǎng)絡爬蟲自動收集,或從相關平臺下載,有的用戶和項目達數(shù)萬到上百萬數(shù)量級。現(xiàn)有許多標準數(shù)據(jù)集,最為豐富的電影數(shù)據(jù)集包括GroupLens小組的Moviel?ens,HP/Compaq DEC研究中心的EachMovie,NET?FLIX網(wǎng)站競賽數(shù)據(jù)NETFLIX,瑞典最大的電影推薦社區(qū)Filmtipset。其他還有Yahoo音樂數(shù)據(jù)集,Springer的文獻數(shù)據(jù)集CiteULike,用于KDD-CUP競賽的騰訊微博數(shù)據(jù)集,Cai-Nicolas Ziegler的BookCrossing圖書數(shù)據(jù)集,加州大學伯克利分校Ken Goldberg的 JesterJoke笑話集,Usenet News?groups新聞組、亞馬遜在線商品的評分數(shù)據(jù)集、UCI知識庫等,可供進行實驗預測和推薦。

數(shù)據(jù)集的使用可能存在一些問題,如數(shù)據(jù)規(guī)模對內(nèi)存開銷的要求、過多數(shù)據(jù)缺失給預測帶來困難、訓練數(shù)據(jù)與測試數(shù)據(jù)之間的差異、諸多因素對評分的影響、訓練數(shù)據(jù)中評分數(shù)量的不平衡等。

3.3 評價指標

利用Matlab、Java等軟件可以模擬和測試實驗結果。信息檢索中的召回率可用于描述用戶喜歡的項目可以被系統(tǒng)發(fā)現(xiàn)并推薦給用戶的可能性。此外,常用的推薦評測指標有推薦效率、預測準確度、覆蓋率、多樣性、新鮮度、用戶滿意度等。

(1)推薦效率(Efficiency)

推薦系統(tǒng)對實時性有較高要求,但基于海量數(shù)據(jù)的復雜情況,推薦效率會受制約和影響,采用基于物品的關聯(lián)算法和多種降維方法可降低在線計算時間。

(2)準確度(Accuracy)

在回學校的路上,阿孜姑老師悄悄告訴我:“張老師,真的謝謝你!這名學生前天哭著找我,說想請假回家看病,但我們這里比較落后、保守,她家里更是經(jīng)濟困難,我擔心她一個孩子回家也解決不了,怕再出什么問題。我想了很久都沒辦法,只好來找你幫忙。沒想到你能帶我們?nèi)フ以t(yī)生幫她看病,又買藥給她,又買水果給她,還安慰她,減輕了她生病的心理壓力。你對我們這么好,真不知怎么感謝你?!蔽倚χf:“感謝你們對我的信任,如果有什么我可以做的,你們盡管說,我會很高興的?!被氐綄W校,這位一路沉默不語的女生竟也主動開口,用并不標準的普通話對我說:“謝謝老師!我先把東西拿回宿舍,老師再見?!?/p>

準確度即命中率,衡量系統(tǒng)預測用戶對項目興趣偏好的能力,包括分類準確度、預測準確度和排序準確度等。準確率、召回率、F指標和ROC曲線都是度量分類準確度的重要指標[17]。量化預測準確度的指標有平均絕對偏差(MAE),均方根誤差(RMSE)、平均錯誤方差(MSE)、平均預測誤差(MPE)。前兩種最常用,MAE的值越小,預測精度越高,推薦質(zhì)量越高;RMSE表明實際觀測值和預測值之間的平均誤差水平。

(3)覆蓋率(Coverage)

覆蓋率表征系統(tǒng)挖掘長尾的能力,用推薦對象在推薦列表中出現(xiàn)次數(shù)的分布來描述,包括種類覆蓋率、用戶覆蓋率。種類覆蓋率即被推薦項目占所有候選項目的比例,用戶覆蓋率指獲得推薦結果的用戶比例。

(4)多樣性(Diversity)

多樣性衡量系統(tǒng)推薦內(nèi)容的差異。從單個用戶視角推薦項目應具有多樣性,計算項目差異平均值可以獲得;從綜合角度來看系統(tǒng)給所有用戶推薦的項目應該多元豐富,雷同度低,即用戶內(nèi)多樣性和用戶間多樣性。推薦列表多樣性指標可用海明距離評價。

(5)新鮮度(Novelty)

新鮮度指系統(tǒng)為用戶推薦其從未見過但感興趣項目的能力。風格相似的音樂或電影作品循環(huán)播放,用戶會產(chǎn)生疲勞,滿意度和忠誠度會降低;推薦高評價或流行產(chǎn)品易被用戶接受,但推薦價值有限,因為受歡迎程度高的目標無需系統(tǒng)推薦也易獲取。因此,好的推薦列表應包含不太流行、不易找出、有價值的新穎物品,可用平均流行度來衡量,流行度越低,代表推薦項目越新穎。

4 推薦系統(tǒng)的前景

RecSys2013大會提出推薦系統(tǒng)未來發(fā)展的四個方面[5]:異構網(wǎng)絡上的推薦、社交網(wǎng)絡中推薦的隱私問題、移動社會化網(wǎng)絡中的推薦、社交網(wǎng)絡與頂點內(nèi)容的整合。這些問題在不同的應用中,既是機遇也是挑戰(zhàn)。

4.1 推薦系統(tǒng)的未來方向

推薦系統(tǒng)具有豐富的應用領域和場景,具有廣闊的研究方向。

(1)移動終端信息推薦

隨著移動計算和可穿戴設備的迅猛發(fā)展,個人終端日漸豐富,體積越來越小,承載的信息量卻逐漸增大,信息精度需求越來越高?;谝苿討玫臉撕炌扑]等終端推薦成為新的趨勢。

(2)個性化廣告推薦

網(wǎng)民覆蓋率空前攀高,但大眾化廣告對消費者影響越來越低,大部分廣告相關性較差,推薦性能不佳,有的反而對正常的消費和交易帶來干擾和誤導,因此互聯(lián)網(wǎng)廣告與用戶體驗處于對立的尷尬局面。推薦算法與計算廣告相結合,會為用戶帶來有價值且個性化的廣告,確保用戶體驗和反饋。基于點擊率預估的廣告推薦、針對廣告主優(yōu)化的維度推薦等都具有很大潛力。

(3)利用語義網(wǎng)和上下文感知

Web3.0為語義空間時代,基于社交網(wǎng)絡和上下文感知環(huán)境設計推薦系統(tǒng)成為必然。上下文信息包括時間、位置、情感、同伴和群組等,利用不同維度進行多標準評分,可改進推薦準確性。

(4)混合推薦

每種算法都有不同版本變種,在何種場景采用何種組合策略混合推薦能夠取得優(yōu)化,怎樣對優(yōu)秀算法強強結合仍是活躍的方向,已有學者研究模糊推薦、面向群體的推薦、“推薦系統(tǒng)”的推薦[8]。

4.2 推薦系統(tǒng)面臨的挑戰(zhàn)

推薦系統(tǒng)已取得很大進展和成果,但仍面臨許多技術難題和挑戰(zhàn)。

(1)結構化數(shù)據(jù)抽取。用戶評論和網(wǎng)頁信息多為自然語言,非結構化數(shù)據(jù)處理和信息抽取存在困難。如何進行結構化數(shù)據(jù)抽取,如何根據(jù)樣例標注模板并挖掘更多樣例,也是推薦的難點,利用特征工程結合傳統(tǒng)的手工標注、包裝器歸納和自動抽取方法[3]將利于解決這一難題。

(2)防范作弊和攻擊。推薦系統(tǒng)可能會遭強行促銷或抑制項目的惡意攻擊,通過簡單工具可阻斷惡意評價進入系統(tǒng),防止推薦引擎受到干擾,但攻擊策略越來越先進,防范作弊和攻擊是一項長期的挑戰(zhàn)。

(3)實時性。海量數(shù)據(jù)、高速帶寬、移動計算和流數(shù)據(jù)的發(fā)展對實時推薦提出更高要求,如新聞和微博的實時推薦[18]。離線推薦質(zhì)量較高,但往往不能滿足實際需求,而在線推薦會犧牲推薦精度。精準度與實時性形成矛盾,如何權衡或取得雙提高仍待研究。

(4)隱私安全。推薦準確性不斷提高的同時,系統(tǒng)可能會挖掘出更多用戶需求和隱私信息,這種“讀書術”般的應用使用戶產(chǎn)生畏懼和抵觸。NETF?LIX第二輪比賽數(shù)據(jù)集達1億條,包含顧客年齡、性別、居住地、郵編、已觀影片、評級分數(shù)等,所有數(shù)據(jù)均匿名,但用戶仍對年齡、性別、郵編等隱私信息的公開頗有爭議,致使2010年的大賽被迫取消。推薦性能與隱私保護的折衷也是一個嚴峻挑戰(zhàn)。

(5)可解釋性。推薦系統(tǒng)對可解釋性和透明度的要求很高,交互方式和可視化效果等用戶體驗直接或間接影響用戶心理變化、信任度及后續(xù)決策。解釋推薦產(chǎn)生的原因助于用戶理解推薦策略,對系統(tǒng)的建議和決策方案產(chǎn)生信任,但解釋的方式仍需探究。

5 結語

隨著Wi-Fi的廣泛覆蓋,BYOD(Bring Your Own Device)時代已經(jīng)到來,互聯(lián)網(wǎng)也從搜索知識的時代進入發(fā)現(xiàn)知識的時代。推薦系統(tǒng)將會和搜索引擎一樣成為互聯(lián)網(wǎng)產(chǎn)品的基礎應用,成為大型網(wǎng)站的標準配置和基礎功能。

在云計算、海量數(shù)據(jù)挖掘和個性化服務的推動下,推薦的應用延伸至普適環(huán)境,推薦系統(tǒng)的架構、方法和實踐將迅速發(fā)展,在人性化、準確度、安全性諸方面發(fā)揮優(yōu)勢,服務于人們的工作學習和生活。同時,學術界與和工業(yè)界的結合愈加密切,推薦系統(tǒng)的研究與應用將會取得更大突破和更優(yōu)成果。

[1]Chris Anderson.The Long tail[M].NewYork:Random House.2009.

[2]HongzhiYin,Bin Cui,Jing Li,et al.Challenging the Long Tail Recommendation[J].VLDB,2012:896-907.

[3]Bing Liu.Web數(shù)據(jù)挖掘[M].俞勇,譯.北京:清華大學出版社.2009.

[4]項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社.2012.

[5]蔣凡.從RecSys2013大會看推薦系統(tǒng)發(fā)展新趨勢[EB/OL].(2013-10-21)[2014-01-20].http://www.csdn.net/article/2013-10-21/2817244-RecSys-2013-participants-interview2013-10-28.

[6]葉樹鑫,何聚厚.協(xié)作學習中基于協(xié)同過濾的學習資源推薦研究[J].計算機技術與發(fā)展,2014,24(10):63-66.

[7]崔彥曉.高考志愿的個性化推薦方法研究[D].石家莊:石家莊鐵道大學,2013.

[8]Jannach D.推薦系統(tǒng)[M].蔣凡,譯.北京:人民郵電出版社,2013.

[9]劉暢,吳清烈.基于協(xié)同過濾的大規(guī)模定制個性化推薦方法[J].工業(yè)工程,2014,17(4):24-28.

[10]張艷梅,王璐.適應用戶興趣變化的社會化標簽推薦算法研究[J].計算機工程,2014,40(11):318-321.

[11]王鵬,王晶晶,俞能海.基于核方法的User-Based協(xié)同過濾算法[J].計算機研究與發(fā)展,2013,50(7):1444-1451.

[12]AnandRajaraman,Je ff rey D Ullman.Mining of Massive Datasets[M].Cambridge:Cambridge University Press,2011.

[13]陳潔敏,湯庸,李建國,等.個性化推薦算法研究[J].華南師范大學學報,2014,46(5):8-14.

[14]李薈,謝強,秋林.一種基于情景的協(xié)同過濾推薦算法[J].計算機技術與發(fā)展,2014,24(10):42-46.

[15]楊博,趙鵬飛.推薦算法綜述[J].山西大學學報:自然科學版,2011,34(3):337-350.

[16]李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.

[17]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復雜系統(tǒng)與復雜性科學.2009,6(3):1-10.

[18]高明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實時個性化推薦[J].計算機學報,2014,37(4):963-975.

〔責任編輯 高?!?/p>

Survey of Personalized Recommendation System Based on Massive Data and Web Mining

WU Hai-xia,LIAN Wei,LI Hui-fang
(Department of Computer Science,Changzhi University,Changzhi Shanxi,046011)

Recommendation system is a hot topic in industry and academic fields,which can effectively solve information-over?load in massive data on Internet.This paper introduces the development and applications of personalized recommendation technology,including several key problems.The different types of classical recommendation algorithms are analyzed in detail.It also lists the evalu?ation methods and criterions.In the end the future development of personalized recommendation are prospected.

personalized recommendation;massive data;web mining;recommendation algorithm

TP391

A

1674-0874(2015)03-0011-07

2015-03-24

山西省基礎研究青年科技研究基金項目[2012021015];長治學院校級科研項目[201418]

吳海霞(1978-),女,山西晉城人,碩士,講師,研究方向:數(shù)據(jù)挖掘和信息處理。

猜你喜歡
用戶信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 91麻豆国产精品91久久久| 国产视频资源在线观看| 2021亚洲精品不卡a| 真实国产乱子伦视频| 综合色88| 97国产在线视频| 久久婷婷六月| 99精品国产自在现线观看| 亚洲区一区| 国产精品福利在线观看无码卡| 尤物精品视频一区二区三区| 亚洲手机在线| 国产成人无码久久久久毛片| 精品视频在线一区| 成年A级毛片| 67194亚洲无码| 啊嗯不日本网站| 国产一级二级三级毛片| 成人在线观看不卡| 看看一级毛片| 狠狠色婷婷丁香综合久久韩国| 国产真实乱子伦视频播放| 狠狠色婷婷丁香综合久久韩国| 国产在线97| 久久无码高潮喷水| 手机精品视频在线观看免费| 91久久精品国产| 首页亚洲国产丝袜长腿综合| 99视频只有精品| 国产成人一二三| 国产亚洲视频中文字幕视频| 久久国语对白| 天堂av综合网| 亚洲第一成年网| 国产乱人免费视频| 精品撒尿视频一区二区三区| 亚洲天堂久久| 久久网欧美| 成人毛片在线播放| 97亚洲色综久久精品| 欧美国产综合色视频| 91娇喘视频| 日本高清有码人妻| 国产精品午夜电影| 国产成人精品一区二区三在线观看| 五月天丁香婷婷综合久久| 污污网站在线观看| 亚洲视频色图| 女同久久精品国产99国| 97久久精品人人做人人爽| 国产精品内射视频| 欧美成人午夜影院| 国产真实乱子伦精品视手机观看| 久久毛片基地| 91在线国内在线播放老师| 91人人妻人人做人人爽男同| 99视频在线观看免费| 久久精品人妻中文视频| аv天堂最新中文在线| 国产第一页亚洲| 成人欧美日韩| 99久久精品国产麻豆婷婷| 国产精品美人久久久久久AV| 久久精品视频亚洲| 亚洲综合色婷婷| 777国产精品永久免费观看| 中文天堂在线视频| 十八禁美女裸体网站| 国产成人喷潮在线观看| a网站在线观看| 欧美激情成人网| 欧美福利在线观看| 亚洲人成在线免费观看| 国产91视频免费观看| 一级一级特黄女人精品毛片| 亚洲一区二区三区中文字幕5566| 亚洲成人动漫在线| 久久精品亚洲中文字幕乱码| 高h视频在线| 久久精品人人做人人综合试看| 国产清纯在线一区二区WWW| 97视频精品全国免费观看|