潘鈺明志
摘 要:個(gè)性化推薦在中國的高速發(fā)展,大家有目共睹。雖然許多推薦結(jié)果可能不盡如人意,還達(dá)不到很多人期待的結(jié)果。但個(gè)性化推薦相信每一個(gè)人都是有他獨(dú)特的價(jià)值。尊重每一個(gè)活生生的個(gè)體,而不是二八法則中那冷冰冰的數(shù)字。
關(guān)鍵詞:個(gè)性化推薦;協(xié)同過濾
1 個(gè)性化推薦系統(tǒng)的興起
1.1 商業(yè)動(dòng)力
在傳統(tǒng)的營銷策略當(dāng)中,商家主要關(guān)注在20%的商品上創(chuàng)造80%收益的客戶群,往往會(huì)忽略了那些在80%的商品上創(chuàng)造20%收益的客戶群。這就是典型的二八法則的應(yīng)用,而長尾理論的提出,直接打破了傳統(tǒng)的二八法則,這是網(wǎng)絡(luò)時(shí)代興起的一種新理論,最初由美國《連線》雜志(Wired)總編輯克里斯·安德森于04年首先發(fā)表。由于成本和效率的因素,當(dāng)商品儲(chǔ)存流通展示的場地和渠道足夠?qū)拸V,商品生產(chǎn)成本急劇下降以至于個(gè)人都可以進(jìn)行生產(chǎn),并且商品的銷售成本急劇降低時(shí),幾乎任何以前看似需求極低的產(chǎn)品,只要有賣,都會(huì)有人買。
1.2 web2.0時(shí)代的用戶需求
對用戶而言——如何快速獲取自己想要的信息是互聯(lián)網(wǎng)用戶的主要需求之一,在用戶對自己需求相對明確的時(shí)候,用搜索引擎能很方便的通過關(guān)鍵字搜索找到自己需要的信息。但在很多情況下,用戶其實(shí)并不明確自己的需要,或者他們的需求很難用簡單的關(guān)鍵字來表述。又或者他們需要更加符合他們個(gè)人口味和喜好的結(jié)果,因此出現(xiàn)了推薦系統(tǒng)。
1.3 技術(shù)條件
推薦系統(tǒng)應(yīng)該是目前互聯(lián)網(wǎng)世界最常見的一種智能產(chǎn)品形式。它的技術(shù)基礎(chǔ)直接源于一系列的人工智能學(xué)科的成果。雖然五十多年來,人工智能學(xué)科并沒能實(shí)現(xiàn)人工智能的目標(biāo),但一系列成果仍然是值得稱道的。舉個(gè)簡單的例子,其中一個(gè)分支從規(guī)則方法的思路上擺脫出來,尋求利用群體智能,其中一個(gè)方向是基于統(tǒng)計(jì)規(guī)律的思路,而推薦系統(tǒng)中最古老的一個(gè)算法:協(xié)同過濾算法,正好是這么個(gè)思路下的產(chǎn)物。
協(xié)同過濾算法是推薦系統(tǒng)中應(yīng)用最為廣泛的基礎(chǔ)性算法。基于用戶的協(xié)同過濾算法推薦更社會(huì)化,基于物品的協(xié)同過濾算法則更加個(gè)性化,能提供更好的推薦解釋。
2 個(gè)性化推薦系統(tǒng)的算法
2.1 實(shí)現(xiàn)原理
隨著推薦引擎的出現(xiàn),用戶獲取信息的方式從簡單的目標(biāo)明確的數(shù)據(jù)的搜索轉(zhuǎn)換到更高級更符合人們使用習(xí)慣的信息發(fā)現(xiàn)。目前大部分電子商務(wù)和社交網(wǎng)站的推薦引擎的工作原理還是基于物品或者用戶的相似集進(jìn)行推薦。在海量物品和用戶的系統(tǒng)中,推薦引擎的計(jì)算量是相當(dāng)大的,要實(shí)現(xiàn)實(shí)時(shí)的推薦務(wù)必需要建立一個(gè)推薦模型。主流模型是基于協(xié)同過濾的推薦機(jī)制。它的原理就是根據(jù)用戶對物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關(guān)性,或者是發(fā)現(xiàn)用戶的相關(guān)性,然后再基于這些關(guān)聯(lián)性進(jìn)行推薦。基于協(xié)同過濾的推薦可以分為3個(gè)子類:基于用戶的推薦,基于項(xiàng)目的推薦和基于模型的推薦。基于用戶的協(xié)同過濾推薦的基本原理是,根據(jù)所有用戶對物品或者信息的偏好,發(fā)現(xiàn)與當(dāng)前用戶口味和偏好相似的“鄰居”用戶群,在一般的應(yīng)用中是采用計(jì)算“K-鄰居”的算法;然后,基于這K個(gè)鄰居的歷史偏好信息,為當(dāng)前用戶進(jìn)行推薦。
2.2 協(xié)同過濾
2.2.1 基于用戶的協(xié)同過濾
協(xié)同過濾是一種個(gè)性化的推薦算法,這種推薦算法在信息過濾和信息系統(tǒng)中正迅速成為一項(xiàng)很受歡迎的技術(shù)。與傳統(tǒng)的,基于內(nèi)容分析過濾的推薦不同,協(xié)同過濾分析的是用戶之間的區(qū)別與聯(lián)系。舉個(gè)例子:
基于內(nèi)容分析的推薦:
甲喜歡歌曲A、B、C,通過分析得知A、B、C都是輕快的輕音樂,那么系統(tǒng)將推薦具有類似特征的輕音樂D給甲。
基于協(xié)同過濾的推薦:
甲喜歡歌曲A、B、C,乙喜歡歌曲A、B、C、D,那么甲和乙就有很大的相似性,系統(tǒng)將把乙喜歡的歌曲D推薦給甲。
總的來說,協(xié)同過濾分析大量用戶的興趣,在用戶群中找到與用戶甲有相似(興趣)的用戶乙、丙、丁等,綜合相似用戶乙、丙、丁等對某一內(nèi)容進(jìn)行評價(jià),預(yù)測甲對該內(nèi)容的喜愛程度,從而決定是否進(jìn)行推薦。
2.2.2 基于物品的協(xié)同過濾
基于項(xiàng)目的協(xié)同過濾推薦的基本原理也是類似的,只是說它使用所有用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶。
假設(shè)用戶甲喜歡物品A和物品C,用戶乙喜歡物品A,物品B和物品C,用戶丙喜歡物品A。從這些用戶的歷史喜好可以分析出物品A和物品C是比較類似的,因?yàn)橄矚g物品A的人都喜歡物品C,基于這個(gè)數(shù)據(jù)可以推斷用戶丙很有可能也喜歡物品C,所以系統(tǒng)會(huì)將物品C推薦給用戶C。
與上面講的類似,基于物品的協(xié)同過濾推薦和基于用戶的推薦其實(shí)都是基于相似度預(yù)測推薦,只是相似度計(jì)算的方法不一樣。在大部分站點(diǎn)中,物品的個(gè)數(shù)是遠(yuǎn)遠(yuǎn)小于用戶的數(shù)量的,而且物品的個(gè)數(shù)和相似度相對比較穩(wěn)定,同時(shí)基于項(xiàng)目的機(jī)制比基于用戶的實(shí)時(shí)性更好一些。
現(xiàn)行主流的推薦往往是將多個(gè)方法混合在一起,從而達(dá)到更好的推薦效果。包括組合加權(quán)的混合、切換的混合、分區(qū)的混合、分層的混合等等。
2.3 協(xié)同過濾的優(yōu)點(diǎn)
(1)能夠過濾機(jī)器難以自動(dòng)分析的信息
在大量信息的推薦中,依靠專門的人力對信息進(jìn)行識(shí)別分類的成本太大,大多是依靠機(jī)器進(jìn)行自動(dòng)識(shí)別。對于文本信息來說,可以進(jìn)行關(guān)鍵字的比對,因此機(jī)器識(shí)別是很有效的,但對于藝術(shù)品、音樂這些信息來說,機(jī)器識(shí)別就十分困難。協(xié)同過濾的方法可以將大量的用戶調(diào)動(dòng)起來,幾乎零成本地運(yùn)用了人力識(shí)別的方法。
(2)能夠基于復(fù)雜概念進(jìn)行過濾
同樣,機(jī)器只能簡單判斷類別,但很難判斷情感、品味。例如在云音樂上,我們經(jīng)常看到用戶編輯的“100首最傷感歌曲”推薦,依靠機(jī)器則難以判斷歌曲情緒形成推薦。
(3)能夠保證推薦的新穎性
一旦平臺(tái)聚集了大量的用戶,用戶便時(shí)時(shí)刻刻在生產(chǎn)出新的信息,新的內(nèi)容,保證了推薦內(nèi)容的新穎性。
參考文獻(xiàn)
[1]項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].人民郵電出版社,2012.
[2]吳軍.數(shù)字之美[M].人民郵電出版社,2013.
[2](奧地利)詹尼士.推薦系統(tǒng)[M].人民郵電出版社,2013.
(作者單位:山東省新泰市第一中學(xué))