文/王曉佳
隨著互聯網的發展,一直存在著信息過載現象,在這個過程中有很多值得稱贊的解決方案。從原來的分類信息網站,由網址之家表示,雅虎等為代表的搜索引擎百度和谷歌,個性化推薦系統的今天,它為用戶提供了合適的選擇商品,音樂,電影等,滿足用戶的需求是一個許多商業項目成功的關鍵因素。隨著移動終端和智能可穿戴設備的普及,數據的獲取變得越來越便宜,商家有條件獲取大量的用戶相關數據。據統計,淘寶每天產生數千萬筆交易,產生的數據近20TB。隨著谷歌Map Reduce算法的發布,大規模集群計算即云計算的性能變得越來越強大,為大數據分析提供了可能性。它們都成為了當前推薦系統的基石。目前,越來越多的電子商務企業開始關注推薦系統,研究用戶的行為。本研究的目的是為了滿足用戶的需求,通常基于用戶畫像技術,描繪不同年齡、性別和職業的人。滿足不同層次的需求。亞馬遜主導的產品推薦,QQ音樂推薦,淘寶個性化商品推薦,豆瓣等網站的視頻電影推薦,微博主導的社交關系推薦,都應用了多種類型的推薦系統。推薦系統通常通過發現特定的潛在用戶、增加商品被點擊的概率、延長用戶停留時間、增加網站訪問量等方式使企業受益。發現用戶對商品感興趣,進而提高滿意度,增加關聯銷售等。根據Venture Beat的調查,推薦系統促進了許多公司的銷售,比如亞馬遜在推薦系統的支持下銷售額增長了35%。對于用戶來說,推薦系統的出現可以減少很多時間。在推薦系統上線之前,用戶一般需要查看11.7個條目才能找到自己滿意的產品,在推薦系統的幫助下,只需要查看6.6個條目,用戶的工作量減少了50%。根據Choice Stream的一項調查,45%的普通消費者愿意通過推薦系統訪問電子商務,而在高端消費者中,這一比例可以達到69%。因此,推薦系統對于用戶來說,可以更方便、省時地找到自己喜歡的商品。
在在線推薦系統中,廣泛使用的推薦算法包括基于內容的推薦算法、基于協同過濾的推薦算法以及基于圖形的推薦算法、基于融合的推薦算法等。在商業實踐中,由于每種算法都有自己的優點和缺點,所以通常是多種算法進行交叉使用。
基于內容的推薦(Content-based Recomm endation)通過比較用戶的愛好和項目屬性之間的差異性來推薦。該技術涉及機器學習技術、自然語言的處理技術、概率與統計技術、分布式計算等。基于內容的推薦首先建立用戶興趣特征的模型,用戶興趣特征可以通過系統的顯式反饋或隱式反饋獲得,通常包括用戶的在線瀏覽、點擊商品、評價、購買等。信息通過一定的技術手段將用戶的興趣愛好和屬性特征進行轉化。項目由相關屬性以及與用戶交互的信息定義。推薦系統通過用戶特征與屬性特征的匹配過程進行推薦。常用的算法有邏輯回歸算法、決策樹算法等。
當前,市場上廣泛使用并且由許多學者研究的推薦系統算法是協同過濾算法,該算法目前是最常見最常用的算法。這個算法正發揮著促進電子商務發展的作用。這個主要被分成兩種技術。
(1)基于用戶的聯合過濾。
(2)基于項目的協同濾波。
主要程序是,首先基于用戶的歷史記錄和用戶的興趣愛好以及其他數據反饋,計算各客戶端之間相似性,然后對相似度的目標客戶端進行排序,然后介紹他們。
具有多種正則化技術的邏輯回歸算法可用于稀疏矩陣,訓練和預測速度快,模型復雜度低的特點。其次,介紹了一種性能較好的積分算法——梯度迭代決策樹算法。然后是因式分解機,它是隱式語義模型中的代表性算法。最后,卷積神經網絡作為深度學習的一部分,具有自動提取數據特征的功能,近年來備受關注。
在統計學中,有種算法叫做回歸算法。實現起來比較容易理解,復雜性也相對較低。而且,還可以用于大規模的機器學習。也就是說,由于他的優點很多,所以可以長期使用,但他的缺點是非線。因為他是一個現象模型。
在上個世紀90年代,提出了一種新的融合性算法,叫做梯度迭代決策樹算法。這是一種基于學習機器的框架,它可以提高任意算法的準度和精確度,他是受到近似模型的啟發,而被研究出來的。它的優點也十分的多,它作為一種性能比較優良的分類器,很多人將它和增強框架相結合使用。在實驗中也確實,實現了較為優異的實驗結果。
現在有一種更通用的算法叫做因數分解機。這個算法在2010年被提案了,利用分解模型的特征進行變換。另外,通過因素之間的相互作用表示。也就是說,可以很好地模擬變量之間的相互作用。即使數據不足和數據不足,也能得到良好的訓練效果。在任務的實際執行中較好的完成。
在20世紀60年代Hubel和Wiesel提出了卷積神經網絡。Hubel和Wiesel對貓大腦皮層的局部敏感神經元進行了模擬。福島提出的新認知是基于神經元之間的局部連接和層次結構,首次對圖像網絡進行轉換。神經網絡的結構可以大大降低神經網絡模型的復雜性,提高神經網絡的泛化能力。CNN是一種前饋神經網絡,目前廣泛應用于語音、圖像等領域。
互聯網技術不斷發展,數據采集和計算變得越來越便宜,目前來看,大數據時代已經到來。國內外電子商務公司和研究機構越來越擅長于利用數據為用戶提供個性化的體驗推薦,特別是近年來,人們利用先進的機器學習算法對這一領域的問題進行了深入的學習和研究。從梯度迭代決策樹到深度學習,從協同過濾到邏輯回歸,這些算法都出現在各個問題領域的推薦系統中。這些推薦系統的商業應用不僅極大地改善了用戶體驗,還增加了企業的收益。
在推薦系統中還存在許多問題,另外技術需要進一步的改進。雖然本文對推薦系統做了一定的研究,但仍有很多地方需要改進:我們應該考慮多種特征處理和數據清理,比如使用聚類算法對用戶進行聚類,然后統計每個類別的特征,或者使用協同過濾算法處理非交互式樣本。在搭配推薦系統中,使用卷積神經網絡的方法還是比較簡單的,所以我們可以針對這種情況設計一個特殊的神經網絡,我相信它會進一步提高效果。