方傳霞,閆仁武
(江蘇科技大學 計算機科學與工程學院,江蘇 鎮(zhèn)江 212003)
電子商務的興起正在全世界范圍內(nèi)迅速改變傳統(tǒng)商業(yè)模式[1],越來越多的顧客在電子商務網(wǎng)站活動日益頻繁。商家若是能跟蹤用戶在網(wǎng)站上的瀏覽軌跡并進行行為分析,讓企業(yè)更清楚掌握客戶的需求,有針對性的開展網(wǎng)上銷售。
基于Web挖掘的購物個性化推薦系統(tǒng)可以直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成購物過程[2]。電子商務推薦系統(tǒng)作為網(wǎng)站個性化服務之一,將Web挖掘技術應用于商務網(wǎng)站推薦系統(tǒng)中,對用戶屬性和行為進行學習,進而從中獲取知識信息并產(chǎn)生推薦,不僅為電子商務領域的海量數(shù)據(jù)提供一種有效的處理方式,而且為電子商務推薦系統(tǒng)提供更加智能化、更加自動化和更高質(zhì)量的推薦結果[3]。
電子商務網(wǎng)站進行Web挖掘時,數(shù)據(jù)來源類型多、數(shù)據(jù)量大、非結構化等特點。數(shù)據(jù)源主要包括:服務器日志、代理服務器端數(shù)據(jù)、Web頁面數(shù)據(jù)、頁面鏈接數(shù)據(jù)、用戶注冊信息等。通過對這些數(shù)據(jù)源進行Web挖掘,能夠發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解用戶行為,進行預測性分析,從而轉(zhuǎn)化為商業(yè)價值。
應用于電子商務網(wǎng)站的Web挖掘技術主要包括關聯(lián)規(guī)則、序列模式、分類分析、聚類分析應用等。關聯(lián)規(guī)則發(fā)現(xiàn)交易數(shù)據(jù)中不同項之間的關聯(lián),從而找出用戶購買行為模式,典型的應用就是“購物籃分析”;序列模式分析是Web日志數(shù)據(jù),發(fā)現(xiàn)用戶訪問模式,同時挖掘商品的購買順序以及時間間隔;分類分析目的是分析輸入數(shù)據(jù),通過訓練集中數(shù)據(jù)表現(xiàn),建立分類模型,包括樸素貝葉斯、決策樹等分類算法;聚類相似瀏覽行為的用戶,提取具有相似興趣度用戶,執(zhí)行合理市場策略等。
完整的推薦系統(tǒng)一般由三部分組成[4]:收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊和推薦算法模塊,其中核心是推薦算法模塊。可以根據(jù)電子商務推薦系統(tǒng)采用的推薦算法不同,將其劃分不同類型的個性化推薦系統(tǒng)。
傳統(tǒng)的協(xié)同過濾的電子商務個性化推薦系統(tǒng)只是對用戶購買行為之間的相似性感興趣,主要是挖掘目標用戶和歷史用戶之間購買行為的相似性,根據(jù)相似性生成推薦結果集,它是第一代被提出并且得到廣泛應用的個性化推薦系統(tǒng)。
基于協(xié)同過濾的個性化推薦系統(tǒng)優(yōu)點是能夠為用戶挖掘出新感興趣的商品,而無需對商品的特征進行任何考慮,而且任何形式的商品都可以進行推薦,例如藝術品、電影、音樂、服務等。目前協(xié)同過濾個性化推薦是應用最廣泛的推薦算法,但這種方法也面臨多種問題,冷啟動問題、評分矩陣稀疏問題,且隨著系統(tǒng)用戶和商品數(shù)量不斷增長,系統(tǒng)性能會變差。
基于內(nèi)容的推薦技術主要過程是:首先收集用戶愛好信息,構建和維護用戶概要信息庫;其次,建立清晰、完整的用戶愛好模型;再對文本集內(nèi)的文本進行分詞、詞頻統(tǒng)計、加權等過程從而生成每一個文本的文本向量;然后,計算用戶向量和文本向量之間的相關系數(shù),將相關系數(shù)高的文本發(fā)送給該用戶的模型用戶;最后,根據(jù)用戶的反饋信息進行修正,以提高推薦信息的效率和質(zhì)量[5]。
基于內(nèi)容的個性化推薦系統(tǒng)可以根據(jù)用戶和商品配置文件進行推薦,能夠處理冷啟動問題;推薦新商品和未流行的商品,發(fā)現(xiàn)隱藏的信息,不會受到評分矩陣稀疏問題影響;通過列出推薦項目的內(nèi)容特征,合理解釋推薦的理由,具有良好的用戶體驗。該推薦系統(tǒng)受到信息獲取技術的制約,要求信息流是機器可以分析的形式,對機器識別的要求很高,且難度較大;基于內(nèi)容推薦易產(chǎn)生重復推薦問題,且不易發(fā)現(xiàn)新的信息;信息識別的局限性,對商品信息的品質(zhì)、風格無法進行準確的區(qū)分。
基于網(wǎng)絡結構的推薦算法是周濤首次提出,該算法不用考慮用戶和項目的內(nèi)容特征,而只是把它們作為抽象的節(jié)點,首先將目標用戶選擇過的每個項目產(chǎn)品上設定初始資源,并將初始資源平均分配給項目的鄰居用戶,再將該用戶的平均資源分配給選擇過的所有項目,最后讓每個項目都獲得最終資源,并將項目的最終資源按大小排序且推薦前L個給目標用戶,即完成推薦[6]。
基于網(wǎng)絡結構的推薦算法是電子商務中個性化推薦系統(tǒng)的一個全新的研究方向,然而同樣面臨冷啟動問題。
協(xié)同過濾、基于內(nèi)容以及基于網(wǎng)絡結構的推薦算法在實際電子商務網(wǎng)站應用過程中都有各自的優(yōu)缺點,因而在實際的推薦系統(tǒng)中需要結合不同的推薦算法組成混合推薦算法,提高推薦系統(tǒng)的性能。常見的混合推薦算法是將基于內(nèi)容的推薦與協(xié)同過濾推薦組合。
Web挖掘技術根據(jù)挖掘?qū)ο蟮牟煌煞譃?類:Web內(nèi)容挖掘、Web結構挖掘和Web使用挖掘。基于Web挖掘技術的個性化推薦系統(tǒng)是通過瀏覽器的方式進行商品推薦,方便用戶體驗,增加推薦可信度。將Web挖掘技術與電子商務的個性化推薦系統(tǒng)結合,生成完全自動化的推薦,讓用戶體驗完全個性化的購物體驗,是電子商務推薦系統(tǒng)發(fā)展的必然趨勢。
集成Web挖掘的電子商務應用推薦系統(tǒng)模型如圖1[7]所示。

圖1 傳統(tǒng)的電子商務推薦系統(tǒng)模型Fig.1 Traditional model of e-commerce recommendation system
基于Web挖掘的電子商務系統(tǒng)模型中,主要是由業(yè)務數(shù)據(jù)、用戶與站點互動所產(chǎn)生的數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)分析組成。業(yè)務數(shù)據(jù)是描述產(chǎn)品實體的數(shù)據(jù)信息,包含產(chǎn)品或服務的詳細信息。
第二個要素是用戶活動信息數(shù)據(jù),包括用戶的選擇,訪問方式,用戶偏好,產(chǎn)品或朋友轉(zhuǎn)發(fā),特定頁面或鏈接的點擊率,用戶的特性等詳細信息。將所有收集到的信息存儲到數(shù)據(jù)庫或數(shù)據(jù)倉庫;同時需要收集商品的評分頁面數(shù)據(jù),將這些數(shù)據(jù)作為分析引擎的一個輸入,挖掘出用戶可能喜歡的其他物品數(shù)據(jù)集,提交數(shù)據(jù)集給分析引擎,從而分析用戶的行為。數(shù)據(jù)分析模塊主要負責數(shù)據(jù)分析、決策支持等。在SQL Server中,包含兩種數(shù)據(jù)挖掘算法:Microsoft決策樹和Microsoft聚集,且能夠與MS-Excel結合提供高效的數(shù)據(jù)挖掘方案。同樣Oracle數(shù)據(jù)庫也提供數(shù)據(jù)挖掘方案。整個分析的結果信息返回給用戶,包括產(chǎn)品成交次數(shù)、產(chǎn)品服務的知名度,用戶最佳選擇等。
現(xiàn)階段電子商務個性化推薦系統(tǒng)對實時性能要求高,可以將推薦系統(tǒng)模塊分為在線和離線兩部分[8],系統(tǒng)基本的結構如圖2所示。

圖2 改進的推薦系統(tǒng)模型Fig.2 Improved model of recommender system
1)離線模塊
主要工作是生成各種頁面和用戶的聚類結果,生成關聯(lián)分析的頻繁項集,由數(shù)據(jù)預處理和Web數(shù)據(jù)挖掘組成。離線挖掘的結果集直接為在線模塊提供支持。數(shù)據(jù)預處理和Web挖掘耗時較長,無法滿足商務系統(tǒng)的實時性要求,故而將其放在離線部分。
2)在線模塊
在線模塊主要是動態(tài)實時地實現(xiàn)推薦引擎的過程,并且將推薦引擎產(chǎn)生的頻繁項集添加到離線模塊中。結合離線模塊,提高個性化推薦的實時響應速度和伸縮能力,以及保證推薦系統(tǒng)提供給用戶最優(yōu)質(zhì)的推薦服務。
在電子商務網(wǎng)站的實際應用中,不同的情形下,用戶所需的推薦服務是不同的。注冊用戶登錄網(wǎng)站首頁時,需要推薦模塊根據(jù)用戶歷史記錄等,推薦用戶感興趣的熱門商品或者廣告信息;在很多電子商務網(wǎng)站中,交易完成后,用戶可以對商品的質(zhì)量、賣家服務、物流速度等滿意度進行評價,當用戶提交商品評價信息時,調(diào)用協(xié)同過濾推薦,更新“用戶和項目評分”矩陣;用戶在瀏覽商品或者站點搜索自己想要的商品,啟用關聯(lián)推薦模塊進行推薦,且能夠進行交叉銷售。電子商務個性化推薦系統(tǒng)中,需要集成多種推薦模塊類型來滿足不同的應用需求,為用戶提供更高質(zhì)量的推薦服務,圖3為多模塊系統(tǒng)框架流程所示。

圖3 多模塊推薦系統(tǒng)框架Fig.3 Multi-module frame of recommender system
Web挖掘的目標是從數(shù)據(jù)集中提取準確的信息滿足商業(yè)的需要,也就決定著這個過程與客戶密切相關,使得Web用戶與管理者就數(shù)據(jù)隱私問題發(fā)生分歧。國外的立法和監(jiān)管機構為保護用戶隱私問題做出了很多努力,同樣很多研究學者也在研究新的技術去實現(xiàn)保護用戶隱私。W3C已開啟了“隱私首選平臺(Platform for Privacy Preferences,P3P)”項目,提出協(xié)議來解決Web用戶與站點管理者的爭端。
為保護用戶隱私數(shù)據(jù),基于隱私保護的Web挖掘可分為兩個途徑:隨機擾亂方法和安全多方計算方法。隨機擾亂適用于對單個數(shù)據(jù)記錄和密集型數(shù)據(jù)集合進行隨機變換;安全多方計算分為安全和計算方法、安全并集求法、安全計算交集大小方法和安全數(shù)量積計算方法。在Web挖掘的電子商務個性化中,添加隱私保護模塊的是為了防止用戶機密信息外泄,同時要求基于屬性的統(tǒng)計保持不變,不會影響Web挖掘結果。Agrawal Srikant提出一種建立決策樹分類實施對源數(shù)據(jù)中隱私信息進行擾動[9];Evfimievski etal提出一種交換數(shù)據(jù)的方式進行關聯(lián)規(guī)則分析以達到保護隱私的目的。基于隱私保護的數(shù)據(jù)挖掘流程如圖4所示。

圖4 隱私保護的數(shù)據(jù)挖掘基本流程Fig.4 Basic flow of privacy protection based on web mining
如今,數(shù)據(jù)集基本上都是分布于不同的環(huán)境和不同地理位置,挖掘這樣數(shù)據(jù)集,必須使用基于分布式的Web數(shù)據(jù)挖掘算法獲得有效數(shù)據(jù)。在分布式數(shù)據(jù)挖掘中,處于不同地理位置的隱私數(shù)據(jù)更易被泄露。即使在某一環(huán)境中刪除或者干擾敏感信息,利用這些不全面的數(shù)據(jù)信息與用戶相關的其他數(shù)據(jù)庫鏈接就有可能獲取用戶的敏感信息,即當分布式數(shù)據(jù)合并使用。電子商務網(wǎng)站中用戶信息涉及到詳細住址、電話號碼、郵箱、銀行卡信息等隱私數(shù)據(jù),如何在電子商務平臺進行基于隱私保護的Web挖掘成為熱點問題。
Web用戶分為注冊用戶和非注冊用戶,其相關推薦策略也有所不同:
1)對非注冊用戶分析是Web使用挖掘技術的一個難點。比如未注冊的用戶,瀏覽站點的頁面統(tǒng)計信息、駐留時間;是否有后續(xù)訪問行為;是否最終轉(zhuǎn)換為注冊用戶。未注冊用戶缺乏唯一標示,可以根據(jù)IP地址前三位加上瀏覽器信息來大致定位未注冊用戶,經(jīng)實驗可以精確定位80%以上的用戶[10]。采用協(xié)同過濾,將非注冊用戶聚類,選取權值較高的物品,推薦給用戶。
2)注冊用戶則根據(jù)用戶當前狀態(tài)以及歷史記錄向用戶做推薦。首先對用戶的訪問日志進行分析,從而得到用戶當前訪問的事務序列,取出當前訪問事務中后N項與各個聚類中心進行比較并求出它與每個中心的相似度,最后將相似度值最小的類確定為該用戶所屬的類。由推薦引擎結合前面挖掘的結果集與當前用戶的歷史訪問記錄進行匹配,并根據(jù)計算結果對頁面進行排序,預測用戶將要訪問的頁面,最后將預測的結果頁面的鏈接推薦給用戶。
電子商務網(wǎng)站是交流和推廣企業(yè)形象的一個關鍵渠道,本文介紹在電子商務典型Web挖掘技應用,電子商務個性化推薦系統(tǒng)類型以及傳統(tǒng)的電子商務推薦系統(tǒng)模型和改進推薦系統(tǒng)模型,建立多模塊的挖掘系統(tǒng)以及將數(shù)據(jù)隱私保護加入到基于Web挖掘的電子商務推薦系統(tǒng)中,針對注冊用戶和非注冊用戶采用不同的推薦策略。在電子商務和Web挖掘技術迅速發(fā)展的今天,將Web挖掘技術與電子商務網(wǎng)站更有效的融合,提高更高效的Web挖掘模型,將是未來電子商務發(fā)展的一個重要方向。
[1]毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2005.
[2]程宏水.網(wǎng)絡數(shù)據(jù)挖掘在電子商務網(wǎng)站設計的應用[J].中山大學研究生學刊,2007,28(1):107-114.CHEN Hong-shui.Study on the design of e-commerce website based on web data mining[J].Sun Yat-sen Graduate Studies Journal,2007, 28(1):107-114.
[3]鮮學豐,楊元峰.一種基于Web數(shù)據(jù)挖掘的電子商務推薦系統(tǒng)[J].電腦知識與技術,2007(16):1046-1047,1058.XIAN Xue-feng,YANG Yuan-feng.An e-commerce recommendation system based on web data mining[J].Computer knowledge and technology,2007(16):1046-1047,1058.
[4]劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.LIU Jian-guo,ZHOU Tao,WANG Bing-hong.Research progress of personalized recommendation system[J].Progress in Natural Science,2009,19(1):1-15.
[5]黃文榮,周長征.基于內(nèi)容和協(xié)作的推薦系統(tǒng)的研究[J].計算機時代,2009(2):5-7,10.HUANG Wen-rong,ZHOU Chang-zheng.Reasearh of recommender system based on content and collaboration[J].Computer era,2009(2):5-7,10.
[6]Zhou T,RenJ,MedoM,et al.Bipartite network projection and personal recommendation[J].Phys Rev E, 2007,76(4):1-7.
[7]Siddiqui A T,Aljahdali S.Web mining techniques in ecommerce applications[J].International Journal of Computer Applications, 2013, 69(8):39-43.
[8]程德理,張新玲,黃立平.基于數(shù)據(jù)挖掘的個性化電子商務模型設計[J].情報雜志,2006,25(8):8-10.CHENG De-li,ZHANG Xin-ling,HUANG Li-ping.Design of personalization e-commerce model based on data mining[J].Journal of Infomation,2006,25(8):8-10.
[9]Rakesh Agrawal,Ramakrishnan Srikant.Privacy-preserving data mining[R].IBM Almaden Research Center,2006.
[10]張喆.電子商務公司W(wǎng)eb數(shù)據(jù)挖掘研究[D].北京:北京交通大學,2011.