基于Web挖掘的物流信息平臺個性化推薦研究

2015-05-30 10:48:04趙影

中國市場 2015年20期

[摘要]針對物流信息平臺信息資源日益增多、訪問和檢索越來越難的問題，本文提出了將個性化推薦服務應用于物流信息平臺的構想。構建了一個基于Web挖掘的物流信息平臺個性化推薦系統(tǒng)框架，對系統(tǒng)中涉及的用戶興趣建模、Web使用挖掘、Web內(nèi)容分類等關鍵技術進行了討論。

[關鍵詞]Web挖掘；物流信息平臺；個性化推薦

1013939/jcnkizgsc201520019

1 引言

隨著網(wǎng)絡技術的發(fā)展，網(wǎng)絡已經(jīng)成為人們獲取信息的一個重要途徑。為了提高物流服務的運作效率，各種類型的物流信息平臺紛紛建立。一般認為，凡是能夠支持或者進行物流服務供需信息的交互或交換的網(wǎng)站，均可視為物流信息平臺。物流信息平臺匯集了物流行業(yè)各方面的信息，通過Web頁面發(fā)布大量的物流資訊、物流人才、貨運信息、物流服務等內(nèi)容，給用戶提供了獲取更快捷、更便宜的物流服務的手段。然而，隨著物流信息平臺整合信息資源種類和數(shù)量的增多，如何讓用戶在訪問網(wǎng)站時更準確、更快捷地獲得自己需要的信息，是物流信息平臺發(fā)展面臨的一個問題。而目前來說，物流信息平臺通常是以系統(tǒng)內(nèi)搜索引擎或檢索工具幫助用戶檢索網(wǎng)站信息，但是大多數(shù)檢索功能缺少主動性，沒有考慮用戶的興趣偏好和用戶間的差異，所以無法滿足用戶對信息的個性化需求，物流信息平臺亟待改進其服務質(zhì)量。

借鑒電子商務網(wǎng)站個性化服務的應用，個性化推薦服務可以作為物流信息平臺提高服務質(zhì)量的一個有效途徑。個性化推薦服務是根據(jù)用戶的信息需求、興趣或行為模式，將用戶感興趣的信息、產(chǎn)品和服務推薦給用戶，這樣就可以避免用戶花費較多的時間進行信息篩選，使用戶在更短的時間內(nèi)更準確地獲得自己真正感興趣的信息。

實現(xiàn)個性化推薦，關鍵是獲知和描述用戶的個性特征以及興趣偏好?？紤]到物流信息平臺是通過Web頁面發(fā)布大量的信息和服務資訊，用戶的訪問情況可以很容易地反映出其個性特征和興趣偏好，因此對于物流信息平臺的個性化推薦服務可以通過Web挖掘技術來實現(xiàn)。

2 基于Web挖掘的物流信息平臺個性化推薦系統(tǒng)

21 系統(tǒng)基本功能

個性化推薦系統(tǒng)的基本功能是：通過分析用戶對Web訪問的規(guī)律，尋找行為模式相似的用戶，形成虛擬用戶社區(qū)，并建立用戶興趣庫，在對Web內(nèi)容挖掘的基礎上，將符合用戶興趣的信息資源（包括新聞、供求信息、物流服務等）推薦給當前用戶。同時，利用系統(tǒng)建立的用戶興趣庫，當用戶輸入關鍵詞進行檢索時，將用戶檢索的結(jié)果按用戶的興趣程度排序，將用戶最有可能關注的信息或服務提供給用戶。

22 系統(tǒng)體系結(jié)構

該系統(tǒng)的體系結(jié)構主要由三個部分組成：數(shù)據(jù)采集及預處理、生成推薦模型與在線推薦部分。如圖1所示。

圖1 基于Web挖掘的物流信息平臺個性化推薦系統(tǒng)體系結(jié)構

數(shù)據(jù)預處理模塊負責從Web服務器日志、Web使用記錄等中提取、分解、合并、轉(zhuǎn)換相關的數(shù)據(jù)，供數(shù)據(jù)挖掘、偏好分析及推薦引擎使用，為實現(xiàn)個性化推薦任務提供必要的數(shù)據(jù)。為保證提供數(shù)據(jù)的準確性，因此該模塊一般要經(jīng)過數(shù)據(jù)清洗（數(shù)據(jù)凈化）、用戶識別、會話識別、路徑補充、事務識別等過程。

模式生成是指用于個性化推薦的推薦模型的生成，該階段是推薦系統(tǒng)的主要部分，主要負責建立用戶興趣庫和虛擬用戶社區(qū)。該工作框架基于聚類算法。挖掘、創(chuàng)建模式數(shù)據(jù)庫是一個循環(huán)往復的過程。該階段也是離線進行，為在線實時推薦提供支撐。

在線推薦是根據(jù)用戶的訪問情況，將其與系統(tǒng)挖掘生成的模型進行匹配，找到與當前用戶行為相似的虛擬社區(qū)，按照該虛擬社區(qū)用戶的興趣庫實時地為用戶進行在線推薦。通常采用的推薦方法為用戶登錄時以頁面的形式給出推薦頁面，也可將推薦內(nèi)容發(fā)送到用戶郵箱中。針對用戶群建立的虛擬用戶社區(qū)，可將相同的信息推薦給同一社區(qū)中的所有用戶。

23 系統(tǒng)的技術實現(xiàn)思路

個性化推薦服務以Web內(nèi)容挖掘為支撐，首先對物流信息平臺上出現(xiàn)的物流信息進行分析，提取出關鍵詞；根據(jù)關鍵詞確定該資源所屬的類別，對用戶興趣中對應類別的權重達到設定閾值的用戶進行推薦。

個性化檢索服務的工作主要是對檢索結(jié)果進行2次處理。將頁面內(nèi)容按標題提取關鍵詞后，根據(jù)關鍵詞將內(nèi)容歸為某一類，然后根據(jù)用戶的興趣，將檢索結(jié)果按與用戶興趣匹配程度從大到小排序后，再提供給用戶。

3 系統(tǒng)關鍵技術

31 Web使用記錄數(shù)據(jù)的處理

Web使用記錄是用戶興趣及虛擬社區(qū)建立的關鍵。它所包含的內(nèi)容主要來源于兩個方面：一方面是Web服務器日志記錄，另一方面是用戶在客戶端操作的記錄。前者可直接從服務器日志文件中獲得，但數(shù)據(jù)量龐大，需要經(jīng)過數(shù)據(jù)清洗（數(shù)據(jù)凈化）、用戶識別、會話識別、路徑補充、事務識別等一系列預處理過程；后者則必須通過對用戶的瀏覽操作進行跟蹤記錄，可在網(wǎng)頁上增加對用戶下載、保存等與興趣程度相關操作的記錄，用小型代理的形式實現(xiàn)。

32 Web內(nèi)容挖掘中頁面內(nèi)容的表達與分類

在個性化推薦及個性化檢索服務中，首先要對待處理的資源進行分類。若考慮整個頁面的內(nèi)容，則雖然能得到精確的內(nèi)容表達，但對正文進行處理費時太多，所以采用對標題進行關鍵詞提取，再根據(jù)關鍵詞進行分類的方法。分詞采用分詞軟件完成。頁面分類工作流程如圖2所示。

圖2 Web頁面分類工作流程

分類算法有決策樹分類、貝葉斯分類、基于遺傳算法的分類等。該系統(tǒng)采用KNN分類算法。分類過程中，將訓練頁面及測試頁面經(jīng)過標題提取及分詞后，形成相應的矢量。

33 用戶興趣的表示

用戶興趣根據(jù)用戶對Web進行訪問的各種瀏覽行為進行挖掘而得。一些典型的操作，如用戶下載、較長時間的瀏覽、添加至收藏夾等行為，反映出用戶對相關內(nèi)容感興趣。用戶興趣采用向量空間描述，形如{（A1，W1），（A2，W2），…，（An，Wn）}。Wi取值范圍為[0，1]，Wi值越大，說明相應的興趣度越高。如，某用戶的興趣向量空間為{（貨源，08），（車源，02）}，說明該用戶在貨源關鍵詞上的興趣值為08，而在車源關鍵詞上興趣值為02，興趣度較低。用戶興趣的向量空間中，每個關鍵詞對應的權重是動態(tài)變化的。當用戶進行相關內(nèi)容的下載、長時間瀏覽等操作時，權重增加（增加至1時不再遞增）；若長時間未進行相關內(nèi)容的瀏覽操作，則權重值減少。設定一個閾值，當某一關鍵詞對應的權重低于該閾值時，將相應分項從向量空間中去除，同樣，當某一新增關鍵詞的權重高于該閾值時，要在向量空間中增加對應分項，使向量空間反映出用戶興趣的實際變化情況。

34 虛擬用戶社區(qū)的建立與維護

虛擬用戶社區(qū)的建立采用聚類的方法，將用戶聚合在不同社區(qū)中。常用的聚類算法有基于劃分方法、基于層次方法、基于密度方法、基于網(wǎng)格方法等。該系統(tǒng)采用較為簡單的K平均劃分方法進行聚類處理，設聚類后簇的數(shù)目為K，具體操作步驟是：①隨機選取K個對象作為初始的K個簇的質(zhì)心；②將其余對象根據(jù)其與各個簇質(zhì)心的距離分配到最近的簇，再求新形成的簇的質(zhì)心；③上述迭代過程不斷重復，直至目標函數(shù)最小化。

為簡化算法，選擇最能體現(xiàn)用戶興趣的網(wǎng)絡訪問活動進行分析。主要考慮以下用戶行為：下載資源、瀏覽資源。分別構建下載和瀏覽行為的相異度矩陣，再通過聚類算法生成虛擬用戶社區(qū)。

首先構建下載行為的相異度矩陣。將下載活動表示為（userid，KJ），其中userid為用戶標識，KJ為下載的資源號以及下載時間。以在一段時間內(nèi)用戶下載相同資源的相同程度為基礎，構建相異度矩陣。如，有10個物流信息資源，編號分別為1～10，在同一段時間內(nèi)用戶A、B下載資源的情況為：A下載的資源集合為（1，2，5，7），B下載的資源集合為（1，2，4），A下載資源中與B相同的比例為50%，B與A相同的比例為66%，綜合考慮，得A、B兩個用戶下載資源活動的相近程度為58%，則相異度為42%。經(jīng)過處理后，得到用戶下載情況的相異度矩陣。

然后構建瀏覽行為的相異度矩陣。用戶的瀏覽行為與其興趣的相關程度在很大程度上取決于瀏覽時間，即用戶對某個頁面瀏覽時間越長，說明該用戶對頁面的興趣度越大。在以瀏覽行為為評價對象進行用戶相似性聚類時，除了考慮用戶瀏覽頁面的相同程度之外，還應考慮瀏覽時間。為方便處理，將瀏覽時間按長短分為若干個等級，如瀏覽時間在1min之內(nèi)，1～5min，5～10min，10min以上等。以用戶在一段時間內(nèi)訪問相同頁面時間長度等級的差異情況為主，構建相異度矩陣。

分別對上述2個相異度矩陣采用K平均劃分方法進行聚類，也可以將2個相異度矩陣合并，然后進行聚類處理。合并時可以加上一定的權重，如側(cè)重瀏覽行為，則對瀏覽情況的相異值乘上一個較大的系數(shù)B（0

用戶的興趣是動態(tài)變化的。相應的虛擬社區(qū)應根據(jù)用戶的興趣變化而變動。若某個用戶的興趣發(fā)生變化，某類興趣值下降至設定的閾值，則將該用戶從相應的社區(qū)中刪除；若用戶某類興趣值增加至設定的閾值，則將該用戶加入到對應的社區(qū)中。對新用戶經(jīng)過一段時間的瀏覽行為跟蹤后，分配至合適的社區(qū)中。

4 結(jié) 論

隨著物流信息平臺整合資源和信息的增多，用戶訪問網(wǎng)站及時獲取所需信息的難度越來越大，而大多數(shù)物流信息平臺所具備的搜索功能又缺乏主動性。本文主要針對網(wǎng)站的普通用戶獲取信息的問題，將電子商務的個性化推薦技術應用其中。主要以Web挖掘技術從用戶的瀏覽行為間接地獲取用戶興趣進而完成個性化推薦。系統(tǒng)中所用的算法只是選用了相關挖掘算法中比較典型的，具體選用算法還可以進一步研究。

參考文獻：

[1]趙影基于Web使用挖掘的個性化推薦服務研究[D].大連：東北財經(jīng)大學，2009.

[2]張紅霞基于Web挖掘的電子商務個性化推薦系統(tǒng)[J].遼寧工程技術大學學報（社會科學版），2009，11（6）.

[3]陳基漓，牛秦洲Web挖掘在農(nóng)業(yè)信息網(wǎng)站個性化服務中的應用[J].安徽農(nóng)業(yè)科學，2008，36（35）.

[4]李宏基物流服務平臺中推薦系統(tǒng)的框架設計[J].科技傳播，2010（10）.

[5]Han JW，M Icheline Kamber數(shù)據(jù)挖掘：概念與技術[M].范明，孟小峰，等，譯北京：機械工業(yè)出版社，2001

中國市場2015年20期

中國市場的其它文章: 制度至上是質(zhì)量管理工作的必然選擇; 淺議路橋施工企業(yè)財務風險及防范措施; 燃氣公司財務管理模式探討; 淺析如何合理開展中職生頂崗實習管理工作; 基于校園一卡通系統(tǒng)的多媒體教室改造與管理; 淺析鐵路職工教育在鐵路企業(yè)安全管理中的作用