999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類的Web日志挖掘方法探析

2008-04-29 00:00:00顧黎萍姜靈敏
商場現代化 2008年35期

[摘 要] 本文針對國內中小型電子商務網站服務器數據較少的特點以及數據的物理意義,采用了一種將數據導入Excel數據庫并利用連環聚類的方法來處理Web數據的方法,為中小型電子商務網站的決策分析提供了一種較為簡單的方法。

[關鍵詞] 聚類 Web日志挖掘 電子商務

一、引言

國內的中小型電子商務網站發展還很不健全,其瀏覽的用戶不多、日志數據相對較少、從事后臺數據分析的人員很少或沒有。如何避免像大型電子商務網站一樣采用大量算法來對數據進行預處理,而又能對日志數據進行挖掘,從而分析用戶需求、向用戶進行個性化推薦、改進網頁設計是目前中小型電子商務開發商急需考慮的一個問題。

二、Web日志挖掘過程分析

Web日志挖掘通過分析和研究Web日志記錄中的規律識別電子商務的潛在用戶,提高對最終用戶信息服務的質量并改進Web服務系統的性能和結構。

1.利用Excel數據庫進行Web日志預處理。Web日志文件記錄中存儲的是用戶訪問站點信息的原始記錄,在使用算法或工具對其分析之前,必須進行預處理。預處理過程是Web日志挖掘質量保證的關鍵,因為處理后的數據好壞、全面與否直接影響到數據挖掘的結果,進而對電子商務開發商的決策造成直接影響。特別是中小型電子商務網站,其數據相對較少,因此數據處理的準確性極為重要。

中小型電子商務網站由于瀏覽和交易人數少,可將數據直接導入Excel數據庫,在Excel中進行數據凈化、用戶識別。同時,由于網站設計人員的知識架構、技術層次以及對所要設計的網站內容的了解程度的限制,很難建立一個完全反映網站邏輯信息、無重復內容網頁的網站,必須進行一定程度的合并,從而將其分成能反映網站邏輯信息的同質類別。

2.連環聚類法在Web日志挖掘中的應用。聚類分析成功地應用于眾多領域,在此主要是利用K-Means快速聚類算法對數據進行聚類分析,以識別用戶樣本不同的行為段。由于此算法的聚類結果有一定的缺陷,本文采取了連環聚類的方法來對樣本數據進行聚類以彌補快速聚類算法的不足。

對于電子商務網站來說,一般都存在外部客戶瀏覽網頁的數據和內部管理人員瀏覽網頁的數據兩類。因此,首先對Web日志數據進行劃分,分為內部系統和外部登錄兩部分樣本數據可以減少日志挖掘的工作量,同時,分別對外部登錄數據和內部系統數據進行聚類分析也有助于增加聚類結果的可靠性。其次,對數據進行連環聚類,也即對某些聚類效果不明顯的聚類結果進行再次聚類,可以增加聚類結果的清晰度。

(1)外部登錄數據連環聚類。快速聚類分析是對用戶指定類別的大樣本資料的逐步聚類分析。其缺陷在于不能像層次聚類那樣對不同聚類類數產生一系列的聚類解,且聚類結果錯誤率較高。根據快速聚類分析存在的缺陷,可對外部登錄樣本數據進行兩個階段的聚類分析。

第一階段聚類是首先根據數據矩陣的特點,將聚類數暫定為幾類,經反復幾次聚類,最終確定下聚類數。接著將聚類結果導入Excel數據庫進行分析,可以發現,有些類別的數據極少,在聚類中,此類數據的誤導性極大,因此必須將其隔離;而對于一些表現出了相當不同的行為特點的類別,可以將其保留,待第二階段聚類結束后,與其結果一并歸入Excel數據庫進行分析;對于第三種由于類內差異較大,但是數據又比較多且較重要的類別,接著對其數據進行第二階段聚類,進而獲得更為明確的聚類結果。將兩階段的聚類結果導入Excel數據庫分析整合,可以得到一個較為明確的聚類結果。如:

某一類用戶僅僅在網站上瀏覽了幾個網頁,一般稱為偶然用戶。對于這類用戶,顯然不可能從中得到一個有用的、潛在的訪問模式來,因為他們對網站的訪問具有很大的偶然性,對具體網頁的訪問也有著很大的隨機性,所以如果從這些用戶的訪問條目中來提取用戶的訪問模式顯然是不具有典型性和代表性的,而這種訪問模式對電子商務的具體應用也就不具有任何指導性。另一類用戶主要瀏覽某一網頁組,對這一網頁組瀏覽次數較多,而對其他網頁很少涉及,幾乎不瀏覽,可以判定此類用戶是該網站某一類網頁的長期用戶。第三類用戶為多主題行為的用戶,即經常瀏覽網站上的各個網頁組。與好奇用戶(出于對網頁內容的好奇而對每個網頁組的網頁都有瀏覽,但瀏覽次數不多且不重復)不同,多主題行為用戶的瀏覽次數較多,因此可能就帶有一定的商業傾向,電子商務開發商可以對該類用戶特征加以分析,進行運用。

當然用戶類別可能不止此幾種,但都可以根據他們的瀏覽內容得出結果并用于電子商務決策。將直接聚類結果與連環聚類結果比較,可以證明連環聚類較好的彌補了快速聚類算法的缺陷,是比較有效的。

(2)內部系統數據聚類。內部系統的登錄人員主要是網站內部工作人員,目的是對網站進行管理。如:如果聚類后分析發現某報障系統網頁組的登陸率極高,那么,就能夠盡快找出故障所在,及時排除故障,提高網站運營效率。

對于一個電子商務網站,通過外部登錄數據連環聚類得到相似性用戶訪問的聚類簇,能夠為電子商務開發商提供詳細的用戶反饋,幫助他們根據實際用戶的瀏覽情況,調整網站的網頁鏈接結構和網頁內容,對網站進行優化,從而延長用戶的駐留時間、挽留老用戶、吸引新用戶,并增加用戶的購買率,以此獲得電子商務網站的成功運行;而通過內部系統數據聚類,也可以明確網站運營的缺陷在哪里,從而加以改進。

三、結論

對于國內中小型電子商務網站來說,Web日志挖掘結果對電子商務網站的發展起著至關重要的作用。基于Excel數據庫和連環聚類的Web日志挖掘法具有成本小、簡單、易操作等特點,對規模不大、資金實力不強的網站發展具有重大的意義。

參考文獻:

[1]譚春輝:電子商務管理與Web數據挖掘技術的契合探析[J].情報雜志,2006,(12):9~12

[2]凌傳繁:Web挖掘技術在電子商務中的應用[J].情報雜志,2006,(1):93~95

主站蜘蛛池模板: 91一级片| 国产一级在线观看www色| 久久精品国产国语对白| 在线无码九区| 国产在线97| 青青青视频91在线 | 日本欧美视频在线观看| 久久a级片| 久无码久无码av无码| 亚洲一区波多野结衣二区三区| 国产成人久久777777| 五月激情婷婷综合| 亚洲区欧美区| 香蕉eeww99国产在线观看| 国产在线自乱拍播放| 色妞永久免费视频| 亚洲av成人无码网站在线观看| 国产精品爽爽va在线无码观看| 欧美激情视频一区| 国产精品久久久久鬼色| 国产黄网站在线观看| 99久久这里只精品麻豆| 黄色不卡视频| 国产精品99r8在线观看| 丝袜美女被出水视频一区| 国产日韩欧美中文| 亚洲欧洲天堂色AV| 激情综合婷婷丁香五月尤物 | 亚洲永久精品ww47国产| 青青国产视频| 国产毛片基地| 在线视频一区二区三区不卡| 欧美午夜视频在线| 在线观看国产精品第一区免费| 欧美亚洲国产精品第一页| 久久婷婷五月综合97色| 国产一线在线| 无码精油按摩潮喷在线播放 | 一本大道香蕉高清久久| 999在线免费视频| 九九九精品成人免费视频7| 免费av一区二区三区在线| 国产欧美日韩视频怡春院| 国产一区二区视频在线| 91成人在线观看视频| 欧美a在线看| 中国国产A一级毛片| 亚洲三级视频在线观看| 日韩一区精品视频一区二区| 91视频国产高清| 永久在线播放| 午夜性刺激在线观看免费| 亚洲成人一区在线| 综合色天天| 午夜小视频在线| 国产一级妓女av网站| 性欧美精品xxxx| 久久黄色小视频| 2020亚洲精品无码| 欧美精品H在线播放| 国产十八禁在线观看免费| 99热这里只有精品在线播放| 456亚洲人成高清在线| 日韩第九页| 亚洲精品无码抽插日韩| 一本大道香蕉中文日本不卡高清二区 | 国产亚洲成AⅤ人片在线观看| 久久精品女人天堂aaa| 91国内外精品自在线播放| 欧美怡红院视频一区二区三区| 亚洲丝袜中文字幕| 精品国产www| 狠狠色香婷婷久久亚洲精品| 爱色欧美亚洲综合图区| 欧美翘臀一区二区三区| 亚洲国产一区在线观看| 91久久偷偷做嫩草影院精品| 国产亚洲现在一区二区中文| 91精品啪在线观看国产60岁 | 97免费在线观看视频| 天堂在线亚洲| 国精品91人妻无码一区二区三区|