999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電子商務(wù)網(wǎng)站的WEB內(nèi)容挖掘

2008-01-01 00:00:00陳美榮
商場現(xiàn)代化 2008年5期

[摘要] 隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,電子商務(wù)行業(yè)正處以一個高速發(fā)展的時期,各類商務(wù)網(wǎng)站也應(yīng)運(yùn)而生。如何從繁多的商務(wù)網(wǎng)站數(shù)據(jù)中獲得有用的信息就成了一件亟需解決的問題。本文分析了Web內(nèi)容挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用以及如何獲得數(shù)據(jù)源。

[關(guān)鍵詞] 電子商務(wù)網(wǎng)站 Web內(nèi)容挖掘 數(shù)據(jù)源

一、引言

對于電子商務(wù)網(wǎng)站來說,Internet上儲存了大量的文檔、圖像、聲音等非結(jié)構(gòu)化的數(shù)據(jù)及信息,并且用戶群體也顯示出多樣性,也就是說每個瀏覽網(wǎng)站的人,他們的需求、興趣以及瀏覽目的各不相同。一個稍具規(guī)模的電子商務(wù)網(wǎng)站每天處理的業(yè)務(wù)成千上萬,那么如何從這些數(shù)據(jù)中找到有用的信息,幫助電子商務(wù)的經(jīng)營者和研究者從海量的Web數(shù)據(jù)中得到真正有價值的信息,以指導(dǎo)他們做出管理上的決策。就是一個非常重要而有意義的事情。

二、爬蟲和Web內(nèi)容挖掘

1.Web挖掘的典型分類

在目前的研究中, Web數(shù)據(jù)挖掘分為:Web內(nèi)容挖掘(Web content mining)、Web使用(訪問信息)挖掘(Web usage mining)、Web結(jié)構(gòu)挖掘(Web structure mining)三種典型的類型。

(1)Web內(nèi)容挖掘主要是對站點的Web頁面內(nèi)容進(jìn)行挖掘。目前,大多數(shù)研究主要集中在如何對網(wǎng)站上的文本以及多媒體數(shù)據(jù)進(jìn)行分類以提高數(shù)據(jù)挖掘的有效性,很少涉及到如何從網(wǎng)站上進(jìn)行數(shù)據(jù)的采集以及分析。

(2)Web結(jié)構(gòu)挖掘主要是對Web文檔的結(jié)構(gòu)進(jìn)行挖掘,通過一定的算法來發(fā)現(xiàn)給定的Web文檔之間的鏈接情況,從而得到比較重要的頁面,以向瀏覽網(wǎng)站的用戶提供權(quán)威頁面。

(3)Web使用(訪問信息)挖掘主要是對用戶訪問Web時在服務(wù)器方留下的訪問記錄,也就是用戶訪問Web站點的存取方式進(jìn)行挖掘。它通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式。目前流行的挖掘手段主要包括:路徑分析、關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)、聚類和分類等。

2.Web挖掘的數(shù)據(jù)源

在Web數(shù)據(jù)挖掘中存在幾種代表性的數(shù)據(jù)源:

(1)服務(wù)器日志數(shù)據(jù)。個人瀏覽Web服務(wù)器時,在服務(wù)器那方就會產(chǎn)生3種類型的日志文件:Server logs,Error logs和Cookie logs,這些日志文件主要是用來保存用戶訪問的基本情況。所以就成為開展Web使用(訪問信息)挖掘的主要數(shù)據(jù)源。但有一點需要注意的是,這些數(shù)據(jù)是在服務(wù)器方生成的,因此有一定的不可獲取性,因為這會涉及到商業(yè)機(jī)密。

(2)在線市場數(shù)據(jù)。這類數(shù)據(jù)主要是跟市場活動有關(guān)的信息。在線市場數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)行業(yè)務(wù)相關(guān)分析的主要數(shù)據(jù)源。

(3)Web頁面。目前的Web頁面大多滿足HTML標(biāo)準(zhǔn)。HTML頁面中包含文本和多媒體信息,例如圖片、圖像、語言等,因此涉及到數(shù)據(jù)挖掘領(lǐng)域中的文本挖掘和多媒體挖掘,目前很多研究都在致力于如何對文本和多媒體信息進(jìn)行挖掘的算法分析。

(4)Web頁面超鏈接關(guān)系。Web頁面之間的超鏈接關(guān)系是一種重要的資源,網(wǎng)站的設(shè)計者總是把他們認(rèn)為重要的頁面添加到自己的頁面上來。

(5)其他數(shù)據(jù)。除了上述幾種重要的數(shù)據(jù)源外,還有一些其他方面的數(shù)據(jù),比如用戶注冊信息等一系列信息。

當(dāng)然,在實際的Web數(shù)據(jù)挖掘中這些數(shù)據(jù)源并不是孤立使用的,而是幾種數(shù)據(jù)源的綜合使用和分析,例如我們要對訪問某個電子商務(wù)網(wǎng)站的用戶購買商品的路徑分析的同時還需要知道這些客戶群的一些基本信息。

3.爬蟲和Web內(nèi)容挖掘

由于上述的幾種數(shù)據(jù)源中有一些是在服務(wù)器方生成的,比如說日志文件和用戶注冊信息,并且涉及到商業(yè)機(jī)密問題,所以在數(shù)據(jù)源的獲得上存在一定的難度。這里,我們可以利用爬蟲(Crawler)的工作原理,來作為我們進(jìn)行Web內(nèi)容挖掘的一種信息獲取和分析的工具,得到我們需要的數(shù)據(jù)源。

(1)爬蟲的工作原理。爬蟲(Crawler)是一個用來分解Web中超文本結(jié)構(gòu)的工具。一個商業(yè)網(wǎng)站的Web頁面是通過超鏈接的關(guān)系存在的,就組成了類似一張張的網(wǎng)。網(wǎng)絡(luò)爬蟲是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站,那么網(wǎng)絡(luò)爬蟲就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

(2)數(shù)據(jù)的獲得。我們就可以利用上述爬蟲的工作原理,從我們需要的信息起始頁開始進(jìn)行爬取數(shù)據(jù),得到與之有關(guān)的大多數(shù)Web頁面上的信息。

(3)數(shù)據(jù)的分析。在對鏈接頁面進(jìn)行搜索的過程中,經(jīng)常需要判斷信息的屬性或分析信息的價值,因為Web頁面上存儲了浩瀚的數(shù)據(jù),比如一些廣告信息,而有的數(shù)據(jù)并不是我們需要的。在此,我們可以利用基于正則表達(dá)式(regular expression)的詞法分析技術(shù)對采集到的Html代碼進(jìn)行語法分析,提取其中有效信息,例如出售的商品分類、規(guī)格、價格、數(shù)量、運(yùn)送方式、運(yùn)費(fèi)、出售人、曾經(jīng)購買過的用戶等。

(4)數(shù)據(jù)的保存。為了進(jìn)行最終的挖掘工作,我們需要把經(jīng)過分析的有效數(shù)據(jù)最終保存到數(shù)據(jù)庫當(dāng)中。一般選擇大型的數(shù)據(jù)庫管理工具,如SQL Server2005等。

(5)進(jìn)行挖掘。利用數(shù)據(jù)挖掘技術(shù)獲取有效的信息,對相關(guān)問題模式進(jìn)行驗證。

三、結(jié)束語

電子商務(wù)網(wǎng)站,無論是B/C模式還是C/C的,在網(wǎng)站頁面上都保存了大量用戶在交易過程中產(chǎn)生的信息,例如商品的規(guī)格、價格、展示、售后服務(wù)以及運(yùn)輸方式等等,還包括賣家的個人信息、信用情況,根據(jù)平臺的不同還有相應(yīng)的支付方式、法律條款等等。那么,利用爬蟲技術(shù),我們可以開發(fā)出一個獲得數(shù)據(jù)源的有效工具來進(jìn)行Web內(nèi)容挖掘。

當(dāng)然,在現(xiàn)實研究當(dāng)中,Web內(nèi)容挖掘是和Web結(jié)構(gòu)挖掘及Web訪問信息挖掘結(jié)合在一起使用的,它們相互補(bǔ)充,共同來挖掘出有用的信息。

參考文獻(xiàn):

[1]梁協(xié)雄雷汝煥曹長修:現(xiàn)代數(shù)據(jù)挖掘技術(shù)研究進(jìn)展.重慶大學(xué)學(xué)報,2004.3:p.21~26

[2]吳修琴:基于Web使用挖掘的個性化服務(wù)推薦:河北科技圖苑,2007.3

主站蜘蛛池模板: 欧美 国产 人人视频| 97超级碰碰碰碰精品| 免费看美女毛片| 91香蕉国产亚洲一二三区 | 天堂在线亚洲| 日本一区高清| 国产精品毛片在线直播完整版| 精品一区二区三区四区五区| 日韩在线欧美在线| 久久精品人人做人人爽电影蜜月 | 久久性妇女精品免费| 国产91精品久久| 99精品国产自在现线观看| 亚洲资源站av无码网址| 日韩无码黄色| 亚洲成a人片| 青青青视频免费一区二区| 91国内外精品自在线播放| 午夜a级毛片| 超碰aⅴ人人做人人爽欧美 | 亚洲美女一区二区三区| 国产噜噜在线视频观看| 亚洲午夜国产片在线观看| 无码区日韩专区免费系列| 三上悠亚精品二区在线观看| 天堂成人在线| 欧美综合一区二区三区| 毛片卡一卡二| 久久精品最新免费国产成人| 亚洲精品视频免费| 五月丁香在线视频| a毛片免费在线观看| 91精品国产91久久久久久三级| 国产人碰人摸人爱免费视频 | 视频国产精品丝袜第一页| 国产浮力第一页永久地址| 国产主播在线观看| 67194亚洲无码| 亚洲激情区| 亚洲V日韩V无码一区二区| 国产黄色免费看| 国产99在线观看| 91小视频在线播放| 国产成人高清精品免费| 日韩午夜伦| 国产色网站| 女人18毛片水真多国产| 国产精品久久久久久久伊一| 影音先锋丝袜制服| 国产精品久久久久久久伊一| 日本a级免费| 亚洲日韩精品无码专区| 久久久成年黄色视频| 亚洲 欧美 日韩综合一区| 被公侵犯人妻少妇一区二区三区| 99精品在线视频观看| 91在线播放免费不卡无毒| 午夜视频在线观看区二区| 久久成人18免费| 亚洲手机在线| 69av免费视频| 免费无码又爽又刺激高| 欧美 亚洲 日韩 国产| 国产网站免费看| 亚洲中文字幕在线观看| 亚洲精品国产首次亮相| 五月婷婷综合网| 国产免费人成视频网| 69综合网| 欧美日韩成人在线观看| 韩日免费小视频| 亚洲天堂视频网| 国产成人无码AV在线播放动漫| 永久免费精品视频| 久久99热66这里只有精品一| 国产精品伦视频观看免费| 国产成人超碰无码| 亚洲欧美激情小说另类| 韩日午夜在线资源一区二区| 免费全部高H视频无码无遮掩| 伊人欧美在线| 欧亚日韩Av|