孫學(xué)軍
(1.山東大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 計算機(jī)應(yīng)用技術(shù)專業(yè),山東 濟(jì)南 250101;2.臨沂師范學(xué)院 費(fèi)縣分校,山東 費(fèi)縣 273400)
簡單說來,所謂電子商務(wù) (E lec tron ic Comm e rce)是利用計算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和遠(yuǎn)程通信技術(shù),實現(xiàn)整個商務(wù) (買賣)過程中的電子化、數(shù)字化和網(wǎng)絡(luò)化.人們不再是面對面的、看著實實在在的貨物、靠紙介質(zhì)單據(jù) (包括現(xiàn)金)進(jìn)行買賣交易.而是通過網(wǎng)絡(luò),通過網(wǎng)上琳瑯滿目的商品信息、完善的物流配送系統(tǒng)和方便安全的資金結(jié)算系統(tǒng)進(jìn)行交易或買賣.
電子商務(wù)是商業(yè)領(lǐng)域的一種新興商務(wù)模式,它是以網(wǎng)絡(luò)為平臺,以現(xiàn)代信息技術(shù)為手段,以經(jīng)濟(jì)效益為中心的現(xiàn)代化商業(yè)運(yùn)轉(zhuǎn)模式,其最終目標(biāo)是實現(xiàn)商務(wù)活動的網(wǎng)絡(luò)化、數(shù)字化和智能化.電子商務(wù)的產(chǎn)生改變了企業(yè)的經(jīng)營理念、管理方式和支付手段,給社會的各個領(lǐng)域帶來了巨大的變革,而電子商務(wù)的發(fā)展也使得公司內(nèi)部積累了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,為公司謀求更多潛在的利潤.利用功能強(qiáng)大的Web數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),提取出有效信息,進(jìn)而指導(dǎo)企業(yè)和商家調(diào)整營銷策略,給客戶提供動態(tài)的個性化的高效率服務(wù).
1.1 數(shù)據(jù)挖掘的定義.數(shù)據(jù)挖掘 (datamining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程,它包括存儲和處理數(shù)據(jù)、選擇處理大數(shù)據(jù)集的算法、解釋結(jié)果和使結(jié)果可視化等操作.
1.2 數(shù)據(jù)挖掘的方法.從商業(yè)的角度來看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù).數(shù)據(jù)挖掘的方法大致可以分成以下 4類:
(1)關(guān)聯(lián)分析:分析表面上不相關(guān)數(shù)據(jù)之間的內(nèi)在聯(lián)系,揭示各事之間的依賴性和相關(guān)性,分析范圍包括簡單關(guān)聯(lián)、因果關(guān)聯(lián)等.
(2)概括分析:即提取數(shù)據(jù)庫中指定的數(shù)據(jù)集合的一般特性,找出遍性規(guī)律.
(3)分類分析:設(shè)置分類規(guī)則,把各個事務(wù)或?qū)嶓w按照性質(zhì)和特征不同進(jìn)行歸類,把數(shù)據(jù)層次化和規(guī)整化,從而建立數(shù)據(jù)的分類模型.
(4)聚類分析:通過分析和歸納實體之間的特征差異,選出具有相似特征的實體聚合成為一個類,并用某種規(guī)則來描述該類的相同屬性,形成一種聚類規(guī)則,實際上,它是與分類分析法互逆的過程.
1.3 數(shù)據(jù)挖掘的過程.該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識.數(shù)據(jù)挖掘的過程通常有以下幾步:
(1)確定業(yè)務(wù)對象:清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的.挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的.
(2)數(shù)據(jù)準(zhǔn)備.該步驟主要是數(shù)據(jù)的選擇,即搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部的和外部的數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).
(3)數(shù)據(jù)挖掘:對所得到的并經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.該步除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.
(4)結(jié)果分析:解釋并評估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù).
(5)知識的同化:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.
Web數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術(shù)從Web文檔及Web服務(wù)中自動發(fā)現(xiàn)并提取人們感興趣的信息.它是一項綜合技術(shù),涉及 Internet技術(shù)、人工智能技術(shù)、計算機(jī)語言學(xué)、信息學(xué)、統(tǒng)計學(xué)等多個學(xué)科領(lǐng)域.Web數(shù)據(jù)挖掘是對數(shù)據(jù)挖掘的一種新的應(yīng)用,但又不同于傳統(tǒng)的數(shù)據(jù)挖掘.其主要區(qū)別在于:傳統(tǒng)的數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),并利用關(guān)系表等存儲結(jié)構(gòu)來挖掘知識;而Web挖掘的對象是半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù).
Web數(shù)據(jù)挖掘依靠它所挖掘的站點(diǎn)信息來源可以分為以下三種類型:
(1)Web內(nèi)容挖掘
Web內(nèi)容挖掘是指對站點(diǎn)的Web頁面內(nèi)容進(jìn)行挖掘.該類挖掘目前主要包括以下幾種方法:
①改進(jìn)傳統(tǒng)的 WWW 搜索引擎 ,包括 Lycos、Vista、WebCrawler、ALIWeb、MetaCrawler等.
②在WWW上更智能的提取信息的搜索工具,包括 IntelligentWeb Agent、Information Filtering/Categorization、Personalized Web A gen ts.
③數(shù)據(jù)庫方法:把半結(jié)構(gòu)化的Web信息重構(gòu)得更結(jié)構(gòu)化一些,然后就可以使用標(biāo)準(zhǔn)化的數(shù)據(jù)庫查詢機(jī)制和數(shù)據(jù)挖掘方法進(jìn)行分析.
④對 H TM L頁面內(nèi)容進(jìn)行挖掘,對頁面中的文本進(jìn)行文本挖掘,對頁面中的多媒體信息進(jìn)行多媒體信息挖掘.包括對頁面內(nèi)容摘要、分類、聚類以及關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等.
(2)Web訪問挖掘
Web訪問挖掘是對用戶訪問Web時在服務(wù)器方留下的訪問記錄進(jìn)行挖掘,即對用戶訪問Web站點(diǎn)的存取方式進(jìn)行挖掘.挖掘的對象是在服務(wù)器上的包括 Se rve r Log D a ta等在內(nèi)的日志文件記錄.目前,該類挖掘流行的手段包括路經(jīng)分析、關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)、聚類和分類、改進(jìn)Web站點(diǎn)的效率、實現(xiàn)個性化推薦、商業(yè)智能的發(fā)現(xiàn)、發(fā)現(xiàn)導(dǎo)航模式和抽取訪問信息特性等.
(3)Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是對Web頁面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘.在整個Web空間里,有用的知識不僅包含在Web頁面的內(nèi)容之中,而且也包含在頁面的鏈接結(jié)構(gòu)之中.例如,如果我們發(fā)現(xiàn)一個論文頁面經(jīng)常被引用,那么,這個頁面一定是非常重要的.發(fā)現(xiàn)的這種知識可以被用來改進(jìn)搜索引擎,如 PageRank和 C leve r方法等.
電子商務(wù)中Web數(shù)據(jù)挖掘的過程一般由 3個主要的階段組成:數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋.
(1)數(shù)據(jù)準(zhǔn)備這個階段又可進(jìn)一步分成 3個子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理.數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊數(shù)據(jù)準(zhǔn)備,這個階段又可進(jìn)一步分成為處理數(shù)據(jù)中的遺漏等.數(shù)據(jù)選擇目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量.預(yù)處理是為了克服日前數(shù)據(jù)挖掘工具的局限性.
(2)數(shù)據(jù)挖掘這個階段進(jìn)行實際的挖掘操作,包括的要點(diǎn)有:
①首先決定如何產(chǎn)生假設(shè);
②選擇合適的工具;
③發(fā)掘知識的操作;
④證實發(fā)現(xiàn)的知識.
(3)結(jié)果表述和解釋根據(jù)最終用戶的決策目的對提取的信息進(jìn)行分析,把最有價值的信息區(qū)分開來.并且通過決策支持工具提交給決策者.因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來,還要對信息進(jìn)行過濾處理,如果不能令決策者滿意,需要重復(fù)上述過程.
電子商務(wù)的產(chǎn)生,改變了企業(yè)的經(jīng)營理念,給社會的各個行業(yè)帶來了巨大的變化,已成為引導(dǎo)經(jīng)濟(jì)發(fā)展的新潮流.而數(shù)據(jù)挖掘的應(yīng)用又將極大地提高企業(yè)獲取信息的能力,使企業(yè)信息資源的價值得到充分地體現(xiàn).那么如何很好將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)中呢?我認(rèn)為應(yīng)主要從以下幾個方面進(jìn)行探討.
按電子商務(wù)目標(biāo)的不同,Web數(shù)據(jù)挖掘大致可分為 3類:以分析系統(tǒng)為目標(biāo);以設(shè)計系統(tǒng)為目標(biāo);以理解用戶意圖為目標(biāo).由于各目標(biāo)針對的功能不同,采取的主要技術(shù)也不同.究竟采取何種技術(shù),主要取決于以下三個方面:
(1)用戶的確定.用戶是指通過一個瀏覽器訪問一個或幾個服務(wù)器的個體.在Web數(shù)據(jù)挖掘中,對于實際使用要想確定唯一的一個用戶很難,這時我們可以把服務(wù)器日志、代理 (agen t)和參照 (refe rence)頁面日志結(jié)合起來確定一個用戶.
(2)用戶訪問序列的確定.它就是按照時間順序找出用戶請求的一系列頁面.一般服務(wù)器日志是以訪問用戶的 IP地址為輔鍵、訪問時間為主鍵排列的,因此,找出統(tǒng)一的 IP按時間訪問的頁面序列,就構(gòu)成了用戶訪問系列.用戶 session的確定,一次訪問中用戶訪問所有的頁面,最簡單的方法就是按時間的長度確定
(3)完善訪問路徑.由于存在著客戶端的緩存,用戶瀏覽頁面時能使用瀏覽器的后退功能,要根據(jù)用戶訪問的前后頁面進(jìn)行推理,將其疏漏的頁面補(bǔ)在路徑里.另外,執(zhí)行CG I程序時,由于其傳遞的參數(shù)不同,最后的輸出結(jié)果不同,必要時還要結(jié)合參數(shù)確定顯示的頁面內(nèi)容.
Web數(shù)據(jù)挖掘有利于合理建造網(wǎng)站及合理設(shè)計服務(wù)器,如輔助改進(jìn)分布式網(wǎng)絡(luò)系統(tǒng)的設(shè)計性能,在有高度相關(guān)的站點(diǎn)間提供快速有效的訪問通道;幫助更好地組織設(shè)計Web主頁;幫助改善市場營銷決策,如把廣告放在適當(dāng)?shù)腤eb頁面上或更好地理解客戶的興趣,這樣的知識將有助于商家制定促銷策略.
在電子商務(wù)中,客戶瀏覽信息被Web服務(wù)器自動收集并保存在訪問日志、引用日志和代理日志中.這些日志數(shù)據(jù)信息被組合應(yīng)用于計算機(jī)并行處理、神經(jīng)元網(wǎng)絡(luò)、模型化算法和其他信息處理技術(shù)手段.對此進(jìn)行分析加工,從中可得到商家用于向特定消費(fèi)群體或個體進(jìn)行定向營銷的決策信息.同時有效地對這些Web日志進(jìn)行定量分析,揭示其中的關(guān)聯(lián)關(guān)系、時序關(guān)系、頁面類屬關(guān)系、客戶類屬關(guān)系和頻繁訪問路徑、頻繁訪問頁面等,不但可為優(yōu)化Web站點(diǎn)拓?fù)浣Y(jié)構(gòu)提供參考,而且還可以為企業(yè)更有效地確認(rèn)目標(biāo)市場、改進(jìn)決策獲得更大的競爭優(yōu)勢提供幫助.
目前,應(yīng)用于電子商務(wù)的 Web數(shù)據(jù)挖掘工具有很多.其中,比較典型的主要有SurfAid、LeviStrauss、In te lligentM iner for Text、Analog、W UM 和 ACCRUE In sigh t 5等幾種工具.
下面是Web數(shù)據(jù)挖掘在電子商務(wù)中的幾點(diǎn)具體的應(yīng)用.
(1)發(fā)現(xiàn)潛在客戶:在對Web的客戶訪問信息的挖掘中,利用分類技術(shù)可以 Internet上找到未來的潛在客戶.通過分類技術(shù),對新訪問者的網(wǎng)頁瀏覽紀(jì)錄進(jìn)行分析,就可以判斷出該訪問者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無價值的過客,從而挖掘潛在客戶.
(2)提供優(yōu)質(zhì)個性化服務(wù):在網(wǎng)上,每一個銷售商對于客戶來說都是一樣的,那么如何使客戶在自己的銷售站點(diǎn)上駐留更長的時間,對銷售商來說將是一個挑戰(zhàn).為了達(dá)到這一目的,就應(yīng)該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,動態(tài)地調(diào)整Web頁面,以滿足客戶的需要.通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求.
(3)改進(jìn)站點(diǎn)設(shè)計:對Web站點(diǎn)的鏈接結(jié)構(gòu)的優(yōu)化可從三方面來考慮:(1)通過對Web Log的挖掘,發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,從而對密切聯(lián)系的網(wǎng)頁之間增加鏈接,方便用戶使用.(2)利用路徑分析技術(shù)判定在一個Web站點(diǎn)中最頻繁的訪問路徑,可以考慮把重要的商品信息放在這些頁面中,改進(jìn)頁面和網(wǎng)站結(jié)構(gòu)的設(shè)計,增強(qiáng)對客戶的吸引力,提高銷售量.(3)通過對Web Log的挖掘,發(fā)現(xiàn)用戶的期望位置.如果在期望位置的訪問頻率高于對實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導(dǎo)航鏈接,從而實現(xiàn)對Web站點(diǎn)結(jié)構(gòu)的優(yōu)化.
(4)聚類客戶:通過把具有相似瀏覽行為的客戶分為一組,并分析組中客戶的共同特征,可以幫助電子商務(wù)的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務(wù).
(5)廣告效益評價.利用Web挖掘?qū)Υ罅肯M(fèi)行為模式進(jìn)行分析,可精確地評價各種廣告手段的效益,并組合設(shè)計出最佳的商品宣傳組合方案,根據(jù)關(guān)心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率.
(6)搜索引擎的應(yīng)用:通過對網(wǎng)頁內(nèi)容的挖掘,可以實現(xiàn)對網(wǎng)頁的聚類和分類,實現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;通過用戶使用的提問式歷史記錄分析,可以有效地進(jìn)行提問擴(kuò)展,提高用戶的檢索效果 (查全率、查準(zhǔn)率);通過運(yùn)用Web挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,可以提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,改善檢索效果.
(7)網(wǎng)絡(luò)安全:分析網(wǎng)上銀行、網(wǎng)上商店交易用戶日志,可以防范黑客攻擊、惡意詐騙.
電子商務(wù)以所具有的開放性和全球性正逐步代替實物流,從而減少了人力、物力,減少了中間環(huán)節(jié),降低了成本,突破了時間和空間的限制,使得交易活動可以在任何時間、任何地點(diǎn)進(jìn)行,提高了效率.但是,在現(xiàn)實情況下,電子商務(wù)企業(yè)常常面臨著數(shù)據(jù)龐大而真正有效數(shù)據(jù)卻很少的困境.而利用Web數(shù)據(jù)挖掘技術(shù),可以從各種煩亂復(fù)雜的數(shù)據(jù)中挖掘出有效的信息,從而為企業(yè)的做出正確的決策提供支持,進(jìn)一步提高企業(yè)的競爭力,這樣可以有利于促進(jìn)企業(yè)開拓市場,優(yōu)化企業(yè)資源,提高企業(yè)的經(jīng)營效率和管理水平,為企業(yè)資源計劃 (ERP)、客戶關(guān)系管理 (CRM)、產(chǎn)品數(shù)據(jù)管理 (PDM)和商業(yè)信用評估等提供有效的技術(shù)途徑.
[1]方真等.電子商務(wù)教程[M].北京:清華大學(xué)出版社,2004.
[2]張云濤,龔鈴.數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[3]林瑞娟,侯德文.Web挖掘及其在電子商務(wù)中的應(yīng)用研究[J].計算機(jī)技術(shù)與發(fā)展,2006,16(8):186-188.[4]袁學(xué)松,宣賓.Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識與技術(shù),2006,14(8):78-79.
[5]張冬青.數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用問題研究[J].現(xiàn)代情報,2005(09).
[6]陸垂偉.電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].商場現(xiàn)代化,2006(04).
[7]龔曉君.數(shù)據(jù)挖掘算法研究及在電子商務(wù)中的應(yīng)用[D].杭州:浙江大學(xué),2005.