基于ＸＭＬ的Ｗｅｂ數(shù)據(jù)挖掘集成應(yīng)用研究

2008-12-31 00:00:00文燕平

商場(chǎng)現(xiàn)代化 2008年34期

[摘要] 針對(duì)目前企業(yè)實(shí)施Web數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題，提出利用XML屏蔽Web數(shù)據(jù)源的異構(gòu)性以及XML與Web挖掘技術(shù)在電子商務(wù)系統(tǒng)中集成應(yīng)用的解決方案，并對(duì)用分類技術(shù)發(fā)現(xiàn)潛在客戶群等應(yīng)用進(jìn)行了討論。

[關(guān)鍵詞] XML Web數(shù)據(jù)挖掘電子商務(wù)系統(tǒng)

一、數(shù)據(jù)挖掘與XML

數(shù)據(jù)挖掘就是從大量隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，通過(guò)數(shù)據(jù)抽取、轉(zhuǎn)換、分析和其他模型化處理，提取隱含在其中的有用信息和知識(shí)的過(guò)程。Web數(shù)據(jù)挖掘過(guò)程可粗略地分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋評(píng)估三個(gè)階段，其中每一個(gè)階段又包含若干個(gè)子階段(參見(jiàn)圖1)。

圖1 數(shù)據(jù)挖掘過(guò)程的一般步驟

XML（eXtensible Markup Language）是一種跨平臺(tái)可擴(kuò)展的數(shù)據(jù)描述語(yǔ)言，它是標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言SGML的一個(gè)簡(jiǎn)化子集，但克服了SGML的復(fù)雜性，將SGML的豐富功能與HTML的易用性結(jié)合起來(lái)，具有較強(qiáng)的描述數(shù)據(jù)和管理數(shù)據(jù)的能力，并憑借其良好的可擴(kuò)展性和自描述性、形式與內(nèi)容分離、對(duì)多語(yǔ)種支持等特點(diǎn)，給跨平臺(tái)跨地域異構(gòu)數(shù)據(jù)的集成帶來(lái)方便。XML的這種特性為處理電子商務(wù)系統(tǒng)中大量的異構(gòu)數(shù)據(jù)提供了可行性。

二、實(shí)施Web數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題及解決方法

1.異構(gòu)數(shù)據(jù)的轉(zhuǎn)換

電子商務(wù)系統(tǒng)服務(wù)器端的用戶文件目前主要是XML、HTML和關(guān)系數(shù)據(jù)等數(shù)據(jù)類型。從數(shù)據(jù)處理角度來(lái)看，關(guān)系數(shù)據(jù)模型過(guò)于嚴(yán)謹(jǐn)，無(wú)法有效地表示半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)；HTML對(duì)文檔的要求也過(guò)于完整，且不能定義數(shù)據(jù)的層次，沒(méi)有提供編程接口解析它所攜帶的數(shù)據(jù)，無(wú)法真正實(shí)現(xiàn)各種應(yīng)用程序、數(shù)據(jù)庫(kù)及操作系統(tǒng)間的數(shù)據(jù)交互。XML與關(guān)系數(shù)據(jù)模型和HTML相比，可以表示更多樣化的數(shù)據(jù)格式，能夠使不同來(lái)源的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)很容易地進(jìn)行合并。

采用XML集成多個(gè)不同數(shù)據(jù)源的信息，只需要把來(lái)自不同數(shù)據(jù)源的信息先轉(zhuǎn)成XML文檔，然后再處理經(jīng)過(guò)解析器解析的數(shù)據(jù)流即可。任何應(yīng)用程序只需要知道兩種格式，即本身的和XML的，就可以通過(guò)XML為中介實(shí)現(xiàn)與其他應(yīng)用程序的信息交換。

因此，在Web挖掘的數(shù)據(jù)預(yù)處理階段，用XML作為中間數(shù)據(jù)模型來(lái)屏蔽Web數(shù)據(jù)源的異構(gòu)性不僅是可行的，而且可以使異構(gòu)數(shù)據(jù)源能有效地集成應(yīng)用，從而較好地解決Web挖掘中的技術(shù)難題。

2.XML數(shù)據(jù)的查詢

XML描述的Web數(shù)據(jù)所具有的半結(jié)構(gòu)化特性對(duì)傳統(tǒng)的數(shù)據(jù)管理方式提出了挑戰(zhàn)，由于XML文檔數(shù)據(jù)具有特殊的樹(shù)型層次結(jié)構(gòu)，使得已有的數(shù)據(jù)查詢技術(shù)（如傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫(kù)方式的信息查詢、基于文本的信息檢索）不能很好地應(yīng)用于XML數(shù)據(jù)的查詢處理。本文采用文獻(xiàn)提出的基于結(jié)構(gòu)特征編碼模式的XML數(shù)據(jù)查詢算法—MatchSearch，能夠有效地對(duì)經(jīng)過(guò)上述轉(zhuǎn)換和數(shù)據(jù)抽取所得的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行多路徑查詢。

MatchSearch算法是基于傳統(tǒng)信息檢索技術(shù)中的字符串匹配算法提出的，其重點(diǎn)是對(duì)查詢語(yǔ)句的分支進(jìn)行判斷、處理。實(shí)際應(yīng)用中借鑒MatchSearch算法的基本思想，采用三元編碼模式，將XML文檔中的每個(gè)數(shù)據(jù)成分（元素、屬性、原子值）都用(name， path， branch)形式表示。其中，name表示數(shù)據(jù)成分的名稱或值，path以壓縮編碼的形式表示從文檔根節(jié)點(diǎn)到當(dāng)前數(shù)據(jù)節(jié)點(diǎn)的父節(jié)點(diǎn)的路徑，branch表示當(dāng)前數(shù)據(jù)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)。這種三元編碼形式不僅可以表示數(shù)據(jù)的內(nèi)容(由name表示)，還可以有效地表示XML數(shù)據(jù)的結(jié)構(gòu)(由path和 branch表示)，因此可以將XML文檔數(shù)據(jù)轉(zhuǎn)換為等價(jià)的以三元編碼模式表示的字符串形式。同理，基于路徑的XML數(shù)據(jù)查詢也可以表示成三元編碼形式的字符串。這樣，XML的數(shù)據(jù)查詢問(wèn)題就轉(zhuǎn)化為三元編碼形式的字符串匹配問(wèn)題。

此外，借鑒MatchSearch算法的基本思想，還可以利用三元編碼模式設(shè)計(jì)一種雙層的B+樹(shù)索引結(jié)構(gòu)，將路徑索引和數(shù)值索引合為一體，能夠進(jìn)一步提高索引的查詢速度。通過(guò)與有代表性的查詢優(yōu)化方法的對(duì)比實(shí)驗(yàn)，表明該方法能夠有效地提高針對(duì)半結(jié)構(gòu)化數(shù)據(jù)的多路徑查詢速度。

三、面向電子商務(wù)XML文檔的Web挖掘應(yīng)用

電子商務(wù)網(wǎng)站上的異構(gòu)數(shù)據(jù)經(jīng)過(guò)轉(zhuǎn)換為XML格式處理后，就可選用相應(yīng)的Web挖掘技術(shù)對(duì)數(shù)據(jù)集實(shí)施挖掘分析。

1.基于XML的Web挖掘集成應(yīng)用模型

由于Web上的電子商務(wù)信息多而雜，并且大多是非結(jié)構(gòu)化或半結(jié)構(gòu)化的，這就使得Web挖掘?qū)?shù)據(jù)的預(yù)處理過(guò)程要比普通的數(shù)據(jù)挖掘更為復(fù)雜，工作難度也更大。為此，筆者提出了一個(gè)基于XML的Web數(shù)據(jù)挖掘集成應(yīng)用模型（如圖1所示）。

圖2基于XML的Web數(shù)據(jù)挖掘應(yīng)用模型

該模型給出了基于電子商務(wù)服務(wù)器端數(shù)據(jù)實(shí)施Web數(shù)據(jù)挖掘集成應(yīng)用的基本思想和一般流程：將實(shí)現(xiàn)HTML文檔、關(guān)系數(shù)據(jù)向XML格式轉(zhuǎn)換的工具封裝為XML轉(zhuǎn)換器，將路徑分析、分類技術(shù)等Web數(shù)據(jù)挖掘技術(shù)封裝為Web數(shù)據(jù)挖掘器，并與處理XML的Java應(yīng)用編程接口（Java API for XML processing）等模塊集成，以中間件的形式植入電子商務(wù)系統(tǒng)解決實(shí)際應(yīng)用問(wèn)題。

需要說(shuō)明的是，目前Web數(shù)據(jù)挖掘的過(guò)程并非完全自動(dòng)的，上述應(yīng)用模型中有許多細(xì)節(jié)工作仍需要人工完成。

2.利用分類技術(shù)發(fā)現(xiàn)潛在客戶群體

分類是一種數(shù)據(jù)分析形式，可以用來(lái)抽取描述重要數(shù)據(jù)集合的模型，一般用于預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別。在電子商務(wù)系統(tǒng)中應(yīng)用分類技術(shù)，可以通過(guò)挖掘客戶群體中某些共同的特性而將客戶分成不同的類別，建立不同種類客戶之間的特征分類模型，進(jìn)而預(yù)測(cè)不同行為類別客戶的分布特征。

對(duì)一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō)，從眾多的訪問(wèn)者中發(fā)現(xiàn)潛在客戶群體非常關(guān)鍵。那么，如何通過(guò)Web挖掘來(lái)發(fā)現(xiàn)潛在客戶群體呢？可以應(yīng)用分類規(guī)則挖掘中的主要方法，如決策樹(shù)分類技術(shù)，先對(duì)客戶通過(guò)Web日志文件的處理和分類規(guī)則挖掘，識(shí)別出其各類的公共屬性，然后對(duì)一個(gè)新的客戶，依據(jù)分類規(guī)則進(jìn)行預(yù)測(cè)，確定是否為潛在的客戶。如果發(fā)現(xiàn)某些訪問(wèn)者為潛在客戶，就可以對(duì)這類客戶實(shí)施一定的策略，使他們盡快成為在冊(cè)客戶，從而使電子商務(wù)網(wǎng)站的訂單數(shù)增多，效益增加。

四、結(jié)束語(yǔ)

研究表明，數(shù)據(jù)挖掘工作60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上。這一方面說(shuō)明數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)要求的嚴(yán)格，但同時(shí)也啟示我們：如果能減少在數(shù)據(jù)準(zhǔn)備階段的工作量，也就意味著可以有效地減少整個(gè)數(shù)據(jù)挖掘過(guò)程的工作量。本文所提出的基于XML的Web數(shù)據(jù)預(yù)處理方法被實(shí)際應(yīng)用證實(shí)是一種有效的方法。

參考文獻(xiàn):

[1]陸汝鈐:人工智能[M].北京:科學(xué)出版社，2000.

[2]胡侃夏紹瑋:基于大型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采掘:研究綜述[J].軟件學(xué)報(bào)，1998，9(1)

[3]秦杰:Web環(huán)境中半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與查詢技術(shù)研究[D].國(guó)防科學(xué)技術(shù)大學(xué)研究生院，2005，9

[4]Alvaro R. Pereira Jr， Ricardo Baeza-Yates. Applications of a web information mining model to data mining and information retrieval tasks. 16th International Workshop on Database and Expert Systems Applications (DEXA'05) pp. 1031-1035.

商場(chǎng)現(xiàn)代化2008年34期

商場(chǎng)現(xiàn)代化的其它文章: 淺談對(duì)外經(jīng)貿(mào)與外貿(mào)英語(yǔ)人才的培養(yǎng); 旅游管理專業(yè)本科課程體系優(yōu)化研究; 參數(shù)假設(shè)檢驗(yàn)中的“逆向思維”; 探析抵債資產(chǎn)評(píng)估價(jià)值背離市場(chǎng)價(jià)格的原因和解決途徑; 股票期權(quán)激勵(lì)的主要形式及估值; 服裝出口企業(yè)退稅率政策調(diào)整下的稅務(wù)處理和對(duì)策思考