黃偉建,桑志超,杜 巍
(1河北工程大學(xué)信息與電氣工程學(xué)院,河北邯鄲 056038;2河北工程大學(xué)經(jīng)濟(jì)管理學(xué)院,河北邯鄲 056038)
隨著網(wǎng)絡(luò)的日益普及和迅速發(fā)展以及其所帶來的利益,越來越多的企業(yè)加入到電子商務(wù)的行列之中。網(wǎng)絡(luò)已經(jīng)形成了一個(gè)巨大的、具有重要潛在價(jià)值的信息空間。所面臨的難題是如何從這些復(fù)雜的大量的數(shù)據(jù)中找到對(duì)企業(yè)有價(jià)值的信息,解決信息獲取問題對(duì)電子商務(wù)的發(fā)展至關(guān)重要。傳統(tǒng)的獲取信息的方法—搜索引擎技術(shù)由于其搜索范圍較小、搜索結(jié)果命中率低、不能提供多媒體搜索服務(wù)以及不能提供個(gè)性化服務(wù),目前該技術(shù)已經(jīng)不能滿足電子商務(wù)對(duì)與信息和知識(shí)的需求。國(guó)內(nèi)以局部挖掘算法的設(shè)計(jì)、分析、改進(jìn)為研究的重點(diǎn),而很少研究數(shù)據(jù)挖掘系統(tǒng)自身的構(gòu)建、開發(fā)模式的種類等問題。本文從應(yīng)用出發(fā)提出了一個(gè)綜合Web服務(wù)和移動(dòng)Agent技術(shù)的挖掘架構(gòu),為電子商務(wù)中數(shù)據(jù)處理提供一個(gè)實(shí)時(shí)有效、跨平臺(tái)綜合利用、智能性和良好伸縮性的數(shù)據(jù)挖掘解決方案。
理論研究和應(yīng)用研究是當(dāng)下國(guó)內(nèi)外在此方面研究的兩個(gè)集中點(diǎn),與國(guó)外相比,我國(guó)對(duì)此方面的研究起步略晚。我國(guó)的研究重點(diǎn)主要集中在算法方面,例如算法的選擇、設(shè)計(jì)、分析和完善,在對(duì)Web挖掘系統(tǒng)的架構(gòu)的設(shè)計(jì)和模式開發(fā)方面的研究還較弱。
現(xiàn)有基于電子商務(wù)的web數(shù)據(jù)挖掘系統(tǒng)的不足之處如下:
分布性和實(shí)時(shí)性問題。目前大部分已經(jīng)存在的Web數(shù)據(jù)挖掘系統(tǒng)無法加載網(wǎng)絡(luò)功能,對(duì)處于分布環(huán)境中的數(shù)據(jù)無能為力。在算法和模式方面比較集中,要將分布在不同環(huán)境下的數(shù)據(jù)進(jìn)行整合分析,要求有高速的網(wǎng)絡(luò),并且耗時(shí)長(zhǎng),系統(tǒng)的實(shí)時(shí)性較差。
異構(gòu)數(shù)據(jù)庫環(huán)境問題。網(wǎng)絡(luò)上的任何一個(gè)站點(diǎn)都可以成為一個(gè)數(shù)據(jù)源,并且不同的數(shù)據(jù)源都是異構(gòu)的,數(shù)據(jù)的組織不一樣,由此這些數(shù)據(jù)源構(gòu)成了一個(gè)海量的異構(gòu)數(shù)據(jù)庫環(huán)境。要想對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,就要將這些不同的數(shù)據(jù)源上異構(gòu)的數(shù)據(jù)集成起來,才能進(jìn)行統(tǒng)一的挖掘。
可移植性問題。目前許多的電子商務(wù)環(huán)境下的Web數(shù)據(jù)挖掘系統(tǒng)都是為解決企業(yè)自己的商業(yè)需求,系統(tǒng)的體系架構(gòu)比較封閉單一,沒有更多的考慮到Web數(shù)據(jù)挖掘系統(tǒng)的可移植應(yīng)用需要。
半結(jié)構(gòu)化數(shù)據(jù)問題。電子商務(wù)系統(tǒng)中的數(shù)據(jù)非常的龐大,且每個(gè)數(shù)據(jù)源都有自己獨(dú)特的設(shè)計(jì),數(shù)據(jù)本身具有動(dòng)態(tài)可變性,與來自數(shù)據(jù)庫中的數(shù)據(jù)相比,數(shù)據(jù)源中的數(shù)據(jù)是一種半結(jié)構(gòu)化的數(shù)據(jù)。處理半結(jié)構(gòu)化的數(shù)據(jù)大大增加了挖掘的難度。
針對(duì)目前電子商務(wù)環(huán)境下的Web數(shù)據(jù)挖掘系統(tǒng)存在的不足,本文提出了電子商務(wù)環(huán)境下基于Web服務(wù)和移動(dòng)Agent的技術(shù)的Web挖掘系統(tǒng)架構(gòu)。Web服務(wù)的工作是封裝各種數(shù)據(jù)挖掘算法,移動(dòng)Agent的工作是攜帶相關(guān)信息遷移執(zhí)行任務(wù)組合Web服務(wù)應(yīng)用。
本架構(gòu)利用Web服務(wù)是分布式計(jì)算體系的優(yōu)點(diǎn),每個(gè)挖掘模塊都以獨(dú)立的形式在UDDI進(jìn)行注冊(cè)、發(fā)布。移動(dòng)Agent的一個(gè)優(yōu)勢(shì)是能夠攜帶數(shù)據(jù)信息實(shí)現(xiàn)從一個(gè)節(jié)點(diǎn)到另外一個(gè)節(jié)點(diǎn)的遷移,其自主性和克隆的特點(diǎn)都對(duì)實(shí)現(xiàn)分布式的Web服務(wù)非常有利,將兩者結(jié)合能實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。
在Web服務(wù)架構(gòu)中,服務(wù)提供者利用標(biāo)準(zhǔn)格式來創(chuàng)建所擁有服務(wù)的描述,并將該服務(wù)描述在UDDI中心進(jìn)行注冊(cè),同時(shí)也接收服務(wù)請(qǐng)求者有關(guān)服務(wù)調(diào)用的消息。服務(wù)請(qǐng)求者向注冊(cè)中心提出請(qǐng)求,查找服務(wù)描述,通過綁定服務(wù)提供者提供的接口請(qǐng)求調(diào)用服務(wù)。服務(wù)注冊(cè)中心擔(dān)當(dāng)?shù)慕巧欠?wù)請(qǐng)求者和服務(wù)提供者的中介,將二者聯(lián)系在一起。將Web服務(wù)和移動(dòng)Agent技術(shù)結(jié)合,可以將一個(gè)服務(wù)組合系統(tǒng)的工作過程看成為一個(gè)工作流,主要工作由移動(dòng)Agent承擔(dān),相關(guān)信息由其攜帶在網(wǎng)絡(luò)中游走,并和另外的Agent進(jìn)行交互合作,來實(shí)現(xiàn)所要達(dá)到的目標(biāo)。
現(xiàn)有的數(shù)據(jù)挖掘引擎的架構(gòu)主要分為嵌入式架構(gòu)和C/S式的挖掘架構(gòu)。但是這兩種架構(gòu)目前存在很多不足:嵌入式架構(gòu)對(duì)電子商務(wù)系統(tǒng)的依賴性很強(qiáng),要求的運(yùn)行環(huán)境和電子商務(wù)相同,挖掘引擎沒有良好的可移植性;C/S式的挖掘架構(gòu)雖然對(duì)應(yīng)用環(huán)境有較好的適應(yīng)性,但是采用這種形式的引擎只能以某種算法為核心,不能有效對(duì)算法進(jìn)行動(dòng)態(tài)管理。為滿足數(shù)據(jù)挖掘的需求,本文Web挖掘引擎將算法和引擎相分離以便于對(duì)算法進(jìn)行管理,并應(yīng)用Web服務(wù)和移動(dòng)Agent技術(shù),得到較好的挖掘效果。本引擎架構(gòu)中的模塊主要包括兩個(gè):管理模塊和算法調(diào)用模塊,見圖1。

算法發(fā)布Agent能夠傳遞特定的命令,這種命令由算法信息轉(zhuǎn)化而來能夠被Agent識(shí)別并被下一個(gè)Agent接受。下一個(gè)Agent被傳遞命令的A-gent激活,它會(huì)移向UDDI注冊(cè)中心,發(fā)送以一些與算法有關(guān)的請(qǐng)求,這些請(qǐng)求的內(nèi)容可以是更新算法或者除去某些算法等等。注冊(cè)中心會(huì)與遷移到此的Agent進(jìn)行信息交流,接受與算法有關(guān)的請(qǐng)求對(duì)其進(jìn)行封裝存儲(chǔ)相關(guān)的信息,這些信息包括算法的Web服務(wù)描述語言文檔、地址等相關(guān)信息。執(zhí)行至此,移動(dòng)Agent使命終結(jié),不再存在。
算法發(fā)現(xiàn)模塊與算法發(fā)布模塊的前期執(zhí)行過程大致相同,不同點(diǎn)是發(fā)送命令的內(nèi)容不同,向其后一個(gè)Agent發(fā)送的是與查詢算法有關(guān)的信息,然后激活它去執(zhí)行任務(wù)。移動(dòng)Agent也要與注冊(cè)中心的服務(wù)器進(jìn)行信息交流,目的是為了搜索算法。如果搜索到目標(biāo)算法,依據(jù)目標(biāo)算法在注冊(cè)中心存儲(chǔ)的信息和執(zhí)行任務(wù)的信息遷移至服務(wù)提供者,進(jìn)行信息交流,信息交流的過程可能是反復(fù)的,最終得到挖掘結(jié)果并返回。執(zhí)行至此,移動(dòng)A-gent使命終結(jié),不再存在。
該模塊的功能實(shí)際上已經(jīng)由移動(dòng)Agent實(shí)現(xiàn),移動(dòng)Agent代表服務(wù)請(qǐng)求者與服務(wù)提供者進(jìn)行交互,調(diào)用算法,并將挖掘結(jié)果返回。
依照以上的分析,本文在此將電子商務(wù)下Web挖掘系統(tǒng)的架構(gòu)分為三個(gè)層次,分別為:用戶層、數(shù)據(jù)層、數(shù)據(jù)挖掘?qū)印>唧w細(xì)節(jié)如圖2所示。

用戶層:用戶通過用戶層提供的接口與系統(tǒng)進(jìn)行交互,在提出挖掘請(qǐng)求前進(jìn)行數(shù)據(jù)挖掘的參數(shù)設(shè)置,并顯示挖掘之后的結(jié)果。在結(jié)果顯示之后,用戶可以對(duì)挖掘的結(jié)果進(jìn)行評(píng)估并且可多次利用知識(shí)庫中存儲(chǔ)的知識(shí)。
數(shù)據(jù)層:數(shù)據(jù)層收集數(shù)據(jù),并對(duì)收集到的數(shù)據(jù)進(jìn)行清洗集成形成數(shù)據(jù)倉庫。然后對(duì)數(shù)據(jù)倉庫的中的數(shù)據(jù)利用XML技術(shù)進(jìn)行數(shù)據(jù)處理,將數(shù)據(jù)轉(zhuǎn)換成方便進(jìn)行挖掘的存儲(chǔ)形式,形成特定數(shù)據(jù)集等待被挖掘。
挖掘?qū)?利用Web服務(wù)和移動(dòng)Agent技術(shù)進(jìn)行數(shù)據(jù)挖掘,得到模式的集合,并對(duì)模式集合進(jìn)行合理評(píng)價(jià)和解釋,將結(jié)果存入知識(shí)庫。評(píng)估之后將挖掘結(jié)果提供給用戶使用。
本系統(tǒng)利用Java技術(shù)來實(shí)現(xiàn)移動(dòng)Agent,采用JDBC數(shù)據(jù)庫技術(shù)和Web技術(shù)來實(shí)現(xiàn)平臺(tái)的無關(guān)性;利用JSP技術(shù)來實(shí)現(xiàn)動(dòng)態(tài)頁面,完成與系統(tǒng)使用者的信息交互;系統(tǒng)的運(yùn)行環(huán)境采用MyEclipse;數(shù)據(jù)庫采用SQL Server;利用Tomcat來模擬Web服務(wù)器。
當(dāng)網(wǎng)站的用戶在查詢商品信息時(shí),推薦模塊會(huì)根據(jù)收集到相關(guān)信息調(diào)用挖掘算法進(jìn)行數(shù)據(jù)挖掘,識(shí)別是否存在一些可推薦的商品,為客戶實(shí)現(xiàn)更個(gè)性、更全方位的服務(wù)。
1)Web挖掘算法以Web服務(wù)封裝的形式且與挖掘引擎相分離單獨(dú)進(jìn)行注冊(cè)和發(fā)布,使系統(tǒng)和算法實(shí)現(xiàn)松散耦合的目標(biāo)得以實(shí)現(xiàn),便于對(duì)算法庫的動(dòng)態(tài)管理,易于根據(jù)需求添加、刪除或者修改算法。
2)利用移動(dòng)Agent技術(shù)來遷移數(shù)據(jù),承擔(dān)一定的通信功能,降低了網(wǎng)絡(luò)通信的代價(jià),加強(qiáng)了挖掘系統(tǒng)的實(shí)時(shí)響應(yīng)能力。
3)本架構(gòu)不受異構(gòu)平臺(tái)的影響,得益于移動(dòng)Agent技術(shù)不依賴于限定形式的主機(jī)和傳輸層協(xié)議的特性。應(yīng)用于Web服務(wù)中的各種協(xié)議都是簡(jiǎn)單的、通用的,平臺(tái)之間的差異不會(huì)對(duì)其造成影響,每種程序設(shè)計(jì)語言都可以實(shí)現(xiàn)用Web服務(wù)封裝的算法,不受程序設(shè)計(jì)語言的制約。
[1]JIAWEI HAN,MICHELINE KAMBER,JIAN PEI.Data mining:concepts and techniques[M].Elsevier:Morgan Kaufmann,2011.
[2]林芳.基于數(shù)據(jù)挖掘建模語言的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)[J].制造業(yè)自動(dòng)化,2011,33(24):27-29.
[3]孫召偉,趙建利,朱東生.數(shù)據(jù)結(jié)構(gòu)中遞歸轉(zhuǎn)非遞歸算法分析及模型設(shè)計(jì)研究[J].河北科技大學(xué)學(xué)報(bào),2011,32(1):43 -46.
[4]李春梅,李艾丹,韓 爽,等.Web數(shù)據(jù)挖掘中數(shù)據(jù)異構(gòu)問題解決方法的研究[J].2012,44(4):85-90.
[5]茹蓓,肖云鵬,張俊鵬.基于Agent的移動(dòng)Web服務(wù)集成方案[J].計(jì)算機(jī)工程,2012,38(9):49-50.
[6]JIAWEI HAN,MICHELINE KAMBER,JIAN PEI.Data mining:concepts and techniques[M].Elsevier:Morgan Kaufmann,2011.
[7]莫學(xué)值,韋必忠.Web數(shù)據(jù)興趣區(qū)域數(shù)據(jù)挖掘過程分析[J].科技通報(bào),2013,54(10):135-138.
[8]劉永立,王海濤,孫維民,等.基于基礎(chǔ)數(shù)據(jù)庫的煤礦應(yīng)急救援指揮系統(tǒng)[J].黑龍江科技學(xué)院學(xué)報(bào),2010,21(1):44-47.
[9]陳遠(yuǎn),鄭珊.我國(guó)電子商務(wù)領(lǐng)域的研究熱點(diǎn)與主體結(jié)構(gòu)分析[J].情報(bào)科學(xué),2013,31(4):139-144.