摘 要:介紹了基于數(shù)據(jù)網(wǎng)格的商務(wù)智能應(yīng)用的相關(guān)概念和關(guān)鍵技術(shù),重點(diǎn)討論了基于數(shù)據(jù)網(wǎng)格的商務(wù)智能的體系結(jié)構(gòu)和基本過程。
關(guān)鍵詞:數(shù)據(jù)網(wǎng)格; 商務(wù)智能; Globus; 開放網(wǎng)格服務(wù)結(jié)構(gòu)—數(shù)據(jù)訪問與集成; 可擴(kuò)展標(biāo)記語言
中圖分類號(hào):TN915.5文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001—3695(2007)03—0200—03
隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的快速發(fā)展,商務(wù)智能在企業(yè)的業(yè)務(wù)處理、績(jī)效管理和決策支持等方面都發(fā)揮了重要的作用。在實(shí)際應(yīng)用中,企業(yè)的數(shù)據(jù)通常存儲(chǔ)在各種不同的數(shù)據(jù)庫(kù)中,并且分布在不同的地方。為了充分利用這些數(shù)據(jù)資源,通常的做法是建立數(shù)據(jù)倉(cāng)庫(kù),將各個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)整合后統(tǒng)一存儲(chǔ),以備查詢分析所用。雖然數(shù)據(jù)倉(cāng)庫(kù)具有面向主題和集成性的優(yōu)點(diǎn),但是整合數(shù)據(jù)需要花費(fèi)大量的時(shí)間和資源,并且在實(shí)際應(yīng)用中,廣域分布的各種數(shù)據(jù)資源通常是動(dòng)態(tài)變化的,數(shù)據(jù)具有分布性和動(dòng)態(tài)性的特點(diǎn)。對(duì)于這些不斷變化的數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)不可能做到實(shí)時(shí)更新,無法滿足對(duì)數(shù)據(jù)的實(shí)效性和準(zhǔn)確性的要求。數(shù)據(jù)網(wǎng)格技術(shù)在這方面恰恰具有獨(dú)特的優(yōu)勢(shì),應(yīng)用數(shù)據(jù)網(wǎng)格技術(shù)可以不改變各數(shù)據(jù)庫(kù)的存儲(chǔ)方式,直接提取其中的數(shù)據(jù),屏蔽了數(shù)據(jù)庫(kù)之間的結(jié)構(gòu)差異;通過網(wǎng)絡(luò)直接訪問其中的數(shù)據(jù),實(shí)現(xiàn)了對(duì)分布式數(shù)據(jù)庫(kù)的統(tǒng)一操作。因此,為了提高從分布式異構(gòu)數(shù)據(jù)庫(kù)中獲取信息的效率,考慮在數(shù)據(jù)網(wǎng)格的基礎(chǔ)上搭建商務(wù)智能平臺(tái),使企業(yè)能更高效地利用各種信息資源,提高企業(yè)的競(jìng)爭(zhēng)力。
1 相關(guān)概念
1.1 數(shù)據(jù)網(wǎng)格
數(shù)據(jù)網(wǎng)格(Data Grid)是網(wǎng)格環(huán)境下共享和管理分布式數(shù)據(jù)資源的大規(guī)模、可擴(kuò)展的體系結(jié)構(gòu),它適應(yīng)數(shù)據(jù)密集型應(yīng)用對(duì)網(wǎng)格環(huán)境下的數(shù)據(jù)共享和處理的需要,為用戶提供了透明訪問遠(yuǎn)程異構(gòu)數(shù)據(jù)資源的機(jī)制[1]。
數(shù)據(jù)網(wǎng)格主要研究在廣域、異構(gòu)、分布環(huán)境下如何對(duì)數(shù)據(jù)進(jìn)行管理,如何從地理分布的各種異構(gòu)數(shù)據(jù)資源中獲取數(shù)據(jù)。數(shù)據(jù)網(wǎng)格可以看作是位于應(yīng)用程序和底層存儲(chǔ)系統(tǒng)之間的中間件。它為應(yīng)用程序提供一致的管理并使用存儲(chǔ)系統(tǒng)界面,屏蔽廣域操作的復(fù)雜性和廣域網(wǎng)絡(luò)上存儲(chǔ)系統(tǒng)的異構(gòu)性[1]。數(shù)據(jù)網(wǎng)格提供了一種如何方便高效地使用分布式異構(gòu)數(shù)據(jù)資源的解決方案。
1.2 商務(wù)智能
商務(wù)智能(Business Intelligence)是對(duì)商業(yè)信息的收集、管理和分析過程,目的是使企業(yè)的各級(jí)決策者獲得知識(shí)或洞察力,幫助他們作出對(duì)企業(yè)更有利的決策[2]。其工作原理主要是通過對(duì)數(shù)據(jù)進(jìn)行抽取、清洗、聚類、挖掘等分析處理來產(chǎn)生可透析的各種展示數(shù)據(jù)。這些數(shù)據(jù)可直觀地顯示分析者所探詢的某種經(jīng)營(yíng)屬性或市場(chǎng)規(guī)律。
商務(wù)智能可以看成是一種解決方案[3]。在它的幫助下,企業(yè)可以通過充分挖掘現(xiàn)有的數(shù)據(jù)資源,捕獲和分析信息,幫助企業(yè)管理者作出更好的商業(yè)決策。這不僅可以從中發(fā)現(xiàn)市場(chǎng)規(guī)律、預(yù)測(cè)未來的發(fā)展趨勢(shì)、預(yù)測(cè)和監(jiān)控風(fēng)險(xiǎn),而且還能輔助決策者發(fā)現(xiàn)新的利潤(rùn)增長(zhǎng)點(diǎn),優(yōu)化企業(yè)資源,從而幫助企業(yè)更加穩(wěn)健地實(shí)現(xiàn)經(jīng)營(yíng)和管理的目標(biāo)。
2 關(guān)鍵技術(shù)
2.1 Globus中間件系統(tǒng)
Globus是美國(guó)Argonne國(guó)家實(shí)驗(yàn)室的研發(fā)項(xiàng)目,全美有12所大學(xué)和研究機(jī)構(gòu)參與了該項(xiàng)目。Globus對(duì)資源管理、安全、信息服務(wù)及數(shù)據(jù)管理等網(wǎng)格計(jì)算的關(guān)鍵理論進(jìn)行研究,開發(fā)能在各種平臺(tái)上運(yùn)行的網(wǎng)格計(jì)算工具軟件(Toolkit),幫助規(guī)劃和組建大型網(wǎng)格試驗(yàn)平臺(tái),開發(fā)適合大型網(wǎng)格系統(tǒng)運(yùn)行的應(yīng)用程序。Globus是有效支持網(wǎng)格計(jì)算環(huán)境與網(wǎng)格應(yīng)用的中間件系統(tǒng),它為數(shù)據(jù)網(wǎng)格提供了一個(gè)運(yùn)行環(huán)境。Globus的組成部分包括網(wǎng)格安全基礎(chǔ)設(shè)施、資源分配管理、元計(jì)算目錄服務(wù)、全局二級(jí)存儲(chǔ)服務(wù)、網(wǎng)格FTP服務(wù)和復(fù)制管理[4]。
網(wǎng)格安全基礎(chǔ)設(shè)施負(fù)責(zé)廣域網(wǎng)絡(luò)下的安全認(rèn)證和加密通信,提供單點(diǎn)登錄、遠(yuǎn)地身份鑒別、數(shù)據(jù)傳輸加密等功能,是保證網(wǎng)格計(jì)算環(huán)境安全性的核心部分,為廣域分布的數(shù)據(jù)庫(kù)系統(tǒng)提供了安全可靠的數(shù)據(jù)訪問和數(shù)據(jù)傳輸。資源分配管理負(fù)責(zé)遠(yuǎn)程應(yīng)用的資源請(qǐng)求處理、遠(yuǎn)程任務(wù)調(diào)度處理、遠(yuǎn)程任務(wù)管理等工作,是網(wǎng)格環(huán)境中的任務(wù)執(zhí)行中心。網(wǎng)格FTP服務(wù)是一個(gè)高性能、安全可靠的數(shù)據(jù)傳輸協(xié)議,并針對(duì)廣域網(wǎng)絡(luò)環(huán)境進(jìn)行優(yōu)化,具備支持第三方傳輸、斷點(diǎn)續(xù)傳、并行傳輸?shù)忍卣鳎瑸閿?shù)據(jù)網(wǎng)格提供高效的數(shù)據(jù)傳輸服務(wù)。數(shù)據(jù)復(fù)制管理具有負(fù)責(zé)產(chǎn)生一個(gè)數(shù)據(jù)包的全部或部分?jǐn)?shù)據(jù)拷貝,將新拷貝注冊(cè)到復(fù)制文件目錄中等功能。
2.2 OGSA—DAI數(shù)據(jù)訪問服務(wù)
OGSA(Open Grid Services Architecture,開放網(wǎng)格服務(wù)結(jié)構(gòu))是一個(gè)面向服務(wù)的網(wǎng)格體系結(jié)構(gòu),它是Web Services與Grid技術(shù)結(jié)合的產(chǎn)物。它建立在網(wǎng)格服務(wù)的基礎(chǔ)上,將一切都抽象為服務(wù),包括計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)、程序、數(shù)據(jù)庫(kù)、儀器設(shè)備等。這種觀念有利于通過統(tǒng)一的標(biāo)準(zhǔn)接口來管理和使用網(wǎng)格,確保異構(gòu)系統(tǒng)間的互操作性[4]。
OGSA—DAI(OGSA Data Access and Integration)是由IBM、Oracle與愛丁堡、曼徹斯特和紐卡斯?fàn)柎髮W(xué)共同合作的項(xiàng)目。它的主要目標(biāo)是開發(fā)一種開源的數(shù)據(jù)庫(kù)訪問和集成的中間件,以滿足英國(guó)國(guó)家電子科學(xué)中心對(duì)發(fā)展網(wǎng)格和網(wǎng)格相關(guān)應(yīng)用的需要[5]。
OGSA—DAI服務(wù)使用三種主要的服務(wù)類型[6]:
(1)DAISGR(DAI Service Group Registry,DAI服務(wù)組注冊(cè)),用于發(fā)現(xiàn)數(shù)據(jù)資源。
(2)GDSF(Grid Data Service Factory,網(wǎng)格數(shù)據(jù)服務(wù)工廠),用于聲明數(shù)據(jù)資源。
(3)GDS(Grid Data Service,網(wǎng)格數(shù)據(jù)服務(wù)),用于存取數(shù)據(jù)資源。
圖1是OGSA—DAI服務(wù)框架,用以說明三種服務(wù)類型之間的關(guān)系。
OGSA—DAI具有許多適用于數(shù)據(jù)網(wǎng)格應(yīng)用的特點(diǎn)。它可以避免不必要的數(shù)據(jù)移動(dòng),為異構(gòu)數(shù)據(jù)資源(如關(guān)系型數(shù)據(jù)庫(kù)、XML數(shù)據(jù)庫(kù)、文本文件等)提供公共接口,并且使用的語言獨(dú)立于客戶端應(yīng)用程序。
2.3 XML技術(shù)
XML(eXtensible Markup Language)是一種用來描述數(shù)據(jù)的語言,提供獨(dú)立運(yùn)行程序的方法來共享數(shù)據(jù),不同的人能夠使用共同的DTD(Document Type Definition,文檔類型定義)來交換數(shù)據(jù)。XML能夠使不同來源的數(shù)據(jù)很容易地結(jié)合在一起,解決了數(shù)據(jù)的統(tǒng)一接口問題。
3 基于數(shù)據(jù)網(wǎng)格的商務(wù)智能系統(tǒng)
網(wǎng)絡(luò)環(huán)境下的各種數(shù)據(jù)資源分布在地理位置不同的各個(gè)地方,并且數(shù)據(jù)本身也是動(dòng)態(tài)變化的。針對(duì)數(shù)據(jù)資源的這種分布性和動(dòng)態(tài)性特點(diǎn),基于數(shù)據(jù)網(wǎng)格的商務(wù)智能系統(tǒng)可以不再局限于傳統(tǒng)的集中式數(shù)據(jù)存儲(chǔ)方式,而是通過網(wǎng)格平臺(tái)直接操作各種數(shù)據(jù)資源,使商務(wù)智能應(yīng)用具有分布性、動(dòng)態(tài)性和自適應(yīng)性等特點(diǎn)。
3.1 基于數(shù)據(jù)網(wǎng)格的商務(wù)智能系統(tǒng)的體系結(jié)構(gòu)
基于數(shù)據(jù)網(wǎng)格的商務(wù)智能系統(tǒng)采用分布式組件架構(gòu),組件之間可以實(shí)現(xiàn)互相通信和數(shù)據(jù)交換。這種基于分布式組件技術(shù)的體系結(jié)構(gòu)具有更大的彈性,包括集成不同協(xié)議和應(yīng)用程序接口;能夠提高系統(tǒng)的抽象性、可靠性和可擴(kuò)充性。采用上面介紹的相關(guān)技術(shù),可以在Globus平臺(tái)上部署OGSA—DAI服務(wù),使商務(wù)智能應(yīng)用程序通過數(shù)據(jù)網(wǎng)格服務(wù)提供的一組接口對(duì)底層數(shù)據(jù)資源進(jìn)行統(tǒng)一操作。
基于數(shù)據(jù)網(wǎng)格的商務(wù)智能系統(tǒng)體系結(jié)構(gòu)可分為三個(gè)層次:最底層是各種分布式異構(gòu)的數(shù)據(jù)資源,包括Oracle、SQL Ser—ver、MySQL等關(guān)系型數(shù)據(jù)庫(kù)、XML數(shù)據(jù)庫(kù)以及文本文件等;中間層是由OGSA—DAI與Globus構(gòu)成的數(shù)據(jù)網(wǎng)格中間件,它統(tǒng)一管理底層數(shù)據(jù)資源,屏蔽各種數(shù)據(jù)源之間的差異,為商務(wù)智能應(yīng)用程序提供透明訪問底層數(shù)據(jù)資源的接口;最上層是商務(wù)智能應(yīng)用程序,它可以采用標(biāo)準(zhǔn)的SQL語言向數(shù)據(jù)網(wǎng)格中間件發(fā)出查詢請(qǐng)求,由數(shù)據(jù)網(wǎng)格中間件對(duì)各種數(shù)據(jù)資源進(jìn)行操作,商務(wù)智能應(yīng)用程序負(fù)責(zé)對(duì)其提交的查詢結(jié)果進(jìn)行分析處理。由于OGSA—DAI服務(wù)返回的數(shù)據(jù)為XML文檔,加入XML文檔處理程序?qū)ζ溥M(jìn)行解析。
圖2是基于數(shù)據(jù)網(wǎng)格的商務(wù)智能系統(tǒng)體系結(jié)構(gòu)。它基本描述了在數(shù)據(jù)網(wǎng)格框架下應(yīng)用商務(wù)智能的工作過程和執(zhí)行機(jī)制。
3.2 基于數(shù)據(jù)網(wǎng)格的商務(wù)智能應(yīng)用的基本過程
根據(jù)上面描述的基于數(shù)據(jù)網(wǎng)格的商務(wù)智能系統(tǒng)體系結(jié)構(gòu),基于數(shù)據(jù)網(wǎng)格的商務(wù)智能應(yīng)用的基本過程分為以下幾步:(1)將OGSA—DAI服務(wù)裝載到Globus平臺(tái)上,形成數(shù)據(jù)網(wǎng)格中間件。負(fù)責(zé)接受商務(wù)智能應(yīng)用程序的調(diào)用,通過標(biāo)準(zhǔn)的SQL語句對(duì)各分布式異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行操作。
(2)將各種數(shù)據(jù)庫(kù)資源部署到OGSA—DAI服務(wù)中。通過OGSA—DAI的GUI把遠(yuǎn)程的Oracle、MySQL、SQL Server等數(shù)據(jù)庫(kù)資源注冊(cè)到OGSA—DAI服務(wù)中,用來接收OGSA—DAI的操作。
(3)商務(wù)智能應(yīng)用程序采用標(biāo)準(zhǔn)的SQL語言向OGSA—DAI發(fā)出各種查詢請(qǐng)求。
(4)OGSA—DAI將查詢得到的結(jié)果提交給XML文檔處理程序。XML文檔處理程序負(fù)責(zé)解析查詢得到的XML文檔,并以適當(dāng)?shù)谋硎痉绞綄?shù)據(jù)傳送給商務(wù)智能應(yīng)用程序。
(5)商務(wù)智能應(yīng)用程序?qū)ML文檔處理程序提交的數(shù)據(jù)進(jìn)行統(tǒng)一的分析處理。
4 基于數(shù)據(jù)網(wǎng)格的商務(wù)智能應(yīng)用實(shí)例
下面給出一個(gè)基于數(shù)據(jù)網(wǎng)格的商務(wù)智能應(yīng)用例子。它實(shí)現(xiàn)了基本的遠(yuǎn)程服務(wù)部署、數(shù)據(jù)庫(kù)操作、商務(wù)智能處理等功能。
某大型連鎖企業(yè)擁有數(shù)家分店,具有分布的異構(gòu)數(shù)據(jù)庫(kù),存儲(chǔ)各自的交易信息。企業(yè)為了了解客戶群體具有的某些特征,需要對(duì)所有客戶數(shù)據(jù)進(jìn)行分析處理。由于各分店數(shù)據(jù)量較大而且是異構(gòu)存儲(chǔ),把數(shù)據(jù)移植到數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行統(tǒng)一處理的成本較高。可以考慮采用數(shù)據(jù)網(wǎng)格的相關(guān)技術(shù)對(duì)分布式異構(gòu)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行智能分析處理。具體方法如下:
(1)構(gòu)建數(shù)據(jù)網(wǎng)格中間件。下載Globus Toolkit 4(GT4)軟件包并安裝在Eclipse開發(fā)工具上,然后再將GT4部署到Tomcat下,搭建好Globus平臺(tái)。下載OGSA—DAI軟件包并將其裝載到Globus平臺(tái)上,通過OGSA—DAI的圖形化用戶界面將各分店的遠(yuǎn)程數(shù)據(jù)庫(kù)資源部署到OGSA—DAI服務(wù)中。
(2)開發(fā)商務(wù)智能應(yīng)用程序。采用CLIQUE聚類算法[7]對(duì)客戶的購(gòu)買數(shù)量、購(gòu)買金額、購(gòu)買頻率等信息進(jìn)行分析,將客戶分成小型客戶、一般客戶、中等客戶和重點(diǎn)客戶。企業(yè)可以針對(duì)不同類型的客戶制定不同的銷售策略,故商務(wù)智能工具能夠?yàn)槠髽I(yè)的經(jīng)營(yíng)決策提供一定支持。
(3)在商務(wù)智能應(yīng)用程序與數(shù)據(jù)網(wǎng)格中間件之間建立接口,使商務(wù)智能應(yīng)用程序可以通過標(biāo)準(zhǔn)的SQL語言向數(shù)據(jù)網(wǎng)格中間件發(fā)出查詢請(qǐng)求,實(shí)現(xiàn)對(duì)各分店數(shù)據(jù)資源的透明訪問。
(4)應(yīng)用XML文檔處理程序使數(shù)據(jù)網(wǎng)格中間件能夠向商務(wù)智能應(yīng)用程序傳遞形式一致的遠(yuǎn)程數(shù)據(jù)資源。對(duì)OGSA—DAI服務(wù)查詢返回的XML文檔進(jìn)行解析,將解析后的數(shù)據(jù)傳送給商務(wù)智能應(yīng)用程序進(jìn)行分析處理。
該體系結(jié)構(gòu)可以在各分店數(shù)據(jù)不斷更新的情況下,對(duì)分布式異構(gòu)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行實(shí)時(shí)分析處理。應(yīng)用數(shù)據(jù)網(wǎng)格的相關(guān)技術(shù),能夠提高數(shù)據(jù)處理的質(zhì)量和效率,使商務(wù)智能更有效地發(fā)揮作用。
5 結(jié)束語
本文介紹了基于數(shù)據(jù)網(wǎng)格的商務(wù)智能應(yīng)用。結(jié)合Globus、OGSA—DAI、XML、數(shù)據(jù)挖掘等技術(shù),提出了基于數(shù)據(jù)網(wǎng)格的商務(wù)智能應(yīng)用的體系結(jié)構(gòu)及其基本過程。這種結(jié)構(gòu)將數(shù)據(jù)網(wǎng)格服務(wù)與商務(wù)智能系統(tǒng)緊密結(jié)合起來,有效地解決了商務(wù)智能應(yīng)用程序?qū)Ψ植际疆悩?gòu)數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)一操作的問題,極大地?cái)U(kuò)展了數(shù)據(jù)網(wǎng)格的應(yīng)用領(lǐng)域和商務(wù)智能的有效性。隨著數(shù)據(jù)網(wǎng)格和商務(wù)智能技術(shù)的不斷提高,基于數(shù)據(jù)網(wǎng)格的商務(wù)智能將會(huì)得到廣泛的應(yīng)用。
本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。