999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)格環(huán)境下的數(shù)據(jù)挖掘體系設(shè)計

2008-01-01 00:00:00劉彥花吳湘濱
計算機時代 2008年1期

摘要:數(shù)據(jù)挖掘能幫助理解和發(fā)現(xiàn)數(shù)據(jù)中的隱含信息,然而,由于數(shù)據(jù)的多源性和地理分布性。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)很難適應(yīng)虛擬組織參與的復(fù)雜方案。文章在陳述數(shù)據(jù)挖掘與網(wǎng)格研究現(xiàn)狀的基礎(chǔ)上。提出了網(wǎng)格環(huán)境下的三層垂直類數(shù)據(jù)挖掘體系結(jié)構(gòu),詳細介紹了體系中的各種網(wǎng)格服務(wù)內(nèi)容,闡明了服務(wù)的橫向與縱向組合形式,并針對該體系結(jié)構(gòu)提出了基于Globus的實施設(shè)想。該設(shè)計為在網(wǎng)格環(huán)境中開展數(shù)據(jù)挖掘提供了新思路,具體實施則有待深入研究。

關(guān)鍵詞:網(wǎng)格;數(shù)據(jù)挖掘;數(shù)據(jù)挖掘網(wǎng)格體系結(jié)構(gòu);開放網(wǎng)格服務(wù)體系結(jié)構(gòu);Globus

0 引言

隨著通訊技術(shù)尤其是網(wǎng)絡(luò)的飛速發(fā)展,許多領(lǐng)域每天都產(chǎn)生并傳遞著大量的數(shù)據(jù)。由于網(wǎng)絡(luò)資源的地理分布性,這些數(shù)據(jù)通常表現(xiàn)為種類繁多、來源不同、格式不一、管理混亂等特點,大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,為改變“數(shù)據(jù)過剩”而又“信息貧乏”的困窘,很有必要對數(shù)據(jù)進行抽象與提取,以發(fā)現(xiàn)數(shù)據(jù)的本質(zhì)內(nèi)涵。數(shù)據(jù)挖掘領(lǐng)域已經(jīng)成功開展了這方面的研究,一些技術(shù)在原始數(shù)據(jù)中的應(yīng)用可發(fā)現(xiàn)有用的信息,使得最終用戶可以更好地理解信息。然而,這些技術(shù)通常只在集中或單一情況下才可取得很好的效果,由于數(shù)據(jù)挖掘任務(wù)的復(fù)雜性及與分布在多個組織的數(shù)據(jù)安全原因,數(shù)據(jù)挖掘的集中解決方案不適合目前地理分布的虛擬組織參與的大量多樣的數(shù)據(jù)。分布式數(shù)據(jù)挖掘系統(tǒng)雖然提高了多處理器和數(shù)據(jù)庫的使用效率,可加速數(shù)據(jù)挖掘的實施和數(shù)據(jù)分布進程,但沒有一個通用的策略來配置分布式數(shù)據(jù)挖掘環(huán)境,使每一步處理過程得到最優(yōu)化。網(wǎng)格計算作為一種新的技術(shù),被認為提供了一個新的框架,在此環(huán)境下可成功地進行數(shù)據(jù)挖掘,解決數(shù)據(jù)挖掘集中解決方案的局限性。

1 網(wǎng)格與數(shù)據(jù)挖掘研究現(xiàn)狀

網(wǎng)格(Cridd)是繼Interent和Web之后掀起的第三次網(wǎng)絡(luò)技術(shù)浪潮,也稱之為第三代因特網(wǎng)。網(wǎng)格之父Ian Foster認為網(wǎng)格的本質(zhì)是:共享+協(xié)作,即在多個機構(gòu)動態(tài)形成的虛擬組織中共享資源和協(xié)同解決問題。網(wǎng)格計算可認為是分布式大規(guī)模集群計算和網(wǎng)絡(luò)分布式并行處理的一種方式,通過它可實現(xiàn)互聯(lián)網(wǎng)上所有資源的全面連通。包括計算資源、存儲資源、通信資源、軟件資源、信息資源、知識資源等。所以它一直是高性能計算的—個研究熱點。許多應(yīng)用如協(xié)同工程、數(shù)據(jù)查詢、高吞吐量計算及分布式超級計算都將會受益于網(wǎng)格技術(shù)的發(fā)展。

從20世紀80年代末期以來,網(wǎng)格研究就吸引了眾多的注意力。從美國、日本等發(fā)達國家到印度這樣的發(fā)展中國家,都啟動了大型網(wǎng)格研究計劃。目前,美國已經(jīng)建成含有一百余個結(jié)點的民用網(wǎng)格,每個結(jié)點有幾十億到幾千億次的計算能力:美國軍方正規(guī)劃實施“全球信息網(wǎng)格(Global Information Caid)\",預(yù)計在2020年完成。國內(nèi)在網(wǎng)格方向上的研究起步稍晚,現(xiàn)已建成國家高性能中心下的國家高性能計算環(huán)境(NationalHigh Performance Computing Environment,NHPCE),也稱為國家計算網(wǎng)格,其目的在于將向全國范圍內(nèi)各行業(yè)和社會大眾提供各種一體化的高性能的計算環(huán)境和信息服務(wù)。在網(wǎng)格計算領(lǐng)域,已成立了Global Grid Forum,eGfid:European Grid ComputingInitiative等國際論壇。目前比較有影響的國際網(wǎng)格研究計劃有:Globus,Legion,Information Power Grid,Eurogrid,DistributedTerascale Facility等。

數(shù)據(jù)挖掘(Data Mining)就是從數(shù)據(jù)庫中抽取隱含的、未知的、具有潛在應(yīng)用價值的信息的過程。其名字源于它類似于在山脈中挖掘有價值的礦藏。1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上數(shù)據(jù)挖掘的概念被正式提出。隨后數(shù)據(jù)挖掘的研究成為熱點。在國外,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛地應(yīng)用于金融業(yè)、零售業(yè)、遠程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)以及體育事業(yè)等信息化程度較高的行業(yè)。國內(nèi)對數(shù)據(jù)挖掘的研究稍晚,1993年國家自然科學(xué)基金首次開始支持該領(lǐng)域的研究項目。近年來發(fā)展迅速,大多數(shù)研究項目是由政府資助進行的,如國家自然科學(xué)基金、863計劃、“九五”計劃等。當前,數(shù)據(jù)挖掘的研究方興未艾,隨著數(shù)據(jù)捕獲、傳輸和存儲技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用并行處理系統(tǒng)來挖掘市場以外的價值。因此,網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Internet上建立數(shù)據(jù)挖掘服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)數(shù)據(jù)挖掘?qū)⒊蔀楸臼兰o數(shù)據(jù)挖掘的研究熱點。

2 網(wǎng)格環(huán)境下的數(shù)據(jù)挖掘體系結(jié)構(gòu)設(shè)計

2.1 開放網(wǎng)格服務(wù)體系結(jié)構(gòu)

數(shù)據(jù)挖掘是一個復(fù)雜的處理過程,可通過多種方法加以實現(xiàn)。數(shù)據(jù)的分布式特征和信息共享的可擴展性使網(wǎng)格成為數(shù)據(jù)挖掘應(yīng)用較為合適的方案。開放網(wǎng)格服務(wù)體系結(jié)構(gòu)(OpenGrid Services At'cMtecture,OGSA)為網(wǎng)格環(huán)境數(shù)據(jù)挖掘的實施創(chuàng)造了條件。

開放網(wǎng)格服務(wù)體系結(jié)構(gòu)是Globus標準與以商用為主的Web Services的標準相結(jié)合的產(chǎn)物,是目前最新也最有影響力的—種網(wǎng)格體系結(jié)構(gòu),其目的就是將Cffid尤其是Olobus的一些功能融合到Web Sevice框架中。OGSA是面向服務(wù)的結(jié)果,即將所有事務(wù)都表示成一個Grid服務(wù),計算資源、存儲資源、網(wǎng)絡(luò)、程序、數(shù)據(jù)等都是服務(wù),所有的服務(wù)都聯(lián)系對應(yīng)的接口,通過標準的接口和協(xié)議支持創(chuàng)建、終止、管理和透明的服務(wù)。

2.2 數(shù)據(jù)挖掘網(wǎng)格體系結(jié)構(gòu)設(shè)計

數(shù)據(jù)挖掘網(wǎng)格體系整體上可采用一種垂直類結(jié)構(gòu)。縱向分三個層次:最底層為通用網(wǎng)格服務(wù),提供網(wǎng)格環(huán)境下的通用功能如信息服務(wù)、資源管理、安全管理等。中間層為數(shù)據(jù)網(wǎng)格服務(wù),是面向網(wǎng)格數(shù)據(jù)管理的服務(wù)。如最著名的數(shù)據(jù)網(wǎng)格GridFTP。最上層為數(shù)據(jù)挖掘網(wǎng)格服務(wù)。面向數(shù)據(jù)挖掘應(yīng)用的服務(wù)都被包括在該層中,這些服務(wù)通常與數(shù)據(jù)挖掘技術(shù)和算法相連接。例如,AprioriG服務(wù)就包含了Aprlorl算法功能。該層結(jié)構(gòu)又分三階段實現(xiàn)數(shù)據(jù)挖掘任務(wù):即預(yù)處理,數(shù)據(jù)挖掘和后處理階段,則圖1。

GRAM,Grid Resource Allocation MaIIager,遠程程序執(zhí)行的核心,提供實際啟動某個特定資源上的作業(yè)、檢查其狀態(tài)并在其完成后檢索其結(jié)果的服務(wù),即提供資源的申請和進程的創(chuàng)建,監(jiān)控和管理服務(wù);

GSI,Gdd Security Infrastructure,基于標準的PKI(PublicKey lnfrtmcture)技術(shù),為各種安全措施提供統(tǒng)一的框架,提供網(wǎng)格的介入驗證服務(wù);

CAS,Community Authorization Service,提供統(tǒng)一認證服務(wù),資源的提供者設(shè)置的權(quán)限控制策略管理;

MDS,Monitoring and Discovery Servi,提供關(guān)于網(wǎng)格中可用資源及其狀態(tài)的信息,具有處理資源動態(tài)注冊、查詢和發(fā)現(xiàn)等功能;

GridFrP,由Globus工作組開發(fā)的一種安全可靠的高性能網(wǎng)格文件傳輸協(xié)議,用來解決網(wǎng)格環(huán)境下批量數(shù)據(jù)的傳輸和復(fù)制,是網(wǎng)格環(huán)境中數(shù)據(jù)管理模塊的核心,可為其它上層的功能如RFr、GASS和RSL提供底層支持;

RFr,Reliable File Transfer Service,基于OGSA的服務(wù),提供接口監(jiān)控和管理兩個CaldFrP服務(wù)之間第三方數(shù)據(jù)的傳輸,即負責(zé)接收客戶端的傳輸請求,將請示存入數(shù)據(jù)庫,控制OridFrP服務(wù)器進行數(shù)據(jù)傳輸,保存?zhèn)鬏敔顟B(tài)信息,向用戶返回傳輸狀態(tài);

RSL,Replica Location Service,副本定位服務(wù),作為數(shù)據(jù)的分布式注冊服務(wù),記錄數(shù)據(jù)的地址信息。并且處理數(shù)據(jù)物理對象與邏輯對象之間的匹配;

GASS,Global Access t0 Secory Storage,輔助存儲全局訪問,提供遠程文件管理服務(wù);

SDFS。Specific Data Filtering Service,數(shù)據(jù)過濾服務(wù),由于數(shù)據(jù)挖掘中包含大量的數(shù)據(jù),需通過該服務(wù)過濾出有用的數(shù)據(jù);

SDRS。Specific Data Repfication Service,數(shù)據(jù)復(fù)制服務(wù),用于處理分布式環(huán)境下的數(shù)據(jù)復(fù)制工作;

SDCS。Specific Data Consistency Service,數(shù)據(jù)一致性服務(wù),維護網(wǎng)格環(huán)境下數(shù)據(jù)的一致性;

SDAS,Specific Data Access Service,數(shù)據(jù)訪問服務(wù),適應(yīng)網(wǎng)格環(huán)境下數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)訪問與集成網(wǎng)格服務(wù);

SDDS,Specific Data Discovery Service,數(shù)據(jù)發(fā)現(xiàn)服務(wù),提供網(wǎng)格中數(shù)據(jù)挖掘應(yīng)用的知識發(fā)現(xiàn);

AprioriG,基于Apriori數(shù)據(jù)挖掘算法的網(wǎng)格服務(wù),Apriori算法是發(fā)現(xiàn)關(guān)聯(lián)規(guī)則領(lǐng)域的經(jīng)典算法。關(guān)聯(lián)規(guī)則算法是數(shù)據(jù)挖掘的+重要研究方向,其側(cè)重于確定數(shù)據(jù)庫中不同領(lǐng)域間的聯(lián)系,找出滿足給定支持度和可信度的多個域之間的相互關(guān)系;

SSx:其它服務(wù),定義為在框架其它部分不發(fā)生改變的情況下,對網(wǎng)格通用服務(wù)或數(shù)據(jù)網(wǎng)格服務(wù)提供的其它特征進行管理的服務(wù);

Sx:其它數(shù)據(jù)挖掘服務(wù),即不是由基本網(wǎng)格服務(wù)提供的數(shù)據(jù)挖掘服務(wù)。如AprioriG服務(wù)。

2,3 數(shù)據(jù)挖掘網(wǎng)格服務(wù)組合

網(wǎng)格環(huán)境下大多數(shù)數(shù)據(jù)挖掘問題都包括了上述數(shù)據(jù)挖掘網(wǎng)格體系結(jié)構(gòu)中的多個服務(wù)。因此,體系應(yīng)具備服務(wù)組合的能力,即具有創(chuàng)建工作流的能力,允許多個服務(wù)有序,靈活高效地工作。服務(wù)組合可按橫向和縱向兩種方式創(chuàng)建。

橫向組合是指不同功能的服務(wù)組合,即被組合的服務(wù)的功能是不同的,這種組合依賴于數(shù)據(jù)挖掘進程劃分。

縱向組合是指相同的被復(fù)制的服務(wù)被組合在一起,這樣被組合的服務(wù)具有相同的功能,可訪問數(shù)據(jù)的不同部分。數(shù)據(jù)在位置上是地理分布的,每一個服務(wù)綁定到一個專門的數(shù)據(jù)分區(qū)。縱向組合依賴于使用的數(shù)據(jù)挖掘算法,其主要目的是加速數(shù)據(jù)挖掘處理過程的實施。

2.4 基于Globus的數(shù)據(jù)挖捆網(wǎng)格體系實施設(shè)想

Globus是美國Argonne國家實驗室的研發(fā)項目,Globus對資源管理、安全、信息服務(wù)及數(shù)據(jù)管理等網(wǎng)格計算的關(guān)鍵理論進行研究,開發(fā)能在各種平臺上運行的網(wǎng)格計算工具軟件,幫助規(guī)劃和組建大型的網(wǎng)格試驗平臺,開發(fā)適合大型網(wǎng)格系統(tǒng)運行的大型應(yīng)用程序,Toolkit是Globus最重要的成果。目前,Globus的技術(shù)已經(jīng)在NASA網(wǎng)格、歐洲數(shù)據(jù)網(wǎng)格、美國國家技術(shù)網(wǎng)格等多個項目中得到應(yīng)用,并已成了網(wǎng)格環(huán)境下的事實標準。實施數(shù)據(jù)挖掘網(wǎng)格體系,可選擇Globus作為網(wǎng)格基礎(chǔ)設(shè)施。擴展網(wǎng)格環(huán)境下Weka數(shù)據(jù)挖掘工具包。Weka是數(shù)據(jù)挖掘工作中機器學(xué)習(xí)算法的集成,它包含了所有數(shù)據(jù)挖掘階段的工具:數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘(如分類,回歸,聚類,聯(lián)合法則)和數(shù)據(jù)后處理。體系實施可分服務(wù)器模塊和客戶端模塊。 服務(wù)器模塊,負責(zé)按工廠模式創(chuàng)建數(shù)據(jù)挖掘網(wǎng)格服務(wù)實例,以執(zhí)行數(shù)據(jù)挖掘過程中每一個算法和階段的功能;

客戶端模塊,與應(yīng)用界面相連接,主要負責(zé)請求一個網(wǎng)格服務(wù)。 為實現(xiàn)該功能,客戶端模塊必須發(fā)送封裝好的數(shù)據(jù)到服務(wù)器模塊,該數(shù)據(jù)要與運行數(shù)據(jù)挖掘算法的數(shù)據(jù)對象相一致。例如,在Aptiori算法中,必須要發(fā)送相關(guān)的必要參數(shù)以構(gòu)建關(guān)聯(lián)規(guī)則。為儲存和檢索需求對象的狀態(tài),實施過程中可使對象串聯(lián)化,該特征允許Weka可擴展以支持集合與分散,從而訪問遠程對象。這一數(shù)據(jù)挖掘過程通過兩種服務(wù)的組合實現(xiàn):即AptioriG和GridFTP。第一個服務(wù)被用來構(gòu)建關(guān)聯(lián)規(guī)則,第二個服務(wù)允許串聯(lián)對象在節(jié)點之間進行傳輸,屬于橫向組合。

3 結(jié)束語

數(shù)據(jù)挖掘已成為科學(xué)和商業(yè)領(lǐng)域的熱點問題。然而,目前的數(shù)據(jù)挖掘方法不適于虛擬組織參與的復(fù)雜方案,網(wǎng)格計算技術(shù)可使這一問題得到解決,或者至少可以減輕。本文闡述了一個基于數(shù)據(jù)挖掘處理主要階段的垂直類數(shù)據(jù)挖掘網(wǎng)格體系結(jié)構(gòu),并在此基礎(chǔ)上提出以Globus作為網(wǎng)格基礎(chǔ)設(shè)施,擴展網(wǎng)格環(huán)境下Weka數(shù)據(jù)挖掘工具包的設(shè)想。數(shù)據(jù)挖掘和網(wǎng)格都是近年來數(shù)據(jù)處理領(lǐng)域的熱點問題,二者的有機結(jié)合必將為數(shù)據(jù)處理帶來新的生機。

主站蜘蛛池模板: 中文字幕 日韩 欧美| 美女无遮挡拍拍拍免费视频| 国产亚洲现在一区二区中文| 亚洲欧洲免费视频| 欧美色视频在线| 婷婷亚洲综合五月天在线| 欧美a网站| 免费又黄又爽又猛大片午夜| 亚洲国产综合自在线另类| 久久午夜夜伦鲁鲁片不卡| 国产精品999在线| 无码福利日韩神码福利片| 精品91在线| 久久国产精品无码hdav| 亚洲人成在线精品| 亚洲精品无码不卡在线播放| 日韩二区三区| 日韩123欧美字幕| 91原创视频在线| 亚洲色图另类| 一区二区三区高清视频国产女人| 在线播放真实国产乱子伦| 成年午夜精品久久精品| 伊人91在线| 欧美精品影院| 在线观看av永久| 国产精品福利一区二区久久| 在线免费亚洲无码视频| 99在线视频网站| 精品伊人久久久香线蕉| 国产特级毛片aaaaaa| 一本大道香蕉高清久久| 四虎亚洲精品| 日本少妇又色又爽又高潮| 成人毛片免费观看| 日本一本正道综合久久dvd| 国产成人成人一区二区| 国产精品美乳| 国产精品一老牛影视频| 成人无码区免费视频网站蜜臀| 国产人成网线在线播放va| 欧美一区二区精品久久久| 国产精品视频久| 国产无码网站在线观看| 亚洲精品你懂的| 欧美va亚洲va香蕉在线| 久久精品无码中文字幕| 91在线视频福利| 久久久久国色AV免费观看性色| 日韩精品一区二区三区swag| 亚洲—日韩aV在线| 在线播放91| 91免费国产高清观看| 国产第一页第二页| a天堂视频| 污网站在线观看视频| 精品免费在线视频| 国产91无码福利在线| 国产精品视频白浆免费视频| 欧美午夜视频在线| 国产一区二区人大臿蕉香蕉| 国产日本视频91| 男人天堂亚洲天堂| 亚洲天堂免费在线视频| 国产本道久久一区二区三区| 国产精品久久精品| 成人午夜在线播放| 亚洲欧美国产视频| 国产精品美女免费视频大全| 欧美三级不卡在线观看视频| 五月婷婷综合色| 一级福利视频| 亚洲一级色| 国产综合欧美| 国产流白浆视频| 国产成人高清精品免费软件| 天天激情综合| 秋霞午夜国产精品成人片| 亚洲制服丝袜第一页| 丁香五月亚洲综合在线| 最新国产午夜精品视频成人| 国产一区二区三区精品久久呦|