劉 濱
(河北科技大學經濟管理學院,河北石家莊 050018)
隨著網絡(有線和無線)技術在計算、通信和安全等領域不斷產生重要突破,互聯網、移動網、廣電網、物聯網、視聯網等現代網絡及衍生業務迅速擴張,形成泛在于網絡空間的、包括各種數據和計算資源的分布式計算環境[1-2]。例如:互聯網的蓬勃發展,催生出豐富的網絡業務形態,如電子商務、電子政務、網絡教育、網絡游戲等,為各類組織迅速集聚起海量數據。為了最大化這些數據的價值,將其應用范圍從傳統的服務于業務處理、報表統計的事務服務層次擴展至知識服務層次,需要利用數據挖掘(data mining,DM)技術發現其中隱藏的模式或規則,用以指導和輔助生產或運營中的管理決策行為,以提高決策水平及決策收益。例如,在電子商務領域,研究基于關聯規則的購物籃分析方法[3],針對客戶動態地調整站點結構和網頁內容,有助于實現商品的關聯銷售;研究購買行為相似的客戶分類方法[4],有助于提供個性化服務以提高客戶滿意度;研究瀏覽行為相似的客戶聚類方法[5],有助于把握各類客戶的消費習慣和傾向,向其推薦特定商品和實現交叉銷售,既提高了營銷的目標性和有效性,又降低了營銷成本。
然而,這些互聯于網絡的數據源間普遍存在異構性、私有性和平臺兼容性等限制,兼因行業競爭和法律約束等因素(如個人或企業的數據隱私保護問題等)難于進行集中式挖掘[6],而分布式數據挖掘(distributed data mining,DDM)技術,通常被視為DM技術在分布式環境中的擴展,已經證明了其在應對以上問題時的有效性,并且,即便在數據非物理分布的條件下,DDM技術也能提高挖掘的效率。GIANNELLA等對分布式挖掘與集中式挖掘進行了比較,概括出了DDM的2點優勢[7]:
1)網絡通信開銷較少 在DDM過程中,在每個數據源處進行局部挖掘后,將中間結果(局部模式)而非數據傳輸到中央處理單元,以便整合出全局模式。與集中式DM需要傳輸局部數據源處的大量數據相比,DDM中僅需傳輸局部模式,網絡通信帶來的時空開銷更少;
2)安全性較好 對分布式環境下擁有各個局部數據源的組織而言,DDM過程中只需共享(傳遞)挖掘出來的局部模式而非全部數據,有助于更好地保護數據私有性。

圖1 分布式數據挖掘框架Fig.1 Distributed data mining framework
DDM在20世紀90年代后期逐漸被人們關注,通常被定義為分布式環境中的數據挖掘[8],或是利用分布式計算資源挖掘分布式數據資源,并對局部結果(模式)進行整合以得到最終結果(全局模式)[9]。在圖1中給出的DDM 高層架構中[10],顯然,最終結果的質量與局部數據源的類型、可用性、局部結果的質量及整合方法等密切相關。
DDM的實施未必都以站點間純粹獨立挖掘的方式進行,當某個(些)站點具備較強的計算、存儲和通信能力時,這個(些)站點可以匯聚其他站點的數據,形成“全局分布、局部集中”挖掘方式;此外,DDM中的數據也未必都來自于分布式數據源,對于擁有海量集中數據,同時擁有分布式站點(計算資源、存儲資源等)的組織來講,可以將數據分散到各站點,充分利用站點資源,實施分布式挖掘,獲得優于集中式挖掘的效率。
DDM通常適用于具有如下特征的場景中[11]:
1)系統包括多個具有獨立數據和計算資源的站點,站點間僅通過消息傳遞進行通信;
2)站點之間的通信開銷昂貴(否則,可以進行集中式DM了);
3)站點具有資源限制(例如,資源的可用時間、范圍等);
4)會考慮站點資源私有性保護(例如,數據資源的使用權限、可用范圍等)的問題。
當前,DDM研究與應用領域的主要挑戰如下[12-13]。
1)異構與同構挖掘 當源數據主要來自少數幾處站點,并且由相同的數據庫管理系統(data base management system,DBMS)和管理模式來維護時,大部分數據的結構(屬性、格式、單位等)規范而統一,此時,DM的主要開銷在于處理同構式數據;而當源數據內部存在大量異構數據時,則需要在挖掘前將各分布站點的數據轉變為全局一致的結構,否則,結構上的沖突在所難免(例如:同類同質數據卻分別歸于不同的屬性等)。
2)動態環境下的數據多變性 在傳統的挖掘過程中,數據通常被視為靜態的,挖掘工作在擁有足夠多數據的環境中進行。而隨著一些新興業務的發展,例如電子商務,與其相關的數據具有天然的時變性,即數據的產生、有效性等與時間值密切相關,挖掘結果也具有時間敏感性。由此知,在分布式環境下,將各個站點處時間敏感的、具有動態特征的局部挖掘結果正確傳送、聚集、整合具有一定的挑戰性。
3)通信開銷 集中挖掘條件下,挖掘算法通常結合系統的I/O開銷和CPU時間開銷進行設計。而在分布式數據環境中,站點間的通信開銷是影響挖掘效果的重要因素,和網絡帶寬、傳送的信息量等密切相關。
4)知識整合[14-15]DDM的最終目標是通過分析、整合局部模式來獲得最終的全局模式。就局部數據集的分析任務而言,可以采取現有的集中式挖掘的方法;而在整合局部結果方面,傳統的簡單整合的方法或許不再有效。例如,對某個或某些局部站點的有趣模式,放在全局層面來看,或許將不再具有價值。所以,為了整合出全局模式,有必要先收集全部的局部有趣模式,站在全局層面考察局部模式的價值。
5)語義異構 分布式數據源間普遍存在語義異構,而現有DDM模型大多根據數據源間結構上的同構或異構,假設它們是一張虛擬表的水平或垂直分割結果[11],對數據源的挖掘實際是以語義分割的方式獨立進行。當數據源間的語義距離較大時,將無法形成該虛擬表的構建基礎,由此推及,語義分割式的獨立挖掘將損害結果質量[16]。作為一種語義描述模型,本體有效而規范[17],在數據源本體構建相關的本體學習領域[18-20]和計算本體間相似度的本體匹配領域[21-23]積累了很多方法,為有效度量數據源間的語義距離奠定了基礎。
DDM是利用分布式計算資源挖掘分布式數據資源,通過整合局部結果以獲得全局知識的方法,主要瓶頸在于分布式數據環境下的挖掘限制和多算法協作問題,挖掘質量主要取決于局部結果的質量和整合方法的質量。基于以上共識,國內外學者引入Agent和網格等突破挖掘限制、引入元學習優化挖掘算法的選擇和組合、引入CDM(collective data mining)框架改善局部結果質量,取得了許多有代表性的成果,下面根據各自的主要設計理念進行歸類分析和綜述。
此類DDM系統的主要設計理念是利用Agent的自治性實現局部挖掘以保護數據私有性;利用Agent的主動性減少用戶參與以提高挖掘自動化水平;利用Agent的協作性實現多算法協同挖掘等[24]。
GAYA等給出了一個利用分布式Agent整合局部挖掘結果(Theory)的DATS(decentralized agentbased model for theory synthesis)模型[25],該模型由采用進化方法整合結果的 MASETS(multi-agent system for evolutionary theory synthesis)系統實現。其中,每個Agent的架構如圖2所示,其中,每個Agent包括4個模塊:分類模塊(對于給定的實例e,將其歸類于c)、通信模塊(通過消息與其他Agent通信)、學習模塊(從本地數據Di學習本地結果LT)、整合模塊(利用局部結果生成和修正全局結果GT)。
楊博等研究了在分布式動態網絡環境中挖掘社區關系問題,引入自組織Agent網絡,設計了面向自治計算的AOC(autonomy-oriented computing)方法進行分布式和增量式的網絡社區關系挖掘[26],AOC方法利用被動Agent在分布式動態進化網絡中協作式地偵測和更新社區結構。如圖3所示,社區網絡分布于5個不同位置的Agent間,每個Agent對于全網都有自己的局部視圖(包括在其控制下的點和從這些點連出的線)。分布式網絡社區挖掘的任務可以被描述為這5個Agent利用各自的視圖相互協作找出網絡中的全部社區。
以上2個研究側重于對Agent自治性和協作性的利用;MATEO等提出一個智能分布式架構和基于Agent的DM模型來實現自適應機制,以便實施DM算法和多Agent間的高效交互[27]。如圖4所示,DM模型基于Multi-Agent系統實現,包括3項DM功能:聚類、分類和關聯規則挖掘,來實施知識發現和系統需求的采集。
做法:1.準備適量的燕麥片,然后用溫水浸泡三個小時,加入少許蜂蜜,直至糊狀。2.將燕麥糊敷在手部,然后用保鮮膜包好整只手。等待8分鐘以后,取下保鮮膜,開始搓揉按摩手部。

圖2 Agent結構Fig.2 Agent′s architecture

圖3 分布式網絡社區挖掘問題示意Fig.3 A schematic representation of the d-NCMP
熊赟等設計的挖掘轉錄調節元素的TREMAgent(transcriptional regulatory element mining agent)系統[28],能對轉錄因子(transcription factor,TF)或轉錄因子結合位點(transcription factor binding site,TFBS)的預測,提供多種類的檢索和鑒別服務并及時更新結果。如圖5所示,TREMAgent包括4類Agent:1)算法Agent,與其他Agent交互以處理各類任務(查詢、檢索、挖掘);2)數據庫Agent,與外部數據源交互,它們也管理數據庫的本地拷貝并轉換為其他Agent可以訪問的格式;3)接口Agent,為其他3類Agent提供間接通信服務;4)協調Agent,在接口Agent和算法Agent間建立通信通道,派發任務給不同的Agent,協調處理和沖突。此外,協調Agent存儲每個Agent的信息,維護全系統的控制工作。

圖4 面向基于Multi-Agent間通信和協作的智能分布式框架的DM模型Fig.4 Data mining model for the intelligent distributed framework based on the communication and coordination of Multi-Agent

圖5 TREMAgent系統全景圖Fig.5 Overview of TREMAgent system
綜上所述,此類基于Multi-Agent的DDM系統中,多Agent間的通信和協作是影響挖掘效率的重要因素,而現有研究多側重于協作機制的設計,較少考慮Agent間的通信開銷。
基于網格的DDM系統的主要設計理念是利用網格在資源共享、開放服務和協同工作等方面的優勢,提高挖掘的可靠性和協同性;在網格計算環境中進行DM,也是通過共享局域和廣域網絡分享資源(計算和存儲等)的典型范例。由此可知,利用網格計算提高挖掘的性能、可擴展性、可訪問性和資源利用率是這個方向的主要發展動力。
STANKOVSKI等提出的數據挖掘網格(data mining grid,DMG)[29],基于面向服務的體 系 結 構 (service-oriented architecture,SOA)[30-31]、標準化和開源原則設計。采用了開放式網格服務體系 (open grid services architecture,OGSA)[32-33]和 Web 服 務 資 源 框 架 (web services resource framework,WSRF)[34-35]以支持其進化。圖6給出了DMG系統的4層體系架構,通常而言,高層次的組件會調用低層次的組件。最底層組件包括了軟件和硬件資源;Globus Toolkit 4層給出了一些系統的核心網格中間件組件;服務層給出了提供中樞DMG服務的組件;客戶組件層給出了DMG應用客戶端的組件。
為了應對“信息與數據重疊”的挑戰,楚一紅等提出了基于網格的子空間聚類算法(nonredundant subspace cluster mining,NORSC)[36],以便在保證必要數據覆蓋度的前提下高效發現間接的子空間距離。NORSC不僅能避免在給定數據大都歸屬于高維聚類情況下產生冗余聚類,而且在處理數據覆蓋問題時只有有限的信息丟失。圖7給出了NORSC算法流程圖。

圖6 DMG系統體系結構Fig.6 DMG system architecture

圖7 NORSC算法流程圖Fig.7 Flowchart of algorithm NORSC
羅杰文等系統分析了Agent網格面對的主要問題,實現了一個基于Agent網格的智能平臺(agent grid intelligent platform,AGrIP)[37],AGrIP平臺為網格環境中基于Agent的DDM提供了底層構造。同時,從實現的觀點出發,設計了一個面向AGrIP平臺的4層模型,如圖8所示。
1)公共資源層(Common Resources) 包括分布在網格環境中的各類資源,例如,工作站、PC機、計算集群、存儲設備、數據庫、數據集等,可以運行在Unix,Windows NT或其他操作系統平臺上。
2)Agent環境層(Agent Environment) 這是網格計算的核心層,負責資源定位、分派、驗證、統一信息訪問、通信、任務分配和Agent庫的管理等。
3)開發工具包層(Developing Toolkits)開發環境,包括Agent的創建、信息檢索、DDM,以便讓用戶更有效地使用網格資源。
4)應用服務層(Application Service) 包括部分面向特定應用的被組織起來的Agent,這些應用包括:科研信息化(E-Science)、電子商務、決策支持和生物信息等。
作為此類方法的基礎,網格技術在資源管理和任務調度方面尚有很大的研究空間,而與之關聯的負載平衡問題則是提高挖掘效率的關鍵問題[38]。

圖8 AGrIP的體系結構Fig.8 Architecture of AGrIP
其主要設計理念是通過元學習優化挖掘算法的選擇與組合,并對已獲知識進行多次學習以提高結果質量[39]。
HMIDA等 提 出 了 Weka4GML 框 架[40],它的建立基于 Globus工具包——一種支持WSRF標準,并被廣泛采用的網格中間件,服務于開發元學習方法以處理分布于數據網格間的數據集。Weka4GML擴展了Weka工具包[41-42](一個串行DM算法集,面向知識發現,包括標準的數據預處理、挖掘和可視化技術)來支持數據挖掘算法的分布式執行。如圖9所示,Weka4GML包括4種類型的節點:存儲節點、基分類節點、元分類節點和用戶節點。
1)存儲節點 包括分布式數據集的一個或多個片段,并將所存數據及其屬性作為Web服務發布,同時通過FTP服務器與其他網格節點分享本地數據。
2)基分類節點 通過在本地數據集上執行基分類算法挖掘局部模式。這些模式被用于各類數據集以進行預測,并將預測結果發送給元分類節點。
3)元分類節點 利用FTP服務器收集元數據,并在其上執行元級挖掘算法生成最終分類器。
4)用戶節點 提供系統的圖形界面允許用戶選擇Weka支持的算法,來對存儲節點上的數據集進行挖掘,執行網格上的元學習過程。

圖9 Weka4GML框架上執行的元學習過程Fig.9 Meta-learning process on Weka4GML framework
楊立等提出的SOA4KD(service oriented architecture for knowledge discovery)體系,結合元學習和語義網來選擇和執行挖掘算法[43]。其結構見圖10,其中數據服務層對應于“知識發現過程”定義(見文獻[43])中的F,知識發現算法服務層對應于“知識發現過程”定義中的L,KB0(knowledge base,背景知識庫)以領域本體的形式被放置于語義服務層中;此外,語義服務層中還包含了KDS(knowledge discovery service)質量本體、擴展的知識發現任務本體和回答本體。質量本體是一個可擴展的定義,它不僅包含“知識發現過程”定義中的確定程度C和感興趣程度I,還包含了KDS作為服務的一些通用測度和過程測度,這就保證了KDS質量評價的通用性、完整性和可擴展性,從而最大限度地滿足不同用戶多樣性的需求。基于自然語言擴展的知識發現任務本體是一個將知識發現任務和自然語言問題元素連接起來的擴展本體,結合領域本體,實現以自然語言方式獲取用戶需求,SOA4KD通過元學習器動態挑選出滿足用戶需求的最合適的知識發現算法服務并觸發執行,而回答本體的作用是將知識發現的結果轉化為自然語言,以方便用戶理解。
此類方法的主要局限在于,并非所有挖掘算法都能直接實現元學習。
其主要設計理念是將待學習的函數表示為一組基函數的分布式存在,允許各數據源選擇不同的學習算法,并以全局結果正確為前提減少網絡通信量。
KARGUPTA等提出了CDM框架,建立了基于異構站點的集合式挖掘系統BODHI(besizing knowledge through distributed heterogeneous induction)[44],并將CDM 應用于分布式聚集[45]和Bayes網絡[46]中,在解決無法正確生成構造全局結果所需的局部結果方面效果明顯。CDM方法的主要步驟如下:
1)在每個數據源站點生成正交基系數;
2)從每個站點選擇合適的數據樣本,傳送到一個專用站點,生成與非線性交叉項對應的標準正交基系數;
3)整合局部模型,將其變形為用戶描述出的正則表示中(符合用戶的輸出要求),輸出該最終模式;
4)此類方法需要先根據整體數據集合生成正交數據模型,成本較高,卻直接關系到最終結果的質量,而且其表述能力能否滿足需要也未能給出證明。

圖10 SOA4KD體系結構Fig.10 Architecture of SOA4KD
圖11給出了BODHI系統的結構圖,共包括4個基礎組件:1)獨立Agent,可以完成特定學習任務的自治實體;2)Agent站,負責提供Agent運行時環境,以及Agent與其他系統內站點間的通信;3)協調器,是Agent實例,負責各個Agent站間的協作通信;4)系統中傳遞的消息。

圖11 BODHI系統的全景圖Fig.11 Overall systems diagram for the BODHI system
第2部分中介紹的4類主要DDM方法,大多根據數據源間的結構關系(同構或異構)設定數據背景,較少考慮數據源間的語義關系及其可能引發的問題,例如,概念間的內在聯系因分布式環境而隱匿等,而這將導致局部結果的冗余性或無效性,或遺失潛在有用結果,進而影響全局結果的質量[16]。當前,雖然有涉及此類問題的研究,例如,文獻[16]根據頻繁項集計算數據源相似度,據此分組數據源并獨立挖掘各組,提高了挖掘質量。然而,頻繁項集的生成開銷正比于數據源規模,限制了該方法的可擴展性;并且,準確度量數據源間的語義關系,需要全面、深入地考察元素和結構距離并進行有效綜合。
綜上可知,現有DDM研究存在的共性問題有:
1)挖掘質量問題 不考慮各個站點數據源間的內在語義聯系,各站點獨立挖掘本地數據,與其他站點間無語義層面的數據交互和融合,形成純粹的“分割式”挖掘,最終導致全局結果質量受損。為此需要研究如何度量站點數據源間的內在語義距離,既從宏觀級(例如:數據文件級、數據庫級、數據表級等),也從微觀級(例如:元組級、屬性級、維度級等)度量這種語義距離,構建數據源間語義距離的復合量化體系,并能根據數據源間的語義距離改變或改善挖掘方式,從而提高局部結果的挖掘和整合質量,遞進式解決全局結果的質量問題;
2)挖掘效率問題 DDM系統也是分布式計算系統,同樣面對各個站點處的負載均衡、通信開銷縮減等問題,所以,DDM系統中的挖掘效率問題可以理解為如何調度資源以平衡挖掘負載、減少協作挖掘中的通信開銷問題。
作為語義網[47-48]的基礎,本體能為對象語義距離度量提供有效支持。2000年時,本體第1次被引入DM領域[49],主要被應用于領域和背景知識本體、DM過程本體和元數據本體[50]:1)領域和背景知識本體組織領域知識,在知識發現過程中的幾個階段具有重要作用;2)DM過程本體編輯挖掘過程描述,根據給定問題確定最適合的任務處理方法,例如,DM算法的確定和實施等;3)元數據本體則描述項目構造過程。本體的作用主要有:1)澄清了領域知識的結構,從而為知識表示打好基礎;2)為人和組織之間的通信提供共同的詞匯,使知識共享成為可能;3)在不同建模方法、范式、語言和軟件工具之間進行翻譯和映射,以實現不同系統之間的互操作和集成[51-52]。
在利用本體描述挖掘任務的領域背景方面,MARINICA等針對關聯規則挖掘中需要從海量規則中遴選有效規則的問題,提出了交互式的、用于刪減冗余規則的挖掘后處理方法ARIPSO(association rule inter-active post-processing using schemas and ontologies)[49],應用本體表達用戶的背景知識,在挖掘后處理時改善用戶知識的集成。圖12給出了ARIPSO的框架結構,包括2個部分:首先,利用知識庫規范化用戶知識和目標,通過領域知識展現用戶知識的概貌,通過用戶期望闡明用戶對被發現規則的先驗知識;其次,后處理任務包括迭代應用一系列的篩選器(最小化提升約束篩選器、條目關聯篩選器和模式篩選/裁剪)對規則集進行篩選,以提取出有價值的規則。
在利用本體描述DM過程本身方面,?AKOVá等針對在給定知識發現過程的輸入和輸出類型前提下,知識發現工作流的自動構造問題,提出了解決方法[53]。該方法包括2個步驟:1)通過知識發現本體定義知識類型和DM算法的規范化概念;2)利用領域和任務本體實現工作流組成的規范化。該方法的核心是由知識發現本體所提供的知識發現領域中的規范化概念。如圖13所示,該本體定義了知識發現的場景、各種知識的表示和算法,其基本目標是使得工作流計劃制定者能夠以之為根據,對于具體的DM任務選擇出可以產生中間和最終結果的算法。

圖12 ARIPSO系統框架Fig.12 ARIPSO Framework description

圖13 知識本體的部分上層結構(子類間的關系由箭頭指示)Fig.13 Part of the top level structure of the knowledge type part of the ontology with subclass relations shown through arrows
對DDM研究領域的研究現狀進行綜述,介紹了基本概念,結合實例對主要系統進行分類,歸納出主要問題與挑戰。通過本文的闡述可知,為了提升分布式挖掘過程中局部結果和最終結果的質量,策略之一就是將DDM理論和本體理論作融合,以數據源間語義距離的度量為突破口,建立語義距離度量的復合量化體系,通過構建和求解新型DDM模型來實現目標。具體路線:首先,利用本體描述數據源的語義特征;進而,基于本體匹配技術構建數據源間語義距離的復合量化體系,根據度量結果分組數據源,并依次構建層次化的挖掘模型、知識整合模型和負載平衡機制;最終,形成具有可操作性和可解釋性的DDM方法,并結合具體實例進行實驗驗證和仿真分析。
[1] DELAMARE S,FEDAK G,KONDO D,et al.SpeQuloS:A QoS service for BoT applications using best effort distributed computing infrastructures[A].Proceedings of the 21st International Symposium on High-Performance Parallel and Distributed Computing(HPDC’12)[C].New York:ACM,2012.173-186.
[2] PETER B,LI Y,THAIN D.Weaver:Integrating distributed computing abstractions into scientific workflows using Python [A].Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing(HPDC’10)[C].New York:ACM,2010.636-643.
[3] CHEN Jinlin,XIAO Keli.BISC:A bitmap itemset support counting approach for efficient frequent itemset mining[J].Transactions on Knowledge Discovery from Data,2010,4(3):1-37.
[4] GOES P,ILK N,YUE W T,et al.Live-chat agent assignments to heterogeneous e-customers under imperfect classification[J].Transactions on Management Information Systems,2011,2(4):1-15.
[5] DEODHAR M,GHOSH J.SCOAL:A framework for simultaneous co-clustering and learning from complex data[J].Transactions on Knowledge Discovery from Data,2010,4(3):1-31.
[6] LIU Bin,CAO Shugui,HE Wu.Distributed data mining for e-business[J].Information Technology and Management,2011,12(2):67-79.
[7] GIANNELLA C,BHARGAVA R,KARGUPTA H.Multi-agent systems and distributed data mining[A].Cooperative Information AgentsⅧ:8th International Workshop(CIA’04)[C].Berlin:Springer,2004.1-15.
[8] HAMMOUDA K M,KAMEL M S.Hierarchically distributed peer-to-peer document clustering and cluster summarization[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(5):681-698.
[9] LIU Kun,KARGUPTA H,RYAN J.Random projection-based multiplicative data perturbation for privacy preserving distributed data mining[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(1):92-106.
[10] PARK B H,KARGUPTA H.Distributed Data Mining:Algorithms,Systems,and Applications[M].Mahwah:Lawrence Erlbaum Associates,2002.
[11] DA S J C,GIANNELLA C,BHARGAVA R,et al.Distributed data mining and agents[J].Engineering Applications of Artificial Intelligence,2005,18(7):791-807.
[12] DAVIES W H E,EDWARDS P.Agent-based knowledge discovery[A].Working Notes of the AAAI Spring Symposium on Information Gathering from Heterogeneous,Distributed Environments[C].Stanford:Stanford University,1995.234-237.
[13] 莊 艷,陳繼明,徐 丹,等.基于 Multi-agent系統的分布式數據挖掘[J].計算機科學,2007,34(12):163-167.
ZHUANG Yan,CHEN Jiming,XU Dan,et al.Distributed data Mining based on Multi-agent system[J].Computer Science,2007,34(12):163-167.
[14] JASJIT S.Distributed R &D,cross-regional knowledge integration and quality of innovative output[J].Res Policy,2008,37(1):77-96.
[15] SUMNER M.How alignment strategies influence ERP project success[J].Enterprise Information Systems,2009(4):425-448.
[16] LI Tao,ZHU Shenghuo,OGIHARA M.A new distributed data mining model based on similarity[A].Proceedings of 2003ACM Symposium on Applied Computing[C].New York:ACM,2003.432-436.
[17] WASSIM J,NAJLA S,FAIEZ G.Approach and tool to evolve ontology and maintain its coherence[J].International Journal of Metadata,Semantics and Ontologies,2010,5(sup2):151-166.
[18] ZAVITSANOS E,PALIOURAS G,VOUROS G A.Gold standard evaluation of ontology learning methods through ontology transformation and alignment[J].IEEE Transactions on Knowledge and Data Engineering,2011,23(11):1635-1648.
[19] WEICHSELBRAUN A,WOHLGENANNT G,SCHARL A.Refining non-taxonomic relation labels with external structured data to support ontology learning[J].Data and Knowledge Engineering,2010,69(8):763-778.
[20] 劉凱鵬,方濱興.基于社會性標注的本體學習方法[J].計算機學報,2010,33(10):1823-1834.
LIU Kaipeng, FANG Binxing.Ontology induction based on social annotations [J].Chinese Journal of Computers,2010,33(10):1823-1834.
[21] NICOLA F,CLAUDIA D,FLORIANA E.Composite ontology matching with uncertain mappings recovery[J].ACM SIGAPP Applied Computing Review Archive,2011,11(2):17-29.
[22] MASCARDI V,LOCORO A,ROSSO P.Automatic ontology matching via upper ontologies:A systematic evaluation[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(5):609-623.
[23] LI Juanzi,TANG Jie,LI Yi,et al.RiMOM:A dynamic multistrategy ontology alignment framework[J].IEEE Transaction on Knowledge and Data Engineering,2009,21(8):1 218-1 232.
[24] SANTHANA C,KATIE A,FRANS C.Multi-agent based clustering:Towards generic multi-agent data mining[A].Proceedings of the 10th Industrial Conference on Advances in Data Mining:Applications and Theoretical Aspects(ICDM’10)[C].Berlin:Springer,2010.115-127.
[25] GAYA M C,GIRáLDEZ J I.Merging local patterns using an evolutionary approach[J].Knowledge and Information Systems,2011,29(1):1-24.
[26] YANG Bo,LIU Jiming,LIU Dayou.An autonomy-oriented computing approach to community mining in distributed and dynamic networks[J].Autonomous Agents and Multi-Agent Systems,2010,20(2):123-157.
[27] MATEO R M A,LEE J W.Data mining model based on multi-agent for the intelligent distributed framework[J].International Journal of Intelligent Information and Database Systems,2010,4(4):322-336.
[28] XIONG Yun,ZHENG Guangyong,YANG Qing,et al.A collaborative multiagent system for mining transcriptional regulatory elements[J].IEEE Intelligent Systems,2009,24(3):26-37.
[29] STANKOVSKI V,SWAIN M,KRAVTSOV V,et al.Digging deep into the data mine with DataMiningGrid[J].IEEE Internet Computing,2008,12(6):69-76.
[30] DAN A,JOHNSON R D,CARRATO T.SOA service reuse by design[A].Proceedings of the 2nd International Workshop on Systems Development in SOA Environments(SDSOA’08)[C].New York:ACM,2008.35-40.
[31] JOSUTTIS N.SOA in Practice[M].California:O'Reilly Media,2007.
[32] FOSTER I,KESSELMAN C,NICK J,et al.Grid services for distributed system integration[J].Computer,2002,35(6):37-46.
[33] NATHALIE F,WILLIAM L,ANTHONY M,et al.ICENI:An open grid service architecture implemented with Jini[A].Proceedings of the 2002 ACM/IEEE Conference on Supercomputing(Supercomputing’02)[C].Los Alamitos:IEEE Computer Society Press,2002.1-10.
[34] ZHANG Donglai,CODDINGTON P,WENDELBORN A.Web services workflow with result data forwarding as resources[J].Future Generation Computer Systems,2011,27(6):694-702.
[35] MOLTóI,HERNáNDEZ V,ALONSO J M.Automatic replication of WSRF-based Grid services via operation providers[J].Future Generation Computer Systems,2009,25(8):876-883.
[36] CHU Yihong,CHEN Yiju,YANG Denian,et al.Reducing redundancy in subspace clustering[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(10):1432-1446.
[37] LUO Jiewen,WANG Maoguang,HU Jun,et al.Distributed data mining on agent grid:Issues,platform and development toolkit[J].Future Generation Computer Systems,2007,23(1):61-68.
[38] HERRERO P,BOSQUE J L,PéREZ M S.Covering the cooperative load balancing delivery in collaborative grid environments[J].Multiagent and Grid Systems,2009,5(3):267-286.
[39] PRODROMIDIS A L,CHAN P K,STOLFO S J.Meta-learning in distributed data mining systems:Issues and approaches[A].Advances of Distributed Data Mining[C].California:MIT/AAAI Press,2000.81-114.
[40] HMIDA M B H,SLIMANI Y.Meta-learning in grid-based data mining systems[J].International Journal of Communication Networks and Distributed Systems,2010,5(3):214-228.
[41] BOUCKAERT R R,FRANK E,HALL M A,et al.WEKA-experiences with a java open-source project[J].The Journal of Machine Learning Research,2010,11:2533-2541.
[42] LIEVENS S,BAETS B D.Supervised ranking in the weka environment[J].Information Sciences,2010,180(24):4763-4771.
[43] 楊 立,左 春,王裕國.面向服務的知識發現體系結構研究與實現[J].計算機學報,2005,28(4):445-457.
YANG Li,ZUO Chun,WANG Yuguo.Research and implementation of service oriented architecture for knowledge discovery[J].Chinese Journal of Computers,2005,28(4):445-457.
[44] KARGUPTA H,PARK B,HERSHBERGER D,et al.Collective data mining:A new perspective toward distributed data mining[J].Advances in Distributed and Parallel Knowledge Discovery,1999,2:131-174.
[45] KARGUPTA H,HUANG W,SIVAKUMAR K,et al.Distributed clustering using collective principal component analysis[J].Knowledge and Information Systems,2001,3(4):422-448.
[46] CHEN R,SIVAKUMAR K,KARGUPTA H.Collective mining of bayesian networks from distributed heterogeneous data[J].Knowledge and Information Systems,2004,6(2):164-187.
[47] TIM B L,HENDLER J,LASSILA O.The semantic web[J].Scientific American,2001,284(5):34-43.
[48] SHADBOLT N,HALL W,TIM B L.The semantic web revisited[J].IEEE Intelligent Systems,2006,21(3):96-101.
[49] MARINICA C,GUILLET F.Knowledge-based interactive post mining of association rules using ontologies[J].IEEE Transaction on Knowledge and Data Engineering,2010,22(6):784-797.
[50] NIGRO H,CISARO S G,XODO D.Data Mining with Ontologies:Implementations,Findings and Frameworks[M].Hershey:Idea Group Inc,2007.
[51] 王春紅,劉紫玉.基于本體和多代理的考試系統模型研究[J].河北工業科技,2010,27(3):174-176.
WANG Chunhong,LIU Ziyu.Research in examination system model based on ontology and multi-agent[J].Hebei Journal of Industrial Science and Techology,2010,27(3):174-176.
[52] 張 娟,高克峰,張 曦.從文本中學習本體的系統設計[J].河北工業科技,2011,28(3):160-163.
ZHANG Juan,GAO Kefeng,ZHANG Xi.Design of system of learning ontology from texts[J].Hebei Journal of Industrial Science and Technology,2011,28(3):160-163.
[53] ?AKOVá M,KR RˇEMEN P,?ELEZN YˇF,et al.Automating knowledge discovery workflow composition through ontology-based planning[J].IEEE Transactions on Automation Science and Engineering,2011,8(2):253-264.