摘要:針對(duì)傳統(tǒng)數(shù)據(jù)網(wǎng)格信息服務(wù)的不足之處,在分析Web搜索引擎技術(shù)和基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù)基礎(chǔ)之上,結(jié)合這兩種信息獲取技術(shù),設(shè)計(jì)了數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)的體系結(jié)構(gòu)。在科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)中,利用開(kāi)源Lucene全文檢索軟件包,實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)的關(guān)鍵技術(shù)。
關(guān)鍵詞:網(wǎng)格信息服務(wù);Web搜索引擎;關(guān)鍵詞查詢;資源發(fā)現(xiàn)
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2007)07-0246-03
0引言
網(wǎng)格技術(shù)開(kāi)始于計(jì)算網(wǎng)格,現(xiàn)在大多數(shù)網(wǎng)格中間件的信息服務(wù)均以計(jì)算資源為中心,其信息服務(wù)的數(shù)據(jù)格式設(shè)計(jì)也都緊緊圍繞著如何有效地描述計(jì)算資源這一核心進(jìn)行。科學(xué)數(shù)據(jù)網(wǎng)格是一種數(shù)據(jù)網(wǎng)格,其目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)資源的有效共享和分布處理,其信息服務(wù)主要是為用戶提供便捷的信息獲取方式,快速定位到用戶感興趣的數(shù)據(jù)資源,并以有效的方式組織和顯示用戶感興趣的數(shù)據(jù)資源。計(jì)算網(wǎng)格信息服務(wù)中間件不能滿足科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)的需求。
傳統(tǒng)的數(shù)據(jù)網(wǎng)格信息服務(wù)主要通過(guò)管理元數(shù)據(jù)來(lái)提供目錄式的信息服務(wù)。元數(shù)據(jù)中包含的信息量有限,目錄式信息服務(wù)很難準(zhǔn)確、全面地返回用戶感興趣的數(shù)據(jù)資源信息。描述數(shù)據(jù)資源的元數(shù)據(jù)信息很大程度上也需要數(shù)據(jù)庫(kù)管理人員介入編寫(xiě),很不方便。隨著元數(shù)據(jù)信息的增加,管理元數(shù)據(jù)信息的集中式目錄信息服務(wù)系統(tǒng)的性能也將急劇下降。因此,考慮采用新的技術(shù)和方法來(lái)研究數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)。
本文主要在分析研究Web搜索引擎技術(shù)和基于關(guān)鍵詞的關(guān)系數(shù)據(jù)庫(kù)索引技術(shù)的基礎(chǔ)上,結(jié)合這兩種信息獲取技術(shù),設(shè)計(jì)一種適合于數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源的關(guān)鍵詞檢索發(fā)現(xiàn)的技術(shù)體系,使其能夠在科學(xué)數(shù)據(jù)網(wǎng)格這種分布式環(huán)境中有效地發(fā)現(xiàn)和組織關(guān)系數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)資源。
1相關(guān)技術(shù)
1.1Web搜索引擎技術(shù)
作為當(dāng)前最主要的互聯(lián)網(wǎng)信息獲取方式,Web搜索引擎可以讓用戶通過(guò)關(guān)鍵詞在浩瀚的網(wǎng)絡(luò)海洋中快速地找到自己感興趣的信息。一般搜索引擎結(jié)構(gòu)如圖1所示。
一般搜索引擎主要由采集器、索引器、檢索器、用戶接口以及文檔庫(kù)和倒排索引庫(kù)組成。采集器又稱(chēng)為網(wǎng)絡(luò)蜘蛛,主要通過(guò)HTTP協(xié)議遍歷互聯(lián)網(wǎng),抓取網(wǎng)頁(yè),并將網(wǎng)頁(yè)保存到文檔庫(kù)中;索引器對(duì)文檔庫(kù)中的HTML文檔進(jìn)行分詞、過(guò)濾等分析后,建立倒排索引,并將倒排索引文件保存到索引庫(kù)中;檢索器主要從索引庫(kù)中找出與用戶查詢請(qǐng)求相關(guān)的文檔集合;用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出界面。
1.2基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù)
SQL語(yǔ)言是存取關(guān)系數(shù)據(jù)庫(kù)中數(shù)據(jù)的主要界面。但是,對(duì)普通用戶來(lái)說(shuō),SQL語(yǔ)言既難學(xué)習(xí),又難使用。而且,用戶在用SQL語(yǔ)句查詢關(guān)系數(shù)據(jù)庫(kù)時(shí),必須知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的Schema。基于關(guān)鍵詞的數(shù)據(jù)庫(kù)檢索系統(tǒng),使用戶無(wú)須任何SQL語(yǔ)言和數(shù)據(jù)庫(kù)Schema的知識(shí),能夠像使用百度、Google那樣通過(guò)提交關(guān)鍵詞來(lái)獲取數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)。以EKSO系統(tǒng)為例來(lái)進(jìn)行分析。如圖2所示,EKSO系統(tǒng)由數(shù)據(jù)庫(kù)采集器、索引器和查詢請(qǐng)求處理器組成。采集器在遍歷數(shù)據(jù)庫(kù)時(shí),引入了文本對(duì)象來(lái)組織數(shù)據(jù)庫(kù)中相互關(guān)聯(lián)的關(guān)系表中的元組,并將文本對(duì)象中所有元組的文本屬性值連接起來(lái)形成虛擬文檔。索引器通過(guò)處理虛擬文檔,對(duì)所有的虛擬文檔建立索引,將虛擬文檔中的關(guān)鍵詞與相應(yīng)的文本對(duì)象鍵值聯(lián)系起來(lái)。查詢請(qǐng)求處理器與搜索引擎中的檢索器功能相似,主要負(fù)責(zé)處理用戶的關(guān)鍵詞查詢請(qǐng)求,并返回根據(jù)相關(guān)度排好序的結(jié)果。不同的是查詢請(qǐng)求處理器直接返回文本對(duì)象鍵值給用戶,讓用戶自己通過(guò)文本對(duì)象鍵值從數(shù)據(jù)庫(kù)中獲取相關(guān)的數(shù)據(jù)。
1.3開(kāi)源Lucene
Lucene是一個(gè)非常成功的開(kāi)放源代碼的全文檢索引擎工具包,提供了完整的全文檢索引擎架構(gòu),以方便軟件開(kāi)發(fā)人員在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索引擎。分析Lucene源碼結(jié)構(gòu),借鑒其設(shè)計(jì)和實(shí)現(xiàn)思路,利用并擴(kuò)展其工具包來(lái)實(shí)現(xiàn)科學(xué)數(shù)據(jù)網(wǎng)格的信息服務(wù)系統(tǒng)。
如圖3所示,Lucene由基礎(chǔ)結(jié)構(gòu)封裝、索引核心、對(duì)外接口三大部分組成。基礎(chǔ)結(jié)構(gòu)封裝是整個(gè)系統(tǒng)結(jié)構(gòu)的基石,主要定義了常用的數(shù)據(jù)結(jié)構(gòu)、算法和索引數(shù)據(jù)結(jié)構(gòu)中的概念類(lèi);索引核心直接操作索引文件,是系統(tǒng)結(jié)構(gòu)的重點(diǎn),主要是對(duì)索引文件操作和操作實(shí)現(xiàn)的封裝;對(duì)外接口是在索引核心基礎(chǔ)之上,對(duì)查詢操作和基于目標(biāo)系統(tǒng)的分詞等操作的封裝。
2結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)體系結(jié)構(gòu)的設(shè)計(jì)
2.1結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)框架
科學(xué)數(shù)據(jù)網(wǎng)格中包含大量分布的結(jié)構(gòu)化數(shù)據(jù)資源,為了有效地共享這些海量的結(jié)構(gòu)化數(shù)據(jù)資源,迫切需要基于這些數(shù)據(jù)內(nèi)容的檢索引擎,以方便科研工作者快速有效地定位到自己感興趣的數(shù)據(jù)資源。在充分借鑒和利用信息獲取技術(shù)成果的基礎(chǔ)上,結(jié)合Web搜索引擎技術(shù)和基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù),設(shè)計(jì)出數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)的技術(shù)框架。
如圖4所示,數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)系統(tǒng)主要由檢索引擎、采集器、索引編制與合并模塊、倒排索引庫(kù)和質(zhì)量權(quán)重計(jì)算模塊等組成。與該系統(tǒng)直接關(guān)聯(lián)的系統(tǒng)有科學(xué)數(shù)據(jù)網(wǎng)格數(shù)據(jù)訪問(wèn)服務(wù)系統(tǒng)(Data Access Service, DAS)。科學(xué)數(shù)據(jù)網(wǎng)格數(shù)據(jù)訪問(wèn)服務(wù)是對(duì)結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫(kù)提供統(tǒng)一訪問(wèn)接口的主要服務(wù)端軟件。數(shù)據(jù)訪問(wèn)服務(wù)提供了統(tǒng)一的網(wǎng)格服務(wù)接口,通過(guò)這些接口能夠訪問(wèn)異構(gòu)的多種關(guān)系數(shù)據(jù)庫(kù)。
2.2檢索引擎
檢索引擎模塊主要為用戶提供基于關(guān)鍵詞的查詢接口,以方便用戶定位自己感興趣的數(shù)據(jù)資源。檢索引擎的主要流程是對(duì)用戶輸入的關(guān)鍵詞進(jìn)行預(yù)處理,然后在倒排索引庫(kù)中進(jìn)行查詢分析,以確定與檢索請(qǐng)求相關(guān)的結(jié)構(gòu)化數(shù)據(jù)資源的集合,根據(jù)這些資源的質(zhì)量權(quán)值和關(guān)鍵詞的先后順序來(lái)計(jì)算其優(yōu)先權(quán)值,按照優(yōu)先權(quán)值從大到小的順序?qū)⒚械馁Y源條目返回給用戶。用戶得到的資源條目信息應(yīng)包含資源標(biāo)志符、資源訪問(wèn)位置和資源描述等。以關(guān)系數(shù)據(jù)庫(kù)中的關(guān)系表來(lái)定義資源單位,直接以數(shù)據(jù)庫(kù)服務(wù)域名加上關(guān)系表在數(shù)據(jù)庫(kù)中的全局標(biāo)志作為結(jié)構(gòu)化數(shù)據(jù)資源標(biāo)志符。
2.3采集器
采集器主要通過(guò)訪問(wèn)數(shù)據(jù)、訪問(wèn)服務(wù)的統(tǒng)一訪問(wèn)接口遍歷關(guān)系數(shù)據(jù)庫(kù)來(lái)采集數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)資源。采集器將通過(guò)數(shù)據(jù)訪問(wèn)服務(wù)獲取的各關(guān)系表中的文本字段連接起來(lái),形成文本文檔。系統(tǒng)規(guī)模不是太大時(shí),采集器將文本保存后,提交給索引編制與合并模塊建立索引。隨著數(shù)據(jù)網(wǎng)格中數(shù)據(jù)資源的不斷增長(zhǎng),信息服務(wù)系統(tǒng)需要在局域網(wǎng)中采用分布式的多個(gè)采集器,甚至通過(guò)機(jī)群來(lái)采集大量的結(jié)構(gòu)化數(shù)據(jù)資源。為了提高分布處理能力,此時(shí)采集器邊采集數(shù)據(jù)資源并將其轉(zhuǎn)換為文本文檔,邊對(duì)文檔建立索引,然后將索引模塊提交給索引合并模塊。
2.4倒排索引庫(kù)
倒排索引文件機(jī)制是一種面向關(guān)鍵詞的機(jī)制,利用它可以提高檢索效率。數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)的倒排索引與對(duì)文本正文的倒排索引相似,由關(guān)鍵詞詞典和倒排索引文件兩部分組成。與對(duì)正文的倒排索引不同,結(jié)構(gòu)化數(shù)據(jù)倒排索引文件的倒排表中保存的是關(guān)鍵詞出現(xiàn)的資源標(biāo)志符及頻率。
2.5索引編制與合并模塊
數(shù)據(jù)網(wǎng)格中通常包含海量的結(jié)構(gòu)化數(shù)據(jù)。為了提高整個(gè)系統(tǒng)的并行性,采集器將采集到的文本文檔進(jìn)行索引后,提交索引數(shù)據(jù)模塊給索引合并模塊,此時(shí)索引合并模塊可能會(huì)成為整個(gè)系統(tǒng)的瓶頸。當(dāng)前開(kāi)源的索引軟件包中大都采用增量索引算法。增量索引索算法不具備分布式環(huán)境下索引合并的能力。針對(duì)科學(xué)數(shù)據(jù)網(wǎng)格這種分布式環(huán)境的特點(diǎn),設(shè)計(jì)新的索引合并算法,并采用定期進(jìn)行索引合并的機(jī)制來(lái)提高系統(tǒng)檢索的效率。
2.6質(zhì)量權(quán)值計(jì)算模塊
關(guān)鍵詞查詢中得到的命中資源條目非常大,如何從中選出質(zhì)量高的數(shù)據(jù)資源優(yōu)先返回給用戶,即對(duì)搜索結(jié)果排序,是一個(gè)關(guān)鍵問(wèn)題,也是一個(gè)難點(diǎn)。檢索結(jié)果中數(shù)據(jù)資源質(zhì)量和該數(shù)據(jù)資源與用戶查詢請(qǐng)求的相關(guān)性,是對(duì)檢索結(jié)果中數(shù)據(jù)資源排序的重要依據(jù)。對(duì)建立索引的結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行評(píng)價(jià),并通過(guò)計(jì)算權(quán)值的方式將評(píng)價(jià)結(jié)果體現(xiàn)在用戶檢索結(jié)果的排序上,這對(duì)于提高資源發(fā)現(xiàn)的實(shí)際效果有著根本性的作用。在檢索結(jié)果與用戶查詢請(qǐng)求相關(guān)性的計(jì)算方面,借鑒Web搜索引擎的相關(guān)度計(jì)算方法。同時(shí),由于結(jié)構(gòu)化數(shù)據(jù)經(jīng)過(guò)系統(tǒng)的整理,評(píng)價(jià)其質(zhì)量權(quán)值比一般的非結(jié)構(gòu)化數(shù)據(jù)更具有意義,在檢索結(jié)果排序中應(yīng)占有很大的比重。主要從元數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的相互聯(lián)系兩個(gè)方面來(lái)設(shè)計(jì)質(zhì)量權(quán)值評(píng)價(jià)方法。例如,當(dāng)某關(guān)鍵詞出現(xiàn)在元數(shù)據(jù)中時(shí),對(duì)應(yīng)的資源標(biāo)志符就有更高的權(quán)值。還可以利用數(shù)據(jù)庫(kù)中關(guān)系表的外鍵聯(lián)系來(lái)建立聯(lián)系圖,圖中節(jié)點(diǎn)的質(zhì)量權(quán)值相互影響。
3關(guān)鍵技術(shù)的實(shí)現(xiàn)
3.1數(shù)據(jù)訪問(wèn)服務(wù)
數(shù)據(jù)訪問(wèn)服務(wù)在實(shí)現(xiàn)上采用了客戶端/服務(wù)端模式,由數(shù)據(jù)訪問(wèn)服務(wù)包、映射工具M(jìn)appingBuilder和客戶端DataView三部分組成。數(shù)據(jù)訪問(wèn)服務(wù)包是數(shù)據(jù)訪問(wèn)服務(wù)的服務(wù)器端,部署在各分布的關(guān)系數(shù)據(jù)庫(kù)服務(wù)器上,是數(shù)據(jù)訪問(wèn)服務(wù)的核心;MappingBuilder是在數(shù)據(jù)庫(kù)服務(wù)器之上建立具有統(tǒng)一訪問(wèn)接口的虛擬數(shù)據(jù)庫(kù)的映射工具;DataView是數(shù)據(jù)訪問(wèn)服務(wù)的Web客戶端。
3.2數(shù)據(jù)庫(kù)采集器
在實(shí)現(xiàn)上,數(shù)據(jù)庫(kù)采集器通過(guò)調(diào)用數(shù)據(jù)訪問(wèn)服務(wù)的編程接口來(lái)抓取部署了數(shù)據(jù)訪問(wèn)服務(wù)軟件的數(shù)據(jù)庫(kù)中的關(guān)系表。采集器首先通過(guò)數(shù)據(jù)訪問(wèn)服務(wù)的MappingBuilder接口,獲得數(shù)據(jù)庫(kù)的Schema;然后根據(jù)Schema調(diào)用數(shù)據(jù)訪問(wèn)服務(wù)的編程接口遍歷數(shù)據(jù)庫(kù)來(lái)抓取數(shù)據(jù)庫(kù)中的關(guān)系表。采集到的關(guān)系表由XML文檔組織。
在數(shù)據(jù)庫(kù)采集器中,文檔轉(zhuǎn)換處理主要是將采集到的結(jié)構(gòu)化的關(guān)系表轉(zhuǎn)換為便于建立索引的文本文檔。當(dāng)以數(shù)據(jù)庫(kù)中原始的關(guān)系表來(lái)定義資源的單位時(shí),文檔轉(zhuǎn)換處理直接去掉XML文件中的標(biāo)簽;然后建立起文檔與資源標(biāo)志符的聯(lián)系。但資源單位的粒度定義更小時(shí),就需要設(shè)計(jì)一個(gè)與基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引系統(tǒng)中的轉(zhuǎn)換算法類(lèi)似的文檔轉(zhuǎn)換算法。
3.3倒排索引庫(kù)
科學(xué)數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)的倒排索引由關(guān)鍵詞詞典和倒排索引文件兩部分組成。倒排索引文件的倒排表保存著關(guān)鍵詞出現(xiàn)的資源標(biāo)志符及頻率。在實(shí)現(xiàn)時(shí),直接在Lucene索引文件結(jié)構(gòu)的基礎(chǔ)上定義索引文件的數(shù)據(jù)結(jié)構(gòu)。資源標(biāo)志符占用的空間肯定比文檔編號(hào)占用的空間大。為了提高效率并節(jié)省空間,倒排索引文件的倒排表中仍保存關(guān)系表轉(zhuǎn)換后的文檔編號(hào),同時(shí)通過(guò)額外的空間來(lái)保存文檔編號(hào)到資源標(biāo)志符號(hào)的映射表。
3.4索引編制與合并
對(duì)從關(guān)系表轉(zhuǎn)換來(lái)的文本文檔建立索引,直接采用Lucene中的增量索引算法。該算法是傳統(tǒng)的索引構(gòu)建算法,由單文檔索引和索引歸并這兩個(gè)基本的算法構(gòu)成。增量索引算法的基本思想是對(duì)新加入的需要建立索引的文檔先建立臨時(shí)索引文件;然后將臨時(shí)索引文件歸并到索引庫(kù)中。增量索引算法中,歸并因子控制著歸并的頻度,歸并因子對(duì)歸并時(shí)所需的內(nèi)存也有直接影響。
當(dāng)數(shù)據(jù)網(wǎng)格中數(shù)據(jù)資源規(guī)模不大時(shí),數(shù)據(jù)采集器直接將轉(zhuǎn)換后的文本文檔提交給索引編制與合并模塊。科學(xué)數(shù)據(jù)網(wǎng)格中包含著大量的結(jié)構(gòu)化數(shù)據(jù)資源,其信息服務(wù)系統(tǒng)在局域網(wǎng)中采用分布式的多個(gè)采集器,索引合并模塊為一臺(tái)大容量的服務(wù)器。為了提高系統(tǒng)并行性,采集器邊采集結(jié)構(gòu)化的關(guān)系表并將其轉(zhuǎn)換為文本文檔,邊對(duì)這些文檔通過(guò)增量索引算法建立倒排索引;然后,采集器直接提交索引文件模塊給索引合并服務(wù)器。
增量索引算法中的合并機(jī)制不能滿足索引合并模塊的需求。在增量建立索引的過(guò)程中,會(huì)形成多個(gè)索引文件模塊,這對(duì)于檢索引擎必定會(huì)影響其檢索性能。當(dāng)索引文件作為采集器的結(jié)果提交給索引合并模塊時(shí),多個(gè)索引模塊很不方便。在Lucene軟件包的基礎(chǔ)上設(shè)計(jì)了新的索引合并算法,在每次索引合并后,索引庫(kù)中包含一個(gè)索引模塊。在索引庫(kù)文件作為采集器的結(jié)果提交給索引合并模塊之前,調(diào)用索引合并算法對(duì)采集器索引庫(kù)中的索引模塊進(jìn)行合并。為了提高效率,索引合并服務(wù)器定期調(diào)用索引合并算法,合并采集器提交的索引文件。
3.5檢索引擎
檢索引擎通過(guò)調(diào)用Lucene的檢索軟件包,復(fù)用Lucene的檢索引擎。Lucene檢索引擎返回的結(jié)果是查詢請(qǐng)求中關(guān)鍵詞出現(xiàn)的文檔編號(hào)的集合。通過(guò)查詢文檔編號(hào)與資源標(biāo)志符的映射表,將文檔編號(hào)集合轉(zhuǎn)換為資源標(biāo)志符集合。映射表在實(shí)現(xiàn)上,采用以文檔編號(hào)為鍵值的哈希表建立索引,因此轉(zhuǎn)換過(guò)程效率非常高;然后,檢索引擎模塊通過(guò)資源標(biāo)志符,從索引庫(kù)中取出每個(gè)命中資源標(biāo)志符相關(guān)的描述信息和資源訪問(wèn)位置(即資源所屬的數(shù)據(jù)訪問(wèn)服務(wù)端的標(biāo)志符);最后,檢索引擎模塊將資源標(biāo)志符、描述信息和資源訪問(wèn)位置返回給用戶。
檢索引擎返回結(jié)果中的排序算法,是Lucene檢索引擎中的默認(rèn)排序算法。本文根據(jù)數(shù)據(jù)資源的元數(shù)據(jù)信息,在建立索引過(guò)程中通過(guò)設(shè)置文本文檔和域的Boost值來(lái)影響排序結(jié)果。針對(duì)科學(xué)數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),利用元數(shù)據(jù)信息設(shè)計(jì)更合理質(zhì)量權(quán)值計(jì)算模塊和排序算法,是優(yōu)化檢索引擎的方向。
4結(jié)束語(yǔ)
針對(duì)傳統(tǒng)數(shù)據(jù)網(wǎng)格信息服務(wù)的不足之處,在充分借鑒和利用信息獲取技術(shù)最新成果的基礎(chǔ)上,結(jié)合Web搜索引擎技術(shù)和基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù),設(shè)計(jì)了適合數(shù)據(jù)網(wǎng)格信息服務(wù)的結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)的技術(shù)體系。在最新版本的科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)中,利用開(kāi)源Lucene全文檢索軟件包,實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)框架中的關(guān)鍵技術(shù)。
在科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)開(kāi)發(fā)的實(shí)踐中,不斷完善結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)的體系結(jié)構(gòu),細(xì)化研究體系結(jié)構(gòu)中用于技術(shù),是下一步工作的重點(diǎn)。
參考文獻(xiàn):
[1]FOSTER I,KESSELMAN C.網(wǎng)格計(jì)算[M]. 金海, 等譯.北京:電子工業(yè)出版社,2004.
[2]南凱,閻保平.科學(xué)數(shù)據(jù)庫(kù)系統(tǒng)平臺(tái)與e-Science[C]//科學(xué)數(shù)據(jù)庫(kù)與信息技術(shù)論文集:第7集.北京:中國(guó)環(huán)境科學(xué)出版社,2004.
[3]SERGEY B,LAWRENECE P.The anatomy of a large-scale hypertextual web search engine[C]//Proc of the 7th International World Wide Web Conference.[S.l.]:[s.n.],1998.
[4]HALOTIA G, HULGERI A, NAKHEY C, et al. Keyword searching and browsing in databases using BANKS[C]//AGRAWAL R,et al.Proc of the 18th Int’l Conf. on Data Engineering.San Jose: IEEE Press,2002.
[5]AGRAWAL S, CHAUDHURI S, DAS G.DBXplorer:a system for keyword-based search over relational databases[C]/AGRAWAL R,et al.Proc of the 18th Int’l Conf. on Data Engineering.San Jose: IEEE Press, 2002.
[6]HRISTIDIS V, PAPAKONSTANTINOU Y. Discver:keyword search in relational databases[C]//BERNSTEIN P A,et al.Proc of the 28th Int’l Conf. on Very Large Data Bases.Hong Kong: Morgan Kaufmann Publishers, 2002.
[7]HRISTIDIS V, GRAVANO L, PAPAKONSTANTINOU Y. Efficient IR-style keyword search over relational databases[C]//FREYTAG J C,et al.Proc of the 29th Int’l Conf. on Very Large Data Bases.Berlin: Morgan Kaufmann Publishers, 2003.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”