數(shù)據(jù)網(wǎng)格中信息服務(wù)技術(shù)的研究與實(shí)現(xiàn)

2007-12-31 00:00:00楊輝南凱馬永征閻保平

計(jì)算機(jī)應(yīng)用研究 2007年7期

摘要：針對(duì)傳統(tǒng)數(shù)據(jù)網(wǎng)格信息服務(wù)的不足之處，在分析Web搜索引擎技術(shù)和基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù)基礎(chǔ)之上，結(jié)合這兩種信息獲取技術(shù)，設(shè)計(jì)了數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)的體系結(jié)構(gòu)。在科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)中，利用開(kāi)源Lucene全文檢索軟件包，實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)的關(guān)鍵技術(shù)。

關(guān)鍵詞：網(wǎng)格信息服務(wù);Web搜索引擎；關(guān)鍵詞查詢；資源發(fā)現(xiàn)

中圖分類(lèi)號(hào)：TP393文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001－3695(2007)07－0246－03

0引言

網(wǎng)格技術(shù)開(kāi)始于計(jì)算網(wǎng)格，現(xiàn)在大多數(shù)網(wǎng)格中間件的信息服務(wù)均以計(jì)算資源為中心，其信息服務(wù)的數(shù)據(jù)格式設(shè)計(jì)也都緊緊圍繞著如何有效地描述計(jì)算資源這一核心進(jìn)行。科學(xué)數(shù)據(jù)網(wǎng)格是一種數(shù)據(jù)網(wǎng)格，其目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)資源的有效共享和分布處理，其信息服務(wù)主要是為用戶提供便捷的信息獲取方式，快速定位到用戶感興趣的數(shù)據(jù)資源，并以有效的方式組織和顯示用戶感興趣的數(shù)據(jù)資源。計(jì)算網(wǎng)格信息服務(wù)中間件不能滿足科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)的需求。

傳統(tǒng)的數(shù)據(jù)網(wǎng)格信息服務(wù)主要通過(guò)管理元數(shù)據(jù)來(lái)提供目錄式的信息服務(wù)。元數(shù)據(jù)中包含的信息量有限，目錄式信息服務(wù)很難準(zhǔn)確、全面地返回用戶感興趣的數(shù)據(jù)資源信息。描述數(shù)據(jù)資源的元數(shù)據(jù)信息很大程度上也需要數(shù)據(jù)庫(kù)管理人員介入編寫(xiě)，很不方便。隨著元數(shù)據(jù)信息的增加，管理元數(shù)據(jù)信息的集中式目錄信息服務(wù)系統(tǒng)的性能也將急劇下降。因此，考慮采用新的技術(shù)和方法來(lái)研究數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)。

本文主要在分析研究Web搜索引擎技術(shù)和基于關(guān)鍵詞的關(guān)系數(shù)據(jù)庫(kù)索引技術(shù)的基礎(chǔ)上，結(jié)合這兩種信息獲取技術(shù)，設(shè)計(jì)一種適合于數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源的關(guān)鍵詞檢索發(fā)現(xiàn)的技術(shù)體系，使其能夠在科學(xué)數(shù)據(jù)網(wǎng)格這種分布式環(huán)境中有效地發(fā)現(xiàn)和組織關(guān)系數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)資源。

1相關(guān)技術(shù)

1．1Web搜索引擎技術(shù)

作為當(dāng)前最主要的互聯(lián)網(wǎng)信息獲取方式，Web搜索引擎可以讓用戶通過(guò)關(guān)鍵詞在浩瀚的網(wǎng)絡(luò)海洋中快速地找到自己感興趣的信息。一般搜索引擎結(jié)構(gòu)如圖1所示。

一般搜索引擎主要由采集器、索引器、檢索器、用戶接口以及文檔庫(kù)和倒排索引庫(kù)組成。采集器又稱(chēng)為網(wǎng)絡(luò)蜘蛛，主要通過(guò)HTTP協(xié)議遍歷互聯(lián)網(wǎng)，抓取網(wǎng)頁(yè)，并將網(wǎng)頁(yè)保存到文檔庫(kù)中；索引器對(duì)文檔庫(kù)中的HTML文檔進(jìn)行分詞、過(guò)濾等分析后，建立倒排索引，并將倒排索引文件保存到索引庫(kù)中；檢索器主要從索引庫(kù)中找出與用戶查詢請(qǐng)求相關(guān)的文檔集合；用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出界面。

1．2基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù)

SQL語(yǔ)言是存取關(guān)系數(shù)據(jù)庫(kù)中數(shù)據(jù)的主要界面。但是，對(duì)普通用戶來(lái)說(shuō)，SQL語(yǔ)言既難學(xué)習(xí)，又難使用。而且，用戶在用SQL語(yǔ)句查詢關(guān)系數(shù)據(jù)庫(kù)時(shí)，必須知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的Schema。基于關(guān)鍵詞的數(shù)據(jù)庫(kù)檢索系統(tǒng)，使用戶無(wú)須任何SQL語(yǔ)言和數(shù)據(jù)庫(kù)Schema的知識(shí)，能夠像使用百度、Google那樣通過(guò)提交關(guān)鍵詞來(lái)獲取數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)。以EKSO系統(tǒng)為例來(lái)進(jìn)行分析。如圖2所示，EKSO系統(tǒng)由數(shù)據(jù)庫(kù)采集器、索引器和查詢請(qǐng)求處理器組成。采集器在遍歷數(shù)據(jù)庫(kù)時(shí)，引入了文本對(duì)象來(lái)組織數(shù)據(jù)庫(kù)中相互關(guān)聯(lián)的關(guān)系表中的元組，并將文本對(duì)象中所有元組的文本屬性值連接起來(lái)形成虛擬文檔。索引器通過(guò)處理虛擬文檔，對(duì)所有的虛擬文檔建立索引，將虛擬文檔中的關(guān)鍵詞與相應(yīng)的文本對(duì)象鍵值聯(lián)系起來(lái)。查詢請(qǐng)求處理器與搜索引擎中的檢索器功能相似，主要負(fù)責(zé)處理用戶的關(guān)鍵詞查詢請(qǐng)求，并返回根據(jù)相關(guān)度排好序的結(jié)果。不同的是查詢請(qǐng)求處理器直接返回文本對(duì)象鍵值給用戶，讓用戶自己通過(guò)文本對(duì)象鍵值從數(shù)據(jù)庫(kù)中獲取相關(guān)的數(shù)據(jù)。

1．3開(kāi)源Lucene

Lucene是一個(gè)非常成功的開(kāi)放源代碼的全文檢索引擎工具包，提供了完整的全文檢索引擎架構(gòu)，以方便軟件開(kāi)發(fā)人員在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索引擎。分析Lucene源碼結(jié)構(gòu)，借鑒其設(shè)計(jì)和實(shí)現(xiàn)思路，利用并擴(kuò)展其工具包來(lái)實(shí)現(xiàn)科學(xué)數(shù)據(jù)網(wǎng)格的信息服務(wù)系統(tǒng)。

如圖3所示，Lucene由基礎(chǔ)結(jié)構(gòu)封裝、索引核心、對(duì)外接口三大部分組成。基礎(chǔ)結(jié)構(gòu)封裝是整個(gè)系統(tǒng)結(jié)構(gòu)的基石，主要定義了常用的數(shù)據(jù)結(jié)構(gòu)、算法和索引數(shù)據(jù)結(jié)構(gòu)中的概念類(lèi)；索引核心直接操作索引文件，是系統(tǒng)結(jié)構(gòu)的重點(diǎn)，主要是對(duì)索引文件操作和操作實(shí)現(xiàn)的封裝；對(duì)外接口是在索引核心基礎(chǔ)之上，對(duì)查詢操作和基于目標(biāo)系統(tǒng)的分詞等操作的封裝。

2結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)體系結(jié)構(gòu)的設(shè)計(jì)

2．1結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)框架

科學(xué)數(shù)據(jù)網(wǎng)格中包含大量分布的結(jié)構(gòu)化數(shù)據(jù)資源，為了有效地共享這些海量的結(jié)構(gòu)化數(shù)據(jù)資源，迫切需要基于這些數(shù)據(jù)內(nèi)容的檢索引擎，以方便科研工作者快速有效地定位到自己感興趣的數(shù)據(jù)資源。在充分借鑒和利用信息獲取技術(shù)成果的基礎(chǔ)上，結(jié)合Web搜索引擎技術(shù)和基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù)，設(shè)計(jì)出數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)的技術(shù)框架。

如圖4所示，數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)系統(tǒng)主要由檢索引擎、采集器、索引編制與合并模塊、倒排索引庫(kù)和質(zhì)量權(quán)重計(jì)算模塊等組成。與該系統(tǒng)直接關(guān)聯(lián)的系統(tǒng)有科學(xué)數(shù)據(jù)網(wǎng)格數(shù)據(jù)訪問(wèn)服務(wù)系統(tǒng)（Data Access Service， DAS）。科學(xué)數(shù)據(jù)網(wǎng)格數(shù)據(jù)訪問(wèn)服務(wù)是對(duì)結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫(kù)提供統(tǒng)一訪問(wèn)接口的主要服務(wù)端軟件。數(shù)據(jù)訪問(wèn)服務(wù)提供了統(tǒng)一的網(wǎng)格服務(wù)接口，通過(guò)這些接口能夠訪問(wèn)異構(gòu)的多種關(guān)系數(shù)據(jù)庫(kù)。

2．2檢索引擎

檢索引擎模塊主要為用戶提供基于關(guān)鍵詞的查詢接口，以方便用戶定位自己感興趣的數(shù)據(jù)資源。檢索引擎的主要流程是對(duì)用戶輸入的關(guān)鍵詞進(jìn)行預(yù)處理，然后在倒排索引庫(kù)中進(jìn)行查詢分析，以確定與檢索請(qǐng)求相關(guān)的結(jié)構(gòu)化數(shù)據(jù)資源的集合，根據(jù)這些資源的質(zhì)量權(quán)值和關(guān)鍵詞的先后順序來(lái)計(jì)算其優(yōu)先權(quán)值，按照優(yōu)先權(quán)值從大到小的順序?qū)⒚械馁Y源條目返回給用戶。用戶得到的資源條目信息應(yīng)包含資源標(biāo)志符、資源訪問(wèn)位置和資源描述等。以關(guān)系數(shù)據(jù)庫(kù)中的關(guān)系表來(lái)定義資源單位，直接以數(shù)據(jù)庫(kù)服務(wù)域名加上關(guān)系表在數(shù)據(jù)庫(kù)中的全局標(biāo)志作為結(jié)構(gòu)化數(shù)據(jù)資源標(biāo)志符。

2．3采集器

采集器主要通過(guò)訪問(wèn)數(shù)據(jù)、訪問(wèn)服務(wù)的統(tǒng)一訪問(wèn)接口遍歷關(guān)系數(shù)據(jù)庫(kù)來(lái)采集數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)資源。采集器將通過(guò)數(shù)據(jù)訪問(wèn)服務(wù)獲取的各關(guān)系表中的文本字段連接起來(lái)，形成文本文檔。系統(tǒng)規(guī)模不是太大時(shí)，采集器將文本保存后，提交給索引編制與合并模塊建立索引。隨著數(shù)據(jù)網(wǎng)格中數(shù)據(jù)資源的不斷增長(zhǎng)，信息服務(wù)系統(tǒng)需要在局域網(wǎng)中采用分布式的多個(gè)采集器，甚至通過(guò)機(jī)群來(lái)采集大量的結(jié)構(gòu)化數(shù)據(jù)資源。為了提高分布處理能力，此時(shí)采集器邊采集數(shù)據(jù)資源并將其轉(zhuǎn)換為文本文檔，邊對(duì)文檔建立索引，然后將索引模塊提交給索引合并模塊。

2．4倒排索引庫(kù)

倒排索引文件機(jī)制是一種面向關(guān)鍵詞的機(jī)制，利用它可以提高檢索效率。數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)的倒排索引與對(duì)文本正文的倒排索引相似，由關(guān)鍵詞詞典和倒排索引文件兩部分組成。與對(duì)正文的倒排索引不同，結(jié)構(gòu)化數(shù)據(jù)倒排索引文件的倒排表中保存的是關(guān)鍵詞出現(xiàn)的資源標(biāo)志符及頻率。

2．5索引編制與合并模塊

數(shù)據(jù)網(wǎng)格中通常包含海量的結(jié)構(gòu)化數(shù)據(jù)。為了提高整個(gè)系統(tǒng)的并行性，采集器將采集到的文本文檔進(jìn)行索引后，提交索引數(shù)據(jù)模塊給索引合并模塊，此時(shí)索引合并模塊可能會(huì)成為整個(gè)系統(tǒng)的瓶頸。當(dāng)前開(kāi)源的索引軟件包中大都采用增量索引算法。增量索引索算法不具備分布式環(huán)境下索引合并的能力。針對(duì)科學(xué)數(shù)據(jù)網(wǎng)格這種分布式環(huán)境的特點(diǎn)，設(shè)計(jì)新的索引合并算法，并采用定期進(jìn)行索引合并的機(jī)制來(lái)提高系統(tǒng)檢索的效率。

2．6質(zhì)量權(quán)值計(jì)算模塊

關(guān)鍵詞查詢中得到的命中資源條目非常大，如何從中選出質(zhì)量高的數(shù)據(jù)資源優(yōu)先返回給用戶，即對(duì)搜索結(jié)果排序，是一個(gè)關(guān)鍵問(wèn)題，也是一個(gè)難點(diǎn)。檢索結(jié)果中數(shù)據(jù)資源質(zhì)量和該數(shù)據(jù)資源與用戶查詢請(qǐng)求的相關(guān)性，是對(duì)檢索結(jié)果中數(shù)據(jù)資源排序的重要依據(jù)。對(duì)建立索引的結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行評(píng)價(jià)，并通過(guò)計(jì)算權(quán)值的方式將評(píng)價(jià)結(jié)果體現(xiàn)在用戶檢索結(jié)果的排序上，這對(duì)于提高資源發(fā)現(xiàn)的實(shí)際效果有著根本性的作用。在檢索結(jié)果與用戶查詢請(qǐng)求相關(guān)性的計(jì)算方面，借鑒Web搜索引擎的相關(guān)度計(jì)算方法。同時(shí)，由于結(jié)構(gòu)化數(shù)據(jù)經(jīng)過(guò)系統(tǒng)的整理，評(píng)價(jià)其質(zhì)量權(quán)值比一般的非結(jié)構(gòu)化數(shù)據(jù)更具有意義，在檢索結(jié)果排序中應(yīng)占有很大的比重。主要從元數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的相互聯(lián)系兩個(gè)方面來(lái)設(shè)計(jì)質(zhì)量權(quán)值評(píng)價(jià)方法。例如，當(dāng)某關(guān)鍵詞出現(xiàn)在元數(shù)據(jù)中時(shí)，對(duì)應(yīng)的資源標(biāo)志符就有更高的權(quán)值。還可以利用數(shù)據(jù)庫(kù)中關(guān)系表的外鍵聯(lián)系來(lái)建立聯(lián)系圖，圖中節(jié)點(diǎn)的質(zhì)量權(quán)值相互影響。

3關(guān)鍵技術(shù)的實(shí)現(xiàn)

3．1數(shù)據(jù)訪問(wèn)服務(wù)

數(shù)據(jù)訪問(wèn)服務(wù)在實(shí)現(xiàn)上采用了客戶端/服務(wù)端模式，由數(shù)據(jù)訪問(wèn)服務(wù)包、映射工具M(jìn)appingBuilder和客戶端DataView三部分組成。數(shù)據(jù)訪問(wèn)服務(wù)包是數(shù)據(jù)訪問(wèn)服務(wù)的服務(wù)器端，部署在各分布的關(guān)系數(shù)據(jù)庫(kù)服務(wù)器上，是數(shù)據(jù)訪問(wèn)服務(wù)的核心；MappingBuilder是在數(shù)據(jù)庫(kù)服務(wù)器之上建立具有統(tǒng)一訪問(wèn)接口的虛擬數(shù)據(jù)庫(kù)的映射工具；DataView是數(shù)據(jù)訪問(wèn)服務(wù)的Web客戶端。

3．2數(shù)據(jù)庫(kù)采集器

在實(shí)現(xiàn)上，數(shù)據(jù)庫(kù)采集器通過(guò)調(diào)用數(shù)據(jù)訪問(wèn)服務(wù)的編程接口來(lái)抓取部署了數(shù)據(jù)訪問(wèn)服務(wù)軟件的數(shù)據(jù)庫(kù)中的關(guān)系表。采集器首先通過(guò)數(shù)據(jù)訪問(wèn)服務(wù)的MappingBuilder接口，獲得數(shù)據(jù)庫(kù)的Schema；然后根據(jù)Schema調(diào)用數(shù)據(jù)訪問(wèn)服務(wù)的編程接口遍歷數(shù)據(jù)庫(kù)來(lái)抓取數(shù)據(jù)庫(kù)中的關(guān)系表。采集到的關(guān)系表由XML文檔組織。

在數(shù)據(jù)庫(kù)采集器中，文檔轉(zhuǎn)換處理主要是將采集到的結(jié)構(gòu)化的關(guān)系表轉(zhuǎn)換為便于建立索引的文本文檔。當(dāng)以數(shù)據(jù)庫(kù)中原始的關(guān)系表來(lái)定義資源的單位時(shí)，文檔轉(zhuǎn)換處理直接去掉XML文件中的標(biāo)簽；然后建立起文檔與資源標(biāo)志符的聯(lián)系。但資源單位的粒度定義更小時(shí)，就需要設(shè)計(jì)一個(gè)與基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引系統(tǒng)中的轉(zhuǎn)換算法類(lèi)似的文檔轉(zhuǎn)換算法。

3．3倒排索引庫(kù)

科學(xué)數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)的倒排索引由關(guān)鍵詞詞典和倒排索引文件兩部分組成。倒排索引文件的倒排表保存著關(guān)鍵詞出現(xiàn)的資源標(biāo)志符及頻率。在實(shí)現(xiàn)時(shí)，直接在Lucene索引文件結(jié)構(gòu)的基礎(chǔ)上定義索引文件的數(shù)據(jù)結(jié)構(gòu)。資源標(biāo)志符占用的空間肯定比文檔編號(hào)占用的空間大。為了提高效率并節(jié)省空間，倒排索引文件的倒排表中仍保存關(guān)系表轉(zhuǎn)換后的文檔編號(hào)，同時(shí)通過(guò)額外的空間來(lái)保存文檔編號(hào)到資源標(biāo)志符號(hào)的映射表。

3．4索引編制與合并

對(duì)從關(guān)系表轉(zhuǎn)換來(lái)的文本文檔建立索引，直接采用Lucene中的增量索引算法。該算法是傳統(tǒng)的索引構(gòu)建算法，由單文檔索引和索引歸并這兩個(gè)基本的算法構(gòu)成。增量索引算法的基本思想是對(duì)新加入的需要建立索引的文檔先建立臨時(shí)索引文件；然后將臨時(shí)索引文件歸并到索引庫(kù)中。增量索引算法中，歸并因子控制著歸并的頻度，歸并因子對(duì)歸并時(shí)所需的內(nèi)存也有直接影響。

當(dāng)數(shù)據(jù)網(wǎng)格中數(shù)據(jù)資源規(guī)模不大時(shí)，數(shù)據(jù)采集器直接將轉(zhuǎn)換后的文本文檔提交給索引編制與合并模塊。科學(xué)數(shù)據(jù)網(wǎng)格中包含著大量的結(jié)構(gòu)化數(shù)據(jù)資源，其信息服務(wù)系統(tǒng)在局域網(wǎng)中采用分布式的多個(gè)采集器，索引合并模塊為一臺(tái)大容量的服務(wù)器。為了提高系統(tǒng)并行性，采集器邊采集結(jié)構(gòu)化的關(guān)系表并將其轉(zhuǎn)換為文本文檔，邊對(duì)這些文檔通過(guò)增量索引算法建立倒排索引；然后，采集器直接提交索引文件模塊給索引合并服務(wù)器。

增量索引算法中的合并機(jī)制不能滿足索引合并模塊的需求。在增量建立索引的過(guò)程中，會(huì)形成多個(gè)索引文件模塊，這對(duì)于檢索引擎必定會(huì)影響其檢索性能。當(dāng)索引文件作為采集器的結(jié)果提交給索引合并模塊時(shí)，多個(gè)索引模塊很不方便。在Lucene軟件包的基礎(chǔ)上設(shè)計(jì)了新的索引合并算法，在每次索引合并后，索引庫(kù)中包含一個(gè)索引模塊。在索引庫(kù)文件作為采集器的結(jié)果提交給索引合并模塊之前，調(diào)用索引合并算法對(duì)采集器索引庫(kù)中的索引模塊進(jìn)行合并。為了提高效率，索引合并服務(wù)器定期調(diào)用索引合并算法，合并采集器提交的索引文件。

3．5檢索引擎

檢索引擎通過(guò)調(diào)用Lucene的檢索軟件包，復(fù)用Lucene的檢索引擎。Lucene檢索引擎返回的結(jié)果是查詢請(qǐng)求中關(guān)鍵詞出現(xiàn)的文檔編號(hào)的集合。通過(guò)查詢文檔編號(hào)與資源標(biāo)志符的映射表，將文檔編號(hào)集合轉(zhuǎn)換為資源標(biāo)志符集合。映射表在實(shí)現(xiàn)上，采用以文檔編號(hào)為鍵值的哈希表建立索引，因此轉(zhuǎn)換過(guò)程效率非常高；然后，檢索引擎模塊通過(guò)資源標(biāo)志符，從索引庫(kù)中取出每個(gè)命中資源標(biāo)志符相關(guān)的描述信息和資源訪問(wèn)位置（即資源所屬的數(shù)據(jù)訪問(wèn)服務(wù)端的標(biāo)志符）；最后，檢索引擎模塊將資源標(biāo)志符、描述信息和資源訪問(wèn)位置返回給用戶。

檢索引擎返回結(jié)果中的排序算法，是Lucene檢索引擎中的默認(rèn)排序算法。本文根據(jù)數(shù)據(jù)資源的元數(shù)據(jù)信息，在建立索引過(guò)程中通過(guò)設(shè)置文本文檔和域的Boost值來(lái)影響排序結(jié)果。針對(duì)科學(xué)數(shù)據(jù)網(wǎng)格中結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)，利用元數(shù)據(jù)信息設(shè)計(jì)更合理質(zhì)量權(quán)值計(jì)算模塊和排序算法，是優(yōu)化檢索引擎的方向。

4結(jié)束語(yǔ)

針對(duì)傳統(tǒng)數(shù)據(jù)網(wǎng)格信息服務(wù)的不足之處，在充分借鑒和利用信息獲取技術(shù)最新成果的基礎(chǔ)上，結(jié)合Web搜索引擎技術(shù)和基于關(guān)鍵詞的數(shù)據(jù)庫(kù)索引技術(shù)，設(shè)計(jì)了適合數(shù)據(jù)網(wǎng)格信息服務(wù)的結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)的技術(shù)體系。在最新版本的科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)中，利用開(kāi)源Lucene全文檢索軟件包，實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)框架中的關(guān)鍵技術(shù)。

在科學(xué)數(shù)據(jù)網(wǎng)格信息服務(wù)系統(tǒng)開(kāi)發(fā)的實(shí)踐中，不斷完善結(jié)構(gòu)化數(shù)據(jù)資源發(fā)現(xiàn)技術(shù)的體系結(jié)構(gòu)，細(xì)化研究體系結(jié)構(gòu)中用于技術(shù)，是下一步工作的重點(diǎn)。

參考文獻(xiàn)：

［1］FOSTER I，KESSELMAN C.網(wǎng)格計(jì)算[M]. 金海，等譯.北京：電子工業(yè)出版社，2004.

［2］南凱，閻保平.科學(xué)數(shù)據(jù)庫(kù)系統(tǒng)平臺(tái)與e－Science[C]//科學(xué)數(shù)據(jù)庫(kù)與信息技術(shù)論文集：第7集.北京：中國(guó)環(huán)境科學(xué)出版社，2004.

［3］SERGEY B，LAWRENECE P.The anatomy of a large－scale hypertextual web search engine[C]//Proc of the 7th International World Wide Web Conference.[S.l.]:[s.n.]，1998.

［4］HALOTIA G， HULGERI A， NAKHEY C， et al. Keyword searching and browsing in databases using BANKS[C]//AGRAWAL R，et al.Proc of the 18th Int’l Conf. on Data Engineering.San Jose: IEEE Press，2002.

［5］AGRAWAL S， CHAUDHURI S， DAS G.DBXplorer:a system for keyword－based search over relational databases[C]/AGRAWAL R，et al.Proc of the 18th Int’l Conf. on Data Engineering.San Jose: IEEE Press， 2002.

［6］HRISTIDIS V， PAPAKONSTANTINOU Y. Discver:keyword search in relational databases[C]//BERNSTEIN P A，et al.Proc of the 28th Int’l Conf. on Very Large Data Bases.Hong Kong: Morgan Kaufmann Publishers， 2002.

［7］HRISTIDIS V， GRAVANO L， PAPAKONSTANTINOU Y. Efficient IR－style keyword search over relational databases[C]//FREYTAG J C，et al.Proc of the 29th Int’l Conf. on Very Large Data Bases.Berlin: Morgan Kaufmann Publishers， 2003.

注：“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

計(jì)算機(jī)應(yīng)用研究2007年7期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于非參數(shù)技術(shù)的貝葉斯人臉識(shí)別算法; 一種動(dòng)態(tài)限制搜索區(qū)域的最短路徑規(guī)劃算法; 一種快速加權(quán)支持向量機(jī)訓(xùn)練算法; 基于身份的指定驗(yàn)證者代理簽名方案; 不完備信息系統(tǒng)的規(guī)則提取研究; 基于ＸＭＬ的表單設(shè)計(jì)器構(gòu)件的設(shè)計(jì)與實(shí)現(xiàn)