王育紅,景海濤,薛華柱
(河南理工大學(xué)測(cè)繪與國(guó)土信息工程學(xué)院,河南 焦作 454003)
GIS空間數(shù)據(jù)正以幾何倍數(shù)逐年快速增長(zhǎng),為了充分利用已有數(shù)據(jù)資源,降低系統(tǒng)開(kāi)發(fā)成本,實(shí)現(xiàn)綜合性應(yīng)用與分析,空間數(shù)據(jù)的有效共享和互操作問(wèn)題一直是GIS領(lǐng)域研究的核心和熱點(diǎn)。空間數(shù)據(jù)共享和互操作涉及的理論和技術(shù)問(wèn)題很多,如數(shù)據(jù)模式集成(或合并)、數(shù)據(jù)實(shí)例集成、更新信息傳播、語(yǔ)義查詢處理、地理服務(wù)發(fā)現(xiàn)等。雖然這些技術(shù)各有特點(diǎn),但它們都面臨著一個(gè)基本環(huán)節(jié)——模式匹配。模式匹配是依據(jù)各種輔助決策信息,從兩個(gè)或多個(gè)數(shù)據(jù)模式中確定語(yǔ)義相同或相關(guān)的模式元素,并根據(jù)應(yīng)用需要顯示聲明其間具體映射關(guān)系的過(guò)程。例如,對(duì)于圖1左半部分所示的來(lái)自不同GIS數(shù)據(jù)庫(kù)的部分模式而言,通過(guò)匹配操作,可以發(fā)現(xiàn)和建立如圖1右半部分所示的不同層次的相關(guān)元素及其映射關(guān)系。為進(jìn)一步完善深化對(duì)空間數(shù)據(jù)模式匹配問(wèn)題的理解與認(rèn)識(shí),為高效實(shí)用的空間數(shù)據(jù)模式匹配系統(tǒng)研發(fā)提供理論依據(jù)與技術(shù)借鑒,本文概括描述了空間數(shù)據(jù)模式匹配的典型應(yīng)用,分析了當(dāng)前模式匹配研究的相關(guān)內(nèi)容、原理、模型及方法,并指出了現(xiàn)有研究面臨的問(wèn)題與不足。

圖1 模式匹配示例Fig.1 Diagram of schema matching
關(guān)于模式匹配的最早研究是從模式集成開(kāi)始的。模式集成是從給定的一組獨(dú)立開(kāi)發(fā)的模式中構(gòu)造一個(gè)全局模式的過(guò)程。由于應(yīng)用領(lǐng)域、設(shè)計(jì)習(xí)慣及偏好不同,待集成的各種模式即使描述的是相同的現(xiàn)象或事物,也可能在邏輯結(jié)構(gòu)和表現(xiàn)形式上存在一系列的差異。因此,模式集成的第一步需通過(guò)模式匹配來(lái)確定并描述這些模式間的相關(guān)元素及其映射關(guān)系。只有這些關(guān)系確定后,才可對(duì)局部模式進(jìn)行合并、除冗、重構(gòu)等處理,進(jìn)而形成一個(gè)能綜合反映多個(gè)源模式基本特征的全局模式[1,2]。
簡(jiǎn)單地講,數(shù)據(jù)實(shí)例集成就是將分散在不同數(shù)據(jù)源中描述反映各種現(xiàn)實(shí)事物屬性特征的具體數(shù)據(jù)記錄值進(jìn)行有機(jī)結(jié)合,形成一個(gè)整體,在統(tǒng)一的環(huán)境下透明協(xié)調(diào)一致地加以使用。數(shù)據(jù)實(shí)例集成的目標(biāo)是屏蔽多個(gè)局部數(shù)據(jù)源的異構(gòu)性,并提供上層應(yīng)用的統(tǒng)一查詢接口。為實(shí)現(xiàn)這一目標(biāo),研究者提出了多種集成方式或系統(tǒng),如多數(shù)據(jù)庫(kù)系統(tǒng)、聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)、空間數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)等[3]。這些系統(tǒng)遇到的問(wèn)題主要集中在全局模式設(shè)計(jì)、模式映射建立、查詢重寫(xiě)、查詢優(yōu)化和查詢執(zhí)行等方面,而其核心和基礎(chǔ)則是通過(guò)模式匹配建立模式映射關(guān)系[4],只有依據(jù)準(zhǔn)確有效的模式映射關(guān)系及規(guī)則,才能按照全局(或目標(biāo))模式的要求從數(shù)據(jù)源中提取所需的數(shù)據(jù)實(shí)例,并經(jīng)過(guò)轉(zhuǎn)換、融合、清洗等處理,最終將其提供給查詢用戶或者加載到數(shù)據(jù)倉(cāng)庫(kù)中,從而有效屏蔽不同數(shù)據(jù)源之間的實(shí)例表達(dá)差異[5]。
空間數(shù)據(jù)現(xiàn)勢(shì)性是GIS的“生命”,直接影響著其使用價(jià)值與可持續(xù)發(fā)展。伴隨著GIS空間數(shù)據(jù)更新理論研究和工程實(shí)踐的不斷深入,更新信息傳播問(wèn)題已成為生產(chǎn)單位、應(yīng)用部門(mén)及學(xué)術(shù)界共同面臨的新問(wèn)題。由于數(shù)據(jù)庫(kù)間在數(shù)據(jù)模式和數(shù)據(jù)實(shí)例之間存在多種潛在的語(yǔ)義差異,當(dāng)利用一個(gè)新版GIS數(shù)據(jù)庫(kù)中的更新變化要素及其相關(guān)信息對(duì)另一個(gè)GIS數(shù)據(jù)庫(kù)中的對(duì)應(yīng)要素進(jìn)行更新(即更新信息傳播)時(shí),必須首先在兩個(gè)數(shù)據(jù)庫(kù)間進(jìn)行模式匹配操作建立模式映射關(guān)系,以引導(dǎo)和簡(jiǎn)化變化發(fā)現(xiàn)、實(shí)體識(shí)別、更新集成等操作,從而在保證更新傳播實(shí)施效率的同時(shí),最大限度地維護(hù)目標(biāo)數(shù)據(jù)庫(kù)的自治性、完整性、正確性和一致性[6,7]。
目前使用的空間數(shù)據(jù)查詢方式大都是基于關(guān)鍵字匹配技術(shù),如果用戶輸入的查詢關(guān)鍵字與被查數(shù)據(jù)模式元素的名稱(chēng)不盡相同或有所偏差,則不能返回真正需要的信息或者會(huì)返回很多無(wú)用的信息。為解決傳統(tǒng)查詢方式的不足,提出了語(yǔ)義查詢技術(shù)[8]。語(yǔ)義查詢又稱(chēng)語(yǔ)義檢索、概念匹配,是指在相關(guān)技術(shù)(如本體等)的支持下,首先使用戶的查詢請(qǐng)求和被檢索的內(nèi)容在語(yǔ)義上都是可被計(jì)算機(jī)理解、處理的,在此基礎(chǔ)上對(duì)用戶查詢語(yǔ)句(如Select語(yǔ)句)和被查數(shù)據(jù)模式元素進(jìn)行匹配,然后重寫(xiě)查詢語(yǔ)句中的關(guān)鍵字使其與被查數(shù)據(jù)模式名稱(chēng)相一致,從而返回準(zhǔn)確的查詢數(shù)據(jù)。
網(wǎng)絡(luò)地理服務(wù)是利用地理數(shù)據(jù)和相關(guān)的功能實(shí)現(xiàn)諸如地址匹配、地圖繪制、路程安排等基本地理操作任務(wù)的Internet應(yīng)用,它允許開(kāi)發(fā)者將GIS功能集成到自己的Web應(yīng)用中,而不用自己在本地實(shí)現(xiàn)該GIS功能[9]。隨著越來(lái)越多的網(wǎng)絡(luò)地理信息服務(wù)的出現(xiàn),快速準(zhǔn)確找到用戶需要的地理信息服務(wù)顯得尤為重要[10]。在服務(wù)發(fā)現(xiàn)過(guò)程中,一旦服務(wù)請(qǐng)求者和提供者使用不同的術(shù)語(yǔ)表示同一個(gè)概念或者是同樣的詞表示不同的涵義,就會(huì)發(fā)生找不到匹配的服務(wù)和找到的服務(wù)不能完全滿足需求的情況。另外,地理服務(wù)版本差異造成的語(yǔ)義異構(gòu)也將增加服務(wù)發(fā)現(xiàn)的難度[11,12]。與語(yǔ)義查詢類(lèi)似,通過(guò)模式匹配也可以有效解決這類(lèi)問(wèn)題。
近些年來(lái),模式匹配作為數(shù)據(jù)管理與應(yīng)用中的基礎(chǔ)性問(wèn)題受到了全球的普遍關(guān)注,在數(shù)據(jù)庫(kù)、人工智能、信息檢索、知識(shí)管理、語(yǔ)義Web等眾多領(lǐng)域引起了廣泛的討論和研究。概括而言,當(dāng)前對(duì)模式匹配問(wèn)題的研究主要集中在匹配實(shí)施方法、匹配效率優(yōu)化、匹配結(jié)果表達(dá)、匹配質(zhì)量評(píng)價(jià)4個(gè)方面。
目前,大多數(shù)系統(tǒng)的模式匹配任務(wù)是在圖形界面支持下靠操作員手動(dòng)完成的,該方式不僅要求操作員充分了解模式元素的語(yǔ)義內(nèi)涵,而且隨著待匹配模式元素?cái)?shù)據(jù)的增加,其費(fèi)時(shí)、費(fèi)力、易出錯(cuò)的缺陷也將變得更加突出。另外,用戶需求的變化、數(shù)據(jù)源的變化等都可能造成模式的變化,從而導(dǎo)致這些模式間的匹配關(guān)系發(fā)生變化。顯然,如果僅僅依靠手工匹配無(wú)法適應(yīng)這種復(fù)雜動(dòng)態(tài)的匹配需求。
為了盡量減少模式匹配過(guò)程中用戶的參與,提出了多種自動(dòng)(或半自動(dòng))的匹配方法及系統(tǒng)。Rahm等根據(jù)匹配所依據(jù)的信息類(lèi)型及其結(jié)合方式對(duì)各種模式匹配方法進(jìn)行了層次式劃分(圖2),結(jié)合圖2的分類(lèi)體系又對(duì)2001年以前的典型匹配方法及系統(tǒng)進(jìn)行了比較權(quán)威的總結(jié)和評(píng)述[13]。在此分類(lèi)體系基礎(chǔ)上,Shvaiko等根據(jù)所用技術(shù)的特征(Heuristic or formal,Implicit or explicit)對(duì)其中基于模式的匹配方法做了更為詳細(xì)的劃分[14]。潘超等則進(jìn)一步總結(jié)了2010年之前的主要方法及系統(tǒng)[15]。本文依據(jù)圖2所示的分類(lèi)結(jié)果,對(duì)模式匹配方法的基本策略和問(wèn)題做簡(jiǎn)要評(píng)述。

圖2 模式匹配方法分類(lèi)Fig.2 Classification of schema matching approaches
(1)單匹配,主要利用某一種類(lèi)型的信息識(shí)別語(yǔ)義相關(guān)模式元素,可進(jìn)一步劃分為基于模式的匹配和基于實(shí)例的匹配兩類(lèi)。1)基于模式的匹配方法,主要通過(guò)對(duì)比模式元素本身所包含的信息(如名稱(chēng)標(biāo)簽、描述性元數(shù)據(jù)、數(shù)據(jù)類(lèi)型、數(shù)據(jù)長(zhǎng)度、結(jié)構(gòu)關(guān)聯(lián)關(guān)系等)判斷元素是否匹配。由于數(shù)據(jù)模式設(shè)計(jì)本身是一項(xiàng)靈活性很大的主觀活動(dòng),不同的設(shè)計(jì)者可能采用不同的機(jī)制和元素來(lái)抽象和模擬相同的現(xiàn)實(shí)事物或現(xiàn)象,并且所形成的模式結(jié)構(gòu)的語(yǔ)義信息大部分隱含在設(shè)計(jì)者的大腦中,而模式元素本身所承載的一部分外在顯式信息對(duì)模式匹配而言是不明確、不完整、易混淆的。因此,該類(lèi)方法往往產(chǎn)生錯(cuò)配、漏配等情況,質(zhì)量和效果不高。針對(duì)這一情況,文獻(xiàn)[16]提出了基于信息論的模式匹配模型,嘗試解決模式信息丟失或者不完整情況下的模式匹配問(wèn)題。2)基于實(shí)例的匹配方法,主要依據(jù)屬性字段數(shù)據(jù)值的統(tǒng)計(jì)概括信息(如最大值、最小值、平均值、方差)或部分重疊對(duì)應(yīng)實(shí)體的屬性值,來(lái)匹配識(shí)別兩個(gè)數(shù)據(jù)集(如關(guān)系表)之間語(yǔ)義相關(guān)的屬性字段[17,18],一般不能確定數(shù)據(jù)集之間的匹配關(guān)系。由于概括信息是確定屬性是否匹配的必要但不充分信息,因此如果單獨(dú)用其進(jìn)行匹配常常會(huì)產(chǎn)生一些錯(cuò)配或漏配現(xiàn)象。針對(duì)這種情況有兩種改進(jìn)途徑:一是將概括信息與其他類(lèi)型的信息結(jié)合構(gòu)成混合匹配;二是通過(guò)進(jìn)一步分析比較數(shù)據(jù)集之間部分對(duì)應(yīng)實(shí)體(或重復(fù)記錄)的屬性值來(lái)確定相關(guān)的屬性,但這種方式目前通常以預(yù)先手動(dòng)建立實(shí)體對(duì)應(yīng)關(guān)系為基礎(chǔ),自動(dòng)化程度低,屬性相關(guān)性對(duì)比分析和度量模型較單一,尚沒(méi)有充分考慮語(yǔ)義相關(guān)屬性在具體屬性值上的各種表達(dá)差異,仍有很大的擴(kuò)展改進(jìn)空間。
(2)多匹配,主要利用多種類(lèi)型的信息或方法識(shí)別語(yǔ)義相關(guān)模式元素,可以進(jìn)一步劃分為混合匹配與復(fù)合匹配兩大類(lèi)。1)混合匹配主要通過(guò)綜合使用多種匹配指標(biāo)或信息源(如名稱(chēng)信息、元數(shù)據(jù)描述信息、數(shù)據(jù)約束信息、實(shí)例概括統(tǒng)計(jì)信息、屬性依賴關(guān)系等)來(lái)確定匹配元素。混合匹配在確定一對(duì)模式元素是否匹配時(shí),同時(shí)考慮了多種匹配標(biāo)準(zhǔn),對(duì)于不符合標(biāo)準(zhǔn)的候選成員能夠較早地被刪除。因此,這種方法與單獨(dú)執(zhí)行多種匹配方法相比,可以減少比較模式信息的遍歷次數(shù),不僅能取得較好的匹配性能和效果,而且匹配效率也得到了提高。但由于多種來(lái)源的信息具有不同的表達(dá)形式,一般并不能被直接應(yīng)用于混合匹配,常常需要制定高效的策略和規(guī)則對(duì)其進(jìn)行規(guī)范化處理。混合匹配所依據(jù)的匹配信息和規(guī)則往往由設(shè)計(jì)者事先規(guī)定,一般不易進(jìn)行調(diào)整和修改,靈活性較低。2)復(fù)合匹配主要通過(guò)對(duì)多個(gè)獨(dú)立匹配方法(如基于模式的匹配、基于實(shí)例的匹配、混合匹配等)所取得結(jié)果的組合分析來(lái)確定匹配元素。復(fù)合匹配允許用戶根據(jù)應(yīng)用需要,靈活地選擇現(xiàn)有方法并按不同的順序(如并行順序、串行順序、混合順序)加以執(zhí)行。在串行執(zhí)行時(shí),前面匹配方法所取得的匹配結(jié)果,可以用作后面匹配方法的輸入,從而達(dá)到反復(fù)修改匹配結(jié)果的目的。復(fù)合匹配是以單個(gè)匹配方法為基礎(chǔ)的,為保證其效率和效果,不僅要盡可能地提高每個(gè)成員匹配方法的效率和效果,而且應(yīng)該選擇正確的執(zhí)行順序、制定合理的結(jié)果重用和組合策略[19]。靜態(tài)組合的匹配算法和人工調(diào)節(jié)的匹配參數(shù)難以適應(yīng)自動(dòng)匹配的要求,如何對(duì)現(xiàn)有的匹配算法進(jìn)行動(dòng)態(tài)選擇、搭配、組合、重用以及對(duì)匹配參數(shù)進(jìn)行自動(dòng)調(diào)節(jié)是復(fù)合匹配面臨的一個(gè)有待深入研究的重要問(wèn)題。
每種匹配技術(shù)都各有其優(yōu)點(diǎn)和適用范圍,綜合使用多種匹配信息或方法能夠充分發(fā)揮不同技術(shù)間的互補(bǔ)性優(yōu)勢(shì),有效提高匹配系統(tǒng)的匹配質(zhì)量和通用性。但隨著匹配信息或方法的增加,系統(tǒng)的復(fù)雜性也將隨之增加。
當(dāng)前模式匹配的難點(diǎn),不僅在于缺乏切實(shí)可行的判別模式元素是否匹配相關(guān)的策略和規(guī)則,更在于依據(jù)判別規(guī)則執(zhí)行模式匹配的代價(jià)偏高,必須進(jìn)行大量的計(jì)算比較才能確定獲取潛在的匹配元素。模式匹配中最常用的兩兩比較法,也稱(chēng)嵌套循環(huán)法或笛卡爾法,是將兩個(gè)待匹配模式元素集合做笛卡爾乘積,根據(jù)用戶所定義的規(guī)則和策略,對(duì)結(jié)果集中的每對(duì)元素進(jìn)行比較,如果比較結(jié)果滿足所定義的規(guī)則條件,則認(rèn)為它們是匹配元素。該方法簡(jiǎn)單,能夠最大限度地保證匹配結(jié)果的質(zhì)量和精度,但是隨著待匹配元素?cái)?shù)量的不斷增加,所需的處理時(shí)間和系統(tǒng)資源的消耗將呈指數(shù)級(jí)增長(zhǎng),在實(shí)際應(yīng)用中的可行性和使用價(jià)值并不高。因此,必須加強(qiáng)模式匹配效率優(yōu)化模型及算法的研究。
目前,只有少數(shù)幾個(gè)系統(tǒng)考慮處理了模式匹配的執(zhí)行效率問(wèn)題,根據(jù)模式匹配策略的不同,提出了不同的模式匹配執(zhí)行效率優(yōu)化技術(shù)。概括而言,現(xiàn)有模式匹配執(zhí)行效率優(yōu)化所采取的基本策略主要有如下5種[20]:1)分而治之,先將待匹配的模式元素集劃分為不 同 的 塊 (Blocks)、區(qū) (Partitions)或 簇(Clusters),然后在塊(區(qū)或簇)之間執(zhí)行模式匹配。該策略降低了匹配比較的搜索空間,效率較高,但可能降低匹配質(zhì)量。2)模式過(guò)濾,依據(jù)相關(guān)的上下文信息或通過(guò)問(wèn)卷調(diào)查預(yù)先排除掉一些模式元素,從而降低比對(duì)次數(shù),提升匹配效率。3)避免重復(fù),在模式匹配執(zhí)行過(guò)程避免一些相同子任務(wù)的重復(fù)執(zhí)行。4)改善數(shù)據(jù)結(jié)構(gòu),利用諸如索引、Hash表等特殊類(lèi)型的數(shù)據(jù)結(jié)構(gòu),減少待匹配模式元素間的比較次數(shù),從而提高執(zhí)行效率。5)優(yōu)化模式元素相關(guān)性度量模型(如編輯距離等)的計(jì)算效率等。
隨著大數(shù)據(jù)時(shí)代的到來(lái),勢(shì)必出現(xiàn)大模式的匹配問(wèn)題。大模式的“大”不僅意味著數(shù)量的大,還代表著模式種類(lèi)多、結(jié)構(gòu)雜、差別大、變化快等。由于目前尚沒(méi)有對(duì)大模式匹配問(wèn)題給予充分的考慮和有效的處理,若采用現(xiàn)有策略執(zhí)行匹配將會(huì)因時(shí)間復(fù)雜度過(guò)高而得不到理想的匹配結(jié)果。針對(duì)大模式匹配執(zhí)行效率問(wèn)題,可通過(guò)大模式聚類(lèi)分割技術(shù)加以解決[21]。目前這一技術(shù)仍需攻克3個(gè)核心問(wèn)題:如何分割模式;如何選擇需要進(jìn)行匹配的模式片斷;如何避免模式分割可能造成的結(jié)果遺漏。
匹配結(jié)果(模式映射)表達(dá)的主要任務(wù)是存儲(chǔ)和組織通過(guò)匹配識(shí)別發(fā)現(xiàn)的相關(guān)模式元素及其映射關(guān)系,并構(gòu)建相應(yīng)的存取和檢索方法,以引導(dǎo)和簡(jiǎn)化各種應(yīng)用處理中的其他操作。目前,有一些匹配工具把模式映射保存在純文本文件中,而且不同工具定義的模式映射文件格式不同,缺乏足夠的語(yǔ)義表現(xiàn)力和處理能力,使得模式映射的讀取過(guò)程較煩瑣,造成不同系統(tǒng)間難于共享模式映射,通用性不強(qiáng);還有一些匹配工具使用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)和管理模式映射,但由于模式映射的半結(jié)構(gòu)化特征,往往導(dǎo)致數(shù)據(jù)表中出現(xiàn)很多值為NULL的字段,從而造成非常大的冗余,使得很多復(fù)雜的匹配關(guān)系(如條件匹配、部分匹配、計(jì)算匹配等[22])無(wú)法得到有效的表達(dá),且每當(dāng)待匹配元素?cái)?shù)目發(fā)生變化時(shí),將可能導(dǎo)致整個(gè)數(shù)據(jù)表的結(jié)構(gòu)重構(gòu),不便于模式映射的管理和維護(hù)。
針對(duì)上述模型及方法的不足,一些學(xué)者開(kāi)始嘗試?yán)没谶壿嫷恼Z(yǔ)言(如一階邏輯、描述邏輯、Datalog等)或半結(jié)構(gòu)化模型(如XML、RDF等)來(lái)表達(dá)和存儲(chǔ)模式映射。例如,文獻(xiàn)[23]利用一階邏輯表達(dá)XML模式與OWL本體間的語(yǔ)義映射;為評(píng)價(jià)對(duì)比現(xiàn)有基于邏輯的映射語(yǔ)言的共性與差別,文獻(xiàn)[24]采用分布式一階邏輯來(lái)統(tǒng)一現(xiàn)有的各種映射語(yǔ)言;文獻(xiàn)[25]采用巴克斯范式(Backus-Naur Form,BNF)來(lái)表達(dá)語(yǔ)義映射;文獻(xiàn)[26]提出了一種新的映射語(yǔ)言——RDF Mapping Schema來(lái)表達(dá)XML數(shù)據(jù)和RDF數(shù)據(jù)之間的語(yǔ)義映射;文獻(xiàn)[27]在BRICKS系統(tǒng)中采用XML來(lái)存儲(chǔ)和管理模式映射。
目前大部分模式匹配研究的重點(diǎn)仍集中在如何發(fā)現(xiàn)和找到語(yǔ)義相關(guān)元素匹配對(duì),有關(guān)匹配結(jié)果表達(dá)的研究才剛剛起步[28],有些表達(dá)語(yǔ)言或模型的提出尚處于思想萌芽階段,也只是僅僅給出了一些示例性的表達(dá)結(jié)果,仍缺乏系統(tǒng)性的研究,更沒(méi)有形成統(tǒng)一的表達(dá)語(yǔ)言或模型。即使是同一種語(yǔ)言或模型,表達(dá)映射的方式也不盡相同,所支持的功能和算子差別較大[29]。匹配結(jié)果表達(dá)的研究仍然面臨著許多開(kāi)放性問(wèn)題,如表達(dá)模型能夠支持的映射關(guān)系類(lèi)型及語(yǔ)義轉(zhuǎn)換函數(shù)種類(lèi)、匹配結(jié)果的檢索與編輯、匹配結(jié)果的有效性檢驗(yàn)、匹配結(jié)果的可視化等。
雖然人們對(duì)模式匹配問(wèn)題進(jìn)行了廣泛研究,但大部分的自動(dòng)匹配方法還停留在高度實(shí)驗(yàn)階段,而得不到廣泛的實(shí)際性應(yīng)用。其中也有一些較為實(shí)用的系統(tǒng)出現(xiàn),而這些系統(tǒng)卻依舊需要大量的人機(jī)交互或后處理工作,還遠(yuǎn)遠(yuǎn)滿足不了實(shí)際需要。
當(dāng)前有關(guān)自動(dòng)匹配質(zhì)量的研究主要集中在質(zhì)量評(píng)價(jià)模型和策略上,概括而言,各種自動(dòng)匹配方法及系統(tǒng)的匹配質(zhì)量可以從有效性(Effectiveness)、效率(Efficiency)、通用性(Genericity)和易用性(Ease-ofuse)4個(gè)方面加以評(píng)價(jià)[30]:1)有效性:主要考慮匹配結(jié)果的正確性和召回率,通常用Precision和Recall兩個(gè)單項(xiàng)指標(biāo)及F-Measure(a)、F-Measure、Overall等幾個(gè)綜合指標(biāo)加以衡量[31]。2)效率:主要考慮系統(tǒng)執(zhí)行匹配時(shí)所消耗的資源,如時(shí)間、內(nèi)存等,通常情況下只采用時(shí)間指標(biāo)來(lái)評(píng)價(jià)匹配效率。3)通用性:主要考慮系統(tǒng)的應(yīng)用領(lǐng)域、所支持的數(shù)據(jù)模型或類(lèi)型及系統(tǒng)是否可以支持在線匹配或離線匹配。目前還沒(méi)有評(píng)價(jià)匹配系統(tǒng)通用性的定量指標(biāo)或模型。4)易用性:不論全自動(dòng)匹配能否實(shí)現(xiàn),用戶的參與及交互總是需要的,易用性主要考慮通過(guò)自動(dòng)匹配能夠節(jié)省多少人力,一般應(yīng)綜合考慮匹配執(zhí)行的預(yù)處理與后處理兩個(gè)階段。然而,現(xiàn)有的評(píng)價(jià)策略常常將預(yù)處理階段的人力參與忽略掉,只考慮后處理階段用于添加遺漏匹配、移除或修改錯(cuò)誤匹配的人力參與[31]。上述的有效性指標(biāo)可在一定程度上反映模式匹配后處理階段的人力參與情況,但由于這些指標(biāo)的取值介于0~1,直接用其評(píng)價(jià)人力參與情況還不太恰當(dāng)。針對(duì)這種情況,Bogdan等提出了簡(jiǎn)單可用性(Simple Usability)模型和簡(jiǎn)單成本(Simple Cost)模型,這兩個(gè)模型分別根據(jù)人機(jī)交互過(guò)程中拖拽、單擊、雙擊3種不同的鼠標(biāo)行動(dòng)及其執(zhí)行成本來(lái)評(píng)價(jià)人力參與情況[32]。
以上單因素評(píng)價(jià)模型彼此間是相互矛盾的,僅利用其中的任何一種都不能全面客觀地評(píng)價(jià)匹配系統(tǒng),因此,需要將這些指標(biāo)綜合起來(lái)考慮,對(duì)匹配系統(tǒng)進(jìn)行總體上的質(zhì)量評(píng)價(jià),這實(shí)際上是一個(gè)多目標(biāo)模糊決策難題。文獻(xiàn)[33]從有效性和效率兩方面討論分析了匹配系統(tǒng)的總體評(píng)價(jià)方法,但卻忽略了通用性和易用性兩方面的因素。總體而言,目前人們雖然認(rèn)為自動(dòng)匹配的質(zhì)量評(píng)價(jià)與控制是一個(gè)很重要的問(wèn)題,卻沒(méi)有高度重視它,自動(dòng)匹配質(zhì)量問(wèn)題的研究還沒(méi)有全面深入地展開(kāi)。
經(jīng)過(guò)近30年的不懈努力,模式匹配問(wèn)題研究已取得了較為豐富的學(xué)術(shù)成果,從最初的利用元素自身的各種信息進(jìn)行模式匹配,到后來(lái)集成各種類(lèi)型的結(jié)構(gòu)信息、數(shù)據(jù)實(shí)例信息來(lái)輔助匹配,再到近年來(lái)為模式匹配方法尋找理論支持,提供人性化的用戶干預(yù)工具等。但由于模式匹配本身的主觀性與復(fù)雜性,目前仍然存在著一些問(wèn)題和不足。
現(xiàn)有大多數(shù)研究主要集中在匹配方法上,一般只專(zhuān)注于不同模式之間的簡(jiǎn)單匹配(即1∶1匹配),不能有效識(shí)別復(fù)雜匹配(即1∶N、M∶l和M∶N匹配),應(yīng)用往往局限于特定領(lǐng)域或特定模式,通用性有待提高。對(duì)模式匹配的不確定性、模式通用表達(dá)模型、匹配方法的質(zhì)量評(píng)價(jià)、模式結(jié)果的后處理分析、匹配結(jié)果的存儲(chǔ)管理及可視化維護(hù)等問(wèn)題尚缺乏整體系統(tǒng)的分析和全面深入的研究。
從文獻(xiàn)資料上看,目前針對(duì)空間數(shù)據(jù)模式匹配的研究仍比較薄弱,有關(guān)空間數(shù)據(jù)模式匹配問(wèn)題的闡述大多是一些附帶的概念性解釋?zhuān)狈︶槍?duì)性的深入分析,僅有少數(shù)研究側(cè)重于具體方法的設(shè)計(jì)及原型系統(tǒng)的實(shí)現(xiàn)[34-39]。與空間數(shù)據(jù)模式種類(lèi)多、規(guī)模大、結(jié)構(gòu)復(fù)雜的特點(diǎn)相比,現(xiàn)有研究尚不能滿足一個(gè)理想模式匹配系統(tǒng)在通用性、強(qiáng)壯性、靈活性、交互性和擴(kuò)展性等方面的要求。因此,很有必要進(jìn)一步積極開(kāi)展針對(duì)空間數(shù)據(jù)模式匹配的系統(tǒng)性研究工作,從而為空間數(shù)據(jù)資源的高效共享與靈性服務(wù)提供理論支持與技術(shù)保障。
[1] 王宏鼎,譚少華,唐世渭,等.基于模式元素語(yǔ)義關(guān)系的模式合并方法研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,43(3):405-411.
[2] VOLZ S,DANIELAS N,GROSSMANN M,et al.On creating a spatial integration schema for global,context-aware applications[A].Proceedings of GeoInfo 2008[C].2008.13-24.
[3] 王育紅.空間數(shù)據(jù)集成及沖突消解方法綜述[J].測(cè)繪科學(xué),2011,36(2):81-83.
[4] 劉敏超,劉衛(wèi)東.數(shù)據(jù)集成系統(tǒng)關(guān)鍵問(wèn)題研究[J].計(jì)算機(jī)應(yīng)用,2006,26(7):1507-1510.
[5] 李軍,蘇國(guó)中,李萌.利用GML模式映射屏蔽地理空間數(shù)據(jù)源的異構(gòu)性[J].測(cè)繪科學(xué),2012,37(1):38-41.
[6] BRAUN A.From the schema matching to the integration of updating information into user geographic database[A].Proceeding of 12th International Conference on Geoinformatics,Geospatial Information Research:Bridging the Pacific and Atlantic[C].2004.211-218.
[7] 王育紅,陳軍.基礎(chǔ)地理數(shù)據(jù)庫(kù)更新信息傳播實(shí)施方法研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,35(9):1116-1120.
[8] 王艷東,龔健雅,戴晶晶.基于本體的空間數(shù)據(jù)語(yǔ)義查詢研究[J].測(cè)繪信息與工程,2007,32(2):32-35.
[9] 安楊,邊馥苓,關(guān)佶紅.基于Ontology的網(wǎng)絡(luò)地理服務(wù)描述與發(fā)現(xiàn)[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2004,29(12):1063-1066.
[10] 程鋼,杜清運(yùn),蔡忠亮.基于本體的地理信息服務(wù)查詢組件設(shè)計(jì)[J].測(cè)繪信息與工程,2008,33(2):31-33.
[11] 何杰,陳能成,王偉,等.基于動(dòng)態(tài)模式匹配的多版本網(wǎng)絡(luò)要素服務(wù)統(tǒng)一訪問(wèn)方法[J].測(cè)繪科學(xué),2011,36(1):169-172.
[12] 何杰,陳能成,鄭重,等.利用語(yǔ)義的多版本網(wǎng)絡(luò)覆蓋服務(wù)模式匹配方法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2012,37(2):210-214.
[13] RAHM E,BERNSTEIN P A.A survey of approaches to automatic schema matching[J].The VLDB Journal,2001,10(4):334-350.
[14] SHVAIKO P,EUZENAT J.A survey of schema-based matching approaches[J].Journal on Data Semantics,2005,4(1):146-171.
[15] 潘超,楊良懷,龔衛(wèi)華.模式匹配研究進(jìn)展[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(11):265-277.
[16] 趙晨露,申德榮,寇月,等.應(yīng)用信息論的數(shù)據(jù)導(dǎo)向模式匹配方法[J].計(jì)算機(jī)科學(xué)與探索,2013,7(9):719-830.
[17] 李蓉蓉,王暉,陳冉.基于屬性實(shí)例集合語(yǔ)義相似的模式匹配[J].計(jì)算機(jī)科學(xué),2011,38(12):151-154.
[18] MOISES G C,ALBERTO H F L,MARCOS A,et al.An evolutionary approach to complex schema matching[J].Information Systems,2013,38(3):302-316.
[19] 潘峰,孫鵬,張電.一種改進(jìn)的多策略模式匹配與結(jié)合方式研究[J].計(jì)算機(jī)與數(shù)字工程,2011,39(11):101-105.
[20] ERIC P,HENRIKE B,ERHARD R.Rewrite techniques fore performance optimization of schema matching processes[A].Proceeding of 13th International Conference on Extending Database Technology[C].2010.433-464.
[21] 杜小坤.數(shù)據(jù)庫(kù)模式匹配算法研究[D].武漢:華中科技大學(xué),2010.
[22] 韓忠明,陳德華,樂(lè)嘉錦.模式映射以及表達(dá)[J].東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,22(2):42-45.
[23] YUAN A,BORGIDA A,MYLOPOULOS J.Constructing complex semantic mappings between XML data and ontologies[A].Proceedings of the 4th International Semantic Web Confrence[C].Ireland,2005.6-19.
[24] SERAFINI L,STUCKENSCHMIDT H,WACHE H.A formal investigation of mapping languages for terminological knowledge[A].Proceedings of the 19th International Joint Conference on Artificial Intelligence[C].2005.576-581.
[25] ZHU Y,LI X.Representations of semantic mapping:A step towards a dichotomy of application semantics and contextual semantics[J].International Journal of Project Management,2007,25(2):121-127.
[26] XIAO H,ISABEL F,HSU F.Semantic mappings for the integration of XML and RDF sources[A].Proceedings of the VLDB Workshop on Information Integration on the Web[C].2004.40-45.
[27] KEARNEY K.Ontology mapping in BRICKS[A].Proceedings of Workshop on Ontology-Driven Interoperability for Cultural Heritage Objects[C].2007.
[28] STUCKENSCHMIDT H,USCHOLD M.Representation of semantic mappings[A].Dagstuhl Seminar Proceedings:Semantic Interoperability and Integration[C].2005.04391.
[29] THOMAS H,O′SULLIVAN D,BRENNAN R.Evaluation of Ontology Mapping Representations[R].Knowledge & Data Engineering Group,2009.
[30] K?PCKE H,RAHM E.Frameworks for entity matching:Acomparison[J].Data & Knowledge Engineering,2010,69(2):197-120.
[31] DO H,MELNIK S,RAHM E.Comparison of schema matching evaluations[J].Lecture Notes in Computer Science(Web,Web-Services,and Database Systems),2002,2593:221-237.
[32] ALEXE B,TAN W C,VELEGRAKIS Y.STBenchmark:Towards a benchmark for mapping systems[A].Proceedings of VLDB Endowment[C].2008,1(1):230-244.
[33] ALGERGAWY A,SCHALLEHN E,SAAKE G..Combining effectiveness and efficiency for schema matching evaluation[A].Proceedings of 1st International Workshop on Model-Based Software and Data Integration[C].Germany,2008.19-30.
[34] 關(guān)佶紅,虞為,安揚(yáng).GML模式匹配算法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2004,29(2):169-174.
[35] VOLZ S.Data-driven matching of geospatial schemas[J].Lecture Notes in Computer Science,2005,3693:115-132.
[36] 章勤,孫盛,袁平鵬.基于模糊集的地理信息模式匹配算法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,34(7):46-48.
[37] 王育紅,陳軍.基于實(shí)例的GIS數(shù)據(jù)庫(kù)模式匹配方法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2008,33(1):46-50.
[38] 趙元,馬勁松.GML模式匹配技術(shù)研究[J].計(jì)算機(jī)工程與科學(xué),2009,31(7):139-141.
[39] PARTYKAA J,PARVEENA P,KHANA L,et al.Enhanced geographically typed semantic schema matching[J].Web Semantics:Science,Services and Agents on the WorldWideWeb,2011,9(1):52-70.