999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

農村土地利用數據集成的模式匹配方法

2014-11-15 09:31:36王強
江蘇農業科學 2014年9期

摘要:以模式匹配作為數據集成的重要方法可以解決多源數據在模式上的差異問題,為用戶提供統一的訪問視圖。通過對現有模式匹配方法及農村土地利用數據差異類型的分析,提出基于不同模式結構層次的元素匹配和實例統計匹配相結合的復合匹配方法,通過對模式語義相似度的計算,解決農村土地利用數據集成過程中的模式匹配問題。最后選取海南省瓊海市大路鎮農村土地利用數據,驗證該方法的可行性和有效性。

關鍵詞:農村土地;模式差異;模式匹配;語義相似度;實例統計

中圖分類號: S127文獻標志碼: A文章編號:1002-1302(2014)09-0391-04

收稿日期:2013-11-18

基金項目:國家科技支撐計劃(編號:2012BAJ23B04)

作者簡介:王強(1988—),男,河南信陽人,碩士研究生,主要從事空間數據語義整合研究。E-mail:yethde@163.com。

通信作者:朱華吉,博士,副研究員,主要從事時態GIS理論研究。E-mail:zhuhuaji@126.com。隨著我國經濟快速發展,國土部門的業務范圍不斷擴大,積累的農村土地利用數據也越來越多。這些地理數據往往是由不同部門采用各自的數據管理軟件,按照各自行業標準采集和管理,沒有統一的標準與規范,缺乏應有的溝通和信息流動,使跨平臺的數據交換出現困難[1]。建立農村土地利用數據共享機制,集成多源異構土地利用數據,有助于掌握農村土地利用動態變化、耕地總量動態平衡情況,便于監測、預測土地類型的變化趨勢和對土地利用情況進行分析,對農村土地的科學管理具有重要意義。本研究討論了數據集成過程中模式匹配的方法和作用,通過分析農村土地利用數據模式的差異類型提出了基于元素和實例統計相結合的復合匹配方法,給出元素匹配中元素語義相似度的計算公式,設計了不同類型屬性的統計參數,旨在尋找正確的匹配模式,以便數據集成。

1模式及模式匹配

模式是指按照某種結構組織起來的多個元素的集合,通常由數據庫表、列、類或XML元素、屬性等關聯元素集組成[2]。模式匹配是指從2個或多個模式中確定相關元素在語義上的對應關系,并聲明其具體映射過程,其核心在于計算模式間的相似度。以給定的2個模式元素集合S={S1,S2,…,Sn}和T={T1,T2,…,Tm}作為輸入,發現語義相關模式元素S′、T′ ,并給出它們之間的映射關系,即完成一個模式匹配過程。

目前大多數應用系統中的模式匹配任務是由用戶手動實現的。為了滿足日益迫切的現實需要和盡量減少模式匹配過程中用戶的參與,人們對模式匹配問題進行了一系列研究,并提出多種自動或半自動匹配方法。根據信息來源和種類,現有模式自動匹配方法可劃分為基于元素的匹配方法、基于實例的匹配方法、組合式匹配方法等三大類[3]。

基于元素的匹配方法僅依據模式元素本身所具有的信息來發現和確定語義相關的模式元素。這些信息主要包括元素名稱、元素描述性說明信息、約束信息(如數據類型、取值范圍)等。基于實例的匹配方法是利用數據實例為匹配任務提供語義線索,分為實例概括統計和實例內容統計2種方法。組合式匹配方法則包含基于元素和基于實例的方法,更靈活,效果往往也更好。

針對組合式匹配方法,SemInt系統利用神經網絡技術通過分析字段或屬性的約束和實例統計信息來發現不同數據庫中的相關字段,該系統可以自動執行屬性匹配的整個過程,不需要用戶參與。但由于該過程須要大量的訓練學習處理,容易產生類似于 m ∶n 的不確切匹配候選情況,進一步增加用戶對匹配結果的核對和校正時間[4]。COMA平臺期望以最優的策略對不同匹配方法產生的匹配結果進行綜合利用,詳細討論組合匹配的基本過程以及可采取的組合策略類型,提供一個擴展性良好的平臺來綜合各種方法的結果[5]。LSD系統先通過手工給出的匹配關系和數據實例訓練學習器,用訓練好的學習器產生新的匹配關系,最后結合多個學習器給出的映射規則獲取最終匹配結果。盡管其準確性較高,但它需要專家知識才能完成人工訓練,并且對于大型的應用來說很浪費時間[6]。

組合式匹配可以在一定程度上提高匹配效果,但隨著組合信息和方法的增加,系統復雜性也將隨之增加。由于多種來源的信息具有不同的表達形式,一般并不能直接被應用于混合匹配,而須要制定高效的策略和規則對其進行規范化處理。復合匹配是以單個匹配方法為基礎的,為保證其效率和效果,不僅要盡可能地提高每個成員匹配方法的效率和效果,而且應該選擇正確的執行順序,制定合理的結果重用和組合策略。

2數據模式差異分析

模式是對數據基本種類和特征的概括性描述,反映的是各類數據的結構、屬性、聯系、約束。由于土地利用數據是由不同單位根據自身實際需要設計數據模型,必然會產生不同的模式。數據采集單位用不同屬性字段表達相同的地物類別,或用同一屬性字段表達不同的空間地物,即存在“同名異物”和“同物異名”問題。數據應用部門對提供的數據模式進行不同的重構處理,如重新規劃要素類,為要素類增加或刪除屬性字段,更改屬性約束、取值范圍等。綜合來看,土地利用數據的模式差異主要表現在以下方面[7]。

2.1概括差異

概括是在定義類型時,將具有公共屬性和操作特征的幾種類型抽象出來,形成一種更一般的超類的機制。當設計者采用不同的概括層次描述現實世界中的相關實體時,將產生概括差異。如表1中定義的要素類面狀地物,既可以表示幾何形狀為面狀的地類圖斑,也可以表示具有面積的線狀地物,還可以表示因為比例尺不能上圖而面積過大不能舍棄的零星地物,表2中的要素類只表示地類圖斑。

2.2聚集差異

聚集是將幾個不同特征的子對象組合在一起形成一個在語義水平上更高的雙親對象。當一個定義的要素類相當于另一個或多個要素類的聚集結果時,將產生聚集差異。如要素類“道路”和要素類“公路”,前者中一個要素的空間形態和屬性是后者若干個要素的空間形態和屬性特征的聚合或總和。endprint

2.3描述差異

描述差異是指不同要素類采用不同數量或含義的屬性項來描述和刻畫相同現象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標志碼、地類名稱、變更時間、地類代碼、毛面積)和 屬性集合(幾何型、標志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來刻畫地理要素的屬性和空間特征。

2.4命名差異

在模式設計或定義時,為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區別,通常為模式元素賦予相應表1海南省瓊海市大路鎮1996年面狀地物(要素類A)

2.5約束差異

當要素類對相同概念或關系采用不同約束條件(如空間要素的幾何類型、屬性的數據類型、長度、取值范圍等)時,將產生約束差異。例如,將待入庫的數據進行數據要素編碼時,2個數據庫分別采用數值型和字符型來記錄要素的編碼值。

此外,如果2個關系(表)中存在共同的數據實例,則可認為這2個關系之間存在匹配關系,然后根據數據實例進一步確定這2個關系的屬性匹配關系。因此,數據實例對揭露數據模式匹配關系具有重要意義。表1、表2中數據實例的差異主要表現在外延差異、量綱差異、精度差異、表達差異、分段差異等方面。

3農村土地利用數據的模式匹配

從地理信息系統(GIS)的觀點看,一個典型的土地利用數據模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個屬性。按照不同模式結構層次分類,將要素類(關系表)當作底層元素時,屬性(字段)可以看作是它的實例;將屬性(字段)作為底層元素時,數據記錄即為它的實例。

將農村土地利用數據模式分為要素類和屬性2層分別進行元素和實例的匹配,計算其元素相似度、約束相似度、實例相似度,通過最大相似度建立起模式匹配關系。

3.1基于元素的匹配

基于元素的匹配技術是對單個模式元素進行匹配的。對于第1個輸入模式的每個元素,基于元素的匹配在第2個輸入模式中確定匹配元素。在最簡單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關系模式中的列。但其也不只限于原子層,也可應用于高層(非原子層)元素。高層粒度包括文件記錄、實體、類、關系表、XML 元素。

3.1.1元素名稱匹配“如果2個元素的名稱完全相同,則它們存在匹配關系”,這是大多數應用系統中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語句。語句相似度是指2個語句的相似程度。相似度達到某個設定閥值時,就認為這2個語句相似。一般語句相似度計算首先對語句進行分割,通過計算關鍵詞詞形、詞義相似度,再賦予它們不同的權重得到語句的相似度[8]。

對于詞形相似度,可以通過 Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來衡量。對于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關系,因此所需的評價方法相對比較復雜,需要語義詞典支持,如 WordNet、知網等。

3.1.1.1基于詞形的相似度計算設語句S1、S2分別可被切分為m、n個詞語,即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過下式計算:

3.1.1.2基于詞義的相似度計算設p1、p2是詞語c1、c′1的2個義原[9](描述詞語語義的最小單位),其相似度如下。

3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數據類型、值域、唯一性、可選性、關系類型等,它們是一種重要的語義信息來源。因為在模式設計時相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據來確定是否相關。下面進一步分析這些信息的形式及其在模式匹配中的作用。

3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會存在對應關系,如浮點型屬性和雙精度型屬性存儲的可能都是一定精度的面積數據,“char”型屬性和“string”型屬性可能都存儲英文字符型數據;常見日期型數據可以用字符串表示,也可以用專門的日期型屬性存儲。

3.1.2.2值域由于應用背景、數據參考源、數據存儲標準的不同,源數據和目標數據在描述同一空間實體狀態時會有不同的屬性值域。

3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

3.1.2.4關系約束關系約束是揭示屬性之間聯系的語義來源。例如,已知A、B之間具有1 ∶1的關系,并且A與C匹配,那么B與C之間也可能存在匹配關系。

基于約束的屬性相似性計算方法如下:

Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)

式中:Sim(αi,βi)為屬性元素第i對對應約束因子相似度。

單獨使用約束信息經常會導致不完全的n ∶m映射,因為一個模式中可能有多個具有可比約束的元素。然而這種方法能夠限制匹配候選者的數量,而且可與其他匹配程序相結合(如名稱匹配程序)[10]。

3.2基于實例統計的匹配

基于實例的匹配技術考慮的是實例級數據,通過這些實例級數據可以認識到模式元素表示的內容和意義。在可用模式信息非常有限的情況下,尤其是對于半結構化數據,它們是非常有意義的。特別是在沒有給定任何模式信息的情況下,可以通過實例數據手工或自動構造出模式。

實例級數據給出了模式元素真實內容的精確描述,可以進一步分析模式元素的內容和意義,尤其當只有有限的可用模式信息時,通常這類情況都是半結構化數據。這種特殊情況下沒有給出模式,只給出可由實例數據手工構建的模式,如數據指南或從 XML文檔中構建的近似模式圖;甚至當可獲取充裕的模式信息時,實例級匹配對于發現錯誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級匹配中,通過選擇與匹配實例更為相似的元素而避免產生歧義。

對于可能匹配的屬性,若其數據類型為數值型如毛面積、圖斑面積,其統計概括信息主要包括最大值、最小值、平均值、標準差等,分別計算要素類A、B數值型匹配屬性的所有實例在這4個統計量上的值(表3)。設定差異閾值,統計量差異小于閾值則對應屬性是匹配的。endprint

2.3描述差異

描述差異是指不同要素類采用不同數量或含義的屬性項來描述和刻畫相同現象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標志碼、地類名稱、變更時間、地類代碼、毛面積)和 屬性集合(幾何型、標志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來刻畫地理要素的屬性和空間特征。

2.4命名差異

在模式設計或定義時,為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區別,通常為模式元素賦予相應表1海南省瓊海市大路鎮1996年面狀地物(要素類A)

2.5約束差異

當要素類對相同概念或關系采用不同約束條件(如空間要素的幾何類型、屬性的數據類型、長度、取值范圍等)時,將產生約束差異。例如,將待入庫的數據進行數據要素編碼時,2個數據庫分別采用數值型和字符型來記錄要素的編碼值。

此外,如果2個關系(表)中存在共同的數據實例,則可認為這2個關系之間存在匹配關系,然后根據數據實例進一步確定這2個關系的屬性匹配關系。因此,數據實例對揭露數據模式匹配關系具有重要意義。表1、表2中數據實例的差異主要表現在外延差異、量綱差異、精度差異、表達差異、分段差異等方面。

3農村土地利用數據的模式匹配

從地理信息系統(GIS)的觀點看,一個典型的土地利用數據模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個屬性。按照不同模式結構層次分類,將要素類(關系表)當作底層元素時,屬性(字段)可以看作是它的實例;將屬性(字段)作為底層元素時,數據記錄即為它的實例。

將農村土地利用數據模式分為要素類和屬性2層分別進行元素和實例的匹配,計算其元素相似度、約束相似度、實例相似度,通過最大相似度建立起模式匹配關系。

3.1基于元素的匹配

基于元素的匹配技術是對單個模式元素進行匹配的。對于第1個輸入模式的每個元素,基于元素的匹配在第2個輸入模式中確定匹配元素。在最簡單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關系模式中的列。但其也不只限于原子層,也可應用于高層(非原子層)元素。高層粒度包括文件記錄、實體、類、關系表、XML 元素。

3.1.1元素名稱匹配“如果2個元素的名稱完全相同,則它們存在匹配關系”,這是大多數應用系統中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語句。語句相似度是指2個語句的相似程度。相似度達到某個設定閥值時,就認為這2個語句相似。一般語句相似度計算首先對語句進行分割,通過計算關鍵詞詞形、詞義相似度,再賦予它們不同的權重得到語句的相似度[8]。

對于詞形相似度,可以通過 Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來衡量。對于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關系,因此所需的評價方法相對比較復雜,需要語義詞典支持,如 WordNet、知網等。

3.1.1.1基于詞形的相似度計算設語句S1、S2分別可被切分為m、n個詞語,即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過下式計算:

3.1.1.2基于詞義的相似度計算設p1、p2是詞語c1、c′1的2個義原[9](描述詞語語義的最小單位),其相似度如下。

3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數據類型、值域、唯一性、可選性、關系類型等,它們是一種重要的語義信息來源。因為在模式設計時相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據來確定是否相關。下面進一步分析這些信息的形式及其在模式匹配中的作用。

3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會存在對應關系,如浮點型屬性和雙精度型屬性存儲的可能都是一定精度的面積數據,“char”型屬性和“string”型屬性可能都存儲英文字符型數據;常見日期型數據可以用字符串表示,也可以用專門的日期型屬性存儲。

3.1.2.2值域由于應用背景、數據參考源、數據存儲標準的不同,源數據和目標數據在描述同一空間實體狀態時會有不同的屬性值域。

3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

3.1.2.4關系約束關系約束是揭示屬性之間聯系的語義來源。例如,已知A、B之間具有1 ∶1的關系,并且A與C匹配,那么B與C之間也可能存在匹配關系。

基于約束的屬性相似性計算方法如下:

Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)

式中:Sim(αi,βi)為屬性元素第i對對應約束因子相似度。

單獨使用約束信息經常會導致不完全的n ∶m映射,因為一個模式中可能有多個具有可比約束的元素。然而這種方法能夠限制匹配候選者的數量,而且可與其他匹配程序相結合(如名稱匹配程序)[10]。

3.2基于實例統計的匹配

基于實例的匹配技術考慮的是實例級數據,通過這些實例級數據可以認識到模式元素表示的內容和意義。在可用模式信息非常有限的情況下,尤其是對于半結構化數據,它們是非常有意義的。特別是在沒有給定任何模式信息的情況下,可以通過實例數據手工或自動構造出模式。

實例級數據給出了模式元素真實內容的精確描述,可以進一步分析模式元素的內容和意義,尤其當只有有限的可用模式信息時,通常這類情況都是半結構化數據。這種特殊情況下沒有給出模式,只給出可由實例數據手工構建的模式,如數據指南或從 XML文檔中構建的近似模式圖;甚至當可獲取充裕的模式信息時,實例級匹配對于發現錯誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級匹配中,通過選擇與匹配實例更為相似的元素而避免產生歧義。

對于可能匹配的屬性,若其數據類型為數值型如毛面積、圖斑面積,其統計概括信息主要包括最大值、最小值、平均值、標準差等,分別計算要素類A、B數值型匹配屬性的所有實例在這4個統計量上的值(表3)。設定差異閾值,統計量差異小于閾值則對應屬性是匹配的。endprint

2.3描述差異

描述差異是指不同要素類采用不同數量或含義的屬性項來描述和刻畫相同現象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標志碼、地類名稱、變更時間、地類代碼、毛面積)和 屬性集合(幾何型、標志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來刻畫地理要素的屬性和空間特征。

2.4命名差異

在模式設計或定義時,為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區別,通常為模式元素賦予相應表1海南省瓊海市大路鎮1996年面狀地物(要素類A)

2.5約束差異

當要素類對相同概念或關系采用不同約束條件(如空間要素的幾何類型、屬性的數據類型、長度、取值范圍等)時,將產生約束差異。例如,將待入庫的數據進行數據要素編碼時,2個數據庫分別采用數值型和字符型來記錄要素的編碼值。

此外,如果2個關系(表)中存在共同的數據實例,則可認為這2個關系之間存在匹配關系,然后根據數據實例進一步確定這2個關系的屬性匹配關系。因此,數據實例對揭露數據模式匹配關系具有重要意義。表1、表2中數據實例的差異主要表現在外延差異、量綱差異、精度差異、表達差異、分段差異等方面。

3農村土地利用數據的模式匹配

從地理信息系統(GIS)的觀點看,一個典型的土地利用數據模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個屬性。按照不同模式結構層次分類,將要素類(關系表)當作底層元素時,屬性(字段)可以看作是它的實例;將屬性(字段)作為底層元素時,數據記錄即為它的實例。

將農村土地利用數據模式分為要素類和屬性2層分別進行元素和實例的匹配,計算其元素相似度、約束相似度、實例相似度,通過最大相似度建立起模式匹配關系。

3.1基于元素的匹配

基于元素的匹配技術是對單個模式元素進行匹配的。對于第1個輸入模式的每個元素,基于元素的匹配在第2個輸入模式中確定匹配元素。在最簡單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關系模式中的列。但其也不只限于原子層,也可應用于高層(非原子層)元素。高層粒度包括文件記錄、實體、類、關系表、XML 元素。

3.1.1元素名稱匹配“如果2個元素的名稱完全相同,則它們存在匹配關系”,這是大多數應用系統中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語句。語句相似度是指2個語句的相似程度。相似度達到某個設定閥值時,就認為這2個語句相似。一般語句相似度計算首先對語句進行分割,通過計算關鍵詞詞形、詞義相似度,再賦予它們不同的權重得到語句的相似度[8]。

對于詞形相似度,可以通過 Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來衡量。對于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關系,因此所需的評價方法相對比較復雜,需要語義詞典支持,如 WordNet、知網等。

3.1.1.1基于詞形的相似度計算設語句S1、S2分別可被切分為m、n個詞語,即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過下式計算:

3.1.1.2基于詞義的相似度計算設p1、p2是詞語c1、c′1的2個義原[9](描述詞語語義的最小單位),其相似度如下。

3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數據類型、值域、唯一性、可選性、關系類型等,它們是一種重要的語義信息來源。因為在模式設計時相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據來確定是否相關。下面進一步分析這些信息的形式及其在模式匹配中的作用。

3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會存在對應關系,如浮點型屬性和雙精度型屬性存儲的可能都是一定精度的面積數據,“char”型屬性和“string”型屬性可能都存儲英文字符型數據;常見日期型數據可以用字符串表示,也可以用專門的日期型屬性存儲。

3.1.2.2值域由于應用背景、數據參考源、數據存儲標準的不同,源數據和目標數據在描述同一空間實體狀態時會有不同的屬性值域。

3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

3.1.2.4關系約束關系約束是揭示屬性之間聯系的語義來源。例如,已知A、B之間具有1 ∶1的關系,并且A與C匹配,那么B與C之間也可能存在匹配關系。

基于約束的屬性相似性計算方法如下:

Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)

式中:Sim(αi,βi)為屬性元素第i對對應約束因子相似度。

單獨使用約束信息經常會導致不完全的n ∶m映射,因為一個模式中可能有多個具有可比約束的元素。然而這種方法能夠限制匹配候選者的數量,而且可與其他匹配程序相結合(如名稱匹配程序)[10]。

3.2基于實例統計的匹配

基于實例的匹配技術考慮的是實例級數據,通過這些實例級數據可以認識到模式元素表示的內容和意義。在可用模式信息非常有限的情況下,尤其是對于半結構化數據,它們是非常有意義的。特別是在沒有給定任何模式信息的情況下,可以通過實例數據手工或自動構造出模式。

實例級數據給出了模式元素真實內容的精確描述,可以進一步分析模式元素的內容和意義,尤其當只有有限的可用模式信息時,通常這類情況都是半結構化數據。這種特殊情況下沒有給出模式,只給出可由實例數據手工構建的模式,如數據指南或從 XML文檔中構建的近似模式圖;甚至當可獲取充裕的模式信息時,實例級匹配對于發現錯誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級匹配中,通過選擇與匹配實例更為相似的元素而避免產生歧義。

對于可能匹配的屬性,若其數據類型為數值型如毛面積、圖斑面積,其統計概括信息主要包括最大值、最小值、平均值、標準差等,分別計算要素類A、B數值型匹配屬性的所有實例在這4個統計量上的值(表3)。設定差異閾值,統計量差異小于閾值則對應屬性是匹配的。endprint

主站蜘蛛池模板: 亚洲a级在线观看| 在线免费观看AV| 国产亚洲精品91| 久久天天躁夜夜躁狠狠| 青青青国产视频| 欧美精品亚洲精品日韩专| 成人国产精品一级毛片天堂| 亚洲人成人无码www| 在线欧美国产| 精品国产成人三级在线观看| 国产主播在线一区| 福利小视频在线播放| 久草视频精品| 乱系列中文字幕在线视频| 男女猛烈无遮挡午夜视频| 欧美日本在线| 亚洲天堂伊人| 日韩精品无码免费一区二区三区| 久久国产拍爱| 国产国产人成免费视频77777| 日韩成人免费网站| 日本高清在线看免费观看| 中文字幕无码制服中字| 免费A级毛片无码免费视频| 香蕉蕉亚亚洲aav综合| 无码有码中文字幕| 亚洲色欲色欲www网| 亚洲国产成人在线| 亚洲91精品视频| 一级香蕉视频在线观看| 激情综合婷婷丁香五月尤物 | a欧美在线| 97久久超碰极品视觉盛宴| 国产欧美精品一区二区| 亚洲欧洲日韩综合| m男亚洲一区中文字幕| 最新国产网站| 69综合网| 午夜精品一区二区蜜桃| 人妻91无码色偷偷色噜噜噜| 美女黄网十八禁免费看| 伊人久久精品亚洲午夜| 亚洲综合色婷婷中文字幕| 欧美日韩精品综合在线一区| 欧美亚洲欧美| 久无码久无码av无码| 日韩A∨精品日韩精品无码| 91久久精品国产| 中文字幕精品一区二区三区视频| 久久香蕉国产线看精品| 亚洲AⅤ综合在线欧美一区| 中国一级毛片免费观看| 一级毛片在线免费看| 暴力调教一区二区三区| 911亚洲精品| 综合色亚洲| 国产96在线 | 欧美激情第一欧美在线| 日韩黄色大片免费看| 欧美日一级片| 亚洲精品视频免费| 夜夜操狠狠操| 欧美精品高清| 毛片视频网| 成人国产小视频| 91亚洲精品国产自在现线| 亚洲爱婷婷色69堂| 极品私人尤物在线精品首页| 国产精品无码翘臀在线看纯欲| 国产成人久视频免费 | 高清色本在线www| 在线精品视频成人网| 亚洲国产精品日韩专区AV| 久久人搡人人玩人妻精品| 亚洲美女一区| 99这里只有精品在线| 囯产av无码片毛片一级| 99r在线精品视频在线播放| 女同国产精品一区二区| 午夜啪啪网| 97视频免费在线观看| 亚洲成人精品在线|