999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檢索應用中地理信息資源相似度計算方法研究

2017-03-30 08:51:15賈奮勵宋國民高云亮
測繪工程 2017年6期
關鍵詞:文本資源

段 帥,賈奮勵,宋國民,高云亮,蓋 森

(1.信息工程大學 地理空間信息學院,河南 鄭州 450001,2.南京陸軍指揮學院,江蘇 南京 210045)

檢索應用中地理信息資源相似度計算方法研究

段 帥1,賈奮勵1,宋國民1,高云亮1,蓋 森2

(1.信息工程大學 地理空間信息學院,河南 鄭州 450001,2.南京陸軍指揮學院,江蘇 南京 210045)

在地理信息資源檢索應用中,資源屬性間相似關系的計算還不夠深入,地理信息資源的精準推薦及檢索可視化應用尚難以實現。針對該問題,統一采用“相似度”對資源屬性間的相似關系進行表達。資源的屬性類型大部分為文本,其中具有語義差異,文中提出復合文本的相似度算法對文本類型屬性進行匹配,并給出數值類型屬性的“相似度”映射方案。在此基礎上,實現資源時間、空間屬性的相似度計算。基于所提出的相似度算法進行地理信息資源檢索實驗,實現地理信息資源屬性間相似關系的量化,促進信息可視化在地理信息資源檢索中的應用。

地理信息資源;資源檢索;相似計算;相似度

地理信息資源主要指用于描述地理信息的各種空間數據,包括各種矢量數據、柵格數據、文本描述數據及多媒體數據等。在當今數字時代,數字化地理數據的數據量正在快速增長[1],在各國政府、國際組織、企業和部門的普遍重視與長期建設下,其積累量已達到相當規模,各類地理信息資源共享服務平臺紛紛投入建設[2]。如美國聯邦地理數據委員會(FGDC)交換中心(CleaningHouse)、歐委會啟迪地理門戶網站(INSPIRE geoportal),我國的地球系統科學數據共享平臺、地理空間數據云等。

地理信息元數據標準是地理信息資源在共享應用中的主要描述依據。如ISO/TC211元數據標準(ISO19115)、《地理信息 元數據》(GB/T19710)、DIF數據交換目錄等,這些元數據標準在地理信息資源的描述項目及描述方式上存在一定的差異。同一資源屬性可能采用不同的描述方式及不同的度量單位,并且地理信息資源屬性類型大部分都是文本,其中含有大量的語義成分[3]。資源的屬性需要進行一定的匹配和計算,才能給用戶提供較準確的檢索結果。

然而,在地理信息資源共享應用中通常采用關鍵字匹配的方式,在屬性計算方面通常只涉及到空間范圍的計算,而資源其它屬性間的相似關系卻很少涉及,地理信息資源的相似推薦及檢索可視化等應用還難以實現。這樣,一方面用戶難以發現感興趣信息;另一方面,一些資源成為少人問津的“暗信息”[4]。

基于以上背景,本文面向地理信息資源檢索應用,采用相似度對地理信息資源屬性間的相似關系進行量化表達,促進資源更精準的推薦及信息可視化在地理信息資源檢索中的應用。

1 地理信息資源屬性的相似度概念

地理信息資源檢索應用是將與檢索條件相匹配的資源進行聚集并展示的過程,實質上是基于資源屬性將相似的資源在邏輯上進行聚集。采用相似度對地理信息資源屬性間的相似程度進行量化,以便于對相似的資源進行聚集,促進檢索結果更好地排序及信息可視化對資源間相似關系的表達。下面對相似度的概念及其表達范圍進行分析。

相似度定義:用于描述地理信息資源屬性間的相似程度,統一采用介于0至1之間數值進行表達,當相似關系最強時,設定其相似度為1;當相似關系最弱時,其相似度為0。

地理信息元數據標準提供給地理信息資源的描述項多達400余項,實際應用中通常選取其中十幾項或幾十項作為資源的描述。兩個資源對象可基于其中任一描述項計算出兩者的相似關系。對地理信息資源設定統一描述項已在另一文中作詳細敘述,具體包括了資源的基本特征、時空特征及深度內容特征3個方面,本文的研究重點是對描述項的相似度進行計算。面向地理信息資源檢索應用,需要明確相似度的表達范圍,下面對資源的描述項進行分析。

資源的描述項按照類型可劃分為文本類型和數值類型兩種。地理信息資源大部分屬性為文本類型,如資源名稱、采集工具、主題、關鍵字等;其余少量屬性的類型為數值類型,如時間、空間范圍、存儲大小、價格等。文本類型屬性需要進行文本相似度計算,得到更加準確的匹配結果;數值屬性中的時間、空間范圍需要進行特殊的計算處理,而存儲大小、價格等屬性,需要將數值之間的關系轉換為相似度。

2 資源屬性的相似度計算方法

文本和數值屬性的相似度計算是進行其它相似關系計算的基礎,本節將針對文本、數值兩種類型屬性的相似度計算方法進行研究,并給出資源空間屬性、時間屬性的相似度計算方法。

2.1 文本相似度計算

文本的相似度計算能夠促進資源的模糊匹配,提高資源的查全率,從而為用戶推薦更多相似的資源結果。下面對常見的文本相似度算法進行介紹,并針對地理信息資源檢索應用給出具體的計算方法。

2.1.1 常見的文本相似度計算方法

2.1.1.1 字符串匹配算法

字符串相似度[5]可以用來衡量兩個字符串的相似程度,它利用兩個目標字符串的公共子串的長度,根據相應公式得出相似程度。對于兩個字符串P,T,分別可表示為P={P1,P2,P3,…,Pn},T={T1,T2,T3,…,Tm}。對P,T的元素進行匹配,所有匹配對(Pi,Tj)的集合表達為Rs,兩個字符串相似度可以表示為

Sim(P,T)=

其中:Sim(P,T)表示兩個字符串P,T的相似度;|?|表示內部集合的元素個數;若Rs集合為空,則Sim值為0;當P,T完全相同,Sim為1。

2.1.1.2 詞語的相似度計算方法

1)基于語料庫的詞語相似度計算。該方法通過統計大規模語料庫,根據詞語間信息量或者詞語共現頻率來計算詞語相似度。按照語料庫的類型具體分為傳統大規模語料庫和Web語料庫[6]。該方法適宜用于計算兩個詞語的相關性,如“軍人”和“武器”兩個概念,兩者意義上差別很大卻具有很強的相關性。但基于語料庫的方法依賴于語料庫,算法復雜且存在數據稀疏的問題,其應用并不廣泛。

2)基于《同義詞詞林》的詞語相似度計算。梅家駒等人于1983年編纂了《同義詞詞林》,這本詞典中包括了詞語的同義詞及同類詞,哈工大在其基礎上進行拓展,在原有三層分類體系基礎上增加兩層,形成了五層分類體系。并給每個詞7個位置編碼及一個標記,具體編碼如表1所示。

3)基于《知網》的詞語相似度計算。《知網》并非將所有的“概念”歸結到一個樹狀的層次體系中,而是試圖用一系列的“義原”來對每一個“概念”進行描述。其具體概念的定義如下:

表1 詞語“影像”的編號示例[7]

概念:是對詞匯語義的一種描述。每一個詞可以表達為幾個概念。“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”。

義原:是用于描述一個“概念”的最小意義單位。《知網》中的義原可以分為三類:基本義原、語法義原、關系義原。

2.1.1.3 上述方法的對比

表2對上述幾種方法的優缺點進行總結。

2.1.2 兼顧語義的復合文本相似度計算方法

綜合字符串匹配的思想和詞語相似度計算方法,本文提出兼顧語義的復合文本相似度計算方法。

2.1.2.1 算法思路

為對資源屬性進行良好的語義處理,提出一種兼顧語義的復合文本相似度計算方法,具體算法流程如圖1所示。

表2 文本相似度計算方法對比

圖1 文本相似度算法流程

步驟1:分詞。對于待比較的兩個屬性值A與B,考慮到A,B可能為復合詞語或短語,在進行比較時先采用分詞工具對復合詞匯A,B進行分詞,分別得到A,B的屬性向量A(a1,a2,…,am)和B(b1,b2,…,bn)。

步驟2:匹配。將兩個屬性向量中的每個元素進行一一匹配,形成m×n個配對的元素,如下所示:

(a1,b1)(a1,b2)…(a1,bn)

(a2,b1)(a2,b2)…(a2,bn)

…………

(am,b1)(am,b2)…(am,bn)

步驟3:詞語相似度計算。對上述匹配對中的每個元素進行詞語相似度計算。首先判斷配對(ai,bj)中兩個元素是否相同,若相同,則其相似度為1;若不同,則利用詞語相似度算法進行計算,得到m×n特征矩陣M,表示如下:

步驟4:提取。首先遍歷相似度特征矩陣,提取矩陣中最大的元素Max1,并刪除其所在的行與列,得到(m-1)×(n-1)的矩陣M1。重復該步驟,每次提取矩陣中的最大元素Maxi,并去除該元素所在的行與列,直到矩陣元素只剩下一行或一列為止。得到min(m,n)個元素集合并記為Max:

Max={Max1,Max2,…,Maxmin(n,m)}.

步驟5:基于字符串匹配思想,對于兩個待匹配的屬性,以分詞后的元素作為最小單位進行匹配,且語義相似度的值范圍為(0,1),因此結合屬性的相似度計算,將兩個概念中的相似度計算公式調整為

2.1.2.2 詞庫調整

由于地理信息資源檢索是特定領域的檢索,需要對領域特有的詞匯進行檢驗,對缺乏的專業領域詞匯進行添加,以滿足地理信息資源檢索應用。《同義詞詞林》及《知網》兩種詞庫都不包含“攝影測量”、“遙感影像”這類的詞語。鑒于《同義詞詞林》的詞語結構相對簡單,易于調整,采用《同義詞詞林》的詞庫進行文本相似度計算,并對詞匯進行添加及調整。

1)添加詞匯。對地理信息資源檢索應用的核對核心詞匯進行分析,添加缺少的詞匯。例如,添加“圖像 1 Dk31A01=”、“圖像 1 Dk31A01=”、“圖像1 Dk31A01=”、“航拍1 Dk31A02=”至“同義詞詞林.txt”文件中。

2)調整詞匯距離。對詞語相似度進行測試,對明顯偏差的詞匯距離進行修改。例如,對記錄“攝影 3 Ae17C07# Hh03A01= Df04A05#”,添加“Df04A05#”編碼以減少與詞匯“遙感”的距離。

2.2 數值屬性相似度計算

數值類型的屬性主要包括資源的存儲大小、價格、分辨率等,這類屬性采用“數值+單位”的形式進行表示。實現數值距離向相似度的映射,具體分為以下兩個步驟。

步驟1:轉換為統一的計量單位,計算兩個待匹配數值的差值。

同一屬性可能具有不同的表示單位。如存儲大小可能采用KB、MB、GB、TB幾種單位進行表示,進行匹配時首先將其換算為統一單位,再計算兩個數值的差值,這里將差值記為D。

步驟2:對差值進行分階,映射為0~1間的相似度。

對步驟1中計算出的差值D進行分階,將每一階的范圍映射為相似度。以數據儲存大小屬性為例,表3對其相似度映射方法進行分析。

需特別指出的是,數值型屬性間差值的分階方法并不固定,具體應用中可參照該屬性的特征以及數據庫中該屬性的密集程度。

2.3 時間相似度計算

地理信息元數據標準對資源的時間信息通常采用“時間點”和“時間段”兩種方式進行表達。如“時間點”主要采用“年—月—日”的形式進行描述;時間段包括起始時間點與終止時間點來表達。學術界將點時間看作一個極短的段時間[8]。基于該思想,取時間段的中點作為時間段的簡化表示,便于統一計算。如圖2所示。

表3 資源存儲大小的相似度映射

圖2 時間映射示意圖

將時間段映射為時間軸的點之后,可以統一計算時間的間隔值D,采用上節中數值屬性相似度的計算方法,對時間間隔進行相似度映射,在此不再贅述。

2.4 空間相似度計算

空間關系可細分為水平空間關系、資源方向、方位以及拓撲等多個類別。考慮到資源方向、方位、拓撲及垂直空間上的復雜關系在檢索中并不常用,因此重點研究地理信息資源檢索中水平空間的相似關系。資源水平空間的描述可能采用直角坐標系、大地坐標系、地名、郵編、行政區劃等多種類型的描述方式。因此,實現資源水平空間關聯關系的計算首先要實現多種描述方式的統一映射。

本文將水平空間的多種描述方式統一映射為大地坐標系的表達,并采用空間重疊度和空間距離兩個參數對資源的空間相似度進行度量,具體如圖3所示。

圖3 水平空間描述方式的統一映射與計算

重疊度:從檢索的角度,設區域A為待比較資源的水平空間區域或搜索范圍,區域B為待比較區域,區域B與區域A的重疊度σ(A,B)表示為

其中:SAB為區域A與B的公共面積,SA為區域A

的面積。

空間距離:僅僅采用空間重疊度往往還難以發現足夠多的資源,在此采用空間距離這一參數對相似度進行補充。

設區域A中心點經緯度為(LonA,LatA),區域B中心點經緯度為(LonB,LatB)。對經緯度進行規范化處理:東經取正值(Lon),西經取負值(-Lat),北緯(90-Lat),南緯(90+Lat),經處理后的坐標分別表示為(MLonA,MLatA)和(MLonB,MLatB),空間距離計算公式為

Distance(A,B)=R×Arccos(sin(MLatA)×

sin(MLatB)×cos(MLonA-MLonB)+

cos(MLatA)×cos(MLatB))×PI/180.

其中:R為地球平均半徑;PI為圓周率。根據空間重疊度與空間距離公式,資源的水平空間總體相似度可表示如下:

其中:W1,W2分別對應空間重疊度與空間距離的權重;N為距離的調整因子。水平空間相似度在理論上可以超過1,當相似度超過1時,調整其相似度值為1。

3 實驗驗證

采用本文提出的地理信息資源屬性的相似度計算方法,開發原型試驗系統進行檢索實驗。系統中地理信息資源的元數據庫中包含了主題內容、時間、空間等詳細的屬性信息。原型系統提供單一要素檢索和多要素檢索功能,采用兩個功能分別進行兩組檢索實驗。

3.1 單要素檢索實驗

設定檢索項為“主題”,檢索關鍵字為“山脈”,檢索結果如圖4所示。

圖4 主題檢索結果

表4對檢索結果進行統計,表中的匹配度代表資源與當前檢索條件的相似度。

表4 檢索結果統計

對比可知,匹配度為100%的記錄中其主題包含了“山”、“山地”,與檢索詞匯“山脈”概念相一致;“海島”、“島礁”與其的相似度為79%,而湖泊、森林、城市等與“山脈”距離較遠。檢索系統對每一頁的檢索結果以圖形進行顯示(見圖5),初步實現了檢索結果的可視化表達。

圖5 檢索結果的圖形顯示

3.2 空間范圍檢索實驗

設定3個檢索條件:資源類型為“影像”,“主題”為“河流”,“地名”為“鄭州”,其檢索結果目錄及圖形顯示分別如圖6、圖7所示。

圖6 多要素檢索結果

圖7 多要素檢索可視化顯示

表5對圖中的檢索結果進行統計。當有多個檢索條件時,檢索系統計算出對應屬性的相似度,求取平均值作為總體相似度。當資源對象的相關屬性與3個檢索條件完全匹配時,其總體相似度為100%;當滿足其中兩個檢索條件,相似度約為66%;表5中匹配度為59%的資源,其空間范圍屬性與“空間范圍”檢索條件的相似度為1,并且其包含的主題“湖泊”與檢索條件“河流”在概念上相似,其相似度更高,該資源的總體相似度較高。

表5 多要素檢索結果統計

兩組檢索實驗證明,統一采用相似度對地理信息資源屬性的相似關系進行計算,有利于對屬性相似關系的統一量化,促進資源的精確排序及信息可視化對檢索結果的表達;驗證了文本屬性、空間屬性的相似度算法的有效性,促進資源的相似發現,提高了查全率。

4 結束語

面向檢索應用,對地理信息資源屬性的相似度計算方法進行研究。統一采用介于0至1的相似度值對資源屬性的相似關系進行統一表示。提出了復合文本的相似度算法對資源文本類型屬性進行匹配,并給出數值屬性的相似度映射方案。在其基礎上,完成資源的時間、空間屬性的相似度計算。采用提出的屬性相似度計算方法進行檢索實驗,實驗證明,本文所提出的屬性相似度計算方法能夠促進資源屬性間相似關系的量化,促進資源的精確排序及相似資源的發現。

本文采用圖形方法對檢索結果進行可視化顯示,該表達方式還比較簡單。在本文研究的基礎上,將信息可視化方法與地理信息資源檢索進行深入結合是下一步研究工作的重點。

[1] 龔健雅,耿晶,吳華意,等.地理信息資源網絡服務技術及其發展[J].測繪科學技術學報,2013,30(4):353-360.

[2] 陸海英,花存宏.地理信息資源共享服務平臺建設構想[J].地理信息世界,2009,7(4):19-23.

[3] 宋國民,賈奮勵.地理空間數據共享機制研究[J].測繪學院學報,2002,19(2):134-136.

[4] 劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009,19(1):1-15.

[5] 牛永潔,張成.多種字符串相似度算法的比較研究[J].計算機與數字工程,2012,40(3):14-17.

[6] 李慧.詞語相似度算法研究綜述[J].現代情報,2015,35(4):172-177.

[7] 劉丹丹,彭成,錢龍華,等.《同義詞詞林》在中文實體關系抽取中的作用[J].中文信息學報,2014,28(2):91-99.

[8] 侯志偉,諸云強,高星,等.時間本體及其在地學數據檢索中的應用[J].地球信息科學學報,2015(4):379-390.

[責任編輯:劉文霞]

On the method of similarity computation of geographic information resources in the retrieval

DUAN Shuai1, JIA Fenli1, SONG Guomin1,GAO Yunliang1,GAI Sen2

(1.Information Engineering University,Zhengzhou 450001,China, 2.Nanjing Army Command College,Nanjing 210045,China)

In the retrieval of geographic information resources, as the computation of relationship between the attributes of resources is not deep enough, it is difficult to recommend the geographic information resources accurately and display the results in a visual form. In view of the above problems, this paper uses relationship to express the similarity between resource attributes. The mostly-used type of attributes is text, which has much semantic difference.So a similarity algorithm is proposed to match the text attributes, and to obtain the similarity mapping scheme of numerical attributes.On this basis the similarity of time and space attributes are calculated. Based on the proposed similarity algorithm, geographic information resources retrieval experiments are carried out,which will realize the quantification of resource similarity relation and application of information visualization in geographic information retrieval.

geographic information resources; resource retrieval; similarity algorithm; similar degree

引用著錄形式:段 帥,賈奮勵,宋國民.檢索應用中地理信息資源相似度計算方法研究[J].測繪工程,2017,26(6):53-59.

10.19349/j.cnki.issn1006-7949.2017.06.010

2016-05-06;

2016-06-01

國家自然科學基金資助項目(41371382);信息工程大學地理空間信息學院碩士學位創新與創優論文基金(ZS201505)

段 帥(1990-),男,碩士研究生.

P208

A

1006-7949(2017)06-0053-07

猜你喜歡
文本資源
讓有限的“資源”更有效
基礎教育資源展示
一樣的資源,不一樣的收獲
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
資源回收
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 四虎综合网| 久久动漫精品| 亚洲成a人片| 国产一线在线| 超碰色了色| 国产人成在线观看| 亚洲国产成人精品无码区性色| 伊人福利视频| 国产成人你懂的在线观看| 无码日韩视频| 日韩国产欧美精品在线| 欧美激情第一区| 99视频精品全国免费品| 国产av色站网站| 成人伊人色一区二区三区| 亚洲第一区精品日韩在线播放| 91精品国产综合久久香蕉922| 91九色国产在线| 岛国精品一区免费视频在线观看| 亚洲AV一二三区无码AV蜜桃| 日韩在线第三页| 色视频国产| 亚洲精品视频免费观看| 亚洲av中文无码乱人伦在线r| 国产精品福利尤物youwu| 国产精品网址你懂的| 国产视频一区二区在线观看 | 欧美在线导航| 欧美午夜精品| 综合色婷婷| 天堂va亚洲va欧美va国产 | 国产手机在线ΑⅤ片无码观看| 永久免费无码成人网站| 欧美精品在线观看视频| 97久久精品人人做人人爽| 精品国产成人三级在线观看| 中国国语毛片免费观看视频| 日本亚洲国产一区二区三区| 亚洲精品国产日韩无码AV永久免费网 | 国产福利小视频高清在线观看| 一区二区自拍| 一区二区欧美日韩高清免费| av午夜福利一片免费看| 久久黄色视频影| 97se亚洲综合| 国产欧美日韩另类精彩视频| 久久久噜噜噜| 真实国产精品vr专区| 久久免费精品琪琪| 九九热视频精品在线| 综合天天色| 日本草草视频在线观看| 欧美精品H在线播放| 亚洲永久免费网站| AV熟女乱| 欧美国产成人在线| 国产主播一区二区三区| 成年人国产网站| 动漫精品中文字幕无码| 亚洲成A人V欧美综合天堂| 欧美日韩国产在线人| 99久久国产综合精品2023| 天天综合网站| 美女国内精品自产拍在线播放| 国产喷水视频| 为你提供最新久久精品久久综合| 免费女人18毛片a级毛片视频| 国产精品对白刺激| 国产正在播放| 国产亚洲精久久久久久无码AV| av在线无码浏览| 欧美日韩在线成人| 色综合网址| 园内精品自拍视频在线播放| 成年人免费国产视频| 国产区91| 日韩精品资源| 免费人成黄页在线观看国产| 最新无码专区超级碰碰碰| 依依成人精品无v国产| 天天摸夜夜操| 又爽又黄又无遮挡网站|