999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于中文Deep Web的屬性相似度計算方法

2014-12-30 15:12:32高華玲
科技創新導報 2014年32期

高華玲

摘 ?要:隨著中文網站數量的日益龐大,中文的Deep Web信息集成已成為網絡信息領域的焦點。屬性相似度計算是Deep Web信息集成中模式匹配的關鍵一步。該文根據中文查詢接口中的屬性詞匯常常表現為1-3個詞語構成的短語的特點,提出一種更有效的基于《知網》的屬性相似度計算的方法,使屬性匹配的準確率得到大幅度提高。

關鍵詞:深網 ?模式匹配 ?相似度 ?屬性相似度

中圖分類號:TP301.6 文獻標識碼:A 文章編號:1674-098X(2014)11(b)-0058-02

A Calculation Method of Attribute Similarity based on Deep Web in Chinese

Gao Hualing

(Computer Public Education Department, SanYa University,SanYa,Hainan,572022,China)

Abstract:With the increasing amount of the Chinese website, Deep Web information integration in Chinese has become the focus of the net information field. The Attribute similarity computation is a key step of schema matching in Deep Web information integration. In this passage ,According to the characteristics of Chinese query interface attribute vocabulary which often shows of 1-3 words to form phrases, provides a more effective attribute similarity calculating method based on the “HowNet”, in this way, the attribute matching accuracy has been greatly improved.

Key Words:Deep Web; Schema matching; Similarity; Attribute similarity

1 問題的提出

隨著中文Deep Web信息數據量的急速增長,如何利用中文語言的特點做好Deep Web信息集成已成為這一領域的研究熱點。

Deep Web信息集成基本過程可分為三個模塊:第一,Deep web查詢接口的發現、分類和模式抽取等;第二,接口集成、查詢處理和數據庫選擇等;第三,查詢結果抽取和標注、合并、去重等。中國人民大學信息學院孟小峰教授對不確定的查詢接口的模式匹配[1]做了深入研究,提出了中文屬性相似度的定義和計算方法。

在中文Deep Web查詢接口中,常常涉及的屬性匹配是1~3個詞匯構成的中文短語之間的匹配,如果沿用英文接口的屬性匹配方法進行計算將出現明顯的誤差。例如文獻[2][3]的屬性相似度計算方法:對于兩個屬性A1和A2,如果A1可劃分成n個詞語:A11,A12,…,A1n,A2可劃分成m個詞語: A21,A22,…,A2n,則A1和A2的相似度是各個詞語的相似度之最大值,即

當兩個短語中都包含同一個詞語“城市”,屬性相似度為所有詞語相似度的最大值,得到“出發城市”和“到達城市”的相似度相等且等于1,即認為“出發城市”和“到達城市”兩個屬性短語語義一致,這樣無法對此類屬性短語做出準確的語義相似度計算結果。該文考慮到查詢接口屬性詞大多以1~3個詞語構成的短語形式出現,故提出了一種新的屬性語義相似度計算公式,大大提高了屬性相似度計算的準確度。

2 中文Deep Web查詢接口屬性相似度

2.1 方法的提出

義原和義項是HowNet中兩個最主要的概念。義原是用來描述一個義項的最小意義單位,一個詞語可以表達為幾個義項。本文計算兩個詞語之間的語義相似度,采用基于《知網》的中文詞匯語義相似度計算方法[4],這與文獻[2][3]是相同的。

定義1:詞語相似度:對于兩個漢語詞語,其中有m個義項:,有n個義項:,規定的相似度為各個義項相似度的最大值,也就是說:

定義2義項相似度:兩個義項相似度記為:,其中是可調節的參數,且有:。

定義3 義原相似度:兩個義原的相似度定義為兩個義原之間的語義距離:,其中表示兩個義原,d是在義原層次體系中的路徑長度,是一個正整數。是一個可調節的參數。

該文將屬性名的短語劃分成若干詞語,根據中文查詢接口中屬性的特征,提出這種屬性相似度計算方法,此方法源自于2005年的一種文本相似度算法[5],但略有不同。

定義4 屬性相似度:對于兩個屬性,可劃分為m個詞語:,可劃分為n個詞語:,令t=min(m,n),將各個詞語之間的相似度排列成矩陣,得到一個m×n階的矩陣:,記錄矩陣中相似度值最大的一個,同時刪除其值的所在行和列,然后再記錄剩余矩陣中的相似度最大值,刪除所在行和列,不斷重復上述操作,直到矩陣為空。按照這樣的方法取出的相似度的值為t個,規定的相似度為這t個詞語相似度的平均值,表示為:

2.2 實例驗證過程

將上述定義中的參數設定為常用參數,設定相似度閾值,其他參數取值為:,計算屬性值A(出發城市)與B(起飛地),以及A(出發城市)與C(目的地)的相似度。endprint

第一步,計算詞語相似度。

屬性A“出發城市”,含兩個詞語:出發,城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

“出發”有一個義項:V start|開始,content=leave|離開

“城市”有一個義項:N place|地方,city|市

“起飛”有一個義項:V start|開始,content=fly|飛

“地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

“目的”有一個義項:1)N purpose|目的

對于文獻[1]中的示例“出發城市”和“起飛地”以及“出發城市”和“目的地”的屬性匹配得到了較為合理的計算結果。如表1、表2:

第二步,計算屬性相似度。

即屬性A(出發城市)和屬性B(起飛地)相似。,即屬性A(出發城市)與屬性C(目的地)不相似。

在對本文開始提出的“出發城市”和“到達城市”進行計算,結果如下:

,這里注意需要設定更為合理的閾值,一般要在0.5以上才能區分開具有相同詞語的短語,具體的閾值需要大量數據實驗總結出更為合理的值,這里使用閾值0.6即可區分“出發城市”和“到達城市”,這樣可以得到更為合理準確的計算結果。

3 結語

該文對中文Deep Web信息集成中模式匹配關鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

參考文獻

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,賈琳琳,Deep Web集成服務的不確定模式匹配[J].計算機學報,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范學峰,基于《知網》的中文Deep Web模式匹配算法研究[J].計算機應用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(劉群,李素建,基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.endprint

第一步,計算詞語相似度。

屬性A“出發城市”,含兩個詞語:出發,城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

“出發”有一個義項:V start|開始,content=leave|離開

“城市”有一個義項:N place|地方,city|市

“起飛”有一個義項:V start|開始,content=fly|飛

“地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

“目的”有一個義項:1)N purpose|目的

對于文獻[1]中的示例“出發城市”和“起飛地”以及“出發城市”和“目的地”的屬性匹配得到了較為合理的計算結果。如表1、表2:

第二步,計算屬性相似度。

即屬性A(出發城市)和屬性B(起飛地)相似。,即屬性A(出發城市)與屬性C(目的地)不相似。

在對本文開始提出的“出發城市”和“到達城市”進行計算,結果如下:

,這里注意需要設定更為合理的閾值,一般要在0.5以上才能區分開具有相同詞語的短語,具體的閾值需要大量數據實驗總結出更為合理的值,這里使用閾值0.6即可區分“出發城市”和“到達城市”,這樣可以得到更為合理準確的計算結果。

3 結語

該文對中文Deep Web信息集成中模式匹配關鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

參考文獻

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,賈琳琳,Deep Web集成服務的不確定模式匹配[J].計算機學報,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范學峰,基于《知網》的中文Deep Web模式匹配算法研究[J].計算機應用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(劉群,李素建,基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.endprint

第一步,計算詞語相似度。

屬性A“出發城市”,含兩個詞語:出發,城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

“出發”有一個義項:V start|開始,content=leave|離開

“城市”有一個義項:N place|地方,city|市

“起飛”有一個義項:V start|開始,content=fly|飛

“地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

“目的”有一個義項:1)N purpose|目的

對于文獻[1]中的示例“出發城市”和“起飛地”以及“出發城市”和“目的地”的屬性匹配得到了較為合理的計算結果。如表1、表2:

第二步,計算屬性相似度。

即屬性A(出發城市)和屬性B(起飛地)相似。,即屬性A(出發城市)與屬性C(目的地)不相似。

在對本文開始提出的“出發城市”和“到達城市”進行計算,結果如下:

,這里注意需要設定更為合理的閾值,一般要在0.5以上才能區分開具有相同詞語的短語,具體的閾值需要大量數據實驗總結出更為合理的值,這里使用閾值0.6即可區分“出發城市”和“到達城市”,這樣可以得到更為合理準確的計算結果。

3 結語

該文對中文Deep Web信息集成中模式匹配關鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

參考文獻

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,賈琳琳,Deep Web集成服務的不確定模式匹配[J].計算機學報,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范學峰,基于《知網》的中文Deep Web模式匹配算法研究[J].計算機應用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(劉群,李素建,基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.endprint

主站蜘蛛池模板: 国产理论最新国产精品视频| 国产欧美视频综合二区| 国产制服丝袜91在线| 日韩午夜福利在线观看| 色欲国产一区二区日韩欧美| 最新国产精品第1页| 美女无遮挡被啪啪到高潮免费| 三上悠亚精品二区在线观看| 国产欧美高清| 丰满人妻中出白浆| 99热这里只有精品在线观看| 久热re国产手机在线观看| 五月激激激综合网色播免费| 国产一区二区色淫影院| 亚洲视频无码| 日本精品视频| 免费国产好深啊好涨好硬视频| 国产91丝袜在线播放动漫 | 99人妻碰碰碰久久久久禁片| 亚洲成人黄色在线观看| 国产成人精品午夜视频'| 中文字幕久久波多野结衣| 中文字幕在线观| 国模在线视频一区二区三区| 无码一区18禁| 第一区免费在线观看| 丰满少妇αⅴ无码区| 五月天香蕉视频国产亚| 91毛片网| 久久久久亚洲精品成人网| www.av男人.com| 欧洲日本亚洲中文字幕| 亚洲综合二区| 女人毛片a级大学毛片免费| 666精品国产精品亚洲| 高清不卡一区二区三区香蕉| 国产地址二永久伊甸园| 亚洲天堂免费| 久久人妻xunleige无码| 香蕉视频在线观看www| 精品福利视频导航| 国产一级视频在线观看网站| 国产91精品调教在线播放| 亚洲清纯自偷自拍另类专区| 国产丝袜丝视频在线观看| 婷婷色婷婷| 亚洲精品波多野结衣| 亚洲第一精品福利| 免费一级毛片在线播放傲雪网| 直接黄91麻豆网站| 久久久久亚洲av成人网人人软件| 亚洲第一av网站| 日韩欧美国产成人| 一本一道波多野结衣一区二区 | 怡春院欧美一区二区三区免费| 国产剧情伊人| 欧美国产日韩在线观看| 久久久精品无码一二三区| 国产成人成人一区二区| 国产亚洲欧美在线专区| 亚洲一级色| 中文字幕佐山爱一区二区免费| 88av在线看| 国产精品午夜福利麻豆| 国产日韩欧美成人| 国产v精品成人免费视频71pao| 97青草最新免费精品视频| 精品91视频| 天天色天天操综合网| 免费久久一级欧美特大黄| 台湾AV国片精品女同性| 欧美三级日韩三级| 天堂成人av| 无码AV日韩一二三区| 亚洲九九视频| 欧美一区精品| 国内精品视频在线| 欧美一级专区免费大片| 天堂成人av| 麻豆AV网站免费进入| 亚洲美女高潮久久久久久久| 国产精品久久久精品三级|