999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云南種子植物特有屬領域詞語相似度算法研究

2017-05-13 13:14:02陸國泉彭琳龐雪
湖北農業科學 2017年7期

陸國泉+彭琳+龐雪

摘要:以《同義詞詞林》為基礎,結合云南種子植物特有屬領域知識補充了《同義詞詞林》中該領域的詞語,并提出了一種基于同義詞詞林的詞語相似度改進算法。經過測試對比,在植物檢索領域該計算方法比一般的基于同義詞詞林的詞語相似度算法更加準確,而且召回率得到了明顯提升,更適用于云南種子植物特有屬領域信息的檢索。

關鍵詞:同義詞詞林;詞語相似度算法;云南;種子植物;特有屬

中圖分類號:Q949;G354.4 文獻標識碼:A 文章編號:0439-8114(2017)07-1356-03

DOI:10.14088/j.cnki.issn0439-8114.2017.07.040

Research on Algorithm for Calculating Word Similarity in the Field of Endemic Genera of Seed Plants in Yunnan

LU Guo-quan,PENG Lin,PANG Xue

(Key Laboratory of Agricultural Information Technology in Yunnan,Yunnan Agricultural University,Kunming 650201,China)

Abstract:An improved word similarity algorithm put forward based on cilin combined with the knowledge of the endemic genera of seed plants in Yunnan supplement the words about this field. Experiment results illustrate that this improved algorithm for calculating word similarity based on “cilin” is more precise than general algorithm for calculating word similarity based on “cilin” and recall has been significantly improved. Therefore,this improved algorithm is more suitable for the semantic retrieval system in the field of endemic genera of seed plants in Yunnan.

Key words:cilin;algorithm for calculating word similarity;Yunnan;seed plants;endemic genera

詞語語義相似度來源于計算機語言學等領域,它可以度量術語、詞匯、概念之間的相似程度,被看作概念在分類上的相似程度[1]。詞語語義相似度的計算在語義檢索、自動問答、文本聚類等應用中起著重要作用[2-4]。傳統的檢索方式仍基于關鍵字匹配和倒排索引[5],幾乎沒有任何語義功能。通常,傳統檢索方式不能理解用戶的查詢意圖,一旦用戶輸入不準確的查詢詞就會得到許多不相關的結果。將詞語語義相似度計算引入檢索系統后,檢索系統便具備了語義功能,就算用戶輸入模糊的查詢詞,檢索系統也能檢索出用戶所關心的信息。

目前,對于詞語語義相似度的計算方法主要集中在以下幾方面:①基于統計的方法,假設語義詞語相似的詞語之間具有相同的上下文關系,以上下文信息的概率分布作為依據,利用詞語之間的相關性來計算詞語相似度[6];②基于本體的方法,依據領域內專家建立的領域本體,利用該領域知識的語義樹來計算詞語間距離詞語的相似度[7];③基于語義詞典的方法,利用語言專家編撰好的語義詞典進行語義相似度計算。

由于基于同義詞典的詞語相似度算法具有實現簡單、高效、直觀、易于理解且不需要訓練的特點,因此基于同義詞詞典的詞語相似度算法在各個領域得到了廣泛的應用[8]。但是目前還存在以下問題:①詞典的詞條更新不及時。由于基于同義詞典的詞語相似度的計算依賴于語義詞典,而編撰詞典通常需要多名頂級語言專家共同完成,網絡時代的知識爆炸使得詞典滯后于新興詞語的出現。②領域內的專業詞匯收錄不全。每個領域有不同的專業知識和詞語,語言專家作為語言領域的專家,在編撰語義詞典的時候很難將所有專業領域內的詞語囊括其中。

面向云南種子植物特有屬領域的語義檢索能最大限度地集成和利用各類云南種子植物特有屬相關信息資源,快速、完整、智能地提供各種信息服務,這已成為研究和保護云南特有種子植物的新需求。目前,在這個領域沒有專業的語義詞典,并且沒有較好的詞語相似度算法,從而導致了云南種子植物特有屬領域語義檢索精度不高、擴展性不強等問題。

針對上述問題,本研究協同植物學領域的研究人員完善了《同義詞詞林》并在此基礎上提出了一種改進詞語相似度的算法,并對該算法進行了試驗。

1 材料與方法

1.1 同義詞詞林結構

在國外通常采用WordNet作為語義詞典來計算詞語相似度,而在國內由于中文本身的特點以及起步相對較晚,在這方面的研究較少。本研究采用的詞典是由哈爾濱工業大學梅家駒教授等主編的《同義詞詞林》[9]。該詞典參照多部電子詞典資源,并按照人民日報語料庫中詞語的出現頻率在第一版的基礎上剔除了14 706個罕用詞和非常用詞。為了獲得進一步的性能,該詞典結合多方面相關資源將詞典詞條擴充到了77 343條,基本能滿足本研究的需求。《同義詞詞林》按照樹狀的層次結構把所有收錄的詞語組織在一起,編碼相同的詞語要么詞義相同,要么具有很強的相關性[9]。該詞典采用八位五級編碼,前七位表示該詞條所處的位置而第八位的“=”、“#”、“@”分別表示同義詞、相關詞以及只有本身一個詞。具體的編碼規則如表1所示。

1.2 同義詞典的詞條補充

將同義詞詞林的詞語相似度計算方法應用于云南種子植物特有屬領域語義檢索,由于這部通用的語義詞典在本領域內的應用存在一定的局限,故本研究結合該領域知識對《同義詞詞林》進行補充和調整。該詞典是TXT格式的文本,因此進行調整后并不影響系統的運行。如酸竹屬是云南種子植物特有屬的一個屬,酸竹屬下還有粉酸竹、酸竹、毛花酸竹、福建酸竹、黎竹等品種。由于《同義詞詞林》并沒有收錄這些詞語,因此本研究結合詞典知識和云南種子植物特有屬在《同義詞詞林》中補充了125個同義詞集合,共計246條詞語。如在詞典增加編號“Bh08A54=”來表示詞語集合:粉酸竹、酸竹、毛花酸竹、福建酸竹、黎竹。因此當用戶想要了解“酸竹屬”的知識時,只要輸入編號“Bh08A54=”中任何一條詞語就能檢索出相應的知識。

1.3 改進的詞語相似度算法

《同義詞詞林》詞典不僅詞條豐富而且具有良好的編碼規則,所以可以根據詞語編碼計算出兩個詞語間的相似度Sim(W1,W2),Sim(W1,W2)取值范圍為[0,1],1代表同義詞,0代表不相關,Sim(W1,W2)越靠近1則表示W1,W2相似度越高。本研究在《同義詞詞林》編碼規則的基礎上結合特有屬領域知識的特點提出了如下公式來度量相似度:

Sim(W1,W2)=1-■■×■(1)

式中,i表示第i級編碼,k表示第i級編碼之差的絕對值,n表示第i級編碼較大值。當最后一位編碼為“=”時,不同編碼的詞語按照公式(1)計算相似度,相同編碼詞語的相似度為1。由于本領域的知識在詞林中主要呈現同類的特點,而不等的情況出現相對較少,如:編號為“Bh12B03#”,其詞語集合為“稻苗、稻秧、禾苗、種苗等”。很明顯,這些詞語是相關的。因此當最后一位編碼為“#”時,本研究根據用戶需求分為以下兩種情況:當用戶只關心查詢詞本身不關心其同類時,若詞語的編碼相同,其相似度設置為0;當用戶關心查詢詞同類事物時,若詞語的編碼相同,其相似度設置為1。不同編碼詞語按公式(1)計算,所得結果為詞語相似度。當最后一位編碼位為“@”時,表示自我封閉,沒有同義詞,因此設置相似度為0。如Sim[種子(Bh13B01=),種仁(Bh13B02=)]=1-(1/32)×(sqrt(02-01)/02)=0.977 903。

1.4 試驗設計

1.4.1 試驗一 隨機選取10對在云南種子植物特有屬領域知識中常見的詞語進行相似度計算,分別使用本研究提出的方法與目前以文獻[10]為代表的基于同義詞典的詞語相似度通用計算方法進行相似度計算。

1.4.2 試驗二 試驗數據:110篇關于福建酸竹的文獻,17篇關于黎竹的文獻,19篇關于粉酸竹的文獻,35篇關于毛花酸竹的文獻,245篇關于酸竹的文獻以及768篇關于計算機領域的文獻作為噪聲集。

試驗步驟:在試驗一的基礎上分別使用上述兩種不同的方法獲取查詢詞語的擴展詞集合,然后將擴展詞集合作為新的查詢詞在lucene全文檢索框架中進行檢索,最后對結果進行評價,試驗流程如圖1所示。

評價標準:精度表示檢出文獻中相關文獻的比例,計算公式為P=■。其中P表示精度,R表示相關文獻,A表示檢出文獻。召回率表示相關文獻被檢出的比例。計算公式為r=■。其中r表示召回率[11]。F值綜合考量了精度和召回率[10],只有當精度和召回率都較高時才具有較高的值,計算公式為F=■。

2 結果與分析

2.1 試驗一結果

由表2可知,使用本研究方法計算云南種子植物特有屬領域知識詞語相似度的效果與人工測試出來的主觀結果沒有明顯出入,同時在本領域內的詞語相似度更加準確。可以看出,本研究所提出的詞語相似度計算方法,相對于一般的基于同義詞詞林的詞語相似度計算方法的優點:①沒有引入人工參數,使得結果更加客觀;②一般的計算方法把第一級編碼不同的詞語相似度統一定義為0.1,有些籠統,而本研究的方法則考慮了這個問題;③本研究考慮了將用戶的查詢需求分成兩個接口,當用戶選擇精確檢索時,進入后將最后一位編碼為“#”,且編碼相同的詞語的相似度定為0的接口;當用戶希望再擴大其檢索范圍時,則進入后將這對詞語的相似度定為1的接口。而一般的計算方法過于籠統,只是將最后一位編碼為“#”,且編碼相同的詞語統一定義為0.5,顯然不能滿足用戶需求。

2.2 試驗二結果

由表3可知,使用本研究計算方法的召回率比使用通用計算方法的召回率有了明顯的提升,說明使用本研究方法可以提升查詢詞擴展的性能。同時使用本研究計算方法的F值也得到了明顯提升,說明本研究計算方法比一般通用計算方法具有更好的檢索性能。

3 小結

針對云南種子植物特有屬領域語義檢索缺乏性能良好的詞語相似度算法的問題,本研究提出的算法在云南種子植物特有屬領域語義檢索中更加接近人類思維,可以很好地解決查詢詞擴展不準確及檢索結果打分不合理等問題,并且直觀明了、容易實現。但本研究提出的詞語相似度計算方法也存在不足,《同義詞詞林》作為一本通用的語義詞典,對于專業領域的應用尚存在一定的局限性。在后讀研究中,將補充完善領域內的詞條,再提出更加優化的且適用面更廣的詞語相似度計算方法來提高檢索的精度。

參考文獻:

[1] 李 文,孫 新,張常有,等.一種本體概念的語義相似度計算方法[J].自動化學報,2012,38(2):229-235.

[2] 劉亞軍,徐 易.一種基于加權語義相似度模型的自動問答系統[J].東南大學學報,2004,34(5):609-612.

[3] 顏 偉,荀恩東.基于語義網計算英語詞語相似度[J].情報學報,2006,25(1):712-716.

[4] 焦芬芬.基于概念和語義相似度的文本聚類算法[J].計算機工程與應用,2012,48(18):136-141.

[5] 吳 秦,白玉昭,梁久禎.一種基于語義詞典的局部查詢擴展方法[J].南京大學學報(自然科學),2014,50(4):526-533.

[6] 李 慧.詞語相似度算法研究綜述[J].現代情報,2015,35(4):172-177.

[7] 孫海霞,錢 慶,成 穎.基于本體的語義相似度計算方法研究綜述[J].現代圖書情報技術,2010(1):51-56.

[8] LI F,ZHU X H,CHEN H H,et al.An improved Chinese word semantic similarity algorithm based on Cilin[J].Journal of Information & Computation Science,2015,12(10):3799-3807.

[9] 梅家駒,竺一鳴,高蘊琦,等.同義詞詞林[J].第二版.上海:上海辭書出版社,1996.

[10] 田久樂,趙 蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報(信息科學版),2010,28(6):602-608.

[11] RICARDO B Y,BERTHIER R N.現代信息檢索[M].第二版.北京:機械工業出版社,2012.

主站蜘蛛池模板: 欧美α片免费观看| 亚洲无线一二三四区男男| 欧美日本在线播放| 欧美午夜在线观看| 亚洲精品无码日韩国产不卡| 亚洲高清在线天堂精品| 国产精品国产三级国产专业不| 无码有码中文字幕| 免费在线成人网| 日本不卡在线播放| 国产波多野结衣中文在线播放| 亚洲色精品国产一区二区三区| 日韩经典精品无码一区二区| 不卡视频国产| 任我操在线视频| 精品国产免费观看| 亚洲性日韩精品一区二区| jizz国产在线| 97人人做人人爽香蕉精品| 欧美不卡二区| 波多野结衣视频网站| 国产91麻豆视频| 成AV人片一区二区三区久久| 91午夜福利在线观看精品| 亚洲国产成人无码AV在线影院L| 日本午夜影院| 亚洲中文字幕97久久精品少妇| 国产午夜一级毛片| 亚洲高清中文字幕| 午夜在线不卡| 熟妇丰满人妻av无码区| 色悠久久久| 欧美精品xx| 自偷自拍三级全三级视频| 久久综合丝袜长腿丝袜| 亚欧美国产综合| 大陆精大陆国产国语精品1024| 国产剧情一区二区| 亚洲欧美日韩高清综合678| 国产剧情一区二区| 成人av手机在线观看| 国产精品亚洲精品爽爽 | 日韩欧美高清视频| 久久国产精品影院| 亚洲精品国产首次亮相| 一区二区偷拍美女撒尿视频| 欧洲在线免费视频| 久久青草免费91线频观看不卡| 亚洲国产欧美自拍| 日本精品视频一区二区| 日韩最新中文字幕| 黄色三级网站免费| 日韩无码视频播放| 欲色天天综合网| 内射人妻无码色AV天堂| 国产精选自拍| 日韩毛片免费观看| 国产三级国产精品国产普男人 | 日韩无码真实干出血视频| 国产另类乱子伦精品免费女| 九九热精品在线视频| 中日无码在线观看| 综合色88| 亚洲一区毛片| 成人国产三级在线播放| 成人在线综合| 亚洲日韩每日更新| 激情国产精品一区| 婷婷六月天激情| 国产成人综合网在线观看| 午夜国产精品视频| 亚洲男人天堂网址| 国产成人夜色91| 色综合色国产热无码一| 麻豆AV网站免费进入| 欧美一级在线看| 国产精品部在线观看| 全部免费毛片免费播放 | 亚洲综合天堂网| 亚洲国产中文精品va在线播放 | 亚洲欧洲日产国产无码AV| 亚洲人在线|