999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義相似度的領域知識推薦研究

2013-09-28 09:46:02李燕妮李海生
復雜系統與復雜性科學 2013年3期
關鍵詞:語義詞匯概念

李燕妮,李海生,蔡 強

(北京工商大學計算機與信息工程學院,北京 100048)

基于語義相似度的領域知識推薦研究

李燕妮,李海生,蔡 強

(北京工商大學計算機與信息工程學院,北京 100048)

提出一種基于語義的領域知識推薦方法,通過判斷用戶輸入類型,分別進行概念相似度和短句相似度的計算。其中概念相似度計算是通過計算概念的信息內容值進行的,短句相似度計算分為語義相似度和句法結構相似度。實驗結果表明,該方法有效地對用戶的查詢請求進行概念擴充,提高了搜索的查全率與查準率。

信息內容;相似度;語義;知識推薦

0 引言

知識在人們的生活和工作中發揮著巨大的作用。隨著互聯網的進一步發展,知識傳播更新的速度也會越來越快。通過搜索引擎從互聯網獲取所需信息的方式,顯然不符合人類的習慣。研究顯示,用戶查詢經常含有歧義或意圖不清,這導致用戶經常搜索失敗[1]。查詢推薦是一種能夠有效提高用戶搜索體驗的信息檢索交互技術[2],目的在于推測用戶多種可能的意圖。推薦查詢應該盡量涵蓋各種可能的查詢,因此召回率就顯得更為重要[3]。生活中的實際問題大都來自于特定的領域,因此領域知識與領域智能的應用在實現知識推送中也就非常重要,而且領域知識的劃分也可以提高知識推送的精度。

與傳統依賴關鍵詞的推薦相比,領域信息推薦是根據用戶提交的領域關鍵字或短句,再結合具體領域本體進行推薦,而不是簡單地按字面意思匹配,具有更高的查準率與查全率。其中,概念的相似度計算決定了語義匹配的精確度,是語義推薦的基礎,所以提高概念相似度計算的精確度成為本體應用的關鍵。

本文結合WordNet[4]詞典本身結構,綜合考慮概念在分類樹中的子節點信息、深度信息、公共父節點信息,提出了一個新的基于信息內容的概念語義相似度算法,這種基于WordNet本身結構的求解方法不需要其他語料庫的參與,簡單易行。在此基礎上,對句子結構進行分析,通過語義相似度與結構相似度計算句子相似度。最后本文利用WordNet詞典及專家知識,構建了旅游領域本體,對實驗結果的統計分析表明,該方法更好地滿足了用戶的檢索需求。

1 信息內容計算

根據信息理論中的定義,信息內容表示為-logP(c),含義是一個概念的出現的概率越大,則該概念的自信息量就越小[5]。

概念信息內容的精確與否直接影響到概念間相似度的比較。經過分析,本文認為影響概念信息內容及概念間相似度的因素有:

1)被比較概念在本體樹中的深度。概念深度越小,出現頻率越高,越抽象,所涵蓋的信息內容越少。底層概念間的語義相似度一般大于高層概念間的相似度。

2)被比較概念在本體樹中所在簇[6]的密度。簇中概念節點越多,密度越大,說明對該簇根節點概念的細化程度越大,所對應的子節點的信息內容就越大,相似度越高。

3)被比較概念最近祖先節點(Least Common Subsumer,LCS)的信息內容。在密度、深度及路徑長度相同的情況下,被比較概念最近祖先節點的信息內容越大,概念的信息內容也就越大。

基于以上分析,提出了基于信息內容特征參數求解的新模型:

其中,Cnode_max為概念c所在簇的概念節點總個數,Tnode_max為本體樹所有概念節點的個數,AIC為概念c最近公共祖先節點的IC值,Hnode為概念c最近祖先節點擁有的與c深度相同的子節點個數,hypo(c)為概念c的所有子節點,depth(c)為概念c的深度,Tdepth_max為本體樹的最大深度。

式(1)的分母把信息內容值約束在[0,1]之間,本體樹中頂層概念節點信息內容值為0,底層概念節點信息內容值為1,如此規律遞增。概念節點越向上,說明概念出現的頻率越高,所包含的信息內容越少,反之亦然。同樣,概念節點所包含的子節點越多,則出現的頻率越高,涵蓋的信息內容也少。在深度、密度、子節點數都相同的情況下,如果父節點的信息內容值越大,則子節點的信息內容值也越大。

2 短句相似度計算

目前基于相關詞匯的算法在長文本的語義匹配方面取得了不錯的效果,然而在短句相似度方面,由于簡單的幾個詞匯不足以完全概括短文的意思,因此傳統的計算方法就失去了意義[7]。本文通過采用對短文進行分詞,分別從詞匯相似度和句子的句法結構兩方面來計算短文的相似度。詞匯相似度計算的是將詞匯按照一定的順序組成向量,分別計算詞匯之間的語義相似度,然后運用余弦公式計算兩個句子的語義相似度[8];句法結構是將詞匯按照句子的順序組成向量,計算句子間結構之間的相似度。最終短文相似度算法模型通過采用加權的算法綜合兩方面的因素去計算所得的最終短句相似度值,具體如圖1所示。

2.1 語義相似度計算

1)給定兩個短句S1和S2,短句所包含的詞語構成聯合集S,并將此聯合集定義為語義詞匯向量。

2)如果這個語義詞匯向量中存在的詞匯,在短文S1中存在,則在此位置上S1的語義向量取值為1;如果在S1中不存在語義詞匯向量中包含的詞匯,則在S1的語義向量上計算此詞匯與S1中所有的詞匯之間的相似度,取最大值。

然后利用余弦算法計算兩篇短文的相似度:

圖1 短句相似度計算Fig.1 Short sentences semantic similarity

其中,wk,d1為詞匯Wk在向量d1中的權重,計算所得的值越大,表明兩篇短文越相似。

2.2 句法結構相似度計算

給定兩個句子:

兩個句子中的詞匯組成集合:

分別對每個句子中的詞匯順序進行標注,以S1中的詞匯順序為參照,可以得到:

然后通過句法結構計算公式可得到S1與S2兩個句子句法結構的相似度:

2.3 短句相似度計算

最后本文的短文相似度算法模型通過采用加權的算法綜合兩方面的因素去計算所得的最終短文相似度值:

3 基于語義相似度的知識推薦

推薦知識主要是依據用戶輸入的關鍵詞或短句進行的。在推薦過程中,通過對用戶提交的關鍵字的理解,以此作為推薦的依據,結合領域本體,通過計算本體樹中概念之間的相似度,找出該詞的同義詞、近義詞,達到概念擴充的目的。從而選出與概念相關的文檔,并推薦給用戶。同時,如果用戶輸入的是短句形式,可對該短句進行預處理后計算該短句與庫中短句間的語義相似度和句法結構相似度,設定相似度閾值并進行相應的推薦。

流程圖如圖2所示,首先判斷用戶輸入是概念或短句。若為概念,在領域本體中進行查找,如果關該鍵字不存在于本體中,計算該關鍵字與領域本體中其它概念的相似度,計算出相似度后,取相似度大于某一閾值的概念,得到一組擴展概念集合,計算關鍵字與這一組擴展概念的相似度,根據相似度大小把知識推薦給用戶。同理,若用戶輸入為短句,先在庫中查找有無此短句,沒有再計算該短句與庫中短句間的語義相似度及結構相似度,最后根據相似度值進行推薦。

圖2 推薦流程圖Fig.2 Recommendation process

4 實驗結果與分析

在驗證知識推薦時,本文的實驗數據采用旅游領域100篇文章,抽取其主題,并用Stanford parser[9]解析成概念集合;在計算用戶關鍵字與概念結合的相似度時,構建了旅游領域本體,如圖3所示。依據旅游本體擴展后的概念相似度大于設定閾值的文章推薦給用戶,同時,主題與用戶輸入短句相似度大于閾值的文章也進行推薦。這里用查全率和查準率來判定推薦結果(見表1)。

圖3 旅游本體片段Fig.3 Travel ontology

實驗結果表明,本文基于信息內容特征參數的領域知識推薦方法獲得了比較高的查全率和查準率,提高了檢索結果與用戶需求的相關性,進而提高了用戶的滿意度。

表1 推薦結果比較Tab.1 Recommendation results comparison

5 結論

Internet越來越重視用戶的個性化需求,在基于關鍵字的知識推薦中,關鍵字是被孤立的,僅僅靠用戶輸入的關鍵字并不能很好地表達用戶的真正需求。利用本體進行語義擴展,能夠很好地描述概念與概念之間、短句與短句之間的關系。在計算概念間的語義相似度中,本文結合一些經典的基于領域本體的語義相似度計算方法,在此基礎上將概念所處于樹中最近公共祖先節點、簇中同深度的節點數等納入模型當中,使得概念的信息內容值和概念間相似度更為精確,從而也就使得檢索結果更能滿足用戶需求。

[1]Song R,Luo Z,Wen J R,et al.Identifying ambiguous queries in web search[C]//Proceedings of the 16th International World Wide Web Conference(WWW2007).Banff,Alberta,Canada:ACM,2007:1169-1170.

[2]Huang C K,Chien L F,Oyang Y J.Relevant term suggestion in interactive web search based on contextual information in query session logs[J].Journal of the American Society for Information Science and Technology,2003,54(7):638-649.

[3]李亞楠,王斌,李錦濤,等.給互聯網建立索引:基于詞關系網絡的智能查詢推薦[J].軟件學報,2011,22(8):1771-1784.

Li Ya’nan,Wang Bin,Li Jintao,et al.Indexing the world wide web:intelligent query suggestion based on term relation network[J].Journal of Software,2011,22(8):1771-1784.

[4]Princeton University.Wordnet:a lexical datebase for English[DB/OL].[2011-10-10].http://wordnet.princeton.edu/.

[5]Resnik P.Using information content to evaluate semantic similarity in a taxonomy[DB/OL].[2012-11-10].http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.55.5277.

[6]Gómez-Pérez A,Fernández-López M,Corcho O.Ontological Engineering[M].2nd ed.Berlin:Springer-Verlag,2004.

[7]李海生.知識管理技術與應用[M].北京:北京郵電大學出版社,2012.

[8]Tian Y,Li H SH,Cai Q,et al.Measuring the similarity of short texts by word similarity and tree kernels[DB/OL].[2012-11-10].http://d.wanfangdata.com.cn/Conference_WFHYXW442849.aspx.

[9]The Stanford Natural Language Processing Group.The Stanford parser:a statistical parser[DB/OL].[2012-10-10].http://nlp.stanford.edu/software/lex-parser.shtml.

Research on Knowledge Recommendation for Domain Ontology Based on Semantic Similarity

LI Yan-ni,LI Hai-sheng,CAI Qiang
(College of Computer and Information Engineering,Technology and Business University,Beijing 100048,China)

With the explosive growth of web resource,it is difficult for keyword-based knowledge recommendation to meet the professional needs of users.In this paper,a knowledge recommandation calculation algorithm based on semantic similarity method is proposed.According to the style of user’s input,we calculate similarity of concepts based on information content and similarity of sentences based on semantic similarity and structure similarity.Experiment results show that the user’s inquiry request has been expanded its concept effectively,and the recall and accuracy of retrieval have been improved obviously.

information content;similarity;semantic;knowledge recommendation

TP391.1

A

1672-3813(2013)03-0050-05

2012-12-04

北京市教委科技發展計劃面上項目(KM200910011007);北京市屬高等學校人才強教計劃資助項目(PHR201108075)

李燕妮(1986-),女,山東濰坊人,碩士研究生,主要研究方向為本體與知識管理。

李海生(1974-),男,山東寧津人,博士,教授,主要研究方向為本體與知識管理,可視化。

(責任編輯 李進)

猜你喜歡
語義詞匯概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
本刊可直接用縮寫的常用詞匯
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 99视频在线观看免费| 狠狠色噜噜狠狠狠狠奇米777| 免费一级大毛片a一观看不卡| 欧美国产在线看| 波多野结衣AV无码久久一区| 国国产a国产片免费麻豆| 亚洲国产成人自拍| a天堂视频在线| 欧美69视频在线| 亚洲αv毛片| 性欧美精品xxxx| 午夜国产小视频| 国产精品久久久久鬼色| 91精品视频播放| 成人日韩精品| 最新午夜男女福利片视频| 亚洲成人动漫在线| 中国成人在线视频| 亚洲视频二| 成人国产精品2021| 亚洲欧美日韩久久精品| 中文字幕在线观| 久久久久久尹人网香蕉 | 中文字幕在线看| 欧美a在线| 亚洲精品在线91| 久热99这里只有精品视频6| 女人18毛片水真多国产| 97精品伊人久久大香线蕉| 91无码人妻精品一区| 成人一区在线| 91年精品国产福利线观看久久 | 九九热精品免费视频| 国产黄色爱视频| 欧美精品1区2区| 久久黄色毛片| 亚洲AV无码不卡无码| 国产国语一级毛片在线视频| 激情综合五月网| 蜜臀AV在线播放| 久久96热在精品国产高清| 免费毛片a| 曰AV在线无码| 国产欧美日韩精品综合在线| 国产91丝袜| 欧美成人二区| 亚洲综合天堂网| 国产成人精品一区二区| 99热这里都是国产精品| 欧美专区在线观看| 亚欧乱色视频网站大全| 国产日韩精品欧美一区喷| 日韩精品高清自在线| 九九热这里只有国产精品| 亚洲男女天堂| 大香伊人久久| 久久五月视频| 99热精品久久| 亚洲人妖在线| 亚洲中文精品久久久久久不卡| 特级欧美视频aaaaaa| 大学生久久香蕉国产线观看| 亚洲国产成人精品一二区| 国产丝袜精品| 国产欧美日韩专区发布| 日韩中文无码av超清| 97人人模人人爽人人喊小说| 国产成人免费视频精品一区二区| 欧美在线导航| 美女国内精品自产拍在线播放| 国产精品一区二区不卡的视频| 不卡无码h在线观看| 国产a网站| 欧美专区日韩专区| 极品国产一区二区三区| 欧美精品综合视频一区二区| 国产成人精彩在线视频50| 青青青国产精品国产精品美女| 免费a级毛片视频| 国产在线97| 亚洲免费黄色网| 香蕉精品在线|