999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

面向多本體語義相似度計算的改進研究

2018-01-18 06:51:07余朦朦劉宇劉雅婷
現代計算機 2017年35期
關鍵詞:語義定義概念

余朦朦,劉宇,劉雅婷

(1.武漢科技大學計算機學院,武漢 430065;2.武漢市科學學研究所,武漢 430023)

0 引言

語義相似度的計算是自然語言處理的關鍵問題之一,在問答系統、機器翻譯和文本主題抽取等領域有著非常廣泛的應用[1]。雖然目前研究人員已提出了多種基于單本體的語義相似度計算方法[2],但是單一領域本體的知識覆蓋度限制了相關方法的性能。針對上述問題,Montserrat等人[3]提出了基于多本體的語義相似度計算方法。通過利用多個本體所提供的語義線索,Montserrat法的計算結果更準確,即更為擬合領域專家的評估結果。

鑒于運用多本體計算概念對的語義相似度較為復雜,Montserrat法采用了依據不同情況分別處理的解決方案:1.僅某一本體包含概念a和b,兩者的語義相似度直接利用單本體計算獲得;2.a和b都同時出現在多個本體,選取各本體計算結果的最大值作為a和b的語義相似度;3.無本體同時包含a和b,利用多本體中上位概念的匹配概念對計算a和b的語義相似度。圖1展示了生物醫學本體FMA(Foundational Model Of Anatomy)和 NCI(National Cancer Institute)的部分匹配概念對。顯然,計算Ana_str和Org_Che的語義相似度滿足Montserrat法的情況3——FMA和NCI不同時包含 Ana_str和 Org_Che。從圖 1可見,Ana_str和Org_Che不僅上位概念中包含匹配概念對FMA(Thing):NCI(Thing),而且下位概念中也包含匹配概念對 FMA(Pho):NCI(Pho)和 FMA(phospha):NCI(phos?pha)。因此,僅利用上位概念中的匹配概念對,而沒有借鑒下位概念中的匹配概念對,Montserrat法無法充分利用多本體所提供的語義線索。針對Montserrat法中情況3的處理方式所存在的不足,本文提出了改進的面向多本體語義相似度的計算方法,記為I-SSCMO。

圖1 FMA和NCI的部分匹配概念對

1 改進的計算方法

設概念a和b分別隸屬于本體A和B,則本論文所涉及的相關定義描述如下。

定義1(上位概念集合)本體A中概念a的上位概念集合,記為 U(A,a)。

定義2(下位概念集合)本體A中概念a的下位概念集合,記為 L(A,a)。

定義3(匹配概念集合)本體A與本體B的匹配概念集合,記為 M(A,B)。在圖 1 中,M(FMA,NCI)包含所有箭頭線所連接的概念對。

定義4(匹配上位概念集合)本體A中a的上位概念與本體B中b的上位概念相匹配的概念集合,記為MU(A(a),B(b))。在圖 1 中,MU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing):NCI(Thing)}。

定義5(匹配下位概念集合)本體A中a的下位概念與本體B中b的下位概念相匹配的概念集合,記為ML(A(a),B(b))。在圖 1 中,{FMA(Pho):NCI(Pho),FMA(phospha):NCI(phospha)}為 Ana_str 和 Org_Che的匹配下位概念集合。

定義6(公共上位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為

在圖 1 中,CU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing),NCI(Thing)}。

定義7(公共下位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為

在圖 1 中,CL(FMA(Ana_str),NIC(Org_Che))={FMA(Pho),NCI(Pho),FMA(phospha),NCI(phos?pha),FMA(pholin),NCI(pholinl)}。

在上述定義的基礎上,I-SSCMO法首先利用多本體中匹配上位概念集合所提供的語義線索,計算概念對的語義相似度,其具體計算方法如公式(3)所示。

然后,I-SSCMO法利用匹配下位概念集合計算語義相似度,具體計算方法如公式(4)所示。

通過綜合上述兩種語義相似度,A本體中概念a與B本體中概念b的語義相似度可由公式(5)獲得。

其中,w∈[0,1]。w為加權因子,調控U_Sim(A(a),B(b))和 L_Sim(A(a),B(b))對最終結果Sim(A(a),B(b))的影響。當w為0時,表示僅利用匹配下位概念集合所提供的線索計算語義相似度;當w為1時,表示僅利用匹配上位概念集合所提供的線索計算語義相似度。

I-SSCMO法的偽代碼如下所示:

輸入:本體A和本體B,待評估的概念對(a,b),加權因子w

輸出:概念對(a,b)的語義相似度

1:IF概念對(a,b)屬于Montserrat法的情況1和情況2

2: RETURN Montserrat法的計算結果;

3:ELSE

4:分別獲取a和b的上位概念集合和下位概念集合;

5:獲取概念對(a,b)的匹配上位概念集合和匹配下位概念集合;

6:獲取概念對(a,b)的公共上位概念集合和公共下位概念集合;

7: 根據公式(3)計算 U_Sim(A(a),B(b));

8: 根據公式(4)計算 L_Sim(A(a),B(b));

9: 根據 U_Sim(A(a),B(b))、L_Sim(A(a),B(b))和加權因子 w 計算 Sim(A(a),B(b));

10:RETURN Sim(A(a),B(b));

11:END IF

2 實驗及評估

為了驗證I-SSCMO法的有效性,本文利用兩對本體進行了實驗:生物醫學本體FMA和NCI、經濟領域本體STW(The Thesaurus for Economics)和社會科學本體 TheSoz(The Thesaurus for the Social Sciences)。需要說明的是,盡管STW和TheSoz屬于不同的領域,但它們之間有很大部分的重疊域。由于I-SSCMO法主要改進了Montserrat法情況3的計算方法,本實驗從FMA和NCI、STW和TheSoz中分別選取了30對概念對。這些概念對不僅滿足情況3的條件,而且均具有匹配下位概念。在人工評判環節,分別由多名醫學和經濟專業人員對概念對的相似度按照5個等級打分(0表示兩個概念不相關,4表示兩個概念相同),并以平均值作為人工評判的最終結果。最后,本文將Montserrat法和I-SSCMO法的計算結果與人工評判的結果進行了比較,并運用皮氏積矩相關系數的計算方法來評估結果的準確度,具體如公式(6)所示。r的取值范圍為[0,1],并且r值越大意味著計算結果越擬合人工評判的結果,此時相應方法能夠獲得更為準確的語義相似度。

其中,Xi為Montserrat法或I-SSCMO法計算第i對概念對的語義相似度,Yi為人工評判的第i對概念對的相似度,X可為Montserrat法或I-SSCMO法計算結果所組成的數組,Y為人工評判結果所組成的數組,Xˉ和Yˉ分別是X數組和Y數組的平均值。

鑒于加權因子w對I-SSCMO法的影響,本實驗從[0,1]中選取了11個w值,以評估在w不同的取值情況下I-SSCMO法的結果準確度。圖2展示了在計算FMA和NCI中概念對時Montserrat法或I-SSCMO法的性能比較。Montserrat法不受加權因子w的影響,因此其準確度始終是0.6579;當w=0.8時,I-SSCMO法的準確度達到最大值0.6602。圖2的結果說明,在FMA和NCI中匹配下位概念所提供的語義線索有限,I-SS?CMO的性能改進不顯著。圖3展示了在計算STW和TheSoz中概念對時Montserrat法或I-SSCMO法的性能比較。同樣,Montserrat法的準確度始終是0.5101;當w=0.9時,I-SSCMO法的準確度達到最大值0.5702,性能提升較為明顯。綜合圖2和圖3的結果,可以發現:1.在計算多本體中概念對的語義相似度時,相對于匹配下位概念而言,匹配上位概念所提供的語義線索更為有效,即w應取較大值;2.對不同多本體處理時,應當根據具體情況選取w的值,即處理FMA和NCI時應取0.8、處理STW和TheSoz時應取0.9;3.對于彼此之間差異較大的本體對,考慮匹配下位概念所提供的語義線索是有效的,能夠提供更為準確度的結果。

圖2 計算FMA和NCI中概念對時的性能比較

圖3 計算STW和TheSoz中概念對時的性能比較

3 結語

針對基于多本體的語義相似度計算方法所存在的問題,本文提出了綜合考慮匹配上位概念和匹配下位概念所提供語義線索的相似度計算方法。在FMA和NCI、STW和TheSoz上的實驗表明,通過選取合適的加權因子w,改進的方法I-SSCMO能夠在一定程度上獲得更準確的結果。在將來的研究中,我們將考慮如何更為充分地利用匹配下位概念提供的語義線索、加權因子w的優化取值等問題。

[1]張滬寅,劉道波,溫春艷.基于《知網》的詞語語義相似度改進算法研究[J].計算機工程,2015,41(2):151-156.

[2]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現代圖書情報技術,2010,26(1):51-56.

[3]Batet M,Sánchez D,Valls A,et al.Semantic Similarity Estimation from Multiple Ontologies[M].Applied Intelligence,2013:29-44.

猜你喜歡
語義定義概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
認知范疇模糊與語義模糊
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 青青热久麻豆精品视频在线观看| 67194在线午夜亚洲| 国产亚洲高清在线精品99| 国产精品va| 精品久久久久无码| 欧美日韩va| 亚洲欧美综合精品久久成人网| 久久99国产综合精品女同| 国产综合无码一区二区色蜜蜜| 中文无码毛片又爽又刺激| 国产免费精彩视频| 亚洲精品国产精品乱码不卞| 人人爱天天做夜夜爽| 91久久偷偷做嫩草影院| 精品少妇三级亚洲| www.国产福利| 久久无码免费束人妻| 日韩国产另类| 色网站免费在线观看| 五月激情综合网| 日本人妻一区二区三区不卡影院| 少妇露出福利视频| 国产成年女人特黄特色大片免费| 国产高清在线精品一区二区三区| 国产午夜一级毛片| 国产va在线观看免费| 一级毛片免费观看久| 天堂亚洲网| 国产在线一二三区| 高清码无在线看| 99久久无色码中文字幕| 中文国产成人精品久久一| 伊人久久久久久久久久| 999精品视频在线| 久久久久久午夜精品| 亚洲日韩久久综合中文字幕| 亚洲精品无码专区在线观看 | 亚洲人成影院在线观看| 宅男噜噜噜66国产在线观看| 狠狠综合久久久久综| 天堂在线视频精品| 制服无码网站| 激情无码视频在线看| 亚洲—日韩aV在线| 中文无码精品a∨在线观看| 亚洲 欧美 中文 AⅤ在线视频| 在线无码av一区二区三区| 无码AV高清毛片中国一级毛片| 成人免费一区二区三区| 国产免费人成视频网| 亚洲床戏一区| 国产内射在线观看| 亚洲人成网站在线观看播放不卡| 99在线观看视频免费| 日韩国产欧美精品在线| 欧美成人区| 色亚洲成人| 精品欧美一区二区三区久久久| 九九久久99精品| 亚洲天堂高清| 欲色天天综合网| 一级全黄毛片| 国产精品无码AV片在线观看播放| 国产精品美女免费视频大全 | 影音先锋丝袜制服| 99久久精品国产自免费| 91欧美亚洲国产五月天| 亚洲永久免费网站| 色成人综合| 久久国产V一级毛多内射| 毛片卡一卡二| AV熟女乱| 国产精品无码久久久久久| 久久婷婷国产综合尤物精品| 日韩天堂网| 99在线视频免费观看| 五月综合色婷婷| 亚洲日本精品一区二区| 国产精品欧美在线观看| 国产成人91精品免费网址在线| 人妻21p大胆| 青青操国产视频|