999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

HowNet與CCD映射方法研究

2015-04-21 08:43:11向春丞穗志方詹衛東
中文信息學報 2015年3期
關鍵詞:概念特征方法

向春丞, 穗志方,2, 詹衛東

(1. 北京大學 計算語言學教育部重點實驗室,北京 100871;2. 語言能力協同創新中心,江蘇 徐州 221009))

?

HowNet與CCD映射方法研究

向春丞1, 穗志方1,2, 詹衛東1

(1. 北京大學 計算語言學教育部重點實驗室,北京 100871;2. 語言能力協同創新中心,江蘇 徐州 221009))

本體映射是解決本體異構問題的關鍵方案。該文以HowNet和CCD中的名詞性概念為例,首先利用機器學習技術發現初始映射關系,主要包括特征選擇、樣本集合劃分、分類器選擇等步驟;然后考慮本體的整體結構信息,利用相似度傳播算法,對初始映射關系進行全局調整。實驗表明,最終的一對一和一對多映射關系的準確率分別達到了94%和87.5%。

本體映射;機器學習;分層抽樣;相似度傳播算法

1 前言

本體作為一種能在語義和知識層面上描述領域概念的建模工具,近年來在人工智能、信息檢索、語義Web等領域受到了極大關注,本體數量在其研究和運用領域呈爆炸式增長。然而,獨立地設計和開發導致了大量描述同一領域知識的本體之間存在嚴重的異構問題,極大阻礙了本體之間知識的共享和融合。本體映射能夠在異構本體之間發現語義相似的實體,是解決本體異構問題的關鍵方案[1],已成為當前語義Web領域中的一個研究熱點。

目前,研究者們已在本體映射方面做了大量工作,提出了許多映射方法[2-4],如基于實體名稱、基于本體結構、基于背景知識以及基于語義的方法等。通常,大部分本體映射系統[5-6]都將多個基本匹配器進行線性綜合,然后使用一些優化策略,發現映射關系。然而,手動地設置組合時的參數很難獲得最佳映射關系,于是研究者們將機器學習技術[7-9]引入本體映射任務,自動地對基本匹配器進行組合。

中文本體映射方面的研究相對薄弱。文獻[10]嘗試將知網與同義詞詞林進行融合,首先利用知網中的義原對詞林中的每個原子詞群給出一個DEF描述;然后在該特征上定義兩種形式的相似度計算,并將它們結合起來,通過反復試驗確定閾值,實現分類的目的。其相似度計算過程中僅考慮了本體本身的詞匯信息,缺乏對本體結構以及外部詞典或互聯網資源的利用,對詞匯語義信息的利用也不夠。

本文初步探索了知網(HowNet)與中文概念辭書(Chinese Concept Dictionary, CCD)兩部詞典的映射方法。首先利用兩者的詞匯信息、語言信息以及語義信息定義映射特征;然后給出將樣本集劃分成正例集、負例集以及測試集的策略,接著利用機器學習技術發現映射關系;最后考慮本體的整體結構信息,利用相似度傳播算法對初始映射結果進行調整。實驗表明,最終的概念之間的一對一和一對多映射關系準確率可達到94%和87.5%。

2 術語及相關介紹

本節給出相關的術語和介紹,包括本體和本體映射的定義、HowNet與CCD的簡介以及本文中待映射本體的說明。

2.1 本體和本體映射

在計算機科學的不同領域,有很多的數據和概念模型都可以被稱為本體,例如,普通的分類、數據庫模式、UML模型、字典、主題詞表、XML模式以及正式化的本體等。根據文獻[11]的描述,本體(Ontology)主要包括概念(Concepts)、屬性(Properties)、實例(Instances)以及公理(Axioms),可形式化地表示為:

其中,C表示概念或類(Classes)的集合;I表示概念的實例或個體(Individuals)的集合;P表示屬性集合,分為對象屬性(Object Properties)和數據屬性(Datatype Properties),前者用來表示概念之間或實例之間的關系,后者用于描述概念或實例的固有特征;A表示公理集合,用來對概念或屬性進行約束。 本體映射(Ontology Matching)是發現不同本體的實體之間的關聯關系(relationships)或對應關系(correspondences)的過程[1]。所謂本體的實體,主要指本體中的概念、實例或者屬性。可將本體映射形式化為:

其中,函數F表示映射過程,OS和OT分別表示源本體和目標本體,A表示OS與OT之間可能已存在的映射關系,p表示映射過程中用到的權值或閾值等參數,r表示映射過程中用到的外部資源,A′表示映射結果,可理解為由具有映射關系的實體對組成的集合。實體之間的映射結果可以是一對一、一對多、多對一以及多對多的映射情況。

2.2HowNet*出于表述簡便,本文中所謂的“HowNet”主要指知網系統中的雙語知識詞典數據文件。與CCD的簡介

知網(HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫[12]。知網的規模主要取決于雙語知識詞典數據文件的大小,包含194 302(2011版)條義項記錄。

中文概念辭書是一個基于WordNet框架的漢英雙語語義知識庫[13]。它將代表概念的詞語分為名詞、動詞、形容詞以及副詞四種,目前收錄了近十萬個概念。

圖1給出了一條HowNet記錄的例子。其中,NO.表示記錄的編號、W_C表示概念的中文表述、W_E表示概念的英文表述、DEF是對概念的規格化描述。DEF中第一位置的義原“Circuitances|境況”稱為主要特征,它是概念“CONDITION|狀況”的直接上位概念。

圖2為CCD中描述名詞性(POS=n)概念“{態勢 情形 狀況 狀態}”的主要格式,其中Definition和Note分別表示概念的釋義(定義)和使用舉例,Hypernym和Hyponym表示該概念的直接上、下位概念的編號。通常,一個概念的直接上位概念只有一個,而直接下位概念有多個。

圖1 HowNet記錄舉例圖2 CCD概念及其描述舉例

2.3 待映射本體

HowNet和CCD都是一部體現了對客觀世界的認識與把握的中英文詞匯概念語義詞典,因此將其所描述的概念進行映射是合理的。本文映射任務中,源本體OS中的概念為HowNet中的名詞性概念,目標本體OT中的概念為CCD中的名詞性概念。

由于HowNet和CCD的編纂時期、概念劃分粒度以及應用目標等方面存在一定的差異,因此兩部詞典中收錄的名詞性詞語的數量差別較大,其統計結果如表1所示。

表1 待映射本體初步統計表

由于本文的映射策略還考慮了概念的分類體系對映射關系的影響,因此我們將描述HowNet概念的實體類、屬性類以及屬性值類義原以HowNet記錄的形式加入到了原來的記錄集合中,其中實體類義原的DEF不變,屬性類和屬性值類義原的DEF定義為其上位概念。

3 利用機器學習技術發現映射關系

本節主要介紹將機器學習技術用于HowNet與CCD的映射任務。將映射問題看作二分類問題,首先進行映射特征的選擇;然后給出將樣本集自動劃分成訓練集和測試集的策略;最后介紹分類器的選擇和預測過程。

3.1 選擇映射特征

文獻[10]中提出的知網與同義詞詞林的融合特征,為CCD中的每個同義詞集定義一個DEF描述,得到映射特征F3-F6(表2)。另外,利用CCD概念的Note和Definition屬性,定義映射特征F7和F8。映射特征F1-F8的具體描述如表2所示。

表2 HowNet與CCD的映射特征

其中,特征F3-F6的計算方法與文獻[10]相同。用W_C表示HowNet中某個概念的中文詞條,為了計算特征F7,首先從新華字典中獲取W_C的名詞性釋義;如果該名詞性釋義有多項,則說明W_C為多義詞,此時利用其相應的DEF中的主要特征和次要特征進行排歧、選擇;如果字典中未給出W_C的名詞性釋義,則取其基本釋義代替。然后再計算W_C的釋義與CCD中概念的釋義之間的余弦相似度。

對于特征F8,首先利用互聯網語料訓練得到Bigram語言模型,然后將CNote中出現的CSynset中的詞語用W_C替換,將替換后的CNote的概率作為特征F8的值(采用加一平滑技術處理數據稀疏問題)。如果F8的值較大,則說明兩個概念之間的語義相似度越高。

3.2 劃分樣本集合

將一個HowNet概念和一個CCD概念組成的概念對稱為一個映射樣本,它由表2中定義的映射特征來描述。如果CH和CC之間存在映射關系,則將該映射樣本稱為正例,否則稱為負例。

對包含87 393個概念的OS和包含64 895個概念的OT進行統計,其中使得特征F1的值為真的映射樣本的個數為37 021個,涵蓋了29 086個HowNet概念和18 283個CCD概念。從這些映射樣本中隨機選取200個人工進行觀察,發現其中有187個可以被看作正例。也就是說,如果把使得特征F1值為真的映射樣本作為正例,其可信度能夠達到98%。這主要是由于W_C和W_E之間具有相互排歧的作用。我們允許一定的誤差存在,利用特征F1和F2對樣本集合進行劃分,即將特征F1和F2的值為真的映射樣本分別作為正例和負例,其他包含了49 697個HowNet概念和29 503個CCD概念的大約16.5萬個映射樣本組成測試集。

3.3 分類器的選擇和預測

目前,能夠解決二分類問題的機器學習算法有很多,因此需要根據實際任務的特點進行選擇。首先,利用分層抽樣方法從負例集中抽取與正例集規模相當的樣本,并將其與所有正例組成訓練集;然后,對多個分類器在訓練數據集上采用交叉驗證的方法進行訓練,選擇F值最高的一個作為最終的分類器對測試樣本進行預測,從而發現測試樣本中的映射關系。由于特征F1和F2已被用于樣本集合的劃分,因此,在分類器的訓練和預測階段均不考慮樣本的這兩個特征。

4 基于相似度傳播算法的映射關系調整

相似度傳播算法[14](Similarity Flooding Algorithm,SF)是一種圖匹配算法,它將圖中的節點看作概念,節點之間的連邊看作概念之間的關系,認為兩個概念之間的映射結果不僅跟它們各自的特征有關,還跟其鄰近概念,甚至圖中所有其他概念的映射結果也有關。概念之間的相似度通過圖中的連邊在整個圖上進行迭代傳播。

本文不把待映射本體的分類結構HS和HT(如圖3所示)按照文獻[14]中的方法進行合并,因為這樣會急劇增加節點個數。例如,對HS和HT中分別以節點A和B為根的子樹進行合并,節點個數將由m+n+2個變為m*n+1個,而CCD和HowNet中很多概念都有幾十甚至上百個子概念。

圖3 相似度傳播算法示意圖

定義對概念對的映射關系有影響的鄰近環境為: {, , , , , },其中表示“如果概念A和概念B的父概念相似,那么概念A和概念B也可能相似”; 表示“如果概念A與概念B的子概念相似,那么概念A與概念B也可能相似”。

另外,在執行相似度傳播算法之前,還需要為每個概念對設置初始相似度值。以概念對為例,如果它對應正例集中的某個樣本,那么它的初始相似度值為1;如果對應測試集中的某個樣本,那么它的初始相似度值為分類后的置信度值;否則為0。以圖3為例,將上述過程形式化如式(1)所示。

(1)

其中,σ(i+1)表示概念對在第i+1次迭代后的相似度;函數φ(i)表示其鄰近環境在第i次迭代時產生的影響,它由φ(i)f和φ(i)c兩部分組成,即φ(i)=φ(i)f+φ(i)c,表示為式(2)、式(3)。

(2)

(3)

利用上述定點計算公式對測試樣本的相似度值在整個圖上進行迭代修正,達到基于相似度傳播算法調整映射關系的目的。

5 實驗及結果分析

5.1 負例選擇實驗

由于待映射本體中的每一對概念之間都有可能存在映射關系,因此樣本集的大小為87 393×64 895,其中除了37 021個正例樣本和約16.5萬的測試樣本外,剩下的均為負例樣本。因此,必須對負例樣本集進行壓縮,使其規模與正例個數相當,且壓縮后得到的負例樣本的統計特性應與壓縮之前比較接近。

本文的做法是,首先從所有負例集中隨機選取1億個樣本得到樣本集M;然后利用分層抽樣方法從M中抽取與正例數量相當的樣本,得到樣本集N。對M和N中所有樣本的特征的取值進行統計分析,其結果如圖4所示(實驗通過調用WekaAPI實現)。

圖4中,F3-F8對應表2中定義的特征,Mean_0和Mean_1分別表示負例集在壓縮之前和之后的特征值的均值,StdDev表示標準差,N的大小為37 038。假設M中樣本的分布情況與整個負例集中的一致,那么由上圖可知,通過分層抽樣方法得到的N中樣本的統計特性與M中的非常相似,因此我們可以認為樣本集N可以代表整個負例樣本集。

圖4 負例集壓縮前后的統計特性對比

5.2 分類器的選擇實驗

現在我們已經得到了一個包含37 021個正例和 37 038個負例的訓練數據。此時我們希望找到一個在該訓練集上表現較好的分類器,以對測試樣本進行分類,從而發現更多的映射關系。我們分別對樸素貝葉斯(Naive Bayes,NB)分類器、決策樹(Decision Tree, DT)分類器以及最大熵(Maximum Entropy, ME)分類器進行了實驗和比較,分類器訓練時均采用10折交叉驗證方式,實驗通過調用Weka API完成,其訓練結果如表3所示。

表3 分類器訓練效果比較

上表中,Precision、Recall以及Feature表示分類器在訓練集上的查準率、查全率以及F值。從表3可以發現,決策樹在本文的訓練集上表現最好,于是我們將其作為最終的分類器。圖5為該決策樹分類器的部分結構。

從圖5可知,次特征向量(secdf_cos_sim,即特征F6)的相似度對類別的區分能力最強,被選定為根節點。完整的決策樹模型共有49個節點,其中包含25個葉節點。

5.3 映射關系發現實驗

依次利用以下三種方法發現從HowNet(OS)到CCD(OT)的映射關系。

(1) 基于特征頻度統計和特征向量計算結合的方法[10]

該方法主要參考文獻[10], 它首先通過反復試驗設定閾值,然后執行多步判斷,實現對概念對的分類。該過程可以看作是人工制定分類規則來判定概念之間是否存在映射關系。本文并未使用這樣反復嘗試的方法選定所需閾值,而是將閾值設定為相應特征值的均值。測試集中所有樣本的特征的統計特性如表4所示。

圖5 決策樹分類器部分結構

F3F4F5F6F7F8Mean0.3540.5850.2360.2330.0430.005SedDev0.8941.7380.3460.3230.0970.073

根據表4的統計結果,對方法1中的相關閾值進行設定。其中主特征和次特征的重合度閾值分別設定為0.354和0.585;主特征和次特征的向量相似度閾值分別設定為0.236和0.233。

(2) 基于統計決策樹的方法

文獻[15]中也利用了決策樹的方法進行本體映射,但是其決策規則均由人工進行構造,其分裂節點的閾值通過反復試驗選定,這樣的閾值選定策略不僅費時費力,而且對訓練數據的適應能力較差。本文中的決策樹模型則是通過機器學習方法自動訓練得到,從而能有效地發現訓練數據中所蘊含的分類規律。

(3) 基于相似度傳播的方法

方法1和2僅考慮了概念的局部特征,沒有充分利用本體固有的結構信息。本文中的相似度傳播方法主要是在方法2的基礎之上,利用本體的整體結構信息來對映射結果進行調整,使其更為合理,另外,該方法還可以發現測試集之外的映射關系。與方法1類似,該方法中映射閾值取為算法迭代一定次數(n=100)后相似度值的均值,即0.43。

從對測試集的映射預測結果中隨機選取200個進行人工評價,以上三種映射方法的映射發現結果如表5所示(觀察從HowNet到CCD的映射情況)。

其中,方法1中的“1∶1” (一對一)映射結果“11 504/95.00%”表示: 測試集中有11 504個HowNet概念,每個僅能映射到一個CCD概念上,

表5 HowNet到CCD的映射結果統計表

映射準確率為95.00%?!?∶n”(一對多)表示: 一個HowNet概念與多個CCD概念具有映射關系。

5.4 實驗結果和錯誤分析

方法1主要基于概念詞語的DEF描述的詞匯級匹配特征,即如果兩個概念的主要特征和次要特征具有較高的相似度,那么這兩個概念可能具有映射關系。但就HowNet與CCD的映射任務而言,該方法僅能發現部分映射關系。

方法2在方法1的基礎之上還考慮了其他一些特征,并利用機器學習技術自動的對基本匹配器進行組合,能夠發現測試集中其他大部分映射關系。例如,HowNet概念“WC=丹麥首都,WE=capital_of_denmark”,其主要特征為“place|地方=1.0”,次要特征為“capital|國都=1.0,Denmark|丹麥=1.0,ProperName|專=1.0”;CCD概念“csynset = {丹麥首都, 哥本哈根},esynset = {copenhagen, kobenhavn, danish_capital}”,其主要特征為“country|國家=2.0,ProperName|專=2.0,Denmark|丹麥=2.0,politics|政=2.0,capital|國都=2.0”,次要特征為“place|地方=2.0”;通過計算,其主、次要特征的重合度和相似度均為0,因此無法利用方法1判斷這對概念具有映射關系。但其特征F7、F8的值分別為0.306 186、1.326 442E-9,即這兩個概念的釋義和舉例之間具有較高的相似度,從而在方法2中被認為具有映射關系。

方法3將方法2的分類結果的置信度值作為初值,利用概念的上下位關系,在整個分類結構上對初始映射結果進行迭代地調整。 例如,HowNet概念“WC=倉促,WE= precipitation”與CCD概念“csynset = {意外, 突然, 突如其來},esynset = {abruptness, precipitateness, precipitance, precipitancy, suddenness}”,根據樣本集劃分原則,由這兩個概念構成的樣本將被視為負例,但在方法3的實驗結果中卻認為它們之間存在映射關系,這與人的判斷結果是一致的。因此,方法3能夠發現測試集之外的映射關系。

前兩種方法的映射錯誤主要來自單字多義概念之間的映射。例如,HowNet中由“陣”字表示的概念的義項有“WC=陣,WE=spell”、“WC=陣,WE=position”、“WC=陣,WE=battle_array”以及“WC=陣,WE=front”等,方法1、2都認為它們與CCD概念“csynset={陣, 一陣, 沖動, 發作, 爆發, 一陣子},esynset={burst, fit}”具有映射關系。

6 結語

本文利用機器學習技術和相似度傳播算法對HowNet和CCD中名詞性概念之間的映射作了初步探索并取得了較好的效果,但由于兩部詞典對概念粒度劃分、屬性定義的差異,還是未能對一部分概念進行映射。

本體映射是一項復雜的任務,本文就映射訓練集缺乏、負例集壓縮以及映射關系的全局調整給出了初步解決策略。但還有很多方面值得進一步考慮,例如,(1)用于劃分樣本集的假設限制太嚴,致使測試集規模偏?。?2)相似度算法在實現時的效率問題等。我們將在后續論文中對這些情況進行更深入的研究。

[1] Jerome E, Pavel S. Ontology matching[C]//Proceedings of the Springer-Verlag, Heidelberg (DE), 2007.

[2] Qu Y, Hu W, Chen G. Constructing virtual documents for ontology matching[C]//Proceedings of the 15th International World Wide Web Conference (WWW). Edinburgh (UK), 2006: 23-31.

[3] Gligorov, Risto, et al. Using Google distance to weight approximate ontology matches[C]//Proceedings of the 16th international conference on World Wide Web (WWW). Beijing, China, 2007: 767-776.

[4] Atencia M, Borgida A, et al. A formal semantics for weighted ontology mappings[C]//Proceedings of the Semantic Web-ISWC 2012: 17-33.

[5] Nagy M, Vargas-Vera M. Towards an automatic semantic data integration: Multi-agent framework approach[C]//Proceedings of the Chapter in Sematic Web.In-Tech Education and Publishing KG, 2010.

[6] Li J, Tang J, Li Y, et al. Rimom: A dynamic multistrategy ontology alignment framework. Knowledge and Data Engineering[C]//Proceedings of the IEEE Transactions on 21, 2009: 1218-1232.

[7] Zhang D, Lee W S. Web taxonomy integration using support vector machines[C]//Proceedings of the 13th international conference on World Wide Web (WWW). New York, 2004: 472-481.

[8] Rong S, Niu X, et al. A Machine Learning Approach for Instance Matching Based on Similarity Metrics[C]//Proceedings of the Semantic Web-ISWC 2012: 460-475.

[9] Nezhadi A.H, Shadgar B, Osareh A. Ontology alignment using machine learning techniques[J]. International Journal of Computer Science & Information Technology (IJCSIT), 2011,3(2):139.

[10] 梅立軍, 周強等. 知網與同義詞詞林的信息融合研究[J]. 中文信息學報. 2005,19(1):63-70.

[11] Matthew H, Simon J, Georgina M. A Practical Guide To Building OWL Ontologies Using Protégé 4 and CO-ODE Tools(1.)[J]. (2007-10-16)[2008-02-27].http://protege.stanford.edu,2001.

[12] 董振東. 語義關系的表達和知識系統的建造[J]. 語言文字應用,1998,(3):76-82.

[13] 劉楊,俞士汶,于江生. CCD語義知識庫的構造研究[J].小型微型計算機系統. 2005,26(8):1411-1415.

[14] Melnik S, Garcia-Molina H, Rahm E. Similarity Flooding: A Versatile Graph Matching Algorithm and Its Application to Schema Matching[C]//Proceedings of the 18th International Conference on Data Engineering (ICDE), 2002: 117-128.

[15] Duchateau F, Bellahsene Z, Coletta R. A flexible approach for planning schema matching algorithms[M].On the Move to Meaningful Internet Systems: OTM 2008. Springer Berlin Heidelberg, 2008: 249-264.

向春丞(1988—),碩士研究生,主要研究領域為計算語言學。E?mail:ccxiang@pku.edu.cn穗志方(1970—),通訊作者,博士,教授,主要研究領域為計算語言學、文本知識工程。E?mail:szf@pku.edu.cn詹衛東(1972—),博士,教授,主要研究領域為現代漢語語法、計算語言學、語言知識工程。E?mail:zwd@pku.edu.cn

中國中文信息學會語音專委會舉辦“見證言語工程(二)”紀念冊發布會

2015年4月18日,中國中文信息學會語音信息處理專委會在清華大學FIT大樓舉辦“見證言語工程(二)”紀念冊發布會。

我國音韻學和語言學的研究有較長的歷史,但言語工程、實驗語音學的研究只有幾十年歷史。面對世界高技術蓬勃發展、國際競爭日益激勵的嚴峻挑戰,國內一批專家開創了言語相關的研究。“見證言語工程”紀念冊(第二冊)收錄了中國社會科學院鮑懷翹研究員、同濟大學計算機系柴佩琪教授、中國科學院聲學所李昌立研究員、中國科學院自動化研究所陳道文硏究員、清華大學計算機科學與技術系吳文虎教授、中國科學院聲學研究所呂士楠研究員和中國社會科學院語言研究所曹劍芬研究員等七位80歲以上老專家的事跡,內容包括老專家自述語音研究歷程、科研成果、學術論著和個人感悟等,是我國言語和語音信息處理珍貴的歷史記錄和見證。

紀念冊收錄的80歲以上言語工程領域的老專家們齊聚發布會,共同見證我國言語工程前進的風雨歷程,一一講述了“見證言語工程(二)”產生的經過,撰寫時的感觸。

此次發布的《見證言語工程(二)》是2013年4月發布的《見證言語工程(一)》紀念冊的續冊?!兑娮C言語工程(一)》收錄了方棣棠、張家騄、袁保宗、徐近霈、黃泰翼和林茂燦等六位時年80歲以上老專家為我國言語工程領域所做的開創性的工作。該系列的紀念冊“前言”由中國科學院院士、清華大學教授張鈸撰寫;“題字”有中文信息學會理事長、哈爾濱理工大學教授李生提寫;由蔡蓮紅教授整理完成。Dolby公司贊助了該系列紀念冊的出版及發布。袁保宗教授作為第一冊的代表,參加了本次發布會。

參加此次發布會的人員包括學會副秘書長楊爾弘教授、專委會主任清華大學鄭方教授、專委會前主任清華大學蔡蓮紅教授、專委會副主任中科院自動化所陶建華研究員、哈爾濱工業大學韓紀慶教授、專委會秘書長清華大學賈珈副教授,全國人機語音通訊學術會議常設機構委員會主席團成員北京交通大學朱維彬教授、清華大學徐明星副教授和王東博士,以及30余位師生代表,蔡蓮紅教授主持了發布會,楊爾弘教授代表中國中文信息學會、鄭方教授代表語音專委會分別致辭。

On Mapping between HowNet and CCD

XIANG Chuncheng1, SUI Zhifang1,2, ZHAN Weidong1

(1. Key Laboratory of Computational Linguistics(Peking University), Ministry of Edacation, Peking University, Beijing 100871, China; 2. Collaborative Innovation Center for Language Ability, Xuzhou, Jiangsu 221009, China)

Ontology matching is the key solution to the semantic heterogeneity problem.Focusing on the Noun concept of HowNet and CCD, this paper applies machine learning to identify the initial mapping relationships, disicussing the the feature selection, sample collections division and classifier selection. Further, employing the overall structure of the ontology, the similarity propagation algorithm is introduced to adjust the initial mapping globally. Experiment result shows that the precision of 1:1 and 1:n mapping relationships reaches 94% and 87.5%, respectively.

ontology matching; machine learning; stratified cross sampling; similarity propagation algorithm

1003-0077(2015)03-0044-08

2013-04-08 定稿日期: 2013-07-28

國家重點基礎研究發展計劃(2014CB340504),國家自然科學基金(61375074)。

TP391

A

猜你喜歡
概念特征方法
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習集合概念『四步走』
聚焦集合的概念及應用
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 日韩精品一区二区三区免费在线观看| 真实国产精品vr专区| 欧美曰批视频免费播放免费| 免费高清毛片| 91久久夜色精品| 成人综合在线观看| 97se亚洲综合在线天天| 潮喷在线无码白浆| 人妻精品久久无码区| 毛片卡一卡二| 老司国产精品视频| 免费在线色| 欧美特级AAAAAA视频免费观看| 亚洲中文字幕23页在线| 国产网站免费观看| 欧美亚洲中文精品三区| 国产精品va免费视频| 在线观看精品自拍视频| 国产精品亚洲专区一区| 国产成人综合亚洲欧美在| 激情综合图区| 永久免费av网站可以直接看的| 亚洲无码视频一区二区三区| 亚洲人成网18禁| 四虎成人免费毛片| 亚洲一本大道在线| 久久人体视频| 2021国产精品自产拍在线| 亚洲热线99精品视频| 毛片大全免费观看| 波多野结衣中文字幕一区二区| 丁香五月激情图片| 久久久精品无码一二三区| 97se亚洲| 免费一级无码在线网站| 亚洲国产无码有码| 热re99久久精品国99热| 日韩视频免费| 国产精品区网红主播在线观看| 国产成人亚洲日韩欧美电影| 日韩欧美一区在线观看| 一级毛片在线播放免费| 国产拍揄自揄精品视频网站| 免费A∨中文乱码专区| 18禁色诱爆乳网站| 日韩av无码DVD| 国产屁屁影院| 不卡国产视频第一页| 国产最爽的乱婬视频国语对白| 色综合久久综合网| 97综合久久| 国产精品分类视频分类一区| 激情午夜婷婷| 青青草国产免费国产| 99久久精品视香蕉蕉| 伊人AV天堂| 在线免费不卡视频| 国产精品片在线观看手机版| 一级成人a毛片免费播放| 久久精品电影| 任我操在线视频| 久久精品这里只有国产中文精品| 欧美一级99在线观看国产| 亚洲最大福利网站| 亚洲成人精品| 好吊色妇女免费视频免费| 亚洲综合第一页| 国产福利在线免费| 黄片在线永久| 色综合中文字幕| 香蕉久久永久视频| 扒开粉嫩的小缝隙喷白浆视频| 成人在线欧美| 91久久偷偷做嫩草影院免费看| 亚洲系列无码专区偷窥无码| 一本大道东京热无码av| 国产视频入口| 亚洲免费人成影院| 人人妻人人澡人人爽欧美一区| 欧美日韩中文字幕二区三区| 久久久受www免费人成| 一级成人欧美一区在线观看 |