999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向海量中文文本的典型類(lèi)屬關(guān)系識(shí)別方法

2015-01-06 08:20:31肖仰華
計(jì)算機(jī)工程 2015年2期
關(guān)鍵詞:概念特征文本

劉 琦,肖仰華,汪 衛(wèi)

(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海201203)

一種面向海量中文文本的典型類(lèi)屬關(guān)系識(shí)別方法

劉 琦,肖仰華,汪 衛(wèi)

(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海201203)

傳統(tǒng)基于文本的類(lèi)屬關(guān)系自動(dòng)抽取算法只簡(jiǎn)單記錄關(guān)系出現(xiàn)的位置、頻次等信息,而忽略了大量上下文信息,不能有效辨識(shí)典型類(lèi)屬關(guān)系。為此,提出一種面向互聯(lián)網(wǎng)文本典型類(lèi)屬關(guān)系的識(shí)別方法。通過(guò)提取實(shí)體概念的語(yǔ)言學(xué)特征和上下文語(yǔ)義特征構(gòu)成實(shí)體特征集,基于樸素貝葉斯分類(lèi)器,計(jì)算任意實(shí)體屬于不同概念的可能性,從而識(shí)別典型類(lèi)屬關(guān)系。實(shí)驗(yàn)結(jié)果證明,與基于頻率的識(shí)別方法相比,該方法能將典型類(lèi)屬關(guān)系的識(shí)別準(zhǔn)確率提高5%以上。

中文知識(shí)庫(kù);類(lèi)屬關(guān)系;關(guān)系抽取;典型性;模式識(shí)別;樸素貝葉斯

1 概述

構(gòu)建知識(shí)庫(kù)是理解中文語(yǔ)義的前提,其中類(lèi)屬關(guān)系是最基本的關(guān)系之一。在知識(shí)庫(kù)中,一個(gè)實(shí)體通常會(huì)屬于多個(gè)概念。在實(shí)際使用時(shí),需要給出一個(gè)實(shí)體最合理的概念,因此對(duì)這些概念加以排序是十分必要的。比如,對(duì)于“中國(guó)”,它類(lèi)屬于“國(guó)家”、“市場(chǎng)”和“古國(guó)”這3個(gè)概念的典型性逐漸減小。基于海量互聯(lián)網(wǎng)文本抽取的類(lèi)屬關(guān)系具有頻次信息,通常用來(lái)衡量該類(lèi)屬關(guān)系是否較同一個(gè)實(shí)體的其他類(lèi)屬關(guān)系更典型。本文通過(guò)綜合考慮類(lèi)屬關(guān)系的多維特征,結(jié)合語(yǔ)言學(xué)特征和實(shí)際上下文特征來(lái)辨識(shí)典型類(lèi)屬關(guān)系。

2 相關(guān)工作

類(lèi)屬關(guān)系的抽取是一種典型的關(guān)系抽取任務(wù),相關(guān)方法分為:(1)人工抽取,如WordNet[1], HowNet[2];(2)基于百科網(wǎng)頁(yè)中的結(jié)構(gòu)化[3]、半結(jié)構(gòu)化文本抽取[4-5];(3)基于非結(jié)構(gòu)化文本使用模式識(shí)別[6-7]的方法抽取[8]。眾多國(guó)內(nèi)外基于文本自動(dòng)構(gòu)建的知識(shí)庫(kù)YAGO[9],Probase[10]等都把實(shí)體概念的共現(xiàn)頻率作為類(lèi)屬關(guān)系是否準(zhǔn)確的一個(gè)重要指標(biāo)。Probase中提出類(lèi)屬關(guān)系的合理性和典型性。利用類(lèi)屬關(guān)系出現(xiàn)的多種信息(比如網(wǎng)頁(yè)的Pagerank值、模式的可靠性等)來(lái)推斷其合理性,而用類(lèi)屬關(guān)系的頻率和層次性來(lái)判斷其典型性。

通過(guò)考查漢語(yǔ)的構(gòu)詞法和概念的形成過(guò)程,筆者認(rèn)為影響類(lèi)屬關(guān)系典型性的因素,除了實(shí)際使用語(yǔ)境中的統(tǒng)計(jì)規(guī)律之外,還包含類(lèi)屬關(guān)系自身的語(yǔ)言學(xué)特征。本文將結(jié)合語(yǔ)言學(xué)特征和實(shí)際上下文來(lái)識(shí)別典型類(lèi)屬關(guān)系。

3 類(lèi)屬關(guān)系識(shí)別算法框架

圖1給出中文類(lèi)屬關(guān)系的識(shí)別算法框架:從互聯(lián)網(wǎng)文本中抽取類(lèi)屬關(guān)系和實(shí)體特征,利用樸素貝葉斯模型計(jì)算類(lèi)屬關(guān)系的典型性。互聯(lián)網(wǎng)文本經(jīng)過(guò)Html解析、斷句等預(yù)處理被加入到語(yǔ)料庫(kù)中。從語(yǔ)料庫(kù)中利用頓等模式抽取同類(lèi)詞集,利用類(lèi)屬模式同時(shí)抽取類(lèi)屬關(guān)系集和背景詞集。同類(lèi)詞集、類(lèi)屬關(guān)系集和背景詞集共同構(gòu)成實(shí)體的上下文特征集。從類(lèi)屬關(guān)系集中解析出實(shí)體集和概念集。提取全部實(shí)體的語(yǔ)言學(xué)特征,和上下文特征一起構(gòu)成實(shí)體的特征集。如圖1中虛線部分所示,利用樸素貝葉斯分類(lèi)器的思想,計(jì)算任意實(shí)體屬于每個(gè)概念的可能性,提取典型的類(lèi)屬關(guān)系。

圖1 類(lèi)屬關(guān)系識(shí)別算法框架

4 特征提取

對(duì)實(shí)體進(jìn)行特征提取,是為了建立實(shí)體到特征再到概念的映射。特征分為2類(lèi):一類(lèi)是語(yǔ)言學(xué)特征;另一類(lèi)是上下文特征。

4.1 語(yǔ)言學(xué)特征

實(shí)體的語(yǔ)言學(xué)特征主要包含4個(gè)特征,分別是字特征、偏旁特征、詞特征和詞性特征。

(1)字特征是實(shí)體用字構(gòu)成的集合。漢語(yǔ)中一些概念會(huì)形成特有的用字習(xí)慣。比如“學(xué)校”的命名中包含“小”、“中”、“大”,分別表示小學(xué)、初中、大學(xué)等。

(2)偏旁特征是由構(gòu)成實(shí)體的每個(gè)字的偏旁構(gòu)成。比如“蘋(píng)果”的偏旁特征就是{艸,木}。現(xiàn)代漢語(yǔ)超過(guò)80%的字是形聲字,而形聲字的偏旁(義符)能夠揭示其本身概念的比例占83%[11]。

算法1 實(shí)體用字特征和偏旁特征的獲取算法

輸入實(shí)體庫(kù),部首對(duì)照表

輸出實(shí)體對(duì)應(yīng)的字特征和偏旁特征

(3)詞特征是實(shí)體最細(xì)粒度的分詞結(jié)果。比如“紅蘋(píng)果”的詞特征就是{紅蘋(píng)果}。復(fù)合名詞通常包含表示重要語(yǔ)義特征的詞。比如“番茄炒蛋”中的“炒”字就與菜名具有很強(qiáng)的關(guān)聯(lián)。很多復(fù)雜的專(zhuān)業(yè)術(shù)語(yǔ)(比如化合物名字等)同樣具有明顯的詞特征。

(4)詞性特征是對(duì)詞特征的詞性標(biāo)注。復(fù)合名詞在命名時(shí)遵循一定規(guī)則,如在命名公司、酒店等機(jī)構(gòu)時(shí),常會(huì)包含地名ns、人名nr等詞性。上海[/地名]某科技有限公司、北京[/地名]宋慶齡[/人名]基金會(huì)。地名、人名等詞性與機(jī)構(gòu)等實(shí)體的關(guān)聯(lián)性很強(qiáng)。

算法2 實(shí)體用詞特征和詞性特征的獲取算法

輸入實(shí)體庫(kù),分詞詞典

輸出實(shí)體對(duì)應(yīng)的詞特征和詞性特征

4.2 上下文特征

上下文特征是從文本中提取的特征,包括同類(lèi)詞特征、概念集。

(1)同類(lèi)詞特征是指在實(shí)體在某一概念上的同位詞,在語(yǔ)言學(xué)中叫做對(duì)義詞。在漢語(yǔ)中,頓號(hào)的最主要用法是羅列某一概念下的同類(lèi)詞。同類(lèi)詞屬于同一概念的可能性很大。比如,“中國(guó)、美國(guó)、法國(guó)等聯(lián)合國(guó)常任理事國(guó)”中的“中國(guó)”、“美國(guó)”和“法國(guó)”。定義這種由頓號(hào)和等連接的句子模式叫“頓等模式”(見(jiàn)表1中的ID1和ID2對(duì)應(yīng)的模式)。表1中的匹配模式借鑒英文中的Hearst Patterns[12]。匹配模式中E,Ei(i=1,2,…)表示實(shí)體,是一個(gè)名詞詞組;C表示概念,一般為一個(gè)簡(jiǎn)單名詞,也可以是名詞詞組;“[]”中的內(nèi)容表示任選一項(xiàng);“?,”和“?”為正則表達(dá)式的常見(jiàn)符號(hào)。

表1 匹配模式

(2)概念集特征是指實(shí)體所屬的所有概念。概念之間具有包含、相似、等同等多種聯(lián)系,這種聯(lián)系表現(xiàn)在同一個(gè)實(shí)體可以屬于多種概念。這些概念組成的集合本身也是這個(gè)實(shí)體的特征。

比如蘭花的所屬概念集為{花卉植物花}。當(dāng)要判斷“蘭花是植物”的典型性時(shí),{花卉花}這個(gè)特征可以增強(qiáng)這種典型性。因?yàn)閺奶m花到花卉(花)再到植物存在一個(gè)很強(qiáng)的關(guān)聯(lián)關(guān)系,類(lèi)屬關(guān)系的典型性因?yàn)檫@種關(guān)聯(lián)而得以增強(qiáng)。

背景詞特征是指類(lèi)屬關(guān)系存在的句子中其他名詞構(gòu)成的集合。利用與類(lèi)屬關(guān)系經(jīng)常出現(xiàn)的名詞特征可以更好地識(shí)別典型類(lèi)屬關(guān)系。比如“中國(guó)是世界上最大的發(fā)展中國(guó)家”。<中國(guó)國(guó)家>是一個(gè)類(lèi)屬關(guān)系,背景詞特征就是{世界}。在提及“世界”的語(yǔ)境中,“國(guó)家”這個(gè)概念出現(xiàn)的頻率要比沒(méi)有提及“世界”的語(yǔ)境中高得多。

算法3 實(shí)體上下文特征的獲取算法

輸入中文數(shù)據(jù)集,中文類(lèi)屬關(guān)系模式

輸出類(lèi)屬關(guān)系集,同類(lèi)詞集,背景詞集

由于互聯(lián)網(wǎng)文本數(shù)據(jù)巨大,一個(gè)實(shí)體的上下文特征中會(huì)有大量同類(lèi)詞、背景詞等,導(dǎo)致特征抽取效率不高,而且噪音信息很多。因此,每個(gè)實(shí)體的上下文相關(guān)的3種特征中,只選取其中頻率最高的100項(xiàng)。

5 概率模型

問(wèn)題定義令P(C|E)表示實(shí)體E屬于概念C的可能性。給定類(lèi)屬關(guān)系集G。求典型類(lèi)屬關(guān)系可以表示為:

根據(jù)樸素貝葉斯分類(lèi)器的原理,在只考慮一維特征F的情況下,判斷給定實(shí)體E屬于概念C的可能性為:

其中,實(shí)體E具有特征F;P(C|F)表示根據(jù)實(shí)體具有的特征F判斷實(shí)體屬于概念C的概率;P(C)表示概念出現(xiàn)的先驗(yàn)概率;P(F)表示特征出現(xiàn)的先驗(yàn)概率,與實(shí)體概念的共現(xiàn)沒(méi)有任何關(guān)系,在實(shí)體概念對(duì)中,把實(shí)體用相應(yīng)的特征序列替換,那么就構(gòu)建了一個(gè)特征-概念的聯(lián)合分布空間;P(F|C)表示在這個(gè)聯(lián)合空間中,特征對(duì)概念的條件分布。

本文使用證據(jù)疊加的方法來(lái)融合各特征對(duì)類(lèi)屬典型性關(guān)系的影響。每個(gè)特征對(duì)典型性的影響用后驗(yàn)概率來(lái)表示。第4節(jié)中針對(duì)每個(gè)實(shí)體提出兩大類(lèi)七小類(lèi)特征。對(duì)于一個(gè)概念下的所有實(shí)體,可以提取一個(gè)很大的特征集,這個(gè)特征集同樣包含七小類(lèi)特征。

對(duì)于概念C和小類(lèi)特征Fi,設(shè),利用證據(jù)疊加的方法,采用式(3)確定小類(lèi)特征對(duì)E屬于C的典型性。

如果按照順序把七小類(lèi)特征編號(hào)為F1~F7,則得到式(4):

采用概率相加而不是相乘的主要原因有3個(gè): (1)由于概率本身很小,7(n個(gè)概率相乘容易導(dǎo)致計(jì)算機(jī)中結(jié)果為0,使得結(jié)果不具有可比性。(2)從直觀上來(lái)說(shuō),證據(jù)越多,概率越大,而相乘使得特征越多,絕對(duì)大小反而越小。(3)相乘容易受特殊情況影響,一個(gè)極小值導(dǎo)致最終概率很小。而相加的模型對(duì)異常情況就很穩(wěn)定。由于最后比較的是相對(duì)值,因此式(3)中無(wú)需對(duì)概率歸一化。

算法4 最典型類(lèi)屬關(guān)系的獲取算法

輸入類(lèi)屬關(guān)系集EC,實(shí)體特征集EF

輸出最典型的類(lèi)屬關(guān)系集

算法4中的F_top(Ci,n)是從每個(gè)小類(lèi)特征中選出topn作為該概念的典型特征。最后的融合結(jié)果P(Ci|E)按照式(4)進(jìn)行計(jì)算。本節(jié)中的P(C|E)不是嚴(yán)格的概率,而是基于概率的一種度量。

6 實(shí)驗(yàn)結(jié)果與分析

6.1 實(shí)驗(yàn)語(yǔ)料

實(shí)驗(yàn)采用3個(gè)數(shù)據(jù)集card,full和mcr,它們分別來(lái)自百度百科的百科名片、百科正文和從互聯(lián)網(wǎng)上爬取的富文本網(wǎng)頁(yè),其大小和提取的候選類(lèi)屬關(guān)系數(shù)量如表2所示。每條類(lèi)屬關(guān)系都統(tǒng)計(jì)了在數(shù)據(jù)集中出現(xiàn)的次數(shù)。實(shí)驗(yàn)?zāi)康氖潜容^用不同方法從全部的類(lèi)屬關(guān)系中識(shí)別出最典型類(lèi)屬關(guān)系的準(zhǔn)確率。

表2 數(shù)據(jù)集

6.2 評(píng)測(cè)方法

實(shí)驗(yàn)的目的是比較4種方法,分別是按照出現(xiàn)頻次的基本方法(Fq)、基于語(yǔ)言學(xué)特征的概率方法(M1)、基于上下文特征的概率方法(M2)和融合兩大類(lèi)特征的方法(M3)辨識(shí)典型常識(shí)關(guān)系的準(zhǔn)確率。

Fq方法是直接從算法3的類(lèi)屬關(guān)系中選出與某個(gè)實(shí)體相關(guān)的頻次最高的概念作為最典型類(lèi)屬關(guān)系。其他3種方法均按完整的算法框架計(jì)算,不同的是在選擇小類(lèi)特征上,M1只選取F1~F4,M2只選取F5~F7,而M3選取了全部的F1~F7。

為研究模型受參數(shù)n值變化的影響,選取n= 10,20,50,100,200,500,1000,1000 000。n= 1000 000時(shí)的情況相當(dāng)于采用所有特征,不預(yù)先做任何特征篩選。

為比較4種方法的差異,實(shí)驗(yàn)中選取滿足下面條件的類(lèi)屬關(guān)系<E,C>作為測(cè)試集:

(1)在4種方法的結(jié)果中E都有對(duì)應(yīng)的典型類(lèi)屬關(guān)系;

(2)并且E對(duì)應(yīng)的概念C在4種方法中不完全相同。

根據(jù)實(shí)驗(yàn)?zāi)康?對(duì)每個(gè)測(cè)試集,選取1000條類(lèi)屬關(guān)系進(jìn)行人工標(biāo)注。實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)如表3所示。

表3 標(biāo)注集

在標(biāo)注過(guò)程中采用以下原則:

(1)按照通用性來(lái)標(biāo)注,只有最通用的類(lèi)屬才認(rèn)為符合常識(shí)。比如,<上海,城市>是常識(shí),而<上海,地區(qū)>不是。因?yàn)槌鞘懈铣WR(shí),而地區(qū)不是。

(2)不能對(duì)概念進(jìn)行任意擴(kuò)展。比如<上海,車(chē)站>就不是常識(shí)。雖然上海經(jīng)常出現(xiàn)在車(chē)站列表中,而實(shí)際上它只是“上海站”的一個(gè)縮寫(xiě)。

(3)概念不能具有相對(duì)性。“原料”、“代表作”等相對(duì)概念不能成為典型類(lèi)屬關(guān)系的概念部分。例如,在常識(shí)知識(shí)庫(kù)中,<《八駿全圖》,畫(huà)作>是正確的。而<《八駿全圖》,代表畫(huà)作>就不準(zhǔn)確,因?yàn)椤按懋?huà)作”是一個(gè)相對(duì)概念,<《八駿全圖》,代表畫(huà)作>是一個(gè)不準(zhǔn)確的類(lèi)屬關(guān)系。

這樣符合常識(shí)的類(lèi)屬關(guān)系得分為1,不符合的得分為0。每個(gè)模型的最后得分為1000條類(lèi)屬關(guān)系的平均分。

6.3 結(jié)果分析

圖2對(duì)比了各種模型在3個(gè)數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果。橫軸表示模型參數(shù)n,縱軸表示典型類(lèi)屬關(guān)系準(zhǔn)確率。對(duì)比Fq方法,可以看到M1,M2和M3都有明顯的提升效果,這證明在取適當(dāng)n的情況下,語(yǔ)言學(xué)特征的應(yīng)用和上下文特征都是有效的。在最好的情況下,M1,M2和M3都有約5%的提升。

對(duì)比圖2(a)、圖2(b)、圖2(c)中的M1方法發(fā)現(xiàn),語(yǔ)言學(xué)特征的作用隨著n值得增大先增加后趨緩,而且在n很小時(shí)都很差,說(shuō)明語(yǔ)言學(xué)特征分布比較均勻,需要考慮盡可能多的語(yǔ)言學(xué)特征。

圖2 各方法在不同數(shù)據(jù)集上的準(zhǔn)確率比較

在圖2(a)中,M2方法在n值增大的情況下準(zhǔn)確率開(kāi)始下降,說(shuō)明在數(shù)據(jù)量較小的情況下上下文特征不穩(wěn)定且容易產(chǎn)生噪聲,這時(shí)n應(yīng)該取較小的10。而在圖2(b)、圖2(c)中M2都在n=100附近取得較大值,說(shuō)明在數(shù)據(jù)量較大的情況下,并非利用的上下文特征越多越好,而是需要根據(jù)數(shù)據(jù)量選定適當(dāng)?shù)膎值(如100)。

而當(dāng)綜合利用語(yǔ)言學(xué)特征和上下文特征后,可以看到M3的表現(xiàn)是比較穩(wěn)定的,而且最優(yōu)值也是M3取得的。隨著n值的增加,準(zhǔn)確率逐步增加,直到趨穩(wěn),數(shù)據(jù)集對(duì)它性能的擾動(dòng)較小。

綜合來(lái)看,特征屬性并不是越多越好,而要與數(shù)據(jù)集相適應(yīng),在實(shí)際應(yīng)用中可以通過(guò)實(shí)驗(yàn)確定最佳n值。隨著知識(shí)庫(kù)的體量增大和數(shù)據(jù)集的增加,語(yǔ)言學(xué)特征會(huì)逐漸增多,這時(shí)選擇適當(dāng)數(shù)量的屬性就很必要,因?yàn)楹芏嗵卣鞑⒉痪哂写硇浴6疫x擇適當(dāng)大小的n值可以提高算法效率。

7 結(jié)束語(yǔ)

本文在典型類(lèi)屬關(guān)系的識(shí)別過(guò)程中,利用實(shí)體本身的語(yǔ)言學(xué)特征以及類(lèi)屬關(guān)系所處的上下文特征,提高識(shí)別準(zhǔn)確率。在選取特征時(shí),需要選取分布相對(duì)松散的語(yǔ)言學(xué)特征以及分布集中的上下文特征。下一步工作重點(diǎn)是添加更豐富的特征到識(shí)別模型中以提高模型識(shí)別性能。

[1] Fellbaum C.WordNet:AnElectronicLexicalDatabase[M].[S.l.]:MIT Press,1988.

[2] Dong Z,Dong Q.HowNet[EB/OL].[2013-12-17]. http://www.keenage.com/zhiwang/e_zhiwang.html.

[3] Yan Yulan,Okazaki N,Matsuo Y,et al.Unsupervised Relation Extraction by Mining Wikipedia Texts Using Information from the Web[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4thInternationalJointConferenceonNatural Language Processing of the AFNLP.Stroudsburg,USA: Association for Computational Linguistics,2009:1021-1029.

[4] Wang Jingjing,Wang Haixun,Wang Zhongyuan,et al. Understanding Tables on the Web[C]//Proceedings of the31stInternationalConferenceonConceptual Modeling.Berlin,Germany:Springer-Verlag,2012: 141-155.

[5] Niu Xing,Sun Xinruo,Wang Haofen,et al.Zhishi. me——Weaving Chinese Linking Open Data[C]// Proceedings of the10th International Semantic Web Conference.Bonn,Germany:Springer-Verlag,2011: 205-220.

[6] Ramakrishnan C,Kochut K J,Sheth A P.A Framework for Schema-driven Relationship Discovery from Unstructured Text[C]//Proceedings of International Semantic WebConference.Berlin,Germany:Springer-Verlag, 2006:583-596.

[7] Wong W,Liu Wei,Bennamoun M.Acquiring Semantic Relations Using the Web for Constructing Lightweight Ontologies[C]//Proceedings of the13th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin,Germany:Springer-Verlag,2009:266-277.

[8] Miner G,Elder J,Hill T,et al.Practical Text Mining and StatisticalAnalysisforNon-structuredTextData Applications[M].[S.l.]:Academic Press,2012.

[9] Suchanek F M,Kasneci G,Weikum G.Yago:A Core of Semantic Knowledge[C]//Proceedings of the16th International Conference on World Wide Web.New York, USA:ACM Press,2007:697-706.

[10] Wu Wentao,Li Hongsong,Wang Haixun,et al.Probase: A Probabilistic Taxonomy for Text Understanding[C]// Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.New York,USA: ACM Press,2012:481-492.

[11] 王 寧.漢語(yǔ)字詞的結(jié)構(gòu)與意義[M].濟(jì)南:山東教育出版社,1997.

[12] Hearst M A.Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of the14th Conference on Computational Linguistics.Stroudsburg, USA:Association for Computational Linguistics,1992: 539-545.

編輯 陸燕菲

A Recognition Approach of Typical Generic Relationship for Massive Chinese Text

LIU Qi,XIAO Yanghua,WANG Wei
(School of Computer Science,Fudan University,Shanghai 201203,China)

In a usual way for automatic generic relation extraction from texts,only some simple information,such as positions and frequency are recorded.And enormous context information is ignored,which is very helpful to recognize typical relationship.A new approach is proposed to recognize typical generic relationship from candidates extracted Internet texts.Abundant semantic information is kept while relations are captured.It integrates both natural language features of entities and concepts to constitute a entity feature set,calculates the possibility of any entities belong to different concepts based on na?ve Bayesian,and recognizes typical generic relationship.Experimental result proves,as for judging whether a generic relation is typical,compared with the frequency-based recognizing method,the method improves the recognition accuracy by more than 5%.

Chinese knowledge base;generic relationship;relationship extraction;typicality;pattern recognition; naive Bayesian

劉 琦,肖仰華,汪 衛(wèi).一種面向海量中文文本的典型類(lèi)屬關(guān)系識(shí)別方法[J].計(jì)算機(jī)工程, 2015,41(2):26-30.

英文引用格式:Liu Qi,Xiao Yanghua,Wang Wei.A Recognition Approach of Typical Generic Relationship for Massive Chinese Text[J].Computer Engineering,2015,41(2):26-30.

1000-3428(2015)02-0026-05

:A

:TP391

10.3969/j.issn.1000-3428.2015.02.006

國(guó)家自然科學(xué)基金資助項(xiàng)目(61003001,61170006,6117132,61033010)。

劉 琦(1988-),男,碩士研究生,主研方向:數(shù)據(jù)抽取,自然語(yǔ)言處理;肖仰華,副教授;汪 衛(wèi),教授、博士生導(dǎo)師。

2014-03-11

:2014-04-05E-mail:zerup123@gmail.com

猜你喜歡
概念特征文本
Birdie Cup Coffee豐盛里概念店
幾樣概念店
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 找国产毛片看| 直接黄91麻豆网站| 伊人激情久久综合中文字幕| 欧美成a人片在线观看| 国产午夜一级毛片| 成人福利在线看| 男女男精品视频| 性69交片免费看| 国产成人精品一区二区| 国产一区二区三区免费观看| 最新精品久久精品| 国产精品嫩草影院av| 91欧美亚洲国产五月天| 97se亚洲综合在线韩国专区福利| 无码内射在线| 成人精品在线观看| 色亚洲激情综合精品无码视频 | 中美日韩在线网免费毛片视频| 国产在线拍偷自揄观看视频网站| 亚洲国模精品一区| 国产91成人| 最近最新中文字幕在线第一页 | 国产毛片基地| 好久久免费视频高清| AⅤ色综合久久天堂AV色综合| 午夜国产精品视频黄| 天天爽免费视频| 一本大道香蕉高清久久| 日韩美毛片| 久996视频精品免费观看| 成人夜夜嗨| 2021天堂在线亚洲精品专区| av手机版在线播放| 青草视频在线观看国产| 免费人成视网站在线不卡| 在线中文字幕日韩| 日本成人一区| 日本福利视频网站| 5555国产在线观看| 26uuu国产精品视频| 欧美精品一区二区三区中文字幕| 欧美成人aⅴ| 中文字幕亚洲电影| 亚洲精品天堂自在久久77| 欧美69视频在线| 波多野吉衣一区二区三区av| 国产成人1024精品下载| 中文天堂在线视频| 国产精品美女在线| 国产网站免费观看| 亚洲综合激情另类专区| 欧美国产综合色视频| 日韩不卡高清视频| 色一情一乱一伦一区二区三区小说 | 国产办公室秘书无码精品| 中国一级特黄视频| 日本国产在线| 婷婷午夜影院| 国内精品伊人久久久久7777人| 国产精品视频猛进猛出| 国产黄视频网站| 亚洲一区国色天香| 一级全免费视频播放| 黄色网页在线观看| 久久无码av一区二区三区| 亚洲天堂日本| 亚洲va视频| 亚洲午夜国产片在线观看| 国产精品美人久久久久久AV| 亚洲欧美成人影院| 伊人久久久久久久| 99精品免费在线| 成人国产免费| 免费一级α片在线观看| 精品国产自在在线在线观看| 精品欧美日韩国产日漫一区不卡| 色悠久久久久久久综合网伊人| 亚洲最新地址| 亚洲综合久久一本伊一区| 国产精品第一区在线观看| 国产精品乱偷免费视频| 日韩在线成年视频人网站观看|