999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于淺層句法分析和最大熵的問句語(yǔ)義分析*

2017-08-16 11:10:19李冬梅
計(jì)算機(jī)與生活 2017年8期
關(guān)鍵詞:語(yǔ)義特征分析

李冬梅,張 琪,王 璇,檀 穩(wěn)

1.北京林業(yè)大學(xué) 信息學(xué)院,北京 100083

2.中國(guó)人民大學(xué) 信息學(xué)院,北京 100872

基于淺層句法分析和最大熵的問句語(yǔ)義分析*

李冬梅1+,張 琪1,王 璇2,檀 穩(wěn)1

1.北京林業(yè)大學(xué) 信息學(xué)院,北京 100083

2.中國(guó)人民大學(xué) 信息學(xué)院,北京 100872

為了使中文問答系統(tǒng)能夠準(zhǔn)確高效地識(shí)別問句的語(yǔ)義,在構(gòu)建生物醫(yī)學(xué)領(lǐng)域本體的基礎(chǔ)上,提出了一種基于淺層句法分析和最大熵模型的語(yǔ)義分析算法。該算法首先對(duì)自然語(yǔ)言問句進(jìn)行語(yǔ)義塊識(shí)別,如果識(shí)別成功,則形成問句向量,然后利用本體進(jìn)行SPARQL查詢;如果識(shí)別失敗,則調(diào)用最大熵模型,判斷問句的語(yǔ)義角色。最大熵模型利用標(biāo)注好語(yǔ)義的熟語(yǔ)料進(jìn)行訓(xùn)練,提取語(yǔ)義組塊特征,從而判斷出最可能的句型,形成問句向量,然后再利用本體進(jìn)行查詢,獲取答案。通過實(shí)驗(yàn)與其他方法相比,新算法具有更高的查準(zhǔn)率和召回率。

中文問答系統(tǒng);本體;淺層句法分析;最大熵;SPARQL查詢

1 引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)上的信息越來越豐富,而傳統(tǒng)的搜索引擎只能返回與關(guān)鍵字信息相關(guān)或符合分類主題的網(wǎng)頁(yè)。近年來,隨著人工智能的崛起,問答系統(tǒng)的應(yīng)用越來越廣泛,它允許用戶利用自然語(yǔ)言進(jìn)行提問,然后通過相應(yīng)的算法從數(shù)據(jù)庫(kù)中提取出較為全面、準(zhǔn)確的答案反饋給用戶[1]。根據(jù)系統(tǒng)所能接受的問題領(lǐng)域,問答系統(tǒng)可以分為開放領(lǐng)域的問答系統(tǒng)和限定領(lǐng)域的問答系統(tǒng)[2]。例如,PowerAqua是一個(gè)較為典型的開放領(lǐng)域的問答系統(tǒng)[3],但因其知識(shí)庫(kù)來自于不同的領(lǐng)域知識(shí),數(shù)據(jù)總體噪音較大,使得其答案質(zhì)量較低。AskHERMES則是一個(gè)基于醫(yī)學(xué)領(lǐng)域的問答系統(tǒng)[4],通過對(duì)病人給出的較為復(fù)雜的問題進(jìn)行語(yǔ)義分析,系統(tǒng)能夠自動(dòng)給出較為滿意的答案,提高了診斷效率。因此,在實(shí)際應(yīng)用中,構(gòu)建一個(gè)特定領(lǐng)域的問答系統(tǒng)更具有使用價(jià)值。文獻(xiàn)[5]通過構(gòu)建醫(yī)院信息本體,利用SPARQL(simple protocol and RDF query language)[6]查詢技術(shù)在本體中進(jìn)行查詢,從而得到答案。在基于SPARQL查詢技術(shù)的問答系統(tǒng)中,其難點(diǎn)在于將用戶所使用的自然語(yǔ)言問句轉(zhuǎn)化為基于邏輯的語(yǔ)義表示[7],即如何讓計(jì)算機(jī)理解用戶的查詢目的,這就涉及到問句語(yǔ)義理解的問題。在計(jì)算機(jī)語(yǔ)言學(xué)中,對(duì)語(yǔ)言語(yǔ)義的分析一直以來都追求的是“全面”和“深層”,如文獻(xiàn)[8]設(shè)計(jì)了一個(gè)依賴深度語(yǔ)言分析的問句系統(tǒng),該系統(tǒng)首先手動(dòng)為給定的本體構(gòu)造描述其語(yǔ)義的詞典,然后利用該詞典來處理語(yǔ)義上比較復(fù)雜的問題。由于深層語(yǔ)義分析需要得到句子完整的句法樹[9],分析效率較低。而與之相對(duì),淺層句法分析追求的是“片面”和“淺層”,該方法只需要標(biāo)注句子中的部分成分,不必詳細(xì)地對(duì)整個(gè)句子進(jìn)行語(yǔ)義分析,摒棄了深層成分和繁復(fù)的關(guān)系,從而在現(xiàn)實(shí)的語(yǔ)料環(huán)境下能夠迅速分析,獲得比深層分析更高的正確率[10-11]。文獻(xiàn)[5]在問句的語(yǔ)義分析中采用了淺層句法分析,但其問句句型匹配不夠豐富,匹配的正確率較低,而最大熵模型可以在一定程度上改進(jìn)這種問題。

最大熵模型最先由DellaPietra等人引入到自然語(yǔ)言處理中,其包容性與靈活性以及處理結(jié)果的優(yōu)異性吸引了許多研究人員的關(guān)注。近年來,最大熵模型被廣泛地應(yīng)用于多種語(yǔ)言的文本分類、糾錯(cuò)和詞義標(biāo)注等[12-15]。最大熵模型的基本思想是建立與已知事實(shí)一致的模型,對(duì)未知因素不作任何假設(shè),從而可使未知因素盡可能地保持均勻分布。將最大熵模型的思想應(yīng)用于問句分析中,可以使問句的匹配率有所提高,使問答系統(tǒng)能夠匹配更豐富的問句類型。文獻(xiàn)[16]將最大熵模型用于語(yǔ)義角色標(biāo)注中,但在標(biāo)注時(shí)因?yàn)闆]有結(jié)合句法分析,所以需要預(yù)測(cè)每一個(gè)隨機(jī)事件的概率分布。為了提高預(yù)測(cè)的準(zhǔn)確率,通常需要保留盡可能多的不確定性事件,因此算法的執(zhí)行效率較低。

基于文獻(xiàn)[5,16],本文提出了一種基于淺層句法分析和最大熵的中文問句語(yǔ)義分析算法SAM_SPME(semantic analysis method based on shallow parsing and maximum entropy)。該算法首先對(duì)問句進(jìn)行淺層句法分析,識(shí)別失敗后再調(diào)用最大熵模型進(jìn)行分析,由于部分問句在淺層句法分析階段就可提前正確識(shí)別,從而無需利用最大熵進(jìn)行處理,這樣便在一定程度上解決了最大熵執(zhí)行效率較低的問題。將SAM_SPME算法用于自行構(gòu)建的基于醫(yī)學(xué)本體的中文問答系統(tǒng)中進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,將淺層句法分析和最大熵相結(jié)合進(jìn)行問句語(yǔ)義分析,有更高的查準(zhǔn)率和召回率。

2 SAM_SPME算法

本文提出的SAM_SPME算法以自然語(yǔ)言為接口,利用醫(yī)學(xué)本體,先采用淺層語(yǔ)義分析技術(shù),將生物醫(yī)學(xué)問句根據(jù)語(yǔ)義塊定義規(guī)則和語(yǔ)義塊判定規(guī)則進(jìn)行語(yǔ)義塊識(shí)別,若識(shí)別成功則生成問句向量,然后利用本體進(jìn)行SPARQL查詢;若識(shí)別失敗,則調(diào)用最大熵模型,首先利用標(biāo)注好語(yǔ)義的熟語(yǔ)料對(duì)最大熵模型進(jìn)行訓(xùn)練,提取問句的語(yǔ)義組塊特征,然后計(jì)算出特征的概率分布,通過建立的模型判斷問句最可能的句型,將形成的問句向量送入到SPARQL查詢模塊中。如果依然沒有成功識(shí)別句型,則將查詢語(yǔ)句傳至網(wǎng)頁(yè)信息檢索模塊,網(wǎng)頁(yè)信息檢索模塊調(diào)用Google Custom SearchAPI檢索谷歌數(shù)據(jù)庫(kù)。

2.1 淺層句法分析

句法分析的含義是:在識(shí)別問句句法結(jié)構(gòu)以及辨析句中詞義的基礎(chǔ)上,推導(dǎo)出能反映該句語(yǔ)義的形式化表示。同面向開放領(lǐng)域的中文問答系統(tǒng)相比,針對(duì)特定領(lǐng)域的問答系統(tǒng)要進(jìn)行查詢的信息通常會(huì)限定在特定的范疇內(nèi),并且所輸入的問句在特定領(lǐng)域內(nèi)的特性將被強(qiáng)化,這些特性主要包括用詞、語(yǔ)序等。下面給出定義生物醫(yī)學(xué)信息領(lǐng)域的問句特征語(yǔ)義塊以及語(yǔ)義塊的識(shí)別規(guī)則。

2.1.1 語(yǔ)義塊定義及識(shí)別

首先給出以下定義。

定義1(語(yǔ)義角色標(biāo)注)根據(jù)生物醫(yī)學(xué)領(lǐng)域的詞義分類的標(biāo)注集對(duì)句子中的各種成分做出相應(yīng)的語(yǔ)義標(biāo)記。

定義2(問句類型)根據(jù)問句疑問塊的語(yǔ)義類型,將其分為不同的類型,記為QT。

定義3(語(yǔ)義塊)問句中具有固定的語(yǔ)義,并且位置相對(duì)固定的部分語(yǔ)塊,記為三元組[Block,Type,Value],其中:

(1)Block為所屬語(yǔ)義塊的名稱,用相應(yīng)英文簡(jiǎn)稱標(biāo)識(shí);

(2)Type為所屬的語(yǔ)義塊類型(子塊);

(3)Value在問句標(biāo)記中,表示問句中該塊的具體值。

語(yǔ)義塊定義片段如表1所示。

在表1所列語(yǔ)義塊定義原則的基礎(chǔ)上,本文為語(yǔ)義塊識(shí)別先建立領(lǐng)域詞表,這樣在識(shí)別問句信息時(shí),可以采取詞表匹配方法。如例句:“消化系統(tǒng)消化道呈現(xiàn)出惡心癥狀是得了什么病?”經(jīng)過分詞后,得到的結(jié)果如下:消化系統(tǒng)|消化道|惡心|得了什么病,然后進(jìn)行語(yǔ)義塊識(shí)別,得到4個(gè)語(yǔ)義塊如下:

(1)[Block=AB,Type=AB_xt,Value=“消化系統(tǒng)”]

(2)[Block=AB,Type=AB_qg,Value=“消化道”]

(3)[Block=AVB,Type=AVB_bx,Value=“惡心”]

(4)[Block=QT,Type=cause,Value=“得了什么病”]

上例中[Block=AB,Type=AB_xt,Value=“消化系統(tǒng)”]塊中,語(yǔ)義塊為屬性塊AB,語(yǔ)義塊類型(子塊)為屬性-發(fā)病系統(tǒng)AB_xt,其值為“消化系統(tǒng)”。[Block=AB,Type=AB_qg,Value=“消化道”]塊中,語(yǔ)義塊為屬性塊AB,語(yǔ)義塊類型(子塊)為屬性-發(fā)病部位AB_qg,其值為“消化道”。[Block=AVB,Type=AVB_bx,Value=“惡心”]塊中,語(yǔ)義塊為屬性塊AVB,語(yǔ)義塊類型(子塊)為屬性值-發(fā)病癥狀A(yù)VB_bx,其值為“惡心”。[Block=QT,Type=cause,Value=“得了什么病”]塊中,語(yǔ)義塊為問句類型塊QT,語(yǔ)義塊類型(子塊)為問句類型cause,其值為“得了什么病”。

2.1.2 問句向量的生成

問句向量是利用基于特定規(guī)則的形式化語(yǔ)言來表示問句,不同的領(lǐng)域?qū)柧湎蛄康纳捎兄煌囊蟆H缟侠诮?jīng)過前期的相關(guān)處理后,可以得到語(yǔ)義塊信息,再對(duì)信息進(jìn)行分析,問句中的已知信息為“發(fā)病部位是消化系統(tǒng)中的消化道,具體癥狀為惡心”,未知信息為“cause(疾病名稱)”。最后可生成問句向量QV,表示如下:

QV=(AB_xt=消化系統(tǒng),AB_qg=消化道,AVB_bx=惡心,cause=?)

Table1 Semantic block definition fragments表1 語(yǔ)義塊定義片斷

在語(yǔ)義塊能夠正確識(shí)別并形成問句向量的情況下,可以利用其中的已知信息和未知信息執(zhí)行第2.3節(jié)的SPARQL查詢,如果不能正確識(shí)別則調(diào)用第2.2節(jié)的最大熵模型算法。

2.2 最大熵模型算法

最大熵模型在處理自然語(yǔ)言分類問題上的優(yōu)勢(shì)在于它可以聯(lián)系上下文信息,其特征集不需要深層的語(yǔ)言學(xué)知識(shí)卻仍然可以有效地近似表示語(yǔ)言關(guān)系的復(fù)雜性[17]。因此,本文利用最大熵模型來判斷問句的語(yǔ)義角色,而進(jìn)行語(yǔ)義角色標(biāo)注最關(guān)鍵的工作是要構(gòu)建出合適的問句特征庫(kù)。本文根據(jù)生物醫(yī)學(xué)領(lǐng)域的一般問句構(gòu)造語(yǔ)料庫(kù),語(yǔ)料庫(kù)中的每一行都是一條規(guī)則,每條規(guī)則包括多列數(shù)據(jù),規(guī)則Rule形式化描述如下:

Rule::=〈Label〉〈FieldList〉

〈Label〉::=cause|symptom|drug|prevent_cure

〈FieldList〉::=interrogative|interro_noun|verb_interro_noun

上述規(guī)則中各個(gè)符號(hào)的含義如下:

Label位于規(guī)則的第一列,代表問句類型;

cause代表問句為病因類型,即詢問疾病名稱或者詢問病因,已知信息可能有疾病的具體癥狀等;

symptom代表問句為癥狀類型,即詢問某種疾病發(fā)病的具體癥狀或者其發(fā)病規(guī)律等;

drug代表問句為用藥類型,即詢問針對(duì)特定疾病應(yīng)該使用的藥物;

prevent_cure代表問句為防治類型,即詢問針對(duì)特定疾病應(yīng)該采取的預(yù)防或者治療方法;

FieldList位于規(guī)則的第2至最后一列,為導(dǎo)致此結(jié)果產(chǎn)生的各個(gè)特征條件;

interrogative表示僅包括“疑問詞;

interro_noun表示包括疑問詞和名詞;

verb_interro_noun表示包括動(dòng)詞、疑問詞和名詞。

在問句特征庫(kù)中,每一條規(guī)則就等同于一個(gè)特征分布,可以通過總結(jié)訓(xùn)練語(yǔ)料庫(kù)中的各種規(guī)則,抽取出問句特征的概率分布。給定一個(gè)訓(xùn)練語(yǔ)料庫(kù),定義變量Y={y1,y2,…,ym}為語(yǔ)義角色類型,即前文所提到的Label,變量X={x1,x2,…,xn}為一些特征條件因素所構(gòu)成的向量,即FieldList,設(shè)num(xi,yj)為訓(xùn)練語(yǔ)料庫(kù)中二元組(xi,yj)出現(xiàn)的次數(shù),可以用式(1)進(jìn)行概率估計(jì):

假設(shè)p(y|x)表示在系統(tǒng)中把某一句子成分判斷為某一語(yǔ)義角色的概率值。最大熵模型的原理是找到一個(gè)p(y|x)在滿足一定約束條件(由所給語(yǔ)料庫(kù)中的信息計(jì)算出的特征概率分布)的情況下,熵必須取得最大值的模型,用式(2)描述:

求解滿足最大熵原則的概率分布分公式用式(3)描述:

其中,p*為求解滿足最大熵原則的概率分布;T表示所有可能滿足約束條件的概率分布模型的集合;n為特征集中所有特征的總數(shù);fi為特征函數(shù)。

在計(jì)算過程中,約束指的是最終預(yù)測(cè)出的結(jié)果句型的分布都必須滿足之前對(duì)各個(gè)特征統(tǒng)計(jì)出的概率分布,具體約束條件如下:

其中,Ep(f)為特征函數(shù)fi相對(duì)于經(jīng)驗(yàn)概率p(x,y)分布的期望值;Ep(f)為特征函數(shù)fi相對(duì)于模型p(y|x)的期望值。這樣最終的結(jié)果才能導(dǎo)致系統(tǒng)的熵最大,而最大熵只是保證了最終的預(yù)測(cè)結(jié)果符合之前計(jì)算出的所有概率約束。根據(jù)最大熵原理,通過拉格朗日乘數(shù)法,即可求出最優(yōu)概率分布。概率值p(y|x)的取值符合式(4)描述的指數(shù)模型:

其中,Z(x)為歸一化因子,如式(5)所示:

fi(x,y)為特征函數(shù),用來表示向量(特征集)x語(yǔ)義角色(結(jié)果句型)y之間的關(guān)聯(lián),用式(6)描述:

wi(拉格朗日乘子)為權(quán)重,表示二值特征函數(shù)對(duì)于模型的重要程度,用式(7)描述。本文利用Darroch和Ratcliff迭代算法[18]求解參數(shù)值。

n為特征集中所有特征的總數(shù)。參數(shù)C等于語(yǔ)料庫(kù)中某一規(guī)則所包含的最多特征數(shù)。Ep(f)表示特征函數(shù)fi(x,y)相對(duì)于經(jīng)驗(yàn)概率分布p(x,y)的期望值,其計(jì)算方法如式(8)。Ep(f)表示特征函數(shù)fi(x,y)相對(duì)于模型分布p(y|x)的期望值,其計(jì)算方法如式(9)和式(10)。

在給定語(yǔ)料庫(kù)的特征集后,首要任務(wù)是基于語(yǔ)料庫(kù)訓(xùn)練并計(jì)算每個(gè)特征的期望值,包括經(jīng)驗(yàn)期望值和模型期望值,在所有滿足限制條件的概率分布模型中,選取滿足能夠使熵值最大化的概率分布。

2.3 答案的抽取

在本文系統(tǒng)中,主要使用的答案抽取技術(shù)是借助Jena工具的Java API來實(shí)現(xiàn)的,通過Jena[19]調(diào)用SPARQL對(duì)生物醫(yī)學(xué)領(lǐng)域本體進(jìn)行基于RDF三元組的查詢。

2.4SAM_SPME算法步驟

步驟1輸入問句,由分詞模塊進(jìn)行分詞處理,并將處理結(jié)果傳到語(yǔ)義分析模塊。

步驟2語(yǔ)義分析模塊首先根據(jù)分詞的結(jié)果進(jìn)行淺層句法分析,如果語(yǔ)義塊正確識(shí)別,則執(zhí)行步驟4,否則,執(zhí)行步驟3。

步驟3調(diào)用最大熵模型算法,利用語(yǔ)義標(biāo)注好的熟語(yǔ)料對(duì)最大熵模型進(jìn)行訓(xùn)練,從而提取出問句的語(yǔ)義組塊特征,然后計(jì)算出特征的概率分布建立模型,判斷出最可能的句型。

步驟4判斷句型是否匹配,匹配成功則執(zhí)行步驟5,否則,執(zhí)行步驟6。

步驟5形成問句向量,執(zhí)行SPARQL查詢,通過結(jié)果反饋模塊將查詢結(jié)果傳遞給用戶。

步驟6將查詢語(yǔ)句傳至網(wǎng)頁(yè)信息檢索模塊,網(wǎng)頁(yè)信息檢索模塊調(diào)用Google Custom Search API檢索Google數(shù)據(jù)庫(kù),通過結(jié)果反饋模塊將答案?jìng)鬟f給用戶。

具體的SAM_SPME算法流程如圖1所示。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)指標(biāo)的選取

一般中文問答系統(tǒng)的評(píng)估主要選用查準(zhǔn)率(Precision)和召回率(Recall)兩個(gè)實(shí)驗(yàn)指標(biāo),它們是語(yǔ)義查詢過程中兩個(gè)十分重要的度量值。除此之外,本文還選擇了另一個(gè)度量指標(biāo)——F測(cè)度值(F-Measure,又稱為F-Score)來評(píng)估SAM_SPME算法的有效性,F(xiàn)測(cè)度值是Precision和Recall加權(quán)調(diào)和的平均值,其綜合了Precision和Recall的結(jié)果,當(dāng)F測(cè)度值較高時(shí)則說明實(shí)驗(yàn)方法比較有效。3個(gè)實(shí)驗(yàn)指標(biāo)的計(jì)算公式如下:

(1)查準(zhǔn)率

在式(13)中,一般令參數(shù)α=1,即F0是最常見的情況,如式(14)所示:

3.2 實(shí)驗(yàn)結(jié)果分析

本文從百度知道抽取cause、symptom、drug、prevent_cure 4類共476個(gè)生物醫(yī)學(xué)問句作為標(biāo)準(zhǔn)測(cè)試集來進(jìn)行實(shí)驗(yàn),其中prevent_cure型93個(gè),drug型124個(gè),cause型134個(gè),symptom型125個(gè)。對(duì)淺層句法分析與最大熵模型算法結(jié)合的查詢效果進(jìn)行展示,以說明本文算法的有效性。在實(shí)驗(yàn)過程中,為式(4)設(shè)置閾值0.75,即計(jì)算出的概率需大于0.75才能判定為最終句型,實(shí)驗(yàn)結(jié)果如表2所示。

Fig.1 Flow chart of SAM_SPME algorithm圖1 SAM_SPME算法步驟流程圖

Table2 Experimental results表2 實(shí)驗(yàn)結(jié)果

表2中,“QuestType”表示問句類型;“Num”表示該種類型問句的數(shù)量;“Zhang”表示文獻(xiàn)[5]淺層語(yǔ)義分析算法的實(shí)驗(yàn)結(jié)果;“P”表示實(shí)驗(yàn)結(jié)果的查準(zhǔn)率;“R”表示實(shí)驗(yàn)結(jié)果的召回率;“F”表示測(cè)度值。為了便于更加直觀地觀察SAM_SPME算法的有效性,將文獻(xiàn)[5]的淺層句法分析算法與本文的SAM_SPME算法的F測(cè)度值進(jìn)行對(duì)比,其對(duì)比結(jié)果的柱狀圖如圖2所示。從表2的計(jì)算結(jié)果中可以看出,本文將淺層句法分析與最大熵模型結(jié)合的算法十分有效,與文獻(xiàn)[5]的淺層句法分析算法相比,SAM_SPME算法針對(duì)4類問句類型的查準(zhǔn)率和召回率都在80%以上,兩者都高于文獻(xiàn)[5]的實(shí)驗(yàn)結(jié)果。綜合考慮查準(zhǔn)率和召回率再計(jì)算出F測(cè)度值,SAM_SPME算法針對(duì)4類問句類型的F測(cè)度值都在80%以上,也高于文獻(xiàn)[5]。由此可見,SAM_SPME算法通過調(diào)用最大熵模型彌補(bǔ)了文獻(xiàn)[5]問句句型匹配不夠豐富,匹配的正確率較低的不足,而通過提前利用淺層句法分析進(jìn)行識(shí)別,又可改進(jìn)最大熵模型執(zhí)行效率較低的缺點(diǎn)。淺層句法分析和最大熵模型相結(jié)合提高了語(yǔ)義查詢過程中的查準(zhǔn)率和召回率,且可以為用戶所接受。

Fig.2 Comparison of F-Measure圖2 F測(cè)度值對(duì)比

由表2可以看出,prevent_cure型問句和symptom型問句的查準(zhǔn)率、召回率要低于cause型問句和drug型問句,出現(xiàn)這種現(xiàn)象的原因分析如下:

(1)訓(xùn)練集不夠大,提取特征不夠全面,導(dǎo)致調(diào)用最大熵模型時(shí)判斷句型出現(xiàn)錯(cuò)誤。

(2)cause型問句和drug型問句本身的特征要比prevent_cure型問句和symptom型問句更鮮明,更容易獲取。

4 結(jié)束語(yǔ)

本文以生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)為研究對(duì)象,在文獻(xiàn)[5,16]的基礎(chǔ)上提出了一種基于淺層句法分析和最大熵模型的語(yǔ)義分析算法,并將該算法用于基于醫(yī)學(xué)本體的中文問答系統(tǒng)中進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明該算法可行,對(duì)自動(dòng)問答系統(tǒng)的設(shè)計(jì)具有借鑒意義和深入研究的價(jià)值。今后的研究重點(diǎn)將放在如何集成各種知識(shí),包括詞性、語(yǔ)義、搭配和共現(xiàn)等,以提高短語(yǔ)識(shí)別的查全率和精確率。因?yàn)樽畲箪胤椒ㄉ朴趯⒏鞣N不同的知識(shí)結(jié)合起來,所以希望能通過知識(shí)的集成,在最大熵方法的框架下,達(dá)到更好的識(shí)別效果。

[1]Hirschman L,GaizauskasR.Natural language question answering:the view from here[J].Natural Language Engineering,2001,7(4):275-300.

[2]Mao Xianling,Li Xiaoming.Asurvey on question and answering systems[J].Journal of Frontiers of Computer Science and Technology,2012,6(3):193-207.

[3]López V,Fernández M,Motta E,et al.PowerAqua:supporting users in querying and exploring the semantic Web[J].Semantic Web,2012,3(3):249-256.

[4]Cao Yonggang,Liu Feifan,Simpson P,et al.AskHERMES:an online question answering system for complex clinical questions[J].Journal of Biomedical Informatics,2011,44(2):277-288.

[5]Zhang Wei,Chen Junjie.Application of shallow semantic analysis and SPARQL in question answering system[J].Computer Engineering andApplications,2011,47(2):118-120.

[6]W3C.SPARQL query language for RDF[EB/OL].(2006)[2017-03-10].http://www.w3.org/TR/rdf-sparql-query.

[7]MoussaA M,Abdel-KaderR F.QASYO:a question answering system for YAGO ontology[J].International Journal of Database Theory andApplication,2011,4(2):99-112.

[8]Unger C,Cimiano P.Pythia:compositional meaning construction for ontology-based question answering on the semantic Web[C]//LNCS 6716:Proceedings of the 16th International Conference on Applications of Natural Language to Information Systems,Alicante,Spain,Jun 28-30,2011.Berlin,Heidelberg:Springer,2011:153-160.

[9]Ballesteros M,BohnetB,Mille S,et al.Deep-syntactic parsing[C]//Proceedings of the 25th International Conference on Computational Linguistics,Dublin,Ireland,Aug 23-29,2014.Stroudsburg,USA:ACL,2014:1402-1413.

[10]Sun Zhijun,Zheng Quan,Yuan Jing,et al.Semantic retrieval based on shallow semantic analysis technology[J].Computer Science,2012,39(6):107-110.

[11]Devadath V V,Sharma D M.Significance of an accurate sandhi-splitter in shallow parsing of dravidian languages[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics-Student Research Workshop,Berlin,Germany,Aug 7-12,2016.Stroudsburg,USA:ACL,2016:37-42.

[12]El-HaleesA M.Arabic text classification using maximum entropy[J].The Islamic University Journal:Series of Natural Studies and Engineering,2015,15(1):157-167.

[13]Murata M,Uchimoto K,Utiyama M,et al.Using the maximum entropy method for natural language processing:category estimation,feature extraction,and error correction[J].Cognitive Computation,2010,2(4):272-279.

[14]Straková J,Straka M,Hajic J.Open-source tools for morphology,lemmatization,POS tagging and named entity recognition[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics:System Demonstrations,Baltimore,USA,Jun 22-27,2014.Stroudsburg,USA:ACL,2014:13-18.

[15]Lv Yuanyuan,Deng Yongli,Liu Mingliang,et al.Automatic error checking and correction of electronic medical records[C]//Proceedings of the 2015 International Conference on Fuzzy System and Data Mining,Shanghai,Dec 12-15,2015:32-40.

[16]Liu Ting,Che Wanxiang,Li Sheng.Semantic role labeling with maximum entropy classifier[J].Journal of Software,2007,18(3):565-573.

[17]Xu Yanyong,Zhou Xianzhong,Jing Xianghe,et al.Chinese sentence parsing based on maximum entropy model[J].Acta Electronica Sinica,2003,31(11):1608-1612.

[18]Darroch J N,Ratcliff D.Generalized iterative scaling for log-linear models[J].The Annals of Mathematical Statistics,1972,43(5):1470-1480.

[19]BRESTOL.Jena2:a semantic Web framework[EB/OL].(2008)[2017-03-10].http://Jena.Sourceforge.net.

附中文參考文獻(xiàn):

[2]毛先領(lǐng),李曉明.問答系統(tǒng)研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2012,6(3):193-207.

[5]張巍,陳俊杰.淺層語(yǔ)義分析及SPARQL在問答系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(2):118-120.

[10]孫志軍,鄭烇,袁婧,等.基于淺層語(yǔ)義分析技術(shù)的語(yǔ)義檢索[J].計(jì)算機(jī)科學(xué),2012,39(6):107-110.

[16]劉挺,車萬(wàn)翔,李生.基于最大熵分類器的語(yǔ)義角色標(biāo)注[J].軟件學(xué)報(bào),2007,18(3):565-573.

[17]徐延勇,周獻(xiàn)中,井祥鶴,等.基于最大熵模型的漢語(yǔ)句子分析[J].電子學(xué)報(bào),2003,31(11):1608-1612.

Semantic Analysis of Question Based on Shallow Parsing and Maximum Entropy*

LI Dongmei1+,ZHANG Qi1,WANG Xuan2,TAN Wen1
1.School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China
2.School of Information,Renmin University of China,Beijing 100872,China
+Corresponding author:E-mail:lidongmei@bjfu.edu.cn

LI Dongmei,ZHANG Qi,WANG Xuan,et al.Semantic analysis of question based on shallow parsing and maximum entropy.Journal of Frontiers of Computer Science and Technology,2017,11(8):1288-1295.

In order to improve the accuracy and effectiveness of question semantic recognition in question answering system,this paper presents a semantic analyzing algorithm combining shallow parsing and the maximum entropy on the basis of constructing biomedical domain ontology.Firstly,natural language questions are identified by semantic blocks.If the recognition is successful,the question vectors are formed,and then the SPARQL query is performed on the ontology.Otherwise,the maximum entropy model is invoked to judge the semantic role of the question.The maximum entropy model is used to train annotated corpus,which extracts the semantic block features to determine the most probable sentence pattern and form question vector,and then query through ontology to get the answers.Finally,compared with other methods,the novel algorithm has higher precision and recall rate.

Chinese question answering system;ontology;shallow parsing,maximum entropy;SPARQL query

2017-04,Accepted 2017-06.

ZHANG Qi was born in 1991.She is an M.S.candidate at School of Information Science and Technology,Beijing Forestry University.Her research interests include intelligent information retrieval and natural language processing.張琪(1991—),女,山東濱州人,北京林業(yè)大學(xué)信息學(xué)院碩士研究生,主要研究領(lǐng)域智能信息檢索,自然語(yǔ)言處理。

WANG Xuan was born in 1992.She is an M.S.candidate at School of Information,Renmin University of China.Her research interest is data mining.王璇(1992—),女,江蘇淮安人,中國(guó)人民大學(xué)信息學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘。

TAN Wen was born in 1994.Now he is an M.S.candidate at School of Information Science and Technology,Beijing Forestry University,and the member of CCF.His research interests include machine learning and knowledge graph.檀穩(wěn)(1994—),男,安徽安慶人,北京林業(yè)大學(xué)信息學(xué)院碩士研究生,CCF會(huì)員,主要研究領(lǐng)域機(jī)器學(xué)習(xí),知識(shí)圖譜。

A

:TP274

*The Fundamental Research Funds for the Central Universities of China under Grant No.TD2014-02(中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金);the National Natural Science Foundation of China under Grant No.61602042(國(guó)家自然科學(xué)基金).

CNKI網(wǎng)絡(luò)優(yōu)先出版:2017-08-02,http://kns.cnki.net/kcms/detail/11.5602.TP.20170802.1631.002.html

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology 1673-9418/2017/11(08)-1288-08

10.3778/j.issn.1673-9418.1706033

E-mail:fcst@vip.163.com

http://www.ceaj.org

Tel:+86-10-89056056

猜你喜歡
語(yǔ)義特征分析
隱蔽失效適航要求符合性驗(yàn)證分析
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住特征巧觀察
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产精品妖精视频| 超碰91免费人妻| 3D动漫精品啪啪一区二区下载| 欧洲亚洲欧美国产日本高清| 欧美无遮挡国产欧美另类| 日本妇乱子伦视频| 国产成人AV男人的天堂| 91福利国产成人精品导航| 国产波多野结衣中文在线播放| 亚洲AV无码久久天堂| 国产无遮挡猛进猛出免费软件| 国产区网址| 91精品国产情侣高潮露脸| 午夜a级毛片| 久久国产成人精品国产成人亚洲| 伊人国产无码高清视频| 亚洲国产日韩在线观看| 国产永久在线观看| 亚洲第一精品福利| 免费jjzz在在线播放国产| 美女裸体18禁网站| 91免费在线看| 色有码无码视频| 99色亚洲国产精品11p| 久草中文网| www.av男人.com| 国产精品白浆无码流出在线看| 国产精品自在在线午夜区app| 99伊人精品| 亚洲IV视频免费在线光看| 日本黄色不卡视频| 老司机精品久久| 国产成人一区免费观看| a级毛片一区二区免费视频| 国产精品亚洲一区二区在线观看| 亚洲国产清纯| 99无码中文字幕视频| 72种姿势欧美久久久大黄蕉| 亚洲乱强伦| 欧美一区二区啪啪| 亚洲乱强伦| 成人另类稀缺在线观看| 成人精品免费视频| 成人另类稀缺在线观看| 国产精品粉嫩| 97视频免费在线观看| 国产va在线| 亚洲一区二区三区国产精华液| 精品久久国产综合精麻豆| 亚洲天堂视频网站| 极品国产在线| 亚洲综合色区在线播放2019| 欧美综合中文字幕久久| 亚洲Aⅴ无码专区在线观看q| 在线中文字幕日韩| 精品91视频| 一本久道热中字伊人| 亚洲一区毛片| 综合五月天网| 精品在线免费播放| 国产日本欧美亚洲精品视| 亚洲男人在线| 毛片一区二区在线看| 成人噜噜噜视频在线观看| 国产免费好大好硬视频| 久久精品无码中文字幕| 激情网址在线观看| 国产成人综合网在线观看| 亚洲永久精品ww47国产| 九九热在线视频| 熟妇丰满人妻| 一级不卡毛片| 日a本亚洲中文在线观看| 国产小视频a在线观看| 欧美成人综合在线| 免费欧美一级| 成人年鲁鲁在线观看视频| 久久99国产综合精品1| 久爱午夜精品免费视频| 国产又大又粗又猛又爽的视频| 国产国模一区二区三区四区| 国产美女人喷水在线观看|