999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Clique聚類的精神分裂癥多文檔自動(dòng)摘要研究

2016-03-21 08:53:58
關(guān)鍵詞:語(yǔ)義概念研究

多文檔自動(dòng)摘要的任務(wù)是利用自然語(yǔ)言處理等信息處理技術(shù)分析文獻(xiàn)內(nèi)容,從中提取出重要信息并生成簡(jiǎn)潔的摘要。因其能夠使用戶快速了解、選擇文獻(xiàn)集中的重要信息而受到越來(lái)越多的關(guān)注。近年來(lái),隨著科技文獻(xiàn)的迅速增長(zhǎng),科技人員對(duì)摘要的需求越來(lái)越大;而作者摘要僅能提供單篇論文的縮略信息,不能提供相關(guān)主題的整體研究概況。多文檔摘要,尤其是針對(duì)大型專題文獻(xiàn)集,則能有效地解決這一問(wèn)題,為用戶節(jié)省更多的時(shí)間與精力,具有重要的意義。

目前多文檔自動(dòng)摘要研究多集中在對(duì)新聞事件、網(wǎng)頁(yè)信息等進(jìn)行摘要,鮮有對(duì)科技論文進(jìn)行摘要的研究。其原因是科技論文報(bào)道的內(nèi)容復(fù)雜多樣,需要在對(duì)內(nèi)容理解的基礎(chǔ)上進(jìn)行摘要,因此要借助于領(lǐng)域知識(shí)庫(kù)的支撐。在生物醫(yī)學(xué)領(lǐng)域,一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)的研究和開(kāi)發(fā)為醫(yī)學(xué)文獻(xiàn)向知識(shí)單元的語(yǔ)義表達(dá)發(fā)展提供了基礎(chǔ),也為自動(dòng)摘要研究開(kāi)辟了新的途徑。本研究旨在探索從節(jié)點(diǎn)、邊以及網(wǎng)絡(luò)凝聚子群(clique)三個(gè)層次抽取文獻(xiàn)集關(guān)鍵信息生成摘要,并利用clique共有概念對(duì)其聚類以發(fā)現(xiàn)摘要子主題的方法;同時(shí)借助于醫(yī)學(xué)術(shù)語(yǔ)表及自然語(yǔ)言處理工具,對(duì)文獻(xiàn)內(nèi)容進(jìn)行語(yǔ)義表達(dá)并抽取,生成文獻(xiàn)摘要的語(yǔ)義網(wǎng)絡(luò)圖,使摘要內(nèi)容表達(dá)形象、簡(jiǎn)潔。

1 基于圖的多文檔自動(dòng)摘要研究現(xiàn)狀

1.1 圖屬性在自動(dòng)摘要研究中的應(yīng)用

文檔自動(dòng)摘要是從單篇文檔或文檔集中自動(dòng)提取出核心信息,按摘要生成方式分為抽取式摘要(extractive)和理解式摘要(abstractive)兩種。抽取式摘要是從源文檔中抽取出重要的句子組成摘要,句子重要性的確定多基于文本的物理信息(如詞的位置、句子的位置、詞的頻率等),這種機(jī)械的句子抽取難以產(chǎn)生高質(zhì)量的摘要。理解式摘要是在理解文檔內(nèi)容的基礎(chǔ)上,利用自然語(yǔ)言處理技術(shù)(如文本表達(dá)、句子重構(gòu)等)生成新句子組成摘要,它涉及信息處理、知識(shí)表達(dá)等方面,難度較大,進(jìn)展緩慢。

近年來(lái)越來(lái)越多的研究將圖排序及聚類等技術(shù)應(yīng)用于自動(dòng)摘要任務(wù)。該方法以圖形的形式表現(xiàn)論文[1-7],節(jié)點(diǎn)代表論文的信息單元。大多數(shù)研究以句子為節(jié)點(diǎn),如LexRank系統(tǒng)[1],也有研究采用段落或詞為節(jié)點(diǎn)[7]。以節(jié)點(diǎn)之間的相似度為邊,可以構(gòu)建論文集的網(wǎng)絡(luò)圖。這些研究通常采用節(jié)點(diǎn)的中心性(centrality)作為摘要句排序和抽取的標(biāo)準(zhǔn),其依據(jù)是節(jié)點(diǎn)的中心性越高,其位置在網(wǎng)絡(luò)中越重要。

上述基于圖的文本摘要研究?jī)H以節(jié)點(diǎn)的中心性為指標(biāo)對(duì)重要信息進(jìn)行提取。文獻(xiàn)網(wǎng)絡(luò)圖的組成部分除節(jié)點(diǎn)外,還包括邊以及子網(wǎng)絡(luò),在復(fù)雜網(wǎng)絡(luò)分析中它們都是網(wǎng)絡(luò)圖的重要屬性。高繼平等[8]提出目前國(guó)內(nèi)外針對(duì)基于詞共現(xiàn)的文獻(xiàn)網(wǎng)絡(luò)分析多依據(jù)節(jié)點(diǎn)在網(wǎng)絡(luò)中的影響力進(jìn)行評(píng)價(jià),忽視另一個(gè)重要指標(biāo)—邊,進(jìn)而對(duì)基于頻次和基于連通性的權(quán)重抽取重要邊的效果進(jìn)行比較研究。此外,網(wǎng)絡(luò)中的社區(qū)也能準(zhǔn)確揭示知識(shí)主題。文獻(xiàn)網(wǎng)絡(luò)中的社區(qū)指凝聚性較高的子網(wǎng)絡(luò),如clique,k-core等。這類子網(wǎng)絡(luò)通常揭示了網(wǎng)絡(luò)的核心內(nèi)容。如王曉光[9]的研究發(fā)現(xiàn)詞共現(xiàn)網(wǎng)絡(luò)中的社區(qū)與學(xué)科體系存在一定的對(duì)應(yīng)關(guān)系。在此基礎(chǔ)上,白如江等[10]利用k-clique社區(qū)網(wǎng)絡(luò)揭示知識(shí)創(chuàng)新情況及其演化方向。此外,高雯珺等[11]綜述了凝聚子群在發(fā)現(xiàn)合著團(tuán)體以及學(xué)科研究的子領(lǐng)域方面的應(yīng)用。

本研究擬將凝聚子群—clique應(yīng)用到摘要內(nèi)容的提取中。在網(wǎng)絡(luò)分析研究中,clique是指由兩兩均相連的點(diǎn)構(gòu)成的小團(tuán)體,也稱完備子群或完全子圖,根據(jù)包含節(jié)點(diǎn)數(shù)將clique更加準(zhǔn)確地記為n-clique。基于clique聚類的思想是從網(wǎng)絡(luò)中的clique出發(fā),通過(guò)分析clique的重疊部分實(shí)現(xiàn)網(wǎng)絡(luò)類的劃分。與基于詞共現(xiàn)的聚類分析相比,凝聚子群分析允許將一些重要的節(jié)點(diǎn)(如詞匯)劃入多個(gè)類目中,這更符合現(xiàn)實(shí)要求,因此在蛋白質(zhì)功能預(yù)測(cè)[12]、文獻(xiàn)主題劃分[13]等研究中得到廣泛應(yīng)用。目前基于clique聚類算法包括派系過(guò)濾算法(CPM)[14]、基于最大clique的層次凝聚聚類算法 (EAGLE)[15]、基于clique共節(jié)點(diǎn)的層次聚類法等。本研究采用的是第三種方法。

1.2 醫(yī)學(xué)知識(shí)庫(kù)在自動(dòng)摘要研究中的應(yīng)用

生成高質(zhì)量的摘要需從語(yǔ)義、語(yǔ)用層次上對(duì)文本進(jìn)行理解和表達(dá),需要學(xué)科領(lǐng)域知識(shí)庫(kù)[16]及自然語(yǔ)言理解技術(shù)的支撐。在生物醫(yī)學(xué)領(lǐng)域,UMLS的研究和開(kāi)發(fā)為醫(yī)學(xué)文獻(xiàn)向知識(shí)單元的語(yǔ)義表達(dá)發(fā)展提供了基礎(chǔ),也為自動(dòng)摘要研究開(kāi)辟了新的途徑。利用UMLS能夠?qū)︶t(yī)學(xué)文獻(xiàn)中的信息進(jìn)行深度表達(dá),并能構(gòu)造出完整、細(xì)致的語(yǔ)義關(guān)系,是醫(yī)學(xué)信息檢索、自動(dòng)摘要和知識(shí)發(fā)現(xiàn)的基礎(chǔ)[17]。

目前利用UMLS對(duì)醫(yī)學(xué)文獻(xiàn)進(jìn)行自動(dòng)摘要包括兩大類。一類是以抽取概念為主,具體為利用MetaMap工具對(duì)醫(yī)學(xué)論文進(jìn)行斷句、切詞,并將文本詞匹配為UMLS超級(jí)詞表的概念。概念之間的關(guān)系較單純,通常為概念間共現(xiàn)或詞表所規(guī)定的概念間的等級(jí)關(guān)系。然后基于圖排序或統(tǒng)計(jì)學(xué)方法來(lái)確定文獻(xiàn)集中的重要信息,如Reeve的摘要系統(tǒng)[18-19]、Plaza[20]的摘要系統(tǒng)以及Yoo等人[4]的系統(tǒng)。但利用MetaMap對(duì)醫(yī)學(xué)文獻(xiàn)內(nèi)容的揭示比較淺顯,不能表達(dá)出概念間的諸如診斷、治療、引起等語(yǔ)義關(guān)系。另一類研究除了抽取UMLS的概念外,還對(duì)概念之間的語(yǔ)義關(guān)系進(jìn)行抽取,利用的工具為SemRep。該工具首先調(diào)用MetaMap抽取出醫(yī)學(xué)文本中的概念,然后抽取共句的兩個(gè)概念之間的語(yǔ)義關(guān)系(即謂詞),將文本處理成形如“主語(yǔ)—謂詞—賓語(yǔ)”的語(yǔ)義述謂項(xiàng),進(jìn)而實(shí)現(xiàn)從語(yǔ)義和語(yǔ)用層次對(duì)文本進(jìn)行表達(dá),使生成的摘要信息更豐富完善。例如Fiszman[21]利用語(yǔ)義述謂項(xiàng)中概念的語(yǔ)義類型與語(yǔ)義關(guān)系的組配形式,預(yù)設(shè)了4個(gè)摘要主題搭配模式(Schema),自動(dòng)生成關(guān)于疾病治療、藥物相互作用、疾病診斷和藥物遺傳學(xué)等四方面的摘要網(wǎng)絡(luò)圖。Fiszman系統(tǒng)的特點(diǎn)之一是以網(wǎng)絡(luò)圖的形式顯示摘要信息,這樣既使摘要清晰明了,又避免了對(duì)大量文檔進(jìn)行摘要句抽取時(shí)句子重復(fù)、連貫性差等問(wèn)題。但該研究?jī)H從構(gòu)建語(yǔ)義搭配模式出發(fā),將摘要局限在預(yù)設(shè)主題模式所規(guī)定的范圍,缺乏廣適性。

本研究在Fiszman系統(tǒng)的基礎(chǔ)上,利用文獻(xiàn)網(wǎng)絡(luò)圖的屬性從文獻(xiàn)集中提取重要信息,避免了摘要生成固定在預(yù)設(shè)主題范圍內(nèi)的局限。與已有研究相比,本文不僅利用概念對(duì)源文檔進(jìn)行表達(dá),同時(shí)抽取出概念之間的語(yǔ)義關(guān)系,彌補(bǔ)了現(xiàn)有詞共現(xiàn)網(wǎng)絡(luò)概念間關(guān)系不清的弊端,使摘要主題內(nèi)容的表達(dá)更加準(zhǔn)確。在摘要信息抽取方面,采用復(fù)雜網(wǎng)絡(luò)分析指標(biāo),除了傳統(tǒng)的高中心度節(jié)點(diǎn),還融入了關(guān)鍵邊和凝聚子群,從多角度抽取網(wǎng)絡(luò)關(guān)鍵信息,為醫(yī)學(xué)文檔自動(dòng)摘要提供了新的解決思路。

2 研究步驟與方法

本研究分為以下五個(gè)步驟(圖1)。

圖1 研究技術(shù)路線

2.1 數(shù)據(jù)采集

從PubMed、Web of Science等數(shù)據(jù)庫(kù)中檢索某一主題的文獻(xiàn),并將其保存為純文本格式,該主題即為摘要主題。

2.2 語(yǔ)義述謂處理

利用SemRep將文獻(xiàn)集中的各個(gè)句子處理為如“主語(yǔ)|語(yǔ)義類型|語(yǔ)義關(guān)系|謂語(yǔ)|語(yǔ)義類型”的語(yǔ)義述謂項(xiàng)。其中主語(yǔ)及賓語(yǔ)為UMLS超級(jí)詞表中的概念,謂詞來(lái)自于UMLS語(yǔ)義網(wǎng)絡(luò)中的語(yǔ)義關(guān)系,如句子“Clozapine is the most effective treatment of aggressive behavior in schizophrenia”,經(jīng)處理后生成如下2條語(yǔ)義述謂項(xiàng):

Clozapine|phsu|TREATS|Aggressive behavior|mobd

Aggressive behavior|mobd|COEXISTS_WITH|Schizophrenia|mobd

以第1條為例,Clozapine為主語(yǔ),其語(yǔ)義類型為phsu(pharmacologic substance,藥物),TREATS 為語(yǔ)義關(guān)系,Aggressive behavior為賓語(yǔ),其語(yǔ)義類型為mobd(Mental or behavioral dysfunction,精神/行為功能失常)。

2.3 數(shù)據(jù)預(yù)處理

去除Patient等含義比較寬泛的概念。寬泛概念的定義標(biāo)準(zhǔn)為處于UMLS概念等級(jí)結(jié)構(gòu)二級(jí)及以上的概念[21-22],共633個(gè)。如果語(yǔ)義述謂項(xiàng)中的主語(yǔ)或賓語(yǔ)中有一個(gè)屬于寬泛概念,則將該語(yǔ)義述謂項(xiàng)刪除。

2.4 摘要信息提取

首先利用得到的語(yǔ)義述謂項(xiàng)集合構(gòu)建文獻(xiàn)網(wǎng)絡(luò)圖,對(duì)網(wǎng)絡(luò)圖進(jìn)行如下定義:由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)即語(yǔ)義述謂項(xiàng)中的概念(主語(yǔ)或賓語(yǔ))。如果兩個(gè)節(jié)點(diǎn)分別是一條語(yǔ)義述謂項(xiàng)的主語(yǔ)和賓語(yǔ),則兩點(diǎn)之間有邊連接,兩點(diǎn)及其間的邊對(duì)應(yīng)一條語(yǔ)義述謂項(xiàng)。通過(guò)計(jì)算該條語(yǔ)義述謂項(xiàng)出現(xiàn)的頻次對(duì)其賦權(quán)。該網(wǎng)絡(luò)圖具備如下屬性:節(jié)點(diǎn)的顏色標(biāo)識(shí)其語(yǔ)義類型,大小表示其頻次;連線的顏色標(biāo)識(shí)語(yǔ)義關(guān)系,寬度表示語(yǔ)義述謂項(xiàng)的頻次,繪圖工具采用Pajek,輸入文件的定義和格式詳見(jiàn)文獻(xiàn)[22]。

由于多文檔摘要通常是對(duì)大規(guī)模文獻(xiàn)集進(jìn)行分析、處理,因此語(yǔ)義述謂網(wǎng)絡(luò)往往是非常龐大的。利用復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的屬性指標(biāo)(如中心性、凝聚性、聚類系數(shù)等)能夠揭示網(wǎng)絡(luò)的結(jié)構(gòu)特征,發(fā)現(xiàn)網(wǎng)絡(luò)中的關(guān)鍵信息,為摘要信息抽取服務(wù)。本研究依次從節(jié)點(diǎn)、連線以及簇結(jié)構(gòu)(clique)三個(gè)層次對(duì)語(yǔ)義述謂網(wǎng)進(jìn)行壓縮,實(shí)現(xiàn)關(guān)鍵信息的抽取。

第一步為關(guān)鍵節(jié)點(diǎn)(概念)的提取。目前基于圖的自動(dòng)摘要研究對(duì)信息的提取多采用節(jié)點(diǎn)中心度(Centrality)指標(biāo)。文獻(xiàn)[15]計(jì)算并比較了采用語(yǔ)義述謂網(wǎng)絡(luò)中不同節(jié)點(diǎn)中心度(點(diǎn)度中心度、特征向量中心度、中介中心度、接近中心度)在抽取與疾病治療相關(guān)重要概念的效果,最終發(fā)現(xiàn)與人工標(biāo)準(zhǔn)相比。利用節(jié)點(diǎn)的度中心度抽取概念的效果最佳,因此本研究采用節(jié)點(diǎn)的度中心度對(duì)關(guān)鍵節(jié)點(diǎn)進(jìn)行抽取的計(jì)算公式為:CD(ni)=d(ni)/(n-1) ,式中d(ni)為節(jié)點(diǎn)ni的度,n是網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)總數(shù),并抽取中心度高的節(jié)點(diǎn)所組成的語(yǔ)義述謂項(xiàng)。

第二步為關(guān)鍵邊的提取。邊為網(wǎng)絡(luò)的二元結(jié)構(gòu),也是網(wǎng)絡(luò)的基本組成單位。本研究以文檔頻次為指標(biāo),抽取頻次高的邊所對(duì)應(yīng)的語(yǔ)義述謂項(xiàng)。如果同一語(yǔ)義述謂項(xiàng)在不同文章中重復(fù)出現(xiàn),則可認(rèn)定為文獻(xiàn)集的核心內(nèi)容。

第三步為clique提取,即提取clique作為文獻(xiàn)集的摘要。由底向上的網(wǎng)絡(luò)子結(jié)構(gòu)分析方法將網(wǎng)絡(luò)看成是由二元結(jié)構(gòu)和群組成的[23]。二元結(jié)構(gòu)即兩個(gè)節(jié)點(diǎn)之間的關(guān)系,為最基本的結(jié)構(gòu)單位,在此基礎(chǔ)上增加一個(gè)與其相連的節(jié)點(diǎn),則構(gòu)成了最小的完備群,即3-clique。醫(yī)學(xué)文獻(xiàn)中小規(guī)模的clique往往能表達(dá)更完整的含義,成為網(wǎng)絡(luò)的核心。例如圖2中3-clique表達(dá)了“兩種藥物Risperidone和Olanzapine對(duì)精神分裂癥時(shí)的療效比較”(圖中TR為語(yǔ)義關(guān)系“TREATS",CW為語(yǔ)義關(guān)系”COMPARED_WITH")。本研究采用最大clique搜索算法,在剩余的語(yǔ)義述謂項(xiàng)中提取clique作為最終的摘要。

圖2 3-clique示例

2.5 摘要主題聚類及可視化

對(duì)clique進(jìn)行聚類,每一類即為摘要的一個(gè)子主題,利用Pajek對(duì)摘要進(jìn)行可視化。為研究所生成的摘要中蘊(yùn)含的子主題,對(duì)提取的clique進(jìn)行聚類。本研究采用的是UCINET的clique交疊聚類算法[24]。目前的研究大多對(duì)節(jié)點(diǎn)進(jìn)行聚類,其弊端是一些可能被多個(gè)類共有的核心節(jié)點(diǎn)(如主題概念“精神分裂癥”)僅能出現(xiàn)在一個(gè)類中,與實(shí)際情況不符。clique交疊聚類能夠有效地避免這一問(wèn)題。由于一個(gè)clique中包含至少3個(gè)節(jié)點(diǎn),N個(gè)clique通過(guò)尋找clique-clique之間共有的節(jié)點(diǎn),可以生成N×N的矩陣,利用Pearson相關(guān)系數(shù)生成clique相似矩陣,采用組間距離法,對(duì)該矩陣做系統(tǒng)聚類,通過(guò)分析聚類內(nèi)容,實(shí)現(xiàn)摘要子主題的識(shí)別。

3 研究結(jié)果與分析

3.1 數(shù)據(jù)采集

以精神分裂癥(schizophrenia)為主要主題詞,于2015年9月在PubMed數(shù)據(jù)庫(kù)中檢索2005-2015年近10年發(fā)表的論文,并限定語(yǔ)種為英文,共獲得了19 661篇論文(帶摘要)。

3.2 數(shù)據(jù)處理結(jié)果

19 661篇文獻(xiàn)經(jīng)SemRep處理后,得到132 587條語(yǔ)義述謂項(xiàng),包含7 865個(gè)節(jié)點(diǎn),其中包含寬泛概念55個(gè)。去除含寬泛概念的語(yǔ)義述謂項(xiàng)后,剩余7 119個(gè)節(jié)點(diǎn),經(jīng)過(guò)反復(fù)測(cè)試,將節(jié)點(diǎn)度中心度閾值設(shè)置為0.05(即每個(gè)節(jié)點(diǎn)至少與其他20個(gè)節(jié)點(diǎn)相連),頻次閾值設(shè)為14,剩余178條語(yǔ)義述謂項(xiàng),114個(gè)節(jié)點(diǎn)。采用最大clique搜索算法獲得31個(gè)clique,包含35個(gè)節(jié)點(diǎn)。31個(gè)clique中包含8個(gè)5-clique,4個(gè)4-clique以及19個(gè)3-clique。聚類樹(shù)圖見(jiàn)圖3,在距離小于15處將clique分為4類,即為摘要的4個(gè)子主題。利用Pajek顯示摘要圖(圖4),其布局依據(jù)聚類的結(jié)果做調(diào)整。為了增加圖的可讀性,僅用顏色代表語(yǔ)義關(guān)系,省略了文字標(biāo)簽。利用節(jié)點(diǎn)的語(yǔ)義類型及語(yǔ)義關(guān)系搭配,可實(shí)現(xiàn)對(duì)子主題內(nèi)容的標(biāo)注。

UMLS在其語(yǔ)義網(wǎng)絡(luò)中對(duì)概念的語(yǔ)義類型及語(yǔ)義關(guān)系賦予詳細(xì)的定義,利用其組配模式能對(duì)醫(yī)學(xué)文獻(xiàn)內(nèi)容進(jìn)行詳盡的表達(dá),從而實(shí)現(xiàn)對(duì)研究主題的標(biāo)注。圖4所涉及的語(yǔ)義搭配模式及其對(duì)應(yīng)的含義見(jiàn)表1。

圖3 clique系統(tǒng)聚類樹(shù)圖

圖4 精神分裂癥文獻(xiàn)集摘要圖

表1 研究子主題語(yǔ)義搭配及含義

子主題1:位于圖4左上方,為精神分裂癥的發(fā)病特殊人群及非藥物療法。由此類可看出,該病多發(fā)于兒童及青壯年,可用認(rèn)知療法進(jìn)行治療。圖4中深藍(lán)色線條表示的語(yǔ)義關(guān)系為“Treats”,紅色線條為“Process_of”。

子主題2:位于摘要圖4上方豆綠色背景區(qū)域,為精神分裂癥的癥狀,包括幻覺(jué)和妄想,其語(yǔ)義關(guān)系為“Coexists_with”(灰色)。

子主題3:位于圖4右上方,為精神分裂癥的致病因素及發(fā)病部位。其致病因素包括位于大腦前額葉皮質(zhì)的神經(jīng)遞質(zhì)(如多巴胺、谷氨酸、γ-氨基丁酸等)異常,導(dǎo)致神經(jīng)遞質(zhì)系統(tǒng)功能受損而發(fā)病。圖中紫色為“Associated_with”,綠色為“Location_of”,淺藍(lán)色為“ISA”。

子主題4:位于圖4下方,為精神分裂癥的藥物療法、藥物之間的比較以及產(chǎn)生的副作用。圖中深藍(lán)色為“Treats”,黃色為“Compared_with”,紅色為“Causes”,淺藍(lán)色為“ISA”。

3.3 實(shí)驗(yàn)結(jié)果評(píng)價(jià)

目前摘要評(píng)價(jià)方法主要有以人工標(biāo)注摘要為標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)和基于任務(wù)的評(píng)價(jià)兩類。由于缺乏公用的醫(yī)學(xué)文本語(yǔ)料庫(kù),且請(qǐng)專家對(duì)上萬(wàn)篇文獻(xiàn)提供人工標(biāo)注的參考摘要不現(xiàn)實(shí),因此本研究采用第二種方法,即基于概念提取和主題劃分的評(píng)價(jià)方法,考察本研究提取的各摘要主題概念的覆蓋情況。我們請(qǐng)兩名醫(yī)學(xué)博士以其專業(yè)知識(shí)為基礎(chǔ),同時(shí)參考英文原版精神病學(xué)教科書Review of General Psychiatry、教育部及衛(wèi)生部“十二五”規(guī)劃教材《精神病學(xué)》以及循證醫(yī)學(xué)資源Up-To-Date中關(guān)于精神分裂癥的專家綜述,從發(fā)病人群及非藥物療法、癥狀、病因及發(fā)病部位和藥物療法四方面提取相關(guān)概念為人工標(biāo)準(zhǔn)。當(dāng)兩名專家意見(jiàn)不一致時(shí),通過(guò)協(xié)商獲取一致性意見(jiàn)。以準(zhǔn)確率、召回率及F值為評(píng)價(jià)指標(biāo),結(jié)果見(jiàn)表2。

表2 實(shí)驗(yàn)結(jié)果與人工標(biāo)準(zhǔn)的對(duì)比

評(píng)價(jià)結(jié)果表明,準(zhǔn)確率普遍比較高,召回率相對(duì)較低。摘要信息的質(zhì)量與多方面因素有關(guān)。首先就信息源而言,本研究采集的是科技論文摘要,疾病癥狀、藥物副作用等概念出現(xiàn)在作者摘要的幾率較低,易被預(yù)設(shè)閾值過(guò)濾。如果采集的信息是文獻(xiàn)全文,就能夠全面地獲取信息,但會(huì)造成干擾信息過(guò)多,從而導(dǎo)致準(zhǔn)確率下降。其次在文獻(xiàn)內(nèi)容表達(dá)方面,領(lǐng)域知識(shí)庫(kù)的完備程度及自然語(yǔ)義處理工具(如SemRep)對(duì)信息處理的準(zhǔn)確性也同樣會(huì)影響摘要提取的質(zhì)量。SemRep對(duì)疾病類、化學(xué)物質(zhì)類概念提取的效果好,對(duì)基因名、蛋白名提取的效果相對(duì)差,這與其利用的詞表UMLS搜集詞匯的側(cè)重點(diǎn)有關(guān)。因此在對(duì)基因等作摘要時(shí),建議用專有的提取工具來(lái)提取命名實(shí)體。此外,閾值的設(shè)定對(duì)摘要的準(zhǔn)確率和召回率起反向作用。如欲使摘要召回率增加,可適當(dāng)降低閾值。當(dāng)中心度閾值降到0.028時(shí),能將副作用“嗜睡”納入進(jìn)來(lái),但會(huì)導(dǎo)致摘要過(guò)大,降低準(zhǔn)確率和易讀性。最后,本研究對(duì)簇結(jié)構(gòu)的識(shí)別采用最大完全子群搜索算法。盡管大部分都是規(guī)模相對(duì)較小的3-clique,但可能會(huì)導(dǎo)致一些不能構(gòu)成clique的重要概念丟失,從而降低召回率。今后可嘗試采用Quasi Clique,k-core等簇發(fā)現(xiàn)算法,使摘要的覆蓋面適當(dāng)增加。

4 結(jié)論

本研究利用自然語(yǔ)言處理工具SemRep對(duì)醫(yī)學(xué)文本所涵蓋的語(yǔ)義述謂項(xiàng)進(jìn)行提取并生成表達(dá)文獻(xiàn)內(nèi)容的網(wǎng)絡(luò)圖,利用網(wǎng)絡(luò)圖的中心性及凝聚屬性從中提取出文獻(xiàn)集的核心內(nèi)容生成圖形摘要。該研究方法能為知識(shí)圖譜、臨床問(wèn)題自動(dòng)應(yīng)答系統(tǒng)的開(kāi)發(fā)提供新的思路。

猜你喜歡
語(yǔ)義概念研究
FMS與YBT相關(guān)性的實(shí)證研究
Birdie Cup Coffee豐盛里概念店
遼代千人邑研究述論
語(yǔ)言與語(yǔ)義
幾樣概念店
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
主站蜘蛛池模板: 久久久91人妻无码精品蜜桃HD| 亚洲第一页在线观看| 毛片三级在线观看| 天天摸夜夜操| 激情六月丁香婷婷四房播| 欧美一级特黄aaaaaa在线看片| 又黄又湿又爽的视频| 中文字幕啪啪| 99热最新在线| 国产精品永久久久久| 欧美精品黑人粗大| 久久精品娱乐亚洲领先| 在线看免费无码av天堂的| 欧美日韩高清在线| 福利姬国产精品一区在线| 伊伊人成亚洲综合人网7777| 国产手机在线ΑⅤ片无码观看| 中文字幕有乳无码| 日日拍夜夜操| 午夜不卡福利| 欧美 国产 人人视频| 2020国产在线视精品在| 波多野衣结在线精品二区| 国产精品三级av及在线观看| 天天色综合4| 日韩高清中文字幕| 97色伦色在线综合视频| 91精品在线视频观看| 四虎永久在线| 天堂网亚洲系列亚洲系列| 日本在线国产| 日本尹人综合香蕉在线观看| 日韩福利视频导航| 亚洲第一黄片大全| 欧美黄色a| 亚洲国产精品美女| 玖玖精品视频在线观看| 久久精品这里只有精99品| 亚洲不卡av中文在线| 深爱婷婷激情网| 99视频精品全国免费品| 欧美不卡在线视频| 亚洲小视频网站| 色天天综合| 欧美69视频在线| 91福利国产成人精品导航| 欧美一区国产| 亚洲成人网在线播放| 国产v精品成人免费视频71pao | 日本91视频| 天天综合天天综合| 久久综合干| 亚洲区一区| 看国产毛片| 亚洲午夜18| 手机成人午夜在线视频| 成人福利免费在线观看| 国产精品成人不卡在线观看| 日本高清免费一本在线观看| 国产精品自在线天天看片| 国产手机在线小视频免费观看| 欧美v在线| 伊人色综合久久天天| 亚洲一区国色天香| 久久精品国产精品国产一区| 国产a v无码专区亚洲av| 国产福利2021最新在线观看| 欧美a网站| 亚洲国产欧美国产综合久久 | 成人永久免费A∨一级在线播放| 无码精品福利一区二区三区| 国产乱人伦AV在线A| 精品少妇人妻av无码久久| 国产人人乐人人爱| 人与鲁专区| 午夜国产不卡在线观看视频| 国产精品第页| 精品无码国产自产野外拍在线| 亚洲第一成年网| 高潮毛片免费观看| 国产乱子伦精品视频| vvvv98国产成人综合青青|