999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞語相關(guān)度的文檔主題抽取算法

2012-09-18 02:25:48袁曉峰
關(guān)鍵詞:特征文本

袁曉峰

(鹽城師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,江蘇鹽城 224002)

基于詞語相關(guān)度的文檔主題抽取算法

袁曉峰

(鹽城師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,江蘇鹽城 224002)

考慮到文檔中出現(xiàn)頻率較高的詞語能夠體現(xiàn)文檔的主題,設(shè)計(jì)了一種中文文檔主題抽取算法.該算法首先對目標(biāo)文檔進(jìn)行預(yù)處理,然后計(jì)算文檔中每個(gè)詞語的出現(xiàn)頻率,用出現(xiàn)頻率最高的幾個(gè)詞語作為文檔的主題.其中,將詞語間的相關(guān)度作為計(jì)算出現(xiàn)頻率的參考因素.詞語相關(guān)度的計(jì)算是基于中文知識(shí)庫《知網(wǎng)》的方法.實(shí)驗(yàn)證明,本算法具有較高的準(zhǔn)確性.

詞語相關(guān)度;出現(xiàn)頻率;知網(wǎng);主題抽取

0 引 言

文檔主題抽取的研究被廣泛應(yīng)用于搜索引擎、文本聚類等文本自動(dòng)處理方面的工作.目前,國內(nèi)相關(guān)研究集中于字同現(xiàn)頻率、語言理解、匹配和統(tǒng)計(jì)等方面[1-4].本研究在《知網(wǎng)》概念描述方法[5]的基礎(chǔ)上,著重研究《知網(wǎng)》中義原在縱向和橫向上的關(guān)系結(jié)構(gòu),以此來計(jì)算詞語之間的相關(guān)度.通過考慮詞語之間相關(guān)度,提出一種計(jì)算詞語出現(xiàn)頻率的新算法:首先對文檔進(jìn)行預(yù)處理,剔除停用詞;然后計(jì)算詞語之間的相關(guān)度,將初始出現(xiàn)頻率較低的詞歸于與之相關(guān)度較高的那些初始出現(xiàn)頻率較高的詞;最后用出現(xiàn)頻率較高的詞作為文檔主題.

1 詞語相關(guān)度計(jì)算

《知網(wǎng)》中的概念是對詞匯語義的描述,是用知識(shí)表示語言來描述的,這種“知識(shí)表示語言”所用的詞匯稱為義原.詞語相關(guān)度計(jì)算需要考慮2個(gè)方面:詞語相似度與義原關(guān)聯(lián)度[6].

1.1 詞語相似度

對于2個(gè)漢語詞語W1和W2,如果W1有n個(gè)義項(xiàng)(概念):S11,S12,……,S1n,W2有m個(gè)義項(xiàng)(概念):S21,S22,……,S2m,則W1和W2的相似度是各個(gè)概念的相似度之最大值,

概念之間的相似度計(jì)算可分為4個(gè)部分[7].

①第一基本義原,直接計(jì)算2個(gè)義原的相似度,記為Sim1(S1,S2);

②其他基本義原,可以看成是一個(gè)集合,通過建立2個(gè)集合中元素的對應(yīng)關(guān)系來計(jì)算2個(gè)集合的相似度,記為Sim2(S1,S2);

③關(guān)系義原,可以看成是一個(gè)特征結(jié)構(gòu),即“屬性:值”對的集合,每個(gè)“屬性:值”對為一個(gè)“特征”.2個(gè)特征之間一一對應(yīng)關(guān)系的建立就轉(zhuǎn)化為對相同“屬性”對應(yīng)“值”的相似度的計(jì)算,記為Sim3(S1,S2);

④關(guān)系符號描述,其值為一個(gè)特征結(jié)構(gòu),轉(zhuǎn)換為2個(gè)特征結(jié)構(gòu)的相似度計(jì)算,記為Sim4(S1,S2).

則,概念之間的相似度計(jì)算式為,

其中,βi(1 ≤i≤4)是可調(diào)節(jié)的參數(shù),且有,β1+β2+β3+β4=1,β1 ≥β2 ≥β3 ≥β4.

這樣,詞語之間的相似度計(jì)算就完全轉(zhuǎn)化為義原之間的相似度計(jì)算.

由于義原可根據(jù)上下位關(guān)系組織成樹狀結(jié)構(gòu)的層次體系,因此通過計(jì)算義原之間的距離可計(jì)算出義原之間的相似度[8],

其中,p1、p2分別表示兩個(gè)義原,d是p1和p2的距離,α是一個(gè)可調(diào)節(jié)的參數(shù),通常 α表示相似度為0.5時(shí)的詞語距離值.

1.2 義原關(guān)聯(lián)度

兩個(gè)義原的關(guān)聯(lián)度記為A,其計(jì)算式為,

其中,pi和pj分別為義項(xiàng)Si和義項(xiàng)Sj的第一基本義原,D為橫向關(guān)聯(lián)影響深度,即某一義原向上第幾層的解釋義原會(huì)對其特征有影響.

1.3 詞語相關(guān)度

詞語相關(guān)用以描述兩個(gè)詞語的概念之間的關(guān)系,而相關(guān)度是概念之間相關(guān)程度的度量.因此,詞語相關(guān)度是相似度和關(guān)聯(lián)度的加權(quán)求平均,其計(jì)算式為,

式中 ,η1+η2=1.

2 主題抽取

主題抽取可分為:對給定文本d進(jìn)行特征抽取和主題生成.特征抽取將文本用實(shí)詞序列表示,主題生成通過計(jì)算實(shí)詞序列中詞的出現(xiàn)頻率從而得到文本的主題.

2.1 特征抽取

通常,特征抽取需先對給定文本d進(jìn)行預(yù)處理,如分詞、去除停用詞等.為了降低整個(gè)算法的復(fù)雜性,本研究僅考慮把實(shí)詞作為特征詞,即不考慮連詞、代詞、副詞等虛詞,分詞是中文文本處理常用的步驟,本算法采用中科院中文分詞系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)進(jìn)行分詞,最后得到結(jié)果,

2.2 主題生成

主題生成的主要思想是:首先,從經(jīng)過特征抽取的結(jié)果中選取出現(xiàn)頻率最大的s個(gè)詞語,并將其稱為待定主題詞,待定主題詞初始權(quán)值設(shè)為1;其次,計(jì)算文檔中其他詞匯與s個(gè)待定主題詞之間的相關(guān)度,并將相關(guān)度加到待定主題詞的權(quán)值上;最后,選定t個(gè)權(quán)值最大的主題詞作為文檔的主題.

主題抽取算法的具體步驟如下:

①選出d中出現(xiàn)頻率最高的s個(gè)詞集,合記為hf={w1,w2,…,ws},剩余的詞集合記為 ,left=d-hf={v1,v2,…,vn}.

②初始hf的權(quán)值,weight={g1=1,g2=1,…,gs=1}.

③計(jì)算left集合中的詞與hf中每個(gè)詞之間的相關(guān)度,rel=R(left,hf),并將hf中當(dāng)前詞權(quán)值加上rel.

④選出weight集合中值最大的t個(gè)詞,記為,subject={w1,w2,…,wt},此即為文檔d的主題.

3 實(shí) 驗(yàn)

3.1 主題抽取實(shí)驗(yàn)

由于算法的參數(shù)無法給出標(biāo)準(zhǔn)值,對此,本研究通過反復(fù)實(shí)驗(yàn)并與其他文獻(xiàn)比較,設(shè)置參數(shù)如下:

在實(shí)驗(yàn)中,本研究從復(fù)旦大學(xué)語料庫中抽取200篇帶有標(biāo)題的短篇新聞,其中政治類46篇、經(jīng)濟(jì)類45篇、科技類39篇、娛樂類22篇,其他48篇.并將主題句抽取的質(zhì)量好壞分為4個(gè)等級:與原標(biāo)題基本一致、包含原標(biāo)題內(nèi)容、主題基本符合、主題不全面或主題偏離.若結(jié)果符合前3個(gè)等級則認(rèn)為抽取正確,并將文本篇數(shù)占總測試語料篇數(shù)的比例稱為主題句抽取正確率.實(shí)驗(yàn)結(jié)果如表1所示.

表1 主題抽取實(shí)驗(yàn)結(jié)果

3.2 實(shí)驗(yàn)結(jié)果分析

從表1中的數(shù)據(jù)可以看出,政治類的新聞文檔主題抽取準(zhǔn)確率極高,幾乎為100%,與原標(biāo)題基本一致比率達(dá)到了93.5%;經(jīng)濟(jì)類和科技類的新聞文檔主題抽取準(zhǔn)確率分別為97.8%、97.4%,略低于政治類;娛樂類的新聞文檔主題抽取準(zhǔn)確率為90.9%,較前3類文檔偏低,這是因?yàn)閵蕵奉惖男侣剝?nèi)容不緊湊、話題比較廣所致;其他類文章的主題抽取準(zhǔn)確率不足90%.準(zhǔn)確率最高的新聞?lì)惖奈臋n主題相對集中,文章的布局緊緊圍繞主題,此也再次證明文章的主題分散對主題抽取有不利的影響.盡管如此,本算法對文檔主題的抽取準(zhǔn)確率都達(dá)到80%以上,證明了本算法的有效性.

4 結(jié) 語

出現(xiàn)頻率高的詞語能夠體現(xiàn)文檔的主題,不過頻率不能僅僅由該詞出現(xiàn)的次數(shù)決定,而必須考慮與該詞相關(guān)度較高的詞語的出現(xiàn)頻率.本研究提出了一種通過詞語相關(guān)度來統(tǒng)計(jì)詞語在文檔中出現(xiàn)的頻率,進(jìn)而通過詞語出現(xiàn)的頻率來抽取文檔主題的算法.實(shí)驗(yàn)表明,本算法對文檔主題的抽取準(zhǔn)確率較高.需要說明的是,該算法的主題抽取質(zhì)量與文檔的布局也有著密切的關(guān)系,主題思想越集中,抽取的準(zhǔn)確率越高;反之,主題思想越發(fā)散,抽取的準(zhǔn)確率越低.

:

[1]馬穎華,王永成,蘇貴陽,等.一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J].計(jì)算機(jī)研究與發(fā)展,2003,40(6):874-878.

[2]麻志毅,姚天順.基于情境的文本主題求解[J].計(jì)算機(jī)研究與發(fā)展,1998 ,35(4):344-348.

[3]Yin Zhonghang,Wang Yongcheng.Extracting Subject from Internet Newsby String Match[J].Journal of Software,2002,13(2):159-167.

[4]韓客松,王永成,沈洲,等.三個(gè)層面的中文文本主題自動(dòng)提取研究[J].中文信息學(xué)報(bào),2001,12(4):20-27.

[5]董振東,董強(qiáng).知網(wǎng)[EB/OL].http://www.keenage.com/html/c index .html,1999-2007.

[6]許云,樊孝忠,張鋒.基于知網(wǎng)的語義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào),2005,25(5):411-414.

[7]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].計(jì)算語言學(xué)及中文信息處理,2007,31(7):59-76.

[8]Agirre E,Rigau G.A Proposal for Word Sense Disambiguation Using ConceptualDistance[C]//Porceeding of International Conference on Recent Advances in Natural Language Processing.Bulgaria:arXiv.org,1995.

Algorithm of Document Subject Extraction Based on Word Relevancy

YUAN Xiaofeng

(College of Information Science and Technology,Yancheng Teachers University,Yancheng 224002,China)

A kind of subject extraction algorithm was designed based on the consideration that words with high frequent occurrence could represent the theme of the document.Firstly,this algorithm pre-processed the sample document and calculated the occurrence frequency of eachword of the document.Some most frequent words were used to represent the subject.The relevancy between words was referred to calculate the frequency of each word and the calculation of relevancy was based on the ontology Hownet.At last,the high accuracy of the algorithm was testified by the experiment.

word relevancy ;occurrence frequency ;Hownet;subject extraction

TP391.1

A

1004-5422(2012)04-0367-03

2012-09-04.

袁曉峰(1978—),男,碩士,從事計(jì)算機(jī)信息檢索與自然語言處理技術(shù)研究.

猜你喜歡
特征文本
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产女人在线视频| 国产精品30p| 新SSS无码手机在线观看| 亚洲色欲色欲www在线观看| 欧洲极品无码一区二区三区| 国产成人精彩在线视频50| 国产亚洲欧美日韩在线一区| 欧美色亚洲| 亚洲精品在线观看91| 日韩人妻无码制服丝袜视频| 69av在线| 久久精品丝袜| 青青草原国产一区二区| 亚洲大尺度在线| 精品91视频| 91口爆吞精国产对白第三集| 亚洲熟女偷拍| 91福利在线观看视频| 日本黄色a视频| 99热国产这里只有精品无卡顿"| 亚洲性日韩精品一区二区| 亚洲视频二| 婷婷色狠狠干| 国产成人8x视频一区二区| 91精品国产麻豆国产自产在线| 国产JIZzJIzz视频全部免费| 日本在线免费网站| 婷婷99视频精品全部在线观看| 久久精品国产亚洲AV忘忧草18| 综合色在线| 操国产美女| 久久久久久高潮白浆| av午夜福利一片免费看| 亚瑟天堂久久一区二区影院| 高清无码不卡视频| 人妻无码AⅤ中文字| 26uuu国产精品视频| 亚洲开心婷婷中文字幕| 最新日本中文字幕| 亚洲中文精品久久久久久不卡| 久久这里只有精品23| 精品夜恋影院亚洲欧洲| 不卡网亚洲无码| 色综合国产| 无码中文字幕乱码免费2| 人人澡人人爽欧美一区| 欧美在线综合视频| 在线观看欧美精品二区| 国产不卡网| 国产网站黄| 一级毛片免费观看久| 人人91人人澡人人妻人人爽| 免费又黄又爽又猛大片午夜| 久久久久久高潮白浆| 亚洲精品日产精品乱码不卡| 亚洲无码91视频| 亚洲第一黄色网址| 亚洲av色吊丝无码| 白浆免费视频国产精品视频| 动漫精品啪啪一区二区三区| vvvv98国产成人综合青青| 国产原创第一页在线观看| 伊人久久大香线蕉综合影视| 久久人妻系列无码一区| 国产一二三区在线| AV天堂资源福利在线观看| 亚洲乱码精品久久久久..| 99在线视频免费观看| 国产福利拍拍拍| 超碰免费91| 国产AV无码专区亚洲精品网站| 一级一毛片a级毛片| 亚洲无码高清一区二区| 98超碰在线观看| 亚洲国产精品一区二区第一页免 | 亚洲无码高清一区二区| 高清大学生毛片一级| 久久精品波多野结衣| 国产亚洲精品97在线观看| 欧美日本激情| 国产成人免费观看在线视频| 国产精品久久久久无码网站|