999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法

2016-12-28 09:19:55關(guān)莉莉
山西青年 2016年24期
關(guān)鍵詞:文本方法

關(guān)莉莉

吉林電視臺(tái),吉林 長(zhǎng)春 130021

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法

關(guān)莉莉

吉林電視臺(tái),吉林 長(zhǎng)春 130021

新聞媒體是傳遞信息的重要途徑,在突發(fā)事件發(fā)生后,人們往往希望能夠通過新聞及時(shí)了解到突發(fā)事件產(chǎn)生的緣由以及后續(xù)發(fā)展情況。為了能夠?qū)⑼话l(fā)事件新聞文本更好的分類,需要采取有效的主題抽取方法,而基于加權(quán)信息論的抽取方法,便得以產(chǎn)生并開始運(yùn)用于該項(xiàng)工作中。本文就加權(quán)信息論下的突發(fā)事件新聞主題抽取方法進(jìn)行了研究分析。

加權(quán)信息論;突發(fā)事件新聞;主題抽取方法

突發(fā)事件新聞文本中,主題詞出現(xiàn)的位置等都具有一定的特點(diǎn),通過加權(quán)信息論,能夠?qū)崿F(xiàn)對(duì)主題詞的精準(zhǔn)查找,考慮新聞文本主題本身所帶有的相關(guān)統(tǒng)計(jì)信息,從而實(shí)現(xiàn)對(duì)突發(fā)事件新聞的有效分類。因此,相關(guān)工作者在工作中,還應(yīng)積極分析基于加權(quán)信息論的主題抽取方法,并予以合理運(yùn)用,從而進(jìn)一步完善突發(fā)事件新聞分類體系,推動(dòng)新聞事業(yè)的快速發(fā)展。

一、突發(fā)事件新聞統(tǒng)計(jì)分析

突發(fā)事件主要是人們難以預(yù)測(cè)的、隨時(shí)隨地都有可能發(fā)生的、完全隨機(jī)的時(shí)間,而突發(fā)事件新聞,則是對(duì)這一類時(shí)間的新聞報(bào)道。突發(fā)事件的發(fā)生往往與人們的生活有密切關(guān)聯(lián),因而,人們對(duì)突發(fā)事件報(bào)道也十分關(guān)心。相關(guān)學(xué)者也針對(duì)人們?cè)诟鱾€(gè)階段的新聞關(guān)注熱點(diǎn),進(jìn)行了統(tǒng)計(jì)分析。本文選取了“煤礦爆炸”、“非洲埃博拉病毒疫情”以及“恐怖襲擊”三類新聞進(jìn)行闡述分析,從Web上獲取了各500篇語(yǔ)料。

經(jīng)過一系列的統(tǒng)計(jì)分析發(fā)現(xiàn),這幾類突發(fā)事件新聞文本具有兩方面特點(diǎn)。第一,在形式結(jié)構(gòu)上。突發(fā)事件新聞文本主要分為正文及標(biāo)題兩部分,標(biāo)題是對(duì)文本內(nèi)容、事件情況的充分概括,主要由突發(fā)事件的發(fā)生的地點(diǎn)、事件名稱以及帶來的影響組成,正文則是包含多個(gè)句子,闡明了信息的來源、突發(fā)事件的基本信息及其原因、后果等。且正文中的第一句話,往往就會(huì)直接表述本信息的來源,其他內(nèi)容則會(huì)在后續(xù)句子中進(jìn)行表述。第二,在文本長(zhǎng)度上,通過對(duì)這幾類文本的統(tǒng)計(jì)分析,發(fā)現(xiàn)其標(biāo)題字?jǐn)?shù)平均在18-20字之間,相差不大,正文句數(shù)平均在7.43-11.95句,而字?jǐn)?shù)從100字到400字不等(如表1)。

表1 突發(fā)事件各類新聞文本統(tǒng)計(jì)分析數(shù)據(jù)

二、加權(quán)信息論下突發(fā)事件新聞主題抽取

當(dāng)前對(duì)突發(fā)事件新聞主題進(jìn)行抽取,主要是通過對(duì)突發(fā)事件主題詞在文本主題方面的貢獻(xiàn)程度進(jìn)行分析,從而將其中貢獻(xiàn)最大的主題詞找出來。在加權(quán)算法的運(yùn)用中,主要是通過對(duì)主題詞在突發(fā)事件新聞文本中的位置、頻率以及不同文本間的引用關(guān)系等進(jìn)行計(jì)算,一些專家學(xué)者還能夠通過構(gòu)詞能力、特征字串、語(yǔ)言理解角度等進(jìn)行抽取。而據(jù)相關(guān)調(diào)查以及研究表明,基于加權(quán)信息論的突發(fā)事件新聞主體抽取,也能夠獲得良好的效果。詞在文本中的包含的信息量計(jì)算公式為H(wi)=-N(wi)×log p(wi)。其中,wi為突發(fā)事件新聞文本中的一個(gè)詞匯,文本用d表示,H(wi)表示該詞信息量,N(wi)為該詞出現(xiàn)頻率,p(wi)則為該詞概率分布。通過極大似然估計(jì)方法,對(duì)詞的概率分布進(jìn)行計(jì)算,公式為p(wi)=F(wi)×F。其中,F(xiàn)(wi)為訓(xùn)練文本中該詞出現(xiàn)的頻次,F(xiàn)則表示文本集中總詞頻數(shù)[1]。為了能夠結(jié)合主題詞的實(shí)際分布情況,還需基于加權(quán)信息論,將文本形式特征以及詞匯所處位置加入計(jì)算中。設(shè)Y為句權(quán)向量,Xi為詞位向量,且Y=(s1,s2,…,sj),Xi=(pi1,pi2,…,pik),sj為該詞在文本中j句的重要性因子,pik則為該詞在j句中出現(xiàn)的頻次,n為總句數(shù)。兩個(gè)向量的乘積,就是最終詞匯的位置權(quán)重,通過將其與信息論特征抽取方法結(jié)合,便能夠獲得最終結(jié)果。文本首句即標(biāo)題句,在主題中貢獻(xiàn)最大,權(quán)值最大,其次為第三、四,五句,再者為第二句消息來源,最后為其余句子,權(quán)值較小。

加權(quán)信息論下的突發(fā)事件新聞主題抽取方法應(yīng)用中,應(yīng)先進(jìn)行文本預(yù)處理。分詞并獲取詞集合,對(duì)一些語(yǔ)氣詞、介詞等詞匯進(jìn)行剔除,獲得候選詞集c(w1,w2,…,wm)。其次,需要進(jìn)行權(quán)威計(jì)算,對(duì)c中的所有詞匯按照上述方法進(jìn)行位置權(quán)重計(jì)算,并結(jié)合H(wi)值,計(jì)算出wi的總權(quán)重。最后,對(duì)所有詞的權(quán)重計(jì)算結(jié)果進(jìn)行排列,選取權(quán)值最大的幾個(gè)詞,組合成最終的主題。

三、加權(quán)信息論下的突發(fā)事件新聞主題抽取結(jié)果分析

為證明加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的有效性,將這一方法與人工抽取方法一同運(yùn)用,并對(duì)所獲取結(jié)果進(jìn)行比較分析。選用“煤礦爆炸”類突發(fā)事件新聞100篇、“非洲埃博拉病毒疫情”類突發(fā)事件新聞100篇以及“恐怖襲擊”類突發(fā)事件新聞100篇,用于訓(xùn)練語(yǔ)料,同時(shí),每一類別中選出25篇文本作為測(cè)試語(yǔ)料。運(yùn)用兩種方式對(duì)新聞主題進(jìn)行抽取后發(fā)現(xiàn),“煤礦爆炸”文本中,有22篇結(jié)果一致,與人工抽取一致比率在88%,正確率在96%。“非洲埃博拉病毒疫情”文本中,有13篇結(jié)果一致,比率在52%,正確率在36%,其主題偏離率較大的原因主要是文本本身結(jié)構(gòu)性較差、內(nèi)容分散。而在“恐怖襲擊”文本中,有21篇結(jié)果一致,比率在84%,正確率在88%。且據(jù)相關(guān)學(xué)者對(duì)加權(quán)信息論以及信息論下的主題抽取結(jié)果比較發(fā)現(xiàn),加權(quán)信息論下的突發(fā)事件新聞主題抽取方法的準(zhǔn)確度與人工抽取相比,明顯呈現(xiàn)出了提高趨勢(shì),由此,可見這一方法在主題抽取中的重要性及良好的效果。

四、結(jié)論

本文基于突發(fā)事件新聞文本相關(guān)統(tǒng)計(jì)數(shù)據(jù),運(yùn)用加權(quán)信息論方法進(jìn)行主題抽取,并將抽取結(jié)果與人工抽取相比較,得出了這一方法具有良好性能的結(jié)果。相關(guān)工作人員也應(yīng)加強(qiáng)對(duì)這一方法的研究,并將其靈活運(yùn)用在其他文本中,以促進(jìn)當(dāng)前新聞?lì)I(lǐng)域相關(guān)技術(shù)方法的進(jìn)一步發(fā)展。

[1]韓永峰,許旭陽(yáng),李弼程,朱武斌,陳剛.基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動(dòng)摘要[J].中文信息學(xué)報(bào),2012,1(1):58-66.

[2]夏華林,張仰森.基于規(guī)則與統(tǒng)計(jì)的Web突發(fā)事件新聞多層次分類[J].計(jì)算機(jī)應(yīng)用,2012,2(2):392-394.

[3]曹學(xué)艷,張仙,劉樑,方寬,段飛飛,李仕明.基于應(yīng)對(duì)等級(jí)的突發(fā)事件網(wǎng)絡(luò)輿情熱度分析[J].中國(guó)管理科學(xué),2014,3(3):82-89.

TP

A

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學(xué)習(xí)方法
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 又爽又大又黄a级毛片在线视频| 日韩毛片免费视频| 国产精品太粉嫩高中在线观看| www.youjizz.com久久| 国产精品手机在线播放| 成人va亚洲va欧美天堂| 久草青青在线视频| 一区二区在线视频免费观看| 精品国产电影久久九九| 国产原创演绎剧情有字幕的| 国产成人毛片| 亚州AV秘 一区二区三区| 精品一区二区三区中文字幕| 久久国产毛片| 精品成人一区二区三区电影| 国产美女久久久久不卡| 尤物精品国产福利网站| 激情无码视频在线看| 亚洲有码在线播放| 高清免费毛片| 久久伊伊香蕉综合精品| 国产综合在线观看视频| 中文字幕亚洲另类天堂| 欧美成人h精品网站| 国产亚洲欧美日韩在线一区| 欧美人人干| 黄色在线网| 亚洲精品福利网站| 波多野结衣国产精品| 日韩欧美一区在线观看| 成人亚洲天堂| 国产免费高清无需播放器| 日韩一区精品视频一区二区| 国产精品99在线观看| 精品无码日韩国产不卡av| 久久亚洲精少妇毛片午夜无码 | 青青青视频蜜桃一区二区| 亚洲视频在线观看免费视频| 国产一在线| 99国产精品一区二区| 亚洲成综合人影院在院播放| 亚洲综合狠狠| 新SSS无码手机在线观看| 91青草视频| 国产网站一区二区三区| 国产精品女同一区三区五区| 国产人人射| 91精品国产综合久久不国产大片| 欧美亚洲综合免费精品高清在线观看| 国产麻豆91网在线看| 亚洲欧洲自拍拍偷午夜色无码| 亚洲第一成人在线| 玖玖精品视频在线观看| 亚洲AV无码精品无码久久蜜桃| 一级毛片在线免费看| 欧美一区二区精品久久久| 日韩国产综合精选| 久久国语对白| 国产视频资源在线观看| 白浆免费视频国产精品视频| 毛片视频网| 黄色网页在线播放| 国产原创第一页在线观看| 一级毛片免费不卡在线视频| 91精品国产自产在线老师啪l| 亚洲中文字幕23页在线| 亚洲性日韩精品一区二区| 亚洲AⅤ波多系列中文字幕| 在线观看国产精品日本不卡网| 亚洲精品无码久久久久苍井空| a色毛片免费视频| 超清无码熟妇人妻AV在线绿巨人| 欧美国产三级| 亚洲Va中文字幕久久一区| 亚洲成人网在线观看| 54pao国产成人免费视频| 亚洲AV无码久久精品色欲| 亚洲综合色区在线播放2019| 首页亚洲国产丝袜长腿综合| 亚洲首页国产精品丝袜| 超级碰免费视频91| 在线亚洲小视频|