999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯(lián)網(wǎng)新聞話題特征選擇與構建

2015-12-25 08:07:04趙旭劍鄧思遠李波張暉楊春
軟件 2015年7期

趙旭劍++鄧思遠++李波++張暉++楊春明++喻瓊++王耀彬

摘要:新聞話題的特征表示是建立話題模型以及進行話題聚類(融合)的基礎,傳統(tǒng)的特征構建一般采用關鍵字構成的向量表示模型,未對特征的選取、分類以及質量等方面進行完整的研究,因此本文擬針對互聯(lián)網(wǎng)新聞文檔進行特征提取、特征構建以及話題聚類質量分析等方面的系統(tǒng)研究,闡明話題特征的選擇與構建對文本話題研究的影響,為后續(xù)的話題檢測與追蹤等應用提供更科學的特征理論模型。實驗結果表明經(jīng)過話題特征優(yōu)選后的聚類效果有助于提高話題模型的準確性,避免噪聲特征帶來的話題歧義。

關鍵詞:話題特征;話題模型;話題聚類;特征選擇

中圖分類號:TP391

文獻標識碼:A

DOI: 10.3969/j.issn.1003-6970.2015.07.004

0 引言

信息技術的快速發(fā)展以及互聯(lián)網(wǎng)的迅速普及,在線新聞文檔數(shù)據(jù)成爆炸式增長。然而,這些文檔數(shù)據(jù)大部分是半結構化或者非結構化的文本數(shù)據(jù),人們要想從中快速、準確地找到自己所想要的內(nèi)容極其困難。因此,如何合理、有效地組織和管理這些信息,從而提高人們檢索數(shù)據(jù)的速度和準確程度,已經(jīng)成為信息檢索和數(shù)據(jù)挖掘領域中的熱點課題,文本聚類和分類作為處理這一難題的有力手段,已經(jīng)成為研究的熱點課題。文本聚類、分類等針對互聯(lián)網(wǎng)新聞的分析和挖掘技術在推薦系統(tǒng)、信息過濾、輿情分析和個性化推薦等領域具有較高的應用價值。實現(xiàn)對新聞話題的挖掘應用,需要首先對新聞報道構建話題模型,將話題轉化為可進行計算和比較的信息表示模型,因此,如何有效選擇話題特征構建話題模型將對互聯(lián)網(wǎng)的新聞話題挖掘研究產(chǎn)生重要影響。

有效的特征選擇方法不僅可以降低文本的特征向量維數(shù),刪除冗余特征,保留類別區(qū)分能力較強的特征,而且在處理非平衡數(shù)據(jù)集分類時,也應該能夠克服類別當中特征分布不平衡的問題,提高正類樣本的識別率,從而有助于提高分類器的整體性能;合理的特征加權方法可以扼制噪聲特征對分類的負面影響,并將特征代表文檔屬于某個類別的能力差別最大化。從話題模型的類別來看,目前話題特征的選擇主要采用三種方式。首先,作為信息檢索領域一種重要的文本表示模型,向量空間模型(Vector Space Model, VSM)以其結構簡單、方便計算等特點得到了諸多學科和應用的廣泛關注,該模型主要采用詞項作為話題特征,而概率主題模型(Probabilistic Topic Model,PTM)則根據(jù)詞項、文檔和話題三者的貝葉斯概率來表示話題特征,具有扎實的數(shù)學基礎。詞項與詞項之間的語義關聯(lián)體現(xiàn)了話題的線索,因此,采用詞匯鏈的方式構建話題特征也具有一定代表性。然而,傳統(tǒng)的話題特征選擇方法未闡明特征選擇與構建對話題挖掘性能的影響,沒有考慮特征的分類和選擇策略,針對該問題,本文擬針對互聯(lián)網(wǎng)新聞文檔進行特征提取、特征構建以及話題聚類質量分析等方面的系統(tǒng)研究,建立面向互聯(lián)網(wǎng)新聞話題的話題特征選擇和構建機制,為話題挖掘研究提供科學的特征模型。

1 話題特征提取

對于新聞文檔,我們采用報道中的詞項作為話題特征的基本對象,通過對詞項的選擇構建新聞報道的話題特征。因此,本文首先利用自然語言處理技術對新聞文本進行話題特征提取。

1.1 停用詞過濾和命名實體識別

在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。對于一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'iS'、at、'which'、'on'等。另一類詞包括詞匯詞,這些詞應用十分廣泛,但是對詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率,所以通常會把這些詞從文本中移去,從而提高搜索性能。中文中常見的停用詞包括“一下”,“一直”,“三番兩次”,“不僅…而且”,“具體地說”等等。

而命名實體識別(NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。本文正是基于不同命名實體的類別,并結合詞項的其余特征,進行話題特征的選擇,因此,命名實體的識別性能將影響話題特征的選擇。命名實體識別的過程通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標志(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加復雜,而且相對于實體類別標注子任務,實體邊界的識別更加困難。

1.2 詞性標注

詞性標注即判定給定句子中每個詞的語法范疇,確定其詞性并加以標注的過程。因為在中文中一個詞語往往會有很多種詞性,為了更加精準的區(qū)分每個詞在句中的含義,所以我們需要使用詞性標注。在本文的研究中,我們認為詞性體現(xiàn)了話題的語義信息,通過對詞項詞性進行篩選,有助于提高話題特征的準確性。針對600篇中文新聞的新聞標題,我們進行了中文分詞和詞性標注,得到如表1所示的統(tǒng)計結果。從表格數(shù)據(jù)不難發(fā)現(xiàn)新聞核心四元素主要集中來源于五類詞語,即名詞、動詞、非謂語形容詞、時態(tài)詞以及數(shù)詞。因此,對于標注后的結果我們只需要關注以上五類詞語,在細化抽取對象的同時排除助詞、連詞等噪聲詞語對于話題抽取的干擾。

1.3 特征權重計算

構建話題特征模型后,每一維特征值根據(jù)詞項的TF-IDF模型計算得到。文檔的權重向量d表示為 ,其中

是詞組t在文檔d中出現(xiàn)的頻率(一個局部參數(shù)), 可是逆向文件頻率(一個全局參數(shù)),IDI是文件集中的文件總數(shù), 是含有詞組t的文件數(shù)。因此,文件 和q之間的余弦相似度可通過公式3計算得到。

主站蜘蛛池模板: 国产精品熟女亚洲AV麻豆| 国产91丝袜在线播放动漫 | 久青草免费在线视频| 国产一线在线| 国产永久在线观看| 免费一极毛片| 精品国产香蕉在线播出| 五月婷婷激情四射| 真实国产乱子伦高清| 黄色污网站在线观看| 亚洲第一视频网| 精品中文字幕一区在线| 喷潮白浆直流在线播放| 成年人福利视频| 欧美日韩导航| 国产中文在线亚洲精品官网| 美女啪啪无遮挡| 99热这里只有免费国产精品| 中文字幕在线永久在线视频2020| 日韩无码黄色| 99re在线视频观看| 99精品影院| 福利一区在线| 国产成人做受免费视频| 亚洲视频无码| 国产xxxxx免费视频| 国产va欧美va在线观看| 色婷婷电影网| 国产福利免费视频| 久久99国产精品成人欧美| 欧美一级一级做性视频| 国产精品自在自线免费观看| 亚洲天堂成人| 在线视频亚洲色图| 9久久伊人精品综合| 毛片免费高清免费| 日韩无码视频网站| 拍国产真实乱人偷精品| 99久久成人国产精品免费| 一个色综合久久| 亚洲欧洲日产国产无码AV| 国产一级特黄aa级特黄裸毛片| 国内熟女少妇一线天| 久久视精品| 国产簧片免费在线播放| 日韩在线观看网站| 成人中文字幕在线| 精品亚洲国产成人AV| 日本午夜精品一本在线观看 | 国产丝袜一区二区三区视频免下载| 国产视频 第一页| 毛片久久久| 老司机久久精品视频| 999国内精品久久免费视频| 国产精品欧美在线观看| 男女性色大片免费网站| 国产性猛交XXXX免费看| 亚洲性日韩精品一区二区| 国产区在线看| 国产乱子精品一区二区在线观看| 中文字幕无码中文字幕有码在线| 美女被狂躁www在线观看| 久青草免费在线视频| 婷婷99视频精品全部在线观看| 18禁不卡免费网站| 不卡的在线视频免费观看| 国产在线视频自拍| av在线5g无码天天| 亚洲高清日韩heyzo| 免费aa毛片| 久久久噜噜噜| 国产精品男人的天堂| 天天色天天综合网| 精品人妻系列无码专区久久| 精品人妻无码中字系列| 91久久青青草原精品国产| 无码区日韩专区免费系列| 成人欧美在线观看| 国产不卡一级毛片视频| 亚洲精品国产成人7777| 国产精品xxx| 国产不卡一级毛片视频|