999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下微博輿情熱點(diǎn)話題挖掘方法研究

2015-02-03 12:15:08馬彥
現(xiàn)代情報(bào) 2014年11期

馬彥

[摘要]通過(guò)分析大數(shù)據(jù)環(huán)境下微博輿情的發(fā)展特點(diǎn)和輿情自動(dòng)監(jiān)測(cè)的具體需求,設(shè)計(jì)了微博輿情熱點(diǎn)挖掘系統(tǒng)結(jié)構(gòu)模型,描述了各層的主要功能和實(shí)現(xiàn)方法。然后討論了熱點(diǎn)話題發(fā)現(xiàn)的方法,首先運(yùn)用ICTCLAS和AntCone等工具提取熱點(diǎn)詞,其次描述規(guī)范化的數(shù)據(jù)表示形式,最后通過(guò)Chameleon聚類算法實(shí)現(xiàn)熱點(diǎn)博文的聚類和話題抽取。該方法將對(duì)及時(shí)發(fā)現(xiàn)敏感信息和掌握輿情熱點(diǎn)提供信息支持。

[關(guān)鍵詞]微博;輿情;熱點(diǎn)話題;挖掘方法

[中圖分類號(hào))G250.73 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2014)11-0029-05

互聯(lián)網(wǎng)出現(xiàn)后,數(shù)據(jù)則不斷的以前所未有的速度增長(zhǎng)。具有大量化(Volume)、多樣化(Variety)、快速化(Veloei-ty)和價(jià)值(Value)這“四v”特征的“大數(shù)據(jù)”正影響和改變著人們的生活。隨著對(duì)大數(shù)據(jù)分析能力的提高和技術(shù)的進(jìn)步,它必將對(duì)擁有良好的教育、醫(yī)療和交通的智慧城市的構(gòu)建產(chǎn)生決定性的推動(dòng)作用;為更加理性、安全和完善的電子金融和電子商務(wù)業(yè)務(wù)提供技術(shù)保障;另外,實(shí)現(xiàn)實(shí)時(shí)的輿情監(jiān)測(cè)、控制和引導(dǎo),將促進(jìn)電子政務(wù)良性務(wù)實(shí)發(fā)展,從而保障國(guó)家的和諧穩(wěn)定環(huán)境。因此,實(shí)現(xiàn)對(duì)大數(shù)據(jù)中潛藏價(jià)值數(shù)據(jù)的挖掘和應(yīng)用成為了學(xué)術(shù)界、政界和商業(yè)界共同探索和關(guān)注的焦點(diǎn)問(wèn)題。

隨著政府部門和個(gè)人同時(shí)開(kāi)啟微博和微信,我國(guó)迎來(lái)了一個(gè)新的“雙微時(shí)代”。2014年7月人民網(wǎng)輿情監(jiān)測(cè)室與騰訊微博聯(lián)合發(fā)布《2014上半年度騰訊政務(wù)微博發(fā)展研究報(bào)告》,該報(bào)告顯示,截至2014年6月15日,經(jīng)過(guò)騰訊微博平臺(tái)認(rèn)證的政務(wù)微博已達(dá)到181524個(gè),其中黨政機(jī)構(gòu)微博111728個(gè),公務(wù)人員微博69796個(gè)。政務(wù)微信認(rèn)證數(shù)超過(guò)5000個(gè)。與此同時(shí),人民網(wǎng)輿情監(jiān)測(cè)室也與新浪微博聯(lián)合發(fā)布《2014年上半年新浪政務(wù)微博報(bào)告》,該報(bào)告指出截至2013年底,我國(guó)政務(wù)微博認(rèn)證賬號(hào)超過(guò)24萬(wàn),而在其2013年上半年報(bào)告中發(fā)布新浪微博注冊(cè)用戶總數(shù)已經(jīng)超過(guò)5億。另?yè)?jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2014年7月發(fā)布的《第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,微博用戶使用成熟度和內(nèi)容偏好度不斷加深。微博發(fā)展呈現(xiàn)如下幾個(gè)趨勢(shì):第一,微博已經(jīng)成為個(gè)人、機(jī)構(gòu)以及其他媒體的信息交流發(fā)布平臺(tái);第二,微博用戶由早期一二線城市為主逐步向三四線或更低級(jí)別地區(qū)發(fā)展;第三,隨著微博用戶、博文數(shù)量的裂變?cè)鲩L(zhǎng),以及微博中所蘊(yùn)含的時(shí)間、地域、社會(huì)關(guān)系網(wǎng)絡(luò)相關(guān)數(shù)據(jù)的積累,微博將在輿情管理、行為預(yù)測(cè)中體現(xiàn)更大的價(jià)值。因此,研究如何利用Web信息挖掘技術(shù),解決微博輿情信息的提取、熱點(diǎn)話題及其受眾和時(shí)空分布特點(diǎn)的發(fā)現(xiàn)、態(tài)度傾向性分析和網(wǎng)絡(luò)輿情擴(kuò)散方式建模等問(wèn)題,能夠?yàn)樯鐣?huì)管理者及時(shí)了解輿情熱點(diǎn)并進(jìn)行反饋、預(yù)警和引導(dǎo)提供必要的信息。

目前,我國(guó)各界已經(jīng)深入開(kāi)展了關(guān)于網(wǎng)絡(luò)輿情相關(guān)領(lǐng)域的研究工作。首先,研究基金資助方面,國(guó)家大力支持網(wǎng)絡(luò)輿情分析與監(jiān)測(cè)領(lǐng)域的相關(guān)研究,僅2014年批準(zhǔn)的國(guó)家自然科學(xué)基金資助此領(lǐng)域項(xiàng)目有12項(xiàng),資助力度在21萬(wàn)到84萬(wàn)之間;國(guó)家社會(huì)科學(xué)基金資助此領(lǐng)域項(xiàng)目8項(xiàng)。其次,研究成果文獻(xiàn)發(fā)表方面,根據(jù)中國(guó)知網(wǎng)(CNKI)檢索數(shù)據(jù)顯示,我國(guó)關(guān)于微博輿情分析方面的研究文獻(xiàn)最早于2011年發(fā)表,之后每年倍數(shù)增長(zhǎng)。研究熱點(diǎn)主要集中在以下七個(gè)方面:第一,涉及微博輿情監(jiān)測(cè)和預(yù)警的具體技術(shù)、方法和算法;第二,微博輿情預(yù)測(cè)模型;第三,微博輿情傳播的影響因素、模式、特征和規(guī)律;第四,微博輿情管控、引導(dǎo)和微博突發(fā)事件應(yīng)對(duì);第五,政務(wù)微博的作用、對(duì)突發(fā)事件的應(yīng)對(duì)能力和發(fā)展方向;第六,涉警微博的熱點(diǎn)事件應(yīng)對(duì)和引導(dǎo);第七,高校微博輿情的特點(diǎn)和影響力及其監(jiān)管、引導(dǎo)和應(yīng)對(duì)機(jī)制。再次,產(chǎn)品研發(fā)方面,我國(guó)已有18家網(wǎng)絡(luò)輿情科研機(jī)構(gòu)、包括“拓爾思、谷尼、軍犬、樂(lè)思”在內(nèi)的12家網(wǎng)絡(luò)輿情監(jiān)測(cè)服務(wù)機(jī)構(gòu)和包括“天涯輿情”在內(nèi)的3個(gè)有影響力的媒體型網(wǎng)絡(luò)輿情產(chǎn)品。

微博輿情熱點(diǎn)話題發(fā)現(xiàn)是實(shí)現(xiàn)微博輿情監(jiān)測(cè)、預(yù)警、應(yīng)對(duì)和引導(dǎo)最核心的工作和基礎(chǔ)。部分研究者將聚類方法的改進(jìn)及其在熱點(diǎn)發(fā)現(xiàn)方面的應(yīng)用作為網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的工作重點(diǎn)。張壽華等人首先提取檢索頁(yè)面標(biāo)題分析熱點(diǎn)關(guān)鍵詞,然后利用熱點(diǎn)關(guān)鍵詞進(jìn)行話題聚類,最后設(shè)計(jì)熱點(diǎn)話題評(píng)估模型,從而實(shí)現(xiàn)對(duì)熱點(diǎn)話題的監(jiān)測(cè)。韓晨靖改進(jìn)特征詞提取方法和向量相似度計(jì)算公式,并將該結(jié)果融入基于密度的聚類算法中發(fā)現(xiàn)輿情熱點(diǎn)。韓威通過(guò)改進(jìn)Single-Pass聚類算法克服該算法對(duì)文本輸入順序敏感的缺陷,將其應(yīng)用于網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)。也有研究者關(guān)注面向大數(shù)據(jù)環(huán)境的微博輿情熱點(diǎn)監(jiān)控。陳彥舟等將Hadoop分布式文件系統(tǒng)和Map-Reduce計(jì)算模型應(yīng)用于微博數(shù)據(jù)處理,實(shí)現(xiàn)對(duì)微博熱點(diǎn)話題的發(fā)現(xiàn)。另有研究者將藏文輿情分析作為研究工作的著眼點(diǎn)。江濤設(shè)計(jì)藏文語(yǔ)料預(yù)處理和分詞方法,并將其表示為向量空間模型,通過(guò)增量聚類完成藏文熱點(diǎn)話題的發(fā)現(xiàn)并提出熱點(diǎn)輿情分析結(jié)果可視化方案。部分熱點(diǎn)發(fā)現(xiàn)方面的研究成果已被應(yīng)用于實(shí)際的產(chǎn)品中,如李渝勤等提出的面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)已經(jīng)被應(yīng)用于拓爾思輿情檢測(cè)系統(tǒng)中的熱點(diǎn)話題發(fā)現(xiàn)模塊。

縱觀已有研究成果,我國(guó)微博輿情熱點(diǎn)發(fā)現(xiàn)與分析還處于探索階段,熱點(diǎn)話題發(fā)現(xiàn)的準(zhǔn)確率、召回率和時(shí)效性問(wèn)題,將影響整個(gè)輿情監(jiān)測(cè)系統(tǒng)的性能。目前,很多研究成果還無(wú)法適應(yīng)實(shí)踐的需求,在實(shí)際應(yīng)用中,突發(fā)事件的早期預(yù)警,輿情事件的進(jìn)展跟蹤等仍然依賴人工參與。因此,為了降低輿情監(jiān)控過(guò)程中人工參與的程度,本文將重點(diǎn)研究并提出微博輿情熱點(diǎn)話題挖掘模型以及具體的熱點(diǎn)話題發(fā)現(xiàn)方法。

1、微博輿情熱點(diǎn)挖掘方法

1.1 熱點(diǎn)挖掘模型構(gòu)建

根據(jù)微博數(shù)據(jù)的特點(diǎn)和用戶實(shí)際應(yīng)用的最終需求,構(gòu)建了由數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)智能分析層、輿情信息表示層和應(yīng)用層組成的微博輿情熱點(diǎn)挖掘系統(tǒng)模型,如圖1所示。

(1)數(shù)據(jù)采集層用于從國(guó)內(nèi)四大主流微博平臺(tái)自動(dòng)采集原始數(shù)據(jù)。目前新浪、騰訊、搜狐和網(wǎng)易均提供了微博開(kāi)放平臺(tái),將其微博相關(guān)功能接口通過(guò)Open API(Application Progamming Interface,應(yīng)用編程接口)的形式開(kāi)放給用戶。Open API即開(kāi)放平臺(tái)是服務(wù)型網(wǎng)站常見(jiàn)的一種應(yīng)用,網(wǎng)站的服務(wù)商將自己的網(wǎng)站服務(wù)封裝成一系列API開(kāi)放出去,供第三方開(kāi)發(fā)者使用,輿情挖掘系統(tǒng)中通過(guò)調(diào)用這些API可以獲取微博內(nèi)的數(shù)據(jù)。新浪微博同時(shí)還提供了微博開(kāi)放平臺(tái)商業(yè)數(shù)據(jù)API,為企業(yè)接入者提供便捷的獲取微博官方數(shù)據(jù)的通道,這為接入者提供了更強(qiáng)大的數(shù)據(jù)支持和穩(wěn)定性保障。endprint

(2)數(shù)據(jù)預(yù)處理層主要用于對(duì)原始數(shù)據(jù)進(jìn)行清洗,提取元數(shù)據(jù)。元數(shù)據(jù)主要包含兩個(gè)方面:第一,用戶信息元數(shù)據(jù)。包括認(rèn)證信息、基本信息(用戶ID、昵稱、性別、所在地、簡(jiǎn)介、生日、注冊(cè)時(shí)間)、微博數(shù)、粉絲數(shù)、關(guān)注數(shù)、評(píng)論數(shù)、微數(shù)據(jù)(被轉(zhuǎn)發(fā)數(shù)、收到評(píng)論數(shù))、微人脈(社交關(guān)系網(wǎng)絡(luò));第二,微博元數(shù)據(jù)。包括微博ID、微博內(nèi)容、發(fā)表時(shí)間、轉(zhuǎn)發(fā)數(shù)、被評(píng)論數(shù)、“贊”數(shù)、“@”內(nèi)容、表情符號(hào)、“#…#”關(guān)注話題、分享圖書、分享音樂(lè)、分享短視頻、發(fā)表時(shí)位置信息。

(3)數(shù)據(jù)存儲(chǔ)層實(shí)現(xiàn)在分布式數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)元數(shù)據(jù)。

(4)數(shù)據(jù)智能分析層是微博輿情熱點(diǎn)發(fā)現(xiàn)最核心的部分。主要是借助大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)(分類算法、聚類算法、相似項(xiàng)發(fā)現(xiàn)算法、序列模式挖掘算法)和自然語(yǔ)言處理相關(guān)技術(shù),實(shí)現(xiàn)對(duì)微博數(shù)據(jù)的智能分析。熱點(diǎn)話題的發(fā)現(xiàn)、情感傾向判斷、發(fā)展走勢(shì)分析和預(yù)測(cè)、時(shí)間和地域特征分析以及受眾跟蹤是這一層主要要實(shí)現(xiàn)的功能。

(5)輿情信息表示層主要實(shí)現(xiàn)微博輿情熱點(diǎn)挖掘結(jié)果的可視化。這一層主要包括三個(gè)方面的功能:第一,熱點(diǎn)話題博文排行榜,幫助快速了解輿情熱點(diǎn);第二,熱點(diǎn)話題博文時(shí)空分布特征圖表展示,直觀掌握輿情發(fā)生、發(fā)展和演變情況;第三,突發(fā)輿情預(yù)警功能,通過(guò)網(wǎng)站強(qiáng)調(diào)顯示、自動(dòng)向有關(guān)人員發(fā)送簡(jiǎn)報(bào)信息(短信、郵件、電話),為及時(shí)控制和引導(dǎo)輿情事件提供可靠的技術(shù)保障。

1.2 熱點(diǎn)詞的確定

實(shí)現(xiàn)微博輿情熱點(diǎn)挖掘的首要任務(wù)是在微博文本中發(fā)現(xiàn)熱點(diǎn)詞。在微博博文中出現(xiàn)的高頻詞中(不包括代詞、介詞、連詞、助詞、嘆詞、擬聲詞),選擇隨時(shí)間改變?cè)~頻變化大的作為熱點(diǎn)詞。詞是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位,但是在漢語(yǔ)語(yǔ)句中詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,因此在實(shí)現(xiàn)對(duì)熱點(diǎn)詞的提取前首先需要將微博文本中的語(yǔ)句分割成正確的詞語(yǔ)序列,然后再實(shí)現(xiàn)高頻詞的查找。

(1)這里采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS實(shí)現(xiàn)分詞處理。該系統(tǒng)主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;新詞識(shí)別;同時(shí)支持用戶詞典;支持繁體中文;支持gb2312、GBK、UTF8等多種編碼格式。ICrCLAS分詞速度單機(jī)500KB/s,分詞精度98.45%,是目前世界上最好的漢語(yǔ)詞法分析器。圖2是取自2014年8月31日新浪微博的一條博文,通過(guò)調(diào)用ICIELAS分析后效果如圖3所示。

計(jì)算所漢語(yǔ)詞性標(biāo)記集中的標(biāo)記共計(jì)99個(gè)(22個(gè)一類,66個(gè)二類,11個(gè)三類),其中一類標(biāo)記如表l所示。

(2)基于分詞后的結(jié)果,可以利用由日本早稻田大學(xué)科技學(xué)院Laurence Anthony編寫的一款綠色、跨平臺(tái)語(yǔ)料處理軟件AntConc(這里使用antconc3.2.4w版本)實(shí)現(xiàn)高頻詞的發(fā)現(xiàn)。AntConc具有詞語(yǔ)檢索、詞表生成、主題詞計(jì)算、搭配和詞族提取等多種功能。高頻詞的檢索和高頻詞在文內(nèi)呈現(xiàn)示意如圖4、圖5所示。

比如對(duì)2014年8月31日新浪微博中關(guān)于“中國(guó)新首富馬云”部分博文按照上述方法進(jìn)行分析,得到高頻詞據(jù)頻率由高到低分別是馬云、首富、王思聰、萬(wàn)達(dá)、電商、阿里巴巴。微博博文分析數(shù)據(jù)恰巧與一條新聞相關(guān)并且一致。2014年8月28日,美國(guó)彭博新聞社發(fā)布的億萬(wàn)富豪指數(shù)顯示,阿里巴巴創(chuàng)始人馬云超越萬(wàn)達(dá)集團(tuán)王健林成為中國(guó)首富。馬云是世界最大電商平臺(tái)的掌門人。因此,輿論關(guān)注的焦點(diǎn)也的確表現(xiàn)在馬云的財(cái)富和他所擁有的產(chǎn)業(yè)以及萬(wàn)達(dá)王健林的兒子王思聰?shù)确矫妗?/p>

(3)選擇隨時(shí)間改變?cè)~頻正向變化大的高頻詞作為熱點(diǎn)詞。

1.3 熱點(diǎn)博文聚類

通過(guò)聚類,可以實(shí)現(xiàn)熱點(diǎn)話題的發(fā)現(xiàn)。這里設(shè)計(jì)熱點(diǎn)博文聚類方法主要包含四個(gè)步驟:第一,將博文表示成熱點(diǎn)詞向量組的形式;第二,求解博文的熱點(diǎn)詞出現(xiàn)矩陣;第三,求解博文的相異度矩陣;第四,利用層次聚類Chamdeon算法實(shí)現(xiàn)熱點(diǎn)博文聚類。

1.3.1 博文的向量表示

微博博文集合用S表示,S={s1,s1,…,sn},其中si(1≤i≤n)代表一條微博文本,si=(hw1,hw2,…,hwm)(hwi(1≤i≤m)表示si中出現(xiàn)的經(jīng)過(guò)分詞過(guò)濾后的熱點(diǎn)詞)。

1.3.2 博文熱點(diǎn)詞出現(xiàn)矩陣定義

定義一個(gè)n×g(n條博文×g個(gè)熱點(diǎn)詞)的矩陣,如公式(1)所示。

1.3.3 博文相異度矩陣定義

定義一個(gè)n×n(n條博文)的矩陣,表達(dá)n條博文兩兩之間的近似性,如公式(2)所示。

其中,d(i,j)是毛和si之間的相異性的量化表示,是一個(gè)非負(fù)值,si和sj越相似,其值越接近于O,否則其值越大。因?yàn)閐(i,j)=d(j,i)且d(i,i)=0,這里只需要使用一個(gè)下三角矩陣。

另外,通過(guò)計(jì)算Jaceard系數(shù)來(lái)完成,如公式(3)所示。

其中,a表示在公式(1)中,兩條博文si和sj的相同熱點(diǎn)詞屬性具有相同屬性值1的屬性個(gè)數(shù);b表示在公式(1)中,兩條博文si和sj的相同熱點(diǎn)詞屬性具xip=1且xjp=0的特征的屬性個(gè)數(shù);c表示在公式(1)中,兩條博文si和sj的相同熱點(diǎn)詞屬性具xip=O且xjp=1的特征的屬性個(gè)數(shù)。

1.3.4 熱點(diǎn)話題發(fā)現(xiàn)

Chameleon是一種利用動(dòng)態(tài)建模的層次聚類算法,簇間的相似度依據(jù)族中對(duì)象的互連度和簇的近似度判斷,將互連性和近似性都大的簇合并。該算法可以發(fā)現(xiàn)高質(zhì)量的任意形狀的簇。借助該算法實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)的具體步驟如下:endprint

第一步,構(gòu)造一個(gè)K-最近鄰圖Gk。圖中頂點(diǎn)表示數(shù)據(jù)項(xiàng),即si(1≤i≤n);若si到sj的距離值是所有數(shù)據(jù)項(xiàng)到數(shù)據(jù)項(xiàng)sj的距離值中K個(gè)最小值之一,則在這兩個(gè)點(diǎn)之間加入一條帶權(quán)邊,邊的權(quán)重代表它們之間的近似度。即它們之間的距離越大,則它們之間的近似度越小,它們之間的邊的權(quán)重也越小。

第二步,根據(jù)最小化截?cái)噙叺臋?quán)重和來(lái)分割K-最近鄰圖Gk

第三步,合并子簇。訪問(wèn)每個(gè)簇,計(jì)算它與臨近簇的相對(duì)近似度(RI)和相對(duì)互連度(RC),計(jì)算方法如公式(4)和公式(5)所示;合并彤和RC分別超過(guò)TRj和TRc的簇對(duì)(TRI和TRC為用戶指定的閾值),若滿足條件的臨近簇多于一個(gè),合并具有最高絕對(duì)互連性的簇;重復(fù)上述操作,直到?jīng)]有可合并的簇。

其中,EC(Ci,Cj)是連接簇Ci和Cj的所有邊的權(quán)重之和;EC(Ci)是把簇劃分為兩個(gè)大致相等部分的最小等分線切斷的所有邊的權(quán)重之和。

其中,SEC(Ci,Cj)是連接簇Ci和Cj的邊的平均權(quán)重;SEC(Ci)是把簇Ci劃分為兩個(gè)大致相等部分的最小等分線切斷的所有邊的平均權(quán)重。

通過(guò)上述步驟可以完成熱點(diǎn)博文向量的聚類,提取簇心所在向量,將其對(duì)應(yīng)的博文作為熱點(diǎn)話題呈現(xiàn)。

2、結(jié)論

隨著互聯(lián)網(wǎng)的快速發(fā)展,微博作為其重要應(yīng)用之一已經(jīng)深入人們的日常網(wǎng)絡(luò)生活,社會(huì)各階層的參與者通過(guò)微博表達(dá)其對(duì)各種公共事務(wù)的意見(jiàn)、態(tài)度、觀點(diǎn)和情緒。對(duì)微博輿情的檢測(cè)、預(yù)警和引導(dǎo)是新形勢(shì)下創(chuàng)新科學(xué)社會(huì)管理機(jī)制的迫切需要。但微博數(shù)據(jù)量的迅猛增長(zhǎng)和數(shù)據(jù)形式的多樣化使得人工分析輿情信息變得愈發(fā)困難。在這種大數(shù)據(jù)背景下,為保證微博輿情檢測(cè)的準(zhǔn)確性和時(shí)效性,并逐步減少人工參與程度,本文研究并提出了由數(shù)據(jù)的采集、預(yù)處理、存儲(chǔ)、智能分析和信息表示等六層構(gòu)成的微博輿情熱點(diǎn)挖掘模型;重點(diǎn)討論了智能分析部分熱點(diǎn)話題提取的方法,首先利用分詞和詞索引實(shí)現(xiàn)熱點(diǎn)詞的發(fā)現(xiàn),然后設(shè)計(jì)博文的向量表示方法和相異度矩陣從而實(shí)現(xiàn)對(duì)博文數(shù)據(jù)的規(guī)范化處理,最后運(yùn)用Chameleon算法進(jìn)行博文聚類從而發(fā)現(xiàn)熱點(diǎn)話題。未來(lái)關(guān)于博文中情感傾向性分析問(wèn)題以及涉及長(zhǎng)微博的輿情分析將成為工作的重點(diǎn)。endprint

主站蜘蛛池模板: 国产精品女人呻吟在线观看| 干中文字幕| 亚洲精品国产日韩无码AV永久免费网| 无码国产偷倩在线播放老年人| 国产尤物视频网址导航| 伊人久久婷婷五月综合97色| 国产午夜无码片在线观看网站 | 亚洲精品在线91| 久久黄色视频影| 暴力调教一区二区三区| 亚欧成人无码AV在线播放| 精品五夜婷香蕉国产线看观看| 亚洲人成网站日本片| 538精品在线观看| 天堂亚洲网| 伊人中文网| 精品91自产拍在线| 91在线播放免费不卡无毒| 在线观看免费黄色网址| 蜜芽一区二区国产精品| 国产精品永久久久久| 久久久精品国产SM调教网站| 亚洲香蕉伊综合在人在线| 国产成+人+综合+亚洲欧美| www.精品国产| 久久国产精品嫖妓| 狠狠v日韩v欧美v| 久久久国产精品无码专区| 欧美精品啪啪| 天天综合网站| 国产成年女人特黄特色毛片免| 中日韩欧亚无码视频| 国产白浆一区二区三区视频在线| 国产女人18水真多毛片18精品 | 国产精品成人久久| 天堂在线亚洲| 无码内射中文字幕岛国片| 天堂中文在线资源| 日韩在线欧美在线| 激情六月丁香婷婷四房播| 18黑白丝水手服自慰喷水网站| 亚洲av无码人妻| 国产精品流白浆在线观看| 婷婷色在线视频| 亚洲大尺码专区影院| 狠狠色成人综合首页| 色综合天天综合中文网| 亚洲精品国产综合99| 亚洲精品福利视频| 无码一区中文字幕| 欧美国产成人在线| 欧美a级完整在线观看| 天堂在线视频精品| 国产男女免费视频| 91丝袜美腿高跟国产极品老师| 久久毛片免费基地| aa级毛片毛片免费观看久| 久久综合婷婷| 婷婷综合在线观看丁香| 亚洲一区二区在线无码| 日韩色图在线观看| 久久国产香蕉| 成年女人a毛片免费视频| 一个色综合久久| 亚洲二区视频| 国产精品短篇二区| 精品欧美一区二区三区在线| 国产女同自拍视频| 亚洲swag精品自拍一区| 亚洲天堂网在线播放| 欧美日韩国产综合视频在线观看| 狠狠色综合网| 亚洲欧美日韩精品专区| 99er精品视频| 88av在线| 国内自拍久第一页| 久久亚洲黄色视频| 狠狠亚洲婷婷综合色香| 四虎影视永久在线精品| 无码福利日韩神码福利片| 日本久久久久久免费网络| 国产综合精品日本亚洲777|