999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社區發現和關鍵節點識別的網絡輿情主題發現與實證分析

2020-12-15 10:55:14王曰芬王一山楊潔
圖書與情報 2020年5期

王曰芬 王一山 楊潔

摘 ? 要:為了深入探究網絡輿情演化的特點與規律,需要在內容層面上有效地從網絡輿情的大量數據中發現高價值的輿情主題,并結合時間維度將各個時間點孤立的輿情內容整合起來。文章將情報學理論、生命周期理論、輿情傳播理論、社會網絡分析方法與文本分析方法相結合,提出了基于社區發現與關鍵節點識別的包括網絡輿情生命周期階段劃分、網絡輿情社區發現與關鍵節點識別、輿情事件主題發現三個部分的網絡輿情主題發現研究設計。最后,選取新浪微博“上海踩踏”事件作為研究對象進行實證分析。研究發現:在主題發現研究中加入用戶屬性和用戶行為等非文本特征要素的設計,彌補了用戶關系的缺失,提高主題發現的效率;提出的主題發現方法在一定程度上降低了微博文本稀疏性的影響;研究發現了輿情事件在整個生命周期中主題內容變化的狀態,所提方案可為相關決策提供有效的方法支撐,研究結論具有情報參考價值。

關鍵詞:網絡輿情;主題發現;社區發現;關鍵節點識別;非文本特征

中圖分類號:C912.63 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2020081

Abstract In order to explore the characteristics and laws of the evolution of network public opinion, it is necessary to effectively identify high-value public opinion topics from a large number of data of network public opinion at the content level, and integrate the public opinion content isolated at different time points with the time dimension. This paper combines information science theory, life cycle theory, public opinion communication theory, social network analysis method and text analysis method, proposes the research design based on community detection and key node identification. Finally, the paper takes the "Shanghai stampede" incident of Sina Weibo as the research object for empirical analysis. The results show that: the addition of non-text feature elements such as user attributes and user behavior to the topic discovery makes up for the lack of user relationship and improves the efficiency of topic discovery; the proposed topic discovery method reduces the impact of sparsity of micro-blog text; the research finds out the changing state of the subject content of public opinion events in the whole life cycle. The proposed research design can provide effective methodological support for relevant decision-making, and the research conclusion has information reference value.

Key words network public opinion; topic discovery; community detection; key node identification; Non-textual features

1 ? 引言

近年來,隨著網絡信息技術的推陳出新,除了網絡新聞、網絡論壇外,諸如微博、微信、興趣知識型社區等網絡社交平臺如雨后春筍般涌現。相較于傳統媒體,網絡社交平臺在信息傳播上具備速度快、范圍廣、交互性強的特點,并且從根本上改變了信息傳播者與接受者之間的關系,顛覆了傳統新聞媒介原有的信息傳播方式,原本作為信息接受者的網民也能通過發表自己的觀點,作為信息發布者參與到新聞事件中來,形成了傳播者之間相互交錯、傳播主題瞬息紛呈、傳播效果變化難料的網絡傳播環境。

在此背景下,一些突發性社會事件或極易引起爭議的事件,經由網絡社交媒體的發布與信息傳播,在網民的推動下,就會形成網絡輿情。一方面,從輿情傳播可產生的正面效果講,網絡輿情在傳播過程中,由于涉及面廣,大量的網民參與其中,關注事件發展并充分表達觀點,可以形成值得政府、企業等機構參考并對各類社會組織有效監督的信息及其流動,促進公眾參與社會管理;另一方面,從負面效果來講,由于網民的情緒很容易被煽動,而且網絡中信息真偽難辨,一旦控制不好,容易引發更加嚴重的二次社會事件或輿情危機。因此,如何對大量的輿情數據進行采集、處理、整合、分析與挖掘,進而有效提取并了解公眾的輿情觀點,將有助于決策者了解人民群眾真正關心的事件與需求,做出更加科學合理的決策,同時在對網絡輿情信息進行內容挖掘的基礎上,了解輿情信息內容之間深層次的關聯關系,真正掌握輿情信息的傳播與演化規律,并在網絡輿情發生之初就能積極應對,將最大限度地降低輿情事件帶來的負面影響。

由于網絡社交媒體平臺具有用戶眾多、發布迅速、用語不規范等特點,相應地,生成于該平臺的網絡輿情數據則具有體量浩大(Volume)、模態繁多(Variety)、生成快速(Velocity)和價值低密(Value)的特點。基于此,如何有效地從網絡輿情的大量數據中發現高價值的輿情主題是從內容層面研究網絡輿情演化的前提,并結合時間維度,如何將各個時間點孤立的輿情內容整合起來,是從內容層面研究網絡輿情的核心。為解決上述問題,本文將借助于情報學理論和方法,結合生命周期理論、網絡輿情演化理論、社會網絡分析方法與文本分析方法,以微博為實驗平臺,針對微博輿情數據特點設計網絡輿情分析研究方案,探索輿情主題發現的有效方法,并分析輿情內容的演化規律,以期為決策提供方法支撐與情報參考。

2 ? 相關研究

迄今為止,有關輿情研究論文涉及的面廣、數量多,基于本文的研究目的,將圍繞著輿情主題發現、社區發現、關鍵節點識別和輿情生命周期研判四個方面進行概要歸納。

(1)輿情主題發現。主題發現即主題抽取或主題識別,目的是對大規模信息進行處理和分析,幫助用戶快速有效地了解信息內容、發現信息主題。主題發現最早源自美國國防部高級研究計劃署提出的話題檢測與跟蹤技術,旨在對海量的信息內容進行處理和分析,以發掘信息主題[1]。現有的文本聚類和主題模型兩類主題發現方法已經被應用到輿情主題發現中,如路榮等[2]提出一種在大規模微博客短文本數據集上發現新聞話題的方法,利用隱主題分析技術,解決短文本相似度度量的問題;唐曉波和房小可[3]針對文本聚類和LDA主題模型的互補特征,綜合考慮微博特殊文體和短文本聚類效率問題,提出基于頻繁詞集的文本聚類和基于類簇的LDA主題挖掘相融合的主題檢索模型;阮光冊[4]針對網絡用戶評論信息內容短、信息量少的特征,提出基于LDA(latent Dirichlet allocation)主題發現模型對網絡評論進行主題發現;Weng等[5]和Zvi等[6]在用戶層面進行主題建模,研究根據用戶的興趣進行個性化推薦以及社區發現;Titov和Mcdonald[7]提出了多粒度LDA 模型,將情感層加入LDA模型,同時考慮了文檔級與局部的情感/主題分布,避免了對單詞、短語和句子的依賴,改善了情感分布在不同領域的適應性。

(2)社區發現。社區發現是指將一個集合中的元素按照元素之間的某種關系,劃分為若干個社區(可交叉子集)的過程[8]。社區發現的基本作用是將個體進行分類,劃分到多個社區中。根據相關文獻,現有的社區發現研究主要集中在社會學的分級聚類和圖理論的圖形分割兩方面[8],代表算法有:GN(Girvan and Newmans)算法[9]、Newman 快速算法[10]、基于圖聚類的normalized cut 算法[11]等,以及在上述算法基礎上的應用研究,如淦文燕等[12]從數據場思想出發,提出一種基于拓撲勢的社區發現算法;林友芳等[13]提出一種邊穩定系數模型和一種能表達個體間關系緊密度的完全信息圖模型,在此基礎上設計和實現了一種融合個體和鏈接屬性的社區發現算法[13]。

(3)關鍵節點識別。社會網絡中的關鍵節點是指在網絡形成與交互中具有重要影響力的節點,是與輿情傳播中“意見領袖”概念相對應的。“意見領袖”最先由拉扎斯菲爾德提出,其定義為:媒介信息傳給社會群體的過程中,那些扮演某種有影響力的中介角色[14]。社會網絡中關鍵節點的識別方法主要包括層次分析法、聚類分析法、社會網絡分析法、HITS算法及PageRank算法等[15]。相關學者基于上述方法進行了大量的研究,如Darus等[16]利用AHP方法研究選擇團隊領袖的團隊構建模型;譚雪晗等[17]利用社會網絡分析方法篩選出事故災難輿情中的關鍵信息發布者和關鍵事件關注者,并提出以關鍵節點為中心的事故災難輿情治理策略;肖宇等[18]在傳統PageRank算法基礎上,利用用戶回帖傾向性對用戶間鏈接的權重重新賦值,構建新的基于傾向性分析的LeaderRank意見領袖發現算法。

(4)輿情生命周期研判。“生命周期”(Life Cycle)這一概念最初源自生物學領域,用于描述生物體在生命演化過程中其形態和功能所發生的改變及其呈現出的階段性特征。基于生命周期概念形成的理論認為,某一事物或對象從產生到消亡的全過程可視作一段完整的生命過程,而這一過程又因該事物或對象前后表現出不同的形態可劃分為多個不同的階段。網絡輿情事件的發展歷程跟上述生命周期類似,同樣要經歷生物體從出生到死亡的全過程。如某一輿情事件發生后,隨之而來的是輿情信息在網絡平臺的擴散和傳播,且輿情信息隨著網民之間的互動,不斷傳播迭代,其形態和發展方向會逐步變化。目前,生命周期理論在網絡輿情演化研究中的應用主要體現在兩個方面[19-20]:①使用生命周期理論可以表明輿情事件在網絡中的傳播具備生命周期特征;②根據生命周期理論為輿情事件劃分階段,便于研究輿情事件在不同階段的特征差異,為輿情演化研究提供分析思路。

綜上所述,學者們對相關內容進行了許多研究。但是,利用諸如用戶行為等非文本特征進行輿情主題發現的研究仍然較少,有待繼續深入。網絡輿情在社交媒體平臺中的傳播深受平臺用戶行為的影響,如用戶的發布、轉發、評論和點贊等行為推動著輿情信息的產生和傳播。由于平臺中的輿情信息不僅包括文本內容,還包含用戶、時間、地理位置等非文本特征的信息,對這些信息進行深度挖掘與分析才能反映輿情主題及其變化。基于情報學的輿情分析是圖書情報學領域的特色主題[21],因此,本文認為利用用戶行為等非文本特征信息從內容層面和時間維度相結合的角度進行網絡輿情主題發現與分析的研究將是值得深入研究的方向。

3 ? 研究設計

3.1 ? ?研究思路

研究選取微博平臺作為數據來源,以網絡輿情事件作為研究對象,將研究主要流程設計劃分為:網絡輿情生命周期階段劃分、網絡輿情社區發現與關鍵節點識別、輿情事件主題發現三個部分,并提出研究設計的總體思路(見圖1)。

其中,第一部分,輿情事件的生命周期階段劃分:導入生命周期理論,按照輿情事件的發展態勢,將輿情事件從產生到消亡的整個過程劃分為若干個階段;第二部分,網絡輿情社區發現與關鍵節點識別:首先,以微博用戶為節點,用戶行為(轉發和評論)為連線,構建輿情社會網絡;其次,利用社區發現算法進行用戶社區發現;最后,識別每個社區的關鍵節點;第三部分,網絡輿情主題發現:首先,建立“用戶社區-關鍵節點-微博”映射,獲得每個社區的微博內容;其次,利用TF-IDF算法進行用戶社區關鍵詞過濾,提取TF-IDF值排名Top20的關鍵詞作為輿情主題詞,并歸納每個社區的主題。在完成輿情主題發現后,歸納輿情主題并分析。

3.2 ? ?網絡輿情社區發現與關鍵節點識別的研究設計

(1)輿情社會網絡構建。節點和連線是社會網絡中最基本的兩類元素,節點代表用戶或行為者,連線代表行為者之間的關系,構建社會網絡需要確定節點和連線。輿情事件在微博中的傳播與擴散主要靠的是用戶的轉發和評論,基于轉發和評論關系構建的微博社會網絡具有更明確的事件性和主題性。因此,本文基于轉發和評論兩類用戶行為構建微博輿情社會網絡:以微博用戶為節點,以用戶對微博的轉發或評論行為建立轉發者、評論者與被轉發者、被評論者之間的聯系作為連線,構建微博輿情社會網絡。同時,本文對轉發和評論兩類用戶行為賦予不同的權重(具體說明見表1)。

其中, C(Ui)是所有與Ui發生交互的節點數目,本文中的社會網絡是基于權重的網絡,需要考慮邊的權重;d是阻尼系數,可設定在(0,1)之間, 通常取0.85。通過迭代,可以計算所有用戶的L(Ui)。

3.3 ? ?網絡輿情主題發現的研究設計

(1)“用戶社區-關鍵節點-微博”映射。根據本文研究,我們可通過計算微博用戶的影響力來識別微博輿情社會網絡中的關鍵節點。用戶影響力取決于用戶屬性和用戶行為,其外在表現以具體的微博內容形式呈現,高影響力用戶的微博內容的傳播效果更大、影響范圍更廣。在識別每個用戶社區的關鍵節點后,提取其微博內容,建立“用戶社區-關鍵節點-微博內容”的映射,是進行主題發現的前提。具體操作說明如下:首先,根據用戶社區編號和用戶ID精確匹配用戶社區和關鍵節點;其次,根據微博用戶發布者ID將關鍵節點用戶與其所發微博內容對應起來;最后,形成“用戶社區-關鍵節點-微博內容”映射,構成各用戶社區的微博文本集合。

(2)用戶社區關鍵詞過濾及輿情主題提取。由于微博文本具有字數少、不規范等特點,為提高主題的識別準確度,需要將分散的微博文本集中起來。首先,將用戶社區微博文本集中的所有微博文本進行合并,包括原創微博、轉發微博。部分微博文本中含有一些網頁鏈接,鏈接內容多為相關的新聞報道和點評文章,用戶發布這些鏈接的初衷就是希望讓更多的人查看鏈接內容。而且鏈接內容被發布或轉發也代表被對應的發布和轉發用戶熟知并贊同,一定程度上代表其觀點和看法。因此,微博文本中鏈接內容也要并入上述文本集中;其次,計算文本集中詞語的TF-IDF值,按照從高到低的順序排列,并選取TF-IDF值排名前20的關鍵詞作為輿情主題詞,并進行歸納。

TF-IDF算法是一種利用統計原理的分析方法,用以評估某一個字或詞對一個文檔集或一個語料庫中的某一份文件的重要性,常用于長文本的關鍵詞重要性分析,其主要思想為:某一字詞的重要性與其在文檔中的出現頻次正相關,同時與該字詞在整個語料庫中的出現頻次負相關。其中“TF”代表詞頻(termfrequency,TF),表示某個詞在文檔中的出現次數,文章有長短之分,為了便于不同文章的比較,需要做“詞頻”標準化,因此本文規定,詞頻(TF)=某個詞在文檔中的出現次數 / 文檔總詞數;“IDF”代表逆向文件頻率(inverse document frequency,IDF),它的大小與詞的常見程度成反比,逆文檔頻率(IDF)= log(語料庫的文檔總數/包含該詞的文檔總數+1)。TF-TDF值計算公式如下所示:

TF-IDF = 詞頻(TF) * 逆文檔頻率(IDF) ? ? (7)

綜上所述,文檔中某一詞的TF-IDF值越大,表示該詞對文檔越重要,越能表示文檔內容的主題。TF-IDF算法可用于自動提取文檔的關鍵詞,即計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞。

4 ? 實證分析

4.1 ? ?數據來源及其說明

本文的數據來源為新浪微博(littp://weibo.com),采集策略為:以輿情事件“上海踩踏”為檢索詞,使用微博爬蟲采集輿情事件數據,并將獲取的數據存入MySQL數據庫。根據前期調查,將數據的時間跨度設為:2015年1月1日-2015年3月20日。采集后的數據存放在四張信息表中:(1)微博信息表(weibo_info),主要記錄用戶發布和轉發的微博內容信息;(2)轉發表(weibo_forward),主要記錄用戶的轉發行為信息,包括轉發者、被轉發者以及轉發的微博內容;(3)評論表(weibo_comment),主要記錄用戶的評論行為信息和評論內容;(4)用戶信息表(weibo_blogger),主要記錄參與輿情事件的用戶信息。

4.2 ? ?輿情事件生命周期階段劃分

輿情事件從產生到消亡的整個過程總是要持續一段時間的,此過程歷經輿情的產生、擴散、爆發和消亡等多個階段,且伴隨著用戶的情緒、意見、觀點等的發展與變化。經過統計,可以看到上海踩踏事件的微博發文數和轉發數按天計算的結果(見圖2),并發現在微博平臺中的輿情傳播呈現出明顯的階段性特征。

根據生命周期理論,本文依據微博發文數和轉發數的變化情況來劃分輿情事件的傳播階段。由圖2中可知上海外灘踩踏事件一是相對跨越的時間較長,二是中間經歷了幾次起伏變化,所以,結合生命周期理論與輿情變化數,將輿情事件的整個過程劃分為五個階段:

(1)爆發期一:1月1日-1月6日;

(2)衰退期一:1月7日-1月11日;

(3)爆發期二:1月12日-1月19日;

(4)爆發期三:1月20日-1月27日;

(5)衰退期二及平緩期:1月28日-3月20日;

由于,“爆發期一”處于事件發生后的最初幾天,數據信息量過于龐大,故本研究對其進行進一步劃分,以“天”為單位,又將其劃分為6個小階段。

4.3 ? ?網絡輿情的社區發現與關鍵節點識別

(1)輿情社會網絡構建。目前國內外用于社會網絡關系構建的應用軟件包括:Gephi、Citespace、Network Workbench Tool以及Pajek等。由于Gephi能夠處理的數據量較大,可視化效果較好,本文采用Gephi軟件來實現基于用戶轉發和評論關系的輿情事件社會網絡構建,并使其可視化。具體操作步驟如下:①映射:以微博信息表中的微博ID(或mid)為橋梁,匹配轉發表中的轉發者ID(forwarder_id)和被轉發者ID(用戶信息表中查找用戶ID),形成用戶轉發關系映射;匹配評論表中的評論者ID(reviewer_id)和被評論微博發布者ID(用戶信息表中查找用戶ID),形成用戶評論關系映射;②賦權:根據微博用戶轉發、評論權重,給上述轉發關系映射和評論關系映射分別賦予2和1的權重值;③合并:將相同的轉發關系映射和評論關系映射合并,對應的權重值求和,如:A用戶轉發B用戶一次,評論一次,“A-B”用戶行為關系映射的權重為:2+1=3;④Gephi導入數據初始化:進一步處理上述合并后的用戶行為映射表,提取表中所有節點,去重,統計每個節點的出現頻次,形成“節點”數據表;原有的用戶行為關系映射表則作為“邊”數據表(兩類表格樣例分別見圖3、圖4)。

(2)社區發現。在本文構建輿情社會網絡的基礎上,利用公式2進行用戶社區的發現。選取輿情事件生命周期各階段用戶數占比在1%以上的社區,并將其編號并按照規模大小降序排列(部分社區信息見表2)。

(3)關鍵節點識別。利用公式4、5和6計算輿情生命周期各階段每個社區中用戶的影響力,并按照其大小降序排列。研究發現,除了常見的擁有高粉絲數的高影響力用戶外,社區中同樣存在擁有低粉絲數的高影響力用戶,其PageRank值較高,說明該類用戶在輿情事件中積極傳播信息,受到高度關注。這一實驗結果也應證了將PageRank值與粉絲數相結合來表示微博用戶影響力這一方式是有效的。根據“二八定律”(20%的用戶占據了80%以上的影響力),研究選取影響力值占比前80%的用戶作為該社區的關鍵節點(見圖5)。

4.4 ? ?網絡輿情主題發現

(1)“用戶社區-關鍵節點-微博”映射。根據關鍵節點的ID,在微博信息表和轉發表中查詢與關鍵節點相關的微博內容,包括:原創微博內容、轉發的微博內容及轉發評語、微博內容中的URL網址所對應的網頁內容。將屬于同一個關鍵節點的內容進行合并,并映射到該用戶,最終形成用戶社區的微博文本集合(見圖6)。

(2)用戶社區關鍵詞過濾及輿情主題提取。根據上述實驗結果研究發現,同一個用戶社區的關鍵節點的微博內容雖有部分差異,但整體內容基本趨于一致。其表現通常為:①某一或兩個關鍵節點發布內容,大量微博用戶轉發,圍繞這一或兩個關鍵節點形成用戶社區;②某一或兩個關鍵節點發布內容,少數用戶轉發其微博并作評價,大量用戶再轉發評價后的微博,形成多層級的轉發關系,再形成用戶社區。兩類社區中的微博內容基本都是在個別原創微博的基礎上增加內容,同質化情況較為嚴重,而且單條微博文本也存在字數較少的問題,不利于主題提取。因此,研究中將用戶社區關鍵節點的微博合并,以用戶社區為單位抽取關鍵詞。利用公式7計算用戶社區中所有詞語的TF-IDF值,并由高到低排序,選取TF-IDF值排序在前20的詞語作為用戶社區的輿情主題詞(見表3)。并將輿情事件生命周期每個階段的不同用戶社區的輿情主題詞及其主題內容進行歸納(見表4)。

4.5 ? ?輿情事件主題的歸類與分析

根據提取的上海踩踏事件生命周期各階段的主題詞及其歸納主題,本文在此基礎上結合事件的發展,將所有主題按照踩踏事件主題、關聯事件主題、觀點看法主題、情感表達主題四大類進行總結和分析,得出事件全部主題內容細節(見表5),本文將詳細分析各類輿情事件揭示的主題內容。

從整體上看,事件的主題內容主要集中在:(1)對踩踏事件的跟蹤報道:踩踏發生、傷員遇難者信息、警力部署、事故調查等;(2)相似或關聯的事件:哈爾濱大火、郴州工地坍塌、西北大學爭議文章等;(3)觀點看法的表達:遇到類似事故如何自救、對城市管理水平的思考、發達國家的優秀經驗、追究相關人員責任、反腐敗等;(4)情感表法:默哀、心痛、難過、譴責排外言論、譴責腐敗行為、痛斥散布謠言等。

從相鄰階段主題的演化上看,在“爆發期一”階段,事件剛發生時,主題主要為事故現場信息及其跟蹤報道,緊接著便是遇難者統計、傷員救治等事故處理類的主題,這一過程中夾雜著網友的情緒宣泄;事件發生兩天后,一些與事件間接相關的事件主題被網絡媒體和網民拋出,同時針對事故進行反思和觀點看法的表達迅速增多,整個網絡社區充斥著各種討論,其中不乏謠言和極端言論;隨著傷員救治和遇難者善后工作的逐步完成,與事件直接相關的主題過渡到事故原因調查,政府出臺相關規定,以及處理責任人上。同時網民討論的重點也是對各項規章制度的比較與反思,這段時間整體言論都偏理性,感性言論較少;隨著西北大學發文《上海踩踏事故證明我院的管理無比正確》和遇難者“頭七”的到來,網絡上隨即出現了大量的聲討、諷刺和譴責西北大學的主題,情緒宣泄的感覺強烈,同時“頭七”當天大量的默哀類主題占據主流。

在“衰退期一”階段,微博的發文數和轉發數逐漸降低,事件開始逐漸走向平息,事件進展類的主題被關聯事件主題、觀點看法和情緒表達的主題所取代。

在“爆發期二”階段,隨著“踩踏事件發生當晚,黃浦區領導在外灘高檔餐廳公款吃喝”這一消息的披露,事件再次被點燃。該階段內,用餐細節和涉事官員的信息被披露,輿情主題從之前的事故反思和吸取教訓逐漸分化為:(1)公款吃喝類主題:處理涉事官員、反腐敗、依法治國;(2)事故反思和吸取教訓類主題。

在“爆發期三”階段,由于“爆發期二”階段披露的公款吃喝事件的倍受關注以及相關處理結果的公布,網民的討論熱情迅速高漲,輿情在“爆發期二”階段后被再次推向高潮,此階段的主題集中在對公款吃喝事件的深度挖掘和情感表達上,內容更豐富,情緒更激烈。

在“衰退期二及平緩期”階段,隨著“公款吃喝”這一插曲熱度減退,網民的討論熱情逐漸降低,關注重點又再次回到關聯事件分析、觀點表達等較為理性的主題上。

5 ? 結語

為了深入探究網絡輿情演化的特點與規律,解決在內容層面上有效地從網絡輿情的大量數據中發現高價值的輿情主題,并結合時間維度將各個時間點孤立的輿情內容整合起來的問題,本文提出了基于社區發現和關鍵節點識別的網絡輿情主題發現的研究設計,并選取“上海踩踏”事件進行實證分析,取得如下研究成果:

(1)在主題發現研究中加入用戶屬性和用戶行為等非文本特征,彌補了用戶關系的缺失。由于社交網絡平臺高交互性的特點,網絡輿情主題在形成過程中一直伴隨著用戶屬性和用戶行為的信息生成,這類非文本特征在深層次上起著聯系輿情內容的作用。利用這類非文本特征可以規避傳統主題發現方法僅從文本特征一個維度進行主題發現的缺陷,較好地識別重要的輿情主題,提高主題發現的效率。

(2)設計的主題發現方法一定程度上降低了微博文本稀疏性的影響。本研究利用輿情事件的用戶數據和行為數據,在構建基于用戶行為關系的輿情社會網絡的基礎上,進行用戶社區發現,將用戶聚合于不同的用戶社區中,并識別各個社區的關鍵節點,最后提取其內容進行主題發現。相比單純從輿情文本數據中直接提取主題,利用本文所提出的主題發現方法提前進行了一輪篩選,有效識別重要內容,因而提取的主題更能表征輿情內容。

(3)研究發現了輿情事件在整個生命周期中主題內容變化的狀態,所提研究方案可為相關決策提供有效的方法支撐,研究結論具有情報參考價值。

此外,鑒于本文實證分析時數據來源較為單一和選取事件案例較少的不足,為提高研究設計的普適性和研究結論的代表性,后續將考慮融合多個網絡平臺的數據、選取多個同類事件案例進行更為全面的研究。

參考文獻:

[1] ?梁曉賀,田儒雅,吳蕾,等.微博主題發現研究方法述評[J].圖書情報工作,2017,61(14):141-148.

[2] ?路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發現[J].模式識別與人工智能,2012,25(3):382-387.

[3] ?唐曉波,房小可.基于文本聚類與LDA相融合的微博主題檢索模型研究[J].情報理論與實踐,2013,36(8):85-90.

[4] ?阮光冊.基于LDA的網絡評論主題發現研究[J].情報雜志,2014,33(3):161-164.

[5] ?WengJ,Lim E P,Jiang J,et al.TwitterRank:finding topic-sensitive influential twitterers[EB/OL].[2018-09-15].https://www.researchgate.net/publication/221520147_Twitterrank_Finding_Topic-Sensitive_Influential_Twitterers.

[6] ?Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[EB/OL].[2018-09-15].https://arxiv.org/ftp/arxiv/papers/1207/1207.4169.pdf.

[7] ?Titov I,Mcdonald R.Modeling online reviews with multi-grain topic models[C].Proceedings of the 17th international conference on World Wide Web,ACM.China: Beijing,April 21-5,2008:111-120.

[8] ?王莉軍,楊炳儒,翟云,等.動態社區發現算法的研究進展[J].計算機應用研究,2011,28(9):3211-3214.

[9] ?Girvan M,Newman M E J.Community structure in social and biologicalnetworks[J].Proceedings of National Academy of Sciencesof USA,2002,99(12):7821-7826.

[10] ?ClausetA,Newman M E J,Moore C.Finding community structure in very large network[J].Physical review E,2004,70(6 Pt 2):066111.

[11] ?Shi Jian-Bo,Malik J.Normalized cuts and image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.

[12] ?淦文燕,赫南,李德毅,等.一種基于拓撲勢的網絡社區發現方法[J].軟件學報,2009,20(8):2241-2254.

[13] ?林友芳,王天宇,唐銳,等.一種有效的社會網絡社區發現模型和算法[J].計算機研究與發展,2012,49(2):337-345.

[14] ?Zhou H,Zeng D,Zhang C.Finding leaders from opinion networks[C].IEEE International Conference on Intelligence and Security Informatics,IEEE,2009: 266-268.

[15] ?王曰芬,杭偉梁,丁潔.微博輿情社會網絡關鍵節點識別與應用研究[J].情報資料工作,2016,37(3):6-11.

[16] ?Darus N M,Yasin A,Omar M,et al.Team formation model of selecting team leader:an Analytic Hierarchy Process(AHP) approach[J].ARPN Journal of Engineering and Applied Sciences,2015,10(3):1060-1067.

[17] ?譚雪晗,涂艷,馬哲坤.基于SNA的事故災難輿情關鍵用戶識別及治理[J].情報學報,2017,36(3):297-306.

[18] ?肖宇,許煒,夏霖.一種基于情感傾向分析的網絡團體意見領袖識別算法[J].計算機科學,2012,39(2): 34-37.

[19] ?丁潔.基于社會網絡的網絡輿情演化研究[D].南京:南京理工大學,2015.

[20] ?謝科范,趙湜,陳剛,等.網絡輿情突發事件的生命周期原理及集群決策研究[J].武漢理工大學學報(社會科學版),2010,23(4):482-486.

[21] ?王連喜,曹樹金.學科交叉視角下的網絡輿情研究主題比較分析——以國內圖書情報學和新聞傳播學為例[J].情報學報,2017,36(2):159-169.

[22] ?Blondel V D,Guillaume J L,Lambiotte R,et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008(10):P10008.

[23] ?肖宇,許煒,夏霖.網絡社區中的意見領袖特征分析[J].計算機工程與科學,2011,33(1):150-156.

作者簡介:王曰芬(1963-),女,南京理工大學經濟管理學院、江蘇省社會公共安全科技協同創新中心教授,博士生導師,研究方向:文本挖掘與知識管理、數據科學與知識服務、輿情分析與情報研究;王一山(1994-),男,南京理工大學經濟管理學院碩士研究生,研究方向:輿情分析與情報研究;楊潔(1994-),女,南京理工大學經濟管理學院博士研究生。

主站蜘蛛池模板: 国产精品亚洲专区一区| 亚洲视频在线网| 欧美啪啪网| 精品少妇三级亚洲| 国产久草视频| 日韩天堂在线观看| 黄色三级网站免费| 在线免费亚洲无码视频| 亚洲欧美另类中文字幕| 国产va在线| 999在线免费视频| 欧美区一区| 97国产精品视频人人做人人爱| 国产噜噜在线视频观看| 欧美亚洲一区二区三区在线| 亚洲天堂日本| 老汉色老汉首页a亚洲| 亚洲成人一区二区三区| 国内精品视频| …亚洲 欧洲 另类 春色| 97超碰精品成人国产| 无码av免费不卡在线观看| 亚洲人妖在线| 亚洲成a人在线观看| 国产杨幂丝袜av在线播放| 亚洲精品无码不卡在线播放| 国产成人精品2021欧美日韩| 亚洲AV永久无码精品古装片| 国产精品福利社| 国产91小视频| 亚洲一区二区成人| 国产又粗又爽视频| www.亚洲天堂| 日韩不卡高清视频| 亚洲成人动漫在线| 亚州AV秘 一区二区三区| 亚洲美女一区| 日韩av手机在线| 国产欧美日韩免费| 婷婷综合在线观看丁香| 国产精品漂亮美女在线观看| 免费国产福利| 日韩精品免费在线视频| 国产精品精品视频| 嫩草在线视频| 国产高清国内精品福利| 色哟哟国产精品| 欧美成人区| 女人18毛片水真多国产| 黄色网址手机国内免费在线观看| 九九热这里只有国产精品| 日本在线亚洲| 狼友视频一区二区三区| 无码区日韩专区免费系列| 亚洲大尺度在线| 欧美亚洲一区二区三区导航| 亚洲精品无码高潮喷水A| 欧美97欧美综合色伦图| 日韩欧美91| 国产成人毛片| 国产成人高清精品免费软件 | 欧美成人一级| 亚洲欧美日韩中文字幕在线一区| 一区二区三区国产精品视频| 日韩欧美网址| 免费国产小视频在线观看| 中文字幕免费视频| 日本在线欧美在线| 亚洲欧美日韩久久精品| 1024国产在线| 毛片免费观看视频| 亚洲福利一区二区三区| 国产一级毛片yw| 天天爽免费视频| 婷婷亚洲视频| 国产一区二区免费播放| 亚洲不卡影院| 韩国自拍偷自拍亚洲精品| 国产91熟女高潮一区二区| 中文字幕伦视频| 天天综合网亚洲网站| 成年片色大黄全免费网站久久|