黃煒++姚嘉威



〔摘要〕隨著網絡時代的到來,網絡數據呈指數爆炸式增長,主題的模糊性越來越明顯。同時多元非結構性的數據使得傳統的聚類算法在網絡輿情事件的發現越來越困難,不能滿足高效,精準,及時、有效的感知需求。本文引入LDA聚類算法,基于主題生成模型,挖掘數據背后的語義關聯,設計并且實現輿情事件的熱點主動感知系統。通過數據實驗表明,該系統能夠快速、高效地發現事件主題,克服偏移詞的干擾,從而實現網絡輿情事件熱點的主動感知。
〔關鍵詞〕網絡輿情;熱點事件;LDA;聚類
DOI:10.3969/j.issn.1008-0821.2015.10.002
〔中圖分類號〕TP391〔文獻標識碼〕A〔文章編號〕1008-0821(2015)10-0007-05
Research on Detection of Network Public Opinion EventHuang Wei1,2Yao Jiawei1
(1.School of Economy and Management,Hubei University of Technology,Wuhan 430068,China;
2.School of Management,Wuhan University of Technology,Wuhan 430070,China)
〔Abstract〕With the era of cloud computing and data arrival,the amount of data the exponential explosion,ambiguity and complexity increase and the theme of the more obvious,and massive multiple non-structured data,the traditional clustering algorithm is found and perceived significantly more and more limitations in the event of network public opinion,can not meet the high efficiency,accurate,timely,effective demand.This paper introduced the modern LDA clustering algorithm,which was based on the theme of generation model,capable of semantic association mining behind the data,through the continuous evolution of reasoning,in order to explore the data hidden value,design and implementation of public opinion events hot perception system.Through a large number of experimental data obtained,the system could efficiently and quickly found the data subject,accurately grasp the core essentials,and ignore the interference of individual words,so as to determine the perception of Internet public opinion hotspot.
〔Key words〕network public opinion;hot topic event;LDA;clustering
網絡信息的爆發式增長,傳統的分析方法已經不能適用這樣的環境。很多垃圾信息充斥著互聯網,導致越來越多的信息資源并沒有被人們所利用。與此同時,泛在網絡和自媒體的快速發展正改變著傳統信息傳播的媒介和方式,憑借其開放性、實時性和自由性,迅速占領了網絡應用市場,例如微博和微信。人們利用這些工具進行隨時隨地的信息發布和傳播,從而使社會的各種矛盾通過網絡不斷展現和放大,產生了較大的負面影響。如何及時發現和感知人民群眾所關心和關注的熱點,促進網絡文明社會的和諧發展,在新形勢下顯得格外重要。
基于主題發現的LDA[1]文本聚類在此需求下應運而生,旨在輔助用戶快速有效地找到所需資源,提供更精準的主題信息服務。本文引入LDA聚類算法進行海量數據處理,分類匯總,提煉數據背后的關聯主題,從而提高信息檢索和主題發現的精準率,為準確把握網絡輿情事件的熱點主題服務。
1LDA與輿情熱點感知
11LDA主題模型
一般傳統聚類算法按照處理方式的不同通常可以分為6類:層次法,劃分法,密度法,網格法,模型法和約束法[2]。而基于概率法的LDA(Latent Dirichlet Allocation),簡稱隱含狄利克雷分配,是近年來發展起來的一種重要的離散數據集合的建模方法[3]。LDA基于一個常識性假設,文檔集合中的所有文本均共享一定數量的隱含主題。基于該假設,它將整個文檔集特征化為隱含主題的集合,而每篇文本被表示為這些隱含主題的特定比例的混合。LDA作為新型數據挖掘和人工智能領域已經成為熱門技術,廣泛應用于信息檢索,機器學習,自然語言處理研究,已經取得一些成果[4-7]。在文本聚類領域引入LDA算法,是一種在無監督學習下,突破傳統聚類方法以詞語重復度作為相似計算的依據,發現文字背后的語義關聯,解決同義詞和多義詞噪聲問題,完成大數據計算環境下的降維。在海量數據中提取精準的主題,使信息檢索與主題發現更加智能化,網絡輿情事件熱點特征的感知與提取更加精準[8]。endprint
2015年10月第35卷第10期現?代?情?報Journal of Modern InformationOct,2015Vol35No102015年10月第35卷第10期網絡輿情事件的主動感知實踐Oct,2015Vol35No1012輿情熱點感知
隨著網絡自媒體數據量的不斷增加,網民逐漸成為互聯網主宰者,他們的言論往往是實時的最有影響的輿論來源。話題發現與跟蹤技術(TDT)[9]就是在這種環境下產生,它是針對信息發現和信息過載提出一套解決方案,目的是通過對文章主題的發現與跟蹤,把各種分散的信息有效地進行匯集并組織線索,以提供給用戶進行查閱等高層次服務,文本聚類方法是TDT重要組成部分。網絡熱點話題發現[10-11]是從各種網絡源信息中發現某段時間內各個領域發生的引起人們較大關注的話題,發現并監控熱點話題有助于讓大眾知曉某段時間內的社會焦點。網絡輿情[12]具有內容多元、主體主導、群體極化和虛實互動等特征,容易導致群體性事件的產生。及時地發現社會輿情,為政府監管部門制定相關政策提供理論依據,對提高虛擬社會管理水平具有重要意義。
2基于LDA的網絡輿情事件熱點感知方法
網絡輿情事件熱點感知的本質就是文本集自動聚類技術,發現內部隱藏主題。熱點發現往往采用這4個模型[13]:布爾模型、向量空間模型、概率模型、語言模型。布爾模型采用兩個文檔共現的索引項,通常作為聚類算法的輔助工具。向量空間模型將文章以向量形式表示,文章相似性采用向量之間的距離,權值通常采用TF-IDF,兩篇文章共現詞越多,權重越大,相似距離越近,但容易丟掉文章的語義關聯。概率模型使用概率構建主題模型,通過特定算法進行主題模型驅動,自動生成歸類,非常適用在網絡輿情信息源數據量大、主題模糊性高、事件個數不確定性的情況[14]。本文使用的LDA屬于概率模型。
21網絡輿情事件熱點分析
網絡輿情事件,一般屬于敏感話題范疇,與廣大人民群眾的利益相關,即或者人們感興趣的話題。因此一經發布,他的影響力和擴散力是不可估量的。大多數輿情事件都有這樣的特征:速度傳播快、影響力大、轉發轉載用戶比較多。由于網絡數據更新速度快,網絡輿情熱點事件生存周期更短,因此對網絡資源的處理速度也需要與時俱進,時時更新,并挖掘數據背后隱藏的內容[15]。一般網絡輿情事件以新聞形式出現,或由門戶網站轉發,因此它的關注度比較大。其熱點往往以時間、地點、人物、事件的形式出現[16]。為了精準地發現熱點,熱點對應特征詞的識別很重要。本文采用將事件的熱點由若干特征詞構成的序列方案,詞與詞之間的關系集合構成一個熱點事件。
22網絡輿情事件熱點感知的LDA方法
221文本預處理
LDA采用詞作為特征項,通常文本可以看成特證詞的數組構成,因此進行文本聚類之前,首先采用特殊數據結構來構造特定的數據集。輿情事件熱點系統分詞子系統中采用ICTCLAS 2014版本,ICTCLAS(又稱NLPIR漢語分詞系統)主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典等功能。ICTCLAS 2014新增了微博分詞、新詞發現與關鍵詞提取,而且效率高,分詞速度快,準確率好。由于ICTCLAS采用持續共享模式,便于通過調用API進行二次開發。ICTCLAS的API功能強大,可以去除標點符號,引入用戶詞典進行特定分詞,進行新詞的提取等任務。因此本研究只需建立一個過濾詞表進行常用詞過濾,形成網絡輿情特征數據集,并且可以降低文本特征的維數,提高文本處理速度。
222文本特征抽取
分詞過濾之后,剩下的就是文本的核心數據,但是并不是所有單詞都能準確反應文本信息、時間、地點、人物、事件等不同時期不同熱點具有不同側重點。我們不能肯定地說文本中的某一個單詞就能100%表征這篇文檔,只能說這個單詞能以某種程度來“表征”[17]這篇文檔,這個程度具體衡量的標準就是概率。概率越大,說明這個單詞越能表征這篇文檔;反之則越不能表征這篇文檔,當概率小到一個閥值(人為設定)的時候,這個單詞就可以舍棄了,通過此方法可以適當降低文本特征維數。
(1)主題概率化分析
LDA是一個3層貝葉斯概率模型,采用主題生成模型。它是在傳統的聚類算法文本——詞分布引入主題空間,形成3層架構,認為文本是有很多主題構成的,且各主題之間都有一定的概率。 文檔到主題服從Dirichlet分布,主題到詞服從多項式分布 。一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語[18],一篇文章3層貝葉斯結構(隱含主題)模型示意圖如圖1。
圖1文檔3層貝葉斯結構模型示意圖因此如果我們要生成一篇文檔,它里面的每個詞語出現的概率為:
文檔序列概率化表示:D={d1,d2,d3,…,dn};
主題序列概率化表示:T={t1,t2,t3,…,tn};
單詞序列概率化表示:W={w1,w2,w3,…,wn},P{WjDt}=P{WjTj}P{TjDt}。
LDA對主題的混合權重θ進了Dirichlet先驗,用一個超參數α來產生參數θ,即參數的參數。
(2)主題詞抽取
基于LDA主題模型,是利用統計學的知識,分析文檔集內部信息,將文本映射到基于隱含主題的特征空間[19]。對于每一篇文檔,從主題分布中抽取一個網絡輿情主題,從被抽取的主題所對應的單詞分布中抽取一個主題詞,重復上述過程直至遍歷文檔中的每一個單詞。這就是推理演化前期的準備工作,提供迭代的數據。
(3)推理演化
主題模型的初始化
輸入:文檔——主題分布概率;單詞——主題分布概率
迭代推理:更新主題和估計參數,直至收斂
對于任意文本:基于主題模型中參數Beta以及文檔——主題分布;endprint
計算該文檔中每個單詞在主題上的分布;
基于LDA模型參數Alpha和單詞——主題分布;
計算文檔的主題分布
輸出:優化的LDA主題模型Beta和Alpha參數
完成LDA主題模型的參數推演
(4)中間產品
經過推理演化,生成文本——主題概率分布和主題——單詞概率分布產品,他們都是迭代收斂的最終結果,以矩陣形式存在,包含主題概率的詳細信息。
(5)聚類結果
聚類的產品屬于矩陣,可以按照矩陣處理算法和相關的對應關系,將主題、文本、單詞概率分布有機的整合起來,形成最終的聚類結果[20]。文本文件按主題分類歸并以文件夾形式存放,并且對應的文件夾包含特定的主題文件,包含相應的單個類的準確率和總準確率。
3原型系統與實驗
31基于LDA的網絡輿情事件熱點感知原型系統
原型系統采用java語言開發,使用Eclipse集成開發環境設計并且實現熱點感知系統,系統流程如圖2所示。
圖2基于LDA的網絡輿情事件熱點感知原型系統
本系統借助LDA開源架構進行二次開發,實現熱點的感知具有較高的準確率。
32實驗設計與結果
321實驗環境
CPU,Intel雙核15GMHz以上;內存2G;硬盤320G;操作系統Windows Xp sp2以上。編程語言Java;集成開發平臺Eclipse;開源工具ictclas 2014分詞系統。
322實驗數據
新浪中文新聞文本分類語料,包括環境、計算機、交通、教育等十大類別的27 816條網頁文本。
323實驗結果
LDA中文聚類測試數據,同時均迭代40次,結果如表1所示。
K-means聚類測試結果,同時均迭代10次,結果如圖4所示。
33實驗結果分析
LDA聚類算法利用主題模型的特性,在傳統機械統計詞頻的基礎上加入了文本的深層語義知識,從而讓聚類過程更加精準,降低錯誤率。通過實驗筆者發現聚類算法需要基于文本的主題分布,事先了解主題向量的維度,準確率才會達到更高。作為測試數據,已知Topic number是個準確的常量,通過測試Alpha,Beta兩個參數的變化,可知LDA基于語義算法效率有所提升。而且發現準確率的分布圖4K-means迭代結果圖
呈現不確定性和隨機性,這是由于采用貝葉斯概率統計方法所決定的。Alpha,Beta之間沒有直接關系,通過分析得知01~09分布效果最好,至少在70%。
而傳統的k-means聚類算法的初始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定。VSM模型僅利用詞頻建立向量,同樣也會丟失部分語義信息,通過實驗可以看出在面對新聞語料長文本中丟失的信息量很大,導致準確率較低,最低在20%。
4結語
本文將LDA主題模型引入網絡輿情文本聚類領域,性能和效果都優于傳統K-means算法。文本聚類主要在文本建模、文本相似度計算以及聚簇描述3個方面。LDA能夠比較精準提煉并且發現主題。文本相似度計算可以嘗試將傳統VSM模型與LDA主題模型進行結合,使用連續性方式或非連續性方式,建立多個文本特征空間,增強文本的向量表示,從而提高文本聚類的質量。在網絡輿情熱點發現領域,為了進一步提高準確率,今后考慮使用外部語義資源庫,嘗試引入本體語義知識。
參考文獻
[1]Blei David M.,Ng Andrew Y.,Jordan Michael I.,Lafferty John.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(4):993-1022.
[2]范云滿,馬建霞.利用LDA的領域新興主題探測技術綜述[J].現代圖書情報技術,2012,(12):58-65.
[3]單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學報,2010,24(6):43-49.
[4]唐曉波,王洪艷.基于潛在狄利克雷分配模型的微博主題演化分析[J].情報學報,2013,32(3):281-287.
[5]胡勇軍,江嘉欣,常會友.基于LDA高頻詞擴展的中文短文本分類[J].現代圖書情報技術,2013,(6):42-48.
[6]阮光冊.基于LDA的網絡評論主題發現研究[J].情報雜志,2014,33(3):161-164.
[7]劉振鹿,王大玲,馮時,等.一種基于LDA的潛在語義區劃分及Web文檔聚類算法[J].中文信息學報,2011,25(1):60-65.
[8]林萍,黃衛東.基于LDA模型的網絡突發事件話題演化路徑研究[J].情報科學,2014,32(10):20-23.
[9]Huang,B.,Yang,Y.,Mahmood,A.,& Wang,H..Microblog topic detection based on LDA model and single-pass clustering[J].In Rough Sets and Current Trends in Computing.Springer Berlin Heidelberg,2012:166-171.
[10]李青,朱恒民,楊東超.微博網絡中輿情話題傳播演化模型[J].現代圖書情報技術,2013,(12):74-80.
[11]浦嬌華,朱恒民,劉凱.基于動態網絡的微博輿論觀點演化模型研究[J].情報雜志,2014,33(8):168-172.endprint
[12]唐曉波,宋承偉.基于復雜網絡的微博輿情分析[J].情報學報,2012,31(11):1153-1162.
[13]胡吉明,陳果.基于動態LDA主題模型的內容主題挖掘與演化[J].圖書情報工作,2014,58(2):138-142.
[14]Chen,Y.,Amiri,H.,Li,Z.,& Chua,TS..Emerging topic detection for organizations from microblogs[C].In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:43-52.
[15]唐曉波,向坤.基于LDA模型和微博熱度的熱點挖掘[J].圖書情報工作,2014,58(5):58-63.
[16]王勇,肖詩斌,郭?秀,等.中文微博突發事件檢測研究[J].現代圖書情報技術,2013,(2):57-62.
[17]Efron,M..Information search and retrieval in microblogs[J].Journal of the American Society for Information Science and Technology,2011,62(6):996-1008.
[18]Vosecky,J.,Jiang,D.,Leung,KWT.,& Ng,W..Dynamic multi-faceted topic discovery in twitter[C].In Proceedings of the 22nd ACM international conference on Conference on information & knowledge management,ACM,2013:879-884.
[19]Damak,F.,Pinel-Sauvagnat,K.,Boughanem,M.,& Cabanac,G..Effectiveness of State-of-the-art Features for Microblog Search[C].In Proceedings of the 28th Annual ACM Symposium on Applied Computing,ACM,2013:914-919.
[20]Miyanishi,T.,Seki,K.,& Uehara,K..Combining recency and topic-dependent temporal variation for microblog search[J].Advances in Information Retrieval,Lecture Notes in Computer Science,2013,7814:331-343.
(本文責任編輯:馬卓)endprint