顏端武 梅喜瑞 楊雄飛等



DOI:10.3969/j.issn.1008-0821.2021.10.008
[中圖分類號]TP391;G203 [文獻標識碼]A
[文章編號]1008—0821(2021)10—0067—08
微博(Microblog)是根據用戶關系實現信息內容傳播、共享以及獲取的在線社交媒體,是Web2.0技術產生的一種新興社交網絡形式,如國外的推特、國內的新浪微博。用戶可以在微博平臺上隨時隨地發布文字、圖片、視頻以及鏈接等信息,克服了傳統媒介所帶來的時間與空間的限制。微博并不是單純的個人社交工具,而是網民發聲的多元化信息平臺,其內容涉及廣泛,涵蓋政治、經濟、文化、娛樂、體育、民生等各個方面。目前,越來越多的網民參與到微博平臺,以新浪微博為例,其2020年的第4季度財報顯示,截至2020年12月,新浪微博的月活躍用戶數已達5.21億,平均日活躍用戶數為2.25億。微博平臺具有用戶規模大、用戶活躍度高、信息類別多、信息傳播和更新速度快等特點,極易在較短時間內產生海量數據,造成信息的爆炸式增長,給信息治理帶來了巨大挑戰。在信息化時代,傳統的人工治理方式已經無法滿足人們的需求,且微博數據口語化以及短文本特征也為微博信息的管理和利用帶來了困難,因此,隨著微博的發展和普及,微博內容挖掘引起了學術界的興趣。
微博主題是對微博信息內容的概括,是微博文本挖掘的重要研究方向。一般而言,網民在微博上發表的言論具有較強的話題中心性,通過分析一定時間內的微博文本,可以掌握網民在該階段所關注的信息主題。根據文本內容特征進行微博主題聚類,能夠促進網絡信息治理的效率提升,有助于政府部門掌握和解決民眾訴求,有助于企業了解用戶體驗和危機公關。因此,如何準確高效地表達微博文本特征并進行微博主題聚類,已成為各界亟待解決的一個熱點問題。
1相關工作
文本主題聚類是話題檢測與跟蹤TDT(Topic Detection and Tracking)的子任務,目前國內外關于文本主題聚類的方法主要有兩種:文本主題建模和文本相似度聚類。
文本主題建模通常根據詞匯出現在文檔中的概率以及詞匯之間的共現頻率對文檔集進行建模,它通過概率生成模型從而識別潛在語義信息并發現文本主題。2003年,Blei D M等提出的潛在狄利克雷(Latent Dirichlet Allocation,LDA)模型是使用最廣泛的概率主題模型,其經歷了潛在語義索引(Latent Semantic Index,LSI)模型、概率潛在語義索引(Probabilistic Latent Semantic Index,PLSI)模型等階段的發展,目前在文本挖掘領域已經逐漸走向成熟.且在長文本的主題識別中取得了不錯的效果,但應用于微博文本數據時,由于短文本數據稀疏、共現信息匱乏等特性而導致主題聚焦性差,難以發揮LDA主題模型的功效。為了解決該問題,一些學者針對微博等短文本的特點,對標準LDA進行改進,如Twitter-LDA、Labeled-LDAE、BTM、MB-LDA、RT-LDA、mixtureLDA以及MB-HDP等。Zhao W X等在LDA的基礎上引入推特用戶信息,構建twitter-LDA模型并取得理想的結果。Ramage D等構建了一個半監督的Labeled-LDA模型。Yan X等將LDA的文檔一主題層替換為共現詞對從而構建BTM詞對主題模型,解決了短文本數據稀疏問題。
文本相似度聚類的核心思想是“依據特定的標準將文檔集劃分為不同的簇,使得同簇中的文本相似度盡可能大,不同簇中的文本相似度盡可能小”,該方法屬于無監督范疇。文本聚類主要有劃分聚類、層次聚類、密度聚類以及網格聚類。文本向量表示對文本聚類效果至關重要,早期主要采用向量空間模型提取文本特征,通過One-Hot表示、TF-IDF等方法為特征詞賦予權重。當采用向量空間模型進行短文本特征提取時,同一個詞語在不同微博中出現的概率往往很小,從而造成很多特征項權重為0,即出現數據稀疏和高維度等問題,難以呈現好的聚類效果。一些學者嘗試利用主題模型抽取文本特征向量,將文本從高維詞向量空間映射到低維的語義空間,以解決數據高維稀疏問題。馬雯雯等利用潛在語義分析LSA提取微博文本特征,通過CURE算法和K-means算法發現微博話題。路榮等以LDA主題模型構建推特數據的主題空間向量,利用K-means和層次聚類識別話題。史劍虹等通過文檔—主題矩陣和K-means++算法進行微博短文本聚類。近年來,Word2Vec、CNN、RNN等神經網絡模型相繼被提出,也被用于文本特征的提取,這些方法受文本長度影響小,通過將文本訓練為低維稠密的向量,生成文本的分布式表示。如張謙等、牛雪瑩、馬遠浩等采用Word2Vec模型對短文本進行向量化表示,提取詞匯的深層語義信息。
然而,單一模型提取的特征向量往往不能充分表征文本內容,需要結合其他模型構造融合特征,豐富特征向量語義信息。李海磊等通過Biter_VSM模型和LDA主題模型生成微博文本的融合特征向量,實驗結果表明,融合特征比單一特征具有更好的聚類性能。Baker S等結合CNN和Word2Vec模型提取癌癥數據集的特征并得到較好的分類效果。Word2Vec是訓練詞向量的常用模型,由其構建的文本向量實現了特征降維和上下文語義的表達,但缺乏全局語義信息,而LDA主題模型側重文本集合整體語義特征的構建,因此,兩種模型的結合可提高文本向量的表征能力。Moodv C E提出LDA2vec模型.通過詞向量和文檔向量之和創建上下文向量,預測上下文單詞,從而獲得可解釋的主題。Niu L等、Liu Y等提出Topic2vec模型,構造詞匯在特定主題下的詞向量以及上下文環境中的詞向量。王婷婷等利用Word2Vec模型將LDA主題一詞匯分布矩陣轉變為主題一詞向量矩陣,采用自適應K-means聚類算法識別科技文獻主題。聶維民等利用卷積神經網絡對新聞數據進行分類,設計融合層機制將Word2Vec模型生成的字、詞向量和LDA主題模型生成的詞匯一主題向量融合為新的文本特征。
還有學者通過將短文本擴充為長文本來豐富文本的語義信息,實現主題聚類的效果提升。如Liu M、Yang Z等、Li X等采用外部知識庫(如領域詞典、維基百科等)進行短文本擴充;Hong L等、Mehrotra R等將推特文本合并為長文本進行LDA主題建模。
綜上,主題聚類的優化提升主要涉及主題模型、文本向量和短文本擴充3個途徑。其中,短文本擴充的方式過度依賴外部知識庫,且操作復雜;改進的LDA主題模型往往具有特定的使用范圍及局限,通用性不強。微博文本作為一種典型的短文本形式,在以往的微博聚類研究中對主題語義的針對性不夠,聚類效果還有進一步提升空間。多特征融合是目前短文本主題聚類的新方向。本文綜合運用LDA主題模型、Word2Vec詞向量模型以及TF-IDF權重測算方式,提出文本淺層特征和詞匯語義特征融合的微博文本主題聚類方法。該方法分別運用LDA主題模型、Word2Vec詞向量模型提取微博的文本淺層特征和詞匯語義特征,運用TF-IDF進行詞向量的主題貢獻權重測算,并通過向量拼接獲得最終的融合特征,以解決短文本特征高維稀疏和語義缺失等問題。
2 LDA與詞向量融合的主題聚類方法
2.1思路與流程
本文提出微博文本主題聚類方法,重點構建文本的融合特征向量,提高特征向量的文本表示能力。首先采集微博文本構建語料庫,并對數據集進行清洗、人工標注、分詞等預處理操作,然后從文本層面利用LDA主題模型提取主題向量.從詞匯層面利用Word2Vec模型提取詞向量,并利用TF-IDF計算詞向量權重,進而構建微博短文本的融合特征,實現文本淺層特征和詞匯語義特征的融合,最后通過K-means算法進行文本主題聚類。此外,本文構建4個對比實驗(LDA+K-means、Word2Vec+K-means、TF-IDF+K-means、標準LDA主題模型)評估融合特征主題聚類方法的有效性。本文的研究框架如圖1所示。
2.2微博文本收集及預處理
以新浪微博為數據源,通過Python的Scrapy開源爬蟲框架和網頁解析技術設計微博數據采集程序,并輔以新浪微博API,獲得微博網頁的數據信息,每條微博信息包括3個字段:微博ID、話題標簽以及微博文本。獲得微博原始數據后,通過預處理操作提高數據的可靠性和有效性,主要包括以下5個步驟:
1)數據清洗:人工剔除無用、重復數據;去除非中文數據以及圖片等多媒體信息。
2)明確“主題標簽”:在實驗過程中需要對主題聚類的結果進行評估,因此,每條微博文本在實驗前都要具備明確的主題標簽。本文通過3位專家分析微博內容,并結合新浪微博自定義的話題標簽,進行人工標注與審核。
3)分詞:利用哈爾濱工業大學的開源中文分詞工具LTP對微博文本進行分詞。
4)去停用詞:根據停用詞表去除“轉發”“@”等停用詞。
5)去高/低頻詞:去除詞頻為1的低頻詞,人工去除無意義的高頻詞,從而降低文本特征維度。
2.3 LDA與詞向量融合的微博文本表示模型
2.3.1利用LDA主題模型進行文本淺層特征提取
LDA主題模型是三層貝葉斯概率模型,該模型認為文檔是主題的概率分布,而主題是詞匯的概率分布。基于該思想,模型從文檔—主題、主題—詞匯兩個方面建模,描述文檔、詞匯以及主題三層結構之間的生成關系,如圖2所示。
其中,M表示語料庫的微博數量,N表示每條微博的詞匯量,α、β分別服從狄利克雷分布。LDA主題模型是文檔生成的逆過程,對于微博D,從先驗概率分布抽樣產生其在主題上的概率分布θ,并根據文檔一主題分布采樣獲得微博D中第k個詞匯的主題z;對于主題z,從先驗概率分布β抽樣產生其詞匯分布φ,并根據主題一詞匯分布φ抽樣生成詞匯w。
LDA對語料庫中的所有文本進行主題建模,根據文檔、主題、詞匯三者之間的概率分布關系,可以通過詞匯共現信息和概率值的估計發現文本的主題分布特征,從而發現文本的全局語義信息和特征表達。但模型在訓練數據時將文檔中的詞匯視為相互獨立,忽略了上下文詞匯之間的語義關聯,因而本質上是對文本特征的淺層表達。本文采用LDA模型的文檔—主題分布來表征微博短文本的主題傾向性和全局語義。對于微博文本D,其文檔—主題特征表示如下:
其中,lt表示微博D在第t個主題下的概率,t為向量的維度。
2.3.2利用Word2Vec模型進行詞匯語義特征提取
Word2Vec詞向量模型是Mikolov T等于2013年提出的具有“輸入層—隱藏層—輸出層”的三層神經網絡模型,主要用于文本詞向量學習,有CBOW和Skip-gram兩種學習方式。如圖3所示,w(t)為目標詞,其上下文詞匯為w(t-r)、w(t-r+1)、…、w(t-1)、w(t+1)、…、w(t+r-1)、w(t+r)。CBOW模型根據目標詞的上下文預測目標詞,而Skip-gram模型則根據目標詞預測目標詞的上下文。
與LDA主題模型側重于文本集合的特征表達不同,Word2Vec模型通過將詞匯量化為低維空間中的稠密實值向量,從而實現文本詞匯的特征表達。Word2Vec模型生成的詞匯特征向量包含了鄰近詞匯的語義關聯,可彌補短文本環境下特征表達的詞匯語義缺失。微博作為短文本,每條微博的詞匯量少,目標詞匯的上下文語義信息缺失明顯,故本文選取Word2Vec模型的Skip-gram學習模式進行微博語料集的詞向量生成。在此基礎上,針對微博文本D中的詞匯進行詞向量映射,從而將該微博的文本特征表示為:
其中,第k行表示微博D中詞匯wk所對應的詞向量,t為詞向量的維度。
2.3.3文本淺層特征和詞匯語義特征融合
1)詞匯語義特征權重計算
Word2Vec模型未體現詞匯對主題的貢獻度,導致非關鍵詞匯影響特征語義表達,可通過TF-IDF值對Word2Vec詞向量加權,提高詞向量對主題的區分能力。微博D中詞匯的權重特征如下所示:
其中,tfidfk表示詞匯wk在軀干D中的權重,即其TF-IDF值。TF-IDF值越高,則詞匯的重要性越強。
本文將詞向量與其對應的TF-IDF值相乘,得到微博D的加權詞匯語義特征向量AT:
2)特征向量拼接
LDA主題模型和Word2Vec模型在向量化表達微博短文本時,都有各自的側重點:LDA的主題分布向量雖然可以從全局描述文本特征,但詞袋模型的特點導致無法挖掘深層語義信息;Word2Vec模型能夠深入了解序列詞匯之間的語義關聯,但只關注一定范圍的鄰近詞匯關系,可能導致全局信息的缺失。因此,本文將LDA的文檔主題分布向量和文本加權詞向量縱向拼接,形成融合特征向量ATL:
在維度層面,低維稠密的文本加權詞向量AT和文檔主題分布向量L縱向拼接后仍然是低維稠密向量,解決了短文本數據高維稀疏問題;在語義層面,向量拼接后的融合特征既包含文本全局語義,又包含詞匯順序信息和深層語義關聯信息,詞向量加權使得噪音詞匯的干擾降低。以融合特征表征文本,彌補LDA和詞向量兩者的缺點,豐富了短文本向量的語義信息。
K-means聚類算法簡單有效,計算的時間復雜度低,能夠快速處理大規模數據集。本文通過K-means算法對微博文本的特征向量進行主題聚類,將內容相近的文本聚為一個簇,每個簇表征一個微博主題。
3實驗對比及結果分析
本文生成4種微博短文本特征向量:LDA文檔一主題向量、Word2Vec詞向量、TF-IDF權重向量以及融合特征向量,利用特征聚類和標準LDA主題模型進行微博主題聚類的對比實驗。
3.1實驗環境和數據準備
實驗環境為2.5GHZ的CPU、8G內存以及64位Windows10專業版操作系統,開發工具為PyC-harm 2017。
從新浪微博采集2019年6月份具有代表性的熱點話題作為原始語料庫,包括“高考成績”“中國擬立密碼法”“養老金上調”“重慶交通事故”“信用懲戒”等44個話題,累計6萬條微博。預處理后,共獲得48212條微博數據。
3.2評估指標
模型效果的優劣常采用精確率P、召回率R以及F1值3個標準進行評估,其值越高,則模型效果越好。
精確率又稱查準率,指預測為主題i的微博中實際主題為i的比例。
召回率又稱查全率,指實際主題為i的微博中被預測為主題i的微博比例。
本文采用綜合評價指標F1值衡量模型的主題聚類效果。首先,分別計算每個主題的精確率和召回率,再利用宏平均求得整個模型的精確率和召回率,最后求得模型的F1值。
3.3特征提取模型參數設定
Word2Vec詞向量模型的窗口大小設置為5,向量維度t為100維,對于沒有出現在該詞向量中的詞匯,其向量會被隨機初始化。LDA主題模型中,主題維度t設置為100,與Word2Vec詞向量維度保持一致,以便于特征的融合,α=50/主題維度t,β=0.001,Gibbs抽樣2 000次。
3.4主題聚類算法參數設定
K-means聚類算法和LDA主題模型在訓練數據前要明確最佳的聚類主題數S。K-means聚類算法的S值設置為語料庫主題標簽類別數目44。對于LDA主題模型,采用交叉驗證法選擇最優主題數,令S分別取10、20、30、40……130、140、150等值,在不同S值下訓練LDA主題模型,觀察模型F1值的變化,如圖4所示。選取最優F1值的主題數,故本文將LDA主題參數設置為80。
3.5對比實驗與分析
針對微博短文本,分別通過LDA主題模型、Word2Vec詞向量模型以及TF-IDF權重測算方式構建不同方法下的文本特征向量,按照式(5)生成微博文本融合特征。采用十折交叉驗證法對數據集進行訓練和測試,對于K-means算法,分別對以上4種文本特征向量進行主題聚類,F1值為69.2%、78.8%、74.0%和83.7%;對于標準LDA主題模型,F1值為64.5%。實驗對比結果如表1所示。
1)LDA+K-means主題聚類和標準LDA主題聚類的精確率、召回率以及F1值都較低。LDA模型將文本映射到低維語義空間提取文本淺層特征,雖然對微博文本數據進行降維處理,但短文本共現信息匱乏而無法完整表達文本全局語義信息,且基于“詞袋模型”理論,忽視文本詞匯的序列性,所以僅用LDA主題模型對微博短文本進行特征抽取難以充分發揮作用,不適合微博短文本的建模。
2)Word2Vec通過模型訓練將每個詞匯簡化為向量空間中的一個t維稠密詞向量,與傳統向量空間模型相比,Word2Vec模型構造的文本特征向量實現了高效降維。此外,Word2Vec詞向量描述了詞匯之間的關聯關系,因為是對詞匯的向量化,和基于共現信息的LDA主題模型相比,語義表達受文本長度影響小,性能優于LDA主題模型,但未考慮文檔的全局語義信息和不同詞匯主題貢獻程度的差別,在精確率、召回率以及F1值3個方面和融合特征有一定的差距。
3)TF-IDF計算詞匯權重信息構建文本特征向量,因同一詞匯出現在不同微博短文本中的概率較低,導致大量的特征權重為0,造成短文本向量的高維稀疏性,且沒有考慮文本潛在語義信息,使得主題聚類的效果下降。
4)融合特征+K-means主題聚類效果最好,精確率、召回率以及F1值均高于其他模型,達80%以上。融合特征一定程度上克服了微博短文本高維稀疏和語義缺失問題,能更加準確、全面地表征微博文本信息。低維稠密詞向量和低維語義空間向量的拼接并未造成特征維度的大量增加,融合特征包含了文本全局語義信息和詞匯深層語義信息,同時,詞向量TF-IDF加權也提升了主題聚類的準確率。
融合特征主題聚類結果如表2所示。對于主題明確的微博文本,如“高考成績”“中國擬立密碼法”等,準確率可達90%左右。但對于主題較為相似的文本,實驗結果出現較大偏差,如“重慶公交事故”和“別碰司機”,因兩者都為交通事故、交通規則方面的主題,常涉及“公交”“司機”“安全”等詞匯,且部分網民習慣將兩者聯系起來闡述自己的觀點,所以在主題聚類過程中出現混淆,但該誤差在合理范圍內。
4結論與展望
本文基于新浪微博短文本數據,首先提出數據采集以及預處理方法,然后綜合考慮微博的文本淺層特征和詞匯語義特征兩個方面,結合LDA主題模型的文檔一主題分布特征和加權Word2Vec詞向量設計文本的融合特征表達公式,并通過K-means算法對文本進行主題聚類實驗。在對比實驗中,與單一特征主題聚類、標準LDA主題聚類進行比較,從精確率、召回率和F1值評估主題聚類方法,實驗結果表明,融合特征在解決微博上下文語義缺失和數據稀疏高維等問題方面具有較好的效果。
本文為微博主題聚類研究提供了一種新思路,但存在局限和不足之處。其一,實驗數據主要針對微博文本數據,對微博信息中的圖片、音頻、視頻等多媒體數據類型未能考慮;其二,實驗對比著重分析單一特征和TF-IDF+Word2Vec+LDA融合特征的主題聚類效果,對于單一特征不同組合方式下的特征融合主題聚類及其優化涉及不夠。因此,如何針對多模態微博數據進行特征融合處理、如何優化特征提取和主題聚類算法,在后續研究中還有待進一步拓展和深入。
(責任編輯:郭沫含)