摘要:目的 為更深入地對線上用戶評論進行文本挖掘,并將文本大數據挖掘的結果直觀地進行呈現和知識提取。方法 利用困惑度指標對主題數尋優后,構建潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)[A3]"模型,對中文評論進行主題提取,并通過余弦相似度對主題間的繼承、消失、新生的演化路徑進行分析。結果 在大量的新能源汽車線上用戶評論文本數據中,通過文本挖掘技術獲取了熱度品牌或型號、消費者對新能源汽車的關注熱點、主題的演化路徑等潛在知識,并利用基于詞頻統計、基于語義、基于多維度的可視化技術對挖掘的結果進行了可視化。結論 在此研究模型下,能夠對線上用戶評論的主題進行智能提取和可視化。
關鍵字:可視化 LDA模型 大數據 文本挖掘
Visualization[A5]" Research on Text Mining of Online User Comments
HE Su[A6]" "YU Shuiqin
School of Information Engineering, Sichuan Post and Telecommunication College, Chengdu, Sichuan Province, 610067 China
Abstract: Purpose: For more in-depth text mining of online user comments, the results of text big data mining are visually presented and knowledge extracted. Methods: After optimizing the number of topics by using the perplexity index, a Latent Dirichlet Allocation (LDA) model was constructed to extract the topics from Chinese comments. The cosine similarity is used to analyze the evolution paths of inheritance, disappearance, and rebirth between topics. Results: In a large number of online user review text data of new energy vehicles, by text mining technology, it has obtained the hot brand or model, the hot spot of consumers on new energy vehicles and the evolution path of the theme and other potential knowledge. The results of mining were visualized by the visualization techniques based on word frequency statistics, semantics and multi-dimension. Conclusions: In this research model, the subject of online user comments can be intelligently extracted and visualized.
Key Words: Visualization; LDA model; Big data; Text mining
文本挖掘是尋找非結構化數據中存在的潛在規律,從而發現知識的過程。近年來,隨著文本挖掘技術的發展,國內外學者在基于大數據的基礎上,通過文本與數據挖掘來進行智能分析,從而識別輿情主題[1-2]、挖掘用戶偏好[3-6]、分析不同研究領域的熱點主題等。其中,挖掘用戶偏好主要是通過在線評論,對用戶的飲食偏好、購買手機的偏好、醫療服務質量的識別等進行較好的主題識別。毛曉莉等人[7]就通過在線評論,對消費者最重視的新能源汽車因素與情感性進行了文本挖掘。通過對線上用戶的評論進行文本挖掘,能夠基于語義發現用戶評論的主題、主題間的相關性;也能夠通過基于詞頻的統計發現用戶評論的熱點。但在文本挖掘過程中,與傳統的數據相比,非結構化的數據難以將從大數據中挖掘到的知識很直觀地展示出來,如評論的主題成千上萬、研究的熱點通過文字敘述后不聚焦等。因此,對于文本挖掘的結果,如何通過可視化技術展示發現的知識是值得研究的。
1 文本挖掘的可視化概述
1.1 基于詞頻統計的可視化
基于詞頻統計的文本分析主要是通過去除掉常用的停用詞后,統計文檔中出現的高頻詞來提取文檔的關鍵詞,從而分析文檔的焦點。詞頻的波動與社會現象之間有著內在的聯系,一定的社會現象和情報現象會引起一定的詞頻波動[8]。例如:黃溶冰等人[9]就通過統計關鍵審計事項段文本的風險詞頻考,察風險信息披露對債務融資成本的影響;廉凱芳等人[10]基于三亞美食旅游的相關網絡游記內容,進行詞頻分析,對高頻詞詞性進行識別,挖掘出美食旅游地名、當地美食、主要烹飪方式,以及對美食的評價、感知等信息;吳自力[8]以南方報業“年度記者”124篇文章為研究樣本,通過詞頻分析方法,再現2008[A7]"—2013年記者職業化在職業定位、職業追求、職業責任和職業素養4個方面的趨勢變化。但這些研究主要還是基于詞頻來進行文本分析,并沒有將分析結果進行可視化。
常用于詞頻統計的算法主要是詞頻—逆向文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)[A8]"、單純詞頻率統計等。基于詞頻統計的可視化技術主要是通過詞云圖呈現,對大量的文本數據通過詞云進行可視化后,能夠更直觀地把高頻詞匯突現出來,能夠快速揭示文檔的焦點信息,有較高的視覺吸引力。但基于詞頻統計的文本分析無法表示關鍵詞之間的聯系,不能對上、下文語境進行抽象。
1.2 基于語義的可視化
對文本語義的分析是指通過文本向量化技術后,對文本的分析從詞組含義深入到句子、段落,甚至整篇文檔所表達的內容含義,旨在用句子的語義結構來表示語言結構,從而識別文本中的實體、實體間的關系與情感的過程。
對文本語義分析的實現方法可以主要概括為以下3種。(1)基于規則的方法。主要是根據人工設計的規則和模板來構建知識規則庫,以專家的知識和經驗進行語義分析。(2)基于統計的方法。主要是通過對大規模的語料庫進行機器學習來構建語義分析模型,以及通過概率模型來推斷文本主題及內容,如狄利克雷分布(Latent Dirichlet Allocation, LDA)、概率潛在語義分析。(3)基于深度學習的方法。主要是利用深度神經網絡來訓練模型,從而學習語言的規律、自動提取特征、進行文本分類等。
對于文本基于語義的分析的最終落腳點大都體現在文本反映的關鍵詞、主題、類別、情感上,因此,對這些結果的可視化主要有通過詞云對關鍵詞進行可視化、通過Termite、LDAvis等工具對主題內容和類別進行可視化、通過TweetProbe等工具進行文本情感的可視化、通過常用的柱狀圖等統計圖進行類別的統計可視化。例如:湯斯亮等人[11]通過LDA[A9]"對新聞文本進行了基于文本語義的可視化,其中,使用Termite展示了LDA建模產生的主題內容,使用TweetProbe展示情感信息、地點信息和文本來源;王晰巍等人[12]通過LDAvis的主題氣泡圖對新冠肺炎疫情期間的輿情主題內容進行了可視化分析;吳江等人[13]通過LDAvis的主題氣泡圖對可穿戴設備的在線評論進行了主題分類的可視化。
1.3 基于多維度的可視化
基于多維度的可視化主要是以對文本分析時,同時結合時間、空間等維度,從多維角度、更深層次地去分析文本數據,發現其內在規律,并將這樣的規律展示出來,讓人們能夠更直觀地理解文本數據的時間和空間規律。在可視化技術上主要有地理熱力圖、主題客流圖、桑基圖等。例如:周健等人[14]通過 LDA 主題模型,對不同時間窗口下的文獻數據主題進行挖掘,用桑基圖對其主題演化路徑進行展示;張柳等人[15]挖掘國內外突發事件應急管理主題,通過桑基圖,科學地展示主題間演化路徑、變化趨勢,從而更直觀地對比國內外突發事件應急管理研究的異同關系;顏端武等人[16]通過LDA提取了科學研究前沿主題,通過桑基圖,從時間維度對主題內容的變化進行呈現,探測了科學領域研究前沿的變化。[A10]
本文主要針對用戶在線評論的大數據,分析如何運用文本數據進行基于詞頻的可視化、基于語義的可視化、基于多維度的可視化,從而進行文本的挖掘。主要運用TF-IDF技術進行詞頻統計,基于此,運用詞云圖進行可視化;運用潛在LDA的三層貝葉斯原理來提取評論的主題,基于此,運用主題氣泡圖將提取的主題、關鍵詞與主題間的相似性進行可視化;將評論主題按時間窗劃分,通過相似度計算來判斷主題隨時間的變化情況,基于此,運用桑基圖將主題變化流進行可視化,從而從時間維度分析主題的演化過程。
本文的主要貢獻在于:(1)將文本挖掘的可視化工作進行了歸納研究,對基于詞頻統計、基于語義、基于多維度的可視化技術與方法進行了歸納總結;(2)提出了分析主題演化的模型,在參數尋優基礎上構建了LDA主題模型,并通過余弦相似度與過濾機制,運用桑基圖展示了評論主題的繼承、消失、新生的演化路徑。
3.1 研究框架
本文的研究框架圖如圖1,主要研究步驟如以下。
首先,利用相關技術手段獲取數據集,并對數據進行一定的預處理。主要將數據按時間窗進行劃分,在哈工大的停用詞表的基礎上,通過實驗加入了評論文本中可能出現的常用但無意義詞語,進而對評論文本進行分詞。同時,利用文本向量化的詞頻和TF-IDF技術對評論文本進行向量化。其次,通過實驗,根據困惑度來確定最優主題數,從而構建LDA主題模型,提取不同時間窗的評論主題、主題的關鍵詞與對應的詞頻。運用詞云圖對提取的高頻關鍵詞進行可視化,運用主題氣泡圖對提取的主題詞與主題間的相似性進行可視化。最后,通過計算不同時間窗的大概率主題間的相似度,形成主題的繼承、消失、新生的演化路徑,并通過桑基圖將演化路徑進行呈現,從而將文本數據從基于詞頻、基于語義、基于時間維度等方面進行深度挖掘。
3.2文本預處理技術
在文本預處理中,主要通過停用詞表將常用詞去除后,運用中文分詞工具jieba進行分詞,再利用TF-IDF對中文文本向量化后,進行存儲。本研究的停用詞表是在哈工大停用詞表的基礎上,加入了在新能源汽車用戶評價中的常用但無意義的詞,如:首先、汽車、車子、父親、女人、媳婦兒、車、新能源、覺得、思考、感覺、現在、選擇等。TF-IDF是一種文本向量化技術,其公式[A12]"如下。
TF-IDF的主要原理如下:用TF代表詞條在本篇文章中出現的頻率,用IDF代表詞條在整個文檔中的所有文章中出現的頻率的對數。某個詞條較少見,但是它在特定文章中出現次數多,那么,這個詞條就有可能反映了這篇文章的特性。因此,詞條在特定文章中的高頻率和這個詞條在整個文檔集合中的低頻率能夠形成高TF-IDF值。
3.3 潛在LDA模型
LDA 主題模型的基本思想是:每個評論是一系列主題的概率分布,記為 P(z);每個主題是一系列詞的概率分布,記為 P(w|z),因此,評論中每個詞的概率分布如下[17]。
為確定最優的主題數K,運用LDA主題模型評價標準—困惑度,通過實驗找到困惑度不再減少或處于拐點時的主題數。困惑度越小,表明模型對主題表現越不困惑。困惑度的公式如下[A15]"[19]。
3.4 主題演化分析
通過LDA,在不同時間窗提取了相應主題,認為相鄰時間窗間的主題可能具有一定的聯系。本文采用余弦相似度來衡量相鄰時間窗的主題間的相似性,余弦相似度的計算公式如下。
4.1 基于詞頻統計——詞云圖
詞云圖是對文本中出現頻率較高的詞語進行展示的可視化技術。它基于的是詞頻的統計,對于高頻詞,能夠從形狀、顏色上組合成特定圖形進行展示,能夠將文本中的重要詞匯突出出來,在大量文本數據下提取到焦點。但對于文本區分度不大的文本、數據量較小的文本,其突出效果較差。
在數據分析和可視化工具FineBI、Tableau中都集成了生成詞云圖的工具,基于python的第三方庫Wordcloud也是常用的詞云生成器。對中文進行一定的預處理后,通過Wordcloud,可以指定排除詞列表、詞云形狀與字體字號,根據詞語出現的頻率來生成詞云圖。出現頻率越高,以越大字體突出顯示。
4.2 基于語義——主題氣泡圖
基于LDA的主題提取,是從文本中選取以一定概率可能出現的主題,從這些主題中又以一定概率選取可能會出現的關鍵詞,因此,主題主要是以一系列關鍵詞來體現。主題氣泡圖主要通過LDAvis來實現。LDAvis是一個交互式主題模型的R包,生成的可視化結果是基于網頁的,通過網頁進行瀏覽。
通過LDA提取主題后,主題氣泡圖中,用氣泡抽象表示一個主題。氣泡編號為主題號,氣泡越大,主題出現概率越大,氣泡間的遠近距離表明了主題間的差異性。同時,主題氣泡圖是可交互的,通過選擇,可以指定對不同主題進行展示。主題氣泡圖的右邊為該主題下的關鍵詞,藍色為主題詞在文檔中出現的權重,紅色為在主題中出現的權重。在圖中調節參數λ,用來調節關鍵詞與主題相關性的變化。λ的取值范圍為0到1:當λ越接近于1時,展示的是在該主題下在主題中出現更頻繁的詞語;當λ越接近于0時,展示的是該主題下更特殊的詞。因此,通過主題氣泡圖,可以歸納出主題的內容,可以交互展示關鍵詞與主題和文檔的相關性。
4.3 基于時間維度——桑基圖
桑基圖也叫能量分流圖,因1898年Matthew Henry Phineas Riall Sankey繪制的“蒸汽機的能源效率圖”而得名,其主要用于反映資源、能量或流量等在不同階段或部件間的流動和轉移。數據分析和可視化工具FineBI、Tableau都能進行桑基圖的繪制,也可以運用python的庫pyechart來生成。
桑基圖一般由節點、流量組成。其中:節點由節點標簽反映不同時間段或不同部件;流量由箭頭和顏色反映不同的類別的流量、流向、所占比重等。桑基圖通常用于展示復雜的流程、路徑或網絡,以便觀察和分析各個組件之間的關聯和貢獻。桑基圖的初衷是要保持能量的守恒,但作為對評論主題的流動反映,可能會出現主題消失也就是流量消失等問題。在本文中基于時間維度的桑基圖,數據從左邊起始主題流到右邊,節點為時間點的某個主題,流量寬度為當前時間段的主題與前繼主題的相似度。當某個流量在某一時間點后沒有再出現,表明主題消失;當某一時間點主題的流量是由前繼時間點的某幾個流量或一個流量流入時,表明該主題由前續時間點主題合并而來,或繼承了前繼時間點的主題;若某時間點主題與前繼的流量寬度都很窄,表明該時間點主題是新生的。通過這種圖,我們能較直觀地看到隨時間變化評論的變化,能識別出消失或新生的主題,從而發現潛在的瓶頸或優化的機會。
近年來,在大數據的支撐下,文本挖掘更多地應用到了輿情識別、用戶偏好挖掘、研究熱點識別等智能提取和分析上。因大數據文本的特殊性,將非結構數據進行更直觀、更聚焦地呈現時,需要更好地利用可視化技術。本文對線上用戶的評論進行文本挖掘時,從基于詞頻統計、基于語義和基于時間維度上如何運用可視化技術進行了研究。在此研究模型下,通過爬取的新能源汽車用戶在線評論的大數據進行了驗證。通過對詞頻的分析,獲取了相應時間窗下的熱度品牌或型號、消費者對新能源汽車的關注熱點,通過詞云能夠進行較好的可視化。通過LDA提取了23~30個主題,通過氣泡圖和桑基圖,能夠較好地反映主題間的關聯性與演化過程。因此,在此研究模型下,能夠對用戶評論的主題進行智能提取和可視化。通過對主題的演化分析和路徑可視化,能夠得到線上用戶評論主題消失、新生等情況,為企業調整銷售策略、迎合客戶需求提供了參考。但在研究過程中,明顯感覺到基于詞頻統計的可視化更直觀、更能被企業關注,但基于語義和基于多維度的可視化需要加入一些我們的思路設計和主觀理解。
參考文[A16]"獻
[1]王晰巍,賈若男,韋雅楠,等.多維度社交網絡輿情用戶群體聚類分析方法研究[J].數據分析與知識發現,2021,5(6):25-35.
[2]張雷,譚慧雯,張璇,等.基于LDA模型的高校師德輿情演化及路徑傳導研究[J].情報科學,2022,40(3):144-151.
[3]岳子靜,章成志,周清清.利用在線評論挖掘用戶飲食偏好:以北京地區為例[J].圖書館論壇,2017,37(3):108-115.
[4]高慧穎,劉嘉唯,楊淑昕.基于改進LDA的在線醫療評論主題挖掘[J].北京理工大學學報,2019,39(4):427-434.
[5]趙志杰,劉巖,張艷榮,等.基于Lasso-LDA的酒店用戶偏好模型[J].計算機應用與軟件,2021,38(2):19-26.
[6]黃婷.基于LDA的外賣用戶評論挖掘與情感分析研究[D].南昌:南昌大學[A17]",2022.
[7]毛曉莉,施本植.新能源汽車普通消費者參與的大數據研究:基于文本挖掘和深度學習[J].海南大學學報(人文社會科學版),2022,40(5):201-210.
[8]吳自力.進退之間:2008-2013年記者職業化狀態分析:基于南方報業“年度記者”文本的詞頻考察[J].新聞與傳播研究,2015,22(3):38-48,127.
[9]黃溶冰,許吉寧.關鍵審計事項信息披露與債務融資成本:基于風險詞頻的分析[J].南京審計大學學報,2024,21(6):1-10.
[10]廉凱芳,楊銘鐸,趙福振,等.基于網絡文本分析的三亞美食旅游發展研究[J].商業經濟研究,2024(9):188-192.
[11]湯斯亮,程璐,邵健,等.基于概率主題建模的新聞文本可視化綜述[J].計算機輔助設計與圖形學學報,2015,27(5):771-782.
[12]王晰巍,李玥琪,劉婷艷,等.新冠肺炎疫情微博用戶情感與主題挖掘的協同模型研究[J].情報學報,2021,40(3):223-233.
[13]吳江,周露莎,劉冠君,等.基于LDA的可穿戴設備在線評論主題挖掘研究[J].信息資源管理學報,2017,7(3):24-33.
[14]周健,張杰,屈冉,等.基于LDA的國內外區塊鏈主題挖掘與演化分析[J].情報雜志,2021,40(9):161-169.
[15]張柳,王慧,相甍甍.基于LDA的突發事件應急管理主題熱度與演化分析[J].情報科學,2023,41(6):182-191.
[16]顏端武,蘇瓊,張馨月.基于時序主題關聯演化的科學領域前沿探測研究[J].情報理論與實踐,2019,42(7):144-150.
[17]蔣翠清,呂孝忠,段銳.基于主題模型的產品在線論壇主題演化分析[J].系統工程學報,2019,34(5):598-609.
[18]陶勝陽,許新華,余亞烽,等.基于LDA模型的教育技術學研究主題挖掘及演化趨勢分析[J].現代信息科技,2023,7(6):176-180,185.
[19]葉艷,吳鵬,周知,等.基于LDA-BiLSTM模型的在線醫療服務質量識別研究[J].情報理論與實踐,2022,45(8):178-183,168.