姚 潔,孟小璐
(福州外語外貿學院,福州 350202)
2018年6月阿里和微博聯合發布了電商營銷的“u微計劃”,將打通雙方平臺的用戶數據,實現微博種草、阿里拔草。也就是說,以后微博推送的內容會更符合消費者喜好,誘發消費者“剁手”的可能性也越大。目前,主流的電商企業也都想方設法利用微博進行品牌營銷,其主要看中微博所帶來的口碑營銷、人際傳播等效應。而微博用戶數眾多,所涉及的話題領域廣,電商企業發布的營銷微博往往被這些雜亂無章的信息淹沒,因此對電商微博的主題挖掘就尤為重要。
近年來,主題模型是文本挖掘領域的一個熱門話題,而LDA模型以其優秀的降維能力和良好的擴展性被廣泛應用。例如,Phan等[1]通過LDA模型在Web片段文本搜索的準確度上有了進一步的提升;唐杰等[2-3]成功地將LDA模型應用到專利挖掘中。但是由于微博篇幅較短,通過共同出現的詞來判斷文本相似度的方法其準確度不高,挖掘效果不理想。為了規避短文本數據噪聲大的問題,基于模型擴展的方法也層出不窮。例如,Zhang等[4]利用頻率統計的方法讓話題更靠前;Wayne等[5]提出了Twitter-LDA來規避非熱點詞匯,解決文本短和高頻詞的問題。但是這些方法需要事先訓練和人工干預,而且主題少。
LDA模型是由Blei等[6]提出的一種適用于話題提取的概率生成式主題模型,是一種無監督學習,主要依靠詞之間的關聯來挖掘主題的詞袋模型。LDA基于分層式的貝葉斯模型,其中包含文檔、主題和詞3層。其模型如圖1所示。
LDA 3層結構形成“文檔-主題”和“主題-詞”兩個矩陣,其主要思想可以理解成兩個物理過程:

圖1 LDA模型

在現實中,文檔及其每篇文檔的詞的組成都是已知的,再通過Gibbs抽樣方法求得未知變量和。對于特定詞t,可得:

LDA主題模型能夠有效地解決電商微博文本的稀疏性、高緯性、語法不規范性及主題分布不一致等問題。但同時,電商微博的文本形式也存在自身的特點,如標簽(電商微博文本中采用哈希標簽,其格式為“#話題名稱?!?。這類文本能夠有效地表達熱點話題,具有重要的用戶特征和日期特征。)、時間戳、轉發數及評論數。如果撇開這些屬性直接在海量的微博消息中進行熱點話題的挖掘,往往準確率和效率都不大理想。針對電商微博的這些特殊的文本形式,同時借鑒LDA主題模型,提出了一種新的電商微博熱點挖掘模型MALDA(又稱多屬性的LDA)。
MA-LDA模型的主要思想:首先挑選高轉發和高評論數的潛在熱點電商微博(轉發、評論數的閾值為1 000)[7]。接著通過時效性原則(即在某一特定時間內頻繁出現),將一個關于時間因素的二值變量X引入MA-LDA模型中。最后我們將哈希標簽也合并到MA-LDA模型中,從而提高主題的準確性??蚣芤妶D2。

圖2 MA-LDA框架結構
MA-LDA是在LDA的基礎上擴展而來的,其模型如圖3所示。該模型在原有LDA模型基礎上增加了如下幾個參數:
1)兩種不同的主題類型,產生兩個變量,即熱點主題分布→和一般主題分布→。
2)為了判別電商微博主題是否為熱點,保證時效性,加入了一個與時間相關的二值變量x,其中,xw表示詞的時間分布的二值變量;xd表示文檔的時間分布的二值變量。并引入某一詞wi的時間特征值Sw,其計算公式如下:

其中:fw,t是詞w在t∈(1,T)上出現的頻率;favg是對應的fw,t的平均值。當Sw>0.5時,就認為該詞為熱詞。模型中的xw和xd則可通過Sw判定:

最終,x的結果由xw和xd經過或運算得到(x=0時為熱點主題,否則為一般主題)。
3)定義了詞和文檔的標簽向量→λv={λ1,λ2,…,λw,…,λV}和→λm={λ1,λ2,…,λm,…,λM},主要用于熱點主題相關的文檔生成。

圖3 MA-LDA模型圖
其核心公式如下:

與LDA相同,MA-LDA模型的參數估計也同樣使用Gibbs抽樣。得到電商微博熱點主題相關的兩個變量如下:


MA-LDA模型的評估實驗數據主要通過騰訊微博官方API結構獲得,通過人工收集和整理,得到較為影響力的30多家電商企業在2017-01-01—2018-01-01之間發布的微博數據,共58 973條,其中包含微博文本、用戶ID、標簽、時間、轉發數及評論數等相關信息。
為了有效挖掘電商微博的熱點話題,對這些數據進行了如下處理:
1)首先根據轉發和評論數的閾值篩選熱點話題,并計算詞的時間分布特征,初始化Sw,xw,xd和x。
2)選用中科院計算基數研究所推出的中文分詞系統ICTCLAS對微博文本屬性進行預處理,包括對微博文本預料進行分詞、詞性標注、去除標點符號、停用詞、表情詞等。
3)抽取標簽詞,即微博中的“?!!敝g的內容,并對標簽向量→λv和→λm進行初始化。
4)英文詞匯進行詞干化處理。
在參數設置上,根據相關文獻的研究,分別對Dirichlet先驗參數→α和→β設置為0.5和0.1[8-9]。
1)電商微博熱詞概率降序排序。顯示了MA-LDA和傳統LDA主題模型的主題熱詞,并按照降序排序,如表1、2所示:

表1 傳統LDA模型主題分布

表2 MA-LDA模型主題分布
表1、2分別顯示了兩個模型各自主題降序排序的熱詞,可以看出MA-LDA模型熱詞挖掘的準確率高于傳統LDA模型,而且MA-LDA模型挖掘的熱詞均為數據集中的熱詞,而LDA模型并非都是熱詞。因此,MA-LDA模型可更準確且有效地挖掘各主題下的熱詞。
本文提出的MA-LDA模型是對傳統LDA模型的擴展,其優勢主要有:
1)對于電商微博文本,其熱點話題挖掘準確率高。
2)通過設置轉發數、評論數等參數過濾掉了不重要的信息,提高了運行效率。
3)主題數和迭代數對熱點話題的識別影響較小。
MA-LDA模型能夠有效解決稀疏性導致的文檔關聯相對較弱的問題;短文本語義信息有限;高緯性所帶來的挖掘效率低;微博信息隨機性強等問題。但是該模型對話題的生存周期較敏感,主要適應于短時間內被普遍關注的電商微博。同時,該模型需要對數據進行預處理,在整個主題挖掘的時效性上低于傳統LDA模型。