999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運用改進型LDA算法的電商微博熱點話題研究

2019-02-06 10:56:52孟小璐
重慶理工大學學報(自然科學) 2019年12期
關鍵詞:文本模型

姚 潔,孟小璐

(福州外語外貿學院,福州 350202)

2018年6月阿里和微博聯合發布了電商營銷的“u微計劃”,將打通雙方平臺的用戶數據,實現微博種草、阿里拔草。也就是說,以后微博推送的內容會更符合消費者喜好,誘發消費者“剁手”的可能性也越大。目前,主流的電商企業也都想方設法利用微博進行品牌營銷,其主要看中微博所帶來的口碑營銷、人際傳播等效應。而微博用戶數眾多,所涉及的話題領域廣,電商企業發布的營銷微博往往被這些雜亂無章的信息淹沒,因此對電商微博的主題挖掘就尤為重要。

近年來,主題模型是文本挖掘領域的一個熱門話題,而LDA模型以其優秀的降維能力和良好的擴展性被廣泛應用。例如,Phan等[1]通過LDA模型在Web片段文本搜索的準確度上有了進一步的提升;唐杰等[2-3]成功地將LDA模型應用到專利挖掘中。但是由于微博篇幅較短,通過共同出現的詞來判斷文本相似度的方法其準確度不高,挖掘效果不理想。為了規避短文本數據噪聲大的問題,基于模型擴展的方法也層出不窮。例如,Zhang等[4]利用頻率統計的方法讓話題更靠前;Wayne等[5]提出了Twitter-LDA來規避非熱點詞匯,解決文本短和高頻詞的問題。但是這些方法需要事先訓練和人工干預,而且主題少。

1 理論基礎

1.1 傳統LDA模型

LDA模型是由Blei等[6]提出的一種適用于話題提取的概率生成式主題模型,是一種無監督學習,主要依靠詞之間的關聯來挖掘主題的詞袋模型。LDA基于分層式的貝葉斯模型,其中包含文檔、主題和詞3層。其模型如圖1所示。

LDA 3層結構形成“文檔-主題”和“主題-詞”兩個矩陣,其主要思想可以理解成兩個物理過程:

圖1 LDA模型

在現實中,文檔及其每篇文檔的詞的組成都是已知的,再通過Gibbs抽樣方法求得未知變量和。對于特定詞t,可得:

1.2 LDA模型用于電商微博熱點話題發現的形勢分析

LDA主題模型能夠有效地解決電商微博文本的稀疏性、高緯性、語法不規范性及主題分布不一致等問題。但同時,電商微博的文本形式也存在自身的特點,如標簽(電商微博文本中采用哈希標簽,其格式為“#話題名稱?!?。這類文本能夠有效地表達熱點話題,具有重要的用戶特征和日期特征。)、時間戳、轉發數及評論數。如果撇開這些屬性直接在海量的微博消息中進行熱點話題的挖掘,往往準確率和效率都不大理想。針對電商微博的這些特殊的文本形式,同時借鑒LDA主題模型,提出了一種新的電商微博熱點挖掘模型MALDA(又稱多屬性的LDA)。

2 基于MA-LDA挖掘電商微博熱點話題

2.1 框架結構

MA-LDA模型的主要思想:首先挑選高轉發和高評論數的潛在熱點電商微博(轉發、評論數的閾值為1 000)[7]。接著通過時效性原則(即在某一特定時間內頻繁出現),將一個關于時間因素的二值變量X引入MA-LDA模型中。最后我們將哈希標簽也合并到MA-LDA模型中,從而提高主題的準確性??蚣芤妶D2。

圖2 MA-LDA框架結構

2.2 MA-LDA模型

MA-LDA是在LDA的基礎上擴展而來的,其模型如圖3所示。該模型在原有LDA模型基礎上增加了如下幾個參數:

1)兩種不同的主題類型,產生兩個變量,即熱點主題分布→和一般主題分布→。

2)為了判別電商微博主題是否為熱點,保證時效性,加入了一個與時間相關的二值變量x,其中,xw表示詞的時間分布的二值變量;xd表示文檔的時間分布的二值變量。并引入某一詞wi的時間特征值Sw,其計算公式如下:

其中:fw,t是詞w在t∈(1,T)上出現的頻率;favg是對應的fw,t的平均值。當Sw>0.5時,就認為該詞為熱詞。模型中的xw和xd則可通過Sw判定:

最終,x的結果由xw和xd經過或運算得到(x=0時為熱點主題,否則為一般主題)。

3)定義了詞和文檔的標簽向量→λv={λ1,λ2,…,λw,…,λV}和→λm={λ1,λ2,…,λm,…,λM},主要用于熱點主題相關的文檔生成。

圖3 MA-LDA模型圖

其核心公式如下:

與LDA相同,MA-LDA模型的參數估計也同樣使用Gibbs抽樣。得到電商微博熱點主題相關的兩個變量如下:

3 實驗結果與分析

3.1 實驗數據收集及預處理

MA-LDA模型的評估實驗數據主要通過騰訊微博官方API結構獲得,通過人工收集和整理,得到較為影響力的30多家電商企業在2017-01-01—2018-01-01之間發布的微博數據,共58 973條,其中包含微博文本、用戶ID、標簽、時間、轉發數及評論數等相關信息。

為了有效挖掘電商微博的熱點話題,對這些數據進行了如下處理:

1)首先根據轉發和評論數的閾值篩選熱點話題,并計算詞的時間分布特征,初始化Sw,xw,xd和x。

2)選用中科院計算基數研究所推出的中文分詞系統ICTCLAS對微博文本屬性進行預處理,包括對微博文本預料進行分詞、詞性標注、去除標點符號、停用詞、表情詞等。

3)抽取標簽詞,即微博中的“?!!敝g的內容,并對標簽向量→λv和→λm進行初始化。

4)英文詞匯進行詞干化處理。

在參數設置上,根據相關文獻的研究,分別對Dirichlet先驗參數→α和→β設置為0.5和0.1[8-9]。

3.2 實驗結果分析

1)電商微博熱詞概率降序排序。顯示了MA-LDA和傳統LDA主題模型的主題熱詞,并按照降序排序,如表1、2所示:

表1 傳統LDA模型主題分布

表2 MA-LDA模型主題分布

表1、2分別顯示了兩個模型各自主題降序排序的熱詞,可以看出MA-LDA模型熱詞挖掘的準確率高于傳統LDA模型,而且MA-LDA模型挖掘的熱詞均為數據集中的熱詞,而LDA模型并非都是熱詞。因此,MA-LDA模型可更準確且有效地挖掘各主題下的熱詞。

4 結束語

本文提出的MA-LDA模型是對傳統LDA模型的擴展,其優勢主要有:

1)對于電商微博文本,其熱點話題挖掘準確率高。

2)通過設置轉發數、評論數等參數過濾掉了不重要的信息,提高了運行效率。

3)主題數和迭代數對熱點話題的識別影響較小。

MA-LDA模型能夠有效解決稀疏性導致的文檔關聯相對較弱的問題;短文本語義信息有限;高緯性所帶來的挖掘效率低;微博信息隨機性強等問題。但是該模型對話題的生存周期較敏感,主要適應于短時間內被普遍關注的電商微博。同時,該模型需要對數據進行預處理,在整個主題挖掘的時效性上低于傳統LDA模型。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产人妖视频一区在线观看| 成年人国产视频| 国产人碰人摸人爱免费视频| 久久精品娱乐亚洲领先| 欧美成人手机在线观看网址| 9966国产精品视频| 国产无吗一区二区三区在线欢| 国产人免费人成免费视频| 亚洲黄色高清| 波多野结衣亚洲一区| 成人年鲁鲁在线观看视频| 91在线国内在线播放老师| 国产91无毒不卡在线观看| 久草视频一区| 久久久亚洲色| 久久毛片基地| 午夜毛片免费观看视频 | 午夜电影在线观看国产1区| 国产无码高清视频不卡| 欧美亚洲另类在线观看| 国内精品视频| 视频二区中文无码| 欧美三級片黃色三級片黃色1| 成人伊人色一区二区三区| 女人av社区男人的天堂| 一级毛片免费的| 国产96在线 | 88av在线播放| 日韩久久精品无码aV| 国产精品亚洲va在线观看| 亚洲自偷自拍另类小说| 国产人成乱码视频免费观看| 亚洲中文无码h在线观看| 亚洲91在线精品| 狠狠色综合久久狠狠色综合| 欧美激情视频一区| 欧美日韩va| 一本大道香蕉久中文在线播放| 亚洲一区二区三区中文字幕5566| 日韩人妻少妇一区二区| 毛片基地视频| 日韩二区三区无| 人妻21p大胆| 亚洲天堂网2014| 亚洲日韩精品伊甸| 国产小视频免费观看| 91热爆在线| 国产无码精品在线| 天天操天天噜| 国产人人射| 色哟哟色院91精品网站| 国产精品欧美激情| 久久综合色视频| 一级毛片在线播放| 色成人亚洲| 国产在线观看精品| 福利在线不卡一区| 在线国产欧美| 国产精品专区第1页| 久久窝窝国产精品午夜看片| 日韩精品资源| 久久福利片| 亚洲AV电影不卡在线观看| 亚洲高清无码精品| 国产精品青青| 国产精品男人的天堂| 国产主播福利在线观看| 凹凸国产熟女精品视频| 91欧洲国产日韩在线人成| 青青草原国产一区二区| 国产精品永久在线| 亚洲精品无码人妻无码| 欧美不卡视频在线观看| 制服丝袜一区| 国产美女一级毛片| 久久熟女AV| 亚洲综合九九| 在线观看无码av免费不卡网站 | 国产黑丝一区| 456亚洲人成高清在线| 欧美午夜在线视频| 一级香蕉视频在线观看|