999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ATM并行化采樣優化算法的研究

2018-06-25 02:28:34黃啟萍
長春師范大學學報 2018年6期
關鍵詞:單詞優化分析

童 威,黃啟萍

(1.安徽文達信息工程學院,安徽合肥 231201;2.安徽電氣工程職業技術學院,安徽合肥 230051)

[通訊作者]黃啟萍(1985- ),女,助教,碩士研究生,從事經濟學研究。

隨著互聯網和移動互聯的快速發展,微博作為一種新興的社交平臺,滿足了人們信息獲取、日常交流等目的[1]。企業微博是其中一種微博群體,作為企業發布產品信息,了解行業動態的新興平臺。利用數據挖掘和文本分析等技術對企業微博語料進行分析挖掘,可以幫助企業更加方便地進行產品營銷、客戶溝通,把握行業信息動態,獲取行業相關的商業信息,從中挖掘出更多的商機,促進企業發展。因此,對企業微博的分析研究具有重要的研究意義和良好的應用價值。

微博主題分析是其中一個基礎任務,通過對企業微博進行主題分析可以發現企業特征,查找相似企業和構建企業產品主題變化圖[2]。對于主題分析的任務情況,作者主題模型ATM(Author Topic Model)能對語料作者和單詞同時建模,從而解決類似于微博主題分析任務,探索企業與微博主題之間的相關性。然而巨大的微博數量給作者主題分析工作帶來了難度:一方面作者主題模型訓練復雜度高,耗時長,需要改進其采樣算法來降低復雜度;另一方面隨著語料規模增大,單機無法訓練,需要借助大數據技術進行并行化訓練。然而目前主題模型的并行化訓練主要集中在LDA主題模型上,作者主題模型的并行化訓練仍是空白。

1 問題分析

作者主題模型的求解通常采用吉布斯采樣算法求解,其每一輪迭代對語料中每個單詞的采樣公式如公式(1)所示。

(1)

在作者主題模型的標準吉布斯采樣算法中,每采樣出一個文檔的單詞,需對全局計數進行更新,并且后續單詞的采樣依賴于更新后的全局計數。此種采樣方式不適合作者主題模型的并行化訓練[3]。

在大規模微博語料的作者主題分析任務中,對作者主題模型進行采樣優化,需要改進作者主題模型采樣算法,避免實時更新全局計數。并且降低每個單詞采樣算法的復雜度。采樣優化之后,再借助Spark大數據平臺實現大規模作者主題模型的訓練過程[4]。

2 算法設計與優化

2.1 MCATM采樣算法

本文提出的作者主題模型延遲更新采樣思想在每輪迭代過程中不更新全局計數,每輪迭代完成之后統一更新全局計數,其相應的采樣MCATM算法如下:

MCATM算法的單輪采樣:

步驟1 對于文檔中的每個單詞,采樣得到其作者和主題根據和驗分布:

(2)

2.2 MHATM優化采樣算法

2.3 ECATM優化采樣算法

MCATM算法和MHATM算法在采樣時,同時采樣作者和主題,本文提出ECATM采樣算法,將此二維采樣問題進行分解。首先分析在知道單詞w的作者a的情況下,算法只需采樣得到單詞的主題即可,采樣主題k如式(3)所示。

(3)

經研究得到了作者主題模型的延遲更新采樣算法MCATM和相應的優化采樣算法MHATM和ECATM之后,作者主題模型訓練基于上述三種采樣方式進行并行化訓練。其并行化訓練流程圖如圖1所示。步驟1和步驟2為預處理步驟。作者主題模型的訓練是迭代過程,迭代按照步驟3至步驟8進行。步驟8結束之后更新DataRDD的單詞的作者和主題,以便于繼續進行下一輪的迭代。

圖1 作者主題模型并行化訓練流程圖

3 性能評估分析

在性能評估分析中,首先驗證本文提出算法的正確性,其次評估大規模作者主題模型訓練的數據擴展性。

3.1 算法正確性

通過計算模型迭代過程中的混淆度值(perplexity)來判斷不同算法是否最終收斂到同一精確度[5]。試驗選用weibodata和networkdata語料來進行測試,結果如圖2所示,參照標準為作者主題模型的標準吉布斯采樣算法ATM。

圖2 語料正確性測試

從圖2可知,ATM、MCATM、MHATM和ECATM經過一定輪次的迭代后收斂到同一精度,證明了MHATM、ECATM、MCATM算法的正確性。

3.2 數據擴展性

圖3 數據擴展性實驗結果

在數據擴展性實驗中,本文選擇不同規模的數據,在不同的采樣算法上進行訓練,統計迭代時長來分析,在不同規模數據下算法的擴展性,數據擴展性在并行環境下進行[6]。實驗環境設置核數均為256,每個executor分配核數8個,模型的主題統一設置為1000,超參數alpha為0.01,beta為0.01。統計前50輪迭代的平均時間,實驗結果如圖3所示。

從圖3可知,ECATM算法具有很好的語料擴展性。MHATM增長幅度緩于MCATM算法,有良好的語料擴展性能。MCATM算法隨著語料增大每輪迭代時間基本呈線性增長趨勢。

4 結語

針對作者主題模型,本文提出了一種作者主題模型的延遲更新采樣思想,以及相應的吉布斯采樣優化算法MCATM算法。在此基礎上提出了兩大優化算法,即MHATM和ECATM算法。實驗結果表明,本文提出的MCATM、MHATM和ECATM采樣優化算法,能與原始作者主題模型的吉布斯采樣算法達到同樣的收斂程度,有著較好的數據擴展性。

[參考文獻]

[1]張曉飛.關于企業微博營銷策略問題的探討[J].太原城市職業技術學院學報,2013(5):115-116.

[2]鄭誠,熊大康,劉倩倩.基于卡方特征選擇和LDA主題模型的中文短文本分類[J].電腦知識與技術,2014(13):280-283.

[3]楊勇,朱影.一種基于MapReduce的粗糙集并行屬性約簡算法[J].重慶郵電大學學報:自然科學版,2015(1):93-100.

[4]鄭濤,王路路.基于PBTM的海量微博主題發現[J].計算機應用研究,2015(3):134-136.

[5]Lechtenborger J,Vossen G.Multidimensional normal forms for data warehousedesign[J].Information Systems,2003(28):415-434.

[6]Pilevar A H,Sukumar M.GCHL:A grid-clustering algorithm for high-dimensional verylarge spatial data bases[J].Pattern Recognition Letters,2005(7):999-1010.

猜你喜歡
單詞優化分析
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
隱蔽失效適航要求符合性驗證分析
單詞連一連
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
看圖填單詞
電力系統及其自動化發展趨勢分析
最難的單詞
主站蜘蛛池模板: 亚洲国产精品无码久久一线| 国产欧美亚洲精品第3页在线| 亚洲自偷自拍另类小说| 91在线播放免费不卡无毒| 欧美a√在线| 九九香蕉视频| 欧美三级日韩三级| 无码一区中文字幕| 国产午夜看片| 亚洲成人动漫在线观看| 青草视频久久| 亚洲AV成人一区国产精品| 日韩成人在线视频| 久久久精品无码一区二区三区| 无码人中文字幕| 久久免费看片| 亚洲丝袜中文字幕| 天天爽免费视频| 亚洲av片在线免费观看| 国产精品无码AV中文| 婷婷在线网站| 热久久这里是精品6免费观看| 国产视频一二三区| 亚洲,国产,日韩,综合一区| 国产麻豆另类AV| 国产亚洲精品97AA片在线播放| 国产凹凸视频在线观看| 狠狠v日韩v欧美v| 亚洲精品桃花岛av在线| 国产美女91呻吟求| 免费人成在线观看成人片 | 国产成人AV综合久久| 欧美色伊人| 欧美一区二区啪啪| 亚洲无码高清视频在线观看| 高清无码一本到东京热| 亚洲国产精品一区二区第一页免 | 国产激情无码一区二区三区免费| 久久亚洲国产视频| 亚洲swag精品自拍一区| 日韩国产黄色网站| 国产一级毛片在线| 777国产精品永久免费观看| 91九色最新地址| 精品少妇人妻一区二区| 欧美亚洲网| 18禁色诱爆乳网站| 国产91特黄特色A级毛片| 露脸一二三区国语对白| 婷五月综合| 亚洲欧美不卡视频| 91麻豆精品视频| 亚洲男人天堂网址| 日本影院一区| 成人a免费α片在线视频网站| 在线免费a视频| 成人午夜网址| 内射人妻无码色AV天堂| 一级毛片在线免费视频| 久久精品国产亚洲AV忘忧草18| 天天色天天综合| 激情亚洲天堂| 久久激情影院| 亚洲一欧洲中文字幕在线| A级毛片无码久久精品免费| 操美女免费网站| 成人午夜免费观看| 91 九色视频丝袜| 九九这里只有精品视频| 国产乱子伦无码精品小说| 国产凹凸视频在线观看| 亚洲最大综合网| 国产在线自在拍91精品黑人| 亚洲日本精品一区二区| 久久国产黑丝袜视频| 国产最新无码专区在线| 中国成人在线视频| 伦精品一区二区三区视频| 五月综合色婷婷| 午夜色综合| 日本欧美一二三区色视频| 日韩黄色精品|