999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線主題模型的新聞熱點演化模型分析

2020-07-14 00:27:42戴長松王永濱王琦
軟件導刊 2020年1期

戴長松 王永濱 王琦

摘 要:為了對新聞媒體平臺的重大事件進行話題演化建模分析,基于隱含狄利克雷分布(LDA主題模型算法)對話題動態建模,在變分推斷主題模型基礎上建立衡量話題內容和熱度變化的流行話題模型(TTM-OL-DA)。針對用戶關注的重大新聞事件發展方向與熱度,提出話題內容向量與流行因子,對整個話題生命周期進行量化,從而有效地從大量相關新聞中挖掘出話題演化細節,幫助用戶更好地掌握話題發展情況。在特定新聞板塊篩選的數據集下,通過設置對比實驗和人工評測方式,驗證該方法在困惑度上優于在線主題模型算法。

關鍵詞:新聞熱點;話題演化;在線主題模型;動態話題建模;變分推斷

DOI: 10. 11907/rjdk.191252

開放科學(資源服務)標識碼(OSID):

中圖分類號:TP303

文獻標識碼:A

文章編號:1672-7800(2020)001-0084-05

0 引言

網絡信息爆炸式增長,尤其是文本類型數據,如來自新聞網站、微博、論壇等,紛繁復雜導致用戶無法一一查看感興趣的話題內容。當某個重大新聞事件發生時,相關新聞報道層出不窮,為了幫助用戶準確實時掌握輿情事件的發展和走向,盡可能還原話題的焦點和熱度,文本挖掘尤其是話題模型研究應運而生。

基于LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)主題模型[1]的話題演化研究方法近年被研究人員廣泛采用。楚克明等[2]使用LDA模型對不同時段的文集進行話題抽取,然后通過話題分布計算相鄰時間段內兩個話題的距離表示話題間的關聯,不足之處是各個時間段內的話題模型完全獨立,僅根據模型生成的主題分布推測話題間的聯系會使新出現的話題內容脫離實際。原始的LDA算法并不具備在線建模能力,為了使模型能夠隨時間進行演化,Loulwah等[3]基于LDA提出了在線主題模型(On-LineLDA,以下簡稱OLDA),這種方法以增量更新的方式構建主題模型,更新時不需要訪問之前的數據,使主題模型具有了在線學習能力。OLDA的出現為話題演化提供了一種新思路,即利用在線學習能力模擬話題演化過程;胡艷麗等[4]根據時序劃分文本流并采用OLDA模型抽取每個時間片的子話題,提出基于相對熵的子話題關聯分析方法;崔凱等[5]基于改進的吉布斯算法對文本進行主題建模,并利用相對熵比較主題間的相似度以發現話題演化過程中的“遺傳”和“變異”。

以上方法均采用吉布斯抽樣算法構建LDA主題模型。該方法優點是實現簡單,缺點在于需要迭代的次數較多,在一些要求時效性的場景下表現較差。與吉布斯抽樣算法相對的是變分貝葉斯方法,Chase等[6]的研究表明,變分貝葉斯方法實現復雜但建模更準確快捷,因此本文采用變分貝葉斯方法構建主題模型,在該方法基礎上實現OL-DA模型并提出流行話題模型(Trending Topic Model on On-line LDA,簡稱TTM-OLDA)。

1 話題演化模型

話題跟蹤或演化最早出現于話題檢測與跟蹤( TopicDetection and Tracking,TDT)相關研究中。話題跟蹤中的話題指某一個具體的事件而非一類領域[7],典型的話題如“個稅起征點提高”、“崔永元曝光陰陽合同”等都屬于話題范疇。新聞話題隨著時間的發展,關注點和熱度也會隨之發生變化,以“陰陽合同”事件為例,人們的關注點從最初的“范冰冰逃稅,稅務局介入調查”變為“范冰冰被罰款”,再到“崔永元受到人身威脅”等等,其話題相關內容本身發生了變化,而熱度指人們對這個話題的關注程度,本文將對這一指標量化為強度。

話題演化指新聞話題在內容和強度上的變化過程,如何從這些海量的新聞文本中挖掘出話題的演化方向和過程,對輿情分析、文本挖掘等領域有著重要的研究意義。

1.1 主題模型

在自然語言處理等領域,主題模型指對多文檔語料庫進行隱含特征發現的算法,發展至今,提到最多的主題模型是Blei在2003年提出的LDA主題模型,當前關于話題演化的很多研究也是基于LDA主題模型[8-15]構建的。主題模型從文檔和詞兩個維度之間抽象出一個“主題”維度,如圖1所示。

作為文本聚類領域應用最廣泛的算法之一,LDA主題模型已經經歷了10余年的發展.至今圍繞主題模型的相關研究仍是文本挖掘領域的熱點方向之一。

最初的向量空間模型( Vector Space Model,VSM)中,Salton等將語義相似度轉化為向量空間上的相似度,為了比較請求文檔q與目標文檔d的相似度,以qi和di表示詞i在文檔中的權重,一般使用tf-idf值表示,其余弦相似度Sim(q,d)定義如下:

由于向量空間模型無法解決一詞多義和多詞一義問題,Dumais等提出了隱含語義分析(Latent Semantic Analv-SIS,LSA)模型,該模型基于SVD矩陣分解構造文檔一詞矩陣Xdy的一個低秩逼近矩陣,不僅緩解了一義多詞問題,還在原本的文檔一詞矩陣上作了特征降維,對于原始向量空間的噪聲進行消除。

LSA矩陣分解過程如下:

其中,d表示文檔數量,v表示詞個數,k表示潛在語義維度。同樣,文檔一詞矩陣Xdy一般使用詞的tf-idf值表示。

LSA模型不足之處在于矩陣分解過程十分漫長,無法解決一詞多義,且在數理統計上無法推導,可解釋性較差。為解決上述問題,Hofmann等提出了pLSA模型。該模型基于概率統計,假設文檔與主題、主題與詞之間服從多項式分布,使用常見的參數估計方法,即EM算法對模型參數進行估計,pLSA模型為現在最常見的LDA主題模型產生奠定了理論基礎。

LDA主題模型可看作pLSA的貝葉斯版本,這里的貝葉斯先驗體現在LDA為文檔一主題和主題一詞分布添加了狄利克雷先驗。在主題模型技術中,無視文檔中詞語順序,因此這類模型也稱為詞袋模型或unlgram模型。語料中的每篇文檔可看成由多個主題組成,而主題則是由多個關鍵詞構成,每篇文檔下的主題有其自身權重系數。同樣,每個主題下的關鍵詞也有其權重,這些權重代表了它們對主題或者文檔的貢獻程度。

LDA是一種非監督的文本聚類算法,在pLSA假設基礎上,LDA引入了狄利克雷先驗分布確定文檔到主題和主題到詞的多項式分布參數。在結構上看,LDA主題模型依據文檔、主題、詞生成三層貝葉斯概率模型,相對于PLSA,LDA主題模型借鑒了貝葉斯學派思想,為模型參數加入了先驗分布,使得主題和詞的分布隨機化。由于LDA的上述優點,使其在文本挖掘領域應用十分廣泛,圍繞其設計改進的模型也屢見不鮮。LDA概率如圖2所示。

1.2 在線主題模型OLDA

在LDA提出之后,為適應流式數據的文本建模分析,Loulwah等提出了在線主題模型OLDA(Online LDA),它可對連續時間窗口內的語料分別進行訓練。為了讓前一個時間窗口內的模型特征得到“遺傳”,提高分散建模效率,OLDA模型將前一個主題模型內單詞的主題分布作為下一個主題模型的主題先驗分布,使得OLDA模型具備在線處理流式文本能力。

1.3 話題演化模型

話題演化作為文本主題挖掘領域的重要組成部分,在LDA主題模型提出之后,基于LDA算法的話題演化模型設計受到越來越多的研究者關注。根據單斌等的研究,基于LDA主題模型的話題演化方法目前可依據時間信息劃分為先離散方法、后離散方法、結合時間特征到LDA模型等3種方法。

本文屬于“按時間信息先離散”方法。先離散指將語料中的文檔依據時間特征離散至相應的時間窗口內,時間窗口長度可根據語料特點選用不同的時間粒度,先離散方法依次對每個時間窗口內的語料進行建模。需要注意的是,不同時間窗口的主題模型并不完全獨立而且參數相關。

針對話題演化過程中的話題內容和強度變化,本文基于LDA模型生成的文檔到主題的分布,計算相鄰的時間窗口內話題內容變化,記為相鄰話題語義距離。一旦該語義距離超出某個閾值,說明該話題在內容上發生了變化,即發生了話題演化過程,該變化由內容向量計算而得。在話題強度變化上,對同一個話題,其強度由一個隨時間窗口變化的系數衡量,該系數表示某個話題在相應時間窗口的流行程度,使用者可根據實際情況設定系數的閾值以界定話題的流行程度,這個系數稱為流行因子。

2 基于變分推導與內容遺傳的話題演化模型

2.1 LDA生成過程

LDA的吉布斯(Gibbs)和變分推導分別稱為smoothed版本和basic版本,與smoothed版本不同之處在于,使用變分貝葉斯方式的推導過程更加復雜,其生成模型的流程也很不同。

Cibbs抽樣多見于貝葉斯概率分析問題中[16],LDA主題模型同樣依賴于貝葉斯假設。basic LDA的生成過程如下:①從狄利克雷分布中產生文檔主題分布θ,其中O-Dir(a);②從泊松分布中生成一篇文檔的單詞個數Nd,即Nd-possion(λ);③對文檔中的每個單詞ωd,n,首先選擇一個主題Z d,n,即Z d,n-Mult(θ);④單詞ωd,n的主題Z d,n確定之后,再根據概率分布p(ωd,n| Zd.n,β)生成單詞本身的ω d,n。

其中,入為隨機事件平均發生率,a是一個K維向量,是狄利克雷分布的超參數,由狄利克雷分布產生的參數θ為生成文檔的主題分布概率向量。θ=(θn,θ1,…,θk-1)T,θ,表示文檔選擇第i個主題z的概率。

為了對真實數據進行模擬,同時為簡化模型,這里使用真實文檔的單詞個數取代Nd。與smoothed版本最大不同之處在于β是一個KxV的矩陣,表示主題Zd,n產生詞ω d,n的概率。區別在于β是一個可估算的確定量,而不是從狄利克雷分布中隨機生成的。變分LDA使用的變量及參數如表1所示。

2.2 LDA變分推導

LDA變分推導的關鍵在于變分EM算法,以LDA推導為例,當給定一篇文檔時,要求解其隱變量的后驗分布表達式。

這樣,對該假設函數O求極值就可近似得到原始分布的近似,稱為變分分布。在新的模型分布中,Blei引入了兩個新的參數y和中替代原來模型的超參數。為了獲得模型下界,采用EM算法對其進行估計,EM算法分為E步(求期望)和M步(最大化似然函數)。

流行因子反映了話題強度變化,為了方便話題的流行因子計算與比較,設置i的閾值大小T為10,即取話題前10個概率較大的詞概率參與流行因子計算。

話題k的內容向量定義如下:

3 實驗及結果展示

對于數據集選取,話題演化模型并沒有一個規范通用的解決方案,這與主題模型本身特性有關。雖然主題模型屬于文本聚類領域算法之一,但嚴格來說它并沒有將一個語料庫的文本按類別“完全”分離,而是一種軟聚類或模糊聚類方法。為了關注重大新聞事件的走向,本文選取近兩個月( 2019.1-2019.2)某新聞網站中互聯網版塊新聞作為訓練語料庫,著重關注近期網絡熱點話題,如“互聯網大裁員”等幾個較熱門的新聞話題作為觀測對象,通過TTM-OLDA模型分析話題的演化,在內容演化和流行熱度兩方面對其進行模擬。TTM-OLDA模型的實驗流程如圖4所示。

語言模型的衡量方法一般可分為實用方法和理論方法,實用方法直接對模型在實際應用中的表現作出評價,簡單直觀,但是不能從客觀角度作出評價,缺乏針對性。因此,本文選擇比較客觀的理論方法衡量TTM-OLDA的表現。對于文本聚類方法,由于使用的測試數據集沒有分類標簽,無法判斷模型訓練結果與真實情況之間的差異,因此使用困惑度perplexity衡量主題模型的好壞,困惑度公式如下:

其中,D表示由M篇文檔組成的訓練數據集,p(wm)為模型在第m篇文檔的似然函數[17]。似然值越大,困惑度越小,模型的泛化性能越好。

訓練數據集包含2個月的新聞數據,考慮到主題建模需要,本文以周為單位劃分時間窗口,即共8個時間窗口,平均每個窗口新聞條數為320條。實驗選取基于Gibbs的OLDA模型作為對照,在困惑度與建模耗時兩方面分別比較,結果如圖5、圖6所示。

2018年下半年開始,各大互聯網企業輪番上演人員結構優化,從而引發了一場裁員大潮,本文選取該熱點話題作為觀測對象,持續追蹤其話題內容即熱度變化,實驗結果見圖7。

4 結語

對于當前話題演化模型中普遍存在的迭代次數多、時效性低以及模型還原話題不夠真實等問題[18-21],本文基于在線主題模型OLDA,提出了在線流行話題模型TTM-OL-DA,以話題內容向量與流行因子對流行新聞話題內容與熱度變化進行衡量。實驗結果表明,TTM-OLDA在模型困惑度、時效性上均領先于原始OLDA算法,證明該模型在新聞話題演化建模上的準確性和時效性。由于本文主要關注新聞領域話題演化和熱度變化,沒有考慮新聞本身的閱讀量等流行因素,因此下一步研究將引入新聞初始流行程度,對比更多的新聞數據來源,改善話題演化模型,以適應更多的話題演化建模場景。

參考文獻:

[1]DAVID M,BLEI, ANDREWY. et al. Latent Dirichlet allocation [J].Journal of Machine Learning Research. 2003(3):993-1022.

[2] 楚克明,李芳.基于LDA模型的新聞話題的演化[J].計算機應用與軟件,2011,28(4):4-7,26.

[3]ALSUMAIT L,BARBARA D. DOMENICONI C.On-Iine LDA: adap-tive topic models of mining text streams with applications to topic de-tection and tracking[C].Proceeding of the 8thIEEE International Con-ference on Data Mining, 2008: 3-12.

[4]胡艷麗,白亮,張維明.一種話題演化建模與分析方法[J].自動化學報,2012,38( 10):1690-1697.

[5] 崔凱,周斌,賈焰,等.一種基于LDA的在線主題演化挖掘模型[J].計算機科學,2010,37( 11):156-159,193.

[6]CHASE CEIGLE.lnference methods for latent dirichlet allocation[ EB/OL]. http: //times.cs.uiuc.edu/cocour/5 lOfl 8/notes/lda-survey.pdf.

[7] 陳興蜀,高悅,江浩,等.基于OLDA的熱點話題演化跟蹤模型[J].華南理工大學學報:自然科學版,2016,44(5):130-136.

[8] 姚兆旭.基于WSO-LDA的微博話題“主題+觀點”詞條抽取算法研究[D].南京:南京航空航天大學,2017.

[9] 劉小軍.基于LDA模型和AP聚類算法的主題演化研究[D].合肥:合肥工業大學,2016.

[10]袁勝文,基于LDA的中文科技文獻話題演化研究[D].鄭州:河南工業大學,2015.

[11] 張衛春.基于主題模型的汽車評論話題演化研究[D].合肥:合肥工業大學,2017.

[12]林萍,黃衛東.基于LDA模型的網絡突發事件話題演化路徑研究[J].情報科學,2014,32( 10):20-23.

[13]喬善增.基于種子文檔和統計模型的話題演化研究[D].濟南:山東大學,2014.

[14]章建.基于上下文的話題和話題關系的演化研究[D].上海:上海交通大學,2013.

[15] 方瑩,黃河燕,辛欣,等.面向動態主題數的話題演化分析[J].中文信息學報,2014,28(3):142-149.

[16] 劉忠,茆詩松.分組數據的Baves分析-Cibbs抽樣方法[J].應用概率統計,1997(2):211-216。

[17] HEINRICH G.Parameter estimation for text analysis[ EB/OL]. http: llwww.arbylon.net/publications/text-est.pdf.

[18] 王子涵.一種基于社交媒體的突發事件話題演化分析系統研究[c].中國計算機學會第32次全國計算機安全學術交流會論文集.2017.

[19]李慧,王麗婷.基于話題標簽的微博熱點話題演化研究[J].情報科學,2019,37(1):30-36.

[20] 陳婷,曲霏,陳福集.基于時間片劃分的輿情話題演化模型研究[J].華中師范大學學報:自然科學版,2015,49(6):890-894.

[21] 周未東.一種基于LDA中文微博輿情演化分析方法[D].哈爾濱:哈爾濱工程大學,2017.

(責任編輯:杜能銅)

基金項目:中國傳媒大學青年理工科規劃項目( 3132018XNC1804,3132018XNC1837)

作者簡介:戴長松(1994-),男,中國傳媒大學協同創新中心互聯網信息研究院碩士研究生,研究方向為文本聚類;王永濱(1963-),男,博士,中國傳媒大學計算機與網絡空間安全學院、智能融媒體教育部重點實驗室教授、博士生導師,研究方向為網絡新媒體技術;王琦(1982-),男,博士,中國傳媒大學協同創新中心互聯網信息研究院副教授、碩士生導師,研究方向為智能媒體與信息技術。本文通訊作者:王琦。

主站蜘蛛池模板: 91亚瑟视频| 亚洲成人网在线观看| 九九九九热精品视频| 91人妻日韩人妻无码专区精品| 婷婷色丁香综合激情| 91精品福利自产拍在线观看| 日韩少妇激情一区二区| 国产亚洲美日韩AV中文字幕无码成人| 久久一本精品久久久ー99| www.日韩三级| 色视频国产| 综合五月天网| 国产成人喷潮在线观看| 尤物国产在线| 国产精品福利在线观看无码卡| 91美女在线| 亚洲一区二区三区中文字幕5566| 亚洲AV无码不卡无码| 国模私拍一区二区三区| 国产最新无码专区在线| 国产免费a级片| 国产毛片一区| 亚洲成a人在线播放www| 国产成年女人特黄特色毛片免| a毛片在线播放| 伊人色在线视频| 欧美激情第一区| 伊人色天堂| 54pao国产成人免费视频| 国产福利一区在线| 婷婷丁香在线观看| 国产网站黄| 国产精品成人久久| 最新国产麻豆aⅴ精品无| 久久精品一卡日本电影 | 成人自拍视频在线观看| 好紧太爽了视频免费无码| 91九色国产在线| 天天色天天综合网| 国产流白浆视频| 91丝袜乱伦| 18禁色诱爆乳网站| 五月六月伊人狠狠丁香网| 就去色综合| 最新加勒比隔壁人妻| 99ri精品视频在线观看播放| 女人18一级毛片免费观看 | 久久综合丝袜日本网| 久久久久无码精品| 亚洲国产在一区二区三区| 国产自无码视频在线观看| 久久永久免费人妻精品| 天天综合网在线| 中文无码毛片又爽又刺激| 国产喷水视频| 国产欧美日韩免费| 18禁黄无遮挡网站| 波多野结衣无码视频在线观看| 亚洲成人免费看| 无码一区18禁| 久久6免费视频| 毛片一级在线| 欧美日本一区二区三区免费| 在线观看91精品国产剧情免费| 国产视频入口| 国产精选小视频在线观看| 在线欧美日韩国产| 91福利在线观看视频| 亚洲a级毛片| 国产乱肥老妇精品视频| 国产精品吹潮在线观看中文| 国产欧美又粗又猛又爽老| www.精品国产| 免费大黄网站在线观看| 亚洲无码免费黄色网址| 精品久久高清| 亚洲国产清纯| 97久久超碰极品视觉盛宴| 久久五月天国产自| 91亚瑟视频| 亚洲Av激情网五月天| 亚洲无码日韩一区|