999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文微博自動文摘生成方法

2016-05-14 22:04:23李方馨李成城
軟件導刊 2016年5期

李方馨 李成城

摘要:微博已經成為廣大用戶發布和獲取信息的重要渠道之一,微博平臺上集聚著大量的用戶群體和文本信息資源,如何從大量的微博信息中準確、有效獲取微博事件關鍵內容至關重要。提出一種基于VSM和LDA主題模型相結合的方法,對微博文本生成自動文摘。實驗結果表明,該方法能夠比較準確地抽取微博文本的文摘內容,從而實現用戶對實時消息的搜索。

關鍵詞:LDA主題模型;中文微博;自動文摘;VSM

DOIDOI:10.11907/rjdk.161596

中圖分類號:TP319

文獻標識碼:A 文章編號:1672-7800(2016)005-0160-03

0 引言

隨著互聯網的普及和計算機信息技術的高速發展,社交網絡平臺迅速興起,并逐漸滲透到社會各用戶群體,極大提高了人們交流的頻率。如今,微博已經成為廣大用戶發布和獲取信息的重要渠道之一,微博平臺上集聚著大量的用戶群體和文本信息資源。研究如何從大量微博文本中快速、準確找到他們感興趣的內容具有重要意義[1]。

1 微博的文本特性

本文以新浪微博的文本內容作為背景語料進行話題文摘研究,其主要特征有:①篇幅短小,信息量小。每條微博輸入文本的字符數限定在140個字符以內,微博所表達的信息量有限;②數據類型多,包含大量噪聲。微博上內容包含文本、圖片、視頻、表情、網絡用語和超鏈接等,由于用戶在平臺上的表達以快捷、及時為主,因而文本的精確性不高,包含縮寫、不規范詞匯、錯誤詞匯等多種噪音數據[2];③傳播速度快,實時性強。微博文本的更新速度與傳播速度很快,一條有價值的消息被公布之后,往往會在很短的時間內被大量轉發。

2 相關工作

2.1 語料獲取及預處理

本實驗選用新浪微博的文本數據作為實驗語料。通過新浪微博開放平臺的API接口獲取微博文本數據,實現微博數據自動爬取。

由于微博文本字數少,大多微博是一個句子或者一個短語。這就導致文本處理時的數據稀疏問題。所以,在預處理階段首先去除微博長度小于20字的內容;其次,根據正則表達式,除去內容中含有視頻和語音的超鏈接;最后過濾掉“@”及后面的用戶名部分。通過中國科學院的漢語詞法分析系統ICTCLAS進行中文分詞。按照停用詞表中的詞語將語料中對文本內容識別意義不大但出現頻率很高的詞、符號、標點、副詞、助詞等頻度高的詞及亂碼等去掉。在已有停用詞表的基礎上,統計微博中出現頻率過高且無意義的詞語和符號,如“轉發”等,構建出適用于中文微博文本的停用詞表,對中文分詞后的詞語進行停用詞過濾。

2.2 基于向量空間模型的微博文本建模

3 LDA主題模型介紹

LDA(Latent Dirichlet Allocation)主題模型由Blei提出,是一個針對離散數據集建模的主題生成模型,用一個服從Dirichlet分布的K維隱含隨機變量表示文檔話題混合比例,模擬文檔產生過程,通過變分方法推斷話題隱變量[4]。

LDA模型是一個三層貝葉斯網絡結構的有向概率圖模型,分別為詞層、主題層和文檔層。它將每個文檔表示為一個主題混合,每個主題是固定詞匯表上的一個多項式分布。首先,假設文檔與文檔之間順序無關,文檔中單詞與單詞之間順序無關,僅考慮文本的詞頻,而不考慮單詞在文本中出現的先后順序及其約束關系。然后,根據單詞在文檔中的分布建立文檔單詞矩陣,再將該矩陣分解為文檔主題與主題單詞矩陣,相應的單詞即會聚類到特定的主題中去。通過對LDA模型中參數的調節,可以使特定的單詞分配到對應的主題[5]。

LDA的概率模型圖如圖1所示。其中,θm表示第m篇文檔的主題分布;zm,n表示第m篇文檔的第n個單詞的主題編號;φk表示主題編號為k時的單詞分布;wm,n表示第m篇文檔的第n個單詞;α和β分別為θm和φk的先驗參數;K表示主題個數,M表示文檔篇數。

4 微博文摘句抽取

在生成微博文摘時,考慮多種因素衡量句子的權重值,如主題重要度、句子中含有的關鍵詞覆蓋度、句子詞頻、句子長度、評論數和轉發數等。

4.1 主題重要度

在微博文本中,敘述一件事或描述一個事物時,都會圍繞一個中心主題,同時每一條微博文本會從不同的角度來介紹與主題背景相關方面的內容。根據句子的LDA主題特征,考慮句子主題與抽取到的微博話題的相似度。

4.2 句子中含有的關鍵詞覆蓋度

句子中出現關鍵詞的次數越多,則進一步說明該句子的重要性也就越大。所以它也將有一定的優先權被選入到文摘句子當中。

4.3 句子長度

5 實驗與結果分析

實驗選用新浪微博的文本數據作為實驗語料,經過預處理最終得到的中文微博語料,選定5 625條微博數據,分為訓練數據3 612條和測試數據1 013條。將VSM和LDA主題模型相結合,對中文微博短文本進行劃分類簇。通過對微博的文本分類進行挖掘,構建特征句子中特征詞文檔和詞頻文檔。設置Gibbs采樣的主題數目為6,迭代次數初始值設為100進行反復迭代,得到主題和關鍵詞概率如表1所示。

從實驗結果可以看出存在6個潛在主題。根據各個主題的高頻關鍵詞可以看出6個主題分別是經濟、體育、軍事、旅游、健康和教育。由此可見,基于LDA主題模型挖掘得到的主題和關鍵詞不僅準確率較高,而且各個主題之間的獨立性強,很容易根據關鍵詞得出相關主題。

模型中存在3個可變量:超參數α和β,以及主題個數K值。令α=50/K,β=0.01,迭代次數均為2 000次。在本實驗環境下,經過不同主題數進行多次實驗,得出:當主題數K=50時,聚類效果最佳,F值達到最高。抽取到的熱門話題語句如表2所示。

實驗結果表明,在中文微博語料中生成文摘,相對于單獨使用空間向量模型VSM或LDA模型生成微博文摘,VSM和LDA模型的恰當結合可以明顯地提高效果。對比空間向量VSM模型,準確率、召回率、F值分別提高了6.9%、11%、9.07%;對比LDA主題模型,分別提高了3.3%、4.1%、3.71%。實驗結果如表3所示。

實驗證明,VSM和LDA主題模型相結合的方法,能夠比較準確地抽取微博文本的文摘內容,進一步挖掘主題和關鍵詞,從而實現用戶對實時消息的搜索。

6 結語

本文提出一種中文微博自動文摘方法,在LDA模型的基礎上,提出了LDA和VSM結合的自動摘要算法,同時考慮句子特征和由重要主題產生的句子的LDA特征,從而提高摘要的準確率。后續將研究如何利用重要主題自動確定LDA模型的主題個數。

參考文獻:

[1]李志清.基于LDA主題特征的微博轉發預測[J].情報雜志,2015(9):158-162.

[2]文坤梅,徐帥,李瑞軒.微博及中文微博信息處理研究綜述[J].中文信息學報,2012,26(6):27-37.

[3]SHARIFI B,HUTTON M, KALITA J.Experiments in microblog summarization[C].Washington, DC: IEEE Computer Society,2010.

[4]鄭影,李大輝.面向微博內容的信息抽取模型研究[J].計算機科學,2014(2):270-275.

[5]姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發現與排序方法[J].計算機研究與發展,2013(1):179-185.

(責任編輯:陳福時)

主站蜘蛛池模板: 激情综合五月网| 国产欧美又粗又猛又爽老| 国产成人无码久久久久毛片| 国产毛片一区| 九九热在线视频| 国产九九精品视频| 色偷偷男人的天堂亚洲av| 好吊色国产欧美日韩免费观看| 丝袜国产一区| 欧美日韩精品综合在线一区| 欧美在线视频不卡| 久久这里只有精品8| 色有码无码视频| 亚洲国产理论片在线播放| 人妻少妇乱子伦精品无码专区毛片| 久久无码高潮喷水| 国产青青草视频| 91欧美亚洲国产五月天| 五月天福利视频| 欧美一区二区精品久久久| 中文字幕永久在线看| 亚国产欧美在线人成| 精品色综合| 91视频区| 久久伊人操| 欧美亚洲国产日韩电影在线| 国产农村1级毛片| 99r在线精品视频在线播放| 欧美啪啪网| 国产成人精品男人的天堂| 在线无码av一区二区三区| 18禁黄无遮挡网站| 成AV人片一区二区三区久久| 欧美精品一区在线看| 999在线免费视频| 国产午夜福利在线小视频| 国产人成午夜免费看| 成人午夜在线播放| 色婷婷成人| 亚洲国产精品无码久久一线| 欧美日韩中文字幕二区三区| 欧美不卡在线视频| 一级看片免费视频| 免费毛片全部不收费的| 国产欧美成人不卡视频| 伊在人亞洲香蕉精品區| 亚洲人成网站色7777| 97国产在线视频| 亚国产欧美在线人成| 蜜芽国产尤物av尤物在线看| 久久96热在精品国产高清| 99免费视频观看| 曰AV在线无码| 日本手机在线视频| 亚洲人网站| 日韩在线1| 亚洲AV无码久久精品色欲| 看av免费毛片手机播放| 亚洲人免费视频| 久久综合结合久久狠狠狠97色 | 欧美日韩在线第一页| 久久毛片基地| 欧美在线网| 国产成人高清精品免费5388| 99热这里只有精品免费国产| 国产美女在线观看| 91久久青青草原精品国产| 日本人又色又爽的视频| 性喷潮久久久久久久久| 国产在线小视频| 精品久久久久无码| 精品欧美日韩国产日漫一区不卡| 欧美国产日韩在线播放| 欧美有码在线| 久久免费视频播放| 制服丝袜一区二区三区在线| 在线观看国产黄色| 一级不卡毛片| 亚洲国产成人精品无码区性色| 一级爱做片免费观看久久| 国产aⅴ无码专区亚洲av综合网| AV不卡在线永久免费观看|