999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于正文和標題文本分類的主題建模

2017-09-23 03:03:44于秀開徐啟南
計算機應用與軟件 2017年9期
關鍵詞:分類文本模型

鄭 誠 于秀開 徐啟南

(安徽大學計算智能與信號處理重點實驗室 安徽 合肥 230039) (安徽大學計算機科學與技術學院 安徽 合肥 230601)

基于正文和標題文本分類的主題建模

鄭 誠 于秀開 徐啟南

(安徽大學計算智能與信號處理重點實驗室 安徽 合肥 230039) (安徽大學計算機科學與技術學院 安徽 合肥 230601)

特征稀疏是對傳統文本分類的一個巨大的挑戰。基于LDA模型,提出一種特征擴展的短文本分類模型。該模型在正文語料的基礎上加入標題語料的主題分布,并進行整合,得到每個文本的主題分布。使用SVM分類器進行分類。實驗結果表明,與正文語料進行文本分類相比,所提模型對文本分類效果較好。

文本分類 LDA 特征擴展 主題分布 SVM

0 引 言

隨著Web的發展,人民群眾可以在網上發布言論和意見,政府部門可以答復人民群眾反映的問題。所以許多省、市部門單位都在積極努力做好這項工作。安徽省的各個地級市的政府網站都開通了這一項功能,比如合肥市的12345政府服務直通車(http://www.hefei.gov.cn/hdjl/)。在該網站中,人民群眾可以向政府相關部門表達自己的意愿,反映自己在生活中遇到的困難,并向政府尋求幫助,也可以對政府不滿意的地方,提出意見、建議,甚至舉報。在網站中人民群眾更愿意表達自己真實的情況和情感,這樣政府就可以真正地了解人民群眾的所感所想,更有利于為人民服務,例如表1是合肥市民一條反饋信息。通過觀察表1的信息,我們可以發現上面的文本主要包括主題(在后文稱為標題),信件內容,回復內容。而且文本較短,對于短文本通常它們的信息特征是:信息量少、特征稀疏、語義依賴上下文等情況[1]。而對于短文本處理的難處就是特征非常稀疏,而傳統的文本分類算法有Baycs、SVM、KNN等這些直接應用在短文本分類上效果不佳。

表1 市民反饋信息

1 相關工作

對于短文本的分類處理,主要有兩種方法,第一種是增加外部知識域。Wang等[2]在處理短文本分類中,利用一個大的分類知識庫,為每個類別建立概念模型,并為每個短文本定義一組概念,通過概念相似性,對短文本進行分類。寧亞輝等[3]提出基于領域詞語本體的短文本分類方法,抽取領域高頻詞作為特征詞,借助語義方面將特征詞擴展為概念和義元,通過計算不同概念所包含相同義元的信息量來衡量詞的相似度,進行文本分類。但是這種借助外部知識域的方法,對于沒有在知識域出現的詞,效果不佳。另一種是通過為短文本加入更多相關的文本,擴展文本特征進行文本分類。Sriram等[4]為微博文本增加作者的配置文件,提出一種文本分類方法。饒高琦等[5]中通過LDA主題模型獲得短文本主題分布,把主題中的詞作為短文本的特征,擴充到原短文本中,進行文本分類。Godin等[6]和Mehrotra等[7]利用LDA和微博的標簽等特性,進行微博文本分類。基于以上考慮,為了便于本文的描述,文本將正文語料定義為用戶的來信內容和回復內容,因為回復內容是政府工作人員回復信息,信息比較充分具體,標題語料定義為用戶來信的標題語料。本文將改進LDA主題模型將正文語料和標題語料進行主題整合加權,得到每個文本的主題分布。

2 基于正文和標題短文本分類模型

2.1 命名實體識別

本文是對正文和標題的短文本分類進行建模,實驗語料是以合肥政府直通車文本為例,因此在語料中會有大量當地特用的命名實體[8],例如當地市區道路名稱、小區名稱、公交站名稱等。為了提高分詞階段的準確性,因此本文在分詞階段引入了用戶詞典。從百度地圖中獲取當地城市特用的命名實體,加入用戶詞典中,然后基于詞典匹配的方法進行分詞,以此來提高分詞的準確性。見表2是149路公交站的部分命名實體。

表2 149公交部分命名實體

2.2 LDA主題模型

LDA主題模型[9]是由Blei等提出的,是一個“文本-主題-詞”的三層貝葉斯產生式模型,每篇文本表示為主題的混合分布,而每個主題則是詞上的概率分布。LDA模型產生一篇文檔的過程如下:

(1) 從先驗參數α產生一篇文檔的主題θ的多項式分布。

(2) 從θ的多項式分布產生一個詞的主題Ζ。

(3) 從先驗參數β產生詞主題φ的多項式分布。

(4) 由詞主題分布Ζ和詞多項式分布φ產生一篇文檔的一個詞w。

下面給出LDA生成模型如圖1所示。

圖1 LDA圖生成模型

關于LDA的詳細介紹和參數請詳見文獻[9]。

2.3 基于正文和標題短文本分類模型

在各大網站、社團、BBS中,用戶在提交自己想法與網友交互時,網站通常要求用戶輸入問題的標題,為了充分利用標題的信息,本文提出了基于正文和標題的文本分類主題建模。下面給出基于LDA主題擴展的短文本分類的流程圖如圖2所示。

圖2 基于LDA主題擴展的短文本分類流程圖

2.3.1 預處理

在特征選擇之前,本文先要進行文本分詞,本文使用的分詞工具為張華平博士等開發的ICTCLAS分詞工具進行分詞。由于本文語料為合肥市政府直通車平臺文本,是面向合肥本地人群的意見和建議,所以文本中有大量的合肥當地的命名實體。為了增加分詞的準確性,本文加入大量的命名實體作為文本分詞的用戶詞典。在該詞典中,加入合肥當地城市的300條主要道路名稱,111條公交路線所有公交站名稱,150個小區名稱等。實驗結果如圖3所示。本文在最佳主題數35下進行實驗,實驗中使用命名實體進行分詞和未使用命名實體進行分詞進行實驗。結果表明,在使用命名實體中準確率、召回率和F值都有所提升。

圖3 使用命名實體進行分詞結果

2.3.2 正文和標題分類模型表示

根據本文文本的特點,包含正文語料和標題語料,文本以直通車文本為例,LDA是基于詞袋進行吉布斯采樣和訓練模型。本文在使用正文語料詞袋庫進行訓練LDA時,引入標題標題語料的詞袋庫,根據調和參數的不同,即標題信息采樣比例不同,獲得每篇文本的最佳的主題分布。本文會根據正文語料得到正文語料的主題分布θ1,通過調和參數γ,在LDA中加入標題主題分布θ2,最終獲得每一篇文本的最終主題分布θ。解釋過程如下:

(1) 從先驗參數α產生一篇文檔正文文檔的主題θ1的多項式分布。

(2) 從先驗參數α產生一篇文檔標題文檔的主題θ2的多項式分布。

(3) 通過γ整合θ1、θ2為θ多項式分布。

(4) 從θ多項式分布產生一個詞的主題分布Ζ。

(5) 從先驗參數β產生詞主題φ的多項式分布。

(6) 由詞的主題分布Ζ和詞的多項式分布φ產生一篇文檔的一個詞w。

下面是文本正文和標題模型的表示和表達式,如圖4所示。

圖4 擴展模型表示

在此給出本模型的參數估計,如圖4的概率模型中,M為文檔總數,N為一個文檔的所有詞的個數,α是每個文檔主題的狄利克雷的先驗參數,β是每個主題下詞的狄利克雷的先驗參數,Z表示一篇文檔中詞的主題。θ1是隱含變量表示一篇文檔的正文的主題分布,θ2是隱含變量表示一篇文檔的標題的主題分布,φ表示一個主題下詞的分布。利用調和參數γ,使:

θ=γ×θ1+(1-γ)×θ2γ∈(0,1)

(1)

在語料具有正文和標題的文本中,在對正文語料進行主題建模的過程中,引入標題語料的信息并進行整合,獲得整篇文本的主題分布,通過公式推導可以得到新的文本主題分布的Gibbs采樣公式,通過對比LDA模型發現,由于引入標題語料的主題因子,文本的主題分布如下:

(2)

(3)

根據式(2)、式(3),最終得到聯合概率分布函數如下式:

(4)

根據吉布斯采樣過程,反復迭代,對標題和正文中詞的每個主題進行抽樣,直到結果收斂,輸出文檔下的主題分布θmk和主題下詞的分布φkt。

3 實 驗

3.1 實驗語料

本文基于正文和標題的文本分類建模,以合肥政府直通車文本為例,使用爬蟲軟件,從合肥政府直通車網站爬取了包含拆遷規劃、房產、公積金、公交交通、社保就業、環境衛生、教育、物業、治安、公共事業等10大類語料。其中社保就業2 322條,公積金1 006條,環境衛生2 636條,教育1 632條,拆遷規劃400條,房產509條,公共事業793條,治安203條,公交交通1 639條,物業3 301條。

3.2 對比試驗、評估方法和分類器

本文的對比實驗設置是正文語料的LDA模型,正文語料的BTM模型,BTM主題模型是晏小輝教授在2013年的會議上提出的一個優秀的主題模型[10]。為了評判與其他模型文本分類算法的性能,本文的評估方法為傳統文本分類的標準:準確率P、召回率R和F值。

(5)

本文使用的分類器為SVM分類器,驗證使用十字交叉法。

3.3 實驗結果

文本在確定LDA主題模型的主題數時,設置主題數從10~70(間隔為5)進行實驗驗證,實驗結果如圖5所示。從圖中可以發現在主題數為35時,LDA、BTM和本文模型的F值都達到了平穩狀態,當主題數大于35時,F值波動不大,所以文本的最佳主題數為35。根據經驗這里把先驗參數α設置為0.5、β設置為0.01,迭代次數為1 000次。

圖5 主題參數的確定

本文通過使用調和參數γ將正文語料的主題分布和標題語料的主題分布整合為一篇文檔的最終主題分布。為了得到調和參數γ最優解,本文在分類數據集中,根據不同主題,調和參數的變化,得到各個主題下F值,通過F值的變化,確定γ的最優解。實驗結果如圖6,橫坐標表示調和參數,縱坐標表示F值,曲線是每個主題下F值隨調和參數的變化曲線,通過實驗結果發現,在各個主題下,當調和參數γ=0.7時,F值最佳,所以文本的調和參數設為0.7。

圖6 γ參數的確定

為了驗證文本模型可以利用標題文本信息的作用,本文使用政府直通車的標題語料和正文語料應用在基于正文和標題文本分類的主題模型中。正文語料上應用LDA模型即只考慮正文的作用,沒有利用標題的信息因子,BTM模型使用正文語料。實驗結果如表3所示。本文方法在準確率、召回率和F值都優于LDA和BTM模型,證明本文模型可以充分利用標題信息對文本進行分類。

表3 實驗對比結果

4 結 語

特征稀疏文本一直是短文本分類的問題,現在文本分類大多基于內容,往往忽略標題信息的作用。為了提高分類的效果,本文利用網站語料的特點,加入了標題語料的主題分布,提出了基于正文和標題的文本分類的主題建模,對文本特征進行擴展。以政府直通車語料為例,實驗表明當加入標題語料的信息后,分類效果比只基于正文內容所提升,本文模型對于具有標題和正文的語料分類效果較為明顯。另外本文為了解決分詞作用的困難,加入了大量的命名實體,增加了分詞的正確性。最后本文僅僅是將文本進行分類,下面的工作將引入時間序列因素進一步提高分類效果。

[1] 賀濤,曹先彬,譚輝.基于免疫的中文網絡短文本聚類算法[J].自動化學報,2009,35(7):896-902.

[2] Wang F,Wang Z,Li Z,et al.Concept-based short text classification and ranking[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:1069-1078.

[3] 寧亞輝,樊興華,吳渝.基于領域詞語本體的短文本分類[J].計算機科學,2009,36(3):142-145.

[4] Sriram B,Fuhry D,Demir E,et al.Short text classification in twitter to improve information filtering[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval.ACM,2010:841-842.

[5] 饒高琦,于東,荀恩東.基于自然標注信息和隱含主題模型的無監督文本特征抽取[J].中文信息學報,2015,29(6):141-149.

[6] Godin F,Slavkovikj V,De Neve W,et al.Using topic models for twitter hashtag recommendation[C]//Proceedings of the 22nd International Conference on World Wide Web.ACM,2013:593-596.

[7] Mehrotra R,Sanner S,Buntine W,et al.Improving lda topic models for microblogs via tweet pooling and automatic labeling[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval.ACM,2013:889-892.

[8] 趙軍.命名實體識別、排歧和跨語言關聯[J].中文信息學報,2009,23(2):3-17.

[9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

[10] Yan X,Guo J,Lan Y,et al.A biterm topic model for shorts texts[C]//Proceedings of the 22nd international conference on World Wide Web.International World Wide Web Conferences Steering Committee,2013:1445-1456.

TOPICMODELINGFORTEXTCLASSIFICATIONBASEDONTEXTANDTITLE

Zheng Cheng Yu Xiukai Xu Qi’nan

(KeyLaboratoryofICSP,MinistryofEducation,AnhuiUniversity,Hefei230039,Anhui,China) (SchoolofComputerScienceandTechnology,AnhuiUniversity,Hefei230601,Anhui,China)

The sparse feature is a huge challenge for the traditional text classification. We propose a short text classification model based on the LDA model. The model integrated the text with the title on the basis of corpus and obtained topic distribution of each text. We used SVM classifier for classification. The test results demonstrate that our model performs better than traditional text classification based on the text.

Text classification LDA Feature extension Topic distribution SVM

TP391.1

A

10.3969/j.issn.1000-386x.2017.09.016

2016-11-17。安徽省高校自然科學基金重點項目(KJ2013A020)。鄭誠,副教授,主研領域:信息檢索,自然語言處理。于秀開,碩士。徐啟南,碩士。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费看一级毛片波多结衣| 亚洲av成人无码网站在线观看| 国产福利小视频在线播放观看| 自拍欧美亚洲| 欧洲亚洲欧美国产日本高清| 国产精品一区二区久久精品无码| 亚洲熟女偷拍| 国产精品jizz在线观看软件| 亚洲最大在线观看| 国产午夜精品鲁丝片| 午夜不卡福利| 无码专区在线观看| 欧美日韩国产成人在线观看| 久久一色本道亚洲| 国产亚洲欧美在线中文bt天堂| 99视频在线看| jizz在线免费播放| 久久特级毛片| 不卡的在线视频免费观看| 91九色国产porny| 蜜桃臀无码内射一区二区三区| 久久久久久久久亚洲精品| 国产精品55夜色66夜色| 9丨情侣偷在线精品国产| 国产人成乱码视频免费观看| 91无码视频在线观看| 国产欧美成人不卡视频| 久夜色精品国产噜噜| 夜夜高潮夜夜爽国产伦精品| 国产精品尤物在线| 色九九视频| 日韩欧美综合在线制服| 曰韩人妻一区二区三区| 国内精品免费| 国产精品福利在线观看无码卡| 成人在线观看一区| 欧美亚洲另类在线观看| 日韩 欧美 小说 综合网 另类| 国产欧美视频综合二区| 欧美成人精品在线| 青青操视频在线| 91国语视频| 国产一区二区三区在线观看视频| 日韩毛片视频| 一级毛片免费的| 欧美影院久久| 精品乱码久久久久久久| 秘书高跟黑色丝袜国产91在线| 欧美国产日韩一区二区三区精品影视| 国产在线自在拍91精品黑人| 国产乱视频网站| 国内a级毛片| 成人日韩精品| 日本不卡在线| 国产精品蜜芽在线观看| 精品人妻一区无码视频| 一级做a爰片久久毛片毛片| 日韩天堂在线观看| 日a本亚洲中文在线观看| 亚洲成a∧人片在线观看无码| AV不卡在线永久免费观看| 亚洲精品国产精品乱码不卞| 国产精品冒白浆免费视频| 国产真实乱子伦视频播放| 免费可以看的无遮挡av无码| 四虎影视国产精品| 欧美成人区| 凹凸国产分类在线观看| 亚洲精品在线观看91| 国产丝袜91| 国产视频入口| 91精品福利自产拍在线观看| 亚洲日本中文字幕天堂网| 5555国产在线观看| 大学生久久香蕉国产线观看| 日韩无码真实干出血视频| 亚洲欧美成人影院| 精品视频一区二区三区在线播| 日本精品αv中文字幕| 国产精品极品美女自在线网站| 久久久精品国产SM调教网站| 亚国产欧美在线人成|