王 瑞 秦永彬,2 閆盈盈
(1.貴州大學計算機科學與技術學院 貴陽 550025)(2.貴州大學貴州省公共大數據重點實驗室 貴陽 550025)
隨著社交媒體的不斷發展,網絡上產生了大量字數少于140個字符的短文本,包括微博、朋友圈、搜索片段以及電商評論等。短文本關鍵詞抽取作為短文本研究的一個重要課題,在自動問答、話題跟蹤和信息檢索等領域具有重要作用。
在進行短文本關鍵詞抽取時,已有的主題翻譯模型均采用LDA主題模型進行主題發現,解決詞語和關鍵詞的主題一致性問題;然后利用得到的主題約束翻譯過程,解決詞語和關鍵詞的詞匯差異問題,即關鍵詞在短文本中出現次數不多,甚至不出現的問題,從而提高短文本的關鍵詞抽取效果。LDA在挖掘以傳統的新聞文檔為代表的長文本主題時取得了較好的效果,原因是長文本的字數多,詞語信息豐富。但是由于短文本具有詞數少,特征稀疏的特點,直接利用LDA模型進行短文本主題發現效果較差,從而影響了特定主題下詞語到關鍵詞的翻譯過程和關鍵詞抽取的精度。為克服上述不足之處,本文利用在短文本主題發現方面效果較好的DMM模型,并與統計機器翻譯模型相結合,提出了用于短文本關鍵詞抽取的TTM_DMM主題翻譯模型。與傳統方法相比,該模型能夠有效地提高短文本關鍵詞抽取效果。
目前,關鍵詞抽取方法主要分為以下四類:基于統計的方法,基于主題的方法,基于網絡圖的方法和基于機器學習的方法。
基于統計的方法主要利用文檔中詞語的統計信息抽取文檔的關鍵詞,該種方法不需要訓練數據與外部知識庫,對預處理后的文檔利用簡單的統計規則(詞頻、TF-IDF以及共現信息等)進行關鍵詞抽取[1]。羅燕等提出基于詞頻統計的文本關鍵詞抽取方法,并在中英文數據集上進行驗證[2]。蘇祥坤等通過詞序組合、詞性標注、停用詞過濾等,提出了基于詞序統計組合的關鍵詞抽取方法[3]。Siddiqi S和Sharan A將詞頻信息與詞空間分布相結合,提出了一種適用于任何語言的關鍵詞自動抽取方法[4]。
基于主題的方法通常是利用主題模型LDA進行關鍵詞抽取。Siu等通過訓練HMM模型發現主題信息和關鍵詞信息,并在測試集上得到了較好的結果[5]。文獻[6~7]利用LDA主題模型實現關鍵詞自動抽取。Ding等提出TSTM(Topic-Specific translation model)主題翻譯模型,該模型利用LDA模型發現主題,再計算該主題下詞語與關鍵詞的對齊概率,提高了微博關鍵詞自動標注效果[8]。
基于網絡圖的關鍵詞抽取方法首先要構建文檔的語言網絡圖,其次對網絡圖進行分析,在整個網絡圖上尋找起重要作用的詞或短語,并將這些詞或短語抽取出來作為關鍵詞。Mihalcea和Tarau等利用了PageRank的思想,提出了基于圖模型的TextRank方法,該方法將圖節點作為候選詞,邊作為詞與詞之間的共現關系,根據PageRank算法選出排名最高的若干作為關鍵詞[9]。文獻[10~11]改進了TextRank算法,提高了關鍵詞抽取的效果。
基于機器學習的方法首先在訓練語料庫上進行模型參數的學習,其次利用學習到的參數對測試語料庫進行自動關鍵詞抽取。Liu等提出利用決策樹學習方法進行文本關鍵詞抽取[12]。Sarkar K等面向科技類文章提出了一種基于神經網絡的關鍵詞抽取方法[13]。文獻[14~15]提出了基于支持向量機的關鍵詞抽取方法。Zhang等利用條件隨機場實現關鍵詞的自動標注[16]。
本文提出的TTM_DMM模型為基于主題的關鍵詞抽取方法,并與統計機器翻譯相結合,實現短文本的關鍵詞抽取。
狄利克雷多項混合(Dirichlet Multinomial Mixture,DMM)模型是由Nigam等提出的一種文檔概率圖模型[17],其表示形式如圖1所示。

圖1 DMM模型的圖形化表示圖
其中K為主題數,D為語料庫集。DMM模型認為,當生成一篇文檔d時,首先從語料庫的主題分布θ中選擇一個主題z,其次在給定主題z的條件下,根據詞語的分布φz,生成文檔d中的詞語。因此,DMM生成其內容的似然函數如式(1)所示。

此外,由于主題分布θ和φk為多項分布,所以采用狄利克雷分布作為其先驗分布,如式(2)所示。

本文提出的用于短文本關鍵詞抽取的TTM_DMM主題翻譯模型主要使用DMM作為主題發現模型,與傳統使用LDA的區別在于:LDA假設每篇文章均有一個主題分布,這一假設對于詞語數量較多的長文本來說是合理的,因此,LDA在以新聞為代表的長文本主題發現方面取得了良好的效果。而DMM模型假設整個語料庫只有一個主題分布,每篇文章只有一個主題。顯然,這對于長文本來說是不合理的,但對于短文本是合理的,因為短文本詞語非常短少,每篇短文本擁有一個主題比擁有一個主題分布更切合實際。這是DMM能夠解決短文本特征稀疏性問題,提高短文本主題發現效果的重要理論依據。
除此之外,Yin等基于DMM模型提出了用于短文本聚類的GSDMM模型[18]。該模型通過Collapsed Gibbs方法采樣短文本的主題,比Nigam等使用的EM方法效率更高。該方法很好地解決了短文本的稀疏性問題,算法收斂速度快,在短文本聚類方面取得了非凡的效果,為本文利用Collapsed Gibbs采樣方法的DMM模型進行主題發現,并結合統計機器翻譯進行短文本關鍵詞抽取提供了可行性。
TTM_DMM模型是基于DMM并與統計機器翻譯結合的短文本關鍵詞抽取模型。符號與定義如表1所示。

表1 TTM_DMM模型的符號與描述
TTM_DMM的圖形化表示如圖2所示,該模型包括以下兩個方面。
1)與DMM模型相結合。TTM_DMM模型認為:用戶寫一篇短文本d時,首先從語料庫主題分布θ中選擇一個主題z,然后根據該主題下的詞語分布φz生成詞語。短文本的關鍵詞與短文本內容擁有相同的主題z,保證了短文本詞語與關鍵詞的主題一致性。
2)與統計機器翻譯模型相結合。TTM_DMM模型基于短文本詞語和關鍵詞的主題一致性原則,學習特定主題下詞語與關鍵詞的翻譯概率Q,實現為未標注關鍵詞的短文本生成關鍵詞的目的。
利用在短文本主題發現方面效果較好的DMM模型,能夠提高主題發現的準確率,進而提高主題約束下詞語與關鍵詞翻譯概率的準確性,實現為短文本關鍵詞抽取的目的。

圖2 TTM_DMM模型的圖形化表示圖
根據圖2,TTM_DMM模型假設如下的生成過程:
1)對于每一個主題k=1,…,K:
選擇φk~Dirichlet(β);
2)選擇θ~Dirichlet(α);
3)對于每一篇短文本d=1,…,D:
選擇主題zd~Multinomial(θ)
(1)對于每一個詞語n=1,…,Nd:
選擇wdn~Multinomial(φzd);
(2)對于每一個關鍵詞m=1,…,Md:選擇關鍵詞tdm~ P(tdm|wd,zd,Q)。
其中,φk是短文本集在主題為k時的詞語分布,θ是短文本集的主題分布。第d篇短文本中的所有詞語和和所有關鍵詞共用相同的主題zd。Q為特定主題下,短文本中詞語與關鍵詞的翻譯概率,表示在主題為 k 的條件下,詞語wi與關鍵詞tj的翻譯概率。
首先,采用Collapsed Gibbs方法給訓練短文本集中的詞語和關鍵詞采樣主題。
對于短文本wd,通過式(3)選擇一個主題zd∈[1,K]:

其中,N-d,k是語料庫D中除去短文本wd后主題為k的短文本的數量,N-d是語料庫D中除去短文本wd的文檔的數量,即N-d=|D|-1。表示語料庫中除去短文本wd后主題為k的詞語wdn的個數。表示主題為k時,關鍵詞tdm和wdn共同出現在一條短文本中的次數。
其次,當短文本中詞語和關鍵詞的主題穩定后,通過如下的公式估計特定主題下詞語與關鍵詞的翻譯概率Q:其

中,是主題k下,關鍵詞t和詞語w在一條短文本中共同出現的次數。Q的大小為K*V*T。
給定測試短文本集,通過如下的公式給第d篇短文本進行主題標注,見式(5)。

其中,

式(6)中,p(k)是主題分布的先驗。 Nk表示主題為k的短文本的數量。式(7)中,表示語料庫中主題為k的詞語wdn的個數。是語料庫中主題為k的詞語的數量。
當k=1,…,K時,取得概率 p(zd=k|d)最大時zd的值作為第d篇短文本的主題值。最后,利用主題分布和特定主題下詞語和關鍵詞的翻譯概率Q,通過式(8)給測試數據集抽取關鍵詞,第d篇短文本中關鍵詞m的概率為

其中,p(wdn|wd)是短文本wd中每個詞語的權重,本文采用 IDF(Inverse Document Frequency)方式計算。
我們利用從新浪微博網站爬取的微博作為短文本集,其中包括4個主題共53171條自帶用戶標注關鍵詞的微博。主題分別是“北京馬拉松”、“iPhone6s”、“亞洲杯”、“花千骨”。我們隨機選取12000條微博構成實驗所用數據集TTMSet,10000條為訓練語料,2000條為測試語料。對數據集進行分詞、去停用詞等處理。數據集詳情如表2所示。
我們采用準確率Precision,召回率Recall和綜合指標F-measure作為關鍵詞抽取效果的評價指標。

表2 數據集介紹
本文將TTM_DMM模型與下列三個方法進行比較:
1)LDA主題模型:LDA是一種基于主題的概率生成模型。在運用LDA進行關鍵詞抽取時,首先,分別計算文檔與候選關鍵詞的主題分布;其次,計算兩者的主題相似度,排序并選取最高的若干個作為關鍵詞。
2)IBM model-1:IBM model-1是翻譯模型的代表,利用詞對齊模型和詞語與關鍵詞的共現關系來學習由詞語翻譯為關鍵詞的翻譯概率。
3)TSTM模型:一種基于LDA的主題翻譯模型。該模型首先通過學習LDA模型對訓練集文檔中的詞語和關鍵詞采樣;其次,學習特定主題下詞語到關鍵詞的翻譯概率;最后,利用學習到的翻譯概率、詞語在文檔中的重要程度和測試集的主題分布計算得出每篇文檔的關鍵詞得分。該方法與本文提出的TTM_DMM模型類似,區別在于,TTM_DMM模型引入了DMM模型解決短文本的稀疏性問題,進而提高主題發現效果,實現關鍵詞抽取精度的提高。
TTM_DMM模型初始化α=0.5,β=0.1,K=4,每次實驗的迭代次數為2000次,詞語的IDF值為短文本詞語重要度。

圖3 不同關鍵詞抽取方法的Precision-Recall曲線圖
圖3 是LDA、IBM model-1、TSTM和TTM_DMM四種關鍵詞抽取方法的實驗結果圖,每條曲線的各個點表示抽取的關鍵詞個數不同時的Precision和Recall值,右側第一個點表示抽取的關鍵詞個數為1個,抽取個數從右至左依次遞增至5個,其中曲線越接近右上角,說明抽取效果越好。由于TTMSet數據集中每篇短文本的平均關鍵詞個數是1.08個,導致關鍵詞抽取的個數為1個時,準確率最高,召回率最低,并且當抽取出的關鍵詞個數由5個下降為1個時,各模型抽取出的關鍵詞會包含更少的文檔已標注好的關鍵詞,召回率降低,準確率升高。
各模型實驗結果分析如下。
1)LDA模型的曲線位于最左下方,下降速度最快,說明其關鍵詞的抽取效果最差,并且當抽取的關鍵詞的個數變化時,穩定性較差。原因是該模型只考慮了詞語與關鍵詞的主題一致性,沒有加入短文本已有詞語本身對關鍵詞抽取的影響,并且由于短文本字數較少,詞匯信息不豐富,使得LDA在短文本主題發現存在缺陷,影響關鍵詞抽取效果。
2)IBM model-1模型的抽取效果好于LDA模型,并且在抽取的關鍵詞個數變化時,抽取效果比LDA模型更穩定。但是由于其只考慮了詞語與關鍵詞的共現關系,沒有考慮詞語與關鍵詞是否主題一致,導致抽取效果并沒有達到最好的結果。
3)TSTM模型的短文本關鍵詞抽取效果僅次于TTM_DMM模型,曲線下降趨勢較平緩,說明該模型在抽取效果和穩定性上都有很好的表現,但是該模型的短文本關鍵詞抽取效果仍然不是最好的,原因是雖然該模型同時引入了LDA模型和統計機器翻譯,綜合了上述兩種模型的優點,使得其抽取效果超越上述兩種模型,但是由于LDA模型在短文本主題發現上的缺陷,使得模型主題發現效果不佳,影響特定主題下詞語與關鍵詞翻譯概率的計算,從而導致其抽取效果并不是最好的。
4)TTM_DMM模型的曲線最接近右上角,說明抽取效果相較于另外三種模型更好,原因是TTM_DMM模型不僅解決了主題一致性問題和詞語與關鍵詞的共現關系問題,還使用DMM作為主題發現的主要模型,在短文本的主題發現效果上更好,結合統計機器翻譯,使得模型可以更精準地得到特定主題下詞語到關鍵詞的翻譯概率,從而提升了短文本關鍵詞抽取效果。
為了更加客觀地展示實驗結果,本文以“iPhone6s曝光:硬件升級內存或升至2GB”為例,展示TTM_DMM、TSTM、LDA和IBM model-1的關鍵詞抽取效果,如表3所示,該表展示了四種關鍵詞抽取模型對這條微博進行關鍵詞抽取的結果。其中抽取出的關鍵詞中打(×)的表示該關鍵詞不符合預期目標,本文以各模型抽取的關鍵詞的前五個關鍵詞為例說明。

表3 不同關鍵詞抽取方法的標注示例
由表3可以看到,LDA抽取的關鍵詞大多與“iPhone”有關,但與微博內容無關。IBM model-1抽取出的關鍵詞也出現了兩個不符合預期的關鍵詞,其主要原因是該模型只考慮了短文本中詞語與關鍵詞的共現關系,忽略了短文本詞語和關鍵詞的主題一致性,例如“腎”這個詞是通過iPhone翻譯過來的,與微博內容關系不大。TSTM和TTM_DMM抽取的關鍵詞較好,但是TTM_DMM抽取出的關鍵詞更恰當。
本文創新性地提出了一個用于短文本關鍵詞抽取的TTM_DMM主題翻譯模型,通過利用在特征稀疏的短文本主題發現上效果較好的DMM模型,結合統計機器翻譯,計算特定主題下詞語和關鍵詞的翻譯概率,從而實現為短文本標注關鍵詞的目的。實驗結果證明,TTM_DMM模型能夠有效提高短文本關鍵詞抽取的效果。未來我們將繼續研究如何進一步提高短文本關鍵詞抽取的精度,并與實際應用相結合,針對特定的領域進行關鍵詞抽取。
[1]趙京勝,朱巧明,周國棟,等.自動關鍵詞抽取研究綜述[J].軟件學報,2017,28(9):2431-2449.ZHAO Jingsheng,ZHU Qiaoming.Review of Research in Automatic Keyword Extraction[J].Journal of Software,2017,28(9):2431-2449.
[2]羅燕,趙書良,李曉超,等.基于詞頻統計的文本關鍵詞提取方法[J].計算機應用,2016,36(3):718-725.LUO Yan,ZHAO Shuliang,LI Xiaochao,et al.Text keyword extraction method based on word frequency statistics[J].Journal of Computer Applications,2016,36(3):718-725.
[3]蘇祥坤,吾守爾·斯拉木,買買提依明·哈斯木.基于詞序統計組合的中文文本關鍵詞提取技術[J].計算機工程與設計,2015(6):1647-1651.SU Xiangkun,WUSHOUER Silamu,MAIMAITIYIMING Hasimu.Keywords extraction based on word order statistics and combination of Chinese text theme[J].Computer Engineering&Design,2015(6):1647-1651.
[4]SIDDIQI S,SHARAN A.Keyword and keyphrase extraction from single Hindi document using statistical approach[C]//International Conference on Signal Processing and Integrated Networks.IEEE,2015:713-718.
[5]SIU MH,GISH H,CHAN A,BELFIELD W,LOWE S.Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J].Computer Speech&Language,2014,28(1):210-223.
[6]劉嘯劍,謝飛.結合主題分布與統計特征的關鍵詞抽取方法[J].計算機工程,2017,43(7):217-222.LIU Xiaojian,XIE Fei.Keyword Extraction Method Combining Topic Distribution with Statistical Features[J].Computer Engineering,2017,43(7):217-222.
[7]CHO T,LEE J H.Latent Keyphrase Extraction Using LDA Model[J].Journal of Korean Institute of Intelligent Systems,2015,25(2):180-185.
[8]DING Z,ZHANG Q,HUANG X.Automatic Hashtag Recommendation for Microblogs using Topic-Specific Translation Model[C]//Stroudsburg,PA:Proceedings of COLING 2012:Posters,2012:265-274.
[9]MIHALCEA R,TARAU P.TextRank:Bringing order into text[C]//In:Proc.of the EMNLP 2004.Unt Scholarly Works,2004:404-411.
[10]顧益軍,夏天.融合LDA與TextRank的關鍵詞抽取研究[J].現代圖書情報技術,2014,30(7):41-47.GU Yijun,XIA Tian.Study on Keyword Extraction with LDA and TextRank Combination[J].New Technology of Library and Information Service,2014,30(7):41-47.
[11]寧建飛,劉降珍.融合Word2vec與TextRank的關鍵詞抽取研究[J].現代圖書情報技術,2016(6):20-27.NING Jianfei,LIU Jiangzhen.Using Word2vec with TextRank to Extract Keywords[J].New Technology of Library and Information Service,2016(6):20-27.
[12]LIU J,ZOU D S,XING X L,et al.Keyphrase extraction based on topic feature[J].Application Research of Computers,2012,29(11):4224-4227.
[13]SARKAR K,NASIPURI M,GHOSE S.A New Approach to Keyphrase Extraction Using Neural Networks[J].International Journal of Computer Science Issues,2010,7(2):16-25.
[14]ZHANG K,XU H,TANG J,et al.Keyword Extraction Using Support Vector Machine[J].Lecture Notes in Computer Science,2006,4016:85-96.
[15]CHEN Y N,HUANG Y,LEE H Y,et al.Unsupervised two-stage keyword extraction from spoken documents by topic coherence and support vector machine[J].2012:5041-5044.
[16]ZHANG C.Automatic Keyword Extraction from Documents Using Conditional Random Fields[J].Journal of Computational Information Systems,2008,4.
[17]NIGAM K,MCCALLUM A,THRUN S,and MITCHELL T M.Text classification from labeled and unlabeled documents using em[J].Machine Learning,2000,39(2/3):103-134.
[18]YIN J,WANG J.A dirichlet multinomial mixture model-based approach for short text clustering[J].2014:233-242.