基于后綴樹算法的地區微博摘要技術研究

2018-05-08 07:51:48高永兵張貴娟胡文江馬占飛

計算機工程與應用 2018年9期

高永兵，張貴娟，胡文江，馬占飛

GAO Yongbing1,ZHANG Guijuan1,HU Wenjiang1,MAZhanfei2

1.內蒙古科技大學信息工程學院，內蒙古包頭 014010

2.包頭師范學院計算機系，內蒙古包頭 014010

1.School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou,Inner Mongolia 014010,China

2.Department of Computer,Baotou Teachers College,Baotou,Inner Mongolia 014010,China

1 引言

隨著大量組織機構平臺微博的開通，官方微博開始進入人們的視野，官方微博是經過官方認證后的微博，即真實性已通過驗證。其博文信息不但具有權威性、組織性、真實性，而且還具有地區性。通過觀察發現官方微博中包含地區性相關事件的微博數據量很多，用戶想從中獲取有價值的地區事件信息，逐條閱讀微博數據造成時間浪費，若針對官方微博中的地區微博進行聚類形成事件摘要，將大大提高用戶獲取地區事件信息的效率，且地區官方微博數據很容易從新浪微博提供的應用程序接口（Application Programming Interface，API）中爬取，因此對地區官方微博數據進行自動摘要技術研究具有重要意義。目前針對地區官方微博摘要研究還很少，地區官方微博在形成摘要時有如下挑戰：（1）地名別稱及地區不同層級劃分；（2）混雜了除本地區外的事件信息；（3）地區標簽屬性突顯等特征，因此進行事件摘要時要充分考慮這些特征。

例如張家口地區官方微博的3條博文信息：

W1：#河北張家口涿鹿縣3.2級地震#…張垣涿鹿縣發生3.2級地震，震源深度15千米…。

W2：#地震快訊#…廣州省汕尾市陸豐市…發生3.8級地震，震源深度16千米…。

W3：#涿鹿縣地震北京多地有震感#…河北省張家口市涿鹿縣發生3.2級地震。多名北京網友表示石景山、門頭溝有震感… 。

從以上例子可以看出張家口地區微博信息中有廣州省汕尾市陸豐市地震事件信息，當進行事件聚類時，可能將與本地區的地震事件聚類一起提取出來。同時張家口地區微博信息中存在著地區別稱（如：張家口別稱張垣）和地區不同層級劃分（如：張家口下的涿鹿縣）的特征。此外還存在相似事件或同一個事件所強調突出的不同如何進行描述的選擇（如涿鹿縣地震、北京多地有震感），這需要進一步從微博的社會特征、地區標簽屬性上來判斷。因此如何將不是本地區事件信息過濾掉提取出重要的不同層級的本地區事件摘要信息是本文的重點。

針對微博的事件聚類的研究，目前國內外也已經取得了很多成果。如下：童薇等[1]提出了基于主題模型的微博事件檢測方法，充分利用了數據語義相似度、時序相似度和社交關系相似度。Long Rui等[2]提出了4個基準選取話題關鍵字，從而建立圖模型進行聚類。Phuvipadawat S等[3]提出了基于命名實體加權的改進TF-IDF（Term Frequency-Inverse Document Frequency，詞頻和逆向文件頻率）方法。Weng Jianshu等[4]提出了一種基于小波分析的圖模型。而Sakaki T等[5]提出了基于概率的時空模型來提取主題事件。以上所述主要針對是公眾微博的聚類，并沒有考慮地區別稱特征，對于語義上相關、相同地區的微博內容聚類效果不好。

聚類是幫助用戶在浩如煙海的微博數據中快速、有效地找出有價值的事件，但針對事件的詳細信息，需要進一步研究形成事件摘要，即聚類是事件摘要的一個前提，它們之間有著密切的聯系。

目前關于自動摘要技術的研究，大多數主要關注如何選取句子，比較有代表性的研究如下：Sharifi B等[6-7]提出面對微博自動摘要Hybrid TF-IDF和詞語加強方法。Wang Peng等[8]使用隱馬爾科夫模型描述事件的發展過程從而對該事件進行摘要。Duan Yajuan等[9]提出了使用相互增強式圖模型同時考慮文本內容、作者社會影響力對文本質量的影響，抽取高質量的摘要。彭敏等[10]提出了基于時頻轉換的信息提取方法，獲得高質量的微博摘要。以上所述都是針對公眾微博進行研究的，對于微博中的地區層次區別并沒有考慮。

為此，本文針對地區官方微博數據，提出了一種基于后綴樹算法的地區微博摘要技術研究。充分考慮地區微博的特征，首先把地區微博數據進行預處理，將不是本地區的微博信息過濾掉，并應用知網HowNet[11-12]、地區權值樹，進行語義相似度及地名替換，使其更好地實現事件聚類；然后，應用后綴樹聚類（Suffix Tree Clustering，STC）方法、奇異值分解（Singular Value Decomposition，SVD）來進行事件聚類；最后，對地區微博計算標簽屬性、地區名稱、社會特征的權值得分，選取權值較高的微博句子作為事件摘要。

本文第2章介紹針對本文地區微博中地區別稱、地區不同層級區分問題提出的地區權值樹，第3章介紹本文事件聚類算法，第4章介紹本文進行提取事件摘要的方法，第5章介紹實驗過程及對實驗結果進行的分析，最后對工作進行總結展望。

2 地區權值樹

本文的研究目標是從地區歷史微博中挖掘出與本地區相關的重要事件。而對于本地區這個名詞存在著地區別稱、地區不同層級區分問題，因此本文綜合地區微博的特征提出了應用地區權值樹來解決以上兩個問題。

定義1（地區權值樹）根據地區不同層級建立的一棵樹，最高級別的地區名稱為根節點，其下的子樹為其下一級別地區名稱節點，并以此類推。并且樹中的節點包含地區別稱和地區不同層級的權值。

地區權值為了能夠區分用戶主要想了解的地區事件。某地區微博中也包括了其所屬省及其下許多縣鄉等事件信息，如何區別主次事件信息，需要地區權值樹中的權值設定來區分。

如：主要想了解張家口地區近兩年的事件信息時，出現張家口下縣鄉的事件信息，把張家口的權值以某種緩慢遞減的方式賦給縣鄉，出現河北省的事件信息時，把張家口的地區權值以某種快速遞減的方式賦給河北省，并以此類推，這樣保證提取出的事件信息與張家口市最大相關。

地區別稱為了解決地區微博中出現的地區名稱不統一的情況，同時為了得到更好、更精準的事件聚類信息，所以本文選擇在進行事件聚類之前應用地區權值樹將地區名稱統一。

如：河北-冀，張家口-張垣、山城等。

如圖1所示為河北省地區權值樹。

圖1 河北省地區權值樹圖

3 事件聚類

在進行好數據預處理（去除本地區外的事件信息和地區別稱、語義相似度替換）之后，本文針對事件聚類首先采用STC算法發現頻繁短詞束，并通過SVD提取抽象概念和聚類標簽，最后應用Jaccard[13]相似系數進行聚類合并。這個部分分為：后綴樹建立、基本類選取、聚類標簽選取、聚類合并。

3.1 后綴樹建立

STC算法是一種直觀的聚類算法，它將文本聚類為一組的依據是文本含有共同的短語。實際上是將文本看成詞的序列，充分利用了詞與詞之間的距離信息，在尋找文本共同的最大短語的過程中使用了后綴樹這種數據結構，其聚類效果很好。

后綴樹的特征：后綴樹中的每一個內部節點v都代表著一組文檔，并且從根節點到該內部節點vp的標識為這組文檔所共享的短語。所有從v開始的節點對應的葉子都是字符串vp的后綴，所以包含vp的文檔集能由這些葉子的標志信息得到。

因此，可以利用后綴樹的特征快速獲得最大短語束。

如下是針對張家口地區“2022年冬奧會”事件進行建立后綴樹數據結構的例子。

首先，在對微博數據進行預處理（其中包括語義相似度替換、地區別稱的統一），STC算法為每一條微博構造所有的詞語后綴，每一條微博用D={D1,D2,…,Dn}表示。如下是4條經過預處理后的微博信息。

D1.成功冬奧會

D2.山城獲得舉辦 2022年冬奧會（“山城”替換成“張家口”）

D3.張家口 2022年冬奧會主辦城市（“主辦”替換成“舉辦”）

D4.北京攜手張家口冬奧會申辦成功

針對微博D1到D4的后綴樹數據結構如圖2所示。

3.2 基本類選取

使用后綴樹數據結構識別基本類。在后綴樹中每一個節點代表一個基本類，框節點表示從根節點到當前節點詞項串聯的連貫短語在哪些微博中出現過。從節點到節點的邊標記的是詞語，并且這些詞語是作為聚類標簽使用。基本類是從圖中的節點中選取，每一個節點至少包含了來自兩條不同的微博中才可以選擇作為基本類，其他形式除外。如表1所示為上述圖2進行選取基本類的結果。

圖2 后綴樹數據結構

3.3 聚類標簽選取

針對原有的STC方法，它主要包括3個步驟：（1）文檔的準備；（2）基本類的發現；（3）基本類的合并。但是STC算法不能很好地控制重疊聚類的缺陷，并且不能去選取聚類數量。所以本文提出應用一種改進的聚類算法，在其構建后綴樹結構找到完整短語后，結合SVD產生候選聚類標簽，選取更為有效的聚類標簽，并且應用SVD能夠選取聚類的數量。應用SVD獲取聚類標簽具體步驟如下：

（1）在去除重復詞語的基本類后（如表1中B、G、K，C、H，F、J和 D、C重復），通過計算詞項TF-IDF值建立詞項-微博矩陣 At×d；其中 A的秩 rank(A)=r。 λ1≥λ2≥…≥λr是AAT及ATA的r個非負特征值，對應的正交特征向量分別為x1,x2,…,xt和y1,y2,…,yd。

（2）利用奇異值分解A將分解成A=USVT形式，其中矩陣U是由詞語間關系矩陣AAT導出的特征向量矩陣，VT是由微博文檔間關聯矩陣ATA導出的特征向量矩陣，S是r×r階奇異值對角矩陣，S=diag(δ1,δ2,…,δr)，而 δi=√λi(i=1,2,…,r)被稱為矩陣 A的奇異值。

（3）應用矩陣F-范數（如式（1）所示），選取適應的k值，將S中最大的k個奇異值及其相應的行、列保存，其他的奇異值及其相對應的行、列刪除；再取U、V最前面的k個列向量，由此得到Ak=UkSkVTk，其中k(k＜r)是降維后的概念空間的維度。

表1 基本類

其中q是一個控制集群個數的參數，本文設定q的值為0.9[14]。

（4）抽象概念及短語匹配，由于特征提取過程中，無論是抽象概念還是詞組的發現都表示在同樣的空間即原始詞語-微博矩陣的列向量空間，因此，本文定義一個t×(p+t)的矩陣P，其中t是去除重后詞項的個數，p是其短語的個數，p中將詞項和短語(p+t)看作偽微博，用TD-IDF值表示其權重；然后計算M=UTkP將能產生所有抽象概念-詞組對的夾角余弦，然后根據M挑選出候選聚類標簽。

（5）聚類內容發現，定義一個矩陣Q，其中Q中列向量是每一個聚類標簽。計算C=QTA，得到聚類內容的分配。其中A是原始的詞語-微博矩陣。矩陣C的元素Cij表示第 j條微博屬于第i的聚類的程度。對于每一個候選聚類標簽，對C中元素根據聚類分配閾值進行篩選，最后，將所有未被分類的微博文檔信息放入其他類。

3.4 聚類合并

為了更好地得到聚類結果，本文利用Jaccard相似系數，進一步合并聚類標簽及相應的聚類內容。如式（2）所示：

其中，C_Sim(Ci,Cj)表示Ci，Cj兩個聚類之間的相似度，BN(Ci)表示Ci聚類對應的微博編號集合；BN(Cj)表示Cj聚類對應的微博編號集合。如果其值大于一定的閾值就將其聚類標簽進行合并，并將其內容也進行合并。

4 摘要提取

在進行事件聚類完成之后，需要對子事件進行摘要抽取。本文結合地區微博特征計算微博綜合得分來進行摘要提取。進行聚類完成后，針對每一個聚類標簽中的內容，首先計算每條微博句子的綜合得分，然后按照得分將每個聚類中的微博句子進行排序，最后在每個聚類中抽取出排名前一條微博句子作為摘要。微博的綜合得分是分別計算微博地區名稱、社會特征和標簽屬性的權值。

4.1 微博地區名稱

為了區分用戶想主要了解的地區事件，根據地區權值樹，先查找主要了解的地區名稱的權值，然后按照它的上一級別權值快遞遞減，下一級別權值緩慢遞減，并以此類推，進行地區權值計算。主要了解的地區名稱權值如式（3）所示：

其中，lf_weight(fij)表示在第 j條微博中i地區名稱的權值，N表示進行預處理后所有微博中地區名稱的總數量，Ni表示所有微博中主要了解的地區名稱的數量。

4.2 微博社會特征

微博消息的質量高低不僅與文本內容有關，還和一些社會特征有關。在微博中這些社會特征表現為對微博文本信息的評論數、轉發數還有微博用戶的權威性即粉絲數。微博的社會特征權值表達式如式（4）所示：

其中，sf_weight(fj)表示第 j條微博的社會特征權值。Cj表示第 j條微博的評論量，Rj表示第 j條微博的轉發量，Fj表示第 j條微博所屬用戶的粉絲量。C表示微博 j所屬聚類中所有微博的評論量。R表示微博 j所屬聚類中所有微博的轉發量。F表示微博 j所屬聚類中所有用戶的粉絲數。 α1、β1、γ1為3個可變系數，且相加為1。

4.3 微博標簽屬性

根據觀察地區微博歷史數據特征，發現地區微博大部分帶有標簽特征，而微博標簽是微博主題的體現，所以標簽在地區微博中很重要。標簽在地區微博中分為3種情況，一種是有標簽且包含候選聚類詞項，有標簽但是不包含候選聚類詞項，還有就是沒有標簽的。針對這3種情況，計算微博標簽屬性的權值如式（5）所示：

第一個表達式表示標簽詞項在候選聚類標簽中出現的情況，第二個表示是其他的兩種情況，其中，htfij表示標簽中的相對詞頻，hN代表的是帶有標簽微博的個數，hni代表的是標簽中包含詞i的微博個數，θ是一個常數。

因此，地區微博的綜合得分的公式如式（6）所示：

其中，lf_weight(fij)是微博地區權值得分，sf_weight(fij)是微博社會特征得分，ht_weight(fij)是微博標簽屬性權值得分，α2、β2、γ2是3個可變系數，作用為平衡每個權重因子，且相加為1。

計算地區微博的綜合權值之后，對子事件中的微博進行排序，然后按比例從中提取出排名前一條微博句子作為子事件的摘要。并做進一步地處理，按時間順序將它們排序，這樣做的目的是為了使得到摘要文本具有連貫性和一致性；最終生成包含事件各個方面且按時間順序排序的地區事件摘要。

5 實驗與分析

實驗的目的是驗證本文提出的基于后綴樹算法的地區微博摘要技術研究方法的效果。

5.1 實驗環境與數據

實驗硬件環境：CPU Inter?Core?i5（3.20 GHz），RAM為8 GB，操作系統為64位的Windows 8；實驗軟件：編程軟件為Eclipse，數據庫為SQL Server。

本文使用的數據集來源于新浪微博，是利用程序獲取河北省張家口市、滄州市、邢臺市，內蒙古呼和浩特市、包頭市這5個地區每個地區20個官方認證微博賬戶數據，獲取數據時間范圍是為2015年5月1日至2016年9月1日，總計160 481條微博數據。

由于獲取的地區微博數據內容混雜，如：除5個地區外的微博數據信息、地名的別稱、表情、英文字符、其他對地區事件信息分析無意義的符號等，故需對數據進行預處理以提高模型預測的精度。預處理分成宏觀與微觀兩個層次進行。

（1）宏觀：過濾掉5個地區外的地區微博數據（如江蘇、遼寧等），而針對地區別稱的微博數據將進行保留（如張家口-張垣、山城，河北-冀，包頭-鹿城等）。

（2）微觀：對剩余的微博數據，進行逐條處理，刪除每條微博中的英文、表情符號，刪除非文本微博，如圖片、視頻等，然后對處理后的地區微博文本進行分詞、去除停用詞、低頻詞，最后再應用HowNet和地區權值樹進行語義相似度和地區別稱的替換。

5.2 參數設定

先通過實驗對相關的閾值、參數進行設定。針對式（2）設定聚類合并的閾值，當式（2）的值大于0.5時，則進行聚類的合并。

針對式（3）地區上下級別權值的設定，不同的權值對于提取的地區事件摘要有不同的效果，通過對獲取的地區官方微博數據信息進行實驗，上一級別設定為lf_weight(fij)/3，下一級別設定為lf_weight(fij)/2時獲得主要了解的地區事件摘要效果最佳，并以此類推。

此對于式（4），α1、β1、γ1這3個可變系數，當 α1的值為0.5，β1、γ1均為0.25時，最能反映出評論數是最能體現微博包含有用信息的程度。

對于θ，當θ=1時，式（5）退化為傳統的TF-IDF公式，θ過大時，忽略微博文本Hashtag話題詞之外的詞，由于帶有Hashtag的微博文本占文本總數量的50.2%，但是存在一些沒有意義的標簽，如“早安張家口、邢臺播報”等，這些標簽并不能代表本地發生的事件，因此話題詞內容不能完全決定微博的主題，故而導致一些不處于Hashtag中的詞語的權重過低，造成形成事件摘要準確率下降。通過對本文的數據反復實驗，發現當θ=1.6時的正確率最高。所以本文選擇θ=1.6。

對于式（6）中 α2,β2,γ2這3個可變系數，當 α2的值為0.4，β2,γ2均為0.3時，最能反映地區權值對地區摘要提取的價值。

對于變量l，通過對實驗的分析，當l為10%～15%時，提取的有代表微博能夠最大限度地包含事件有用信息，且在生成摘要時，不會造成事件摘要的冗余。當l值太大會造成一定的信息冗余現象，而l值太小會造成信息的缺失，生成的摘要無法為讀者提供事件的有用信息。

5.3 地區事件聚類

由于地區微博事件沒有公開的評測數據集，因此本文選擇3位不同研究人員通過網易客戶端觀測當地事件來提取這5個地區發生的事件作為本文的測評數據集。

表2是3位不同研究人員針對張家口、滄州、邢臺市通過網易客戶端提取的事件。

表2 人工提取事件

表3是應用本文事件聚類算法對這3個城市進行事件聚類的結果。

表3 本文算法提取事件

從以上兩個表格上可以看出，應用本文提取的事件更全面，能夠將本地區所發生的較少談論到的小事件提取出來，這更能突出在查詢時間內想了解地區所發生的詳細的一系列事件。

5.4 地區事件摘要

由于地區微博自動事件摘要沒有公開的評測數據集，因此同時讓其3位不同研究人員分別對從微博中提取出的5個地區事件進行人工提取摘要并作為摘要的評測數據集。

本文以張家口“2022年冬奧會”事件為例，提取其摘要。并將該方法生成的事件摘要信息與改進的LexRank[15]方法、改進的TextRank[16-17]方法、人工產生的摘要進行對比，如表4所示。

雖然改進的LexRank、TextRank方法在針對公眾微博提取事件摘要時取得了很好的效果，但是針對地區微博摘要的提取由于這兩種方法缺少考慮地區微博的特征，從表4可以看出，本文形成的摘要較其兩種方法生成的摘要更全面，子話題覆蓋性更強，且能夠準確表達當地事件信息。

5.5 測評標準

為了驗證本文提取算法的有效性，本文采用文檔摘要研究中的通用評價標準ROUGE[18]對地區事件摘要的質量進行測評。在ROUGE測評指標中有很多子指標，其中每一項測評指標中都能產生3個得分（召回率、準確率、F1值）。下面對ROUGE-N進行說明。

N元語言模型的召回率ROUGE-N-R為：

以上兩者的F1值為：

其中，N是N元語言模型的長度，N-gram∈G表示在標準答案摘要G中出現的N元語言模型，N-gram∈S表示在系統自動生成的摘要中出現的N元語言模型。Cm(N-gram)是在候選文檔摘要中和標準答案中都出現的N元語言模型數量，C(N-gram)則表示僅出現在標準答案摘要或是系統自動生成的摘要中的N元語言模型數量。考慮本文針對的是微博短文本數據，所以本文選擇ROUGE-2。

用ROUGE-2-F對本文方法、改進LexRank方法、改進TextRank方法提取的張家口市、邢臺市、滄州市事件摘要進行對比評測，結果如圖3～5所示。

表4 張家口“2022年冬奧會”事件摘要

圖3 張家口市ROUGE-2-F對比結果

圖4 邢臺市ROUGE-2-F對比結果

圖5 滄州市ROUGE-2-F對比結果

通過圖3～5顯示表明本文算法提取摘要判別能力是最強的，且生成摘要優于其他兩種方法，其次是TextRank、LexRank最弱。這是因為改進TextRank方法在進行摘要提取時比LexRank方法多考慮了微博的標題和句子位置等信息，而本文方法充分考慮了地區微博的特征。

實驗結果表明，利用采用后綴樹和奇異值分解來進行事件聚類并綜合考慮地區微博的特征生成的摘要表現出較大信息的覆蓋率、更準確的更好的可讀性和更全面性地區事件摘要信息的特征，這也充分的證明了本文算法的有效性。

6 結束語

本文以地區微博的事件為研究對象，它涉及了文本的聚類、文本內容質量的計算、文本的相關性的計算等。在分析了傳統的提取摘要的算法的基礎上，考慮了摘要的可讀性、全面性和有用性，提出了一種基于后綴樹算法的地區微博摘要技術研究方法，首先在對地區微博進行預處理時結合其本身的特征點使用HowNet、地區權值樹進行語義相似度替換和地區別稱的統一；接著應用STC算法、SVD來進行地區微博事件的聚類；然后綜合考慮地區微博的特征，計算微博總權值；最后通過對微博進行排序選擇、加工，得到最終摘要。對比實驗結果表明，本文方法生成的摘要效果更加合理有效，地區相關性事件更準確。

目前關于地區微博信息的事件聚類和摘要進行了初步的研究，今后需要在句法方面對微博文本進行研究，使摘要的可讀性更高、信息更豐富、內容更全面，更好地讓用戶快速閱讀和了解地區事件。

參考文獻：

[1]童薇，陳威，孟小峰.EDM：高效的微博事件檢測算法[J].計算機科學與探索，2012，6（12）：1076-1086.

[2]Long R，Wang H，Chen Y，et al.Towards effective event detection，tracking and summarization on microblog data[J].Web-Age Information Management，2011：652-663.

[3]Phuvipadawat S，Murata T.Breaking news detection and tracking in Twitter[C]//International Conference on Web Intelligence and International Conference on Intelligent Agent Technology.Washington D C：IEEE Computer Society，2010：120-123.

[4]Weng J，Lee B S.Event detection in twitter[C]//International Conference on Weblogs and Social Media，Barcelona，Catalonia，Spain，2011：311-312.

[5]Sakaki T，Okazaki M，Matsuo Y.Earthquake shakes twitter users：Real-time event detection by social sensors[C]//Proceedings of the 19th International Conference on World Wide Web，2010：851-860.

[6]Sharifi B，Hutton M A，Kalita J K.Summarizing microblogs automatically[C]//Human Language Technologies：the 2010 Conference of the North American Chapter of the ACL，Los Angeles，USA，2010：685-688.

[7]Sharifi B，Hutton M A，Kalita J K.Experiments in microblog summarization[C]//Proceedings of IEEE Second International Conference on Social Computing（ICSC2010），Minneapolis，USA，2010：49-56.

[8]Wang Peng，Wang Haixun，Liu Majin，et al.An algorithmic approach to event summarization[C]//ACM SIGMOD International Conference on Management of Data，Indianapolis，Indiana，USA，2010：183-194.

[9]Duan Yajuan，Chen Zhumin，Wei Furu，et al.Twitter topic summarization by ranking tweets using social influence and content quality[C]//Proceedings of the 24th International Conference on Computational Linguistics，New York，2012：763-780.

[10]彭敏，高斌龍，黃濟民，等.基于高質量信息提取的微博自動摘要[J].計算機工程，2015，41（7）：36-42.

[11]Dong Z D，Dong Q，Hao C.HowNet and its computation of meaning[C]//Proceedings of the 23rd International Conference on Computational.Linguistics（COLING’10），New York，2010：53-56.

[12]劉杰，郭宇，湯世平.基于知網2008的詞語相似度計算[J].小型微型計算機系統，2015，36（8）：1729-1734.

[13]Parikh R，Karlapalem K.ET：Events from tweets[C]//International Conference on World Wide Web Companion.New York：ACM，2013：613-620.

[14]Poomagal S，Visalakshi P，Hamsapriya T.A novel method for clustering tweets in Twitter[J].International Journal of Web Based Communities，2015，11（2）：170-187.

[15]朱明峰，葉施仁，葉仁明.基于Lex-PageRank的微博摘要優化方法[J].計算機科學，2016，43（9）：261-265.

[16]Milhalces R，Tarau P.TextRank：Bringing order into texts[C]//Association for Computational Linguistics，Barcelona，Spain，2004：118-126.

[17]余珊珊，蘇錦鈿，李鵬飛.基于改進的TextRank的自動摘要提取方法[J].計算機科學，2016，43（6）：240-247.

[18]席耀一，李弼程，李天彩，等.基于詞語對狄利克雷過程的時序摘要[J].自動化學報，2015（8）：1452-1460.