邵 健 章成志,2
(1.南京理工大學信息管理系 江蘇南京 210094)
(2.江蘇省數據工程與知識服務重點實驗室(南京大學) 江蘇南京 210023)
當前,各種主流微博平臺都提供Hashtag標注功能,如關于馬航墜機事件的Hashtag在Twitter中為“#MH370”,在新浪微博中為“#MH370#”,雖然不同微博平臺中Hashtag的具體標記形式可能不同,但功能基本相同,都具有主題標注和話題參與的功能。主題標注功能指Hashtag能夠表達一條微博中的主題信息;話題參與功能指用戶使用Hashtag參與同一個話題的討論。在微博平臺中,上述功能使Hashtag在信息組織和信息檢索方面具有優勢,因此越來越多的學者開始深入研究Hashtag。但在實際的微博數據中Hashtag的標注數量較少,這大大降低了Hashtag的信息檢索和信息組織的效率。Potts等認為主要有兩種因素降低了Hashtag的標注數量和標注質量:(1)大部分用戶不對自己的微博標注Hashtag;(2)有些用戶隨意的標注Hashtag,出現許多難以理解的和使用的Hashtag,導致信息傳播效率降低。因此,為了提高Hashtag的標注數量和質量,學者們提出了多種不同的Hashtag推薦方法,為用戶自動推薦合適的Hashtag。
當前,Hashtag推薦方法主要有基于頻次和相似度的方法、基于機器學習的方法和基于主題模型的方法等。K最近鄰作為一種經典的文本分類方法,無需標注語料,并且無需花費大量時間訓練模型。因此,本文嘗試將K最近鄰方法用于微博的Hashtag推薦。由于傳統的權重計算方法和文本表示方法不適合短文本的處理。為此,本文對比了向量空間模型 (Vector Space Model)、 潛 在 語 義 分 析 (Latent Semantic Analysis)、隱含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度學習(Deep Learning)的文本表示等四種方法,以選擇適合于基于KNN的Hashtag推薦任務的文本表示方法。
Hashtag推薦主要依據文本內容與用戶信息,目的是從微博文本中抽取關鍵詞或者直接提取已有的Hashtag推薦給用戶,用以提高Hashtag的標注數量和質量。在Hashtag推薦中,對微博短文本預處理和表示的效果直接影響到最后結果的好壞,因此需要對微博文本進行預處理,并深入挖掘文本,以表示出詞匯之間的語義信息。
Hashtag推薦技術包括基于頻次或相似度排序方法、分類算法、主題模型、協同過濾、神經網絡等方法。其中按頻次或相似度排序的方法是指對最終的候選Hashtag按其頻次排序,或者按照Hashtag之間相似度或Tweets之間的相似度對Hashtag進行排序。所利用的信息可分為三種:Tweets的內容特征;用戶的偏好特征;Hashtag的頻次和時間特征。其中用戶的偏好特征指用戶的關注關系,興趣等特征。
Mazzia和Shin等將Hashtag推薦問題轉化為分類問題,利用樸素貝葉斯、支持向量機等方法選擇合適的Hashtag。基于主題模型的方法主要依據文本的主題信息推薦 Hashtag,Zhang和 Ding提出主題翻譯模型,取得了很好效果。與以上方法相比,K最近鄰方法較為簡單,模型中考慮的信息較少,無需標注語料、訓練模型等步驟,并且能夠取得令人滿意的效果。2009年,張慶國等利用VSM進行文本表示,依據K最近鄰方法抽取關學術論文的關鍵詞,其實驗表明該方法有效的提高了準確率和召回率。與該工作不同的是,本文以微博短文本作為研究對象,考察四種不同文本表示方法在基于KNN的Hashtag推薦中的實際效果,以期找到適合微博短文本的文本表示方法,從而提高基于KNN的Hashtag推薦效果。
向量空間模型將文本映射到一個特征空間中,用向量的方式表示文本,以方便計算。常配合TF*IDF等權重計算方法計算每個詞匯的權重。在Hashtag推薦中,多數學者使用向量空間模型對短文本進行表示,并且針對短文本的特點提出了多種權重計算方法。在傳統的權重計算方法中,Zangerle等的實驗顯示使用TF*IDF的方法取得了最好的 Hashtag 推薦結果。
但Li等認為傳統的方法不適合短文本的表示,因此學者們針對Hashtag推薦具體問題,借鑒TF*IDF的思想提出了新的方法,如Xiao等提出的Term Frequency-Inverted Hashtag Frequency(TFIHF)和 Probabilistic Inside-Outside Log(P-IOLogH)方法,Otsuka 等提出的 HF-IHU 方法。
向量空間模型的缺點是當詞匯數量增多,維度也會相應增加,導致計算速度緩慢、特征稀疏等問題,該模型也無法表示出詞匯之間的語義關系。潛在語義分析和隱含狄利克雷分布模型都能表示詞匯的語義信息,因此出現大量使用潛在語義分析和LDA對微博短文本進行處理的研究。如Yan等使用潛在語義分析發現微博中的主題,Liang等將LDA應用在Twitter中用于用戶的推薦。隨著近些年深度學習技術的興起,在Hashtag推薦問題中,Tomar等使用基于深度學習方法將微博中的詞匯表示為300維度的詞向量,并使用神經網絡推薦Hashtag,Vergeest等使用基于神經網絡的詞嵌入方法推薦Hashtag,皆取得了令人滿意的效果。
綜上所述,當前的Hashtag推薦方法主要使用向量空間模型對文本進行表示,缺少對其它文本表示方法的研究。因此,本文比較了向量空間模型(VSM)、潛在語義分析(LSA)、隱含狄利克雷分布模型(LDA)、深度學習(DL)等四種文本表示方法對基于KNN的Hashtag推薦效果的影響。
K最近鄰方法是由Cover和Hart兩人提出的,基本思想是考察訓練集中與當前文本距離最近的K個樣本點,由這K個樣本點決定當前文本的類別,是機器學習中經典的方法之一。本文利用K最近鄰方法為用戶推薦Hashtag,基本假設為:在微博文本集合中,距離當前微博文本距離最近的微博文本所包含的Hashtag也最相似。在該方法中,文本表示和距離計算是關鍵的步驟。因此本文將向量空間模型、潛在語義分析、隱含狄利克雷分布以及深度學習等四種文本表示進行比較分析,找出在基于KNN的Hashtag提取任務中,最合適的微博文本表示方法。
Hashtag推薦流程(見圖1)如下:

圖1 基于最近鄰的Hashtag推薦方法流程圖
(1)對抓取到的文本微博進行一系列的預處理,作為訓練集;
(2)對訓練集進行文本表示,以向量的形式存儲;
(3)當用戶輸入一條微博時,將其表示為向量,并與訓練集中的每條微博文本計算相似度 (本文使用向量夾角的余弦值作為相似度),余弦相似度計算公式為:

(4)從與當前微博最相似的K個微博中抽取候選Hashtag。對于包含Hashtag的微博,直接提取其中的Hashtag作為候選Hashtag。針對不含Hashtag的微博,為了縮短程序的執行時間和提高執行效率,本文使用了簡化的關鍵詞抽取方法,使用句法分析器抽取其中的名詞短語,以及將去除停用詞后的單個詞匯作為候選Hashtag。Hashtag大多數由名詞短語以及單個的詞匯所組成,因此句子中的名詞短語和單個句子也可以作為候選的Hashtag。
(5)根據候選集中每個候選Hashtag出現的頻次與候選Hashtag所在微博與當前微博相似度的乘積推薦Hashtag,計算方法為:

其中 score 為候選 Hashtag 得分,Freq(Hashtag)為候選 Hashtag在候選集中的頻次,sim(Hashtag,t)為候選Hashtag所在微博與當前微博的相似度。
Hashtag所在微博與當前微博的相似度越高說明兩條微博越相似,那么這條微博中包含的Hashtag是用戶所需要的Hashtag的概率更大。Hashtag在候選集中的頻次一定成度上表示出了候選集的主題分布,高頻次的Hashtag表明候選集的主題更傾向于這個Hashtag所代表的主題。因此,Hashtag所在微博與目標微博的相似度乘以Hashtag在候選集中的頻次的計算方法綜合考慮了相似度與一定范圍內的主題信息。
對于不同的用戶來說,有不同的Hashtag使用習慣和使用目的,用戶在選擇Hashtag時,即使有相同的目的,由于文化背景或思維等因素的差異,也可能會選擇不同的Hashtag,“最正確”的Hashtag不一定是用戶“最想要”的Hashtag,因此應每次推薦多個Hashtag以供用戶選擇。
3.2.1 向量空間模型
向量空間模型由Salton在1968年提出,是信息檢索領域的經典方法。向量空間模型使用向量表示文本,將文本表示成向量空間,每個維度為文本特征。向量空間模型忽略文本的結構信息,如段落、句子及詞語之間的信息,無法體現語義信息。
以向量D(d,d,……,d)來表示文本,其中d為向量D的第i個特征項的權重。特征項權重計算使用TF*IDF公式為:

其中,T為詞匯,D為文本,freq(T,D)表示詞匯T在文本D中出現的次數,|D|表示文本D中的詞匯總數,count(T,D)表示包含詞匯T的文檔數,N為文檔總數。
3.2.2 潛在語義分析模型
潛在語義分析是由Dumais等提出的信息檢索模型,使用奇異值分解(Singular Value Decomposition,SVD)將高維的向量空間模型映射到低維的語義空間中,對原本的文檔向量進行了降維,去除了一些“噪音”,并且反映出詞語之間隱含的語義關系。
潛在語義分析是對“詞匯-文檔”矩陣進行奇異值分解,因此首先構造“詞匯-文檔”矩陣,在這個矩陣中,對其中的詞匯計算權重,區別每個詞語的重要性。本文使用TF*IDF計算矩陣中每個詞匯的權重。首先構建“詞項-文檔矩陣”C(見圖2)。

圖2 詞項-文檔矩陣
矩陣中列代表文檔,行代表詞匯,x為第m篇文檔的第n個詞所對應的權重。然后對矩陣C進行奇異值分解分解,計算公式為:

保留矩陣U、V、P的前K列,將其它列去除后得到 U、V、P,再重新構建矩陣 C:

這時新的C即為文本的向量形式,潛在語義分析通過SVD這種數學方法對原矩陣進行降維,最終結果可解釋性較差。
3.2.3 隱含狄利克雷分布模型
隱含狄利克雷分布LDA是由Blei提出的一種概率主題模型,與LSA有著密切的聯系。由于LSA生成的向量無法被很好的解釋,因此Huffman等針對LSA的缺點提出了概率潛在語義分析(probabilistic latent semantic analysis,PLSA)較好的解決了多義詞的問題,每個維度可以被解釋為詞典中的概率分布。PLSA中參數數量會隨著文檔的增加而增加,并且容易出現過擬合。2003年,Blei等為了克服PLSA的上述缺點,引入了狄利克雷先驗分布,提出了LDA模型。
LDA能夠將高維的向量空間映射到低維的主題空間,避免了特征稀疏問題的出現。微博這類短文本不僅詞匯少,且存在縮寫詞匯、網絡俚語以及大量未登錄詞,這些干擾因素都會影響文本間相似度的計算,LDA用主題分布的概率對文本進行表示,減少了上述噪音的影響。與上述兩種方法相比,由于加入了狄利克雷先驗分布,因此LDA的缺點是計算量大。LDA是一個三層貝葉斯概率模型,包含詞項、主題和文檔三層結構(見圖3)。

圖3 LDA的概率圖模型[27]
其中φ表示主題中的詞項概率分布,θ表示第m篇文檔的主題概率分布,φ和θ分別作為多項式分布的參數用于生成主題和單詞。K代表主題數量,W和Z分別表示第m篇文檔中第n個單詞及其主題。其中α和β是LDA的先驗參數,α反應了文本集合中主題的相對強弱,β則代表了所有主題自身的概率分布。在LDA中,首先生成整個文檔集合的主題分布,然后計算每個文檔對每個主題的概率分布,將文檔映射到主題空間,以此將文本用整個文檔集合的主題進行表示。
3.2.4 深度學習模型
目前常用的詞匯表示方法是 “One-Hot Representation”,詞匯出現的位置值為“1”,其它位置為“0”。這種方法無法表示出詞匯之間的語義關系。Hinton提出的分布式特征表示方法(Distributed representation)克服了“One-Hot Representation”的缺點[30]。
Bengio等基于分布式表示的思想,提出了使用神經網絡訓練語言模型的方法,詞向量就是在訓練語言模型的過程中得到的。詞項量包含詞匯的上下文信息,通過一些相似度的計算方法,能夠準確的衡量不同詞匯的語義關系。Mikolov等提出使用循環神經網絡訓練語言模型的方法,并發布深度學習的開源工具“Word2vec”,大大提高了詞向量的訓練速度。
在Word2vec中將詞匯使用Huffman樹存儲,在訓練語言模型時,輸入層為詞匯的上下文,輸出為經過隱含層轉換之后的向量。將從Huffman樹的根節點出發到查找到該詞匯的過程看作一個連續的二分類的過程,該詞匯在該上下文環境下出現的概率即為二分類過程的乘積,當語言模型訓練完成時,輸出層的向量即為最終的詞量。
基于上述工作,Le和Mikolov等于2014年提出了基于深度學習的句子向量和文檔向量的訓練方法,本文使用該方法作為文本的表示方法,并將其記為“Doc2vec”。由深度學習得到的文本向量與詞項量具有相同的優點,含有豐富的語義信息。對于微博短文本來說,這種方法能夠表示出縮寫詞、網絡俚語和正常詞語之間的語義關系,相似度的計算更加準確。
在Doc2vec中“Paragraph id”代表一個段落,與Word2vec的方法相似,通過詞匯的上下文來預測這個詞匯的概率,區別是doc2vec中將段落也看作一個詞,這個詞由段落的矩陣表示“Paragraph matrix”。段落中也包含了該詞匯的上下文信息,在這個模型中由于詞匯之間有著前后的關系,因此這種方稱為“Distributed Memory Model”,另外一種不區分詞匯順序的方法使用了詞袋模型,稱為“Distributed Bag of Words”,Doc2vec訓練的過程與Word2vec相似 (見圖4)。

圖4 神經網絡文本表示框架圖[30]
Twitter是世界著名的微博平臺,使用人數眾多,在Twitter中用戶發表的微博文本為Tweets,本文使用從Twitter中采集的Tweets作為實驗數據。在Twitter中以“H7N9”為主題采集數據,具體查詢式為“h7n9 lang:en since:2014-03-08 until:2015-03-08”,從2014年3月8日到2015年3月8日在Twitter中進行搜索,一共采集了87382條Tweets,其中Hashtag被使用的總次數為81305次,將這些數據作為訓練集(具體的信息見表1)。

表1 訓練集數據組成
從訓練集隨機選擇1000條只包含一個Hashtag的Tweets,經過去除亂碼,排除長度小于等于兩個字符Tweets后,剩下740條作為測試集。
從Hashtag的頻次和數量分布圖可以看出,橫軸為Hashtag出現的頻次統計,縱軸為在當前頻次下Hashtag的數量,可以看出Hashtag的頻次越高,則數量越少(見圖5)。
(1)評估方法

圖5 Hashtag頻次-數量分布圖
在實驗中分別計算了四種文本表示方法下Hashtag推薦的正確率,本文采用Kywe等提出的計算方法,具體公式為:

其中U為最后的推薦結果,V為測試集中Tweets原本包含的Hashtag,將測試集中包含的Hashtag稱為正確的 Hashtag,count(U∩V)表示推薦的結果和正確的Hashtag的交集中Hashtag的數量。上述公式的含義可表述為,若推薦結果中至少包含一個正確的Hashtag,則認為此條推薦結果正確,若不包含正確的Hashtag,則認為此條推薦結果錯誤。Hit代表正確與否,正確為1,錯誤為0,其正確率計算公為:

其中,count(Hit)為正確推薦結果的數量,count(V)為測試集的個數,HitRate表示推薦結果的正確率。
(2)實驗參數設置
在實驗中,本文調用開源工具gensim中的向量空間模型、潛在語義分析、隱含狄利克雷分布和Doc2vec等四種文本表示方法。其中向量空間模型和潛在語義分析采用TF*IDF計算每個詞匯的權重。隱含狄利克雷分布的實現采用了Hoffman提出的方法,迭代次數設置為50次,其它參數為默認值。基于深度學習的文本表示參數設置為:窗口設置為15,最低頻次閾值設置為1,其它參數為默認值。基于KNN的Hashtag推薦中,設置K值為100,即每次從訓練集中取前100個與當前Tweets最相似的Tweets。
(3)實驗結果分析
本文分別測試推薦 1,2,3,4,5 個 Hashtag 的正確率。實驗結果(見圖6、圖7、圖8、圖9)表明:

圖6 基于VSM的選取難度與HitTate關系

圖7 基于LSA的選取難度與HitTate關系

圖8 基于LDA的選取難度與HitTate關系

圖9 基于Doc2vec的選取難度與HitTate關系
(1)使用向量空間模型(VSM)進行文本表示的Hashtag推薦結果,(橫坐標為推薦的Hashtag數量,縱坐標為正確率),隨著推薦數量的增加而增加。使用向量空間模型表示的微博文本,向量維度很高,特征很稀疏。
(2)使用潛在語義分析(LSA進行文本表示得到的推薦結果隨著其維度的上升而上升,本文測試到800維度,正確率仍然在上升,但是非常緩慢,(為了與其它方法的維度數量統一,因此在圖中只顯示到600維度)。
(3)隱含狄利克雷分布(LDA)與Doc2vec 的推薦正確率會出現波動,不隨著維度的增加而增加,Doc2vec在400維度時取得了最高的正確率。潛在語義分析和隱含狄利克雷分布的實驗從100維度開始,Doc2vec從50維度開始,并且正確率高于其它方法。雖然各自的維度具有不同的含義,但從降維的角度考慮,Doc2vec取得了更好的降維效果。
通過對四種文本表示方法在不同維度上的平均正確率比較 (見圖10,其中橫坐標為最終推薦Hashtag的數量,縱坐標為HitRat),可以看出,在基于KNN的Hashtag推薦任務中,Doc2vec的文本表示方法取得了最好效果。

圖10 不同表示方法的平均正確率
本文通過候選Hashtag的頻次與候選Hashtag所在微博與當前微博的相似度這兩個因素衡量候選Hashtag是否應該為真正的Hashtag,這兩個因素皆受到相似度計算結果的影響。對文本表示的越準確,含義相近的文本之間相似度也會越高,當更多的包含正確Hashtag的微博與當前微博相似度提高時,前K個微博中包含正確Hashtag微博的數量將會提高,相應的在候選集中正確Hashtag的頻次也將有所增加,這將提高正確Hashtag的得分在候選集中的排名。從以上兩個關鍵因素可以看出,準確的計算相似度是抽取正確 Hashtag的關鍵。VSM、LSA、LDA、Doc2vec四種文本表示方法中Doc2vec取得了最高的推薦正確率,說明Doc2vec的文本表示方法能夠排除噪聲的干擾,最準確的表達文本含義。
造成VSM、LSA、LDA三種方法效果差的原因可能有以下幾點:(1)VSM無法表示出文本中同義詞和多義詞的信息,且微博文本中存在大量噪聲,VSM也不能很好的應對噪聲造成的干擾;(2)文本中的多義詞將對LSA造成較大干擾;(3)LDA的效果受到文本的長度和文本數量的影響較大,而實驗的語料是微博短文本,因此LDA的效果較差。
本文對比了向量空間模型、潛在語義分析、隱含狄利克雷分布模型和基于深度學習的四種文本表示方法,在基于KNN的Hashtag推薦的實際效果,依據Twitter上的H7N9微博語料的實驗結果表明,基于深度學習的文本表示方法取得了最高正確率。
在未來的研究工作中,本文擬將進一步在中文微博語料上進行試驗,測試不同的文本表示方法對中文微博 Hashtag推薦的效果。本文還將利用其它的Hashtag推薦方法,對不同文本表示方法最終取得的效果進行比較分析,從而確定最佳的文本表示方法與推薦方法組合。由于微博的用戶眾多,用戶的關注點和興趣不同,因此在Hashtag推薦中應盡可能覆蓋用戶對不同主題Hashtag標注的需求。這對Hashtag推薦技術提出了更高的要求,在未來的研究中應考慮更多的信息,如用戶的興趣,關系、時間信息等。
[1] Dwyer N,Marsh S.What can the hashtag#trust tell us about how users conceptualise trust? [C].Proceedings of the Privacy,Security and Trust(PST),2014 Twelfth Annual International Conference on,IEEE,2014:398-402.
[2] Zappavigna M.Discourse of Twitter and social media:How we use language to create affiliation on the web [M].A&C Black,2012.
[3] Ivanova M.Understanding microblogging hashtags for learning enhancement[J].Form@re-Open Journal per la formazione in rete,2013,11(74):17-23.
[4] Dixon K.Feminist Online Identity:Analyzing the Presence of Hashtag Feminism [J].Journal of Arts and Humanities,2014,3(7):34-40.
[5] Komori L.We shouldn't have to smoke and hide The legalize hashtag as a platform for collective identity and collective action framing [D].University of Alberta,2013.
[6] Skalbeck R V.Anatomy of a Conference Twitter Hashtag:#AALL2010[J/OL].[2015-05-16].http://scholarship.law.georgetown.edu/digitalpreservation_publications/5.
[7] Potts L,Seitzinger J,Jones D,et al.Tweeting disaster:hashtag constructions and collisions [C].Proceedings of the Proceedings of the 29th ACM international conference on Design of communication,ACM,2011:235-240.
[8] Li Z,Zhou D,Juan Y-F,et al.Keyword extraction for social snippets [C].Proceedings of the Proceedings of the 19th international conference on World wide web,ACM,2010:1143-1144.
[9] Mazzia A,Juett J.Suggesting hashtags on twitter [R].Machine Learning,Computer Science and Engineering,University of Michigan,2009.
[10] Shin Y,Lee S-J,Park J.Composition pattern oriented tag extraction from short documents using a structural learning method [J].Knowledge and information systems,2014,38(2):447-468.
[11] She J,Chen L.Tomoha:Topic model-based hashtag recommendation on twitter [C].Proceedings of the Proceedings of the companion publication of the 23rd international conference on World wide web companion,International World Wide Web Conferences Steering Committee,2014:371-372.
[12] Ma Z,Sun A,Yuan Q,et al.Tagging Your Tweets:A Probabilistic Modeling of Hashtag Annotation in Twitter [C].Proceedings of the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management,ACM,2014:999-1008.
[13] Zhang Q,Gong Y,Sun X,etal.Time-aware Personalized Hashtag Recommendation on Social Media[J/OL].[2015-05-16].http://wing.comp.nus.edu.sg/~antho/C/C14/C14-1021.pdf.
[14] Ding Z,Qiu X,Zhang Q,et al.Learning topical translation model for microblog hashtag suggestion[C].Proceedings of the Proceedings of the Twenty-Third international joint conference on Artificial Intelligence,AAAI Press,2013:2078-2084.
[15] 張慶國,章成志,薛德軍,等.適用于隱含主題抽取的K最近鄰關鍵詞自動抽取[J].情報學報,2009,(2):163-168.
[16] Xiao F,Noro T,Tokuda T.News-topic oriented hashtag recommendation in Twitter based on characteristic co-occurrence word detection [M].Web Engineering.Springer,2012:16-30.
[17] Tariq A,Karim A,Gomez F,et al.Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter[C].Proceedings of the FLAIRS Conference,2013.
[18] Zangerle E,Gassler W,Specht G.On the impact of text similarity functions on hashtag recommendations in microblogging environments [J].Social Network Analysis and Mining,2013,3(4):889-898.
[19] Otsuka E,Wallace S A,Chiu D.Design and evaluation of a Twitter hashtag recommendation system [C].Proceedings of the Proceedings of the 18th International Database Engineering&Applications Symposium,ACM,2014:330-333.
[20] Yan X,Zhao H.Chinese microblog topic detection based on the latent semantic analysis and structural property [J].Journal of Networks,2013,8(4):917-923.
[21] Liang D,Yong-ping D.Application of LDA Model in Microblog User Recommendation [J].Computer Engineering,2014,5(002).
[22] Tomar A,Godin F,Vandersmissen B,et al.Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network [C].Proceedings of the Advances in Computing,Communications and Informatics(ICACCI,2014 International Conference on,IEEE,2014:362-368.
[23] Lucas Vergeest.Using N-grams and Word Embeddings for Twitter Hashtag Suggestion [D].Holland Tilburg:Tilburg University,2014.
[24] Cover T,Hart P.Nearest neighbor pattern classification [J].Information Theory,IEEE Transactions on,1967,13(1):21-27.
[25] Salton G,Wong A,Yang C-S.A vector space model for automatic indexing [J].Communications of the ACM,1975,18(11):613-620.
[26] Dumais S,Platt J,Heckerman D,et al.Inductive learning algorithms and representations for text categorization [C].Proceedings of the Proceedings of the seventh international conference on Information and knowledge management,ACM,1998:148-155.
[27] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation [J].The Journal of machine Learning research,2003 (3):993-1022.
[28] Hofmann T.Probabilistic latent semantic indexing [C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1999:50-57.
[29] Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning [C].Proceedings of the Proceedings of the 48th annual meeting of the association for computational linguistics,Association for Computational Linguistics,2010:384-394.
[30] Hinton,McClelland.Distributed representations [A].D.E.Rumelhart&J.L.McCleland (Eds.),Parallel distributed processing:Explorations in the microstructure of cognition{M}.Cambridge,MA:MIT Press,1986:77-109.
[28] Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model [J].The Journal of Machine Learning Research,2003(3):1137-1155.
[31] Mikolov T,Karafiát M,Burget L,et al.Recurrent neural network based language model [C].Proceedings of the INTERSPEECH 2010,11th Annual Conference of the International Speech Communication Association,Makuhari,Chiba,Japan,September 26-30,2010,2010:1045-1048.
[32] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013.
[33] Le Q V,Mikolov T.Distributed representations of sentences and documents[J].arXiv preprint arXiv:1405.4053,2014.
[34] Kywe S M,Hoang T-A,Lim E-P,et al.On recommending hashtags in twitter networks [M].Social Informatics.Springer.2012:337-350.
[35] ehek R,Sojka P.Software framework for topic modelling with large corpora[C].Proceedings of the LREC 2010 Workshop on new Challenges for NLP Frameworks,Valletta,Malta:ELRA,2010:45-50.
[36] Hoffman M,Bach F R,Blei D M.Online learning for latent dirichlet allocation [C].Proceedings of the advances in neural information processing systems,2010:856-864.