陳福,林闖,薛超,徐月梅,孟坤,倪藝函
?
短句語義向量計算方法
陳福1,林闖2,薛超2,徐月梅1,孟坤2,倪藝函1
(1. 北京外國語大學計算機系,北京 100089;2. 清華大學計算機系,北京 100084)
提出了一種基于人工神經網絡的短文語義向量放縮算法,結合社交節點自身信息和短文語義,給出社交網絡短文語義計算方法和突發話題發現算法。通過文本數值化實現語義距離的計算、比較、節點的分類及社區發現等。通過自行開發的微博采集工具Argus采集的大量新浪微博內容對所提模型和算法進行了驗證,最后對未來工作進行了展望。
在線社會網絡;主題語義計算;人工神經網絡;突發話題發現
移動智能終端的廣泛使用和無處不在的網絡接入能力,使微博、微信等信息傳播形式爆發出巨大的社會影響力,對社會網絡用語的語義分析具有重要的意義。社交網絡的影響力分析很早就得到了世界一流研究機構的關注[1]。Facebook、LinkedIn及新浪微博等移動在線網絡與傳統的社交網絡的行為特征、傳播手段和影響能力均有巨大不同。最明顯的外在特征是具有明顯瞬態時間特征的巨量短文本流,如微博的140個漢字。因此,加強對這種短文本信息的處理具有重要意義。短文本的語義計算對在線社交網絡的社區發現、網絡結構拓撲分析、節點推薦、廣告精準投放、組織結構管理、恐怖組織識別等均具有重要意義。傳統的在線社區發現常通過節點之間的關注進行社區網絡拓撲結構的識別,而不是通過語義距離的計算[2]。因此,如何采用向量表示在線短文本的信息成為一個重要問題。
本文針對移動網絡用語的短小但語義豐富、實時性高的特點,結合微博節點本身的語義,提出了用于描述微博內容的語義度量向量模型。基于該模型可以進行突發話題發現、意見領袖識別、謠言分析和確認及微博內容和節點的推薦。
2.1 話題語義建模方法
話題語義建模是獲取微博語義內容的基礎。文獻[3]采用聯合概率生成模型進行了社交網絡語言上下文感知和話題建模。LDA(latent dirichlet allocation)是一種重要的話題語義建模方法[4~6]。如TwitterRank[7]采用LDA模型從tweets中提取潛藏的主題信息,然后根據特定的主題排序[8]。LDA是一種非監督學習的文檔主題生成模型,是一個3層貝葉斯概率模型。LDA采用了詞袋(bag of words)模型,但是詞袋方法沒有考慮詞與詞之間的順序。
LDA基本上是以文檔集合作為研究對象的潛在語義分析。對新浪微博這樣的短文本的在線社會網絡,直接應用LDA進行語義獲取具有一定的局限性。文獻[9]通過對文檔聚類并結合tweets特征和粒度進行主題發現,主要思想是如果某個詞或短語在一篇文章中出現的頻率TF(term frequency)高,在其他文章中很少出現,則認為此詞或者短語對語義具有較大的識別意義,也就是詞在篇章中的重要性與其在文件中出現的頻數成正比,與其在語料庫中出現的頻率成反比。
2.2 突發話題發現
在線社會網絡的突發話題的識別和發現在過去幾年得到了廣泛的關注[10,11]。話題檢測和跟蹤(TDT, topic detection and tracking)是突發話題識別、趨勢預測的基礎。使用狀態變遷理論,用帶有權重的自動狀態機理論進行突發話題識別在早期得到充分的重視[12]。傳統上的突發話題均以詞頻為主,但社會網絡除了文本外還包括聲音、圖片和超鏈接等。如何在社會網絡中特別是針對類似于新浪微博這樣的短文本進行突發話題發現是一個熱點問題,也得到了很多研究人員的高度關注。對于在線社會網絡突發話題的發現,從鏈路流量特征異常檢測的角度進行識別得到了高度關注[13],-grams模型[14]、兩階段消息分類[15]均得到了嘗試。對這種短文本的預測問題,國內外很多研究人員均采用了用戶為圖的頂點、傳輸路徑為邊,分析信息的傳播和轉發概率的形式進行一定程度預測[16]。這種以分析鏈接及轉發路徑的形式進行的分析缺乏對文本本身語義的考慮,因而具有一定的片面性。結合語義和鏈接分析的工作因而逐步得到重視[17]。新浪微博主要內容是中文,而中文話題檢測與跟蹤的實現與評測得到了國內相關學者的廣泛關注[18]。其他的研究包括相鄰時段間情感分布語言模型間差異分析微博熱點事件發現[19]、微博網絡熱點相似度和測度、傳播路徑和用戶行為的中心化等網絡熱點發現、隱含語義分析兩階段聚類話題發現方法的聚類分析[20,21]、迭代式的語義分析和話題熱度預測模型。文獻[22]采用向量空間模型來表示報道和話題等。
2.3 話題相似度計算
文獻[3]給出了在線社交網絡的測量方法比較全面的綜述。文獻[23]根據事件的內容相似度、事件和話題的相似度、事件的時間相似度提出了一種計算方法。突發話題確定后,開始計算話題相似性,并不是所有微博用戶都會對同一個突發的話題感興趣。因此,需要計算突發話題與微博興趣的距離。同時,通過準確度量話題相似性也可以進一步確認話題的突發性。如果2個節點的微博語義距離很大,則一般不會被推薦成為相互關聯的朋友。對用戶而言,及時得到最感興趣的信息才是最重要的。從語義上對在線短文本信息進行測量,基于語義的信息分類與排序對節點用戶而言更有意義。因此度量節點之間的相似性,度量微博內容之間的相似性,度量微博與節點興趣之間的相似性,是非常核心和重要的研究內容。
很多人從節點和鏈接的拓撲結構角度做測量,或者從好友數、發文數、跟帖數等度量節點影響力大小[24]。相應的概念包括緊密中心度、介數中心度等度量當前節點對其他節點的影響力或節點的社會關系強度[25,26]。從拓撲結構、用戶行為和網絡演化等方面對常見的測量方法和典型的網絡拓撲在文獻[27]中進行了系統的闡述。
從在線網絡結構本身的角度進行社團發現、度量節點之間的緊湊程度,由于缺乏語義信息而具有一定的局限性。這種度量方法可以從一定角度上反映節點之間的已經具有的關聯或影響關系,但對正在形成或具有潛在影響力的推薦方面沒有實質意義。轉發關系、回復關系、復制關系、閱讀關系及相應關系的隨機游走模型下的話題影響力計算可以從一定程度上描述話題直接的關系,但這些關系不能一般性地度量2個話題的距離。
2.4 存在問題
從上述內容可以看出,像微博這樣的在線短文本的建模、測量和分析得到了高度重視,但仍然存在以下問題。
1) 微博文本簡略口語化。基本上,微博這樣的在線社交平臺都限制了發文的字數,不可能像博客一樣可以發表長篇的論述,采用的語言也多是簡略甚至口語化的。傳統的通過文檔集合得到文檔、通過文檔得到關鍵詞集合的方法,是基于主題單一的篇章結構,而不是口語化的簡短的信息描述。使用傳統的篇章主題建模方法對微博這樣的短句文本進行建模具有語義斷層。因此,如何對短文本微博內容進行建模是一個挑戰性問題。
2) 語義內容多元離散。一個關注了很多其他節點的節點,他所看到的多條微博內容必然是相互離散的,即使同一個節點在一個時間段所發的微博,其語義必然也是多樣的。也就是說,一個節點所收到的信息不能形成一個文檔。由于這個原因,采用LDA的主題模型從原理上存在矛盾。因為LDA要求文檔—主題,主題—詞語具有內在的關聯性。這種關聯性在微博這樣的以句子為單位的情形下直接使用LDA存在一定的不合理性,而且LDA在面對大量數據集時需要的計算量過大。
3) 微博數量巨大。上述的瞬態性、簡略性和內容離散是針對某一個節點的微博空間而言的。對某一個在線社會網絡而言,例如新浪微博,單位時間內涌現的微博數量是驚人的。只有Twitter或新浪微博平臺本身可以快速、即時得到這些實時發出的微博,其他任何組織或個人無論采用平臺提供的API還是通過網絡爬取均無法全部獲取。因此,希望通過微博空間得到即時輿情計算或挖掘都存在很大的偏差。一般而言,針對微博平臺整個空間的測量、采集、分析及輿情計算均存在不同程度的時延或偏差。
4) 影響力和內容含量巨大。較短的文本、瞬間即逝的在線社交網絡的信息含量大、傳播速度快,因而常常具有驚人的影響力。也正是這種驚人的影響力,主流的電視媒體、企業單位、國家部門、名人及普通民眾均對微博這樣的社交網絡表現出了極大的熱情。
對在線社會網絡的短文信息而言,其內容往往具有瞬時性。例如,通過微博知道了某個事件或某一鏈接然后通過其他途徑進一步深入了解。因此對微博本身的組織、查找和理解與傳統對博客、新聞網頁等長文本相比,重要性降低。也就是對類似微博這樣的在線短文本,基于內容的比較和關鍵詞語義的識別更重要。而且由于短文本的字和詞語的數目明顯少于長文檔,因此對這樣的短文進行語義識別,采用傳統的如LDA這樣的方法必然存在局限性。而且針對微博這樣的短文本具有諸如口語化這樣的特征,需要完善傳統的語料庫使之具有識別能力。對海量、短文本、多主題、大噪聲構成的文本集合進行建模與傳統的長文本、主題單一明確、噪聲較少的傳統媒體明顯不同。
微博短文本理解、內容挖掘、用戶社區挖掘、意見領袖識別和信息傳播模式等研究的最根本的工作是短句、主題多變語境的文本理解及量化問題,這也是本文研究的重點。
結合上述特征和目前工作,本文的貢獻如下。
1) 本文通過大量微博短文本建立微博語料庫,同時結合一般新聞語料庫進行文本數值化、向量化訓練。
2) 結合文本短小的特點,對短文的關鍵詞進行語義的“放大”,對非關鍵詞進行語義“縮小”,從而建立短文本語義的更加清晰的輪廓。
3) 為了利用數字向量化的結果進行微博短文本的分類、組織,除了對語義進行放縮處理外,本文建立短文本等價類模型,通過語義閉包擴展,增強分類能力。
3.1 語義線性放縮
對微博等短文本內容計算的最大困難是文本短小、關鍵字數目少、文本口語化、網絡流行性新詞多等問題。與此同時,微博內容量大、噪聲繁雜,提取隱含的、有價值的信息更為復雜。通過語義放縮的目的是更有利于分類、比較和查找。例如微博這樣的離散短文本,就可以通過放大語義信息從而得到相關微博之間的交集而歸于同類。反之,如果不進行語義的放大則對部分含義接近而用詞差異較大的句子進行語義歸類時候存在較大困難。因此,確保原始語義不變的情況下對語義內容、關鍵詞數量進行一定的放縮是非常必要的。在微博情境下,建立線性變換空間。確保變換滿足可加性和齊次性

其中,、表示語義單位向量,表示某種語義變換,表示向量倍數。式(1)的(+)表示對2個語義向量單元的加和后的變化,()表示對語義向量放大倍后的變換。而式(1)表示的是線性變換的數學條件,本文的工作之一就是得到微博文本關鍵字的向量表示,并在此基礎進行變換,具體的變換方法后面會詳細闡述。
3.2 語義向量定義
對微博短文關鍵詞詞語,用向量表示是進行語義計算的前提和基礎,即微博文本詞向量表示問題。One-hot表示方法因為數據稀疏問題、不能描述詞語之間的相似性等而一般不被采用[28]。使用人工神經網絡將詞表征為實值向量得到了廣泛關注[29],從而實現對文本內容的處理轉化為向量空間中的向量運算。如向量空間上的相似度可以表示文本語義上的相似度, 即用向量內積空間的夾角余弦值度量語義相似性。通過-gram引入情境影響,使句法和語義相近的詞具有近似的詞向量。Skip-gram和CBOX模型是2種使用簡單的人工神經網絡結構獲得詞向量表示的模型。Skip-gram用于預測或估計相關聯詞,而CBOX則是在給定若干詞前提下預測下一詞匯[30]。本文首先給出關鍵詞和句子的語義向量定義。為后面行文方便,先給出用到的一些定義。
定義1={1…x}:關鍵字的向量表示,其中,x是實數表示的向量的某一維。
定義2={1…k}:某一短句經過分詞抽取到的有意義的關鍵字集合,其中,k表示某一關鍵字,關鍵字的個數是由句子的構成決定的,句子較長則關鍵字個數就可能較多。
定義3={1…y}:表示某一短句的向量表示,其中,y是實數,表示句子向量的某一維。
總之,在小學階段的語文教學中,小組合作這一模式是非常常見的,將具有著非常重大的價值、效用。在此模式下,不僅有助于學生合作意識、集體精神的增強,對其有效學習的實現,也有著非常大的效用。但是,在實際應用時,教師也應有意識地減少盲目性,結合具體的教學需求、學生學情加以應用,實現合理運用,為教學活動的有序展開保駕護航。

定義4 徑向放縮向量:表示沿向量各個方向放縮的比例。
={1,…,k,…,k} (3)
3.3 徑向語義向量放縮矩陣
使用向量空間的線性投影進行語義放縮。首先建立核心集語義模型,然后放縮矩陣實現向量空間映射,并借此找到近鄰詞。通過上述定義,句子已經表示成了向量,語義的放縮問題就轉化為了向量放縮問題。因為向量的維數是可以根據計算資源確定的固定值,這里假定為。
設變換前語義向量為,變換后語義向量為,則=X,其中,為階矩陣。

比較簡單的放大語義本質上是使向量沿著各個方向的拉伸,其矩陣為
(5)
其中,k>0,k?1,?1>k當k為常數時表示沿各個方向等長放大倍。具體放大的倍數根據實際效果和需要而定,這種語義放大的邏輯含義是語義和邏輯結構的線性放大。矩陣的對角線形成了徑向放縮向量,根據放縮規模進行設置。
k值表示放縮量的大小,該值的大小是根據時間效果和應用對分類的精度要求所決定的,該值越大分類的精度越低,因此該值的確定需要根據實際需求和分類效果確定。
3.4 語義向量球體放大
上述徑向擴展是沿著各維方向的拉伸,并沒有法向的擴展。法向擴展可以通過旋轉或擴展轄域實現。但由于高維空間的旋轉變換較為復雜,本文采用-范數表示到向量間距離的概念。
所有到語義向量的-范數小于的向量構成的空間,在邏輯上等同于沿向量的各個切面法向量的拉伸。其定義如下。
設變換前語義向量為,變換后語義向量為。則與語義向量距離為的語義擴展向量是一個集合,設該集合為。

(7)
所有滿足上述條件的向量構成的集合,形成了一個類似于球體的高維封閉曲面,為計算簡便,后文的實驗采用2-范數。
對上文提及的詞向量表示的實現,本文采用人工神經網絡語言模型,通過無監督學習和領域文本語料庫獲取相應文本關鍵字的詞向量表示,后文的實驗環境會詳細介紹。
3.5 語義放縮SEZOM算法
根據上文所述的2種對語義向量的放縮方法,本文提出了短句的語義向量變換算法。
算法1 短句向量化及其放縮算法
輸入:在線文本語料;
在線短句;
放縮距離;
放縮向量;
輸出:短句向量表示;
放縮后向量;
;
步驟:
1)將語料切分成關鍵字集合;
2)使用關鍵字集合訓練神經網絡模型,得到語言向量集合;
3)從短句中得到該句子關鍵字集合;
4) Forin{
5) IF (∈)
6) 取得的詞向量表示加入到;
7) }
//計算句子向量
8) Forin
9) while(++ < 詞向量維數)
10).x=.x+.x;
11)=||||; //句子關鍵字個數
12) while(++ < 詞向量維數)
13).x=;
/* 用對向量徑向放大,得到放大后向量.*/
//語義向量球體放大
15) do{
18)=+;
20) }while(<)
通過算法1實現了關鍵詞的向量化,并將句子向量表示沿著各維的徑向做了擴展及沿著各維的法向作了擴展。經過算法1的處理使短句的語義向量表示具有一定的外延。
4.1 實驗背景分析
本節采用新浪微博數據進行相關算法的測試與實驗。新浪微博具有廣泛的影響力,基于博文內容對微博節點進行分類可以為用戶準確推薦感興趣的微博節點。在基于興趣的廣告推送,基于內容的輿情分析等情境,均需要對博文內容本身和微博之間進行比較和歸類。新浪微博屬于典型的短句,因此本文采用新浪微博數據進行驗證和測試。
4.2 實驗數據集
獲取新浪微博相關內容的方法主要包括新浪微博API和其他第三方爬取工具,由于諸多原因新浪API不能滿足一般科研實際需求,而使用其他新浪微博獲取工具所得到的數據從內容和格式都太過固定,不能實現定制。因此,本文開發了能夠獲取多元新浪微博信息的工具Argus。通過Argus實現了廣度優先遞歸抓取某一節點粉絲ID及相關微博內容。Argus可以抓取用戶的所有微博內容,包括用戶的原創微博、轉發微博、原微博發起人、轉發評論、轉發關系等。其體系結構如圖1所示。
本文關注的是短文分類問題,因此按條目所列的新浪微博內容是本文所需數據。根據吳軍等給出的結論,機器學習的數據與問題域實際場景越接近,實驗所取得的效果越好。因此本文主要以新浪微博所涉及的詞匯為主進行模型訓練。由于word2vec訓練需要以空格進行分詞,因此本文對所有微博內容進行了分詞處理。在突發話題發現時,由于微博的內容主要與本條微博的關鍵詞相關,因此在突發話題發現算法過程中,本文對對微博內容進行了關鍵詞提取,本文采用jieba分詞進行了關鍵詞提取[31]。
4.3 話題語義線性實驗
4.3.1 實驗設置
通過使用Argus采集大量數據, 經過抽取得到每個節點的標簽數據和微博內容,然后進行分詞和關鍵字提取。從微博用戶解析得到的標簽數據和微博內容分詞后的語料合并作為訓練語料,即算法1中的。然后使用訓練word2vec得到語言向量集合。下面將使用進行句子向量的計算等。
4.3.2 微博內容分詞和關鍵字抽取
本節隨機抽取6條微博短句,分別記為T1~T6。為使算法具有一般性,本文抽取各個短句的關鍵詞如表1所示。

表1 新浪微博及其關鍵字
為簡單起見,僅取10個關鍵字,根據算法1中的步驟1)~步驟13)、步驟8)~步驟14)和步驟15)~步驟20)分別計算各個短句的向量值,得到T1~T6向量表示短句及其放大表示。為了直觀展示向量放大的效果和實際的意義,分別計算了T1~T6向量與某一個微博節點的各個標簽的語義距離。本文以某新浪微博節點為例,其標簽為:下一代、動力學、服務平臺、管理、互聯網、計算、網絡服務、微博。
分別使用徑向放縮向量和球體放縮放量對微博向量T1~T6進行了放大處理,然后分別計算T1~T6與上述8個標簽的語義距離。為了從整體上觀察這種放大效果,把T1和T6這2個微博向量的變化情況通過與8個標簽的語義距離表現出來,其中圖2表示微博T1按不同球體放大倍數放大后的向量與8個標簽的語義距離變化情況,圖3表示T6按徑向的放大后的向量與標簽的語義距離變化情況,可以看出語義距離在一定的幅度內變化,從圖2和圖3只能看出語義距離的變化,但看不出對徑向放大和球體放大效果的區別。
4.3.3 語義向量放大及分析
為了進一步觀察徑向放大和球體放大效果的區別,將T1~T6分別使用徑向和球體的放大向量放大4個不同倍數,然后再分別求與8個標簽的語義距離,觀察兩者的改變情況。例如將向量T1~T6徑向放大1~1.5倍、1.5~2倍、2~2.5倍和2.5~3倍,將向量T1~T6按球體放大向量放大為1~1.5倍、1~2倍、1~2.5倍和1~3倍等。這樣每個微博T得到了7個不同的放大向量,本文隨機取樣了T1~T6共6條微博,放大后的向量為42個向量。然后分別計算42個向量與8個標簽的語義距離。
圖4展示了微博T5與各個標簽在語義放大不同倍數后的變化情況,可以看出語義向量放大后與各個標簽的語義距離變小,但與某些標簽的語義距離變化幅度很小。如T5與標簽6基本沒有改變。實驗中也觀察了其他微博的變化情況,發現語義距離變小,但變化的幅度不大。
語義距離越小,語義差異越大。將微博語義放大后與各個標簽的語義距離變小容易理解,這是因為將微博語義向量放大后,必然偏離原來的語義位置,從而使該語義變量在原來的基礎上偏離。因為徑向放大是在基本保持語義向量分量的基礎上的調節,而不是整個徑向的改變。

圖3 T6徑向放大與標簽語義距離變化
圖5~圖7分別給出了微博T5、微博T1和微博T3的語義向量球體放大后,與各個標簽語義距離的變化情況。從圖5和圖6可以看出經過放大后語義向量變化幅度與前面的徑向相比明顯增加。這是因為語義向量的變化范圍是沿著各個分量的整體放大,如圖7所示的1~1.5和1~3倍放大,而不是沿著各維徑向的擴展放大。
本文考察了T1~T6的不同球體放大倍數的向量,與各個標簽的語義距離變化情況。大多數的語義距離值均縮小,其與對應的徑向發大倍數相比,變化幅度均比較明顯,如圖5和圖6所示。但有部分語義距離經過放大后語義距離變大,如圖7所示。圖7表示微博T3在不同的放大倍數下,與8個標簽的6個語義距離值變大。因為該值越大,表示語義越接近。
綜上,可以得出如下結論。
1) 根據算法1對短句的向量表示進行各維放大,可以使語義距離發生近域變化,大多數會使放大后的向量表示與其本身的含義越來越遠。
2) 球體放大效果略比徑向放大變化明顯,但均變化有劇烈改變,否則失去通過放大或縮小尋找等價類的意義。
3) 無論是徑向放大還是球體放大,本質是在原來的語義范圍內形成了一個近鄰域。
在線社會網絡中的信息采集、處理、分析是社會網絡研究領域的一個重要方面,語義分析、比較和數量化測量對輿情監控、廣告推送、信息個性化定制等均具有重要意義。本文基于人工神經網絡提出短文語義向量放縮算法、綜合社交節點自身信息和發文語義給出社交網絡短文語義計算算法和突發話題發現算法。通過定義節點微信息語義向量、語義外延閉包擴展建立短句等價關系,進而實現突發話題的發現。
本文提出的算法也可計算微博內容與節點的相關度,進而形成與該節點語義距離遠近的相關度排序列表,限于篇幅這一部分內容沒有展開。因為近鄰與標簽語義距離不同,應該加入權重系數進行計算。本文后續工作還包括詞向量的數值化方法相關的詞向量的語義分類,訓練模型的數據排序方法,訓練數據的本身分類等問題。這些問題的解決對自然語言的理解、跨語言翻譯,文本語義理解和分析均有重要意義。
[1] WASSERMAN S, FAUST K. Social network analysis: methods and applications[M]. Cambridge, U K: Cambridge University Press, 1994.
[2] CHEN K H, HAN P P, WU J. User clustering based social network recommendation[J]. Chinese Journal of Computers, 2013, 36(2): 349-359.
[3] 徐嬴, 劉屹, 陰紅志, 等. 查詢性能預測方法的性能評測研究[J]. 計算機研究與發展, 2013,(S1):70-79.XU Y, LIU Y, YIN H Z, et al. An empirical study of the performance evaluation of query performance predictors[J]. Journal of Computer Research and Development, 2013,(S1):70-79.
[4] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[5] STEYVERS M, GRIFFITHS T. Latent semantic analysis: a road to meaning[M]. Laurence Erlbaum, 2007.
[6] MILSTEIN S, CHOWDHURY A, HOCHMUTH G, et al. Twitter and the micro-messaging revolution: communication, connections, and immediacy-140 characters at a time[R]. O’Reilly Report, 2008.
[7] WENG J S, LIM E P, JIANG J, HE Q. Twitterrank: finding topic-sensitive influential twitterers[C]//The Third ACM International Conference on Web Search and Data Mining. c2010: 261-270.
[8] WENG J S, LIM E P, JIANG J, et al. Finding topic-sensitive influential twitterers[C]//The Third ACM International Conference on Web Search and Data mining. New York, USA, c2010:261-270.
[9] 李勁, 張華, 吳浩雄, 等. 基于特定領域的中文微博熱點話題挖掘系統BTopicMiner[J].計算機應用, 2012, 32(8):2346-2349.
LI J, ZHANG H, WU H X, et al. BTopicminer: domain-specific topic mining system for Chinese microblog[J]. Journal of Computer Applications, 2012, 32(8):2346-2349.
[10] LAVRENKO V, ALLAN J, DEGUZMAN E, et al. Relevance models for topic detection and tracking[C]//The Human Language Technology Conference. San Diego, USA, c2002: 104-110.
[11] 陳友,程學旗, 楊森. 面向網絡論壇的突發話題發現[J]. 中文信息學報, 2010,24(3):29-36. CHEN Y, CHENG X Q, YANG S. Outburst topic setection for Web forums[J]. Journal of Chinese Information Processing, 2010,24(3): 29-36.
[12] JON M. Kleinberg: bursty and hierarchical structure in streams[J]. Data Mining and Knowledge Discovery, 2003, 7(4):373-397.
[13] TOSHIMITSU T, RYOTA T, KENJI Y. Discovering emerging topics in social streams via link-anomaly detection[J]. IEEE Trans Knowl. Data Eng, 2014, 26(1): 120-130.
[14] CARLOS J. MARTíN D, AYSE G. Real-time topic detection with bursty N-grams[C]//SNOW-DC@WWW 2014. c2014: 9-16.
[15] GEORGIOS P, SYMEON P, YIANNIS K. Two-level message clustering for topic detection in Twitter[C]//SNOW-DC@WWW 2014. c2014:49-56.
[16] ZHAO J J, WU W L, et al. A short-term prediction model of topic popularity on microblogs[C]//The COCOON 2013. c2013:759-769.
[17] DUAN Y, JIANG L, et al.An empirical study on learning to rank of tweets[C]//The 23rd International Conference on Computational Linguistics. Beijing, China, c2010:295-303.
[18] HONG Y, ZHANG Y, LIU T, et al. Topic detection and tracking review[J]. Journal of Chinese Information Processing, 2007,21(6):71-87.
[19] YANG L, LIN Y, LIN H. Micro-blog hot events detection based on emotion distribution[J]. Journal of Chinese Information Processing, 2012, 26(1):84-83.
[20] ZHANG J. Research on the model and platform of hotspot detection based on micro-blog[D]. Wuhan: Huazhong University of Science & Technology, 2010.
[21] YANG G C. Research of hot topic discovery strategy on micro logging platforms[D]. Hangzhou: Zhejiang University, 2011.
[22] SUN J M, TANG J. A survey of models and algorithms for social influence analysis[M]//Social Network Data Analytics, 2011:177-204.
[23] 徐建民, 張猛, 吳樹芳. 基于話題的事件相似度計算[J].計算機工程與設計, 2014, 35(4):1193-1197. XU J M, ZHANG M, WU S F. Event similarity calculation based on topic[J]. Computer Engineering and Design, 2014, 35(4):1193-1197.
[24] RUMI G, KRISTINA L. Predicting influential users in online social network[C]//The Fourth Social Network Analysis. c2010.
[25] SABIDUSSI G. The centrality index of a graph[J]. Psychometrika, 1966, 31(4):581-603.
[26] NEWMAN M E. A measure of betweenness centrality based on random walks[J]. Social Networks, 2005, 27(1): 39-54.
[27] DING Z Y, ZHOU B, JIA Y, et al. Topical influence analysis based on the multi-relational network in microblogs[J]. Journal of Computer Research and Development,2013,50(10):2155-2175.
[28] JOSEPH P, TURIAN L R, et al. Word representations: a simple and general method for semi-supervised learning[C]//ACL.c2010:384-394.
[29] YOSHUA B, REJEAN D, PASCAL V, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research (JMLR), 2003, 3:1137-1155.
[30] MIKOLOV T, LE Q V, SUTSKEVER I. Distributed representations of sentences and documents[C]//ICML. c2014: 1188-1196.
[31] Available online[EB/OL]. https://github.com/fxsjy/jieba.
[32] 徐恪,張賽,陳昊, 等. 在線社會網絡的測量與分析[J]. 計算機學報, 2014,37(1):165-188.
XU K, ZHANG S, CHEN H, et al.Measurement and analysis of online social networks[J]. Chinese Journal of Computers, 2014,37(1): 165-188.
Vector semantic computing method study for short sentence
CHEN Fu1, LIN Chuang2, XUE Chao2, XU Yue-mei1, MENG Kun2, NI Yi-han1
(1. Computer Department, Beijing Foreign Studies University, Beijing 100089, China; 2. Computer Department, Tsinghua University, Beijing 100084, China)
A vector semantic computing method study for short sentence based on artificial neural network was proposed. And a semantic computational algorithm for social network texts as well as a discovery algorithm for emergencies was provided with reference to the information provided by the social nodes itself and the semantic of the text. Through the numerization of text, the calculation and comparison of semantic distance, the classification of nodes and the discovery of community can be realized. Then, huge quantities of Sina Weibo contents are collected to verify the model and algorithm put forward. In the end, outlooks for future jobs are provided.
online social networks, theme semantic computing, artificial neural nets, burst topics discovering
TP393
A
10.11959/j.issn.1000-436x.2016018
2015-05-13;
2015-09-30
國家自然科學基金資助項目(No.61170209, No. 61173008, No. 61502038, No.61370132);教育部新世紀優秀人才支持計劃基金資助項目(No.NCET-13-0676);2011重點課題基金資助項目(No.BFSU2011-ZS04)
The National Natural Science Foundation of China(No.61170209,No. 61173008,No. 61502038, No.61370132), The Ministry of Education Program of New Century Excellent Talents(No.NCET-13-0676), 2011 Key Project (No.BFSU2011-ZS04)
陳福(1973-),男,遼寧朝陽人,北京外國語大學副教授,主要研究方向為下一代互聯網及其管理、跨語言網絡空間信息采集與分析、進程代數。
林闖(1948-),男,遼寧沈陽人,清華大學教授、博士生導師,主要研究方向為計算機網絡、系統性能評價、安全分析和隨機Petri網。
薛超(1988-),男,陜西渭南人,清華大學博士生,主要研究方向為網絡體系結構的性能評價與優化、云計算虛擬資源調度等。
徐月梅(1985-),女,廣西梧州人,博士,北京外國語大學講師,主要研究方向為數據中心網等。
孟坤(1980-),男,河南洛陽人,清華大學助理研究員,主要研究方向為性能評價和隨機模型。
倪藝函(1994-),女,江蘇連云港人,北京外國語大學博士生,主要研究方向為進程代數。