章 建,李 芳
(上海交通大學 計算機科學與工程系,上海 200240)
?
基于上下文的話題演化和話題關系抽取研究
章 建,李 芳
(上海交通大學 計算機科學與工程系,上海 200240)
自動挖掘大規模語料中的語義信息以及演化關系近年來已受到廣大專家學者的關注。話題被認為是文檔集合中的潛在語義信息,話題演化用于研究話題內容隨時間的變化。該文提出了一種基于上下文的話題演化和話題關系抽取方法。分析發現,一個話題常和某些其他話題共現在多篇文檔中,話題間的這種共現信息被稱為話題的上下文。上下文信息可以用于計算同時間段話題間的語義關系以及識別不同時間段中具有相同語義的話題。該文對2008年~2012年兩會報告以及2007年~2011年NIPS科技文獻進行實驗,通過人工分析,利用話題的上下文信息,不但可以提高話題演化的正確率,而且還能挖掘話題之間的語義關系,在話題演化的基礎上,顯示話題關系的演化。
話題;話題上下文;話題演化;話題關系
當今社會,信息即是財富,如何高效獲取信息以及信息動態的變化趨勢,是一個值得關注的問題。信息變化趨勢可以反映科技領域的發展、新聞事件的變化以及其他任何人們關注的焦點問題的發展。話題[1-3]被認為是普遍關注的信息焦點,例如,“醫療改革”、“行政體制改革”等出現在“全國兩會”新聞語料的典型話題。然而話題在不同時間段內可以具有不同的內容,例如,“住房”話題,2011年主要體現“房價上漲和土地供應”,2012年則轉變為“保障性住房和房價調控”。因此,話題本身會隨著時間發生變化,研究話題隨時間的變化具有很重要的現實意義和實際應用背景。如何對話題內容的變化進行描述和分析,是本文話題演化研究的目的。
另一方面,話題之間也存在某種關系,如在2011年兩會報告中,“財政預算”和“三公支出”會在多篇文檔中同時被討論,“司法”和“違法犯罪”也是如此。話題間的這種關系,可以通過它們在文檔中共現信息表現出來。共現越頻繁的話題,其語義關系也就越強。本文將某話題與其他話題的共現信息,稱為該話題的上下文。利用話題的上下文,可以挖掘出同時間段中不同話題間的語義關系,讓讀者了解到不同信息之間是如何關聯的。同時,話題的上下文還可以改進話題演化的結果。
話題內容不但隨著時間變化,而且話題之間的關系也隨著時間變化,如2010年兩會中“教育”與“學術行政化”“大學生就業”“青少年心理健康”等關系較強,而2011年“教育”則與“人才培養”“高考”“財政預算”等關系較強。話題間的關系隨時間的變化,能夠讓讀者從更廣泛的視角掌握信息的動態趨勢。如何挖掘話題關系隨時間的變化,是本文話題關系演化研究需要解決的問題。
本文的組織結構如下: 第一部分主要介紹相關工作;第二部分是研究方法的描述;第三部分是試驗結果和分析;第四部分是結論和展望。
基于話題模型的話題演化研究已得到了廣泛的應用[4]。對多個時間段的文檔集合進行話題演化分析時,主要包括兩個步驟,即從每個時間段的文檔集合中抽取出話題信息以及將各個時間段具有相同語義的話題進行關聯。
話題的抽取,即從文檔集合中挖掘潛在的語義信息,常用的方法是采用話題模型。目前,已有多種形式的概率話題模型[1],如PLSI模型[2],LDA模型[3]等,它們在建模過程中引入了潛在的隨機變量—話題。近年來,考慮到文檔集合自身的特點,很多研究工作對LDA模型進行擴展,以便模型更好地描述文檔的生成過程,如ATM模型[5]引入文檔的作者信息,DTM模型[6]引入文檔的時間戳信息,STMS模型[7]同時引入文檔的作者和時間信息,JST模型[8]引入情感標簽,文獻[9]中的模型引入文檔間的引用信息等。
話題的關聯,即將不同時間段中具有相同語義的話題對應起來。實現話題間的對應關系,一般可以采用兩種方法,一是在話題建模時直接考慮話題間的對應關系(即前一時間段的話題影響后一時間段的話題),從而在話題抽取的同時也將話題間的對應關系挖掘出來,如DTM模型[6],CTDTM模型[10],文獻[11];二是利用關聯函數計算不同時間段中話題間的關聯度,當兩個話題的關聯度滿足相關閾值時,認為這兩個話題具有相同語義,如文獻[12-13]。方法一的缺點是,各個時間段的話題數量必須相同且話題間只具有一一對應的關系,其優點是可以在話題建模的過程中直接挖掘出話題間的對應關系;方法二的缺點是,關聯函數的選擇以及閾值的確定較為復雜,優點是各時間段的話題數量可以根據文檔集合的大小進行調整,話題間允許一對多、多對一以及多對多的復雜關聯關系。
除了通過話題模型來抽取話題外,還可以采用其它方式,如文獻[14]通過文檔的新穎性和重要度來判斷是否有新話題的產生。而對于話題的關聯,文獻[14]則基于話題成員文檔集合間的交叉引用數量來判斷兩個話題是否關聯。
上述方法都認為同時間段的話題是互相獨立,不存在任何關系。然而,現實世界話題之間是存在關系的,某個話題與其它話題在文檔集合中存在共現,該共現信息可以作為話題的上下文。在詞義消歧方法中,上下文信息可以識別該詞匯的語義信息,解決詞匯的一詞多義問題;命名實體的指代消歧研究中,上下文信息可以用來識別同一命名實體[15-16],解決命名實體的指代,信息合并等問題。借鑒上述研究領域的思想,在已有工作基礎上[13],本文提出了話題的上下文信息,既可以加強和識別話題本身的語義,有助于話題演化研究,同時,又能揭示同時間段中話題之間的語義關系。
話題的上下文信息刻畫了話題出現的語義環境。如果兩個不同時間段中的話題具有相同語義,那么它們的上下文也應具有一定的相似性;相反,如果兩個話題的上下文差異明顯,那么它們具有相同語義的可能性較小。另一方面共現越頻繁的話題,其語義關系越強。因此,本文提出的話題關聯方法不僅僅考慮兩個話題本身的內容,而且還依據上下文信息。有些話題在內容上較為接近(即在詞匯分布上很相似),但實際上并不具有相同的語義,如表1所示的兩個話題。

表1 內容相近的兩個話題
2010年話題16涉及“三公支出”,而2011年話題6涉及“官員腐敗”,這兩個話題本身并不具有相同的語義。但由于這兩個話題使用的詞語較為接近,如官員、干部、行政等,僅僅通過計算這兩個話題內容(即在詞匯上的分布)的距離,容易將這兩個話題識別為同義性話題。分析發現,話題16的上下文有關財政預算,而話題6的上下文是違法犯罪等法律相關的。因此考慮話題的上下文信息,可以有助于判斷這兩個話題不具有相同語義。表2和表3分別列出話題16和話題6的上下文信息。

表2 2010年話題16的上下文

表3 2011年話題6的上下文
下面列出本文主要使用的符號(見表4),概念定義以及方法介紹。

表4 本文主要使用的符號
2.1概念定義



同義性話題: 不同時間段中具有相同語義的話題。如兩會報告中2011年的“住房”話題與2011年的“住房”話題,雖然它們側重的內容有所不同,但它們本質上都是住房相關的,因此它們具有相同的語義。
2.2 話題建模
LDA模型是一個生成概率模型,同時也是三層的變參數貝葉斯模型[17]。首先假設詞由話題的概率分布混合產生,而每個話題是在詞匯表上的一個多項式分布;其次,假設文檔是潛在話題的概率分布的混合;最后,針對每篇文檔從Dirichlet分布[18]中抽樣產生該文檔中的話題比例,結合話題和詞的概率分布生成該文檔中的每一個詞匯。在進行LDA建模時,可以根據文獻[19]提出的方法確定話題的個數以及利用GibbsSampling算法[20]對LDA模型的參數進行推導,從而得到每個話題的內容。
首先按照時間劃分,然后對不同時間段的文檔集合進行LDA建模。在對不同時間段的文集建模時,話題數量可以設置為相同,也可以不同。進行LDA建模后,可以直接得到各個話題的內容,即話題在詞匯上的多項式分布,即話題的φ。
2.3 話題上下文抽取
在話題模型中,每篇文檔表示為話題的混合分布,其中那些權重高的話題稱為文檔的顯著性話題。如果兩個話題同出現在某篇文檔的顯著性話題中,則稱這兩個話題存在一次共現。共現次數越多的話題,可以認為它們的語義關系越強。對于某個話題來說,它與同時間段中其他話題的共現信息,稱為它的上下文。抽取話題上下文由以下三個步驟完成。
(a) 計算文檔的顯著性話題
對于每一篇文檔,將話題的權重按降序排列,然后取出權重最大的3個話題作為文檔的顯著性話題。根據實驗結果,權重最大的3個話題通常比其他話題的權重明顯大,這符合常理。
(b) 計算任意兩個話題間的共現次數
對于任意兩個話題ti和tj,它們的共現次數可以表示為公式(1)。
(1)
而δ函數可以表示為

(c) 計算各個話題的上下文
對于任意話題tk,其上下文可以形式化地表示為(其中m為tk上下文中話題的個數)

(2)
2.4 話題演化
話題演化需要判斷兩個不同時間段的話題是否具有相同的語義,即同義性話題。對于兩個不同時間段的話題ti和tj,其距離計算公式如式(3)所示。
(3)

(4)


(5)

2.5 話題關系的抽取
事實上,同時間段中不同話題間存在一定的語義關系。借鑒詞匯共現與語義關系,共現次數越多的話題,其語義關系也就越強。對于任意兩個話題ti和tj,其語義關系強度表示為式(6)
(6)
即關系強度由wi,j和wj,i的調和平均值表示,其中wi,j和wj,i的計算可見公式(2)。
根據公式(6)可以計算出各時間段中話題間的語義關系強度,而根據公式(3)則能獲得同義性話題。因此,結合這兩者,便可以得到同義性話題與其它話題的關系隨時間的變化,即話題關系的演化。
本文選取的實驗數據為兩會報告(人大會議和政協會議,2008~2012年)的新聞語料以及NIPS科技文獻(2007~2011年)。這是因為兩會報告和NIPS科技文獻中,很多話題會連續多年被討論且話題內容隨時間變化。選取不同領域、不同特點的語料作為實驗對象有利于更全面地對本文提出的話題演化和話題關系抽取方法進行驗證。
首先對實驗數據進行語料預處理,包括分詞,過濾停用詞,去除低頻詞和高頻詞等,然后再利用LDA模型對各年的兩會文集進行話題建模。表5列出實驗數據及話題個數設置。實驗包括三部分: 1)驗證話題上下文信息抽取的精度;2)基于話題上下文的演化對比實驗;3)話題關系的抽取結果以及分析。

表5 語料信息及話題個數設置
3.1 話題上下文抽取實驗
在計算每個話題的上下文之前,需要對建模后的話題進行一定的過濾: 首先通過信息熵過濾那些詞匯權重分布均勻的話題,這類話題可解釋性較差;其次,過濾高頻話題,這類話題出現在很多文檔中,語義特征不強。表6列出的是從兩會報告和NIPS科技文獻中抽取的上下文實驗結果。

表6 話題上下文實驗結果
正確的上下文表明話題上下文中的所有話題與該話題都具有明顯的語義關系(通過人工分析);部分正確的上下文則表明話題上下文中存在部分話題與該話題有明顯的語義關系,而另一部分則沒有;錯誤的上下文則表明話題上下文中的話題都與該話題沒有明顯的語義關系。表7和表8列出的分別是從2011年兩會報告和從2011年NIPS科技文獻中抽取的正確、部分正確以及錯誤上下文的實例。

表7 2011年兩會報告中上下文實例

表8 2011年NIPS科技文獻中上下文實例
實驗結果表明上下文話題中部分正確的所占比例較大,這主要與顯著性話題選取的閾值有關,有些文檔顯著性話題會少于3個,而選取權重最大的前3個話題作為顯著性話題則會引入誤差。但總體上話題的上下文能夠反映出話題之間的語義相關性,例如對于表7中話題9,其上下文中的話題59和話題8的權重分別為0.863和0.137。因此,根據實驗結果,結合權重,話題的上下文能夠描述與該話題的語義關系。
3.2 話題演化實驗
本文在進行話題演化時,計算話題詞匯分布差異的距離函數DistanceT以及計算話題上下文差異的函數DistanceM都采用KL距離函數,同時選擇因子β設為0.7,關聯閾值γ設為2.0(即兩話題的距離小于2.0時,認為具有相同的語義)。
作為本文話題演化對比的方法一(簡稱基準一),在計算兩話題的距離時,僅僅利用兩話題間的詞匯分布差異,不考慮話題上下文,計算兩話題的距離公式為(7)。
(7)
同樣,基準一中DistanceT采用KL距離函數,話題間的關聯閾值設為2.0。
作為本文話題演化對比的方法二,則為DTM話題模型[6],該模型以前一時間段的分布參數作為后一時間段正態分布的先驗, 在建模過程中直接挖
掘不同時間段的同義性話題。DTM代碼實現來自網頁信息*http://code.google.com/p/princeton-statistical-learning/downloads/detail?name=dtm_release-0.8.tgz。
表9是基準一方法,DTM方法和本文方法得到的話題演化對比結果。

表9 話題演化實驗結果對比
實驗結果表明,DTM模型得到的演化路徑都是正確的,話題一一對應,但不能很好地刻畫話題內容隨時間的變化(見下文演化實例)。而本文方法比基準一方法不但能找到更多的演化結果,而且提高了精度。例如,對于2010年的話題8{教育 教師 學生 綱要 人才 學校 培養 高考 公平 考試 資源},通過基準一和本文方法計算2011年中的同義性話題,如表10所示。

表10 2011年中與2010年話題8關聯的話題
從上面的結果中可以看到,2011年中的話題15和話題30都涉及到教育,因此它們同2010年的話題8是具有相同語義,建立了演化關系。同時,增加上下文信息后,距離公式更加精確,例如,話題19、話題15和話題30距離有所減小(基準一方法中,這三者的距離分別為1.636、2.154、2.236)。因此,引入上下文后,使得同義性話題的計算受不同時間段詞匯變化的影響減小,同時受閾值γ的影響變小。
圖1是分別采用本文方法、基準一方法和DTM模型得到與教育相關的話題演化實例。DTM模型得到的演化路徑{47, 47,47, 47, 47}中各話題是一一對應,沒有話題分裂和合并;本文方法和基準一方法均獲得演化路徑{17, 20, 8, 19, 38}(學生教育話題的演化),和演化路徑{17, 22, 39, 58, 44}(學生就業話題的演化)。本文方法還能得到演化路徑{17, 20, 8, 30, 47}(與學生考試相關)和演化路徑{17, 20, 0, 15, 16}(與人才培養相關),反映話題在更細粒度上的分裂與合并關系(話題內容見表11與表12)。
圖2是分別采用本文方法、基準一方法和DTM模型得到與神經元相關的話題演化實例,表13和表14顯示了各個話題的內容。DTM得到一條話題內容非常相似的演化路徑,基準一方法同樣得到一條演化路徑,可以反映話題內容的演化。本文方法采用上下文,計算出話題37(涉及神經元)和話題16具有相同的語義。

圖1 兩會報告演化實例

時間話題話題中概率最大的10個詞語200817學生學校教師人才素質大學培養職業農村大學生200920教育學生教師農村學校孩子職業文理經費投入200922大學生畢業生人才創業培養大學教育就業學生崗位20108教育教師學生綱要人才學校培養高考公平考試201039就業培訓畢業生大學生創業職業人才企業崗位鼓勵201115人才培養大學學校教育學生教師專業進行學術201119教育教師農村投入經費公平資源學校職業幼兒園201130教育孩子學生高考子女招生北京自主學校學習家長201158就業農民工大學生創業解決畢業生勞動力城市用工培訓201216創新人才科技技術企業培養能力科研知識我國科學201238教育學生學校孩子職業投入校長教師資源培養大學201244農民工就業養老保險制度企業人員服務勞動職工生活201247高考北京戶籍公平子女參加異地政策教育招生城市

表12 圖1中DTM模型各話題的內容

表13 圖2中本文方法和基準一方法各話題的內容

續表

圖2 NIPS科技文獻演化實例

時間話題話題中概率最大的10個詞語200715figureneuronsinputratedatanetworkspikenoiseneuronresponse200815figureneuronsinputdataspikeratenetworknoiseneuronresponse200915figurenoisenetworkdataneuronsspikeinputcontrolresponseneural201015figurenoisenetworkneuronsdataneuralspikeinputresponsestimulus201115Figurenetworksignalnoiseneuronsdatainputspikeresponseneural
3.3 話題關系的抽取與演化實驗
由公式(6)可知,本文話題關系的抽取依賴于話題上下文計算的結果。對于某個話題來說,如果它的上下文正確,則形成的話題關系也正確;如果上下文部分正確,得到的話題關系也部分正確;如果上下文錯誤,得到的話題關系也錯誤。為了更直觀地顯示話題關系的抽取結果,這里將正確、部分正確和錯誤的話題關系分別給予數值1、0.5和0。表15是話題關系抽取的結果(等價正確個數=正確個數+0.5*部分正確個數),話題關系抽取的等價正確率在60% 以上。

表15 話題關系抽取實驗結果
圖3所示為2009年兩會報告中與話題20有關的語義關系圖,話題間連線上的數字代表了關聯的強度(公式6)。根據圖3,話題20同話題22、48的語義關系最強,與話題12 ,45,31語義關系較弱,各話題內容見表16。

圖3 2009年話題20的關系圖
話題之間的關系也會隨時間發生變化。選取圖1中的一條演化路徑{17, 20, 8, 19, 38}(有關學生教育),分別計算演化路徑中各話題同其他話題的關系,結果見圖4,對應話題的內容見表17。2008年,教育話題與話題50(民族藝術)關系相對較強(強度僅為0.14); 2009年,教育話題與話題22(大

表16 圖3中各話題的內容
學生就業)、話題48(學術腐敗)關系較強;2010年,教育話題與話題48(學術行政化)、話題39(大學生就業)關系強度分別為0.44和0.37,體現了很強的關系。根據表17中話題內容可知,2011年教育話題與話題15(人才培養)關聯,2012年教育話題和話題47(異地高考)以及話題16(創新人才培養)具有比較強的關聯。因此,通過演化路徑上話題與其他話題的語義關系,反映了目前大學教育眾多相關話題隨時間的變化,對比話題的一條演化路徑({17, 20, 8, 19, 38}(話題內容見表11),可以傳遞更多的內容信息。

圖4 兩會報告話題關系演化實例

時間話題話題中概率最大的10個詞語200850傳統京劇藝術民族作品作家精神語言演出創作201048行政學術行政化級別教授大學學校校長權力認為201039就業培訓畢業生大學生創業職業人才企業崗位鼓勵201115人才培養大學學校教育學生教師專業進行學術201130教育孩子學生高考子女招生北京自主學校學習201247高考北京戶籍公平子女參加異地政策教育招生城市201216創新人才科技技術企業培養能力科研知識我國
同樣,在NIPS數據集上,選取圖2中的演化路徑{16, 7, 13, 4, 17}(有關神經元),分別計算演化路徑中各話題同其他話題的關系,可以得到神經元話題同其他話題的語義關系隨時間的變化,如圖5所示,話題內容見表18。2007年神經元話題同話題34(圖像分割)和話題3(腦信號噪聲處理)關系較強;2008年,神經元話題同話題37(神經元)和話題11(腦成像)關系較強;2009年,神經元話題同話題31(人類學習記憶)和話題20(神經元模型)關系較強。這些關系體現了有關神經元技術在近幾年的發展以及它與圖像處理技術,腦信息處理等的關系。

圖5 NIPS科技文獻話題關系演化實例
本文提出了一種基于上下文的話題演化和話題關系抽取的方法。首先利用LDA話題模型對各時間段的文檔集合進行建模,挖掘潛在的語義信息,即話題。然后通過話題在文檔中的共現關系,找到各個話題的上下文。其次,利用上下文信息改進了不同時間段同義性話題的計算,實現話題演化。最后,利用話題的上下文挖掘不同話題間的語義關系,同時結合話題演化的結果,還能得到話題關系在時間上的演化。
本文對兩會報告和NIPS科技文獻進行實驗,結果表明利用上下文信息計算同義性話題,可以獲得比基準一方法更多正確的演化結果,同時還能識別因詞語使用接近但并非具有相同語義的話題。而與DTM模型相比,采用本文方法進行話題演化,可以得到話題的分裂、合并等復雜的對應關系,且能夠較好地反映出話題內容隨時間的變化。同時,利用上下文信息還能夠挖掘出同時間段中不同話題間的語義關系,在結合話題演化的情況下,還可得到話題關系隨時間的演化。本文的主要貢獻是:
1) 提出了文檔集合話題的上下文概念,并根據話題在文檔中的共現,計算話題的上下文;
2) 利用話題的上下文,正確識別不同時間段同義性話題,從而改進了話題演化的結果;
3) 提出了話題之間計算其語義關系強度的公式,挖掘同時間段中話題間的語義關系。
本文提出方法還存在不足,如文檔顯著性話題個數的選擇,如何動態確定某一文檔的顯著性話題個數,在引入話題的上下文信息的同時,刪除其帶來的噪音;另一方面,同義性話題計算方法中閾值的確定,如何更合理地權衡話題本身的語義信息與話題的上下文信息在話題演化中的重要性,還需大量的實驗結果進行驗證。LDA話題的標簽如何自動生成以及演化結果的可視化技術將有助于本文提出方法的廣泛應用。
[1] Steyvers M, Griffiths T. Probabilistic Topic Models. In: T. Landauer, D. S. McNamara, S. Dennis, W. Kintsch(Eds.), handbook of Latent Semantic Analysys[M]. Hillsdale, NJ. Erlbaum. 2007.
[2] Thomas H. Probabilistic Latent Semantic Indexing// Proceedings of the 22ndAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley, CA, USA, 1999: 50-57.
[3] David M B, Andrew Y N, Michael I J. Latent Dirichlet Allocation. The Journal of Machine Learning Research, 2003, 3: 993-1022.
[4] 單斌, 李芳. 基于LDA話題演化研究方法綜述. 中文信息學報, 2010,24(6):43-49.
[5] Michal R Z, Thomas G, Mark S, et al. The Author Topic Model for Authors and Documents[C]//Proceedings of the 20thConference on Uncertainty in Artificial Intelligence. Banff, Canada,2005.
[6] David M B, John D L. Dynamic Topic Models[C]//Proceedings of the 23rdInternational Conference on Machine Learning, Pittsburgh, Pennsylvania, 2006: 113-120.
[7] Ali D, Li Juanzi, Zhou Lizhu, et al. A Generalized Topic Modeling Approach for Maven Search. APWeb/WAIM 2009, LNCS 5446, 2009: 138-149.
[8] Chenghua Lin, Yulan He. Joint Sentiment/Topic Model for Sentiment Analysis[C]//Proceedings of the CIKM’09, Hong Kong, China, 2009.
[9] R. Nallapati, A Ahmed, E P Xing. Joint Latent Topic Models for Text and Citations[C]//Proceedings of the 14thACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Las Vegas, Nevada, USA, 2008: 542-550.
[10] Chong Wang, David M, David H. Continuous Time Dynamic Topic Models[C]//Proceedings of the 23rdConference on Uncertainty in Artificial Intelligence, 2008.
[11] Andre G, Alexander H. Topic evolution in a stream of documents[C]//Proceedings of the Ninth SIAM International Conference on Data Mining, 2009: 859-870.
[12] Mei Qiaozhu, Zhai Chengxiang. Discovering Evolutionary Theme Patterns from Text—An Exploration of Temporal Text Mining[C]//Proceedings of the KDD’05, Chicago, Illinois, USA,2005.
[13] 楚克明, 李芳. 基于LDA話題關聯的話題演化.交大學報,2010:11:1496-1500.
[14] Jo Y Y, John E H, Carl L. The Web of Topics: Discovering the Topology of Evolution in a Corpus[C]//Proceedings of the WWW 2011, Hyderabad, India 2011.
[15] Xianpei Han, Le Sun. A Generative Entity-Mention Model for Linking Entities with Knowledge Base[C]//Proceedings of the ACL 2011. 2011: 945-954.
[16] Xianpei Han, Jun Zhao. Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity Disambiguation[C]//Proceedings of the 48th Annual Meeting of the Association of Computational Linguistics, 2010: 50-59.
[17] Blei D, Jordan M, Ng A. Hierarchical Bayesian Models for Applications in Information Retrieval. In Bayesian Statistics, 2003,7: 25-44.
[18] Antoniak C. Mixtures of Dirichlet Processes with Applications to Bayesian Nonparametric Problems. Annals of Statistics, 1974,2(6): 1152-1174.
[19] Thomas L. G., Mark S. Finding Scientific Topics[C]//Proceedings of the National Academic of Science of United States of America, 2004.
[20] Ian P, David N, Alexander I. Fast Collapsed Gibbs Sampling For Latent Dirichlet Allocation. KDD’08, Las Vegas, Nevada, USA 2008.
Context-based Topic Evolution and Topic Relations Extraction
ZHANG Jian, LI Fang
(Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
Automatic extraction of semantic information and its evolution from large-scale corpus has appealed to many experts and scholars in recent years. Topics are regarded as the latent semantic meanings underlying the document collectionand the topic evolution describes the contents of topics changing over time. This paper proposes a novel extraction method for the topics evolution and the topic relations based on the topic context. Since a topic often co-occurs with other topics in the same document, the co-occurrence information is defined as the context of a topic. Topics with its context are used not only to calculate the semantic relations among topics in the same period, but also to identify the same topics across different time periods. The experiments on NPC&CPPCC news reports from 2008 to 2012 and NIPS scientific literature from 2007 to 2011 have shown that the method has not only improved the results of topic evolution but also mined semantic relations among topics.
topic; topic context; topic evolution; topic relations evolution

章建(1987—),碩士,主要研究領域為話題探測與話題演化。E?mail:iamorchid@hotmail.com李芳(1963—),博士,副教授,主要研究領域為自然語言處理,信息檢索與抽取。E?mail:fli@sjtu.edu.cn
1003-0077(2015)02-0179-11
2013-03-18 定稿日期: 2014-04-21
國家自然科學基金(60873134)
TP391
A