劉雅筠
(長沙南方職業學院 湖南·長沙 410208)
在眾多形式的在線社交網絡應用中,以微博為代表的社會化新媒體的發展更是舉世矚目。微博類應用以其快速的信息傳播能力,廣泛的用戶參與特性以及顯著的自媒體特征,為信息傳播掀起了劃時代的變革浪潮,形成了深遠的社會影響。例如近年來我國頻繁發生了多起突發公共事件,這些事件均能在微博中找到對應的第一手信息。另一方面,與及時發布的事件信息同時出現在微博這一平臺上的還有洶涌的輿論,即公眾對事件的看法、意見、態度等信息。社會輿論在微博上不斷匯集,逐漸形成了不可小覷的民意力量,進而又推動事件進一步向前發展,這在近年來發生的事件中屢見不鮮。現實世界中的事件與虛擬世界中的微博信息之間是如何相互作用、相互影響的,逐漸成為了一個重要且富有挑戰性的研究課題。
話題發現與跟蹤技術在國內外都有著長足的研究。社會的生產生活秩序由各行各業的緊密關聯所維系,因而處在社會一環的群體或個體都需要準確把握社會動態,其中尤為重要的是洞察和掌握公共事件的發生與發展。例如政府機構關注于突發的群體性事件以及可能引發它的重大輿情事件;公司企業關注于影響品牌市場的商業行為以及業務領域的最新動態等等。而了解和引導社會輿論的走向更是把握公共事件的重中之重,例如政府關注民生,問政于民,又如企業服務客戶,營銷品牌等,都離不開對公共事件中的社會輿論進行準確的分析。因此研究和分析公共事件和社會輿論對政治經濟生活都有重要的現實意義。
20世紀90年代末,由美國國防高等研究計劃署(Defense Advanced Research Projects Agency,DARPA)發起,馬薩諸塞大學阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大學(Carnegie Mellon University,CMU),Dragon Systems等研究機構共同參與制定和設計了話題檢測與跟蹤任務及評測體系(Topic Detection and Tracking,TDT)。
TDT將這些語料按照話題進行標注。為了盡可能消除概念上的歧義,TDT對話題、活動、事件做了如下非形式化的定義:
事件(Event):發生在特定時間、地點的事,有著必要的前提條件和不可避免的結果;
活動(Activity):具有共同焦點或目的,發生在特定時間、地點的相關事件的集合;
話題(Topic):一個事件或活動及直接與其相關的事件和活動。
這一定義明確了話題和事件的結構關系,認為話題是由相互關聯的事件構成的。但實際研究中由于話題這一概念的外延很難確定,有時會把話題與事件的概念不加區分地相互替代。例如在TDT的前瞻性研究(Pilot study)中,將話題這一概念進行了狹化,選擇了25個事件作為目標話題,因而研究中話題與事件的概念等同。
基于標注好的語料庫,TDT提出了多項基本任務。例如1996年基于TDT-Pilot語料庫,研究者提出的任務分別是:
(1)報道切分任務(The Segmentation Task):將連續的文本流依報道邊界進行切分;(2)事件檢測任務(The Detection Task):在目標事件信息未知的情況下檢測出事件;(3)回顧事件檢測(Retrospective Event Detection):檢測出語料庫新聞報道中的所有事件,即將新聞報道按事件進行劃分;(4)在線新事件檢測(On-line New Event Detection):在新聞報道流中檢測出新事件,即檢測討論了新事件的首篇新聞報道;(5)事件跟蹤任務(The Tracking Task):給定已知事件,檢測出所有討論相同事件的新聞報道。
隨著研究的深入,TDT研究任務也發生著變化。一些任務的內容發生微調,一些任務由于需求降低逐漸淡出,而又有一些新的任務被補充進來。例如基于TDT-4語料庫,研究任務主要劃分為:
(1)新事件檢測(New Event Detection):檢測報道流中每個話題的首次出現;(2)話題檢測(Topic Detection):檢測預先未知的話題;(3)話題跟蹤(Topic Tracking):在流中檢測出討論目標話題的報道;(4)關聯檢測(Link Detection):判斷兩篇報道是否討論同一話題。
2004年,基于TDT-5語料庫,研究者又引入了有監督的自適應話題跟蹤(Supervised Adaptive Topic Tracking)與層次式話題檢測(Hierarchical Topic Detection)兩項實驗性任務。前者旨在讓話題模型隨著話題的演化自動更新,后者則嘗試建立層次化的話題模型。
Trieschnigg等定義了層次式話題檢測這一任務,提出用XML描述有向無環圖的標準,并提出用話題的檢測損耗函數和圖中遷移邊的檢測損耗函數二者的加權平均值來度量檢測方法的優劣。Allan等基于TDT-3和TDT-5語料庫提出了一種可伸縮的層次式話題結構:首先從語料庫中采樣獲得種子文檔,然后通過種子文檔構建層次類簇結構,再通過優化代價函數得到種子文檔的二叉樹,最后將剩下的文檔聚攏到先前得到的層次結構中完成構建。
早期的研究中,報道的所有詞匯特征被同等對待,反映在同一個向量空間中。例如 Schultz等設計的話題跟蹤系統首先從單個報道或多個報道中選擇話題特征詞,利用tfidf特征值將報道映射到向量空間中,再通過計算向量與話題間的余弦夾角度量報道間的相似性。
很快研究者發現,單一的向量表示忽略了詞匯在報道中重要性及語義的差異,一些研究者遂將自然語言處理中的研究成果運用在話題模型的建立上。張曉艷等將自然語言處理中的命名實體識別技術引入到新事件檢測中,將每篇報道轉化為三種詞匯特征向量,一種只由報道中的命名實體構成,一種只由報道中的話題詞構成,一種由全部詞匯構成。通過三類特征訓練支持向量機,從而將新事件檢測轉化為二元分類任務。隨后又對全文詞匯向量,命名實體向量,非命名實體向量三種表達方式在TDT-3和TDT-4語料庫上進行了比較,發現命名實體在一些語料中起到很好的區分作用,而在另一些語料中則效果完全相反,提出“命名實體是一把雙刃劍”的論斷。Lavrenko等將單一的事件向量分解為四個子向量,用四種不同類型的詞匯表征,分別是:人物機構指示詞,地點位置指示詞,時間日期指示詞和事件指示詞。將時間表達式進行形式化,并利用本體知識對地點信息進行擴展,進而應用在話題檢測中。
2004年,基于TDT-5語料庫,研究者提出了層次式話題檢測(Hierarchical Topic Detection,HTD)這一新任務,任務的目標是將無結構的新聞報道組織成有向無環圖(Directed Acyclic Graph,DAG)的形式以表達話題。Tan等針對TDT-5語料庫中多來源多語種的語料采用了先從來自同一語種、同一來源的新聞流中采用1-NN的聚類方法抽取事件鏈,再采用凝聚式聚類方法將不同語種和來源的多條事件鏈按時間進行對齊和合并,構成層次結構。
大多數TDT方法都可用于離線處理,例如Zhang等提出以事件為核心的新聞報道產生式模型,從內容和時序兩個角度入手,抓住多個媒體會對同一事件發表許多冗余報道這一特點,依據概率分布特征發現事件,在語料中回顧式地檢測話題。而另一方面,適用于在線處理的方法相對較少,尤其是只有少數概率模型適用于在線處理,這一空缺成為近年來研究的熱點。例如吳斌等提出的在線文檔聚類的概率模型采用了狄里克萊過程對類簇的增長進行了建模,用英語語言模型判斷新類簇的產生。
微博是公眾廣泛參與的社交媒體平臺,若將微博流視為一種特殊的新聞報道流,則可以將很多TDT中的研究方法推廣到微博中。Lin等提出和比較了直接模型、兩步流水線模型和兩步混合模型等三種模型檢測Twitter中諸如奧巴馬獲得諾貝爾和平獎等具有爭議性的事件。
Deng等使用Tibetan網絡中的標簽訓練話題模型,利用分類器從微博流中鑒別話題。通過實驗對前景模型、背景模型的平滑技術和歷史信息的組織方式進行了評測。
Shiwen等在兩狀態自動機模型上加以改進,提出了一種話題多樣性的度量方法從檢測結果中提煉具有新聞報道價值的突發特征,又提出用上下文模型為突發特征賦以有意義的標簽,增強突發特征的可解釋性。
在Weng等針對Twitter的博文數據量大,噪音多的特點,提出了一種基于小波信號分析的事件檢測方法(EDCoW),首先應用小波分析方法對每個詞匯構造信號流,根據信號的相關性過濾掉瑣碎的噪音詞匯,再基于圖劃分技術將剩下的詞匯聚類構成事件。
Dou等提出基于內容相似度、事件近似度和文檔分布近似度三重因素對事件進行關聯,構造事件演化圖。
馬雯雯等提出一種隱含語義分析的微博話題發現方法,用無監督的隱式馬爾科夫方法建模出話題的線性序,但這一算法被證明只適用于地震、災害等結構簡單的話題。
在得到事件演化模型之后,研究者提出了一種新的應用方法稱為預期事件檢測(Anticipatory Event Detection,AED),其主旨是檢測出事件狀態發生遷移的時機。Pan等首先提出這一概念,并通過一種句子分類的方法自動發現NBA比賽的最終比分。Zhang等將突發特征檢測引入AED,提出突發向量空間模型,檢測事件遷移中的突發特征。He等也提出AED中由于檢測狀態遷移的二元分類模型無法找到具有很強區分能力的特征詞,因而將突發特征作為分類的依據以提升檢測能力。Zhang等以復雜網絡理論為基礎,基于評論詞語間的共現關系構建基于事件發展的子事件網絡,通過社群發現算法來識別子事件評論網絡中的話題社群。
綜上所述,盡管話題檢測與跟蹤(TDT)已經針對新聞報道等較長篇幅的語料提出了許多切實有效的方法,但對于充斥噪音,語言簡短,語法不規范,上下文結構松散的微博語料而言,依然面臨著嚴峻的挑戰。如何構建更好的檢測模型,提高微博話題發現的精度,可能成為目前研究的一個方向。