[摘要] 本課題以話題識別與跟蹤為研究內容,根據相容關系集和距離函數形成話題層次結構,利用相容隸屬函數對不確定邊界文本進行話題確認,形成帶有明確話題標注信息的語料。以此建立話題識別與跟蹤體系,為相關部門實時、精確掌握網絡輿情提供理論支撐和方法指引。
[關鍵詞] 話題識別與跟蹤; 相容商空間粒度; 語料
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045
[中圖分類號]TP391.1 [文獻標識碼]A [文章編號]1673 - 0194(2011)14- 0077- 02
1引言
話題識別與跟蹤作為輿情分析的重要組成部分,仍有許多需要解決的問題。在話題識別與跟蹤方面,涉及聚類策略的選擇大都基于硬聚類過程,所得聚類簇中的文本對象是無層次的確定聚類結果。無層次結構造成話題結構的混亂。由于有些邊界文本對象無法準確地劃分到某一個簇,造成對這些文本無法進行較準確判斷,降低了話題識別的精度。
本課題基于相容商空間粒度下的軟聚類算法,定義相容關系集I和距離函數dis(α,β),確認聚類的重心點集合,計算距離函數dis(α,β),并與距離半徑di進行比較,在相容商空間粒度下對文檔集進行反復合成與分解,同時動態形成聚類重心點集合;利用相容隸屬函數μ(Xj,X) = | I(Xj)∩X | / I(Xj)對邊界文本進行話題確認,形成帶有明確話題標注信息的語料。本課題在相容商空間粒度下對話題進行識別和跟蹤,使得在識別和跟蹤過程中易于實現話題層次的劃分及處理容錯文本的能力,提高話題識別與跟蹤的效率和精度。
2相容商空間粒度下的話題識別與跟蹤
2.1國內外研究現狀
話題識別與跟蹤為話題傾向性分析的基礎。文獻[1]訓練一項表征話題演化周期的閾值,檢測后續報道與話題模型內最新事件的時間差是否高于該閾值,將滿足這一條件的報道作為話題演化的邊界;文獻[2]的時間“覆蓋矩陣”將相關性匹配雙方的時間信息統一為標準格式,分別映射于橫縱時間軸上的點,基于對角線檢測所有同步點及其時間間隔,在此基礎上以所有間隔的覆蓋率描述匹配雙方時序關系的相似性。然而,目前的聚類方法確定的聚類結果多是無層次的,無層次的話題結構會造成話題混亂。
2.2我們的工作
在相容商空間粒度下,根據相容關系集和距離函數,確認聚類的重心點集合,在相容商空間粒度下對文檔集進行反復合成與分解,形成話題的層次結構,同時動態形成聚類重心點集合;利用相容隸屬函數對邊界文本進行話題確認,形成帶有明確話題標注信息的語料。
2.2.1不同相容商空間粒度的獲取
定義1:令[X] = {[x]I | x∈X},稱[X]是關于相容關系I的相容商空間。
根據相容關系定義距離函數,假設α, β, γ是論域X中的3個n維向量,dis(α,β)是一個距離函數。作為一個距離函數,dis(α,β)應該滿足下列特征:
(1) dis(α,β) ≥ 0
(2) dis(α,α) = 0
(3) dis(α,β) = dis(β,α)
(4) dis(α,β) ≤ dis(α,γ) + dis(γ,β)
顯然dis(α,β) ≤ d是一個相容關系,其中d ≥ 0,稱d為距離函數dis(α,β)的半徑。
如此把相容關系I與距離函數dis(α,β) ≤ d建立了一一對應關系。
定義2:設I1和I2∈I,對于任意x,y∈X都有xI2y ?圯xI1y,那么就稱I2比I1細,記作I1 < I2。
一個n層的層次結構對應的n個相應的相容關系就有如下的相容序關系:
I0 < I1 < I2 < … < In
相容距離函數表示n層的層次結構對應的距離半徑有如下序關系:
d0 > d1 > d2 > … > dn > 0
設Ii對應的相容商集為[X]i(i = 0,…,n),則不同層次粒度論域集有如下的相容序關系:
[X]0 < [X]1 < [X]2 < … < [X]n
2.2.2相容商空間粒度下的軟聚類
(1) 選取初始k個樣本X = {X1,X2,…,Xk}為樣本的重心點集合, d0是相容距離半徑。
(2) 計算dis(Xi,Xj)(i∈(1,2,…,k),j∈(1,2,…,n)),判斷dis(Xi,Xj)與d0的關系。
(3) 當dis(Xi,Xj) ≤ d0時,表示Xi,Xj屬于同一類,如此計算所有樣本與重心的距離,并與距離半徑進行比較。
(4) 采用相容商空間粒度分析法對聚類結果進行分析,相容商空間粒度的確定過程是一個不斷分析比較、動態調整樣本重心點的過程,這個過程稱為相容商空間粒度分析。在實際求解中,可采用合并和分解法來調整粒度,實現層次劃分。
(5) 對于邊界距離dis(Xi,Xj) = di表示Xj在兩個簇中同時存在,利用相容隸屬函數μ(Xj,X) = | I(Xj)∩X | / I(Xj)判斷Xj屬于哪個簇。如此反復,達到軟聚類結果。
如此,距離函數和相容關系建立了一一對應關系,經過不斷對相容商空間粒度的合成與分解及對邊界對象的隸屬處理,形成軟聚類結果,解決了話題層次及不確定邊界的問題。
2.2.3話題識別與跟蹤
把經過解析的Web語料中的XML文檔集表示為向量空間模型D ={D1,D2,…,Dr},其中Di表示第i篇文檔的向量空間:Di = {(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示文檔Di中第j個詞匯Tij的權重值。對于文檔向量空間進行降維處理,形成n維文檔向量空間集,其中D = {D′1,D′2,…,D′r},其中D′i = {(T′i1,wi1),(T′i2,wi2),…,(T′in,win)}(n < m)。利用軟聚類算法對文檔集D進行話題識別,形成層次話題集TP = {tp1,tp2,…,tps}。在聚類過程中,動態形成話題重心點向量集C = {c1,c2, …,cs}。根據話題tpi中的所有文檔向量集tpi = {di1,di2,…,dic},對XML文檔集中話題節點的標注信息進行更新。
話題跟蹤是話題識別的繼續,是在確定的話題基礎上,在話題監督的作用下動態跟蹤的過程。針對帶有明確標注的層次化話題集TP = {(tp1,name1),(tp2,name2),…,(tps,names)}以及文檔重心點集C = {c1,c2,…,cs},對新報道向量空間F,利用軟聚類算法對F進行分類。首先計算F與文檔重心點集距離函數dis(F,C),然后與確定的距離半徑dr比較,確認F屬于哪一類話題。如果dis(F,C) > dr,則以F為重心點,作為新話題加入新層次話題集TP = {(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同時更新語料中對應的XML文檔的話題節點的標注信息。
主要參考文獻
[1] 趙華,趙鐵軍,于浩,張姝. 面向動態演化的話題檢測研究[J]. 高技術通訊,2006,16(12):1230-1235.
[2] 宋丹,王衛東,陳英. 基于改進向量空間模型的話題識別跟蹤[J]. 計算機技術與發展,2006,16(9).