相容商空間粒度下的話題識別與跟蹤

2011-12-31 00:00:00王艷茹溫長峰洪曉蕾

中國管理信息化 2011年14期

［摘要］本課題以話題識別與跟蹤為研究內容，根據相容關系集和距離函數形成話題層次結構，利用相容隸屬函數對不確定邊界文本進行話題確認，形成帶有明確話題標注信息的語料。以此建立話題識別與跟蹤體系，為相關部門實時、精確掌握網絡輿情提供理論支撐和方法指引。

［關鍵詞］話題識別與跟蹤；相容商空間粒度；語料

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045

［中圖分類號］TP391.1 ［文獻標識碼］A ［文章編號］1673 - 0194（2011）14- 0077- 02

１引言

話題識別與跟蹤作為輿情分析的重要組成部分，仍有許多需要解決的問題。在話題識別與跟蹤方面，涉及聚類策略的選擇大都基于硬聚類過程，所得聚類簇中的文本對象是無層次的確定聚類結果。無層次結構造成話題結構的混亂。由于有些邊界文本對象無法準確地劃分到某一個簇，造成對這些文本無法進行較準確判斷，降低了話題識別的精度。

本課題基于相容商空間粒度下的軟聚類算法，定義相容關系集Ｉ和距離函數ｄｉｓ（α，β），確認聚類的重心點集合，計算距離函數ｄｉｓ（α，β），并與距離半徑ｄｉ進行比較，在相容商空間粒度下對文檔集進行反復合成與分解，同時動態形成聚類重心點集合；利用相容隸屬函數μ（Ｘｊ，Ｘ）＝｜Ｉ（Ｘｊ）∩Ｘ｜／Ｉ（Ｘｊ）對邊界文本進行話題確認，形成帶有明確話題標注信息的語料。本課題在相容商空間粒度下對話題進行識別和跟蹤，使得在識別和跟蹤過程中易于實現話題層次的劃分及處理容錯文本的能力，提高話題識別與跟蹤的效率和精度。

２相容商空間粒度下的話題識別與跟蹤

２．１國內外研究現狀

話題識別與跟蹤為話題傾向性分析的基礎。文獻［１］訓練一項表征話題演化周期的閾值，檢測后續報道與話題模型內最新事件的時間差是否高于該閾值，將滿足這一條件的報道作為話題演化的邊界；文獻［２］的時間“覆蓋矩陣”將相關性匹配雙方的時間信息統一為標準格式，分別映射于橫縱時間軸上的點，基于對角線檢測所有同步點及其時間間隔，在此基礎上以所有間隔的覆蓋率描述匹配雙方時序關系的相似性。然而，目前的聚類方法確定的聚類結果多是無層次的，無層次的話題結構會造成話題混亂。

２．２我們的工作

在相容商空間粒度下，根據相容關系集和距離函數，確認聚類的重心點集合，在相容商空間粒度下對文檔集進行反復合成與分解，形成話題的層次結構，同時動態形成聚類重心點集合；利用相容隸屬函數對邊界文本進行話題確認，形成帶有明確話題標注信息的語料。

２．２．１不同相容商空間粒度的獲取

定義１：令［Ｘ］＝｛［ｘ］Ｉ｜ｘ∈Ｘ｝，稱［Ｘ］是關于相容關系Ｉ的相容商空間。

根據相容關系定義距離函數，假設α， β， γ是論域Ｘ中的3個ｎ維向量，ｄｉｓ（α，β）是一個距離函數。作為一個距離函數，ｄｉｓ（α，β）應該滿足下列特征：

（１）ｄｉｓ（α，β） ≥ ０

（２）ｄｉｓ（α，α）＝０

（３）ｄｉｓ（α，β）＝ｄｉｓ（β，α）

（４）ｄｉｓ（α，β） ≤ ｄｉｓ（α，γ）＋ｄｉｓ（γ，β）

顯然ｄｉｓ（α，β） ≤ ｄ是一個相容關系，其中ｄ ≥ ０，稱d為距離函數ｄｉｓ（α，β）的半徑。

如此把相容關系Ｉ與距離函數ｄｉｓ（α，β） ≤ ｄ建立了一一對應關系。

定義２：設Ｉ１和Ｉ２∈Ｉ，對于任意ｘ，ｙ∈Ｘ都有ｘＩ２ｙ ?圯ｘＩ１ｙ，那么就稱Ｉ２比Ｉ１細，記作Ｉ１＜Ｉ２。

一個ｎ層的層次結構對應的ｎ個相應的相容關系就有如下的相容序關系：

Ｉ０＜Ｉ１＜Ｉ２＜ … ＜Ｉｎ

相容距離函數表示ｎ層的層次結構對應的距離半徑有如下序關系：

ｄ０＞ｄ１＞ｄ２＞ … ＞ｄｎ＞０

設Ｉｉ對應的相容商集為［Ｘ］ｉ（ｉ＝０，…，ｎ），則不同層次粒度論域集有如下的相容序關系：

［Ｘ］０＜［Ｘ］１＜［Ｘ］２＜ … ＜［Ｘ］ｎ

２．２．２相容商空間粒度下的軟聚類

（１）選取初始ｋ個樣本Ｘ＝｛Ｘ１，Ｘ２，…，Ｘｋ｝為樣本的重心點集合，ｄ０是相容距離半徑。

（２）計算ｄｉｓ（Ｘｉ，Ｘｊ）（ｉ∈（１，２，…，ｋ），ｊ∈（１，２，…，ｎ）），判斷ｄｉｓ（Ｘｉ，Ｘｊ）與ｄ０的關系。

（３）當ｄｉｓ（Ｘｉ，Ｘｊ） ≤ ｄ０時，表示Ｘｉ，Ｘｊ屬于同一類，如此計算所有樣本與重心的距離，并與距離半徑進行比較。

（４）采用相容商空間粒度分析法對聚類結果進行分析，相容商空間粒度的確定過程是一個不斷分析比較、動態調整樣本重心點的過程，這個過程稱為相容商空間粒度分析。在實際求解中，可采用合并和分解法來調整粒度，實現層次劃分。

（５）對于邊界距離ｄｉｓ（Ｘｉ，Ｘｊ）＝ｄｉ表示Ｘｊ在兩個簇中同時存在，利用相容隸屬函數μ（Ｘｊ，Ｘ）＝｜Ｉ（Ｘｊ）∩Ｘ｜／Ｉ（Ｘｊ）判斷Ｘｊ屬于哪個簇。如此反復，達到軟聚類結果。

如此，距離函數和相容關系建立了一一對應關系，經過不斷對相容商空間粒度的合成與分解及對邊界對象的隸屬處理，形成軟聚類結果，解決了話題層次及不確定邊界的問題。

２．２．３話題識別與跟蹤

把經過解析的Ｗｅｂ語料中的ＸＭＬ文檔集表示為向量空間模型Ｄ＝｛Ｄ１，Ｄ２，…，Ｄｒ｝，其中Ｄｉ表示第ｉ篇文檔的向量空間：Ｄｉ＝｛（Ｔｉ１，ｗｉ１），（Ｔｉ２，ｗｉ２），…，（Ｔｉｍ，ｗｉｍ），…｝，ｗｉｊ表示文檔Ｄｉ中第ｊ個詞匯Ｔｉｊ的權重值。對于文檔向量空間進行降維處理，形成ｎ維文檔向量空間集，其中Ｄ＝｛Ｄ′１，Ｄ′２，…，Ｄ′ｒ｝，其中Ｄ′ｉ＝｛（Ｔ′ｉ１，ｗｉ１），（Ｔ′ｉ２，ｗｉ２），…，（Ｔ′ｉｎ，ｗｉｎ）｝（ｎ＜ｍ）。利用軟聚類算法對文檔集Ｄ進行話題識別，形成層次話題集ＴＰ＝｛ｔｐ１，ｔｐ２，…，ｔｐｓ｝。在聚類過程中，動態形成話題重心點向量集Ｃ＝｛ｃ１，ｃ２， …，ｃｓ｝。根據話題ｔｐｉ中的所有文檔向量集ｔｐｉ＝｛ｄｉ１，ｄｉ２，…，ｄｉｃ｝，對ＸＭＬ文檔集中話題節點的標注信息進行更新。

話題跟蹤是話題識別的繼續，是在確定的話題基礎上，在話題監督的作用下動態跟蹤的過程。針對帶有明確標注的層次化話題集ＴＰ＝｛（ｔｐ１，ｎａｍｅ１），（ｔｐ２，ｎａｍｅ２），…，（ｔｐｓ，ｎａｍｅｓ）｝以及文檔重心點集Ｃ＝｛ｃ１，ｃ２，…，ｃｓ｝，對新報道向量空間Ｆ，利用軟聚類算法對Ｆ進行分類。首先計算Ｆ與文檔重心點集距離函數ｄｉｓ（Ｆ，Ｃ），然后與確定的距離半徑ｄｒ比較，確認Ｆ屬于哪一類話題。如果ｄｉｓ（Ｆ，Ｃ）＞ｄｒ，則以Ｆ為重心點，作為新話題加入新層次話題集ＴＰ＝｛（ｔｐ１，ｎａｍｅ１），（ｔｐ２，ｎａｍｅ２），…，（ｔｐｓ，ｎａｍｅｓ），（Ｆ，ｎａｍｅｆ）｝，同時更新語料中對應的ＸＭＬ文檔的話題節點的標注信息。

主要參考文獻

［１］趙華，趙鐵軍，于浩，張姝．面向動態演化的話題檢測研究［Ｊ］．高技術通訊，２００６，１６（１２）：１２３０－１２３５．

［２］宋丹，王衛東，陳英．基于改進向量空間模型的話題識別跟蹤［Ｊ］．計算機技術與發展，２００６，１６（９）．

中國管理信息化2011年14期

中國管理信息化的其它文章: 對企業診斷的科學結構分析; 系統集成與集成自動化系統的研究; 鋼管制造企業ERP實施流程淺析; 高校債務風險的形成和化解對策; 基于分形思想的工業企業價格風險管理初探; 高校管理中的泛行政化及其對策研究