999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

相容商空間粒度下的話題識別與跟蹤

2011-12-31 00:00:00王艷茹溫長峰洪曉蕾
中國管理信息化 2011年14期

[摘要] 本課題以話題識別與跟蹤為研究內容,根據相容關系集和距離函數形成話題層次結構,利用相容隸屬函數對不確定邊界文本進行話題確認,形成帶有明確話題標注信息的語料。以此建立話題識別與跟蹤體系,為相關部門實時、精確掌握網絡輿情提供理論支撐和方法指引。

[關鍵詞] 話題識別與跟蹤; 相容商空間粒度; 語料

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045

[中圖分類號]TP391.1 [文獻標識碼]A [文章編號]1673 - 0194(2011)14- 0077- 02

1引言

話題識別與跟蹤作為輿情分析的重要組成部分,仍有許多需要解決的問題。在話題識別與跟蹤方面,涉及聚類策略的選擇大都基于硬聚類過程,所得聚類簇中的文本對象是無層次的確定聚類結果。無層次結構造成話題結構的混亂。由于有些邊界文本對象無法準確地劃分到某一個簇,造成對這些文本無法進行較準確判斷,降低了話題識別的精度。

本課題基于相容商空間粒度下的軟聚類算法,定義相容關系集I和距離函數dis(α,β),確認聚類的重心點集合,計算距離函數dis(α,β),并與距離半徑di進行比較,在相容商空間粒度下對文檔集進行反復合成與分解,同時動態形成聚類重心點集合;利用相容隸屬函數μ(Xj,X) = | I(Xj)∩X | / I(Xj)對邊界文本進行話題確認,形成帶有明確話題標注信息的語料。本課題在相容商空間粒度下對話題進行識別和跟蹤,使得在識別和跟蹤過程中易于實現話題層次的劃分及處理容錯文本的能力,提高話題識別與跟蹤的效率和精度。

2相容商空間粒度下的話題識別與跟蹤

2.1國內外研究現狀

話題識別與跟蹤為話題傾向性分析的基礎。文獻[1]訓練一項表征話題演化周期的閾值,檢測后續報道與話題模型內最新事件的時間差是否高于該閾值,將滿足這一條件的報道作為話題演化的邊界;文獻[2]的時間“覆蓋矩陣”將相關性匹配雙方的時間信息統一為標準格式,分別映射于橫縱時間軸上的點,基于對角線檢測所有同步點及其時間間隔,在此基礎上以所有間隔的覆蓋率描述匹配雙方時序關系的相似性。然而,目前的聚類方法確定的聚類結果多是無層次的,無層次的話題結構會造成話題混亂。

2.2我們的工作

在相容商空間粒度下,根據相容關系集和距離函數,確認聚類的重心點集合,在相容商空間粒度下對文檔集進行反復合成與分解,形成話題的層次結構,同時動態形成聚類重心點集合;利用相容隸屬函數對邊界文本進行話題確認,形成帶有明確話題標注信息的語料。

2.2.1不同相容商空間粒度的獲取

定義1:令[X] = {[x]I | x∈X},稱[X]是關于相容關系I的相容商空間。

根據相容關系定義距離函數,假設α, β, γ是論域X中的3個n維向量,dis(α,β)是一個距離函數。作為一個距離函數,dis(α,β)應該滿足下列特征:

(1) dis(α,β) ≥ 0

(2) dis(α,α) = 0

(3) dis(α,β) = dis(β,α)

(4) dis(α,β) ≤ dis(α,γ) + dis(γ,β)

顯然dis(α,β) ≤ d是一個相容關系,其中d ≥ 0,稱d為距離函數dis(α,β)的半徑。

如此把相容關系I與距離函數dis(α,β) ≤ d建立了一一對應關系。

定義2:設I1和I2∈I,對于任意x,y∈X都有xI2y ?圯xI1y,那么就稱I2比I1細,記作I1 < I2。

一個n層的層次結構對應的n個相應的相容關系就有如下的相容序關系:

I0 < I1 < I2 < … < In

相容距離函數表示n層的層次結構對應的距離半徑有如下序關系:

d0 > d1 > d2 > … > dn > 0

設Ii對應的相容商集為[X]i(i = 0,…,n),則不同層次粒度論域集有如下的相容序關系:

[X]0 < [X]1 < [X]2 < … < [X]n

2.2.2相容商空間粒度下的軟聚類

(1) 選取初始k個樣本X = {X1,X2,…,Xk}為樣本的重心點集合, d0是相容距離半徑。

(2) 計算dis(Xi,Xj)(i∈(1,2,…,k),j∈(1,2,…,n)),判斷dis(Xi,Xj)與d0的關系。

(3) 當dis(Xi,Xj) ≤ d0時,表示Xi,Xj屬于同一類,如此計算所有樣本與重心的距離,并與距離半徑進行比較。

(4) 采用相容商空間粒度分析法對聚類結果進行分析,相容商空間粒度的確定過程是一個不斷分析比較、動態調整樣本重心點的過程,這個過程稱為相容商空間粒度分析。在實際求解中,可采用合并和分解法來調整粒度,實現層次劃分。

(5) 對于邊界距離dis(Xi,Xj) = di表示Xj在兩個簇中同時存在,利用相容隸屬函數μ(Xj,X) = | I(Xj)∩X | / I(Xj)判斷Xj屬于哪個簇。如此反復,達到軟聚類結果。

如此,距離函數和相容關系建立了一一對應關系,經過不斷對相容商空間粒度的合成與分解及對邊界對象的隸屬處理,形成軟聚類結果,解決了話題層次及不確定邊界的問題。

2.2.3話題識別與跟蹤

把經過解析的Web語料中的XML文檔集表示為向量空間模型D ={D1,D2,…,Dr},其中Di表示第i篇文檔的向量空間:Di = {(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示文檔Di中第j個詞匯Tij的權重值。對于文檔向量空間進行降維處理,形成n維文檔向量空間集,其中D = {D′1,D′2,…,D′r},其中D′i = {(T′i1,wi1),(T′i2,wi2),…,(T′in,win)}(n < m)。利用軟聚類算法對文檔集D進行話題識別,形成層次話題集TP = {tp1,tp2,…,tps}。在聚類過程中,動態形成話題重心點向量集C = {c1,c2, …,cs}。根據話題tpi中的所有文檔向量集tpi = {di1,di2,…,dic},對XML文檔集中話題節點的標注信息進行更新。

話題跟蹤是話題識別的繼續,是在確定的話題基礎上,在話題監督的作用下動態跟蹤的過程。針對帶有明確標注的層次化話題集TP = {(tp1,name1),(tp2,name2),…,(tps,names)}以及文檔重心點集C = {c1,c2,…,cs},對新報道向量空間F,利用軟聚類算法對F進行分類。首先計算F與文檔重心點集距離函數dis(F,C),然后與確定的距離半徑dr比較,確認F屬于哪一類話題。如果dis(F,C) > dr,則以F為重心點,作為新話題加入新層次話題集TP = {(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同時更新語料中對應的XML文檔的話題節點的標注信息。

主要參考文獻

[1] 趙華,趙鐵軍,于浩,張姝. 面向動態演化的話題檢測研究[J]. 高技術通訊,2006,16(12):1230-1235.

[2] 宋丹,王衛東,陳英. 基于改進向量空間模型的話題識別跟蹤[J]. 計算機技術與發展,2006,16(9).

主站蜘蛛池模板: 一本一本大道香蕉久在线播放| 无码AV动漫| 一级黄色网站在线免费看| 伊人大杳蕉中文无码| 重口调教一区二区视频| 999精品色在线观看| 无码丝袜人妻| 亚洲日韩每日更新| 久久久久中文字幕精品视频| 99精品影院| 国产剧情无码视频在线观看| 午夜毛片免费看| 国产精品免费入口视频| 久久综合丝袜日本网| 国产H片无码不卡在线视频| 中文成人在线| 久久亚洲天堂| 青青久在线视频免费观看| 日本精品影院| 亚洲视频a| a天堂视频| 精品综合久久久久久97超人该| 亚洲人精品亚洲人成在线| 高潮爽到爆的喷水女主播视频 | 色偷偷一区| 欧美成人第一页| 欧美成人h精品网站| 日本日韩欧美| 伊人激情综合网| 中文字幕免费在线视频| 欧美日本在线| 最新精品久久精品| 91无码人妻精品一区| 日本成人一区| 婷婷六月激情综合一区| 亚洲第一区精品日韩在线播放| 色婷婷综合在线| 99热6这里只有精品| 亚洲欧美自拍中文| 色婷婷在线播放| 四虎影视永久在线精品| 真人高潮娇喘嗯啊在线观看| 国产免费一级精品视频| 精品少妇人妻一区二区| 蜜芽国产尤物av尤物在线看| 素人激情视频福利| 五月天综合网亚洲综合天堂网| 亚洲精品大秀视频| 尤物精品视频一区二区三区| 亚洲中文无码av永久伊人| 国产精欧美一区二区三区| 亚洲AV成人一区国产精品| 精品国产中文一级毛片在线看 | 国产小视频在线高清播放 | 国产成人亚洲精品无码电影| 国产成人91精品| 亚洲精品午夜天堂网页| 中文字幕久久波多野结衣| 中文字幕有乳无码| 青青青亚洲精品国产| 9久久伊人精品综合| 日韩成人在线一区二区| 54pao国产成人免费视频| 丁香婷婷激情综合激情| 无码内射中文字幕岛国片| 亚洲高清无在码在线无弹窗| 99久久国产自偷自偷免费一区| 青草视频在线观看国产| 欧美精品v日韩精品v国产精品| 老司机午夜精品视频你懂的| 亚洲成av人无码综合在线观看| 亚洲精品在线观看91| 在线色国产| 在线观看无码av五月花| 高清码无在线看| 一区二区三区在线不卡免费| 久久黄色影院| 久久性妇女精品免费| 亚洲成肉网| 亚洲人成网站色7777| 性视频一区| 国产乱人伦偷精品视频AAA|