999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡中隱式事件突發性檢測

2018-05-15 01:31:49介飛謝飛李磊吳信東
自動化學報 2018年4期
關鍵詞:特征文本檢測

介飛 謝飛 李磊 吳信東

社交網絡深刻影響著大眾的日常生活[1],人們習慣將感興趣的事件通過社交媒體與他人進行分享和交流.伴隨著事件的發生,社交網絡中相關文本的發布、轉發及評論等行為會形成一個密集期,即表現為行為特征的一個突發性.突發性背后往往蘊含著事件信息,可用來發掘潛在的市場需求和隱含的政治傾向,進而為商業推廣或輿情監控提供指導.相較于傳統媒體,社交網絡的公眾參與度更高.因此,發現社交網絡中的事件突發性具有更為重要的現實意義.

突發性即被觀測目標的頻數等特征值陡然上升的現象.隨著事件的發生,某些特征值,例如文檔頻數,會急劇上升,形成事件相關突發性(Eventrelated bursts),簡稱事件突發性.Kleinberg首先構建了基于自動機理論的突發性檢測模型[2],用于描述電子郵件中的事件信息.突發性檢測最初是應用在新聞、電子郵件和科研論文等傳統媒介中[2?5],而隨著社交網絡的興起,為突發性檢測提供了新的應用環境.在傳統的突發性檢測中,通常以關鍵詞詞頻信息等文本型特征作為依據,即考慮了內容信息;而在社交網絡中,可以利用行為、鏈接和情感等非文本型特征進行事件突發性檢測[1,6?8].但據我們所知,還未有研究人員開展文本型特征與社交行為特征結合的相關研究.其中,文本型特征(例如關鍵詞)可從語義上直接反映事件發生情況,能準確判斷事件是否發生,但以其作為突發性檢測的特征,存在如何篩選的問題,一般只能根據用戶意圖進行人工選擇,再按選定的特征變動情況,判斷突發性,自動化程度較低;而社交行為特征用于事件突發性檢測時,由于其與事件發生的關系不明確,可能由于事件交錯,事件突發性程度較低等原因導致漏檢或錯檢.根據對具體數據的分析,當前利用社交行為特征進行事件突發性檢測的方法不能準確發現圖1中所示的事件突發性.

圖1中的數據爬取自新浪微博,對應的時間段為2015年10月21日12時~24日0時,共60小時.圖中第一段標注區間(9~12)內進行了一場亞冠比賽,恒大0:0戰平日本柏太陽神隊;第二段標注區間(33~36)對應事件為恒大集團與英國相關機構簽署協議,開展項目合作.由于該事件發生在夜晚(22日21:00左右,對應圖中索引33),因此與之相關的微博活動在事件發生后短時間內上升,隨后迅速下降,第二天,又呈現突發狀態勢(對應區間45~48與51~57).圖1中展示四種社交行為,微博總數對應用戶的發布行為,原創微博對應用戶的原創發布行為,轉發微博對應轉發行為,內嵌網址對應引用外部信息行為.對比兩個事件,兩者發生在連續兩天的同一時間段(相差24小時),從不同行為頻數特征的變動情況來看,第一個事件引起的突發性遠大于第二個事件的突發性,表現為頻數值的驟降(圖中箭頭所示),此時,第二個事件對應區間就易被判別為非突發狀態,造成該事件突發性的漏檢.由圖1可知,第二段標注區域所示的事件突發性本身突發模式較為顯著,但由于鄰近遠高于自身突發性事件的影響,易被其他事件“掩蓋”1“掩蓋”,指當前突發性判定受臨近事件突發性的影響,并不表明二者時間上有重疊;當事件重疊時,相關算法會識別為一次突發性,并不會影響突發性檢測的準確性,因此不必區分重疊事件.其突發性,本文稱此類事件突發性為隱式事件突發性.上述類型的隱式事件突發性的發生是由于外部事件的干擾,還有一類隱式事件突發性,則是由于事件本身引起,例如事件發生時,關注該事件的用戶數量不足,則相應的用戶行為(例如轉發、評論、點贊等),不會發生明顯變化,但用戶討論內容具有明顯傾向性,如某些詞語反復出現,此時再單純以社交行為進行事件突發性檢測,則會由于相關行為突發性不足造成漏檢,引入內容信息成為解決該問題的選項之一.

本文主要研究事件突發性中的非常規類型—隱式事件突發性,該類事件突發性由于事件本身或外部因素的影響易被漏檢,成為現有事件突發性檢測算法的瓶頸.針對隱式事件突發性,本文在當前基于行為特征的事件突發性檢測方案基礎上,引入關鍵詞特征,伴隨時間的推進,動態改變各個時間窗口的關鍵詞候選,實現不同時間區間與不同關鍵詞特征綁定,進而將不同事件突發性映射到不同特征空間上,以此剔除噪音及事件之間的互相影響;隨后,將由關鍵詞特征與行為特征得到的突發性結果關聯,以二者的突發性情況共同決定社交文本流的突發性,從而更為準確地檢測事件突發性.本文的貢獻主要有兩點:1)首次將文本型(關鍵詞)特征與非文本型(社交行為)特征結合,開展事件突發性檢測研究;雖然已有相關文獻[9?10]開展多特征事件檢測研究,但與本文發現事件突發性區間的目標有所區別,例如,文獻[9]只考慮結果是否處于事件發生時間前后的一定范圍,并不關注事件發生區間的確定問題;2)在進行以關鍵詞為特征的事件突發性檢測時,本文提出了各時間窗口內候選關鍵詞的篩選方案及多關鍵詞突發性結果關聯決定當前時間窗口突發性的策略.在兩個不同類別真實數據集上開展的相關實驗表明,上述方案可以有效提升社交網絡中事件突發性檢測算法的性能,對事件檢測等相關領域研究具有一定的參考價值.

本文結構如下:第1節對研究的問題進行形式化表述;第2節詳細介紹綜合兩類特征的事件突發性檢測算法的步驟;第3節展示在兩個真實數據集上的實驗結果,并對結果進行詳細分析;第4節介紹事件突發性檢測研究領域的相關工作;第5節對本文進行總結并指出未來可能的研究方向.

1 問題表述

本文主要研究社交網絡中的事件突發性檢測問題,即在社交網絡數據中,確定由真實事件發生引起的突發性對應的時間區間,包括確定事件突發性的開始與結束時間窗口,著重解決現存算法對于隱式事件突發性的漏檢問題.

事件突發性(Event-related bursts),是由某一真實事件引起的相關特征突發性對應的一段時間區間[ts,te],ts與te分別表示事件突發區間的開始時間窗口與結束時間窗口.與特定主題相關的事件突發性一般不止一個,因此這里用集合表示為Busrts={[ts,te]|ts,te∈T,s≤e},其中,T表示時間窗口序列,s,e表示突發區間開始與結束對應的時間窗口索引值.事件突發性與事件并非一一對應關系,與事件內容、用戶行為等因素有關,一次事件可能引起多次事件突發性.

隱式事件突發性,指具有以下兩類特點之一的事件突發性.1)突發模式不明顯,突發程度絕對值較低;2)突發程度相對較低,突發性被鄰近突發程度更高的事件“掩蓋”.這兩類事件突發性分別根據其特點稱為真隱式事件突發性與假隱式事件突發性,合稱為隱式事件突發性.本文著力解決隱式事件突發性的檢測問題,以提高現有事件突發性檢測算法的效果.

本文涉及的其他概念與定義,借用文獻[1]中的相關表述,描述如下:

行為(Activity),指話題或事件發生時用戶進行的動作,例如微博中的發布、轉發、評論、點贊、嵌入網址鏈接等操作.

時間窗口序列(Time window sequence),一個長為N的時間窗口序列表示為T=(t1,t2,···,tN),ti表示第i個時間窗口.將數據集按時間排序,以等長時間粒度進行切分,即可得到時間窗口序列.

行為流(Activity stream),用數字序列H=表示在第i個時間窗口內m類行為發生的總次數,N表示時間窗口個數.

詞語流(Term stream),用數字序列表示在第i個時間窗口內詞語w的文檔頻率,N表示時間窗口個數.

狀態序列(State sequence),每個時間窗口ti對應狀態zi,由此構成狀態序列Z=(z1,z2,···,zN),zi表示第i個時間窗口的狀態索引值,z∈{0,1,2,···,NZ?1},z取值為0時表示非突發狀態,非0表示突發狀態,NZ表示不同狀態數目.狀態索引值反映事件突發程度,其值越大表示突發程度越高,突發性檢測即指定每個時間窗口的狀態索引值,連續狀態索引值非零的時間窗口序列構成一個突發區間.

上述定義示例如圖2所示,橫軸表示時間窗口,縱軸表示Activity或Term特征頻數值,圖中折線表示狀態序列,本文選用兩種狀態(z∈{0,1}),即只區分突發狀態與非突發狀態.

2 方法設計

2.1 思路概述

圖2 相關定義示意圖Fig.2 A schematic diagram of related conceptions

由前文所述可知,現有算法不易發現隱式事件突發性,算法的召回率難以提升,因此對這類非常規突發性必須提出針對性解決方案,避免可能的漏檢問題.對于真隱式事件突發性,事件突發性程度本身較低,可以考慮引入新的特征表征事件;在新的特征刻畫事件時,該事件能夠表現出較高的突發性;關鍵詞特征與事件的發生直接相關,事件發生,則關鍵詞出現頻數大幅上升,可以滿足要求.對于假隱式事件突發性,若只關注行為特征,事件發生時,用戶會產生相似的行為模式(例如轉發和評論等),易造成時間上鄰近的不同事件的“掩蓋”問題,而對于關鍵詞特征,不同事件對應的關鍵詞集合重合度較低,可將不同的時間窗口與對應的關鍵詞集綁定,則緊鄰的事件由于關鍵詞集的不同,被映射到不同的關鍵詞特征空間,從而避免了鄰近事件突發性的相互干擾.綜上,為應對現有事件突發性檢測算法對于隱式事件突發性的漏檢問題,文本型信息的引入是一個可選的方案,本文提出的算法即基于此思路,將社交行為特征與關鍵詞特征結合,解決隱式事件突發性的漏檢問題,從而提升事件突發性檢測的整體效果.

2.2 突發性檢測方法

本文使用文獻[1]中提出的單目標序列與多目標2目標,即指特征,單目標序列表示算法輸入為單一類別特征序列,例如行為特征,算法輸入只有一種行為流時,則為單目標,當輸入多種行為流時,即為多目標.序列突發性檢測算法.

眾所周知,豐富的社交特征給我們提供了多樣的數據來源,但社交媒體普遍存在的噪音問題也阻礙傳統方法直接應用在社交網絡中.因此,Zhao等根據Twitter內容突發性的特點,提出了適用于社交網絡數據的單目標序列與多目標序列突發性檢測算法,構建了三類成本,對社交網絡中的消息生成進行建模,包括生成成本、平滑成本以及跨目標流成本[1].

生成成本(Generating cost),表示根據特定的概率分布,當前時間窗口i在狀態下某個特定特征m(例如社交行為)出現次數時的成本,可取概率的對數負值,此時概率越大,對應成本越低.概率分布可選用二項分布、泊松分布或指數分布.使用泊松分布時,概率分布函數具體形式為其中μ0表示一個時間窗口內特征頻數的平均值,如果處于突發狀態,目標特征會以更高的速率發生,從而導致較高的期望μ1,可以設置μ1=μ0×ρ,ρ>1,為參數.

平滑成本(Smoothness cost),傾向于在標注時保持突發狀態序列穩定,實現剔除噪音,處理數據隨機波動的功能.通常,與事件相關的突發性會由于人們的持續關注而維持一段較長時間且波動較小,而諸如廣告等噪音信息帶來的突發性,更多時候出現時間較為短暫,因此可以突發性延續的時間長短判斷該突發性是由真實事件引起或由噪音引起.其中一種衡量方案為

其中,si,ei分別表示第i個狀態值相同的序列開始與結束時間窗口索引,式(1)表示將狀態序列中狀態值相同的區間長度進行平方求和.

例如,假設突發狀態為二狀態,即只區分突發狀態與非突發狀態,則一系列時間窗口對應一系列狀態序列,如 “0000100000” 與“0000000000”,按式(1)計算平滑指標分別為42(42+12+52=42)與100(102=100),平滑指標取負值即可作為區別噪音與正常突發性的成本值,在此例中,如果指定第5個時間窗口出現突發狀態,其維持時間僅一個時間窗口,時間較短,顯然為噪音的可能性較大,因此其平滑指標較小(取負值為?42,與沒有突發性的序列的平滑成本?100比較,成本較大).

跨目標流成本(Cross stream cost),借助上述思想,在具有相關性的多目標序列中,不同目標的突發模式類似,因此多個目標序列的同一時間窗口的狀態也應該趨同,否則應給予一定的懲罰成本(即跨目標流成本).

其中,Γ(·)為指示函數(Indicator function),m1與m2對應任意兩類特征,若其同一時間窗口內的狀態值不相等,則取值為1,計入成本,否則成本為0.

由上述三類成本我們可以構建單目標序列與多目標序列突發性檢測的成本模型(分別記為SCost與MCost),其中多目標序列成本模型比單目標序列成本模型額外考慮不同目標序列之間的成本,具體為

式(3)和式(4)中M和N分別表示特征類別與時間窗口數目,γ1和γ2為參數,用于調節不同類別成本之間的權重.

構建成本模型后,利用動態規劃算法可得總成本最小時文本流中各個時間窗口的突發狀態,具體算法可參考文獻[1?2],處于突發狀態的連續時間窗口即可構成突發區間,由此實現突發性檢測任務.

2.3 算法步驟

2.3.1 文本型特征篩選

在文獻[1]的算法基礎上引入文本型(關鍵詞)特征,詞語的選擇使用文獻[11]中的關鍵詞選擇算法.計算公式為

WScorei,w表示詞語w在第i個時間窗口的WScore值,dfi,w表示詞語w在第i個時間窗口的文檔頻率,L表示所考慮歷史時間窗口個數,為可調參數.本文中,一篇文檔指時間窗口內的一條微博,故文檔頻率dfi,w即第i個時間窗口內包含詞語w的微博條數.

式(5)中分子表示詞語在當前時間窗口的文檔頻率,分母計算詞語在歷史時間窗口的出現情況,只有在當前窗口出現較多,歷史窗口出現較少的詞語WScore值較大,故該值可較好地反映一個詞語的權重,選出對于當前時間窗口最有代表性的詞語.

在計算得到每個詞語的WScore值后,遞減排序,抽取每個時間窗口Topn個詞語中的名詞作為關鍵詞候選.隨著時間推進,事件發生,每個時間窗口對應的關鍵詞候選集隨之變化,關鍵詞與時間窗口的綁定,將不同事件映射到不同關鍵詞特征上,消除噪音及事件之間的互相干擾,從而提高識別效果.具體效果如圖3所示.

圖3 關鍵詞特征作用示意圖Fig.3 The schematic diagram of keyword feature relations

在得到各時間窗口的候選關鍵詞后,應用前述突發性檢測算法,可以發現每個候選詞的突發區間.

2.3.2 關鍵詞區間關聯

在得到時間窗口內各個候選關鍵詞的突發情況后,需將多個關鍵詞的突發區間關聯,共同決定當前時間窗口是否處于突發狀態,最終得到文本型特征突發區間.為實現關鍵詞突發區間的關聯,本文采用閾值法,即當前時間窗口內關鍵詞處于突發狀態的比例超過閾值時,則判定該時間窗口處于突發狀態.使用的計算公式為

其中,zi表示第i個時間窗口的突發狀態,zi,w表示詞語w在第i個時間窗口的突發狀態,其值為0或1,λ為閾值,超過此值則代表當前時間窗口處于突發狀態,Γ(·)為指示函數,決定是否處于突發狀態,KWi表示當前時間窗口i的候選關鍵詞集合.

2.3.3 突發區間優化

關鍵詞作為目標時,突發性檢測算法得到的突發區間結果會發生碎片化現象,原本完整的突發區間被分割為數段小區間,造成這種現象的原因為關鍵詞候選較多,較之行為特征易受噪音(非相關詞)影響.為應對此現象,提出兩點假設:1)若候選詞與特定事件相關度高,則該詞語會被反復提及,因此其突發狀態會維持一段時間,否則,對應突發區間為噪音的可能性較大,應予以舍棄;2)若臨近的兩個被判定為處于突發狀態的區間具有較為相似的關鍵詞集合,則表明這兩個時間區間表現出的突發性與同一事件相關,應予以合并,構成新的突發區間.

上述兩點假設符合對于事件發生時用戶發布內容行為的基本判斷.對于第一點,人們在相關事件發生時,會以較高頻率提及一些詞語并持續一段時間,因此,當詞語的突發性區間過短時,可能只是數據的隨機波動或噪音,而突發性維持較長時間的詞語,則更有可能與用戶關注的事件相關.對于第二點,在事件發生時,人們討論事件往往有特定的關注方面,這樣,同一事件在連續數個時間窗口的關鍵詞集應該具有較高重復性,反之,連續幾個關鍵詞集具有較高重復性的區間為討論同一事件的概率亦大增,可以進行合并.基于以上兩點假設,可得區間優化算法.

輸入區間集合inputIntervals,由關鍵詞得到的突發區間組成,按時間排序,輸出集合outputIntervals為空,每個時間窗口對應的關鍵詞集合為KWi,i為時間窗口索引,突發區間對應的關鍵詞集合由突發區間對應的時間窗口關鍵詞集合取并集生成,對于inputIntervals集合中的突發區間按順序逐個處理,cur,next,third分別指向inputIntervals中當前第1,2,3個待處理的突發區間.

步驟1.若cur與next之間時間窗口間隔SEP(cur,next)≤λ1,轉步驟2,否則轉步驟3;

步驟2.若區間cur的關鍵詞集合KWcur與下一個突發區間next關鍵詞集合KWnext重合度TOR(cur,next)≥λ2,轉步驟4,否則轉步驟3;

步驟3.若當前突發區間長度LEN(cur)≥λ3,轉步驟5,否則轉步驟6;

步驟4.合并cur與next形成新的cur,next=third,third指向隨后的一個突發區間,轉步驟1;

步驟5.將cur指向的突發區間移入outputIntervals,轉步驟6;

步驟6.cur=next,next=third,third指向隨后的突發區間,若cur指向inputIntervals中最后一個區間,則整個算法結束,此時outputIntervals即為優化后的區間集合,否則轉步驟1繼續執行.

區間優化算法流程圖如圖4所示.

上述步驟中對于突發區間之間的時間窗口間隔SEP與突發區間對應關鍵詞集合重合度TOR的閾值限制保證合并的突發區間時間相近,語義相關,以滿足第二點假設;突發區間的長度LEN的閾值限制保證只有較長的突發區間才能成為事件突發性,對應第一點假設.關鍵詞集合重合度TOR使用Jaccard系數衡量.

圖4 區間優化算法流程圖Fig.4 The flow chart of interval optimization algorith m

下面介紹閾值λ1,λ2,λ3的設定,其中λ1值表示由相同事件引起的突發區間的間隔大小(以間隔時間窗口個數衡量),其值過大會將不同事件突發區間合并,造成錯誤,λ3反映事件突發性維持時間的最小值,其值過小會引入隨機波動,上述兩個參數均根據數據集取經驗值3小時.λ2表示關鍵詞重合度,反映臨近突發區間語義相似度,本文取值為0.5.

2.3.4 關鍵詞區間與社交行為區間關聯

至此,得到分別根據社交行為與關鍵詞特征得到的突發區間,接下來介紹兩組結果的關聯策略,以得到最終的突發區間.本文提出三種方案以供實驗.

交集策略(Conjunct):如果一個突發區間與其他突發區間不重合,則忽略;如果一個突發區間與某一區間重合,則取交集.

其中,si,ei表示突發區間i的開始與結束時間窗口索引值.

并集策略(Disjunct):如果一個突發區間與其他突發區間不重合,則其單獨構成一個突發區間;如果一個突發區間與某一區間重合,則取并集.

混合策略(Hybrid):如果一個突發區間與其他突發區間不重合,則其單獨構成一個突發區間;如果一個突發區間與某一區間重合,則取交集.

例如,現有關鍵詞區間(以窗口的突發狀態序列表示,0值表示對應窗口不發生突發性,1表示發生突發性)“001111000000”,社交行為區間“0111100011 10”.使用交集策略結果為“001110000000”;使用并集策略結果為“011111001110”;使用混合策略的結果為 “001110001110”.

當兩類特征發現的突發區間區別不大時,交集策略與并集策略結果差異較小,當兩類特征發現的突發區間區別較大時,交集策略與并集策略結果差異較大,因此可以根據交集策略與并集策略的實驗結果判斷兩類特征對于發現事件突發性的作用是否相同,從而驗證引入的文本特征是否可以彌補行為特征的缺陷,發現隱式事件突發性.

經過上述步驟,得到最終的事件突發區間集合.完整的事件突發性檢測方法流程如圖5所示.

3 實驗

本節介紹實驗細節,討論不同算法的實驗結果并分析原因;針對本文提出算法,對比使用不同關聯策略時的實驗結果,分析原因;指出單獨使用文本特征時效果較差的原因;解釋綜合文本與社交行為特征的算法改善事件突發性檢測效果的機制,并結合實例進行分析.

3.1 數據集

微博3http://www.weibo.com/是一種通過關注機制分享簡短實時信息的廣播式的社交網絡平臺,已成為目前最流行的社交平臺之一[12].本文實驗數據集以真實微博數據構建,通過微博提供的搜索及高級搜索功能,利用網絡爬蟲程序定時爬取微博數據,構建實驗數據集.根據搜索關鍵字的不同,共獲得兩個數據集.

3.1.1 數據集1

以“恒大”4中國職業足球隊名稱,亦是企業恒大集團簡稱,涉及地產、酒店、體育及文化等產業.作為查詢關鍵字,利用爬蟲程序爬取微博搜索頁面結果,定期(10分鐘)執行,共獲得微博165644條,時間跨度為2015年9月16日0時~2015年11月3日0時,共48天,1152小時.在獲得的微博中,原創微博占比56.83%;轉發微博占比43.17%;內嵌網址微博占比41.72%.

圖5 社交網絡中事件突發性檢測方案流程示意圖Fig.5 The flow diagram of event-related burst detection in social networks

3.1.2 數據集2

以“爸爸去哪兒”5一檔親子類綜藝真人秀節目名稱,節目有中國版與韓國版.作為查詢關鍵字,爬取微博,共獲得微博154366條,時間跨度為2015年9月22日0時~2015年11月7日0時,共46天,1104小時.在獲得的微博中,原創微博占比50.41%;轉發微博占比49.59%;內嵌網址微博占比27.07%.

以上數據集分別記作HD與BA.數據集HD與BA涵蓋體育與娛樂類內容,涉及人們關注的主要方面,因此數據集選取具有普遍性.關于數據集突發區間的確定,本文爬取了主要門戶網站(包括新浪、搜狐、網易)的相關專題新聞及搜索引擎(百度)特定關鍵詞加時間的搜索結果,根據這兩類數據,人工選擇出較為熱門的事件,結合真實事件發生的時間區間,確定事件突發區間的開始時間與結束時間,作為實驗評價時的真實突發區間集合.

3.2 評價指標

本文使用文獻[1]中的評價指標,突發區間重合率(Bursty interval overlap ration,BIOR),定義如下:

其中,f是一個突發區間,Δl(f,f′)是f′與f重合的長度,L(f)是突發區間f的長度.χ是一組突發區間,BIOR用于衡量一組突發區間χ對于突發區間f的覆蓋比例.由此可以定義準確率(Precision)、召回率(Recall)和F值,計算公式如下:

其中,M為通過相關候選算法發現的突發區間集合,B是真實突發區間集合,Mf是在集合M中與f重合的突發區間集合.Γ(·)是指示函數,當且僅當條件為真時函數值為1.

3.3 對比算法

本文實驗的三種算法,依次為:

SingleBurstDetector:使用概率分布及自動機理論構建突發性檢測模型[1],不同突發狀態對應分布的參數不同,因而不同狀態時生成同一特征序列的概率大小不同,即成本不同,通過最小化成本可得最優的突發狀態序列,進而得到突發區間.

MultiBurstDetector:原理同SingleBurstDetector,但輸入為多類行為特征,方法考慮了不同特征的突發情況,可以應對噪音對單一特征的干擾[1].

CombinedDetector:這是本文提出的方法,綜合了關鍵詞特征與社交行為特征,能夠發現隱式事件突發性,提升算法性能.

上述三種方法分別簡記為Single、Multi和Comb.

3.4 實驗步驟

3.4.1 數據預處理

預處理階段包括分詞、去停用詞和詞性標注等操作,針對分詞和詞性標注在微博環境中效果不佳的問題,可利用分詞器提供的新詞發現功能以及引入人工構建的外部字典解決.然后對微博數據按原創、轉發、內嵌網址、是否提到其他用戶(含“@”符號)進行分類.將微博按時間排序,時間窗口設置為1小時,統計每個窗口內各類別特征出現的頻數,構成前述行為流(Activity stream).本文使用5種行為流,分別為:微博總數(代表用戶發布行為)、原創微博(代表用戶原創內容發布行為)、轉發微博(代表轉發行為)、內嵌網址微博(代表引入網址行為)、含“@”符號微博(代表提到其他用戶行為),此設置與文獻[1]相同.計算各時間窗口內詞語的WScore值,提取Topn詞語中名詞性詞語作為候選詞,構建各個候選詞的Term stream.

3.4.2 計算事件突發性

對以上Activity stream,分別應用Single,Multi和Comb算法,其中,Single算法使用單一行為特征,Multi和Comb算法同時使用多種行為特征,得到事件突發性結果;對于Term stream,應用單目標突發區間檢測算法(Single)6此處使用單目標算法,是由于多目標算法基于假設:在特定事件發生時,不同行為具有一致的突發模式,而詞語由于候選集合較大,語義多樣,相關性無法保證,因此不適用多目標算法.進行突發性檢測,得到各個詞語的事件突發性區間,再將其與多類別行為特征的事件突發性結果關聯,進行區間優化后,最終得到Comb算法的突發性檢測結果.

3.4.3 實驗對比

根據前述評價指標計算各個算法的準確率、召回率和F值,比較不同算法的結果,分析各個算法的效果及特點.

3.5 結果及分析

運行前述算法,實驗測試不同參數設置,此處僅列出最優結果,如表1和表2所示.各個突發性檢測算法涉及的參數較多,在此不再列出,僅給出Comb算法最優結果時的參數設置,以供參考,n=5/5,γ1=1.9/1.9,γ2=10.5/11.5,ρ=3/8,L=5/5,λ=0.6/0.7,λ1=λ3=3,λ2=0.5(兩個數據集的參數設置以“/”分隔).針對Single算法,本文測試了前述5種社交行為,包括微博總數、原創、轉發、內嵌網址、含“@”符號微博(分別記為all,post,repost,url,user),這5種特征基本覆蓋了典型的社交行為,具有普遍意義.對于Multi算法,同時使用3種行為特征(post,repost,url)進行實驗,F值指標顯示Multi算法優于前兩種算法,印證了文獻[1]中的相關結論.對于Comb算法,我們在多特征的基礎上測試前述3種關聯策略.實驗中也驗證了單獨使用文本特征時的效果,如表3所示.

表1 數據集HD上各算法實驗結果Table 1 The experimental results of different algorithms on dataset HD

表2 數據集BA上各算法實驗結果Table 2 The experimental results of different algorithms on dataset BA

表3 單獨使用關鍵詞特征時實驗結果Table 3 The experimental results with only keyword features

對比不同算法以及同一算法使用不同特征或關聯策略時的實驗結果,可得到一系列有價值的結論.

1)Single算法實驗結果分析.該算法引入了區分噪音與事件突發性的平滑成本等措施,大幅提升了事件突發性檢測的準確率,在兩組數據集上準確率均較高,但其召回率最低,并且算法準確率波動性很大.造成此類結果的原因,在于不同行為與事件突發性的關系不同,當某些事件發生與某一行為關系緊密時,則利用此行為特征檢測到的突發性基本都與這些事件有關,即算法發現的突發區間是真實事件的突發區間的概率較大,此時算法的準確率(P值)就會很高;但當該行為與某類事件關系不緊密時,此類事件發生,對應行為變化不明顯,則利用該行為進行突發性檢測,就會造成漏檢,進而拉低召回率(R值).因此,基于單一行為特征算法的效果優劣很大程度上取決于使用的行為特征與事件的關系.圖1也可以證實此結論:在50~55區間內,事件發生(恒大集團與英國相關機構合作),微博總數與轉發微博都有明顯的上升,而原創微博與內嵌網址微博并無明顯變化,說明不同行為對事件的反應不同.

2)Multi算法實驗結果分析.該算法的準確率較Single算法在兩個數據集上均有所降低,但其彌補了Single算法召回率過低的缺陷,從而在衡量算法整體性能的F值指標上優于Single算法.分析Multi算法召回率提升的原因,在于多種行為特征加強了行為特征與事件的關系,避免單一行為特征由于與事件相關性不足或隨機波動造成的漏檢,因而召回率上升;而準確率的下降是由于該算法在根據每個單一特征突發性檢測結果生成最終的突發區間時使用了并集策略[1],即只要一個特征將當前時間窗口標注為突發狀態,就認為這個時間窗口產生突發性,因而多類特征的噪音都會引入到Multi算法結果中來,使其準確率下降.

3)不同關聯策略實驗結果分析.針對Comb算法,本文測試了3種關聯策略.由表1和表2可知,在進行文本特征與社交行為特征融合發現事件突發性時,采用并集(Disjunct)處理是進行區間關聯的最優策略.分析不同的關聯策略,可以看出,交集(Conjunct)策略保留文本特征與社交行為特征共同的結果,因此獲得優于Multi算法的準確率,但是由于忽略了僅由單一類別特征得到的結果,召回率較差;并集策略與混合(Hybrid)策略均保留僅由單一類別特征得到的結果,因此實現了較高的召回率,而上述兩種策略的準確率取決于關聯前兩類特征分別的準確率,因而準確率有升有降.并集策略取得最優,而交集結果較差說明,兩類特征在進行事件突發性檢測時的作用并不相同,后文給出具體分析.

4)單獨使用文本特征實驗結果分析.由表1、表2和表3對比可知,未進行融合,單獨使用文本特征時,實驗結果較使用行為特征的差,這是因為詞語候選集龐大,噪音詞較多,造成使用文本特征發現的突發區間較短,易被噪音信息割裂,引入噪音區間,發生前述的碎片化現象,導致結果較差.

5)文本與行為特征特點及融合效果分析.通過對比單獨使用文本特征與行為特征所發現的突發區間,我們發現:a)行為特征屬于宏觀特征,對于引起較高關注的事件,才會表現出較為明顯的對應行為的突發性(必須有大量的用戶參與,才能造成行為的突發表現),即行為特征對于事件的弱突發性敏感度不夠.以用戶行為作為特征時發現的突發區間對應的事件關注度普遍較高,并且突發性維持的時間較長.b)文本特征屬于微觀特征,對在小范圍內引起有限突發性的事件也會有所反映,例如用戶單位時間內發布微博的數目波動很小,即發布行為突發性弱,此時以該行為進行突發性檢測容易失效,但只要有部分微博集中討論同一事件,則也會表現出相關詞語的突發性,即文本特征對事件突發性更為敏感,能夠發現事件的弱突發性(真隱式事件突發性).另外由于本文提出的方法將不同事件與不同的關鍵詞綁定,消除了突發程度高的事件對于突發程度低的事件的影響,從而解決假隱式事件突發性問題.綜上,兩類特征對于發現的事件突發性類型各有側重,社交行為特征容易忽略突發程度低的事件,而文本特征會很好地彌補此缺陷,因此本文提出的融合兩類特征的綜合方法具有較好的效果.

6)案例分析.結合上述分析,回顧圖1,具體展示本文所述方法的作用效果.圖1呈現了兩個引起突發性的事件A和事件B,事件A是一場足球比賽,事件B是恒大集團與英國相關機構合作,關注同一行為特征時,事件A的突發程度遠高于事件B,如圖6左側所示7出于圖表直觀考慮,圖6僅為模擬圖,具體數值與真實情況并不對應..當使用關鍵詞特征時,由于事件A和事件B不同的關鍵詞,如表4所示(刪除線標注為查詢詞“恒大”),事件A的關鍵詞在事件B發生時不會突發,反之亦然,如圖6右側所示,關注文本特征時,避免了事件之間的影響,發現由事件B所引起的隱式事件突發性,從而提高事件突發性檢測的性能.

4 相關工作

突發性檢測問題,最早在文獻[2]中提出,作者根據電子郵件文本流中話題出現時郵件數量陡增的現象,引出流式數據中突發性的形式化表述,并探討了流式數據中的層次結構問題.作者借助自動機的思想,將文本流數據根據時間切分為時間窗口,根據突發程度及歷史信息確定當前時間窗口的狀態,并對突發狀態的生成與轉換成本進行建模,利用動態規劃方法求解,得到各個時間窗口的突發狀態.文獻[4]使用卡方測試的方法,進行詞語的突發性檢測,再對發現的突發詞語進行聚類,獲得數據集的事件話題.文獻[13]提出了無需調整參數的概率方法,用于在報紙文章中尋找不同時間窗口的突發特征,確定突發事件的熱度區間.文獻[14]針對時序數據,提出基于概率統計模型的變化節點發現方法.以上研究均在傳統文本(電子郵件、新聞文本和科研論文等)中進行.

圖6 Comb方法作用示意圖Fig.6 The schematic diagram of method Comb

表4 事件A,B的關鍵詞提取結果Table 4 Extracted keywords of event A and B

隨著社交網絡的興起,科研人員開始進行社交網絡中突發性檢測與應用的工作.文獻[1,6?10,15]基于Twitter文本流,開展關于在社交網絡中的突發事件與話題的發現.其中,文獻[15]應用了詞語的突發性,但與本文的研究問題有所區別,且其僅使用了詞語,并未綜合社交行為信息;文獻[6]基于事件發生時頻數特征的上升下降模式確定事件突發區間,該方法易受噪音(例如廣告信息)與多事件交錯的影響,整體效果有待提高;文獻[7]著重利用社交網絡中的鏈接異常進行話題發現,使用了概率方法進行事件發生的預測,是基于非內容特征進行社交網絡挖掘的典型示例;文獻[8]使用情感符號作為特征,利用情感突發趨勢發現事件;引入鏈接與情感符號的行為與用戶的使用習慣緊密相關,但不是所有事件相關的社交文本都包含此類特征,限定了這兩類方法的使用范圍;文獻[9]研究了異構網絡挖掘問題,使用社交網絡中的多種信息構建異構網絡,將每個特征節點視作傳感器,利用統計方法統一不同屬性的異常變化情況,最后使用改進的圖掃描算法發現變化最大的子圖,實現突發事件的檢測,發現事件的形式為(地點、日期),將研究任務分為預測(日期在真實事件發生之前)及發現(日期在真實事件發生之后),在事件發生前后7天內的結果都視作發現事件,但并未強調對于事件突發區間的覆蓋,而本文研究的是如何發現事件發生時導致的突發區間,目標是盡量使算法得到的區間覆蓋真實事件發生的區間并找到足夠多的真實區間,因此與本文研究問題有所區別;文獻[10]研究突發性事件的熱度預測問題,考慮了內容特征、用戶影響力與歷史信息,對突發事件進行流行度預測,流行度預測是在已知事件發生的情況下進行的,可以在任意時刻開始,作者并不關注事件的開始與結束時間,該論文方法不能直接應用到事件突發性發現任務中;文獻[1]改進了文獻[2]中基于自動機與概率方法的突發性檢測方法,首次利用社交網絡中的行為信息進行事件突發性檢測,引入去噪措施,指出單一行為特征在發現事件突發性時的不穩定性,提出利用多類行為特征的檢測方法,在大規模社交網絡數據集上驗證了其有效性.本文基于文獻[1]的算法,添加文本型(關鍵詞)信息,實現了社交行為與內容兩方面信息的綜合,有利于消除事件之間的相互影響,可以發現前述的隱式事件突發性,從而更為完整地發現突發事件對應的時間區間,改善相關算法性能.

突發性檢測算法最初用來挖掘文本流突發性背后蘊含的真實事件,因此本文也涉及事件檢測領域.事件檢測,最早要追溯到美國國防部發起的TDT(Topic detection and tracking)項目[16].TDT項目中事件檢測分為回溯事件檢測與新事件檢測[17],主要處理文本和音頻等傳統新聞媒體.最初使用的方法以文本聚類算法居多,后來,隨著以LDA[18]為代表的主題模型的提出,基于貝葉斯概率推斷的話題發現算法成為事件檢測領域研究的主流.而隨著Facebook、Twitter和微博等新型社交媒體的興起,以社交網絡為研究對象的事件檢測成為人們關注的熱點.文獻[19]將突發性特征引入到傳統的向量空間模型中,使文本表示既包含語義信息又包含時間信息,從而更好地進行事件檢測,但該模型僅在新聞文本中進行了實驗,應用到社交媒體的效果未知.文獻[20]提出應用于Twitter類短文本的話題發現算法,并利用該算法對傳統新聞媒體與社交媒體進行話題分析,比較二者之間的異同點,但僅考慮文本內容分析,未涉及時間信息與事件突發性問題.文獻[21]將事件發生時的突發性特點融入一個變形的概率圖模型中,實現對突發事件的發現,側重于對所發現事件的語義描述.文獻[22]考慮社交網絡中提供的地理標注服務,借助統計主題建模與稀疏編碼技術,構建帶位置信息的話題發現模型,探索事件、話題的發生與地理位置的關系.文獻[23]利用信號處理中的小波分析方法篩選詞語,再應用基于模塊度的圖切割方法聚類詞語,用于發現社交網絡中的事件.文獻[24]提出了一種新的數據結構,處理不斷到來的在線式數據,并成功應用于Twitter趨勢發現及總結中;作者綜合數量與內容變化信息,構建話題切換的檢測模型,用來跟蹤話題的演化情況,此處的話題切換僅關注話題發生變化的起始時間節點,并未探討如何確定話題的結束時間節點.文獻[25?26]均采用監督分類模型區分事件信息與非事件信息,從而發現目標事件,但此類方法需要人工創建訓練數據集,這在一定程度上限制其應用領域的擴展.文獻[27]使用文本挖掘及網絡分析技術,挖掘事件發生時的重點要素(例如時間和地點等),為輿情監控提供指導.文獻[28]基于在線LDA模型分析各時間片內子話題的關聯,定義話題的產生、消亡、繼承、分裂、合并等演化類型,構建了話題的內容與強度演化模型.

本文工作也屬于社交網絡挖掘范疇.在該方向,除了進行事件檢測的研究之外,科研人員也開展了其他各式各樣的挖掘工作.文獻[29]分析事件中公眾的情感走向;文獻[30]利用社交網絡的情感分析預測股市走勢.文獻[11]探討各類話題發現算法的優劣,并分析數據預處理等階段對話題發現最終結果的影響.文獻[31]關注社交網絡中影響力分析領域,詳細介紹各種影響力度量方法,以及影響力分析在意見領袖和影響力最大化問題中的應用.文獻[32]提出一種新型的社交網絡節點表示形式,可以有效提高各類社交網絡挖掘任務的效果.文獻[33]借助LDA模型構建語義社會網絡,使用標簽傳播算法進行社區發現,較好地解決了語義重疊社區的發現問題.文獻[34]提出半監督算法,融合先驗信息,解決數據缺失與噪音環境中的社區發現問題.文獻[35]利用基于線性回歸的混合算法分析內容在社交網絡中的傳播過程.

5 結論

通過對相關方法的分析與實驗可得,單純依靠社交行為特征,不足以區別事件交錯與噪音對于事件突發性檢測帶來的干擾,會引起隱式事件突發性的漏檢問題,因此在多次實驗的基礎上,本文引入文本型(關鍵詞)信息,提出了一個綜合方案,將每個時間窗口與不同的關鍵詞集合綁定,間接將事件映射到不同的關鍵詞特征空間,從而避免事件交錯及噪音的影響,在得到由關鍵詞特征確定的突發區間后,將其與由社交行為特征得到的突發區間關聯,得到最終的事件突發性.在真實數據集上的實驗結果表明,加入關鍵詞信息的事件突發性檢測算法能有效改善相關算法的性能,提升事件突發性檢測任務的效果,驗證了該算法的有效性.

最后,指出一些當前工作有待改進與提高之處,供各位讀者參考.

1)在進行突發區間計算時,本文借用了前人提出的算法,但算法并不完全適合,會出現區間碎片化問題.在多目標序列建模時,其他作者僅假設所選目標之間具有相關性,對于語義變化巨大的詞語,并不適用,因此,在進行多詞語序列突發性關聯時,可以嘗試構建考慮詞語語義關系的突發性檢測模型.

2)在方法設計部分,本文探討了多事件緊鄰帶來的檢測困難,而對于可能的重疊事件突發性,現有算法僅視作一次突發性,無法區別不同事件以及分析事件之間的相互影響,因此有必要進行語義分析,構建統一內容特征與非內容特征的事件模型,以便開展事件檢測與跟蹤工作.

3)本文僅利用行為與文本特征發現事件相關突發性,但對于行為、文本與事件關系的研究不夠充分,需要細化,例如事件與行為的關系,事件發生時的群體行為反應,行為與文本關聯策略的選擇等問題均值得進一步研究.

References

1 Zhao W X,Shu B H,Jiang J,Song Y,Yan H F,Li X M.Identifying event-related bursts via social media activities.In:Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Stroudsburg,PA,USA:ACL,2012.1466?1477

2 Kleinberg J.Bursty and hierarchical structure in streams.Data Mining and Knowledge Discovery,2003,7(4):373?397

3 Swan R,Allan J.Extracting signi ficant time varying features from text.In:Proceedings of the 8th International Conference on Information and Knowledge Management.New York,NY,USA:ACM,1999.38?45

4 Swan R,Allan J.Automatic generation of overview timelines.In:Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,NY,USA:ACM,2000.49?56

5 Mei Q Z,Zhai C X.Discovering evolutionary theme patterns from text:an exploration of temporal text mining.In:Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining.New York,NY,USA:ACM,2005.198?207

6 Marcus A,Bernstein M S,Badar O,Karger D R,Madden S,Miller R C.Twitinfo:aggregating and visualizing microblogs for event exploration.In:Proceedings of the 2011 SIGCHI Conference on Human Factors in Computing Systems.New York,NY,USA:ACM,2011.227?236

7 Takahashi T,Tomioka R,Yamanishi K.Discovering emerging topics in social streams via link-anomaly detection.IEEE Transactions on Knowledge and Data Engineering,2014,26(1):120?130

8 Zhang Lu-Min,Jia Yan,Zhou Bin,Zhao Jin-Hui,Hong Feng.Online bursty events detection based on emoticons.Chinese Journal of Computers,2013,36(8):1659?1667(張魯民,賈焰,周斌,趙金輝,洪鋒.一種基于情感符號的在線突發事件檢測方法.計算機學報,2013,36(8):1659?1667)

9 Chen F,Neill D B.Non-parametric scan statistics for event detection and forecasting in heterogeneous social media graphs.In:Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,NY,USA:ACM,2014.1166?1175

10 Zhang X M,Li Z J,Chao W H,Xia J L.Popularity prediction of burst event in microblogging.In:Proceedings of the 15th International Conference on Web-Age Information Management.Macau,China:Springer,2014.484?487

11 Aiello L M,Petkos G,Martin C,Corney D,Papadopoulos S,Skraba R,Goker A,Kompatsiaris I,Jaimes A.Sensing trending topics in twitter.IEEE Transactions on Multimedia,2013,15(6):1268?1282

12 Feng Chong,Shi Ge,Guo Yu-Hang,Gong Jing,Huang He-Yan.An entity linking method for microblog based on semantic categorization by word embeddings.Acta Automatica Sinica,2016,42(6):915?922(馮沖,石戈,郭宇航,龔靜,黃河燕.基于詞向量語義分類的微博實體鏈接方法.自動化學報,2016,42(6):915?922)

13 Fung G P C,Yu J X,Yu P S,Lu H J.Parameter free bursty events detection in text streams.In:Proceedings of the 31st International Conference on Very Large Data Bases.New York,NY,USA:ACM,2005.181?192

14 Urabe Y,Yamanishi K,Tomioka R,Iwai H.Real-time change-point detection using sequentially discounting normalized maximum likelihood coding.In:Proceedings of the 15th Paci fic-Asia Conference on Advances in Knowledge Discovery and Data Mining.Berlin,Heidelberg,Germany:Springer-Verlag,2011.185?197

15 Mathioudakis M,Koudas N.TwitterMonitor:trend detection over the twitter stream.In:Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data.New York,NY,USA:ACM,2010.1155?1158

16 Allan J,Carbonell J G,Doddington G,Yamron J,Yang Y M.Topic detection and tracking pilot study final report.In:Proceedings of the 1998 DARPA Broadcast News Transcription and Understanding Workshop.Lansdowne,Virginia,USA:DARPA,1998.194?218

17 Atefeh F,Khreich W.A survey of techniques for event detection in twitter.Computational Intelligence,2015,31(1):132?164

18 Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation.Journal of Machine Learning Research,2003,3:993?1022

19 Zhao W X,Chen R S,Fan K,Yan H F,Li X M.A novel burst-based text representation model for scalable event detection.In:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA,USA:ACL,2012,2:43?47

20 Zhao W X,Jiang J,Weng J S,He J,Lim E P,Yan H F,Li X M.Comparing twitter and traditional media using topic models.In:Proceedings of the 33rd European Conference on Advances in Information Retrieval.Berlin,Heidelberg,Germany:Springer-Verlag,2011.338?349

21 Diao Q M,Jiang J,Zhu F D,Lim E P.Finding bursty topics from microblogs.In:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA,USA:ACL,2012,1:536?544

22 Hong L J,Ahmed A,Gurumurthy S,Smola A J,Tsioutsiouliklis K.Discovering geographical topics in the twitter stream.In:Proceedings of the 21st International Conference on World Wide Web.New York,NY,USA:ACM,2012.769?778

23 Weng J S,Lee B S.Event detection in twitter.In:Proceedings of the 2011 International AAAI Conference on Web and Social Media.Palo Alto,CA,USA:AAAI,2011.401?408

24 Wang Z H,Shou L D,Chen K,Chen G,Mehrotra S.On summarization and timeline generation for evolutionary tweet streams.IEEE Transactions on Knowledge and Data Engineering,2015,27(5):1301?1315

25 Sakaki T,Okazaki M,Matsuo Y.Earthquake shakes twitter users:real-time event detection by social sensors.In:Proceedings of the 19th International Conference on World Wide Web.New York,NY,USA:ACM,2010.851?860

26 Becker H,Naaman M,Gravano L.Beyond trending topics:real-world event identi fication on twitter.In:Proceedings of the 2011 International AAAI Conference on Web and Social Media.Palo Alto,CA,USA:AAAI,2011.438?441

27 Fu Ju-Lei,Liu Wen-Li,Zheng Xiao-Long,Fan Ying,Wang Shou-Yang.Analyzing the characteristics of“east Turkistan”activities using text mining and network analysis.Acta Automatica Sinica,2014,40(11):2456?2468(付舉磊,劉文禮,鄭曉龍,樊瑛,汪壽陽.基于文本挖掘和網絡分析的“東突”活動主要特征研究.自動化學報,2014,40(11):2456?2468)

28 Hu Yan-Li,Bai Liang,Zhang Wei-Ming.Modeling and analyzing topic evolution.Acta Automatica Sinica,2012,38(10):1690?1697(胡艷麗,白亮,張維明.一種話題演化建模與分析方法.自動化學報,2012,38(10):1690?1697)

29 Thelwall M,Buckley K,Paltoglou G.Sentiment in twitter events.Journal of the American Society for Information Science and Technology,2011,62(2):406?418

30 Bollen J,Mao H N,Zeng X J.Twitter mood predicts the stock market.Journal of Computational Science,2011,2(1):1?8

31 Wu Xin-Dong,Li Yi,Li Lei.In fluence analysis of online social networks.Chinese Journal of Computers,2014,37(4):735?752(吳信東,李毅,李磊.在線社交網絡影響力分析.計算機學報,2014,37(4):735?752)

32 Perozzi B,Al-Rfou R,Skiena S.Deepwalk:online learning of social representations.In:Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,NY,USA:ACM,2014.701?710

33 Xin Yu,Yang Jing,Xie Zhi-Qiang.An overlapping semantic community structure detecting algorithm by label propagation.Acta Automatica Sinica,2014,40(10):2262?2275(辛宇,楊靜,謝志強.基于標簽傳播的語義重疊社區發現算法.自動化學報,2014,40(10):2262?2275)

34 Huang Li-Wei,Li Cai-Ping,Zhang Hai-Su,Liu Yu-Chao,Li De-Yi,Liu Yan-Bo.A semi-supervised community detection method based on factor graph model.Acta Automatica Sinica,2016,42(10):1520?1531(黃立威,李彩萍,張海粟,劉玉超,李德毅,劉艷博.一種基于因子圖模型的半監督社區發現方法.自動化學報,2016,42(10):1520?1531)

35 Tsur O,Rappoport A.What0s in a hashtag?:content based prediction of the spread of ideas in microblogging communities.In:Proceedings of the 5th ACM International Conference on Web Search and Data Mining.Seattle,Washington,USA:ACM,2012.643?652

猜你喜歡
特征文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲国产中文欧美在线人成大黄瓜| 亚洲乱码在线播放| 久久婷婷六月| 国产精品极品美女自在线看免费一区二区 | 四虎在线观看视频高清无码| 动漫精品啪啪一区二区三区| 人妻精品久久无码区| 美女一区二区在线观看| 午夜老司机永久免费看片| 成人av手机在线观看| 国产成+人+综合+亚洲欧美| 老熟妇喷水一区二区三区| 九九九精品视频| 国产精品一区在线观看你懂的| 伊人丁香五月天久久综合| 91国内外精品自在线播放| 日韩第一页在线| 精品一区国产精品| 97视频免费在线观看| 国产欧美日韩精品第二区| 中文成人无码国产亚洲| 亚洲精品动漫| 亚洲成人网在线观看| 国产精品手机在线观看你懂的| h视频在线播放| 很黄的网站在线观看| a毛片基地免费大全| 91年精品国产福利线观看久久| 97se亚洲| 国产主播在线一区| 久久精品视频亚洲| 欧美成人精品高清在线下载| 97狠狠操| 欧美成人午夜视频免看| 五月婷婷丁香综合| 欧美特黄一级大黄录像| 538精品在线观看| 国产精品999在线| 色欲色欲久久综合网| 在线观看国产网址你懂的| 素人激情视频福利| 国产人妖视频一区在线观看| 亚洲第一色视频| 在线观看无码av免费不卡网站 | 色综合天天综合中文网| 在线看免费无码av天堂的| 成人午夜视频在线| 久久国产精品影院| 久久精品国产一区二区小说| 日韩人妻少妇一区二区| 欧日韩在线不卡视频| 国产色伊人| 人妻21p大胆| 国产女人综合久久精品视| 直接黄91麻豆网站| 99这里只有精品在线| 国产JIZzJIzz视频全部免费| 亚洲最新网址| 亚洲天堂成人| 中文字幕首页系列人妻| 欧美一区二区丝袜高跟鞋| 日本欧美视频在线观看| 色综合中文字幕| 亚洲一区国色天香| 久久伊人久久亚洲综合| 亚洲性视频网站| 亚洲高清无在码在线无弹窗| 亚洲av综合网| 高清无码不卡视频| 中文字幕1区2区| 美女免费黄网站| 亚洲成av人无码综合在线观看| 精品国产免费观看一区| 视频一区视频二区日韩专区| 日本三级欧美三级| 国产综合精品一区二区| 欧美日本在线播放| 国产成人喷潮在线观看| 国国产a国产片免费麻豆| 夜夜高潮夜夜爽国产伦精品| 欧美日韩免费观看| 欧美精品成人|