付 琳,張 媛
(首都師范大學 管理學院,北京 100048)
文本數據事件檢測是信息抽取中被廣泛研究的一個問題,起源于1997年啟動的話題檢測與追蹤(TDT)研究。主要是從海量文本數據中自動提取事件或話題的信息,實現對未知事件或話題的發現。這些文本可以是傳統媒體的新聞報道,也可以是社交媒體上的帖子或推文。目前事件檢測在突發事件檢測、網絡輿情檢測、熱點話題發現等方面有較好的應用。例如,Johnson N F等人研究了與恐怖組織ISIS相關的個人或組織,分析他們在社交網絡中的行為與現實世界所發生的極端恐怖事件之間的聯系,幫助預測了現實世界中可能出現的恐怖襲擊事件[1]。事件檢測與話題檢測最主要的區別在于對事件和話題的定義。一般來說,事件是由特定原因、條件引起,發生在某些特殊時間、地點的重要事情。事件相對于話題來說更具有局限性,同一話題下可能涵蓋多個相似或相關事件。
隨著大數據和人工智能等技術的發展和突破,事件檢測中運用的方法更加豐富,效率和準確率都得到了顯著提升。在事件檢測領域已有的研究中,大部分是關于計算機科學和情報學領域的內容,盡管已有一些學者對事件檢測進行綜述研究,但大多只關注和分析了事件檢測在社交媒體中的應用,對國內事件檢測研究涉及的其他領域和方向分析較少。同時也缺少基于文獻計量分析的研究工作,基于文獻計量分析的研究能夠推進事件檢測領域的系統發展,幫助研究人員把握科研工作的方向。因此,該文從文獻的角度出發,借助CiteSpace軟件,采用文獻計量分析方法對事件檢測研究進行可視化分析,明確事件檢測領域的研究內容,梳理研究現狀,分析研究熱點與重點,探索研究演化趨勢和未來研究方向。并且這是首次使用知網數據庫對事件檢測進行文獻計量分析。
該文選擇中國知網(CNKI)數據庫作為數據收集平臺。采用主題檢索的方式對CNKI中信息科技類文獻進行檢索,檢索時間段為2003年1月1日至2021年11月10日,來源類別為期刊。以事件檢測為主要檢索詞,同時為了改善單一主題或關鍵詞檢索中查全率不高的問題,對主題詞進行拓展。話題檢測和事件檢測同屬于TDT技術,兩者的研究相互交叉,有很多重合部分。另外,對于“event detection”的中文翻譯不盡相同,存在事件檢測、事件發現、事件識別等結果,但其研究方法和方向都可以歸到事件檢測領域。因此,增加了話題檢測、事件探測、事件識別、事件發現、話題識別、話題發現六個同義詞語,作為主題和關鍵詞檢索的補充。通過檢索共獲得4 712篇期刊文獻,去掉非文本數據研究和相關性較小的文獻,最終篩選出440篇相關文獻作為研究對象。
文獻計量分析是一種定量分析方法,以文獻的各種外部特征作為研究對象,通過數學、統計學等計量方法來描述、評價和預測某個研究領域的現狀與發展趨勢,總結研究領域知識結構并探索研究前沿動態。
CiteSpace是由陳超美教授研發的一款信息可視化軟件,它主要基于共引分析理論和尋徑網絡算法,通過對特定領域文獻進行計量和可視化圖譜的繪制,來形成領域演化潛在動力機制的分析和領域發展前沿的探測[2]。
該文運用文獻計量法對發文量、核心期刊占比、基金資助、研究機構和發文期刊等外部特征進行量化分析,借助CiteSpace軟件對收集的相關文獻進行可視化分析。在研究熱點與研究重點的分析上,利用關鍵詞共現與關鍵詞聚類分析方法;在研究趨勢與研究方向的分析上,利用時間線視圖譜和關鍵詞突現分析方法。
發文量在一定程度上可以反映一個研究領域在學術界受關注的程度。2003-2021年,國內事件檢測研究領域的發文數量如圖1所示。

圖1 2003-2021年發文量統計
2003-2010年,國內事件檢測研究屬于起步階段,發文量較少,但呈上升趨勢。2011年發文量有了顯著上升,發文量是2009年的2.2倍。2011-2016年,國內事件檢測研究發文量逐年增長,2016年達到頂峰。這與國內互聯網普及、社交媒體開始流行有很大關系。社交媒體最大的特點就是能非常迅速即時地將信息傳遞給每一個用戶。隨著國內網民的增加,社交媒體中的數據開始爆發式增長。因此,學者們從基于新聞報道的長文本研究轉向了對微博等社交媒體中短文本數據的研究。隨著自然語言處理、機器學習等技術的不斷發展,越來越多的學者將前沿技術運用于事件檢測領域。2017-2021年,該領域發文量基本保持穩定,說明國內事件檢測研究正逐步趨于成熟。從核心期刊文獻占全部發文數量的百分比可以看出,2012年發文數量成一定規模以后,只有2018年略低于60%,其余年份核心期刊的發文占比一直在60%以上,表明該領域的研究質量整體較高,且研究比較深入。
文獻的基金資助情況能反映學術研究的科學性和重要性。在440篇相關文獻中,國家層面的基金支持有234篇,占53%,其中國家自然科學基金委員會資助的論文最多,達到182篇;地方層面基金支持和無基金資助的文獻有206篇,占47%。說明國家層面對事件檢測領域的關注度高,研究價值的認可度高,試圖通過資金支持、項目研發、人才培養等方式推進事件檢測領域的研究。
在CNKI中發表過事件檢測相關研究論文的機構共有281個,但各發文機構之間合作極少,都是獨立進行研究。國內的事件檢測領域研究還未形成一個整體,各研究機構應當充分交流、加強合作,共同推進事件檢測領域的創新發展。國內發文量最高的是中國科學院,共發表24篇,總被引量為748次。說明該研究機構較為關注事件檢測領域,并對該領域的研究做出了較大貢獻。武漢大學和四川大學緊隨其后,分別發表了14篇和13篇文獻,總被引量為134次和127次。除此以外,哈爾濱工業大學、蘇州大學、昆明理工大學、南京理工大學、北京信息科技大學也是該領域發文量較多的機構。
在刊載平臺方面,《中文信息學報》關于事件檢測研究的刊文量最多,達到24篇。其次是《計算機應用研究》和《計算機工程》,共21篇和19篇。《計算機應用》《計算機工程與應用》《計算機科學》《計算機應用與軟件》《情報雜志》等期刊也是事件檢測研究的重要刊載平臺。由此可知,在信息技術分類中,比較關注事件檢測研究的是計算機軟件與應用領域。
對相關文獻進行整理,列出高被引文獻及作者,見表1。其中被引次數最高的兩篇都是綜述類文獻。洪宇的《話題檢測與跟蹤的評測及研究綜述》從2007年發表至今總共被引487次,平均每年被引35次。洪宇在文中對話題檢測與追蹤(TDT)技術進行了系統闡述,這篇綜述文獻在國內事件檢測領域具有重要意義。

表1 高被引文獻及作者
文章介紹了TDT任務與評測的相關知識,包括相關定義、使用語料、評價體系以及層次結構,并重點論述和分析了國內外在該領域的相關研究及其相互關系[3]。另一篇高引綜述文獻是李保利的《話題識別與跟蹤研究》,這是知網中最早介紹TDT的文獻。李保利梳理了TDT的研究歷史,并詳細介紹了TDT的5個子任務:對新聞報道的切片,新事件的識別,報道關系識別,話題識別,話題跟蹤[4]。
早期事件檢測的研究還是以新聞語料為主,研究者們在信息檢索技術的基礎上,不斷嘗試新的方法改進算法模型,以提高新聞事件檢測的效率。例如,基于時間距離的相似度計算模型[5]、多策略優化的分治多層聚類算法模型[6]、四向量相似度計算模型[7]。
2012年,微博的迅猛發展帶來了另一種社會化的新聞媒體形式。學術界將視角聚焦于社交媒體中的短文本,對短文本的研究很快成為了主流。所以,另外幾篇高引文獻均是從短文本數據中進行事件檢測。鄭斐然等人通過分析微博用戶的習慣和數據特征,提出了一套完整的微博數據處理方法和新聞話題的檢測算法。在向量空間模型的基礎上,從文檔主題詞的時域分布中,篩選出信息量最大的新聞主題詞,并進行聚類[8]。路榮等人通過充分挖掘隱主題來克服短文本數據稀疏性對文本相似度度量的影響,并使用一種兩層的K均值和層次聚類的混合聚類方法來彌補層次聚類時間慢和K均值聚類無法事先指定中心個數的缺點[9]。馬雯雯等人對前者的方法進行了優化,在混合聚類的基礎上,引入隱含語義分析的方法對中文微博數據建模,解決了傳統向量空間模型中高維和同義、多義的問題[10]。
顯然并不是所有的微博都是描述新聞事件的,很多微博只是描述用戶的心情、狀態、工作情況等。有研究表明,當微博中情感詞數量增多,并導致相鄰時段中情感分布存在差異,這往往意味著熱點事件的出現[11]。楊亮等人在此基礎上提出了情感分布語言模型ELM,用于發現微博平臺中的熱點事件[12]。
關鍵詞可以揭示文章的主要內容和核心,對事件檢測領域相關文獻進行關鍵詞共現分析可以更好地了解該領域的研究熱點。為了使可視化效果更好,對同義或近似義節點進行合并。最終得到事件檢測研究相關文獻的關鍵詞共現圖譜,如圖2所示。共包含348個關鍵詞,602條連接,密度為0.01,其中節點越大表明關鍵詞出現頻率越高,連線越多表明兩個關鍵詞共現次數越多,連線越粗表明聯系程度越強[13]。

圖2 關鍵詞共現圖譜
為了更全面地了解事件檢測的研究熱點,該文通過統計和排序將共現頻次前6的關鍵詞及其信息繪制成表格,如表2所示。可以發現,最大的三個節點分別是話題檢測(141次)、微博(91次)和事件檢測(52次)。其中“話題檢測”和“事件檢測”出現時間較早,是該領域的基礎概念。“微博”于2012年出現,出現時間較晚,但共現頻次很高,說明“微博”一出現就成為研究者們的關注焦點,且很快成為了該領域的研究熱點。除此以外,“聚類”“熱點話題”“突發事件”的中介中心性較高,因此可以初步判斷它們也是事件檢測領域的研究熱點。

表2 關鍵詞頻次和中介中心性
關鍵詞是論文中出現頻率最高、同時也是最核心的詞匯,對文獻進行關鍵詞聚類分析可以從側面反映出該領域各階段研究的重點[14]。模塊值(Q值)和平均輪廓值(S值)兩個指標可以作為判斷知識圖譜繪制效果的依據。一般而言,Q>0.3就意味著繪制的網絡結構是顯著的,越接近1則可認定該網絡圖譜所獲得的聚類效果就越優秀。當S值>0.7時,認為聚類是令人信服的,若在0.5以上,一般認為聚類是合理的。
事件檢測關鍵詞聚類圖譜如圖3所示。聚類模塊值Q為0.643 1>0.3,聚類平均輪廓值S為0.886 7>0.7,說明聚類效果顯著,且令人信服,具有較高的研究價值。共得到7個主要聚類,即話題檢測(#0)、事件檢測(#1)、突發事件(#2)、命名實體(#3)、網絡輿情(#4)、主題發現(#5)、社交媒體(#6)。通過對聚類進行比較分析,將7個聚類分成3組。

圖3 關鍵詞共現圖譜
(1)事件檢測技術研究(#0、#1、#3、#5)。
從圖2和圖3可以看出,學者們較為關注對事件檢測技術的研究。事件檢測工作主要分為兩部分:文本預處理和事件檢測,它們分別對應不同的技術。在文本預處理階段使用的技術大體可以分為三類:命名實體、特征提取或兩者結合。
命名實體是自然語言處理中一項基礎性關鍵任務,其主要任務是識別出文本中的人名、地名等專有名稱和有意義的時間、日期等數量短語并加以歸類。張闊等人利用統計方法優化不同類別新聞對于不同詞性詞元的權重,再根據已處理的新聞及話題信息動態調整詞元權重,實驗結果表明,其性能與同類事件檢測模型相比有顯著提升[15]。
特征提取是將原始數據的維度減少或將原始的特征進行重新組合,從而提高文本分類的準確性和效率。商憲麗等人就對傳統文本特征提取進行改進,引入時間因素構建動態共詞網絡,利用網絡統計特征動態提取微博文本特征,在實驗中取得了較優的微博話題識別效果[16]。也有一些學者將兩者方法結合使用。例如,劉素芹等人將新聞文檔表示成基于命名實體及特征詞的雙特征向量,很好地解決了海量網絡數據環境下相似話題難以區分的問題[17]。
在事件檢測階段,研究者們運用的方法主要是統計模型中的聚類分析。自90年代以來,統計模型一直是信息抽取的主流方法[18]。有非常多的統計方法被用來抽取文本中的目標信息,其中聚類分析被廣泛應用于事件檢測領域。聚類技術通常又被稱為無監督學習。聚類可以根據給定的標準將數據集分割成不同的類簇,使得同一個類簇內的數據高度相似,從而實現對目標事件的檢測。常用的聚類算法有基于劃分的聚類算法、基于層次的聚類算法以及基于模型的聚類算法。隨著不斷的實踐,為了得到更好的聚類結果,學者們對各種聚類算法都進行了改進。
基于劃分的聚類算法是聚類算法中最簡單的一種。該種聚類要達到的要求是使類簇內部有較高的相似度,而類簇之間的相似度盡可能低。K-means算法、Single-Pass增量算法、圍繞中心劃分(PAM)算法等都得到了廣泛的應用。張先飛等人利用觸發詞來確定K-means聚類初始質心, 同時結合自相似度策略來確定K值, 以解決聚類算法中K值及初始質心選取的問題[19]。稅儀冬等人為解決增量式聚類初始模型不準確的問題,在Single-Pass聚類基礎上添加了周期分類模塊。該模塊能夠定期對已經聚類的報道分類,有效提高了話題簇的精度[20]。殷風景等人提出了ICIT聚類算法,繼承single-pass算法的原理,通過引入正文和標題雙向量的機制提高聚類結果的精確度[21]。
基于層次的聚類算法又稱為樹聚類算法。與K-means算法不同,層次聚類算法不需要預先設定聚類數,只要樣本集合通過不斷迭代達到聚類條件或者迭代次數即可。龍志祎等人先計算特征詞對間基于互信息的相似度,之后采用自底向上的層次聚合聚類算法對特征向量進行聚類[22]。楊長春等人提出了一種改進的CURE層次聚類算法。將傳統CURE算法中的代表點轉換為博文種子集,提高了聚類的精確度[23]。
基于模型的聚類算法是假設每個類簇為一個模型,然后尋找與該模型擬合最好的數據,通常有基于概率和基于神經網絡兩種方法。前者最常用的方法是基于主題模型的聚類。主題模型假定數據的分布是符合一系列的概率分布,用概率分布模型對數據進行聚類,而不是像層次聚類和劃分聚類那樣基于距離來進行聚類。主題模型的方法一直備受青睞,學者們通過優化主題模型來改進和完善事件檢測的效果和效率。姜曉偉等人提出詞項聚合LDA(term-aggregated LDA,tLDA)策略來解決傳統LDA無法從短文本中獲得足夠信息的缺陷[24]。郭藍天等人引入基于CBOW(continuous bag-of-word)模型的詞向量化方法,通過對LDA模型的輸入進行相似詞的聚類,使話題含義的表達更加明確[25]。為了提高檢測的速度,聶文匯等人提出一種基于熱度矩陣的主題模型,以詞間的共有熱度來挖掘各潛在主題間的語義關系。實驗顯示,在微博數據量達到60萬條時,該方法依然可以在1 min內挖掘出潛在的熱點話題[26]。
隨著機器學習的發展,深度學習也逐漸成為事件檢測的研究熱點。相比于傳統的主題模型方法,引入深度學習的模型無需人工定義的特征模板,能夠自動地學習文本數據中的有效特征。因此,在標注語料充分的情況下,深度學習模型往往能夠取得比傳統方法更好的性能[27]。侯偉濤等人使用雙向LSTM神經網絡學習文本的隱藏特征,解決了傳統方法通用性不強以及無法捕捉前后文隱含信息的缺點[28]。張秀華等人提出卷積神經網絡構建中文新聞事件檢測模型的方法,通過深度學習抽取文本深層特征[29]。馬晨曦等人提出了可以避免誤差傳播的遞歸神經網絡的事件檢測聯合模型,該模型不依賴于觸發詞表的構造和擴展,并且有很好的移植性[30]。
(2)社交媒體事件檢測研究(#6)。
隨著互聯網的普及與高速發展,社交媒體已經成為人們分享觀點、抒發情感、交流經驗的主要渠道。現階段的社交媒體包括微博、微信、博客、論壇、播客等。為了從社交媒體數據中獲取有效信息,克服數據量大、結構復雜、傳播速度快等問題,研究者們不斷嘗試各種方法來優化事件檢測的效果。陳友認為網絡論壇下的突發話題發現面臨的關鍵問題是噪音,因此他提出利用詞以及用戶參與度的突發特性來過濾噪音[31]。趙文清等人針對微博數據稀疏性、實時性、不規范性的特點,提出根據主題詞間的共現度構建詞共現圖的方法[32]。周剛等人注意到微博平臺具備一些傳統媒體不具有的特性,如關注行為、轉發評論行為。他利用這些結構化信息輔助判斷,以提高話題檢測的性能[33]。申國偉等人針對微博消息流高度動態變化的特點,提出動態窗口選擇算法。設置微博窗口調整系數α和滑動窗口調整系數β,在消息流較大時,提高參數α、β的值,即增大兩個窗口的時間片,能夠提高檢測粒度,在消息流大小確定時,調整參數α能夠降低隨機噪聲對算法的影響。實驗表明,在大規模微博消息流中,該算法能夠幫助模型更早地檢測到突發話題[34]。
還有一些學者關注網絡問答平臺的研究。黃魯成等人結合網絡問答社區的特點,采用候選關鍵詞與組合詞結合進行二次篩選的辦法,降低了模糊處理與分詞結果不準確帶來的誤差[35]。
近年來也有很多學者使用深度學習技術來解決社交媒體事件檢測中的問題。石磊等人利用循環神經網絡來學習詞之間的關系,并作為主題模型的先驗知識,使主題更加聚焦,解決了短文本稀疏性問題[36]。熊宇等人則提出一種多模態特征深度融合模型來學習事件的多模態特征表達。分別利用深層和淺層的卷積神經網絡來提取圖片的語義特征和學習短文本的語義信息,從而生成魯棒性更好的多模態融合特征[37]。
(3)事件檢測在突發事件中的應用(#2、#4)。
在海量數據流中檢測突發事件是事件檢測的研究熱點之一。國內《突發事件應對法》中對突發事件做出了相關定義:“突發事件是指突然發生,造成或者可能造成嚴重社會危害,需要采取應急處置措施予以應對的自然災害、事故災難、公共衛生事件和社會安全事件。”突發事件的出現會給人們的日常生活、人身安全、財產安全帶來巨大影響。因此,對突發事件的檢測顯得尤為重要。突發事件檢測中面臨的一個重要問題就是如何準確地識別突發事件。林達真等人通過考慮事件在時間分布特征上的差異來判斷該事件在時間特征上是否具有突發性和關聯性,從而有效去除虛假突發事件的檢測[38]。王勇等人提出一種基于“絕對聚類”的微博突發詞文本聚類算法(ACFD算法)。其思想是如果某一個對象屬于既有的一個類,那么它應該和這個類中的每一個對象都相似,即“絕對”屬于這個類,否則不屬于這個類。并對聚類結果進行熱度加權計算,返回各類簇中熱度最大的微博作為突發事件的檢測結果[39]。
實際情況中,突發事件是經常帶有地域屬性的,仲兆滿等人針對地域性突發事件的檢測,提出了地域Top-k突發事件檢測的系統框架,將地域信息作為突發詞提取的指標和熱度計算指標之一[40]。李綱等人則關注突發事件的演化規律,結合地理標簽和個人信息描述對受災地區用戶和非受災地區用戶進行自動劃分,比較兩類用戶在宏觀層面和微觀層面的熱點話題演化規律。可以幫助災害管理部門更高效地從社交媒體數據中識別受災人群及其需求,從而及時采取響應措施[41]。
突發事件總會帶來大量的網絡輿情,對于網絡輿情的識別也是事件檢測的研究熱點之一。網絡輿情具有自由性、交互性、多元性、突發性、群體極化性等特點,能夠影響民眾的情感和判斷,能推動和改變事件的發展和走向,容易被不懷好意的群體利用,已經成為影響社會穩定的重要因素。因此,及時檢測、控制并引導輿情的發展具有十分重要的意義。丁杰等人設計了一個網絡輿情監控系統IPSMS,應用了網頁清洗及k-d tree分類方法,將網絡新聞及論壇、BBS上的帖子依關鍵詞搜索,并依“事件”聚類,讓管理者通過閱讀事件可以了解正在發生或已經發生的事件[42]。李磊等人關注網絡輿情的態勢演化,他在對主題詞頻數進行加權的基礎上,計算詞對的最大信息系數(MIC)。基于MIC計算的主題詞集合的密度和中心度充分揭示了話題內容的演化趨勢[43]。王曰芬等人以新聞媒體報道來表達社會現實事件、以公眾評論來表達輿情事件,通過話題識別與主題關聯分析,探究同一事件新聞報道與輿情評論之間的共振與偏離[44]。馮科等人將網絡輿情事件發現與分類的復雜問題,分解到三個模型中:基于深度學習的事件句檢測模型ESDM、事件類型判別模型ETDM和網絡輿情事件專家知識模式庫EKB。三個模型組成的聯合模型有效降低了網絡輿情重大事件檢測的漏判和誤判[45]。
時間線圖譜可以了解聚類之間的關系以及某個聚類中文獻的歷史演進趨勢[46]。因此,根據時間線的變化可以更清晰地了解事件檢測領域的發展變化,時間線圖譜如圖4所示。突現關鍵詞表示在一段時期內該研究主題受到了高度關注,近年關鍵詞突現信息如表3所示。

表3 關鍵詞突現信息
一個研究領域,一般先經過最初的概念形成階段,然后隨著研究工具的大量出現,研究的能力和范圍開始增強,此后進入擴散階段,研究者將這些方法應用到原本的研究問題之外的領域,最后進入衰減階段[47]。基于該理論可以看出:2003-2009年是事件檢測領域的概念形成階段。這一階段較大的節點是“話題檢測”

圖4 時間線圖譜
“事件檢測”和“聚類”。國內的研究剛剛起步,許多方面還不能滿足實際應用的需要。所以學者們更多的是對概念的研究,使用的方法也多局限于聚類和信息檢索,例如命名實體、增量聚類、層次聚類和文本挖掘。這一階段的研究熱點是從新聞長文本中檢測事件,所以主要的研究對象是新聞專題、新聞事件、新聞報道和新聞組織等。在這一時間段內的凸顯關鍵詞是“融合特征”和“命名實體”。
2010-2021年是事件檢測領域的工具開發階段。為克服傳統方法的各種缺陷,研究者們不斷對檢測技術進行改進和完善。這一階段最大的變化就是微博等社交媒體的流行,徹底改變了事件檢測研究的數據類型。研究主題與上一階段相比成倍增長,“網絡輿情”“主題模型”“神經網絡”“bert模型”等內容獲得了研究者的大量關注。研究方法更是多種多樣,自然語言處理、文本挖掘、主題模型、多模態、深度學習等技術都被應用在該領域。同時,也出現了領域擴散的現象,研究方向不再局限于對技術的探索,已有部分學者將事件檢測應用于輿情管理、應急管理、信息安全、食品安全、廣播電視、城市治理等領域。
“突發事件”“社交媒體”和“深度學習”是近三年值得關注的突現詞。近年來國內處于突發事件高發階段,新冠疫情、電動車電池爆炸、城市洪水等突發性災害事件引起人們的廣泛關注。越來越多的研究者和應急管理人員意識到事件檢測在應對突發事件中的重要性。而應急管理需要即時訪問各種數據源,了解災難發生期間現場的情況以及各種信息。社交媒體就是當前最重要的信息發布和傳播渠道之一。人們能夠通過社交媒體主動或被動分享有價值的事件信息,并傳遞給應急管理人員、決策者或能夠提供幫助的人。因此,如何更有效地利用社交媒體中的信息是當前研究者和管理者都在不斷探索的問題。深度學習已經成為機器學習的研究熱點,它被廣泛運用于自然語言處理、圖像識別、物體檢測等領域,使人工智能等相關技術取得了很大的進步。深度學習不需要人工提取特征,大幅提高了事件檢測的效率,同時它能更好地挖掘文本的隱藏特征,使事件檢測的結果更加準確。因此,繼續探究基于機器學習的事件檢測方法將是未來該領域一個重要的研究方向。除此以外,這一階段的發文量有顯著增長,研究角度也更加深入和細化,如子事件檢測、事件演化和事件脈絡挖掘等方面的研究。
運用文獻計量的方法和知識可視化軟件CiteSpace對事件檢測研究成果進行梳理和分析,得出以下結論:
(1)事件檢測領域發文量已經趨于穩定,核心期刊占比整體上呈上升趨勢,說明對事件檢測研究的質量和深度都在提高。中國科學院發文數量最多,但與其他機構的交流合作需要進一步提升,同時其他研究機構之間的合作也較少,從長遠來看不利于事件檢測領域的發展。各機構之間,尤其是不同學科之間應該加強合作,呈現多樣化和交叉性發展態勢,有利于事件檢測研究的跨學科創新發展。
(2)梳理了研究者在事件檢測中應用的方法和技術。雖然方法多種多樣,但是很多研究者使用的實驗數據是英文語料或Twitter等國外平臺的數據。面對結構和語義都頗為復雜的中文文本,研究者們還需要繼續深化中文數據的處理能力,提出更加高效、精準的檢測方法。
(3)在研究熱點和研究重點方面,事件檢測的研究熱點集中在突發事件與熱點話題的文本事件檢測應用研究、基于微博數據的事件檢測案例研究、以聚類為主要方法的事件檢測方法研究這三個方面。當前研究重點是事件檢測技術,社交媒體事件檢測和事件檢測在突發事件中的應用。
演化趨勢分為兩個階段,2003-2009年是事件檢測領域的概念形成階段,2010-2021年是事件檢測領域的工具開發階段。同時出現了領域擴散的現象,研究者將事件檢測應用到其他領域,如輿情管理、應急管理、信息安全、食品安全、廣播電視、城市治理等。
未來的研究方向包括社交媒體、突發事件、深度學習和突發話題。基于社交媒體的突發事件檢測是事件檢測領域一個主要的研究方向,如何準確、實時地檢測突發事件并對事件的發展進行追蹤,是研究者們當前以及未來一段時間關注的焦點。同時可以預見,深度學習將成為未來事件檢測的研究重點,將深度學習與自然語言處理結合,可以顯著提高事件檢測的效率和效果,使事件檢測在各個領域的應用具有更好的表現。