周奇,印鑒,張良均
(1.廣東開放大學信息與工程學院,廣州 510630;2.中山大學數據科學與計算機學院,廣州 510630;3.廣州泰迪智能科技有限公司,廣州 510630)
本平臺主要由兩個模塊組成:①通用模塊;②業務主題模塊。通用模塊部分主要提供輿情分析全流程(包括數據采集與監控、數據解析、數據預處理、挖掘建模、結果展示等)功能點主鍵,用于支持后臺業務功能實現及前臺自定義實現;業務主題模塊主要基于輿情資訊展開的一系列的數據采集監控和分析挖掘任務。
本模塊主要嵌入泰迪科技自主研發的輿情分析工具,可提供包括網頁數據爬取與監控、網頁數據解析、文本數據預處理、文本分析與挖掘等自然語言處理功能。基于本模塊,一方面,前臺用戶可在沒有編程基礎的情況下,通過拖拽的方式進行操作,以流程化的方式進行功能主鍵連接,達到自定義并實現文本挖掘需求目的,另一方面,上述功能主鍵支持后期后臺業務功能開發,節約時間與成本。本模塊的功能具體如表1所示。

表1 文本采集與分析挖掘通用模塊功能
本文主要對自動摘要技術、事件識別技術、事件脈絡梳理和情感分析技術關鍵技術進行分析研究
自動摘要技術指計算機自動從原始文本中提取簡單連貫的短文,以反映中心內容。根據建設要求,對媒體報道文本采用該技術,生成反映報道目的的文檔摘要,一方面可用于媒體新聞事件識別,即通過聚類技術結合報道摘要和報道的基本信息等,將同一事件的媒體報道進行歸并;另一方面有助于新聞事件的脈絡梳理,充分掌握事件的事態發展過程。
通常認為一篇文檔是由多個主題組織而成,因此,自動摘要技術采用聚類的方法,將同一主題下的句子進行聚集,進而選取每個主題的中心語句,組合生成適當的摘要。由此,媒體報道文本摘要的提煉主要有如圖1 中的三個過程。

圖1 文本自動摘要生成流程圖
對于每一個媒體報道文檔,首先利用文本處理方法進行句子拆分,而后基于中文分詞技術實現對句子的切分,并且標注切分后詞匯的對應詞性(如動詞、形容詞、時間詞、地名等)。根據詞性進行命名實體識別,即識別句子中特定意義的實體(如人名、地名、時間、專有名詞等),以便篩選出句子的主體信息。
一般而言,對于特定場景、行業、領域的文本,基于語料庫的分詞方法相對基于序列標注的分詞方法具有更強的可伸縮性和準確性,但前提是要求語料庫完整和齊全。由于媒體報道文本數據涉及各行業,語料庫需有較好的完備性及適應性,所以對報道語料庫的整理尤為重要。針對報道數據,初步整理出按行業分類詞庫共18 個詞集、按情感極性劃分共7 個詞集,以及公開詞庫(如現代漢語詞典庫)等,如表2 所示。
以上述進行預處理后的句子為粒度,運用基于語義的主題模型(如LDA),生成該篇報道文檔的若干主題;考慮句子在媒體報道文檔中的位置、包含關鍵詞數等因素,計算每個主題中各句子的重要性得分,以此選取各主題中心語句。以某報道內容為例,經過中心語句選取后的結果如圖2 所示。

表2 詞庫匯總

圖2
報道內容以句子為粒度選取中心語句后,對于一個完整事件的敘述往往涵蓋了時間、地點、人物、起因、經過、結果等信息。將各主題中心語句按時間、原文檔出現順序等因素,進行組合則生成連貫簡潔的媒體報道摘要。如上述某報道中心語句選取后,最終生成的摘要如圖3 所示。

圖3
不同的國家和媒體機構可以針對相同的事件進行報道,即同一件事情可能存在重復報道,因此,如何判別一份新的報道文檔是否為新的報道事件或與歷史報道劃分為同一媒體事件是進一步實現關聯分析、情感分析及趨勢預測的關鍵。一個最簡單且傳統的原理是通過文本的相似度進行判別。
文本的相似度計算常用的算法是基于空間向量模型(VSM)和余弦距離展開的,它把對文本內容的處理簡化為向量空間中的向量運算,并且它以空間上的相似度表達語義的相似度,直觀易懂,已廣泛應用于短文本相似度計算及檢索。但實際上,一個網絡媒體報道數據往往是一個長文本,存在許多描述事件外的冗余信息,影響基于TF-IDF 的空間向量模型的性能。考慮到這一因素,前文針對媒體報道文本進行自動摘要提取,整合出媒體所描述事件的關鍵信息,將長文本濃縮為短文本,提高事件識別的效率及精度。
媒體事件的識別包括了兩個部分:歷史報道同一事件劃分歸類和新數據流的新舊事件檢測,然而前者可以歸為后者的特殊情況。媒體事件檢測是對到達報道數據流判別是否屬于已知媒體事件,并對已知媒體事件進行延續和擴展,其基本實現過程如圖4 所示。

圖4 事件識別基本流程
(1)通過分句、分詞、主題提取等過程實現對歷史報道記錄及新報道記錄的自動摘要提取,并保存分詞結果;
(2)從分詞結果中提取出摘要語句的對應部分,用于進一步構建空間向量模型。
(3)去除分詞結果中的停用詞,并將剩余詞匯或短語作為空間模型的特征向量。
由于摘要濃縮的是報道事件的主要內容,該過程不必如其他空間向量模型一般通過卡方檢測、信息增益等方法來實現文本特征的選擇。
(4)計算特征的TF-IDF 值進行標準化后作為各向量權重,構建成空間向量模型。
TF:Term Frequency 即關鍵詞詞頻,是指一篇文章中關鍵詞出現的頻率,例如在一篇M 個詞的文章中有N 個該關鍵詞,則 TF=N∕M
IDF:Inverse Document Frequency 指逆向文本頻率,是用于衡量關鍵詞權重的指數,由公式計算而得,其中D 為文章總數,Dw 為關鍵詞出現過的文章數。
(5)基于余弦距離計算新文檔與任一舊文檔間的相似度。
(6)采用比較法進行結果判別:如果相似度值未超過預設閾值,則新報道數據獨立成為新事件;若相似度超過某一閾值,則將報道事件歸屬于與其相似度最高的事件作為屬于同一事件類,實現對事件的歸類于識別。

圖5 媒體事件識別示例
基于以上的事件檢測工作方法,我們就可以實現對報道進行實時事件更新,掌握媒體事件的最新動向。但實際上,上述相似度計算過程依據的是詞頻信息,兩個文檔的相似度取決于共同詞匯的數量,無法分辨自然語言的語義模糊性,詞語間的關聯性,后續需結合同義詞、潛在語意分析模型LAS、主題模型LDA 等算法進一步完善事件過程。
用戶想要了解一個熱點事件,需要瀏覽大量關于該媒體事件的報道,反復閱讀,費時費力。而“事件脈絡”技術可以抽取事件生命周期中各個重要發展階段的基本要素,并以時間為主線進行展現。可以提高用戶獲取信息的效率,幫助用戶輕松了解整個事件的發展過程,并引導用戶進行深度閱讀。
事件脈絡梳理的目標是:給出一個重要新聞的列表,這些重要新聞涵蓋了該新聞事件的各個重要階段的重要信息。
從事態發展來看,當事件有重要進展的階段時,就會有一些高質量的報道,而且報道也越多越集中。從這一角度出發使用基于時間片聚類的方法挖掘事件的主要階段。當然媒體事件的報道質量越好,覆蓋的時間窗口越長,對于挖掘脈絡也越有利。基于時間片聚類的事件脈絡挖掘流程如圖6 所示。

圖6 基于時間片聚類的事件脈絡梳理流程
經過事件識別后,數據庫中存儲管理的數據已經可以直接使用于事件脈絡梳理挖掘,只需以檢索的方式抽取需要挖掘的事件報道。
媒體事件報道具有時效性,通常而言,較權威的媒體網站對事件報道更具時效性,而一般性的小的媒體網站則會有一定的時間滯后性。例如同樣內容的媒體報道,新華網在事件當天23:10 就發布了,而一些小的網站很可能需要等到第二天10:00 才發布。這樣就會導致描述相同且屬于同一事件階段的報道,被劃分到不同的階段中去,從而影響到時間片聚類的階段劃分效果。
對于上述噪聲報道,依然可以以文本相似度的度量方法進行去重。如果兩篇媒體報道屬于對同一新聞信息點的報道或者是轉載與被轉載的關系,那么這兩篇文檔的相似度都會很高。因而,針對分析的媒體事件所對應的報道集,計算其兩兩文檔之間的相似度,如果兩文檔相似度很高,就進行歸并,并以最早的那篇報道文檔作為代表,參加時間片聚類。
對于每一個媒體報道,抽取其發布時間,然后按照報道的發布時間,把一個媒體事件集合內的報道進行排列。把報道按照發布時間投影到時間軸上,如果事件有明顯的發展階段,根據前面的設想,就能在時間軸上看到一些新聞比較密集的區域,這些區域就是我們要獲取的事件的各個階段。
至于計算獲取密集時間片段的方法有若干,常見的聚類算法,如K-means、K-mediods,但是這類聚類算法需要事先確定事件發展階段數,而我們也確實很難提前確定這個結果。因此,這里選擇了凝聚層次聚類算法,具體做法是:先把每一篇報道看成一個時間片段(點),然后每次合并距離最近的兩個片段,直到任意兩個片段之間的距離都大于預先設定的閾值。
通過時間片聚類的辦法,獲取到了事件的若干個進展以后,則要從每個進展的報道集合中,抽取出一篇代表報道,在以該報到的摘要對內容進行概述。
對于如何提取事件階段的代表性報道,一般都會考慮如下因素:報道來源的網站是否權威,該報道的發布時間(在同一個片段內而言),該報道是否有更多的轉載等等。
經過上述步驟的處理,即可得到事件各個階段核心報道的摘要列表,進一步提取核心報道的發布時間,按照時間的先后順序排序,就是可以獲得該媒體事件的主要脈絡。本方法的關鍵技術在于時間片段聚類,對于報道之間的時間距離度量非常重要,常規的“自然時間距離”往往忽略了新聞報道在一天24 小時中各個小時報道數量的差異。因此,在實踐中對于“新聞時間距離”的度量可以結合不同時間段報道頻數給出綜合評定。
網民情感分析主要基于前文劃分好的媒體事件,通過了解網民語句及用詞中表達的情緒,以此反映網民對媒體事件和國家政策的正面或負面看法。
情感傾向分析由兩個方面來衡量:一個情感傾向方向,一個是情感傾向度。
情感傾向方向也稱為情感極性,可以理解為網民對當前媒體事件表達自身觀點所持的態度是正面(positive)、負面(negative)、中性(neutral)。例如“贊美”與“支持”同為褒義詞,表達正面情感,而“反對”與“譴責”就是貶義詞,表達負面情感。此外,正面情感詞還會受到情感修飾性詞的影響而改變情感傾向方向,如:“班農叫囂搞砸‘一帶一路’顯然是不理性的行為”中“理性”原為正面情感詞,在“不”的修飾下表達了負面情緒。
情感傾向度是指網民對媒體事件表達正面情感或負面情感時的強弱程度,不同程度的情感狀態往往是通過不同的情感詞或修飾性詞等來體現。例如:“擁護”與“支持”都是表達正面情感,同為褒義詞。但是“擁護”遠比“支持”在情感表達程度上要強烈。同樣的,“譴責”在“強烈”的修飾下情感強度又會進一步增強。
通常在情感傾向分析研究中,為了判定網民情感狀態,首先需要界定情感詞極性(正面、負面、中性),其次根據修飾詞等對每個情感賦予不同的權值來表達情感傾向度。例如,某媒體報道中提到:“一帶一路”對于對外貿易的長遠發展是極其有利的,“有利”表達了正面情感,而“極其”一詞強調了正面情感的高傾向度。
針對報道數據,可進行網民情感觀點挖掘或情感傾向分析,簡要過程如圖7 所示。

圖7 情感得分獲取基本流程
此部分文本分詞處理的關鍵要點在于有足夠完善的分詞情感詞庫,包括有情感詞庫、情感否定修飾詞庫、情感程度修飾詞庫。
情感詞庫:自定義詞庫,確定情感傾向方向,有表達正面情感的詞典、表達負面情感的詞典;進行正面、逆面情感詞典的合并。
情感否定修飾詞庫:自定義常用否定詞庫(不、沒、無、非、莫、弗、毋、勿、未、否、別、無、休),其作用在于最終確定情感傾向方向。
情感程度修飾詞庫:自定義情感程度修飾性詞,并把程度副詞劃分六個等級,用于區分情感增強程度的差異。等級越高情感增強程度越大,如表3 所示。

表3 程度副詞等級表
情感定位基于分詞結果進行組合判斷,第一步,需對網民的情感傾向方向做出準確定位。首先要進行情感詞判定,再檢索其是否受否定限定詞修飾,方可最終準確定位。
確定網民情感傾向度,這一步主要依賴情感程度修飾詞的度量,詳細過程如下:
第一步:網民情感傾向方向定位
情感詞初步定位:將分詞結果與情感詞庫進行匹配,匹配到正面情感詞時,將其情感賦值為一個正值;匹配到負面情感詞時,將其情感值賦值為一個負值;沒有匹配到情感值時,定位成中性,情感值為0。
否定修飾詞最終評定情感傾向方向:漢語中存在多重否定現象,即當否定詞出現奇數次時,表示否定意思;當否定詞出現偶數次時,表示肯定意思。按照漢語習慣,若每個情感詞前出現奇數個否定詞,則調整為相反的情感傾向方向,其情感值極性對調,即正值調整為負值,負值調整為正值。
第二步:網民情感傾向度度量
經過第一步的處理后,網民的情感傾向方向已經確定,當情感處于正面或者負面時,不同的網民可能存在情緒強弱的差異,即情感傾向度差異。而影響人情感傾向度的重要因素來源于其情感詞前的程度修飾副詞。搜索情感詞前是否出現程度副詞,若出現程度副詞則對情感值根據對應程度副詞的等級(等級之間的粒度或者距離可以視具體情況做調整)進行調整情感強度,情感得分計算示例如圖8 所示。

圖8 情感得分計算示例
經過上述流程即可獲取各網民情感得分情況。依據情感得分結果則可以對網民的總體情感進行分類,情感值為0 時,表示該類網民為情感中立人群;情感值為正時,該類網民為正面積極人群;情感值為負時,該網民為消極人群。針對消極人群可以進行深入剖析,分析網民消極反對的正真原因,有利于理解事件和政策背后更真實的受益或受損群體。
關鍵字自動提取。基于文本挖掘算法,實現對文章關鍵字自動提取,為進一步實現基于關鍵字的檢索奠定基礎。
摘要自動提取。基于文本挖掘算法,自動提取文章摘要,實現文本內容的精簡提煉,方便用戶快速預覽文本內容。
基于相似度的事件歸納與識別。基于文檔相似度計算結果,實現對多語言、多渠道,長時間的同一事件的歸納與識別,即對標題或內容有重復性或近似的信息自動歸類。
熱點識別。綜合不同渠道、地域的網民熱議度、傳播力、影響力等多個維度指數,基于評價模型識別熱點文章或事件。
事件脈絡梳理及追蹤。梳理同一事件∕主題的發展脈絡,實現對某個輿情事件的長時間的跟蹤監控,便于隨時掌握事件發展動態。
傳播途經分析。分析事件在各個主流媒體之間的參與轉載情況,從事件的傳播深度與傳播廣度的層面上剖析事件的影響力。
輿情監控與預警。重點關注正面輿情(加強合作與交流)與極端反面輿情(尋求更多的解決與合作方案)并設定預警條件。對達到預警條件的輿情,支持站內、短信、郵件等多種方式預警。