張劍 何彤宇
摘要:眾所周知,互聯網時代媒體競爭日趨激烈,受眾對媒體新聞報道的深度和廣度提出了更高的要求。本文以《聯合早報》的華為公司相關報道為案例,對如何應用共詞分析技術深度挖掘新聞報道熱點進行了分析和介紹。結論發現,通過收集海量信息,運用聚類或社會網等技術可以有效提煉和挖掘相關報道熱點,從而滿足媒體深度報道,挖掘熱點話題報道后的真相,以及提升媒體競爭力的需求。
關鍵詞:熱點話題;深度報道;共詞分析;華為
互聯網時代的到來使得網絡新聞呈現爆炸式增長,媒體之間圍繞新聞報道的質量、速度展開激烈的競爭,對媒體從業人員的專業能力提出了更高的要求。在此背景下,作為媒體從業人員,不僅要有新聞報道的敏感性,同時要有深度挖掘新聞報道事件背后相關的內容,策劃熱點話題,從而滿足不同層次受眾需求。而如何運用現代信息技術挖掘新聞熱點,加強深度報道,提升媒體競爭能力,是媒體從業人員所關注的。
根據共詞分析原理,本文擬將熱點分析和構建過程分為“主題詞或關鍵詞抽取一構造共詞矩陣一數據分析”的三個步驟展開研究。具體方法就是通過對相關報道的高頻關鍵詞進行統計,然后得出共詞矩陣,進行中心性分析及Ego網絡繪制,用各節點之間的距離來反映媒體報道中與華為相關的主題內容的親疏關系,識別重要節點網絡關聯,進而通過多維尺度分析繪制坐標圖,最后運用聚類分析進行相關主題聚合,探究和揭示相關熱點話題,以供進一步研究。
一、數據來源和處理
本文以新加坡《聯合早報》網作為數據來源,使用《早報》網的熱詞搜索功能,將“華為”作為熱詞進行搜索。經過檢索,發現在《早報》網收錄了最早自2009年4月至2019年3月十年期間700余條數據。在此基礎上,刪除一些重復或者與本研究主題無關的新聞報道,共獲得526條新聞報道和評論數據。
二、數據的統計和描述
(一)關鍵詞詞頻統計和共詞分析
在共詞分析中,詞匯篩選是首要工作。但是將所有的詞匯用于分析,不僅導致工作量巨大,計算結果的準確性也無法得到保證,因此共詞分析選擇高頻主題詞為分析的對象。在高頻關鍵詞計算方法選擇上,本研究采用前N位選取法,共提取504個關鍵詞,選取詞頻大于9的19個關鍵詞為主要關鍵詞,累積百分比為58%。該比例兼顧了高頻關鍵詞的同時,也兼顧了中頻關鍵詞,有助于觀測一些隱含主題或前瞻主題的外現,基本反映自2009年以來《早報》網“華為”話題的熱點。除去核心關鍵詞華為以外,排名前9的關鍵詞分別為:孟晚舟、美國、5G、智能手機、禁令、加拿大、中興、網絡安全、德國。
(二)共現矩陣和相似矩陣的構建
雖然高頻關鍵詞在一定程度上反映了與華為相關的熱點話題,但深入挖掘話題之間的內在聯系,需借助共現矩陣(表1),然后利用社會網絡等方法進行多元分析,勾勒出該領域的發展現狀、研究熱點和趨勢。
同時,為了消除共現頻次差異較大對數據分析造成的誤差,借助UCINET軟件生成相似矩陣(表2),并在此基礎上減1,構建相異矩陣,以滿足后續進行多維尺度分析的要求。
矩陣中數字的大小表明了相應兩個關鍵詞之間的距離遠近,反映了它們之間的相似程度。由表2可以看出,與華為距離由近及遠的關鍵詞包括:智能手機、5G、網絡安全、禁令、美國。而聽證會、特朗普這些關鍵詞之間的相似性值雖然都相對較小,但也說明這些高頻關鍵詞之間存在一定聯系,值得重視。
三、基于網絡關系的共詞網絡知識圖譜構建與分析
(一)基于重要主題的社會網構建
社會網絡分析是基于關系視角根據共詞矩陣對各節點的權利(power)進行定量研究,從而給出多種量化指標。根據中心度Degree的計算,得到排名靠前的華為(100)、5G(83)、美國(77)、禁令(72)、孟晚舟(55)、智能手機(55)等重要關鍵詞,在此基礎上,運用UCINET繪制出社會網絡圖譜(圖1)。從節點大小來看,除了檢索詞“華為”之外,“禁令”和“美國”在整體網絡中居于重要地位,是媒體關注的兩大話題。以這兩個關鍵詞為核心向外輻射形成緊密的圈層,構成了網絡圖譜的主體結構。從節點間距離來看,“網絡安全”“5G”也與上述主題距離較近,關系較為密切,在網絡中與其他節點的交互次數也較多,扮演著重要角色。同時借助Ego圖,可以清楚的發現特朗普、美國與中興、華為、網絡安全、貿易戰等話題的關聯性,不難發現特朗普在其中所起的作用(圖2)。
(二)高頻關鍵詞聚類分析
借助聚類分析描述關鍵詞之間的親疏關系,判別詞間類團,與網絡圖譜結合起來可以共同查找研究熱點。基本原理是,以兩兩關鍵詞在同一篇文章中出現的頻次也就是共詞為分析對象,利用聚類的統計學方法,把關聯密切的關鍵詞聚集在一起形成類團。分析時,先以最有影響的關鍵詞生成聚類(種子關鍵詞);再次,由聚類中的種子關鍵詞及相鄰的關鍵詞再形成+新的聚類。關鍵詞距離越近它們的關鍵詞越相似。具體方法是利用Bicomb生成詞篇矩陣;進行系統聚類分析,得到的聚類結果如圖3所示。
高頻關鍵詞名稱及其對應出現頻次高低排名,標注在樹狀圖縱軸,標注在橫軸的數字0-25代表高頻關鍵詞之間的密切度。高頻關鍵詞之間的縱向連線對應之橫軸數字,展現了高頻關鍵詞間關系遠近。距離較近的主題詞聚集起來,形成概念相對獨立的類團,使類團內屬性相似性最大,類團間屬性相似性最小,聚類分析反應了關鍵詞間的親疏關系,可以進一步反映當前的“華為”熱點話題,同時為后面的戰略坐標圖的分析提供了基礎。
(三)基于距離空間的關鍵詞多維尺度分析
為了更直觀的對研究熱點進行觀察和分析,在聚類分析的基礎上,通過多維尺度分析(MDS)繪制出戰略坐標圖(圖4)。圖中坐標x軸為向心度(Centrality),表示領域間相互影響的強度;Y軸為密度(Density),表示某一領域內部聯系強度。影響力最大的關鍵詞,其所表示的圓圈距離戰略坐標的中心點越近。而圓圈間距離越近,表明它們之間的關系緊密程度。
采用多維尺度分析時,要匯報其壓力系數Stress和模型距離解釋的百分比RSQ值,它們分別為多維尺度分析中的信度和效度估計值。其中Stress是擬合度量值,Stress越小,表明分析結果與觀察數據擬合越好;RSQ值越大,說明所得到的構形上各點之距離與實際輸入之距離越適合。本戰略坐標圖Stress和RSQ計算結果分別為0.18245和0.84387,數據擬合度可以滿足要求。
四、熱點話題分析
結合上述圖表,我們繪制出圍繞“華為”話題媒體報道的知識圖譜,可視化地展示了相關熱點話題分布情況,據此我們總結歸納出四個主要熱點話題(類團):
(一)網絡安全、5G、中興和禁令等關鍵詞位于第一象限。這一領域各關鍵詞聯系緊密并處于研究網絡的中心,是媒體報道熱點。反映了以美國為代表的西方國家炒作網絡安全話題,對華為、中興等中國企業進行打壓,試圖將中國企業排斥在5G市場之外,占據5G技術制高點。
(二)以智能手機產品為代表的中國高新技術產品在國際市場上得到廣泛的認可,市場占有率節節攀升,對包括蘋果、三星等國外知名品牌構成巨大的挑戰,體現了華為、中興、小米等中國公司不斷科技創新取得的巨大進步。
(三)第三象限包括了貿易戰、特朗普、孟晚舟等關鍵詞。主要反映了孟晚舟事件中美國和加拿大分別扮演的角色和所起的作用。
(四)第四象限主要是關于華為公司創始人、總裁任正非的相關報道。在采集到的21條相關報道中,2019年前三個月就有19條,這也說明,“任正非”一詞處于坐標圖中第四象限的原因。總體而言,任正非作為一家世界知名公司的掌門人,其言行成為世界各國媒體關注的焦點。
五、結語
利用共詞分析技術,通過對網頁信息采集、文本特征項抽取、文本向量化、相似度計算、聚類、中心度計算等幾個步驟,不僅可以對媒體報道的“華為”這一熱點話題產生的來龍去脈,前因后果、演變過程進行梳理,也有利于對新聞報道中的對象未來發展趨勢進行分析和預測。
總體而言,知識圖譜分析技術對觀察媒體的熱點話題提供了一定的思考和借鑒,可以滿足受眾對媒體報道客觀、真實、深度的需求,實現媒體以“內容為王”的目的。但是鑒于當前關于高頻關鍵詞的詞閥的計算與運用,學界依然存在不同看法,這在日常工作或研究中需要加以注意。