







摘要:隨著2022年冬奧會的到來,冬奧會新聞數據急劇增加。從冬奧會新聞數據中提取實體并進行可視化,對研究冬奧會進度具有重要作用。針對冬奧會新聞數據實體識別問題,提出基于BERT-BiLSTM-CRF命名實體識別模型。根據實體識別結果,從時間和空間兩方面分析冬奧會新聞文本數據,可視化地展示此次冬奧會的相關信息。在時間維度,通過在新聞中提取的時間日期制作日歷圖,以時間作為支撐了解不同時間節點的事件頻率。在空間維度,通過對新聞文本中地點的提取進行地理統計分析,直觀地了解新聞事件的空間分布。
關鍵詞:冬奧會新聞;網絡爬蟲;命名實體識別;可視化;地理統計分析
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)07-0085-04
1 概述
北京冬奧會作為中國第一次舉辦的冬奧會,一直深受社會廣泛關注。冬奧會新聞持續時間長,可獲取的新聞文本多。新聞的寫作特點是描述事件,其中會包含大量時間、地點等描述時間特征以及空間特征的要素[1],因此識別新聞數據中的關鍵因素對研究2022年冬奧會發展過程具有重要意義。
命名實體識別通常認為是從一段非結構化文本中識別出實體信息。識別實體的過程中,首先人為劃分邊界確定實體的范圍,再將實體分配到空間類型或時間類型中[2]。近年來,深度學習在命名實體識別領域的應用越來越廣泛,使用預訓練詞向量技術替代人工提取特征,可以提高工作效率。王傳濤等人[3]通過BERT對簡歷信息進行字符集編碼,得到基于上下文信息的字向量,通過雙向長短時記憶網絡對生成的字向量進行特征提取,將所有可能的標簽序列打分輸出給條件隨機場,最后通過CRF進行解碼生成實體標簽。文獻[4]根據生物領域文本的實體數量種類多、邊界劃分難、實體表述方法多和存在縮寫、特殊字符等文本特性,提出了基于CNN-BiLSTM-CRF命名實體識別模型,準確率得到了提升。Word2Vec、GloVe模型受限于特征表示方法,不能解決一詞多義問題,文獻[5]提出基于Transformer的雙向編碼器表示方法,該方法通過使用深度雙向表示預訓練模型,進而獲取深層次的文本語義信息,在命名實體識別領域中取得了良好的效果。文獻[6]針對傳統預訓練模型特征提取能力不足且不充分的問題,提出基于BERT的中文命名實體識別方法,通過BERT提取文本特征,結合BiLSTM提取文本全局和局部特征,該方法提高了命名實體識別的整體效果。文獻[7]根據軍事文本領域文本中實體集中,邊界明顯等特征,提出了一種多級神經網絡協作的軍事領域實體識別模型,該模型使用BERT模型對字級別進行特征表示,使用BiLSTM層獲取文本的上下文特征,最后CRF層根據相鄰標簽關系得到最優標記序列,該模型相較于其他模型,性能得到了明顯提升。
以冬奧會數據作為采集與分析的實驗背景,將新聞文本中的時間要素與空間要素進行命名實體識別,根據標注結果形成可視化分析,分析新聞事件的發展脈絡。丁杰等人[8]通過關鍵詞搜索網絡新聞將新聞事件聚類,整理出事件的發生過程的“時間線”,并且能對事件后續的發展進行跟蹤,讓管理者通過閱讀“時間”更快且完整地掌握事件全貌。劉海硯等人[9]利用自然語言處理技術對新聞文本數據進行分詞和主題建模,提取事件時空和語義信息,采用日歷圖和流地圖的可視化方法,形成多維事件可視化系統,幫助人們快速獲取海量新聞文本中感興趣的信息。
本文根據以上研究,提出BERT-BiLSTM-CRF命名實體識別模型,將命名實體識別模型與可視化進行結合,通過命名實體識別模型提取冬奧會新聞中的時間實體和空間實體,并將識別結果進行可視化。以此研究冬奧會進展情況。
2 研究方法與手段
2.1 方法流程
本文圍繞“2022年冬奧會”話題對今日頭條和冬奧會官網新聞進行抓取并保存,使用人民日報語料庫訓練BERT-BiLSTM-CRF的模型,使用該模型對2022年冬奧會的新聞數據進行命名實體識別,對識別的信息進行規范化處理。最后借助ECharts可視化工具將最終結果以圖表的形式進行展示。通過時間和空間的分布數據與新聞報道相結合,了解冬奧會在不同時間和空間的進展情況。本文方法流程如圖1所示。
2.2 數據采集
2.2.1 數據獲取
數據來源主要是冬奧會官網和今日頭條。冬奧會官網作為官方平臺,在第一時間發布冬奧會的相關消息,而今日頭條已經成為人們生活中重要的信息來源,也是一個使得人與信息得以連接的平臺,該平臺讓有用的信息得到高效精準的分發,促使信息創造價值,并且數據開放程度較高,信息發布較為豐富,其中包含著大量的冬奧會新聞信息。使用Python搭建冬奧會新聞爬蟲框架進行數據抓取。由于今日頭條通過AJAX加載數據,因此需要瀏覽器審查元素解析真實地址,然后將數據存儲到MongoDB數據庫。
2.2.2 數據存儲
Redis支持多種數據結構,但是Redis在string類型上會消耗較多內存。研究采用MongoDB進行數據存儲,MongoDB不僅是一種分布式數據庫,也是一種持久化的數據庫。
2.3 基本框架
采用BERT-BiLSTM-CRF命名實體識別模型對冬奧會新聞中的時間、空間等進行命名實體識別。BERT層負責進行字級別的特征表示,BilSTM層負責獲取文本的全局和局部特征,CRF層根據文本特征獲取全局最優標注結果,框架結構如圖2所示。
2.3.1 BERT層
BERT預訓練語言模型與Word2vec[10]模型相比,在處理歧義詞上的識別效果有了很大提升。例如為了紀念孫中山先生,將香山縣改為中山市,會產生人名與地名的歧義。“白云”一詞,可以作為廣州的白云區表示地名,也可以被理解為天上的“白云”,由于word2vec靜態進行詞向量表示,在該模型中這類詞被作為同一個向量進行表示。BERT是一種新的詞向量表示方法,使用預訓練語言加入Transformers[11]雙向訓練注意力機制,應用到語言模型當中,能夠根據上下文文本特征動態進行詞向量表示,進而解決了一詞多義的問題。
2.3.2 BiLSTM層
BiLSTM是由向前的LSTM和向后的LSTM組合而成。LSTM一種長短期記憶門控RNN,是當下最流行的RNN形式之一。為了解決RNN梯度爆炸的問題,LSTM多了輸入門、輸出門和遺忘門三個控制器。遺忘門作用在線性自環的位置,而普通的RNN是沒有線性自環的。
LSTM[12]以當前的輸入和前一狀態的傳遞為輸入,遺忘門[ft]確定上一階段單元狀態是否被保留,[ft]值越大,則上一單元狀態被保留得越多,當[ft]值為1時,則上一階段單元狀態被全部保留下來,當[ft]值為0 時,則上一階段單元狀態被全部舍棄;輸入門[it]確定當前信息是否被更新到單元狀態中;輸出門[ot]確定用于控制細胞狀態值的輸出,三個門的結構如下:
其中:[ft]、[it]、[ot]分別為遺忘門、輸入門、輸出門;W代表權重矩陣,[b]代表偏置變量,[ct]代表當前細胞狀態。
單向LSTM對比雙向LSTM存在很大的局限性。單向LSTM無法聯系上下文語義,如“中國”一詞,輸入“國”字時,可能“中”和“國”會被拆分開。雙向LSTM通過正向和反向兩個方式對文本序列進行語義捕捉,能夠更好地獲取上下文關系信息。
2.3.3 CRF層
CRF[13]是一種基于統計的數據分割和序列標注過程。CRF層能夠考慮相鄰標簽序列的關系,進而獲取全局信息,以此得到全局最優的標記序列。設[Xn](n=1、2…)和[Ym](m=1、2…)是聯合隨機變量,若隨機變量Y構成馬爾可夫網絡表示為[G=(V,E)],則[P=(Y|X)]為條件概率分布,稱為CRF(條件隨機場),即:
式中:[ω~v]表示無向圖[G=(V,E)]中所有與節點[v]存在邊連接的所有節點,[ω≠v]表示除節點[v]以外的其他節點。CRF由轉移函數和狀態函數構成。在標注序列中,轉移函數需要當前位置[i]和前一個位置[i-1]的標記,表示將標記[yi-1]轉移到標記[yi]的概率。CRF的參數化形式為:
式中:[T(yi-1,yi,i)]和[S(yi,x,i)]為轉移函數,[λi]和[uj]為對應權值,[Z(x)]為規范化因子。CRF在實體識別中的應用是為求出[argymaxp(x|y)]。
2.3.4 訓練數據標注
新聞文本中會出現時空信息表達不規范的情況,如將“8月10日”表示為“8.10”,也可能會出現“地名脫落現象”,這些情況不利于時空信息的識別,需要對識別的信息進行規范化處理。
采用BIO的標注方法對訓練數據進行標注,對新聞數據中的時間和空間進行標注。在空間的首字后面標注B-LOC,地名的非首字后面標注I-LOC,對時間等同樣進行標注,其他字后面標注O。
3 研究結果
3.1 模型訓練
本文使用Tensorflow搭建命名實體識別模型。實驗參數設置如下:輸入維度為128,訓練集的批次為64,訓練學習率為[2×10-5],為了出現梯度爆炸,使用dropout來防止過擬合,值設置為0.5。
本文使用人民日報語料庫進行訓練BERT-BiLSTM-CRF命名實體識別模型。人民日報語料庫已經放好詞,標注了人名、地名等信息,使用了BIO標記方式標注語料。經過人民日報語料庫的訓練,該模型的分類準確率達到了95.2%,其中TIME,LOC標注的準確率分別達到了95.5%、95.2%。
3.2 時序關系可視化
本文將實體識別模型標注的時間進行提取,并將提取的時間實體規范化處理。使用ECharts可視化工具繪制日歷圖。日歷圖中點顏色的深淺表示頻率的大小,顏色越深意味著這個日期在新聞文本中出現的頻率越高。頻率越高表明該日期在冬奧會進展中越重要。
如圖4所示,2019年5月10日和2021年2月4日,這兩個時間節點被提到的頻率很高。2019年5月10日是北京冬奧會倒計時1000天,2021年2月4日是北京冬奧會倒計時一周年。2022年2月4日和3月4日這兩天出現的頻率也很高,這兩天分別是冬奧會和冬季殘奧會的開幕時間。這些日期在冬奧會進展中具有比較重要的紀念價值,表明社會對冬奧會的關鍵節點最關注。
通過日歷圖,可以非常直觀地看到,在冬奧會的籌辦過程中具有重要意義的時間節點。
3.3 空間關系可視化
3.3.1 國內地理統計分析
通過繪制流地圖描述事件的空間位置和空間關系,以點來表示新聞文本中提及的地區位置,以線來表示兩地區之間有著聯系。
如圖5所示,國內的省份地區與冬奧會三大賽區的關系較為緊密。例如河北省科技冬奧專項“冬奧會張家口賽區賽事專項氣象預報關鍵技術”,通過實體識別標注出的地名“河北省”“張家口”,然后將兩個地區通過線進行連接。由于國內資源分配不均勻,因此在建設冬奧會場館時,需要多個地區的支持。為了更好地宣傳冬奧會,需要面向全社會舉辦相應的活動。
3.3.2 國外地理統計分析
通過實體識別模型將新聞文本中提到的國家進行標注,將標注的地點與中國進行連接。
如圖6所示,國際上其他國家與冬奧會聯系密切。由此可知,國際上的其他國家對北京冬奧會也較為關注,其中歐洲國家較多。例如在冬奧會倒計時一周年時,新聞中報道了希臘、日本、法國、意大利、美國、澳大利亞、尼日利亞等國家通過視頻接受參加北京冬奧會的邀請。
4 結論
本研究使用網絡爬蟲對冬奧官網以及今日頭條的冬奧會相關新聞進行抓取,將數據存儲到分布式數據庫MongoDB中,使用BERT-BiLSTM-CRF將新聞文本中的時間、空間實體進行標注,繪制出圖標與社會狀況相印證。運用日歷圖和流地圖對新聞文本的時間要素和空間要素進行可視化展示,從宏觀上掌握了2022年北京冬奧會的時序發展演變情況。直觀地展示冬奧會的發展情況、國內外的地理統計分析等信息,能夠幫助相關工作人員更好地閱讀以及理解2022年冬奧會新聞文本,并對冬奧會發展過程或其他新聞事件發展過程的研究與分析起到輔助作用。
參考文獻:
[1] 王偉,趙東巖.中文新聞事件本體建模與自動擴充[J].計算機工程與科學,2012,34(4):171-176.
[2] 陳曙東,歐陽小葉.命名實體識別技術綜述[J].無線電通信技術,2020,46(3):251-260.
[3] 王傳濤,丁林楷,楊學鑫,等.基于BERT的中文電子簡歷命名實體識別[J].中國科技論文,2021,16(7):770-775,782.
[4] 李麗雙,郭元凱.基于CNN-BLSTM-CRF模型的生物醫學命名實體識別[J].中文信息學報,2018,32(1):116-122.
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.
[6] 王子牛,姜猛,高建瓴,等.基于BERT的中文命名實體識別方法[J].計算機科學,2019,46(S2):138-142.
[7] 尹學振,趙慧,趙俊保,等.多神經網絡協作的軍事領域命名實體識別[J].清華大學學報(自然科學版),2020,60(8):648-655.
[8] 丁杰,徐俊剛.IPSMS:一個網絡輿情監控系統的設計與實現[J].計算機應用與軟件,2010,27(4):188-190.
[9] 劉海硯,李佳,劉建湘,等.基于新聞文本的事件可視方法研究[J].信息工程大學學報,2020,21(5):601-606.
[10] Mikolov T,0010 K C,Corrado G,et al.Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv,2013.
[11] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[12] 傅麗芳,趙菲菲.基于注意力機制LSTM模型的農業輿情預測與分析[J].數學的實踐與認識,2021,51(17):64-76.
【通聯編輯:唐一東】
收稿日期:2021-12-15
作者簡介:王子豪(1994—),男,河北邯鄲人,碩士生,研究方向為自然語言處理。