李澤魁 孫霏 陳珺
摘 要:媒體融合發展是一項復雜的系統工程,離不開技術系統的變革與創新。在新聞媒體領域數據爆炸,同時人工智能領域飛速發展的大背景下,本文針對國內新聞媒體領域中文文本語義分析過程中存在的諸多難題和現狀,對中文文本語義分析在新華社業務系統中的智能化、知識化的探索之路進行闡述與展望。
關鍵詞:中文語義分析;新聞媒體領域;智能分析;知識分析
中圖分類號:TP391 文獻標識碼:A
文章編號:1671-0134(2018)08-035-03 DOI:10.19483/j.cnki.11-4653/n.2018.08.009
引言
在媒體格局、輿論生態、受眾對象、傳播技術都在發生深刻變化的今天,數據在新聞媒體轉型發展過程中已成為全新的富礦。以新華社為例,一條新聞從生產源頭的“采編發供”到用戶讀者端的傳播與反饋,都離不開文本作為文學的載體和傳播的媒介。這些蘊含著巨大潛力的文本大數據,合理、充分地挖掘其價值很有必要。
另一方面,伴隨著自然語言處理技術的飛速發展,文本語義分析已經從20世紀基礎的詞典規則匹配、統計學概率計算的方法,漸漸轉變為當前主流的機器學習、深度學習的智能分析算法。同時,分析對象與應用場景也越來越廣泛,涵蓋了包括新聞、評論、社交媒體等領域的各個方面。
黨的十八大以來,以習近平同志為總書記的黨中央高度重視傳統媒體和新興媒體融合發展。新華社作為媒體融合發展的排頭兵、先行者,每天都需要對社內數萬條稿件及海量的互聯網文本進行實時準確的分析,中文語義分析作為基礎技術,不可或缺。
1.新聞媒體領域智能化的中文語義分析技術
1.1結合新聞稿件特性的智能化詞語切分
新華社日均有數以萬條的稿件需要進行文本語義分析,而種類繁多的智能分析的背后,都離不開對文本進行詞語的切分,即自然語言處理中的分詞算法。眾所周知,英文文本以空格切分單詞,而中文文本需要根據語義切分詞語,對連續字符按照語義規范進行重新組合,切分難度更大。針對新聞媒體領域的歧義識別與新詞挖掘等中文語義分析難點,著力從三個方面對其進行智能化探索。
1.1.1新聞媒體分詞詞庫的自動化挖掘
實際應用的分詞系統往往是多種算法的融合,但一般都依賴一套高精度的新聞媒體行業詞庫。為此,結合我社稿件文本特點,提出了基于共現詞頻過濾的新詞發現、少量人工校驗輔助的分詞詞庫挖掘算法,一定程度上提升了分詞準確率。
1.1.2構建大而全的新聞媒體領域語料庫
除了基于詞庫規則的分詞算法,還有一種是基于統計機器學習的方法。這種方法依賴一定數量的“機器學習的教材”,即標注好正確切分結果的訓練數據(語料)。為使分詞模型更適合我社業務需求,我們收集了人民日報、國家語委、各大評測等高質量標注的訓練數據集,充分利用新聞媒體領域的漢語組詞的規律切分詞組。
1.1.3針對實體短語進行優化加強
作為國家通訊社,新華社從誕生起就在黨中央的直接領導下開展工作,肩負黨和人民賦予的神圣使命,發揮喉舌、耳目、智庫和信息總匯作用。當然,稿件也以正確輿論導向與時代主旋律為主。為此,我們針對部分時事政策類的實體詞組進行了大力優化,例如“一帶一路”,“供給側改革”等,提高了相關詞組的切分能力。具體效果如圖1。
1.2基于知識屬性的智能化主題分類
文字新聞報道是新華社的傳統報道形式,也是核心報道形式之一。它及時、準確、權威地報道黨和國家的方針政策及國內外時政、經濟、軍事、外交、文化等領域的重要新聞。為了更好地對我社文字稿件進行智能分析、智能檢索與推薦,一套新聞稿件智能主題分類算法很有必要。
當前,新華社知識屬性為多類、多級體系(13種一級知識屬性分類、千余種多級指數屬性分類)。結合這套知識屬性,我們建立了多級主題分類體系(為了保證智能分類的準確性,最深可達二級分類,詳見表1),同時結合當前流行的深度神經網絡算法,訓練出一套可靠、高效的智能主題分類算法。
1.3多個角度智能化情感分析
新華社在重大新聞報道上,除了要打贏新聞首發權搶奪戰,同時也要兼顧熱點事件的全方位、多維度的精準統計與分析,這樣才可以始終保持輿論導向的正確性。
情感分析作為中文語義分析的一項基礎任務,又稱傾向性分析或意見挖掘。新聞領域的情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。
對熱點事件新聞及評論進行情感分析,有助于對互聯網輿論的全面監測與管理。在提升負面信息發現處置、情報預警和輿情導控能力的同時,又充分利用互聯網數據服務于新聞生產全流程。為此,我們提出了從同一熱點事件的不同角度進行深度情感挖掘的算法,各個話題的情感立場在界面中會一目了然地展現。如圖2所示。
1.4文本主旨的智能化自動摘要
自動文本摘要是利用智能化算法自動編寫和生成摘要。面向新聞文本的自動摘要技術是解決當前我社大量稿件素材信息過載問題的一種輔助手段,有助于“采編發供”流程中各類用戶更加快速、準確、全面地獲取新聞文本信息。如何對這些新聞文本進行高效存儲、信息檢索與挖掘成為一個迫切需要解決的重要問題。
針對新聞領域智能化自動摘要的應用場景,結合新聞文本結構、句法及語義相關的知識特征,通過大量的迭代優化與試驗,提出了面向新聞文本主旨的智能化自動摘要方法。
2.新聞媒體領域知識化的中文語義分析技術
2.1結合新聞要素和特性的知識標簽體系
眾所周知,西方新聞界首先提出新聞要素的概念,即何時、何地、何人、何事、何故、如何。
為了使新聞文本要素與新聞知識標簽抽取相銜接,讓機器更加規范、智能地自動提取新聞標簽,我們提出了新聞的標簽體系,包括時間、地點、人物、概念、事件五類。其中,概念標簽和事件標簽的定義本文擬定如下:
概念標簽: 可概括為語義概念的文本詞條實體。
事件標簽: 可表征事件的文本詞條,直接引發事件的產生,是決定事件類別的關鍵特征。
其分類與舉例詳見表2。
本文涉及的新聞體系結構圖如3:
2.2基于標簽類別與權重的知識自動提取
面對鋪天蓋地的各類型新聞與素材數據,如何從中挖掘出真正有用的信息,是大數據應用的一道門檻。以我社稿件文本為例,在大量數據面前,本文首先提出了知識標簽體系規范,再根據規范將稿件按時間、地點、人物、概念、事件等要素進行標注。具體算法分為基礎中文語義智能分析、基于語義緊密度挖掘的短語合并、標簽候選集的生成與過濾和依據語義關鍵度的排序輸出等步驟,如圖4所示。
伴隨富標簽體系的建立與智能抽取算法的設計,新華社現有稿件分類與檢索存在的諸多問題將進一步緩解。同時,下一步我們會繼續提升系統,以滿足數字網絡時代用戶對稿件精細搜索、智能檢索及個性化定制的需求,提高稿件存儲和檢索的高效性與準確率,深度挖掘稿件在不同領域的應用價值。
2.3面向業務系統的知識圖譜初探
知識圖譜作為知識工程的一個重要分支,以語義網絡作為理論基礎,并且結合了自然語言處理和知識表示和推理等優秀算法,在大數據的推動下受到了業界和學術界的廣泛關注。
構建知識圖譜的主要目的是獲取大量有關聯的、計算機可理解的知識網絡。新華社建社之日起,八十余年的歷史中,海量非結構化的稿件文本、半結構化的表格和網頁以及生產系統的結構化數據中蘊含了大量待挖掘的新聞知識與關系(如圖5所示),這部分資源猶如待開發的金礦,非常寶貴。
知識圖譜構建,包含了許多關鍵性技術。從較為基礎的自然語言處理技術,對稿件文本進行較為精確的分詞、實體提取、句法識別等工作,到進階的實體關系識別、知識融合、實體鏈接和知識推理技術等。
鑒于垂直領域詞典匱乏、知識人力標注成本高等現狀,當前新聞領域缺乏一套規范性強、可用性高的成型知識圖譜構建技術。針對上述兩項研究困境,各大研究機構可與我社資源互補,真正提出一套面向新華社實際業務系統的知識圖譜技術,相信對于解決新聞稿件文本智能分析問題上將發揮重要作用。
結論
本文介紹了在媒體融合發展的大趨勢下,新聞媒體領域中文語義分析技術的智能化、知識化之路的研究與探索。
在智能化的中文語義分析技術部分,本文首先介紹了結合新聞稿件特性的智能化詞語切分方面的研究,使分詞效果更符合新聞媒體業務要求;其次,分別從應用場景出發,簡要說明了語義分析算法,介紹了智能化主題分類、情感分類和自動摘要技術。
在知識化的中文語義分析技術部分,本文提出了結合新聞要素和特性的知識標簽體系,并結合五類標簽的實際特征,設計了基于語義緊密度挖掘與關鍵度排序的標簽自動抽取算法;同時,面向新華社業務系統,對新聞媒體領域規范性強、可用性高的知識圖譜技術進行了探索與展望。
參考文獻
[1]宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008.
[2]李航.統計學習方法[J].北京:清華大學出版社,2012.
[3]俞士汶等.現代漢語語法信息詞典詳解[M].北京:清華大學出版社,2003.