何曉華,朱津津,凌 堅
(浙江傳媒學院 電子信息學院,浙江 杭州 310018)
新聞節目導語中關鍵詞自動提取方法研究
何曉華,朱津津,凌 堅
(浙江傳媒學院 電子信息學院,浙江 杭州 310018)
利用詞語在文本中的特征信息衡量詞語與文本主題相關程度,提出了一種在新聞節目導語中提取關鍵詞的方法,該方法綜合了詞頻、位置分布等特征,組合詞方案,并在詞頻、位置分布特征時考慮了同義詞的影響,在實際使用中取得較好效果。
提取;節目導語;同義詞;詞語特征;組合詞
隨著新媒體和網絡技術的發展,視頻新聞節目從無差別的廣播方式逐步向個性化、自主化的點播方式轉變。為了讓受眾從海量視頻新聞節目中檢索到感興趣的節目,系統必須提供有效的檢索方式。直接視頻檢索存在著諸多的問題,關鍵詞檢索是目前廣泛采用的有效方法。為了實現利用關鍵詞檢索新聞節目,首先要為每個節目提取合適的關鍵詞,人工方法是通過觀看整個節目或閱讀節目文稿,根據個人理解提取節目的關鍵詞,需要耗費大量的人力。因此,研究采用計算機從新聞節目中自動提取關鍵詞的方法具有重要的實際意義。
國內外對關鍵詞提取方法做了大量的研究,直接通過分析文本語義確定關鍵詞目前還有著諸多困難,基本方法主要分為兩大類:基于統計信息和機器學習?;诮y計信息的方法選取單詞或詞組在文中的某些特征作為統計依據,常用的特征包括詞頻、TF-IDF、N-Gram、詞長、出現位置等[1-2],此類方法簡單易行,在單主題短文中有比較好的效果。在機器學習方法中,借助大量已標注的語料庫作為訓練集,通過訓練特征參數構造分類模型,將關鍵詞抽取問題轉化為分類問題,或者將關鍵詞視為一篇文章中重要且語義聚集的詞語的代表,將關鍵詞抽取問題轉化為聚類問題。例如基于支持向量機、最大熵模型、相對熵算法、基于聚類的文本摘要等[3]。此類算法不需要訓練集,通用性較好,但此類方法對輸入樣本的類別及聚類的類別數具有較高要求,很難完全覆蓋整個樣本空間,影響關鍵詞提取質量。
此外,針對中文的語言特點提出了一些關鍵詞提取方法,如條件隨機場抽取、中文關鍵詞Text Rank模型和同義詞鏈等方法[4-5],已取得了較好的結果。目前,度量詞語和內容關聯程度、劃分和組合詞語等是關鍵詞抽取方法的研究重點。本文針對新聞內容的特點,提出了一種在新聞視頻節目導語中提取關鍵詞的方法。該方法利用新聞視頻中內容文本的特點,以詞頻、詞性和詞語位置為詞語特征,計算詞語和文本主題的相關程度,給出了組合詞處理方法。
關鍵詞分析的對象是文本,因此,首先要從視頻新聞節目中獲取內容相關的文本,其主體是播音員播報的語言,稱為導語。利用新聞節目制作時的文稿或通過語音識別、人工編目等方式獲得新聞節目的導語。獲取節目導語文本后,先對文本進行分詞、確定詞性,并過濾掉文本中與主題無關的詞語,這些詞語只用于語法結構,如“的”、“但是”等,稱為停用詞,剩下的詞語作為關鍵詞的候選詞;然后通過對候選詞的詞頻、詞性和位置等信息的統計分析,確定各詞匯與文本內容的相關程度。視頻新聞節目的關鍵詞提取的主體框架如圖1所示。

圖1 關鍵詞提取的過程
基于統計信息提取關鍵詞是利用詞語某些統計特性與文本主題之間的相關性,把相關程度最高的詞語作為文本的關鍵詞。通過對新聞節目的分析統計,一個新聞單元一般只包含一個主題,導語文本經過分詞和停用詞過濾后的候選詞不超過100個,相對比較短小。選用詞頻、詞性位置作為統計特性,綜合確定詞語的權重。
2.1 詞頻權重
如果某個詞語在文本中出現的次數越多,即詞頻越高,就越有可能成為關鍵詞,但實際上因為中文表達中同義詞的存在,比如“電腦”、“計算機”等詞表示的是同一個或是十分相近的意思。有些詞雖然在文中只出現了一次,但卻也表達了比較重要的概念,根據常規的詞頻統計的方法,這個詞很可能不會出現在關鍵詞表中,但同時文中又出現了其同義詞,因此,考慮把文中某個詞的同義詞一起統計計算該詞的詞頻。這樣就可以把一部分低頻詞語通過語義關系整理形成一些新的高頻項。
本文中同義詞依據《同義詞詞林擴展版》,《同義詞詞林》原版是梅家駒等人編寫構造的,哈工大信息檢索研究室在《同義詞詞林》的基礎上對其進行了擴展。對經過分詞并去除停用詞等以后的文本進行處理,對處理后文本中的詞,查找文中是否存在同義詞,把第一個出現的同義詞作為候選關鍵詞并統計詞頻。本文采用一個歸一化的詞頻計算方法,公式如下

式中:ni為候選詞i的在文中出現的次數(含i的同義詞出現的次數);freqi為候選詞i的歸一化詞頻。顯然,詞頻權重和詞頻成正比是合理的。
2.2 詞性
詞語的詞性對一個詞能否成為關鍵詞的影響很大。一般情況下,名詞和動詞成為關鍵詞的可能性最大,地點和人物姓名也是非常重要的詞語。基于這樣的判斷,設置詞性權重計算公式為

式中:location和people指表示地點或人物,具體權重值可以按實際結果做相應調整。
2.3 詞語出現位置
詞語首次出現的位置和分布也能在一定程度上反映該詞語與文本主題的關聯程度,越靠前、分布范圍大的詞語則越是重要。由于詞語在文本中的分布比較復雜,為簡化計算,用該詞在文中首次出現和末次出現的跨度來表示詞語的分布,定義詞語位置特征的權重為

式中:f_loci為詞i在正文中首次出現的位置;N為文本中的詞數總數;l_loci為詞i末次出現位置。該公式考慮了詞語或其同義詞在文中首次位置和跨度。顯然,首次出現越靠前、在文字中分布跨度越大,則該詞與新聞主題關聯越強,權重就越大。
2.4 組合詞生成
關鍵詞并不局限于單個詞語,也可以是詞語組合,事實上,詞組往往更能反映文本主題。如果在文本中詞相鄰出現多次,很有可能是具有完整語義的詞組的拆分。提取關鍵詞是應該考慮把這樣的詞組合起來,得到一個意義表達更為豐富完整的組合詞。例如,“索契冬奧會”一詞在文本中同時出現多次,而分詞系統將其拆分為“索契”和“冬奧會”。很明顯,組合詞表達了更為豐富的含義。組合詞中的各個詞語具有相似的權重,如果有多個相鄰的詞語具有相似的權重,應該將這些詞語組合成一個關鍵詞,并且以這些詞語中最大權重為該詞組的權重,參與關鍵詞的選擇。
綜合以上各個特征和權重的分析,得到最終的權重計算公式如下

式中:α,β,γ為各個特征權重的比例因子,用以調整不同特征權重在最終權重的貢獻度大小,一般可以通過實際效果決定,比如α=1.5,β=0.8,γ=0.6。
至此,本文設計了關鍵詞提取的算法,該算法在為多家電視臺存檔的新聞視頻節目進行編目處理中得到了應用,進行自動關鍵詞提取,取得較好效果。算法過程如下:
1)輸入視頻,如果視頻有對應的文稿,取文稿數據中的導語,轉步驟3)。
2)分離伴音數據,調用語音識別模塊,將語音識別內容作為導語。
3)利用分詞模塊,對導語文本進行分詞,并對照停用詞表,過濾停用詞,確定詞匯詞性,生成候選詞集。
4)按式(4)計算各個詞匯的權重。
5)分析可能存在的組合詞。
6)按權重大小排序,取最大的N個作為該新聞節目的關鍵詞。
算法在計算詞匯統計特征時考慮了同義詞對關鍵詞提取的影響,避免了遺漏合適的關鍵詞或同義詞同時選入的情況,對關鍵詞選取的合理性有提高。
本文在分析視頻新聞節目特點的基礎上,提出了一種基于詞語特征信息統計的關鍵詞提取算法。首先通過綜合詞頻、詞性和詞語的位置等典型的詞語特征,計算詞語和文本主題的相關程度,在分析詞頻和詞語位置時考慮了同義詞的影響,并提出了組合詞的處理方法。算法在為多家電視臺存檔的新聞視頻節目進行編目處理中得到應用,進行自動關鍵詞提取,有效地減輕了人工勞動強度,降低了視頻資源再利用的成本。
[1]李靜月,李培峰,朱巧明.一種改進的TFIDF網頁關鍵詞提取方法[J].計算機應用與軟件,2011,28(5):25-27.
[2]馬穎華,王永成,蘇貴洋,等.一種基于字同現頻率的漢語文本主題抽取方法[J].計算機研究與發展,2003,40(6):874-878.
[3] 蔣昌金,彭宏,陳建超,等.基于組合詞和同義詞集的關鍵詞提取算法[J].計算機應用研究,2010,27(8):2853-2856.
[4] 張穎穎,謝強,丁秋林.基于同義詞鏈的中文關鍵詞提取算法[J].計算機工程,2010,36(19):93-95.
[5]索紅光,劉玉樹,曾淑英.一種基于詞匯鏈的關鍵詞抽取方法[J].中文信息學報,2006,20(6):25-30.
Research on Automatic Keywords Extraction M ethod in News Programs Leads
HE Xiaohua,ZHU Jinjin,LING Jian
(School of Electronics and Information,Zhejiang University of Media and Communications,Hangzhou 310018,China)
A method of extracting keywords in news leads is proposed in this paper using multi-feature information of the words in the text as a measure of the relationship between the text topic and the words,and these features inclus statistical feature,position feature which considering the influence of synonyms and POS(Part of Speech)feature.In practice use,the method achieves better results.
extraction;news leads;synonym;words characteristic;compound words
TN948
A
何曉華(1975—),女,副教授,主要從事數字通信、視頻處理的研究;
??健男
2014-04-06
【本文獻信息】何曉華,朱津津,凌堅.新聞節目導語中關鍵詞自動提取方法研究[J].電視技術,2014,38(20).
浙江廣播電視技術研究所2013年科研項目
朱津津(1980—),女,實驗師,主要從事電視技術的研究和應用;
凌 堅(1968—),副教授,主要從事智能多媒體、視頻處理的研究。