【摘要】 隨著技術的發展,越來越多的新聞媒體希望通過先進的技術來提高發稿數量,提升新聞服務質量。美聯社已經采用稿件自動生成軟件撰寫財經、體育類稿件。本文研究了自動生成稿件所采用的關鍵技術、主要應用模式及未來的應用展望,并探討了此類技術在中文領域的實踐。
【關鍵詞】 自動生成稿件 智能語義分析 知識概念模型
隨著技術的發展,越來越多的新聞媒體希望通過先進的技術來實現用機器取代人力,提高發稿數量,提升新聞服務質量。 美聯社、彭博社、洛杉磯時報等媒體已經在體育、財經、天氣等領域實現了“機器人寫新聞”。
一、關鍵技術
1.1數據抽取與挖掘技術
該技術對海量數據進行結構化處理、清洗,形成高質量的結構化數據,通過對結構化數據的抽取、計算及統計,根據模板實現自動寫稿功能。
1.2知識概念模型技術
利用該技術能夠對新聞稿件、分析報告等作者進行行為分析,從海量數據中抽取出記者、編輯、分析師在知識經驗、思維邏輯、推理規則等方面的專家智慧,將專家智慧轉換成計算機能夠識別并處理的數據,從而形成支持高效查詢、存儲管理,可用于挖掘分析的專家智慧數據。
1.3結合智能語義分析的大數據分析技術
該技術是結合語義計算等人工智能方法的綜合性技術,將人對事物概念、事物間的關系、事物屬性的描述、事物間相互影響和影響的傳遞規則等形成一個框架,將自然語言的詞匯附著在這個框架上,二者結合就可以在文章中發現上述內容并結構化的抽取出來,也可以依據上述框架結合模板生成更加豐富的自然語言。依托專家智慧數據對海量數據進行規模化處理,模仿專家的行為在海量數據中發現和挖掘有價值的信息并抽取出來,自動生成包括原因、結論、推測等深度內容的新聞和報告,應用范圍廣泛,不局限于財經、體育等領域。隨著專家智慧數據的積累,逐漸形成超越個人的超級“大腦”,其分析結果的價值也會越來越高。
二、主要應用現狀和展望
2.1利用高質量結構化數據實現自動發稿
通過抓取、采購等形式獲取高質量結構化的數值型數據,使用行業領域專家提供的計算公式和判別規則,在預先設置好的新聞模板中生成新聞或快訊,彭博社、洛杉磯時報也有類似的應用,主要應用于財經、體育等能產生較為成熟的結構化數據的領域。
2.2自動生成適應多種媒介形式的稿件
對每篇新聞自動生成標簽和200字以內的摘要,并能夠將稿件自動生成適用于網站、PAD、智能手機、短彩信等多種篇幅、多種格式的多篇稿件,在不增加人力成本的基礎上增加發稿數量和發稿形式。
2.3個性化自動生成稿件并推送
對用戶的閱讀內容、閱讀習慣進行行為分析挖掘,獲得用戶喜好,根據用戶自定義的標簽及喜好,可以將同一篇稿件根據不同的喜好自動生成多篇不同報道角度、不同語言風格、不同篇幅的稿件,為用戶推送個性化的新聞,提高新聞推送的精確性,有效增強用戶粘性。
2.4根據素材智能化生成稿件
將采訪獲得的錄音通過語音識別技術轉換成文字材料,將文字材料、背景資料等原始素材與某個記者的專家智慧數據相結合,由計算機自動生成符合該記者風格的稿件,提高記者撰寫稿件的效率,提升報道的時效性。
三、在中文領域的實踐探討
1、利用結構化數據實現的自動發稿,主要依賴高質量的結構化數據、明確無誤的結構化數據計算算法和公式以及新聞業務人員校對確認過的模板,比較容易做到極高的自動新聞生成的準確率和完全自動化。
2、在英文領域,自動新聞生成中的關鍵技術和方法日趨成熟,中文領域相關標準和技術由于中文的復雜度,不適合照搬英文領域的方法。目前中文領域智能化寫稿不太容易做到非常精準,但可以做到結論有依據、可解釋,這樣已經足夠減輕記者、編輯工作強度,并提供足夠的規模化高附加值信息生成能力。
四、結束語
“機器人寫新聞”是一系列技術的一個落地應用,這些技術的核心價值是提供了一個專家智慧的持續積累方式,讓計算機處理大數據越來越智能。隨著技術的發展,高質量的數據資產和智慧資產積累日益豐富,不僅能實現“機器人寫新聞”,還將會是深度報道、智庫及咨詢業務規模化開展的重要基礎。