任海平
(浙江日報報業集團產品研發中心,浙江 杭州 310039)
隨著媒體大數據時代的到來,媒體用戶獲取信息的渠道變得越來越豐富,也越來越便利,而日益快速增長的新聞資源不僅給新聞出版行業發展帶來巨大的機遇,更帶來了前所未有的挑戰。這些挑戰是多層次、多方面的,本文聚焦其中的技術挑戰——如何高效利用海量新聞資源提升新聞制作水平,立足浙報集團媒體出版特色,利用深度學習的模型設計并實現智能寫稿輔助服務平臺。
要實現高質量的智能寫稿輔助功能,關鍵技術難點是如何快速有效地從海量新聞文本中把與當前撰寫稿件相關的新聞資料匯聚起來,形成有價值的創作素材。由于這種匯聚要求在語義上是高度相關的,因此簡單利用關鍵詞搜索不僅費時費力,也無法取得匯聚的良好效果。利用機器學習的方法,實現新聞文本資源的自動聚類是一個較好的解決方案。傳統面向文本聚類的機器學習方法主要包括:基于決策樹、基于概率圖模型和基于向量空間等各類方法。然而,這些方法都屬于淺層模型,無法利用不斷增長的文本數據來提高聚類效果,甚至會下降。因此,本文采用深度學習的模型,實現新聞文本資源的高質量聚類。具體而言,我們利用深度學習模型對文本進行層層特征提取并降維,最終獲得較為精練的文本特征代碼,使得在語義上相關度較高的文本代碼,在語義空間中的距離也是相近的,從而實現相關資料的匯聚。
在內容創作過程中,利用訓練好的深度模型,系統可以動態提取當前稿件內容(甚至只是一個標題),生成語義代碼,并快速從海量媒資庫中捕捉到與當前最為相關的文本素材,第一時間推送至寫稿平臺,供內容創作者參考使用,這便是本文闡述的智能寫稿輔助服務。由此項技術衍生出“主題延展”“稿件背景”“自動摘要”甚至機器寫作等場景應用,讓內容創作者真正享受到人工智能時代的紅利。
寫稿的智能內容輔助的關鍵技術難點在于如何根據寫稿人當前錄入的部分內容,在語義空間中生成相應的語義代碼(向量),并快速在媒質庫中獲取和該語義代碼距離最為接近的相關文本資料。因此,這在機器學習領域中是一個典型的文本聚類問題,即利用高效的算法實現針對在人看來語義相近的文本在虛擬語義空間中也是距離相近的。
為此首先我們要對文本進行建模,目前最為常用的建模方式是“文檔-詞”矩陣(簡稱“D-T”矩陣):A=(aik),其中aik是矩陣中的元素,目前大多采用TF-IDF權重法。在此基礎上,本文利用深度學習模型從“D-T”矩陣中生成高質量的語義特征代碼,利用這種代碼,可以高效地獲得和寫稿內容相關文本資料。在闡述新方法之前,我們首先回顧一下傳統文本聚類的主要方法。
為實現有效的文本聚類,機器學習領域已經做了長期的探索,并取得長足進展。從技術實現路線劃分,傳統文本聚類算法大致分為以下三種:
1.基于決策樹的模型
決策樹(Decision Tree)是一種利用樹狀結構來描述一個決定和其產生結果的模型,并且在樹的結構中,賦予每個結果一定的可能性。其中主要典型算法包括:ID5、C4.5、QUEST、PUBLIC等。決策樹的優勢在于邏輯和規則的可解釋性,對于非大量的強數據集,結合領域專家的經驗,決策樹可以取得較好的效果。
2.基于概率圖的模型
概率圖模型是文本挖掘中應用最為廣泛的一種模型,它的基本假設是不同的文本擁有不同詞的聯合概率分布,換句話說,不同詞的概率組合將產生不同類型的文本,其中典型模型包括:樸素貝葉斯分類器(Na?ve Bayes Classifier),pLSA(Probabilistic Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation)等。該類算法模型,能夠發展各種更加復雜的模型,并在新聞文本語義分析中做出很大的貢獻。
3.基于向量空間的模型
基于向量空間的模型立足“D-T”矩陣,每一行代表一個文檔,它在向量空間中為一個向量,每一個分量代表詞的權重。該類模型通過各種向量空間的變換來估算兩篇文本的相似度,其中典型模型包括:支持向量機(Support Vector Machine,SVM)、k個最鄰近(k-Nearest Neighbor,kNN)算法和支持向量聚類(Support Vector Clustering,SVC)模型等。
這三類算法模型均屬于淺層模型,其主要局限性體現在,它們無法充分利用不斷增長的文本大數據來提升其性能(甚至會下降),同時無法實現多層次隱含語義的高效分析。因此,本文采用深度學習的方法實現高效語義代碼的提取并聚類。

圖1
為充分利用媒資庫中海量的新聞文本數據,提升聚類的效果,本文采用了深度學習模型,生成蘊含有效語義的文本代碼的基礎上,實現高質量文本聚類。目前深度學習比較主流的模型有CNNs(Convolutional Neural Networks)、DGMs(Deep Generative Models) 和 RNNs(Recurrent Neural Networks)。由于文本聚類是非監督學習,因此我們采用屬于DGMs中DBNs(Deep Belief Networks, DBNs),如圖1(b)所示。
圖1是基于DBN的文本聚類模型示意圖,(a)是RBM,用于逐層預訓練;(b)是DBN,為本文主模型[2000,800, 800, 256];(c)是在DBN精調過程中,展開的Deep Autoencoder。
DBNs是一種混合多層概率圖模型,它可以利用RBMs(Restricted Boltzmann Machines)實現層層預訓練(pre-training)來獲得多層次特征的提取。而RBM是一種基于能量的模型,預訓練的詳細過程可詳見Hinton的成果。
要提取文本的語義特征,并生成代碼,首先要利用首層RBM對文本進行采樣和建模。首先,我們利用傳統方法獲得文本“D-T”矩陣。由于每篇文本的長度不同,因此我們采用的方式是復制Softmax模型進行首層采樣和預訓練,具體采樣公式如下:

公式(1)(2)
其中vik,為第i篇文本的第k個分量,h(1)為第1隱藏層,{W(1),a(1),b(1),}為第1層RBM的參數,g(x)=1/(1+exp(-x))為Logistic函數。在此基礎上,利用多層RBM分別對{h(1),h(2),h(3),}進行訓練,并在h(3)上獲得文本的特征代碼。此時的特征代碼還不是最優化的,需要將DBN展開成為一個稱之為Deep Autoencoder的深度編碼器,并利用反向傳播(Backprogation)機制,獲得最優化的代碼,如圖1(c)所示。這里反向出傳播的目標函數選擇交叉熵的偏差(cross-entropy error)函數:

公式(3)
其中,vi(input)為第篇文本,vi(output)為第i篇文本通過層層采樣后的輸出,M為文本的數目。
深度編碼器對DBN的參數做進一步優化之后,我們可以在深度模型的頂層h(3)獲得文本較高質量的特征代碼,我們將該特征代碼存入媒資庫的每篇文稿的記錄中,并在智能寫稿輔助服務中,用于語義相關性的聚類和搜索。
在確立了上述理論和技術模型后,接下來就是如何將其應用于媒體內容采編環節,賦予更多的智能。為此,我們選擇了智能寫稿輔助服務作為切入點。在傳統的寫稿功能設計中往往只實現了一些常規性功能,如:發稿單欄設置、內容編輯、文字修飾、字行統計、文章關聯、檢索等,這些功能只對成文方面提供了一定幫助。隨著媒體對內容創作的數量、質量、效率以及非同質化要求越來越高,這些傳統功能早已無法滿足新的需求。創作者們渴望通過新技術手段來提升內容策劃、內容組織、背景資料查找以及關聯信息挖掘能力,為內容“編碼”,實現知識增量,快速形成精品原創。
要形成有效的智能寫稿輔助服務,首先要構建一套海量的、存放高質量語義特征代碼的媒資庫,這也是內容基礎。目前能為媒體所用的數據源非常廣泛,就以浙報集團“媒立方”項目而言,數據的采集分為了資源圈與分析圈,覆蓋了新聞、資訊、交互性內容范疇,包括但不局限于集團采編資源、歷史媒資數據、全網重點新聞(如:媒體網站、政府門戶、微博、微信、論壇、新聞爆料、數字報、APP)以及民眾互動數據等,如圖2。
接下來就是對這些采集數據的清洗處理,包括脫敏(保留隱私性)、清理(保留有效數據)、加標簽(分類)等前序工作,形成初始數據源(圖2-[S1])。若計算資源充足,還可對初始數據源按信息階段(信息發現、信息跟蹤、信息挖掘、信息推薦、信息評估)和信息性質(速度、廣度、準度、深度、流行度)兩大需求方向進行二次結構化預處理,形成初始數據源(圖2-[S2])。最后,利用深度學習模型,將預處理結果數據進行特征代碼計算、提取、存儲,形成真正可利用的優質信息,供智能寫稿服務使用。
根據實際應用需要,我們設計了兩類智能寫稿輔助服務:主題延展和背景資料,并在浙報集團“媒立方”項目的融合寫稿編輯器中應用,并取得了非常好的效果。
1.主題延展的實現與效果
主題延展可動態獲取當前稿件相似主題、相似內容在其他媒體的報道文章。對于該場景設計,需要將智能輔助服務掛鉤內容編輯的全過程,隨著創作內容篇幅的越來越長,其文章主題也逐漸清晰,當完成整段內容輸入,系統即可觸發機器深度學習算法服務,對當前已輸入內容進行分析并抽取語義特征代碼。與此同時,該服務與后臺媒資庫海量語義特征碼進行匹配,當超過預設的匹配值后,系統便可獲取相似度最高的文章推送至用戶端。
對于相似主題文章的展示,我們在設計上應包括:標題、摘要、來源、發布時間,具體控制如表1所示。

表1 各要素設計說明
在“媒立方”項目融合編輯器設計中,我們為編輯器的右側欄專門設計了智能輔助頁簽欄,可別小看這幾個頁簽,已經成為記者編輯在內容采編過程中不可或缺的助手。一旦創作者開始內容寫作,“主題延展”服務便根據編輯器中的內容進行智能分析,并實時地將匹配到的信息推送至編輯窗右側頁簽內,設計界面如圖3:

圖3:主題延展界面展示
(1)查閱結果:“主題延展”結果內容以瀑布流式顯示,并分布在稿件編輯器右側,用戶點擊任意一篇內容即可打開查閱原文。對于長標題,只需將鼠標放置標題位置,便會彈出浮動信息窗,完整顯示標題內容。當結果文章數過多并超出本頁,可單點擊“展開更多”進行全量查閱。

圖2:數據源采集與處理框架
(2)內容選?。簝热葸x用方式在設計上要突出方便、快速,因此在本設計中,我們約定了鼠標拖拽方式,通過鼠標拖動即可將所選文章內容、圖片、音視頻,插入至編輯器正文光標位置。
(3)主題延展內容更新:每次觸發“主題延展”功能,均會對當前正文內容進行一次深度學習,并同步更新“主題延展”結果內容清單。內容更新的觸發機制有很多種,可以在內容增刪改查時觸發,亦可在換行、換段以及保存時觸發,為了最大程度避免影響寫作體驗,同時又能達到主題延展效果,最終我們選定了“回車換行”作為主要觸發機制。
2.稿件背景的實現與效果
“稿件背景”是從當前稿件內容中抽取人名、地名、機構名等關鍵詞,加以解釋,或列舉這些關鍵詞在歷史重要媒體報道中的描述,為內容創作者提供稿件背景資料。同理,在該場景設計中,用戶在內容創作到達一定篇幅后,系統會根據已輸入內容觸發機器深度學習服務,確立人名、地名、機構名等關鍵詞以及語義特征代碼,并與媒資庫海量語義特征碼進行匹配,獲取相似度最高的文章推送給用戶端,為內容創作者提供文章相關的高價值信息。對于稿件背景結果的展示,在設計上包括:標題、摘要、來源、發布時間,展示控制與“主題延展”相同。但不同的是,稿件背景的核心匹配目標是文章關鍵詞,如:人名、地名、機構名以及其他關鍵詞,通過不同組合的關鍵詞選擇,將會產生不同的背景資料呈現結果。
在“媒立方”項目融合編輯器設計中,我們同樣為編輯器的右側欄專門設計了“稿件背景”智能輔助頁簽。在內容創作過程中,系統會自動從當前稿件中抽取人名、地名、機構名等關鍵詞,并列舉這些關鍵詞在各類媒體報道中的詳細描述,為內容創作者提供文章相關背景信息。例如:一篇稿件中引用了某一句詩歌、典故,通過背景資料就可以快速定位到這句詩歌、典故的完整原創內容。設計界面如下:

圖4:稿件背景界面展示
“稿件背景”以瀑布流方式顯示關鍵詞所定位的原文內容,用戶可在稿件編輯器右側“稿件背景”欄點擊查閱。各類關鍵詞間以“and”搜索關系約束,且同一類關鍵詞約束為單選,不同類關鍵詞允許多選。內容選用方式、內容更新與“主題延展”功能設計一致。
本文詳細闡述了基于深度學習的智能寫稿輔助服務的關鍵技術和設計方案,其出發點是讓機器(服務器計算資源)充分進入內容信息源領域,幫助我們完成第一道最費時費力的數據收集和結構化處理工作,讓海量的內容資源庫成為真正有價值的知識庫。當然對算法模型的優化與實踐還需要一個過程,可以預見,在不久的將來,通過人工智能深度學習,必然會帶來包含內容生產要素在內的衍生變化,甚至引發傳統信息流生產方式的顛覆。