(景德鎮陶瓷大學 江西 景德鎮 333000)
基于Tensorflow的Text Summarizaion模型自動生成新聞標題
田江童薇羽
(景德鎮陶瓷大學江西景德鎮333000)
隨著人工智能的快速興起,Google發布的深度學習框架TensorFlow在短短兩年內,就成為了當前最流行的深度學習項目。
在圖像處理、音頻處理、自然語言處理和推薦系統等場景中,TensorFlow都有著豐富的應用。雖然開源沒多久,但是TensorFlow正在快速的參與到我們的工作生活當中。
Tensorflow;Text Summarizaion;自動 生成
隨著互聯網的迅速發展,網絡中的新聞資源呈指數級增長;在眾多的新聞中,如何讓用戶又快有好的閱讀到自己感興趣的新聞資訊成為了當下的研究熱點;本文為某新聞企業通過接入智能推薦系統,在其APP端增加智能推薦模塊,就能為APP用戶私人訂制感興趣的新聞。
文本自動總結的模型一直都是深度學習中的研究熱點。有一些諸如TFIDF和TextRank之類常規算法,其基本原理是直接抽取文本中重要的句子。目前常用的模型是seq2seq,它是基于Encoder-Decoder的一個結構,首先將原始文本中的句子encode成一個固定大小的向量,然后通過decoder部分一個字符一個字符生成目標句子。
Tensor意味著數據,Flow意味著流動、計算和映射,這也體現出數據是有向的流動、計算和映射。TensorFlow的結構由會話(session),圖(graph),節點(operation)和邊(tensor)組成,它使用圖(graph)來表示計算任務,圖在被稱之為會話(Session)的上下文(context)中執行,其狀態是通過變量(Variable)來維護的,使用feed和fetch可以為任意的操作(arbitrary operation)賦值或者從其中獲取數據。
這篇文章中我們將采用基于Tensorflow的Seq2seq+Attention模型,訓練一個新聞標題自動生成模型。 加入Attention注意力分配機制,是為了使Decoder在生成新的目標句子時,可以得到前面Encoder編碼階段每個字符隱藏層的信息向量,提高生成目標序列的準確度。
樣本數據為某企業新聞客戶端2016年11月份的新聞,超過10M的語料數據,包含新聞標題和新聞正文信息。由于在Encoder編碼階段處理的信息會直接影響到整個模型的效果,所以對新聞數據的預處理工作需要非常細致。對新聞中的特殊字符、日期、英文、數字以及鏈接都要進行替換處理。
文本預處理后,就是訓練樣本的準備工作。這里的Source序列,就是新聞的正文內容,待預測的Target目標序列是新聞標題。為了保證效果,正文部分不能過長,這里設定分詞后的正文不超過100個詞,不足用PAD字符補齊,設定標題不超過20個詞。在生成訓練樣本的時候,定義了create_vocabulary()方法來創建詞典,data_to_id()方法把訓練樣本(train_data.txt)轉化為對應的詞ID。


Seq2Seq是一個基于輸入的sequence,預測一個未知sequence的模型。模型由Encoder編碼階段和Decoder解碼階段兩部分構成。模型編碼階段Encoder的RNN每次會輸入一個字符代表的向量,將輸入序列編碼成一個固定長度的向量;解碼階段的RNN會一個一個字符地解碼,如預測為X。在訓練階段時會強制將上一步解碼的輸出作為下一步解碼的輸入,即X會作為下一步預測Y時的輸入。
當編碼階段輸入的序列過長時,解碼階段LSTM模型將無法針對最早的輸入序列解碼。Attention注意力分配機制,在解碼階段每一步解碼時,都會有一個輸入,對輸入序列所有隱含層的信息進行加權求和,能夠很好的解決這個問題。
將分詞后的新聞文本數據拆分為訓練樣本和測試樣本,共四個文件:train_data.txt,train_title.txt,test_data.txt,test_title.txt 。新聞正文內容和其對應的新聞標題需要分開存放在兩個文件內,一行為一條新聞樣本。
運行腳本,訓練好的模型將被保存下來,部分預測好的Text Summarizaion如下:

ID新聞正文新聞標題模型生成標題112882故宮長城央視大樓鳥巢水立方有名地方不勝枚舉地界老百姓生活相關市井本土北京胡同推薦北京胡同游攻略瞧瞧北京普通百姓生活每條胡同故事細細的品味體會魅力pstrong煙袋斜街strongp煙袋斜街位于地安門外大街鼓樓前什剎海前海北側此街東西斜形走向全長232米煙袋斜街元朝時期抄近道走出一條煙袋斜街當年居住旗人嗜好抽煙煙葉裝在煙袋中煙袋需求與日俱增斜街上一戶一戶開起煙袋鋪街道宛如一只煙袋得名煙袋斜街街道兩側建筑典雅樸素頗具明清傳統風格其前店居形式呈現出古風猶存市井風情展現出濃郁北京傳統風貌煙袋斜街北京北城有名氣文化街北京什么地方最出名北京有名地界旅游攻略推薦112803北京是因為它作多年首都作這么久首都全是因為北京優秀全賴800年前千萬別張國字臉迷惑他本名叫完顏迪古金朝第四位皇帝歷史鼎鼎大名海陵王皇帝先爺爺說起爺爺完顏阿骨打即金太祖金朝第一位皇帝公元歲完顏阿骨東北白山黑水間無數次廝殺終于滅遼朝建立金國建都寧府哈爾濱市城區白城電視劇中阿骨打是右邊那位穿高檔動物皮草北京優秀全賴年前不錯細心讀者發現這位阿骨丐幫幫主喬峰結拜兄弟那位金太祖六年皇帝去世女真族兄終弟及傳統金太祖弟弟完顏晟即位金太宗金太宗歲去世前不想皇位傳給弟弟想傳給兒子太祖太宗兩派子孫奪位幾個回合有人舉牌北京優秀不用再思考為什么來北京北京優秀文化遺產112337中國多地霧霾齊發城市發布霧霾預警城市朦朧模式華北黃淮地迎本輪霧霾最重時段京津冀省份局部重度霾北京今夜污染物迎來本次污染峰值今晨上午四川湖南局地有強濃霧應對重污染天氣京津冀環保部門聯動執法停工停產禁行中小學停止室外活動京津冀省份今日局部重度霾夜間空氣中濕度增大污染物擴散條件轉差華北黃淮空氣質量下降華北黃淮地霧霾襲北京河北天津發布重污染預警中央氣象臺預計18白天夜間華北黃淮本輪霧霾過程北京南部天津西部河北中部河南中部陜西關中山西中部局部地區重度霾另據交通運輸部發布路況多地霧霾齊發中國發布霧霾預警中國發布多地霧霾預警
隨著互聯網的迅速發展,網絡中的新聞資源呈指數級增長,通過深度學習自動生成的標題往往能很直觀的體現新聞的主題內容,便于讀者快速的瀏覽新聞,準確選擇自己感興趣的內容,節約時間成本,能夠給讀者帶來很好的體驗感。
智能推薦已經成為一種勢不可擋的趨勢,隨著人工智能的發展,算法推薦必將成為內容領域的主流之一。如果將基于Tensorflow的LSTM主題分類的個性化推薦和非個性化推薦相結合,不僅能很好的解決用戶冷啟動問題,而且可以滿足企業的個性化需求和用戶的實時智能推薦。
田江(1987-),男,漢族,江西上饒人,統計學碩士。
)