胡赫薇 龔潤澤 葉慕戎


摘 要:金融文書的自然語言處理是目前金融科技領域的研究熱點,相關研究大多數著眼于傳統的分詞和基于機器學習的語義場景分析這種有監督的學習方法,難以滿足當前金融監管行業快速處理金融文本的需求。針對這一問題,本文構建了一個基于多層LSTM的中文金融文書摘要自動生成算法框架,通過Seq2Seq模型,基于注意力機制的強化學習框架,發現最優策略,對文本進行編碼、解碼,從LSTM編碼器中抽取文本序列并輸出摘要。實驗結果表明,多層LSTM結構相比傳統RNN的ROUGE值更高,具有較好的學習能力。
關鍵詞:金融文本;摘要自動生成;序列到序列;注意力機制
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1003-5168(2019)32-0018-03
Research?and?Implementation?of?Automatic?Generation?of
Financial?Document?Abstract?Based?on?Deep?Learning
HU?Hewei GONG?Runze YE?Murong
(Shanghai?Lixin?University?of?Accounting?and?Finance,Shanghai?201209)
Abstract:?The?natural?language?processing?of?financial?documents?is?a?research?hotspot?in?the?field?of?financial?science?and?technology?at?present.?Most?of?the?relevant?researches?focus?on?the?supervised?learning?method?of?traditional?word?segmentation?and?semantic?scenario?analysis?based?on?machine?learning,?which?is?difficult?to?meet?the?needs?of?the?current?financial?regulatory?industry?to?process?financial?documents?quickly.?To?solve?this?problem,?this?paper?constructed?an?algorithm?framework?based?on?multi-layer?LSTM?(short?and?long-term?memory?network)?for?automatic?generation?of?Chinese?financial?document abstracts,?and?used?Seq2Seq?(sequence?to?sequence)?model.?The?experimental?results?show?that?the?multi-layer?LSTM?structure?has?better?learning?ability?than?the?traditional?RNN?(cyclic?neural?network)?in?terms?of?the?value?of?the?rule?(semantic?recovery).
Keywords:?financial?text;automatic?summary?generation;sequence?to?sequence;attention?mechanism
1 研究背景
隨著全球金融高度信息化的大趨勢,金融文本信息正在急速膨脹,金融從業者想要快速且全面地找到所需信息并閱讀理解難度較大,所以,金融文書的精準語義摘要生成算法已成為金融科技領域的研究熱點。2011年,Mihalcea提出了TextRank和LexRank算法。這兩個算法都基于重要性和數量的假設,實現無監督算法進行關鍵詞和關鍵句的抽取。2014年,谷歌團隊和Yoshua?Bengio提出了Seq2Seq的框架,包含編碼與解碼過程。在編碼過程中,該框架實現了輸出可變長度序列的功能,將深度學習的應用范圍從傳統的分類回歸任務擴展到文本生成領域,是深度學習發展歷史上的里程碑[1-5]。
本文提出基于序列對序列和注意力機制的處理框架,雙向LSTM作為處理單元的文本自動摘要處理模型,解決了語義包含性和通用性的問題。
2 金融文書摘要自動生成
2.1 多層LSTM模型
LSTM模型的特點是系統的輸出會保留在網絡中,和系統下一時刻的輸入共同決定下一時刻的輸出。傳統的LSTM模型無法編碼從后到前的信息,因此,筆者采用雙向LSTM其中,文本詞匯與上下文具有關聯性,存在雙向語義依賴的特性。
雙向LSTM的基本思想是將每個序列前向和后向輸入兩個循環神經網絡的隱藏層,兩者都連接到相同的輸出層O,使得輸出層O同時獲得全文的所有信息,計算公式為:
[O=gWoh+W′oh+bo]???????????????????(1)
式中,[g]為激活函數;[WO]為權重矩陣;[h]為激活值;[bo]為偏置項;完成輸出層O的計算后,通過注意力機制求出語義向量[ct]:
[ct=t=1Nxotαt,t]???????????????????????????????(2)
式中,[α]為語義權重;[Ct]表示t時刻的語義向量取值;[Nx]表示時刻的合集。
此后,所有語義向量將輸入含有單層LSTM的解碼部分。使用多層LSTM框架,能夠更抽象地表達特征,減少神經元的個數,提升模型性能。同時,引入注意力機制,減輕了序列對序列模型中上下文語義向量的信息負擔,對后續生成內容有針對性地生成對應注意力權重,優化了模型的實際生成效果。
2.2 集束搜索
當文本摘要生成模型訓練完成后,本文采用了集束搜索算法,輸出摘要結果。集束搜索是做了約束優化的廣度優先搜索,從海量文本中挑選出最優的句段作為摘要輸出。其能減少空間消耗,提高生成效率。然而,一般的集束搜索在處理序列時存在數值下溢,傾向于簡短的翻譯結果。
針對上述問題,利用集束搜索在每一步獲得了N種可能的結果后,需要對其進行概率分析,過濾出前B個分支,對每個分支都要保存當前的節點狀態,此后再對集束寬度以內的詞重復進行搜索過濾,直到序列被完整輸出。
3 實驗與仿真
3.1 金融文書采集與處理
本文的實驗數據集來源于東方財富網,包含有3?000份金融文書,將其分段后共計12?000段,數據集以4∶1的比例分為兩部分,實驗采用第一部分作為模型訓練集,使用Word2Vec訓練工具來訓練詞向量;采用第二部分作為模型測試集。在執行過程中,主要對表1信息進行替換和處理。
本文使用開源中文分詞工具進行分詞,將金融文書切成若干詞組構建語料庫,之后將其轉換成計算機可讀的ID。
對切好的詞組分別計算詞頻,詞頻經過處理后以高頻詞作為中心詞列表,將語料庫中的詞遍歷,計算語料庫中詞語和中心詞的相似度。當相似度高過閾值時,判斷這個詞與中心詞存在近義關系,將該詞的詞頻與中心詞合并后剔除該詞。依據此方法進行重復操作,直至遍歷完高頻詞,得到中心詞字典。此舉可避免不同詞語表示相同含義,導致詞頻估計不準確。
處理完成后,將獲取的金融文書中摘要與正文分開,添加標簽,便于程序對文書的識別和理解。
表1 對語料的處理
[信息 處理 特殊字符 去除特殊字符 日期 替換為標簽TAG_DATE 超鏈接URL 替換為標簽TAG_URL 全角英文 替換為標簽TAG_NAME_EN 數字 替換為標簽TAG_NUMBER ]
3.2 實驗參數設置
本實驗選取的語料庫較大,計算較為復雜,為了確保模型相對快速地收斂,需要的設備資源要求較高,具體配置如表2所示。
模型相關參數如表3所示。
4 結果與分析
本文選用了抽取式摘要和RNN模型兩種模型與本文模型進行比較,具體實驗結果比較如表4和表5所示。
通過表4可知,生成式摘要的ROUGE值普遍高于抽取式摘要,這佐證了近年來的研究趨勢,即趨于研究生成式摘要。通過對比RNN模型與本文模型的實驗結果可以發現,本文模型的ROUGE-2,3,4值均高出RNN模型6至8個百分點,說明本文句間的連貫性更好,可讀性較高,具有較好的可讀性。
通過對比表5的摘要樣例,發現本文模型在概括全文內容基礎上能學習、模擬人類撰寫摘要的方式,生成新詞匯對文書進行歸納總結,邏輯性更優。
盡管本文模型的ROUGE值普遍高于其他模型,然而ROUGE-1仍低于RNN模型,這說明本文模型所能涵蓋的信息量仍然有限,如何完整地概括文書內容仍需要進一步深入探索。此外,本文的優異效果與充足的訓練樣本密不可分,樣本量越大,ROUGE值往往越高。倘若訓練樣本數量有限,如何從中訓練出完整流暢的摘要急需深入研究。
5 結論
本文構建了一個基于多層LSTM的中文金融文書摘要自動生成算法框架。其最終實驗及評價結果顯示,本學習框架生成的摘要可讀性較高,未來可以通過與Textrank等一系列機器學習模型結合獲得更好的信息完整度,將神經網絡模型應用到處理金融類多文檔多句子式的生成摘要中。
參考文獻:
[1]陳曉萍.基于主題的短文本自動摘要抽取研究與應用[D].成都:電子科技大學,2017.
[2]李擎.基于語義詞向量的文本分類多文檔自動摘要[D].北京:北京郵電大學,2018.
[3]洪冬梅.基于LSTM的自動文本摘要技術研究[D].廣州:華南理工大學,2018.
[4]郭洪杰.基于深度學習的生成式自動摘要技術研究[D].哈爾濱:哈爾濱工業大學,2018.
[5]趙懷鵬.基于神經網絡的抽取式摘要系統的研究與實現[D].哈爾濱:哈爾濱工業大學,2018.