999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的金融文書摘要自動生成研究與實現

2019-09-10 07:22:44胡赫薇龔潤澤葉慕戎
河南科技 2019年32期

胡赫薇 龔潤澤 葉慕戎

摘 要:金融文書的自然語言處理是目前金融科技領域的研究熱點,相關研究大多數著眼于傳統的分詞和基于機器學習的語義場景分析這種有監督的學習方法,難以滿足當前金融監管行業快速處理金融文本的需求。針對這一問題,本文構建了一個基于多層LSTM的中文金融文書摘要自動生成算法框架,通過Seq2Seq模型,基于注意力機制的強化學習框架,發現最優策略,對文本進行編碼、解碼,從LSTM編碼器中抽取文本序列并輸出摘要。實驗結果表明,多層LSTM結構相比傳統RNN的ROUGE值更高,具有較好的學習能力。

關鍵詞:金融文本;摘要自動生成;序列到序列;注意力機制

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1003-5168(2019)32-0018-03

Research?and?Implementation?of?Automatic?Generation?of

Financial?Document?Abstract?Based?on?Deep?Learning

HU?Hewei GONG?Runze YE?Murong

(Shanghai?Lixin?University?of?Accounting?and?Finance,Shanghai?201209)

Abstract:?The?natural?language?processing?of?financial?documents?is?a?research?hotspot?in?the?field?of?financial?science?and?technology?at?present.?Most?of?the?relevant?researches?focus?on?the?supervised?learning?method?of?traditional?word?segmentation?and?semantic?scenario?analysis?based?on?machine?learning,?which?is?difficult?to?meet?the?needs?of?the?current?financial?regulatory?industry?to?process?financial?documents?quickly.?To?solve?this?problem,?this?paper?constructed?an?algorithm?framework?based?on?multi-layer?LSTM?(short?and?long-term?memory?network)?for?automatic?generation?of?Chinese?financial?document abstracts,?and?used?Seq2Seq?(sequence?to?sequence)?model.?The?experimental?results?show?that?the?multi-layer?LSTM?structure?has?better?learning?ability?than?the?traditional?RNN?(cyclic?neural?network)?in?terms?of?the?value?of?the?rule?(semantic?recovery).

Keywords:?financial?text;automatic?summary?generation;sequence?to?sequence;attention?mechanism

1 研究背景

隨著全球金融高度信息化的大趨勢,金融文本信息正在急速膨脹,金融從業者想要快速且全面地找到所需信息并閱讀理解難度較大,所以,金融文書的精準語義摘要生成算法已成為金融科技領域的研究熱點。2011年,Mihalcea提出了TextRank和LexRank算法。這兩個算法都基于重要性和數量的假設,實現無監督算法進行關鍵詞和關鍵句的抽取。2014年,谷歌團隊和Yoshua?Bengio提出了Seq2Seq的框架,包含編碼與解碼過程。在編碼過程中,該框架實現了輸出可變長度序列的功能,將深度學習的應用范圍從傳統的分類回歸任務擴展到文本生成領域,是深度學習發展歷史上的里程碑[1-5]。

本文提出基于序列對序列和注意力機制的處理框架,雙向LSTM作為處理單元的文本自動摘要處理模型,解決了語義包含性和通用性的問題。

2 金融文書摘要自動生成

2.1 多層LSTM模型

LSTM模型的特點是系統的輸出會保留在網絡中,和系統下一時刻的輸入共同決定下一時刻的輸出。傳統的LSTM模型無法編碼從后到前的信息,因此,筆者采用雙向LSTM其中,文本詞匯與上下文具有關聯性,存在雙向語義依賴的特性。

雙向LSTM的基本思想是將每個序列前向和后向輸入兩個循環神經網絡的隱藏層,兩者都連接到相同的輸出層O,使得輸出層O同時獲得全文的所有信息,計算公式為:

[O=gWoh+W′oh+bo]???????????????????(1)

式中,[g]為激活函數;[WO]為權重矩陣;[h]為激活值;[bo]為偏置項;完成輸出層O的計算后,通過注意力機制求出語義向量[ct]:

[ct=t=1Nxotαt,t]???????????????????????????????(2)

式中,[α]為語義權重;[Ct]表示t時刻的語義向量取值;[Nx]表示時刻的合集。

此后,所有語義向量將輸入含有單層LSTM的解碼部分。使用多層LSTM框架,能夠更抽象地表達特征,減少神經元的個數,提升模型性能。同時,引入注意力機制,減輕了序列對序列模型中上下文語義向量的信息負擔,對后續生成內容有針對性地生成對應注意力權重,優化了模型的實際生成效果。

2.2 集束搜索

當文本摘要生成模型訓練完成后,本文采用了集束搜索算法,輸出摘要結果。集束搜索是做了約束優化的廣度優先搜索,從海量文本中挑選出最優的句段作為摘要輸出。其能減少空間消耗,提高生成效率。然而,一般的集束搜索在處理序列時存在數值下溢,傾向于簡短的翻譯結果。

針對上述問題,利用集束搜索在每一步獲得了N種可能的結果后,需要對其進行概率分析,過濾出前B個分支,對每個分支都要保存當前的節點狀態,此后再對集束寬度以內的詞重復進行搜索過濾,直到序列被完整輸出。

3 實驗與仿真

3.1 金融文書采集與處理

本文的實驗數據集來源于東方財富網,包含有3?000份金融文書,將其分段后共計12?000段,數據集以4∶1的比例分為兩部分,實驗采用第一部分作為模型訓練集,使用Word2Vec訓練工具來訓練詞向量;采用第二部分作為模型測試集。在執行過程中,主要對表1信息進行替換和處理。

本文使用開源中文分詞工具進行分詞,將金融文書切成若干詞組構建語料庫,之后將其轉換成計算機可讀的ID。

對切好的詞組分別計算詞頻,詞頻經過處理后以高頻詞作為中心詞列表,將語料庫中的詞遍歷,計算語料庫中詞語和中心詞的相似度。當相似度高過閾值時,判斷這個詞與中心詞存在近義關系,將該詞的詞頻與中心詞合并后剔除該詞。依據此方法進行重復操作,直至遍歷完高頻詞,得到中心詞字典。此舉可避免不同詞語表示相同含義,導致詞頻估計不準確。

處理完成后,將獲取的金融文書中摘要與正文分開,添加標簽,便于程序對文書的識別和理解。

表1 對語料的處理

[信息 處理 特殊字符 去除特殊字符 日期 替換為標簽TAG_DATE 超鏈接URL 替換為標簽TAG_URL 全角英文 替換為標簽TAG_NAME_EN 數字 替換為標簽TAG_NUMBER ]

3.2 實驗參數設置

本實驗選取的語料庫較大,計算較為復雜,為了確保模型相對快速地收斂,需要的設備資源要求較高,具體配置如表2所示。

模型相關參數如表3所示。

4 結果與分析

本文選用了抽取式摘要和RNN模型兩種模型與本文模型進行比較,具體實驗結果比較如表4和表5所示。

通過表4可知,生成式摘要的ROUGE值普遍高于抽取式摘要,這佐證了近年來的研究趨勢,即趨于研究生成式摘要。通過對比RNN模型與本文模型的實驗結果可以發現,本文模型的ROUGE-2,3,4值均高出RNN模型6至8個百分點,說明本文句間的連貫性更好,可讀性較高,具有較好的可讀性。

通過對比表5的摘要樣例,發現本文模型在概括全文內容基礎上能學習、模擬人類撰寫摘要的方式,生成新詞匯對文書進行歸納總結,邏輯性更優。

盡管本文模型的ROUGE值普遍高于其他模型,然而ROUGE-1仍低于RNN模型,這說明本文模型所能涵蓋的信息量仍然有限,如何完整地概括文書內容仍需要進一步深入探索。此外,本文的優異效果與充足的訓練樣本密不可分,樣本量越大,ROUGE值往往越高。倘若訓練樣本數量有限,如何從中訓練出完整流暢的摘要急需深入研究。

5 結論

本文構建了一個基于多層LSTM的中文金融文書摘要自動生成算法框架。其最終實驗及評價結果顯示,本學習框架生成的摘要可讀性較高,未來可以通過與Textrank等一系列機器學習模型結合獲得更好的信息完整度,將神經網絡模型應用到處理金融類多文檔多句子式的生成摘要中。

參考文獻:

[1]陳曉萍.基于主題的短文本自動摘要抽取研究與應用[D].成都:電子科技大學,2017.

[2]李擎.基于語義詞向量的文本分類多文檔自動摘要[D].北京:北京郵電大學,2018.

[3]洪冬梅.基于LSTM的自動文本摘要技術研究[D].廣州:華南理工大學,2018.

[4]郭洪杰.基于深度學習的生成式自動摘要技術研究[D].哈爾濱:哈爾濱工業大學,2018.

[5]趙懷鵬.基于神經網絡的抽取式摘要系統的研究與實現[D].哈爾濱:哈爾濱工業大學,2018.

主站蜘蛛池模板: 国产精品私拍99pans大尺度| 婷婷激情五月网| 中文字幕首页系列人妻| 伊人久久大线影院首页| 正在播放久久| 一本久道久久综合多人| 天堂中文在线资源| 97se亚洲综合不卡| 亚洲欧洲日产国产无码AV| 青青草原偷拍视频| 在线国产三级| 久久国产精品波多野结衣| 凹凸精品免费精品视频| 欧美日在线观看| 亚洲无码视频图片| 少妇精品在线| 欧美精品成人一区二区在线观看| 人妻一区二区三区无码精品一区 | 伦精品一区二区三区视频| 久久久久中文字幕精品视频| 99视频全部免费| 亚洲天堂在线免费| 在线观看欧美国产| 中文成人在线视频| 天堂va亚洲va欧美va国产 | 任我操在线视频| 熟女日韩精品2区| 国产欧美在线观看精品一区污| 欧美日韩成人在线观看| 又大又硬又爽免费视频| 久青草免费在线视频| 一本久道久久综合多人| 国产成人无码AV在线播放动漫| 国产亚洲精久久久久久无码AV| 国产美女免费| 91久久精品日日躁夜夜躁欧美| 国产亚洲一区二区三区在线| 日韩黄色在线| 青青草原偷拍视频| 依依成人精品无v国产| a毛片基地免费大全| 亚洲一区色| 一级毛片免费播放视频| 久久天天躁狠狠躁夜夜2020一| 亚洲日韩高清在线亚洲专区| 91精品国产综合久久香蕉922| 国产精品白浆无码流出在线看| 国产乱人免费视频| 国产精品va| 免费A级毛片无码免费视频| 午夜欧美理论2019理论| 91视频首页| 亚国产欧美在线人成| 欧美成在线视频| 91在线播放国产| 呦女亚洲一区精品| 国产主播一区二区三区| 色香蕉影院| 欧美成人影院亚洲综合图| 欧美a级完整在线观看| 免费一级毛片完整版在线看| 欧美h在线观看| 99精品福利视频| 四虎影视库国产精品一区| 欧日韩在线不卡视频| AV不卡无码免费一区二区三区| 漂亮人妻被中出中文字幕久久| 中国黄色一级视频| 亚洲综合精品香蕉久久网| 夜夜拍夜夜爽| 久久久久国产一区二区| 国产99在线观看| av一区二区三区在线观看| 精品伊人久久久香线蕉| 国产99在线观看| 亚洲 欧美 偷自乱 图片 | 狠狠色婷婷丁香综合久久韩国| 毛片网站免费在线观看| 美女一级毛片无遮挡内谢| 亚洲国产精品不卡在线 | 日本三级欧美三级| 成人伊人色一区二区三区|