基于文檔結構與深度學習的金融公告信息抽取

2020-02-08 04:10:26王博博

計算機工程與設計 2020年1期

黃勝，王博博，朱菁

(1.重慶郵電大學通信與信息工程學院，重慶 400065；2.重慶郵電大學光通信與網絡重點實驗室，重慶 400065；3.深圳證券信息有限公司數據中心，廣東深圳 518000)

0 引言

在投資研究過程中，上市公司金融類公告是投資者的重要參考材料，挖掘公告中的重要信息是決定性的步驟。但是，海量公告信息讓人腦難以負荷，如果機器能夠根據需求，自動分析、過濾、抽取有價值的結構化數據，就能幫助研究員快速獲取投資線索，從而做出最及時、準確的決策。

信息抽取(information extraction)是指從自然語言形式的文檔中抽取人們所感興趣的信息，并將其轉變為結構化信息的過程，以便用戶查詢和使用[1]。本文的結構化字段信息抽取任務可以看作是NLP中的序列標注(sequence labeling)任務。目前的主要方法分為：基于規則和詞典的方法、基于機器學習的方法及基于深度學習的方法。He等[2]提出了一種基于規則和條件隨機場(conditional random field，CRF)的地理命名實體識別方法，需要依賴于人工定制的特征抽取模板，代價很大。為了避免這一缺點，近年來多數研究者將深度學習應用于NLP領域。例如Chiu等[3]結合長短期記憶神經網絡(long short term memory，LSTM)與卷積神經網絡(convolutional neural network，CNN)進行命名實體識別；Hovy等[4]在Chiu的基礎上引入CRF層；Emma與Patric等[5]在CNN的基礎上構建迭代卷積神經網絡模型用于序列標注問題。在此基礎之上，本文提出一種基于LSTM與CRF的網絡模型用于提取信息句中的字段信息。

本文針對于巨潮網信息披露板塊中上市公司各類信息披露公告，提出一個通用、完整的金融類公告的信息抽取方法。結合深度學習相關模型，解決了傳統人工提取的代價大，泛化能力弱的缺點，快速高效抽取所需結構化信息。

1 信息抽取整體框架

考慮到公告文本形式多樣、內容復雜、長度較長，直接提取難度較大且代價很高。如何剔除冗余信息，精確定位到關鍵的信息位置是關鍵性步驟。因此本文設計了如圖1所示的信息抽取方法，共有3部分組成：公告文本預處理模塊、信息句抽取模塊和結構化信息抽取模塊。

圖1 信息抽取整體框架

首先通過公告預處理模塊，利用自定義文檔結構樹算法將公告文本轉化為層級分明樹形結構。在信息句抽取模塊中，利用規則提取樹的節點信息，進而從大范圍的節點信息中定位到所含字段信息的信息句，這樣就將目標縮小至句子級別。在句子級別的信息提取上，應用深度學習的序列標注模型能夠不依賴人工特征，快速高效提取字段信息。

1.1 公告文本預處理模塊

本文處理的公告文本來自巨潮網信息披露板塊中上市公司各類信息披露公告。文本本身屬于自由長文本，語言表達較為規范，由自然語言語句組成。文本內容較多，表達方式較為復雜，因此提取難度較大。但是公告通常具有目錄，各個章節標題表述較為規范，內容分類明確。

因此本文基于公告文本本身的特點，結合自定義標題規則，生成一棵各章節內容表述完整的文檔結構樹(CatalogTree)，便于后續提取句子信息。公告文本的標題一般含有中文數字或者阿拉伯數字，表述形式較為統一。正則表達式使用單個字符串可以描述一系列滿足某個句法規則的字符串集合,逐漸成為深度檢測中規則描述和匹配的首選方法[6]。因此，考慮到標題的表達形式，利用正則表達式制定標題規則用來識別文本中所有標題。

表1中chineseNumber=((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。具體的標題規則集見表1。

文檔結構樹算法具體步驟如下：

輸入：公告文本。

輸出：深度序列表示的樹結構。每個節點node的表示形式為(節點標題title、節點深度d、節點內容text)。d

表1 標題規則集

越大表示層級越高，nodenm表示第n個節點的第m個子節點。

步驟1 若目錄存在，提取公告文本自帶的目錄，記錄各個標題的深度d(d=1,2,…,n)，添加至樹結構；若不存在目錄，記正文第一條符合表1節點規則為rule1，繼續遍歷正文找到所有符合rule1規則的段落，視為一級節點，添加至樹結構；生成初步樹，記為tree0；

步驟2 按序遍歷tree0，取相鄰節點noden、noden+1，其中dn≤dn+1。記錄兩節點在表1中對應的規則rule及深度d，生成已有節點(規則-深度)集{rule-d}0；

步驟3 遍歷noden與noden+1之間的文本內容。若某段落符合表1的節點規則rulex且不在 {rule-d}0中，記為noden的子節點nodenm，深度dm=dn+1，追加至以noden為根節點的子樹tree1中，rulex和dm加入新的節點集 {rule-d}1中，執行步驟4；若在 {rule-d}0中，重復步驟2；

步驟4 繼續遍歷，若某段落符合表1的節點規則rulex，若在{rule-d}0中，重復步驟2；rulex不在 {rule-d}0且不在 {rule-d}1中，記nodemk，加入tree1，深度dk=max(d∶{rule-d}1)+1，rulex和dk加入 {rule-d}1中;rulex不在 {rule-d}0且在 {rule-d}1中，記nodenm+1，深度dm+1=d∶{rulex-d}，加入tree1；

步驟5 將步驟2、步驟3得到的各節點子樹tree1按順序及深度加入tree0中，并將正文目錄之前的“聲明”、“重大提示”等章節補充至tree0中，將各個節點的節點內容補充到樹中，生成一棵完整的CatalogTree。

公告文本自帶的目錄一般只含有二級或者三級標題，對于更深層次的標題則沒有包含，有些文本的目錄不規范導致無法識別。CatalogTree本質是一個深度序列，利用深度d來表示節點標題的層級，節點標題下是節點內容。

CatalogTree還原了整個文本的結構，利用規則補充了目錄沒有的標題。

1.2 句子抽取模塊

公告文本各個標題所含內容指代明確，各部分披露信息都有準確的標題。根據公告這一特點，利用CatalogTree的樹狀結構便于抽取節點信息的特性，自定義抽取節點信息方法，結合標題規則與句子觸發詞集進行特定標題下的句子抽取。

根據業務需求，已知所需抽取字段。觀察公告，確定所需字段在哪些特定標題之下，從而制定標題的抽取規則。圖2為《日常關聯交易預計公告》示例。

圖2 《關聯交易公告》示例

字段在公告中所處位置的段落標題一般為“關聯交易主要內容”等，總結出標題規則的正則表達式為“關聯交易(內容|情況|概要|介紹)”，調用CatalogTree封裝好的方法，根據標題規則即可得到所有符合規則的標題節點，從而進一步提取包含字段信息的節點內容。如圖3所示。

圖3 節點內容提取

在CatalogTree的基礎上，本文提供了一些便捷地查找節點信息的方法，如：查找符合規則節點及節點內容、查找特定節點所有子節點、按深度(廣度)查找下一節點等等，這些方法可作為后續提取節點句子的工具來使用。具體方法見表2。

表2 查找節點信息方法

對于已抽取到的節點內容，本文根據所抽取字段，定義句子觸發詞集，在句子觸發詞集的基礎上，拓展包含觸發詞集的局部句子結構規則，從而抽取符合規則句子。以上述《關聯交易公告》信息抽取為例，具體步驟如下：

步驟1 定義句子觸發詞集。要抽取字段為關聯方、關聯交易類別、關聯交易金額等。基于公告中的表述對關聯方進行同義表述的拓展，關聯方：關聯(方、人、公司、機構)，即為句子觸發詞集T_words；

步驟2 基于觸發詞的句子局部結構規則。分析抽取到的節點內容，根據觸發詞在句子中的表述，分析語法結構，定義局部結構規則S_rule。根據圖2，S_rule=“與T_words發生(0,5)關聯交易”；

步驟3 抽取符合規則的句子。將節點內容按句分割，S_rule與之匹配，得到符合規則的句子即為包含結構化信息句子。

由此，抽取到的包含字段信息句為：“公司擬2018年度與關聯方華洋公司發生貨物采購、提供勞務等日常關聯交易，交易總金額不超過人民幣2000萬元”。

1.3 基于Bi-LSTM-CRF網絡的結構化信息抽取模塊

由1.2節抽取到包含結構化信息的句子，成功的將抽取目標由長文本縮小至句子級別。信息句中包含符合業務需求的各個字段信息，見表3。

表3 《關聯交易公告》抽取字段

從提取到的句子中抽取結構化信息，可以看作序列標注任務。基于深度學習方法構建序列標注模型，可以不依賴規則人工制定特征模板。因此本文在基于LSTM的基礎上構建Bi-LSTM-CRF網絡模型，用于結構化信息抽取。

1.3.1 LSTM

循環神經網絡(recurrent neural networks，RNN)無法很好地處理長距離依賴問題，并且訓練算法存在梯度消失或爆炸問題。LSTM是一種的特殊的RNN類型，利用記憶單元門限機制對歷史信息進行過濾，可以學習長期依賴信息[8]。

給定輸入xt，LSTM的隱藏層的輸出表示ht的具體計算過程如式(1)～式(5)所示

it=σ(wxixt+whiht-1+wcict-1+bi)

(1)

ft=σ(wxfxt+whfht-1+wcfct-1+bf)

(2)

ct=ftct-1+ittanh(wxcxt+whcht-1+wcict-1+bc)

(3)

ot=σ(wxoxt+whoht-1+wcoct-1+bo)

(4)

ht=ottanh(ct)

(5)

其中，σ是邏輯Sigmoid函數，i，f，o，c分別表示輸入門、遺忘門、輸出門和記憶單元向量，這些向量的維度都與隱藏層向量h的維度是一致。w表示連接兩層的權重矩陣，如wi,j表示輸入層到隱藏層的輸入門的權重矩陣。

1.3.2 模型構建

在序列標注中的任務中，如果可以同時獲取給定狀態過去和將來的特征，對于最終預測結果將有非常大的提高。因此可以利用雙向LSTM網絡(Bi-LSTM)[7]，有效利用過去的特征(通過正向的狀態)和未來的特征(通過反向的狀態)進行標注結果的預測。模型構建中，本文還引入了CRF層，最終模型如圖4所示。

圖4 Bi-LSTM-CRF序列標注模型

模型的第一層是利用Word2Vec預訓練的詞向量[9]。預訓練詞向量能夠解決有監督標注語料不足的問題。本文的模型進行字段的識別和上下文關系非常密切，并且訓練詞向量時Skip-gram模型在生僻詞和小規模語料上優勢明顯[10]，因此本文使用Skip-gram語言模型[11]在無標注語料上進行詞向量的訓練。為了提高在某重大事件公告事件中字段的識別率，本文還將特定金融事件的領域知識詞典作為先驗知識加入分詞中，確保金融公告中的特殊詞匯、新詞能夠被正確分詞，得到的詞向量結構和語義信息的表示更加準確，對于后續的標簽預測結果有很大提高。

模型的第三層是CRF層。CRF層的參數是一個矩陣A，Ai,j表示的是從第i個標簽到第j個標簽的轉移得分，因此在為一個位置進行標注的時候可以利用此前已經標注過的標簽。

給定輸入序列x，想得到標簽預測y，定義式(6)為得分函數

(6)

由式(6)可以看出，輸出序列的得分式為各個位置的得分總和，包括兩部分：Bi-LSTM的輸出Pi，CRF的轉移矩陣A。從而利用Softmax得出歸一化的概率，如式(7)所示

(7)

模型訓練時，要最大化對數似然函數，如式(8)所示

log(P(y|x))=s(x,y)-log(∑y′exp(s(x,y′)))

(8)

模型在解碼預測時，使用Viterbi算法求解最優路徑，如式(9)所示

(9)

2 實驗與分析

2.1 數據及語料

上市公司信息披露的內容有多種類型，本文以《關聯交易公告》、《股東股份質押公告》為例進行實驗。

本文從中國證監會指定信息披露網站巨潮網(http://www.cninfo.com.cn)信息披露板塊中，選取2000篇《關聯交易公告》與2000篇《股東股份質押公告》。經過對標題的篩選，剔除無關公告和格式不正確的公告，保證公告文本一定包含所需字段信息，將每一類公告隨機分為DataSet1(200)、DataSet2(1800)。其中DatSet1作為制定標題規則、局部句子規則的經驗模板，利用DataSet1制定的規則抽取信息句，根據DataSet2的抽取結果進行優化。訓練詞向量的語料來自于巨潮網后臺語料庫，領域知識詞典來源于深圳證券信息有限公司數據中心數據。每一類公告提取到的句子作為Bi-LSTM-CRF的數據集，設置合適的字段標簽，利用B、I、E、O作為標簽的末尾轉移序列進行標注。將標注好的語料分為訓練集、開發集、測試集進行訓練。

2.2 模型訓練參數設置

訓練詞向量的維度為50；Bi-LSTM模型中LSTM隱藏層單元數量為100；學習率設置為0.001；batch_size為20；optimizer(優化器)選擇“adam”；dropout指網絡中每個單元在每次有數據流入時以一定的概率正常工作，否則輸出0值。這是一種有效的正則化方法，使用dropout防止過擬合[12]。

2.3 評價指標

針對業務需求的各個字段的信息抽取，本文以采用精確率(Precision，P)、召回率(Recall，R)、以及F1測度值(F1-score，F1)作為評價指標，分別對信息句和各字段抽取結果進行統計測評。

2.4 實驗設置及結果分析

實驗1：信息句抽取。首先制定提取內容所在的標題規則，結合目錄生成樹提取所需段落信息；再制定基于觸發詞的句子局部結構規則，提取含有字段信息的句子。

本實驗的規則是基于正則表達式的形式，最終統計結果見表4。

表4 信息句抽取結果

根據表4結果進行分析，發現兩種類型的公告DataSet1的信息句抽取效果都要好于DataSet2。主要原因是DataSet2出現了DataSet1沒有見過的內容表述形式，導致人為制定的規則并不能適用于所有文本，但是F1值已達到要求的93%以上。經后續的規則豐富，可以進一步提高抽取效果。

實驗2：結構化字段信息抽取。構建基于Bi-LSTM-CRF網絡模型進行訓練，并加入先驗知識領域知識詞典，最終結果見表5。

最終兩類公告的信息句和字段抽取的結果見表6。

對于表5中字段抽取結果的具體分析如下：

(1)表述形式較為固定的字段，根據上下文信息能夠做到較好的識別，如“關聯交易時間”、“關聯交易金額”、“持公司股份數”等。這些字段通常以阿拉伯數字來表述，并且后綴有明顯標識，如“元、萬元、%”等，表達較為固定，故準確率最高。還有用漢字數字來表述，標注語料過少，因此造成少量抽取結果有誤；

(2)“關聯方”、“股東”、“質押對象”字段在公告文本中一般表述為公司(人名)，以“公司”為后綴，因此本字段抽取準確率較高。但是公司名也可能為簡稱，并無明顯標志，導致模型識別不準，抽取結果有待進一步優化；

表5 字段抽取結果

表6 抽取結果對比

(3)“關聯交易類別”字段的表述形式多種多樣、長短不一，界限難以根據模型去界定。但是模型特點能夠根據上下文信息進行識別，因此仍得到可觀的F1值。

由表5、表6可以看出，本文提出的文檔結構結合Bi-LSTM-CRF的信息抽取方法，對于表中兩類公告的結構化信息抽取都取得了令人滿意的效果，平均F1值在91%以上。具體的抽取結果根據公告文本類型、形式、文本的長度、信息句的表述形式等會有所不同。在相關其它類型公告，例如《并購重組類公告》、《企業年報》等也取得了相似的結果，可以很好滿足項目業務上的需求。

實驗3：為了方便對照，本文還設置基于傳統的規則、CRF及Bi-LSTM模型進行各個字段的抽取，利用F1值進行各個模型間的比較，以《關聯交易公告》為例，最終結果見表7。

實驗結果表明，Bi-LSTM-CRF模型對于字段的識別率要高于其它方法，其中加入領域知識詞典的Bi-LSTM-CRF(D)F1值比一般的Bi-LSTM-CRF模型各字段的抽取結果要高2%～3%。該模型解決了傳統規則及機器學習方法進行信息抽取的局限性。在分詞時加入領域知識詞典，得到的詞向量對于語義結構的描述更加準確，同時在Bi-LSTM的基礎上引入了CRF層，加強了標簽之間的約束和依賴。在“關聯交易時間”和“關聯交易金額”兩個字段中，規則與Bi-LSTM-CRF(D)模型的F1值較為相近，這是由于字段表述形式較為固定，因此抽取結果都較好。但是在最難識別的“關聯交易類別”字段，Bi-LSTM-CRF(D)的識別結果要大幅領先于其它方法，驗證了該模型對于本實驗的適用性。

表7 各模型實驗結果對比

3 結束語

本文針對金融類公告的文本特點，提出了一種完整的金融類公告的信息抽取方法。該方法自定義文檔結構樹生成算法能夠將文本轉化為層級分明的樹結構；自定義的查找節點信息方法及觸發詞集的局部句子結構規則能夠快速便捷提取到信息句；在訓練Bi-LSTM-CRF網絡模型的基礎上加入領域知識詞典，獲得了準確充分的語義上下文表示，解決了傳統人工提取和機器學習方法代價大、泛化能力差的缺點。最終多組對比實驗結果表明，該信息抽取方法在多類公告文本的信息抽取任務上具有通用性和高效性，進一步提升了結構化信息識別效果，抽取結果更加合理、準確。由于信息句的抽取是基于規則的方法，該方法的局限性和差異性導致抽取效果不夠穩定。接下來可以嘗試結合統計的方法對于抽取系統進行改善；利用更快速的深度學模型，以獲取更高的抽取性能。