面向并購重組類公告的信息抽取

2020-05-22 12:33:24黃勝，李勝，朱菁

計算機工程與設計 2020年5期

黃勝，李勝，朱菁

(1.重慶郵電大學通信與信息工程學院，重慶 400065；2.重慶郵電大學光通信與網絡重點實驗室，重慶 400065；3.深圳證券信息有限公司數據中心，廣東深圳 518000)

0 引言

并購重組類公告是上市公司進行信息披露的重要組成部分。有效的信息獲取可以極大促進市場監管、投融資決策、股市預測以及企業畫像等領域的發展。如何精準且高效的實現并購重組類公告信息的結構化，成為金融和證券公司應用服務開發的重要一環。

隨著機器學習和深度學習的不斷發展，序列標注法成為當前信息抽取任務的主流方法。文獻[1]針對生物醫學命名實體識別任務提出了PowerBioNE生物命名實體識別系統，采用隱馬爾可夫模型(hidden Markov model，HMM)識別生物醫學領域實體，獲得了較好的實用效果[1]；文獻[2]提出一種循環條件隨機場(recurrent conditional random field, RCRF)模型，該模型將條件隨機場的特性有效融于循環神經網絡，并在語言理解領域取得了較好的應用[2]。然而傳統機器學習模型無法充分利用上下文語義特征信息，不能解決長距離依賴問題。

文獻[3]將雙向長短期記憶網絡(bidirectional long short-term memory，BiLSTM)結合條件隨機場(conditional random field，CRF)模型在i2b2/VA開放數據集中獲得了0.85的F值，實驗結果表明該模型對于電子病歷中部分臨床實體的識別具有良好的效果[3]。文獻[4]將門控循環單元(gated recurrent unity，GRU)與CRF結合用于中文文本序列標注任務中，取得了較好的效果[4]。文獻[5]在BiLSTM-CRF模型的基礎上引入了注意力機制，通過學習全文“篇章級”信息，使該模型在藥物實體識別任務中的F值提高了1.48%[5]。

在上述研究的基礎上，本文結合了傳統特征規則法以及序列標注法的優勢，針對并購重組類公告的特征，提出了一種“篇章級”的信息抽取方案[15]。該方案能有效解決由單一規則法或深度神經網絡帶來的抽取效果不好等問題，為自由長文本的信息抽取任務提供一種思路。

1 并購重組類公告信息抽取方案設計

并購重組類公告是一種具有一定格式規范的自由長文本，表述形式多樣且篇幅較長[6]。同一類型公告對于收購、出售、資產重組等商業行為的描述各有不同，長達500頁的公告文本中包含了大量的干擾信息，為傳統的信息抽取方案帶來了較大的挑戰[15]。

針對公告文本特點，借鑒降維思想，提出規則法和序列標注法相結合的聯合抽取方案，通過方法級聯可以有效提高對并購重組類公告信息抽取的準確率。該方案將整個信息抽取流程拆分為兩個部分：①“句子級”抽取，公告文本中包含大量冗余信息，采用規則法，解析文本結構，編寫規則以“標題定位內容”的形式從文本中抽取出關鍵句子集合。將“篇章級”抽取縮小為“句子級”抽取，降低冗余信息的干擾；②“字段級”抽取，采用序列標注法，訓練命名實體識別聯合模型，從關鍵句子集合中抽出所需的字段信息，實現“句子級”到“字段級”抽取[15]，具體方案流程如圖1所示。

圖1 公告信息抽取方案

2 基于規則法的文本“句子級”抽取

2.1 規則法抽取方案設計

以領域知識為基礎的規則法，對特定領域文本識別的準確率較高[7]。優先選擇規則法對金融領域并購重組類公告文本進行篇章級”抽取，可以有效降低自由長文本信息抽取的復雜度。相較于直接使用序列標注法的單一文本信息抽取而言，融合了規則法優勢的組合方案更加適用于特定領域的自由長文本信息抽取任務中[15]。

并購重組類公告具有一定的格式規范，文本以標題加內容的形式組成，通常包含“摘要部分”和“正文部分”。通過解析文本結構，抽象出關鍵字段在文本中描述形式和定位特征，針對性的提出一套規則標簽體系用于約束各個字段規則模板的制定，設計規則邏輯運算抽取算法解析定位邏輯[15]。對于公告文本T，解析規則模板，以“標題定位內容”的方式從文本中獲取關鍵句子Sj，通過預處理，最終得到關鍵字段所屬的句子集合Pi

T={P1,P2,…,Pi}

(1)

Pi={S1,S2,…,Sj}

(2)

將Pi定義為新的文本段落，段落集合實現對公告文本T的重構，從而保留文本的“段落級”信息和“篇章級”信息。

2.2 規則標簽體系設計

規則標簽體系包含了整體定位邏輯，通過復雜的規則邏輯運算組合可以有效提升規則抽取的準確率，是保證“句子級”抽取準確率的關鍵之一。為了盡可能多的兼容各種自然語言的文本描述形式，設計了以下規則標簽體系，見表1。

2.3 規則邏輯運算抽取引擎設計

規則邏輯運算抽取引擎通過解析規則模板，獲取定位邏輯，從并購重組類公告文本中抽取所需的“句子級”信息用于進行序列標注，實現文本的“篇章級”抽取縮小為“句子級”抽取[15]。

整個抽取模式分為兩種：模式1、“標題定位內容”的抽取形式，這要求從公告文本中剝離出完整的文本目錄結構，以“樹”的形式呈現，通過制定完善的標題規則獲取標題間的層級關系，實現內容部分的精準定位；模式2、全文匹配，采用內容規則對全文進行無差別匹配，對于匹配的結果需要進行相應的過濾和篩選。抽取的基本元素分為：表格、段落和句子，根據不同字段的位置特征，對不同的

表1 規則標簽符號說明

元素進行處理，本文主要以段落和句子的處理方式為主[15]。規則邏輯運算抽取引擎設計步驟如下，三層目錄結構的設定可以覆蓋當前所有抽取字段的定位特征，抽取流程如圖2所示：

(1)文本預處理，加載規則，提取文本目錄結構樹；

(2)抽取模式判斷，若為模式1，轉到第(3)步，否則獲取全文內容并轉到第(7)步；

(3)fristLevelTitle是否為空，否則令parentT等于fristLevelTitle，并轉到第(4)步，是則返回異常，結束抽取；

(4)在parentT的所有1～3級子標題中匹配，獲取 secLevelTitle 并判斷是否為空，否則令parentT等于 secLevelTitle，跳轉至第(5)步；

(5)在parentT的所有1～3級子標題中匹配，獲取thirdLevelTitle并判斷是否為空，否則令parentT等于thridLevelTitle，跳轉至第(6)步；

(6)以parentT為上限，獲取下限標題，劃定抽取范圍進行第(7)步的抽取；

(7)在劃定的內容部分，根據內容規則邏輯的設定抽出表格、段落、句子等基礎元素，當返回lastTitle時，默認取該標題下的所有文本，轉至第(8)步；

(8)對抽取的句子和段落集合進行篩選，經過處理后用于序列標注。

3 基于序列標注法的文本“字段級”抽取

3.1 BiGRU-Attention模型設計

本文采用雙向門控循環單元(bidirectional gated recurrent unity，BiGRU)和注意力機制(Attention)相結合的序列標注模型，BiGRU-Attention模型主要包含：GloVe詞向量層、BiGRU神經網絡層、Attention層以及CRF層[15]，這樣的設計具有以下4個優點：①常用的詞向量工具有word2vec和GolVe，后者以其對大規模語料的模型訓練效率更高，更容易實現并行化，相對更加適用于當前任務[8]；②GRU單元相較于常用的LSTM單元擁有更簡單的結構，在保證模型識別準確率的同時能提升模型的訓練效率；③注意力層的引入使得模型在學習實體上下文語義特征的同時，引入全文“篇章級”信息以及關聯實體對之間的相關性特征，有效提高模型預測的準確率；④CRF層通過計算實體標簽之間的轉移概率，可以獲取標簽序列之間的相關性進而使模型得到標簽預測的全局最優解[9]。

BiGRU-Attention聯合模型如圖3所示。其中wn為詞向量，hn為BiGRU層的隱狀態，M為關聯實體矩陣，an為Attentio第n層分配的權重，vn為標簽預測概率，B或O代表最終預測的實體標簽。

圖2 規則抽取流程

圖3 BiGRU-Attention模型結構[15]

3.2 BiGRU模型結構

3.2.1 GRU

GRU結構相較于LSTM結構進行了簡化，僅保留更新門和重置門，二者通過控制歷史信息的存儲量以及對當前狀態的影響程度來提升對當前序列預測的準確性[10]。GRU在保證模型效果的同時，模型結構更簡單、參數更少、收斂性更好[11]，模型更新方式如下

rt=σ(Wr·[ht-1,xt])

(3)

zt=σ(Wz·[ht-1,xt])

(4)

(5)

(6)

3.2.2 BiGRU

雙向神經網絡結構可以有效學習文本的上下文語義信息，使得模型對當前時刻的預測可以結合前后時刻的相關信息，提高模型對實體預測的準確性。本文采用兩個GRU單元，正向GRU單元用于捕獲上文的語義特征，反向GRU單元用于捕獲下文的語義特征，通過結合上下文語義信息提升模型預測的準確性[15]。

(7)

(8)

(9)

3.3 Attention機制

通過模擬人腦對注意力的分配機制，Attention模型對不同的信息分配不同的權重，實現對局部關鍵信息的突出[15]。注意力機制最早應用于圖像領域[12]，隨后在NLP領域的機器翻譯[13]、文本分類[14]等任務上取得了優異的表現。當前任務中，實體wi呈現以下特征：①同一個wi與關鍵字段所屬的句子集合Pi呈一對多的關系，例如：字段“交易標的”、“收購方式”抽取的句子集合中會同時包含字段“成交金額”對應的實體信息；②句中包含wi的關聯實體對，例：“采用收益法，截止至2019年8月15日，資產評估值為2160.18萬元。”中“資產評估值”字段實體：“2160.18萬元”和“評估方法”字段實體：“收益法”組成關聯實體對。針對以上特征，在常用的BiGRU-CRF序列標注模型基礎上，引入了Attention層，融合全文“篇章級”信息及關聯實體對的影響，計算當前實體分配的權重概率，從而提升對關鍵實體標簽預測的精準度[15]。

attx=softmax(f(set,elementx,W))

(10)

其中，f(·) 用于計算elementx與set中各個詞匯之間的相關性，W為隨模型一同訓練的參數。

然后利用attx對relation中的信息進行篩選融合，可獲得當前詞的全文“篇章級”信息chapterx

chapterx=attx·relation

(11)

通過使用哈工大LTP平臺的開源語義依存分析模型，可以有效融合與當前詞匯具有語義關系的實體信息，獲取句子Sx中的關聯實體矩陣M, LTP中部分依存關系標注集見表2。關聯實體的上下文信息dependxy

dependxy=Mxy·relation (12)

那么融合全文“篇章級”信息和實體對之間語義關聯信息后，詞匯最終的概率權重ax

ax=tanh(chapterx,∑ydenpendxy)

(13)

4 實驗分析

4.1 數據集

實驗數據通過自定義爬蟲從“巨潮資訊網”上抓取2000篇上市公司并購重組類公告文本，其中訓練集為1600篇、驗證集和測試集分別為200篇。選取當前較為常用的BIO(begin,inside,outside)書簽機制進行標注。在此基礎上增加E(end)標簽和S(single)標簽對包含“交易標的”、“成交金額”在內的12個字段進行語料標注，以方便對標簽實體的解析。標注標簽及說明見表3。其中S標簽表示由單個詞組成的實體，O標簽表示其它類型的實體，B標簽表示目標實體的首個詞，I標簽為其中間詞匯，E標簽表示目標實體的最后一個詞匯[15]。

表3 標注標簽及說明[15]

4.2 實驗評價指標

實驗采用準確率(Precision，P)、召回率(Recall，R)以及F1值(F1-score，F1)作為評價指標，分別對實驗結果進行測評。

4.3 實驗設置

實驗采用Keras的深度學習框架，底層為TensorFlow，實驗選用BP(反向傳播算法)來訓練BiGRU-Attention聯合序列標注模型，采用SGD(隨機梯度下降算法)調整樣本訓練時的權重參數。其中詞向量設定為100維，optimizer(優化器)選擇“adam”,學習率設置為0.01，Batch_size設置為50,Dropout參數rate設置為0.5。參數經過多次迭代后根據準確率、召回率調整得到。

4.4 實驗結果及分析

實驗一：實驗選取“標題定位內容”的規則抽取方案作為實驗方案，選取“全文內容匹配”的規則抽取方案作為對比方案。對包含“重組類型”、“標的行業”等在內的12個字段進行“句子級”抽取。“句子級”抽取結果及對比見表4。

如表4所示，實驗方案的抽取效果明顯優于對比方案。由于文本表述形式多樣，人工制定規則的不夠完善，使得實驗方案的抽取效果仍然有待提高。

表4 “句子級”抽取結果及對比(均值)[15]

實驗二：實驗選取基于BiGRU-Attention的序列標注法作為實驗方案，選取包含CRF、LSTM、GRU等在內的多個模型為對照組進行實驗，來驗證當前方案的可靠性。采用實驗方案的“字段級”抽取結果見表5。序列標注模型效果對比見表6。

表5 “字段級”抽取結果展示[15]

表6 序列標注模型效果對比(均值)[15]

如表5所示，模型對于關聯實體對之間的識別效果較好，其中關聯實體對：“交易標的”、成交金額”和“收購方式”的平均F1值達到了0.92；“評估方法”、“評估基準日”、“資產賬面值”、“資產評估值”的平均F1值達到了0.94。而“配套融資金額”字段F1值只有0.86，模型識別效果較差，造成改結果主要有兩個原因：①“字段級”抽取的準確率依賴于“句子級”抽取，由于人工制定的規則模板不夠完善，該字段表述形式的多樣性，使得“句子級”抽取效果較差。經后續規則的豐富，可以進一步提升該字段的抽取準確率；②“配套融資金額”字段不具備與之組成關聯實體對的字段實體，使得模型對該字段的識別效果不佳[15]。

如表6所示，通過實驗數據對照發現，融合了依存關聯矩陣的BiGRU-Attention聯合模型，可以較好的學習全文“篇章級”信息，并且對于關聯實體對之間的識別效果較好。該方案對并購重組類公告文本中的金融實體識別準確率明顯高于其它序列標注模型，相較于目前主流的BiLSTM-Attention序列標注模型的F1值提高了約3個百分點[15]。

5 結束語

上市公司并購重組類公告是一種具有一定格式規范的自由長文本，針對公告特點，借鑒降維思想，提出規則法和序列標注法相結合的聯合信息抽取方案。采用規則法，設計標簽體系，編寫規則邏輯運算抽取引擎，將“篇章級”抽取縮小為“句子級”抽取，提出基于BiGRU-Attention的序列標注法，將句子抽取縮小為“字段級”抽取[15]。實驗結果表明本方案，具有更好準確率，驗證該方案在并購重組類公告以及同類文本的信息抽取任務中具有一定的可行性,目前該方法已在“深圳證券信息有限公司巨潮財經數據庫和專業數據終端”中有實際應用。

在未來的工作中，筆者將繼續研究對并購重組類公告的信息抽取任務，提出更優的方案以解決對文本實體之間映射關系的抽取，例如：syntaxnet等。