熊麗媛 江西財經大學
當下,眾多學者針對宏觀政策對于股市影響做出了較多的分析,但大多數研究只是從經濟學的角度,結合股票市場變量,提出定量分析模型。少有學者通過大數據方法對海量文本數據中的政策事件進行量化分析。因此,本文擬采用基于自然語言處理的事件抽取方法,對海量股市新聞中的政策事件進行抽取,并使用事件分析法,對政策事件發生窗口內的股市變化進行分析。
首先通過構建分布式爬蟲,從國內各大財經類門戶網站的新聞頻道采集2019年1月1日至2019年12月31日的相關股市新聞文本,共33994條,具體信息如表1所示。

表1 數據來源
萬得金融終端是萬得信息技術股份有限公司針對金融業的投資機構、財務公司、研究機構、學術機構、監管部門機構等不同類型客戶的需求開發的圍繞信息檢索、數據提取與分析、投資組合管理應用等領域的專業分析工具,通過萬得金融終端數據庫,可以獲取2019年1月1日至2019年12月31日的深證綜合指數等數據。
從各大財經網站爬取的金融文本數據存在格式不統一,內容含雜廣告信息等問題,通過python編程語言設計中英文正則表達式,可以有效去除不需要的文本信息,通過預處理,最終保留金融文本數據的標題、正文及發布時間。
在文本中抽取事件一般分為基于規則的無監督式抽取和基于機器學習模型訓練的有監督式抽取方法。由于有監督式的機器學習抽取算法需要獲取大規模的標準數據集,并人工對數據集中的事件進行標注,而本文所涉及的到金融文本數據擁有較強的領域性,且來源不同,因此作者選擇使用非監督式的事件抽取方法。
政策事件的主語往往涉及政府相關部門,如“衛健委”,“國防部”,“衛生部”,“新聞部”,“內政部”,“交通部”,“宣傳部”,“文化部”,“組織部”等詞語。通過哈爾濱工業大學設計開發的LTP語言模型可以收集到較為完整的機構詞語,政策發布涉及了“發布”,“頒布”,“引發”等相關謂語動詞,通過人工構建謂語動詞,并通過詞語間的語義相似度,可以對謂語動詞進行擴充,將最終獲取到的謂語動詞與機構主語詞合并,構成政策詞典。
通過政策詞典中的指定詞語在中文語句中的指定位置出現,進行事件的抽取。DDParser(Baidu Dendency Parser) 是 百 度NLP基于大規模標注數據和深度學習平臺飛槳研發的中文依存句法分析工具,可幫助用戶直接獲取輸入文本中的關聯詞對,長距離依賴詞對等。假設輸入語句為“市場監管總局發布通知要求加強2021年元旦春節期間市場價格監管。”通過依存句法的語法樹,可以在SBV(主謂結構)和VOB(動賓結構)的指定節點匹配政策詞典中的主語名詞“市場監督總局”及謂語動詞“發布”,大規模自動地獲取政策事件。
事件分析法是金融領域中常用的一種針對時序數據的分析方法。該方法在1969年由FAMA等人第一次提出。通過研究事件發生前后時間窗口內的股票預期正常收益率和異常收益率來反映事件的重要程度。

圖1 事件分析結果
通過時間數據,將政策詞典和DDParser工具抽取的到政策事件與當日的深證綜合指數進行拼接,得到事件分析法的原始數據。
設定事件發生前一周與后一周為時間窗口。橫坐標表示政策事件發生的事件,取事件發生的前一周與后一周為時間窗口。縱坐標為HS,其中n表示抽取出的政策事件的總數,HSi,t表示事件i在其發生日t的深證綜合指數,分別取t′為t-7、t-6、…、t+7,得到政策事件對深證綜合指數在窗口期間內的影響。

事件分析結果。如圖1所示,可以觀察到,從股市新聞中抽取出的政策事件對事件發生后3天窗口期內的深證綜合指數有較大影響。在t-7至t-1窗口期內,指數變化趨于穩定。
本研究采用的模式匹配方法對政策事件進行了廣泛的抽取,但未對事件進行詳細的分類,簡單地分析了所有事件對股市產生的影響。研究過程存在缺陷,對于政策事件的細化分析,可以在后續的研究者繼續探討。