999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上市公司文本信息披露智能分析研究綜述

2021-12-21 13:34:52武秦娟
計算機工程與應用 2021年24期
關鍵詞:文本分析信息

呂 品,武秦娟,許 嘉

1.廣西大學 計算機與電子信息學院,南寧530004

2.廣西多媒體通信與網絡技術重點實驗室,南寧530004

3.廣西高校并行分布式計算技術重點實驗室,南寧530004

上市公司對外發布的信息是人們掌握公司最新動態的第一手資料,這些信息中不僅包含結構化的數值信息,如歷史股票數據[1]、財務比率[2]等,還包含大量的文本信息。其中數值信息的獲取和處理成本較低,蘊含的信息能比較直接地反映公司的經營現狀。文本信息所占篇幅較大,信息獲取和處理的成本都更高,但它蘊含更豐富的信息量,如公司發展的相關細節,對投資者決策行為具有重大影響。越來越多的學者對上市公司文本信息披露進行研究。

公告是上市公司文本信息披露的主要載體。企業對公司有關事項主動披露,能夠減輕公司管理層和信息需求者的信息不對稱問題。為了讓外界對公司有全面的了解,公司對外公布的公告一般包含多個方面的內容,比如反映公司運營狀況的業績報告,重大事項、重大風險公告,停牌復牌的交易提示公告等。投資者通過閱讀公司公告可以了解公司的運營狀況,做出合理的投資決策;監督機構通過審核上市公司的日常公告,保證公司信息披露的質量,有效維護投資市場的健康發展;對于公司本身來說,分析一些與企業經營發展相關的運營數據,能夠對企業未來的發展趨勢做出預測,有利于企業未來戰略定位。

正確使用這些文本信息披露,能夠為個人投資策略制定、監管機構日常審計和企業實踐提供價值。但是,隨著企業信息披露日益增多,僅依靠人工追蹤和理解大量的金融文本信息變得困難。例如,為了理解年報中傳達的信息,分析師有時需要閱讀長達上百頁的年報,才能從中找出一些反映公司價值的信息。這個過程不僅耗時,而且成本較高。并且,文本披露中即使含有一些有價值的信息,也可能被淹沒在大量的數據中,投資者很難將這些信息與相應的市場反應聯系起來并做出合理的決策,容易導致自身投資出現虧損的情況,難以發揮這些金融信息的價值。

文本挖掘技術的發展使得自動分析上市公司文本信息披露成為可能。但是傳統的文本挖掘技術存在著信息提取效率不高的問題,而且在涉及具體領域的知識發現任務時,要求研究者有著比較豐富的領域知識。隨著機器學習在文本分析、數據挖掘等領域應用的不斷深入,將該技術用于公司文本信息披露的分析,給市場提供了一個新的解決思路,成為一種流行的研究方向。近十年來,金融市場上關于上市公司文本信息披露的研究成果越來越多,研究者通過收集公司披露的文本信息,結合機器學習算法進行建模訓練,給出預測結果或分析結果,這些分析方法極大提高了信息獲取效率。本文對這些研究成果進行了梳理歸納,以幫助讀者了解現有的發展狀況。根據具體的應用場景和數據特點,研究者們使用了不同的機器學習方法,大多數文獻的研究過程可以歸納為以下3個步驟,具體如圖1所示。

圖1 金融文本處理的三個步驟Fig.1 Three steps in financial text processing

(1)數據收集及預處理:數據預處理工作的基礎是確定研究需要使用的數據集。數據集一般包含兩個部分,一部分是研究需要的文本數據集,另一部分是與該研究相關的外生反饋數據集。例如對于股票預測問題,外生反饋數據集一般是該文本消息集公布后相對應的股價反應數據集。在構建有效的實驗數據集后,需要對原始的數據進行預處理,預處理一般包含數據清洗、分詞、去除停用詞等過程。

(2)特征工程:特征工程主要包括特征提取和特征選擇。特征提取能選擇出一些具有代表性的詞,充分反映文本的信息。特征選擇在特征提取的基礎上,選擇出一組最優的特征子集。特征提取和選擇的本質是降維,通過領域知識創建一組最能代表原始數據的特征。

(3)模型構建:數據預處理、特征工程是將文本轉化成為機器能夠理解的數學符號,模型構建的過程是選擇合適的機器學習算法對變量進行處理。不同的機器學習算法具有不同的優勢,需要選擇與數據特征相契合的算法。

1 不同事件類型的文本披露

上市公司發布的文本披露包含多種事件類型,不同事件類型往往蘊含不同的信息量,適用于不同的金融場景。本章對不同事件類型文本披露的研究現狀進行歸納,一方面有助于對不同事件類型文本披露的價值內涵進行探究,另一方面可提高信息獲取的效率。按照文本分析過程中使用的數據源的不同可將現有研究分為兩類:一類工作對多種事件類型的文本披露進行聯合分析;另一類工作只分析某一特定事件類型的文本披露。

1.1 包含多種事件類型的文本披露

一種事件類型文本所包含的信息往往不全面,為此研究者將多種類型的數據集聯合分析,以宏觀把握公司文本信息披露對金融市場的影響。臨時公告是企業對外發布的一種重要類型的公告,包含多種事件類型(如會議決議、資產重組、人事變動以及收購兼并等事件),在企業對外披露的信息中占有很大比重。對臨時公告的研究有助于理解公司臨時發生的事件對金融市場造成的長短期影響,幫助投資者制定合理的投資策略,具有十分重要的研究價值。

文獻[3-7]將臨時公告作為新聞語料庫,捕捉一些企業臨時事件對股票市場造成的影響。Groth等人[8]從公司臨時公告中提取信息,開發了一個預測系統,研究企業臨時信息披露是否會對市場流動性造成影響。為了研究企業對外公布的金融事件是否包含風險信息,文獻[9]提出了一種基于文本挖掘的日內風險預測模型。在數據收集的過程中,為了避免一些低質量的新聞對模型的訓練結果造成干擾,研究者構造了一個預判模型,根據公司文本披露之后的市場波動大小來確定該披露是否納入預測模型,實驗表明使用這種方法構造的數據集可以用來預測日內風險波動。

綜上所述,對多種事件類型的公告進行聯合分析,有利于系統地識別上市公司臨時文本信息披露與股市、金融市場流動性以及企業未來風險之間的聯系。但是,聯合分析法存在一定的局限:一是不同事件類型公告的信息發布側重點不同,造成的市場影響也不同。聯合分析法只能定性評估多種事件類型的公告是否會對市場造成影響,而難以對這些影響結果進行量化。二是聯合分析法涉及多種事件類型的公告,各個事件類型的公告內容差別較大,信息質量也不一致,增加了分析難度。

1.2 單一事件類型的文本披露

企業對外公開披露的這些信息中,并不是所有的事件類型都能夠引起明顯的市場波動,一些日常的董事會決議報告、工商變更登記等,對市場的影響很小,一般不會引起投資者的過分關注,因而對上市公司公告的研究也集中在一些特定的事件類型中。按照不同的維度對研究的文獻進行分類,可以分為以下五類:第一類是財務文本信息披露,如收益公告、股利變動公告;第二類是定期文本披露,如年報、季報等;第三類是提示信息,如澄清公告、風險提示信息等;第四類是重大事項公告,如董事會變動公告、收購兼并消息等;第五類是其他類型的公告,如補充更正公告等。下文按照這種分類方式進行總結。

1.2.1 財務文本信息披露

財務披露是指公司披露的有關其財務狀況、經營績效和發展前景的信息,一般包括數字指標和文本描述。文本描述部分是對數字信息的細化和補充,可以幫助信息的需求者更加全面地了解企業信息。

收益公告是上市公司對其一段時間內的盈利和收入情況進行披露的文件。作為上市公司財務狀況披露的重要載體之一,收益公告的發布一般會對投資市場帶來信息沖擊,引起市場價格的波動。Truong等人[10]采用收益公告發布后隱含波動率的變化來研究期權市場對收益消息的反應,隱含波動率的變化可以很好地反映期權價值的總體變化。實驗結果表明,盈利公告對期權市場短期波動和長期波動都有重要影響,而且對短期波動的影響更為顯著。文獻[11]證明了債券價格對收益公告的反應能夠被用于預測未來的股票市場收益,該研究結果加深了對股票市場和債券市場之間關系的理解。

收益公告中披露的公司業績狀況是投資者判斷公司內在價值的重要參考信息。股利分配是上市公司針對其收益狀況對盈利進行分配或者留存再投資的決策行為,是投資收益的重要組成部分。股利公告是董事會對股利的支付情況予以說明的文件,一直是學者研究的熱點。為了探究股利公告對金融市場的影響,Hu等人[12]分析了中國市場上股利公告對股票價格的影響,發現股利增加公告發布后,股票價格隨之上漲;但是在股利減少的公告日上,股利公告對股票價格的負面影響并不顯著。一些研究表明,股利公告的發布會對投資者的行為造成影響,如交易行為和賣空行為等[13-14]。這些研究成果對于理解金融市場提供了一定的幫助,但是,市場對同一類型公告在不同經濟發展狀況、市場背景下的反應有待進一步探究。經濟的發展狀況會影響股民的情緒,導致股票市場對同一公告的反應存在差異。Khanal等人[15]研究了美國蕭條時期股價對股利公告的反應,發現這個時期股票市場的異常收益明顯小于經濟平穩時的異常收益。這可能是因為經濟的持續衰退削減了投資者的信心,導致投資者積極性不高,從而對股票市場產生一定的影響。

財務重述公告是企業為了糾正之前發布的財務數據中的問題而發布的一類公告。財務重述公告一般會在資本市場中引起負面的反應,對公司發展造成一系列不利的后果。Albring等人[16]探究了財務重述公告對企業發展的影響。研究結果表明,在公司發布財務重述公告之后,公司的整體增長率會下降,此外不同情況下財務重述公告對公司影響不同:財務重述公告對那些發布了虛假信息報告的公司影響更大,而對一些糾正以前會計錯誤的公司影響相對較小。文獻[17]從財務重述的角度探究了中國市場上的公司財務報告質量。研究結果表明中國資本市場在過去幾年確實存在著一些質量不高的財務報告,但是伴隨著監督機構監管力度的增強,公司發布重述公告的頻率有所下降,企業披露信息質量不高的問題得到改善。

1.2.2 定期文本信息披露

定期報告主要有年報、季報和中期報告等。在定期的文本披露中,年報是被最廣泛研究的數據形式。它是上市公司對上一年經營活動和未來發展的客觀描述,是企業信息披露的核心內容之一。年報的內容一般比較固定,除了財務報告之外,還包括公司的基本情況簡介、股東及其變動情況等11個部分,其中,“管理層討論與分析”(簡稱“MD&A”)是年報中最重要的部分之一,不僅包含公司對財務報表的進一步解釋和分析,而且包含管理層對未來發展經營狀況的預測,一些公司發展過程中存在的風險和不確定性因素也包含在內[18]。MD&A作為反映公司績效和戰略風險的重要部分,受到了越來越多的關注。研究發現,使用美國上市公司年報(10-k)的MD&A部分,不僅能夠有效識別欺詐行為[19-22],還能預測破產事件[23]。

大多數使用年報進行分析的文獻都傾向于對文本的語言特征和情感傾向進行研究。語言的特征隱含管理層的真實心理,是傳遞公司發展的一種重要信號。一些學者發現,年報敘述部分語氣的積極程度[24]、表達語調[25]、語氣特征[26]等與未來的市場反應有關,可以用于預測未來公司業績。陳藝云[27]發現中文年報MD&A部分的語調包含預測財務困境的增量信息,這些增量信息可以用于提高企業財務困境的預測準確率。情感詞匯包含一些管理層的主觀判斷,也是一種重要的金融分析預測方法。通過情感分析可以得出其褒貶性傾向,發現管理人員的真實意圖,為企業管理提供決策信息[28]。Tsai等人[29]證明,使用情緒分析法能夠有效降低文本的維度,預測公司未來的風險。有學者證明公司年報中提取的情緒特征,能夠用于公司股票市場的未來收益預測[30]。

以上文獻說明了年報中的情感傾向和語言特征在公司披露文本信息挖掘中的重要性。企業定期披露除了包含與公司發展有關的語言特征和情感傾向之外,其他特征因子也可用于文本分析。有學者發現,從公司披露的年報或季報中提取一些風險因子,能夠用于風險預測[31],幫助利益相關者制定合理和及時的風險管理策略[32]。此外,一些學者利用企業信息披露的時間這一特征進行研究,分析了公司信息披露時間與企業舞弊行為的聯系。研究結果表明一些公司通過把握重大信息披露的時機,利用投資者注意力的變化來隱藏壞消息。監督機構可以有效利用這一特征,檢查一些公司有無違規行為[33]。

上述研究表明,企業定期文本披露中含有大量有用的價值信息,通過對文本的語調、情感傾向、語言風格、可讀性等特征進行分析,能夠對定期文本披露信息的價值內涵進行深入探究。這些研究成果能夠為企業業績預測、價值識別、風險預警等眾多場景提供預測價值。

1.2.3 提示信息

公司對外發布的提示信息如操作風險提示、交易異動提示等信息對于投資者了解公司風險、把握投資時機具有重要意義。此外一些其他類型的提示信息如停牌信息、澄清信息等在保障投資者利益、穩定市場波動方面發揮著重要作用,因而一些學者探究了這些類型的公告信息對市場造成的影響。

企業發展中存在的一些不安全事件如業務中斷、系統故障等風險可能對公司造成不利的影響,企業有必要及時將這些信息告知投資者。Barakat等人[34]的研究表明操作風險的發生可能會增加企業與投資者之間的信息不對稱程度。此外該實驗結果表明,在操作風險公告首次發布前后,投資者交易量大幅增加,市場流動性整體改善。該研究有助于理解企業發布操作風險公告的事件后果。

一些停牌信息可能對市場造成影響。停牌是因為某些原因造成的公司股票價格連續上升或者下降,證券交易所暫時停止該公司的股票交易,避免股價異常波動對投資者利益造成損害。Jiang等人[35]收集了公司的停牌公告,建立基于該類型公告的預測模型,探究停牌公告是否會引起股票價格的波動。實驗數據表明,股票停牌期間的公告會造成異常的市場收益。陳舒寧等人[36]利用事件分析法對比了深圳交易所取消交易停牌制度前后中小板的股票異常數據,結果顯示停牌公告在短期內對中小板的市場波動具有穩定作用,但長期的穩定作用并不顯著。

市場上流傳的一些謠言或者猜測可能對公司形象不利,誤導消費者的行為,也可能對市場造成波動。為此,公司需要立即對這些事情進行澄清,投資者收到這些澄清的消息之后會做出相應的反應,從而引起股價的二次波動。文獻[37]探究了公司傳聞、澄清公告和賣空交易行為之間的聯系。研究結果表明賣空者能夠提前探知公司的傳聞信息,并且能夠對澄清公告的結果進行預先判斷做出合理的決策。文獻[38]探究了在不同背景下(熊市和牛市)投資者在澄清公告前后的反應是否一致。通過建立謠言和澄清模型,作者發現熊市和牛市投資者對澄清公告的反應是一致的,當謠言出現時,投資者具有比較強烈的反應,而且好消息比壞消息反應更強烈,此外投資者會傾向忽略澄清公告。

1.2.4 重大事項公告

上市公司會對近期內公司發生的一些重大事項對外進行披露,從而引起股價的變化。Negre等人[39]探究了法國公司宣布裁員公告之后投資者的反應。研究結果表明,當公司對外宣布裁員事件時,市場會做出負面的反應。公司管理層變動消息一般也會引起投資者的關注。文獻[40]通過分析CEO繼任公告發布之后的推特情緒,預測公司股票收益。研究發現,高水平的推特情緒特征往往與較低的未來超額回報相聯系,這一研究表明社交媒體上的信息可以幫助投資者和公司做出決策。

兼并收購、資產重組作為企業的一個重大事項,能夠對公司的市值產生影響。文獻[41]研究了上市公司兼并收購行為對公司市值管理的影響。研究結果表明,兼并收購行為的確能夠提升市值,但是如果企業在收購后沒有很好地整合雙方資源,兼并帶來的市值增長并不穩定。文獻[42]探究了兼并收購和融資事件在公告發布前后是否會對股票市場造成影響,這些影響包括股票的交易量、收益率波動性和定價效率。研究發現,公司兼并收購事件并未顯著改變股票的交易流動性。該研究結果將有助于監管決策者、計劃重組活動的公司理解公司重組事件對市場造成的影響。文獻[43]以企業發布的重大資產重組公告為研究對象,探究該類型的公告對股票買賣的操作方向和累積超額收益的影響。實驗結果表明,公告發布后短期時間內投資者會選擇賣出該類公告對應的股票,且投資者的累積收益為負。文獻[44]以重大關聯銷售事項為研究對象,探究了該類型事件對中國A股市場的影響。研究表明市場對該類型的公告反應不足,事件發生后一般只產生微弱的正向反應。

1.2.5 其他類型公告

一些企業日常的一些補充說明、信息變更,對市場造成的影響不大,但也有少數學者對其進行了研究。文獻[45]探究了控制權變更公告在首次披露日和正式披露日對市場的影響,檢驗首次公告效應和正式實施公告效應是否具有時差效應。實驗結果表明控制權變更公告在首次公告日和正式公告日均對股價具有正向沖擊效應,但是公告披露后對累積收益的影響相反。Rosati等人[46]調查了受數據泄露影響的公司,發布社交媒體信息是否會對公司股價造成影響,以判斷企業采用這種對外解釋的方式是否加劇了數據泄露的成本。數據分析表明,通過社交媒體發布數據泄露的公告會對股價產生負面影響,導致在兩天的事件周期內股價平均額外下跌1.2%。

1.3 不同事件類型公告的研究現狀總結

通過對不同類型公告的研究現狀進行歸納梳理,可以發現現有針對上市公司文本信息披露的研究主要集中在財務文本信息披露和公司定期文本信息披露兩類事件類型中。大多數投資者對與財務相關的信息表現出高度的敏感性,公司發布的收益變化、股利變動以及財務重述等信息都能引起投資者的廣泛關注,造成金融市場的波動。財務文本信息披露作為企業對外披露的一類重要文件,具有重要的研究價值。通過識別不同內容的財務文本信息披露對市場造成的影響,有助于投資者從公告發布的反應中尋找投資機會,構建事件交易策略,提高投資收益。定期文本信息披露中包含公司對一段時間內發展狀況的總結信息和未來的前瞻性描述信息,這些信息對于投資者識別公司價值、判斷公司未來發展起著重要作用,對市場沖擊較大,獲得的關注也更多。

2 公司文本披露的智能分析方法

重點闡述了如何從公司文本信息披露中提取有價值信息,對公司文本信息披露中常用的機器學習算法以及這些算法的優缺點進行了總結。這些算法不僅包含傳統的回歸分析(regression analysis method)算法、樸素貝葉斯算法(Naive Bayesian Model,NBM),還有一些以卷積神經網絡(Convolutional Neural Networks,CNN)、循環神經網絡(Recurrent Neural Network,RNN)為代表的深度學習算法。

2.1 回歸分析

在研究不同類型的公告對市場的影響時,事件分析法和回歸分析法是兩種常用的模型。事件分析法一般使用某類公告發布后特定時間窗口內的超額收益、平均超額收益等衡量特定事件對公司的影響。回歸分析法通過建立選定變量與超額收益之間的回歸方程,根據回歸系數的大小、顯著程度判斷公告信息對市場的影響。這兩種方法的分析過程雖然存在一定的差別,但是在分析的過程中都需要建立回歸方程進行回歸分析。事件分析法一般用回歸模式計算事件發生后的累積影響。基本步驟如圖2所示,從中可以看出,建立回歸方程,檢驗信息披露前后的市場變化是事件分析的重要環節。因此,本文將事件分析法納入回歸分析的范疇。

圖2 事件分析法的一般過程Fig.2 General process of event analysis

Leitch等人[40]運用事件分析法探究了公司發布CEO繼任公告之后,Twitter上的股民情緒對股票回報率的影響。他們將社交情緒得分和其他變量作為自變量,建立回歸方程計算累積異常收益。文獻[25]用公司累積收益作為檢驗方法,探究公司年報敘述部分的基調(即管理層對公司對未來收益或者發展方向的正面或者負面的評價)對企業當前業績和盈余持久性的影響。分析結果顯示,公司當前的業績越好,公司年報的基調越積極,未來收益持久性就越差。事件分析法是一種有效的金融分析工具,分析過程中假定只有一個類型的事件對公司的收益造成影響。但是現實的情況一般比較復雜,某一次市場的波動可能與多個金融事件相關聯,因此事件分析法存在一定的缺陷。

回歸分析可以判斷自變量和因變量之間的關系。在進行回歸分析之前,首先要對變量進行相關分析,皮爾遜相關系數、單變量分析法都是一種常用的分析方法[24]。分析的結果可以為兩個變量之間是否具有一定的關系提供初步的證據,只有當兩個變量之間存在明確的相關關系時,建立回歸方程才有意義。文獻[47]通過建立回歸方程,控制其他變量,觀察MD&A對公司財務績效的影響。實驗結果證明了公司MD&A信息披露與財務績效顯著正相關,可以用作未來公司業績預測。文獻[48]的回歸分析結果表明,年報中的管理層超額樂觀語調指標與企業財務危機負相關。

綜上所述,回歸分析可以精準地評估各個因素之間的相關程度。但是,該方法只能對線性關系進行擬合,不能擬合非線性關系。現實狀況下很多變量之間的關系并不能簡單地使用線性關系來描述,尤其是在處理文本的非線性和高維特征時存在很大限制。

2.2 支持向量機

支持向量機(Support Vector Machine,SVM)算法以統計學習理論為基礎,能夠解決非線性、高維度、樣本有限的問題,被認為是一種優秀的文本分類算法,具有良好的推廣性能。SVM可以被用在金融事件的與預測問題中,如欺詐行為檢測[35,49]、新聞發布之后產生的流動性沖擊影響預測等[8]。

一些學者將SVM作為預測模型,并用其他的分類器做對比,實驗結果證明SVM擁有最好的結果。其中,文獻[50]用支持向量機預測公告消息發布后所帶來的股價影響,并比較了人工神經網絡(Artificial Neural Networks,ANN)、樸素貝葉斯和SVM的預測性能,發現SVM的預測性能最佳。有學者使用了4個分類器預測公告發布之后的日內市場波動[9]:K近鄰算法(K-Nearest Neighbor,KNN)、樸素貝葉斯、神經網絡和SVM,實驗結果表明,SVM在解決風險評估問題時效果最好。文獻[51]為了研究公司文本信息披露之后是否會產生顯著的股價波動,選擇SVM作為數據挖掘算法分類器,證明了SVM的分類結果優于其他幾個分類算法。

綜上所述,SVM在高維、非線性問題的文本分類問題中具有很大的優勢,在股價預測、日內波動檢測、欺詐行為檢測等場景中都能取得較高的分類準確率。此外,SVM具有較好的泛化性能,計算開銷也比較小。但是,SVM在文本分類問題中也存在一些限制,比如算法的精度在很大程度上依賴于核函數的選擇。另外,在樣本量較大的問題中SVM的訓練時間過長。因此,在一些預測問題中,為了獲得更好的分類效果,需要結合其他算法對支持向量機的性能進行改進。文獻[52]提出了一個基于模糊超平面的雙核支持向量機算法用于股價分析,模糊集能夠處理金融新聞中引入的大量噪聲,使得股價的預測更加準確。

2.3 樸素貝葉斯

樸素貝葉斯是被廣泛使用的分類器之一,其所需的參數較少,算法也比較簡單,能夠解決一些場景下的金融文本分類問題。Feng[53]使用了樸素貝葉斯算法對年報中MD&A部分的前瞻性敘述的信息內容進行分析。研究結果表明,前瞻性敘述披露的平均基調與未來收益正向關。文獻[54]使用了樸素貝葉斯主題建模算法量化了年報敘述性披露部分的主題內容,實驗證明樸素貝葉斯算法能夠產生一組有意義的主題用來預測財務誤報事件。對于大規模的訓練集,樸素貝葉斯一般能取得好于其他模型的分類效果[55]。有學者使用了14個分類器用于財務報表弊端的智能檢測[22],這些分類器包括:邏輯回歸(Logistic Regression,LR)模型、樸素貝葉斯分類器、支持向量機、決策樹(Decision Tree)、人工神經網絡等,對比結果顯示,樸素貝葉斯在欺詐檢測問題上的準確率最高,這一研究成果可以為一些開發智能欺詐檢測的研究者在選擇合適的機器學習算法時提供借鑒。樸素貝葉斯在訓練的過程中對缺失數據并不敏感,所需估計的參數也比較少,但是該算法假定樣本屬性之間是不相關的,故樸素貝葉斯在樣本屬性相關性比較大的分類問題中效果并不好。

2.4 決策樹

決策樹是一種常見的機器學習算法,能夠學習對帶有分類標記的訓練數據進行正確分類。在遞歸的訓練過程中,決策樹一般通過信息增益來選擇屬性。在財務預測任務中,Chan等人[56]從文本信息的淺文本模式中提取事件序列,并使用基于決策樹分類器的推理引擎預測金融事件發生的可能性。實驗結果表明,基于決策樹構建的決策系統能夠揭示事件之間的隱藏規律,預測未來的股票價格變動趨勢。決策樹能直觀地顯示其決策過程,生成容易理解的分類規則。但是,在訓練過程中對訓練樣本的數據特征擬合過于精確,無法對新的樣本進行合理分析,容易出現過擬合現象。此外,對于新加入的樣本,需要重新調整樹的結構以訓練新的規則。

2.5 深度學習

深度學習具有很強的學習能力,“多隱層”網絡結構使得它擅長捕捉高度非線性的關系。傳統的機器學習算法如決策樹、樸素貝葉斯等雖然適合龐大的數據集處理,但是在處理文本的非線性特征時仍然存在很多局限,比如決策樹算法受限于樹結構的約束,很難學習到變量之間錯綜復雜的非線性關系。在一些金融預測問題中,深度學習模型確實能取得好于傳統機器學習模型的分類準確率。有學者評估了不同預測算法對于建模性能的影響,使用前饋神經網絡(Feedforward Neural Network,FNN)、決策樹和邏輯回歸三種不同的建模算法預測股票收益,多次實驗結果證明了前饋神經網絡算法的優越性能[57]。Feuerriegel等人[58]采用遞歸自動編碼器(Recursive Autoencoders)從底層文本語料庫中學習合適的特征,預測公司文本信息披露后的股票價格走勢,實驗獲得了比隨機森林(Random Forest)算法高5.66%的精度。

將情感分析與深度學習模型相結合可以提高文本分類的準確率。Lutz等人[59]采用長短期記憶人工神經網絡(Long Short-Term Memory,LSTM)來學習基于句子級別的新聞極性(積極和消極)以預測股票市場的收益,實驗結果表明該方法優于普通的基于詞語和文檔級別的分析方法。

在一些研究中,對神經網絡的模型改進有助于提高預測效率。文獻[60]使用RNN和CNN預測財務資料披露后的股票收益,采用遷移學習(Transfer Learning)調整模型的性能。分析結果顯示,當進一步使用遷移學習對模型進行預訓練時,分類準確率得到進一步增強。進一步的研究發現,使用深度學習的文本預測模型有時能取得比數值模型更好的預測效果。文獻[61]提出了一個由卷積神經網絡和長短期記憶網絡組成的網絡結構,并加入注意力機制來突出對預測結果重要的單詞。將構建的模型與基于數值據的預測模型進行了對比,發現文本構建模型的預測準確率明顯好于數值對比模型。此外,一些實驗結果表明,當文本數據和傳統的數值變量一起使用時,深度學習的預測精度可以進一步提高。文獻[23]首先利用深度學習分別驗證了基于文本和數據的獨立預測能力,最后將兩者結合進行分析預測,實驗表明混合數據源能取得比單一數據源(文本或者數值)更高的精度。

深度學習克服了傳統文本挖掘方法的局限,但是其模型的構造是一項非常具有挑戰性的任務,需要廣泛的參數調整才能取得比較好的效果。此外,深度學習模型的可解釋性較差,模型內部結構非常復雜,一般很難判斷訓練出來模型是如何得到最終的預測結果的。

2.6 強化學習

強化學習(Reinforcement Learning,RL)的基本思想是以試錯的方式不斷學習,從環境的交互中不斷學習以達成回報最大化。這種方法試圖復制人類的學習方式,因此非常適合自然語言處理。有學者使用強化學習的技術來支持金融決策,并通過否定范圍檢測來改進情感分析,克服基于規則的算法和基于概率生成模型在否定范圍檢測中的局限性,使分類精度達到70.17%[6]。文獻[62]使用強化學習的方法識別金融中的否定詞,以便正確衡量句子的極性,提高股票預測的準確率。Ye等人[63]提出了一個強化學習的框架用于投資組合管理,該強化學習框架能夠將數值和上市公司文本數據整合起來,克服金融系統的不穩定性,獲得累積收益的同時降低投資風險。

強化學習在訓練數據的過程中無需標記,通過反復的實驗來學習合適的分類,在文本分析的過程中可以對任意長度的復雜句子進行分析。目前強化學習在文本分析中的應用還比較有限,伴隨著強化學習技術的不斷成熟和自然語言處理技術的不斷進步,可以預見未來借助強化學習的力量,自然語言處理中的一些問題能夠得到有效的解決。

2.7 公司文本信息披露的智能分析方法總結

本節對上市公司文本披露的智能分析方法做了一個總結。文獻中使用的模型可以概括為兩類:分析模型和預測模型。分析模型可以評估變量之間的相關關系,回歸分析是一種常用的方法。預測模型包含:樸素貝葉斯算法、決策樹、支持向量機等機器學習模型。表1對文獻中使用的機器學習的優缺點進行了總結。從表1中可以看出,支持向量機和神經網絡是兩種常用的預測模型,在文本分類中取得較高的分類準確率。支持向量機能捕獲數據的內在特征,并嵌入了結構風險最小化原則使每個子集都能取得最小的經驗風險。神經網絡適合高維非線性數據處理。但是,目前沒有一個模型能很好地應用于所有金融事件的分析中,每一個算法都存在相應的缺陷。比如,支持向量機是一種優秀的文本分類算法,但在一些數據規模較大的問題中分類效果不如樸素貝葉斯。

表1 各機器學習模型在應用中的優缺點總結Table 1 Summary of advantages and disadvantages of each machine learning model in application

3 文本信息披露分析的應用場景

基于機器學習的文本分析技術充分發揮了公司文本信息披露的數據價值,目前該技術已經在金融領域的眾多場景中得到了廣泛的應用,如:股票市場分析預測、投資組合問題、決策支持、金融風險管理、企業舞弊行為檢測和公司未來發展狀況預測等,本章將對這些應用場景進行總結。

3.1 股票市場分析預測

股票的走勢不僅反映著近期市場的變化,也與投資者的個人利益息息相關,合理的股票預測有助于投資者做出正確的投資決策,降低投資風險。股票預測問題按照研究對象的不同可以分為股票價格預測和股票指數預測。其中,股票價格預測是針對具體的上市公司進行的,能夠反映企業資產的價值。股票指數是證券交易所編制的一種表明市場行情變動的指示數字,反映市場的整體變動趨勢。

3.1.1 股票價格分析預測

股票價格預測一直是金融領域的重要研究點,以往的研究大多數依賴于數字信息的分析,但是這種分析方法忽略了現實世界不斷發生的一些事件對股票造成的影響。近些年,大量可獲得的在線文本信息和計算機技術的發展促進了文本分析預測股價的研究。有學者從大量的公司在線新聞中提取隱藏的主題和情感信息用于公司股價預測[52]。Hu等人[64]從人類的學習過程中受到啟發,設計了一個基于混合注意力機制的金融新聞股價預測系統。實驗發現利用該系統交易能產生可觀的利潤。此外,一些學者致力于開發混合新聞和數值分析的預測系統,以獲得更高的股價預測精度[57]。

一般情況下,要用公司發布的文本數據預測股價,不僅需要選定的文本信息,還需要能夠反映股價變化的數值信息,如開盤價和收盤價等。如果僅僅對未來的股價走向進行預測,那么研究的問題一般是一個分類問題[8,50,58]。這種不精確的預測雖然可以作為投資者做出決策的依據,但是大多數投資者還是希望能夠精準地預測股價的漲跌程度,回歸分析法能夠對股票的漲跌程度進行擬合[24,29,58]。

很多投資者依據公司文本信息披露做出買賣股票的決定。目前依靠公司文本信息披露建立股市預測模型是一項具有挑戰性的任務[65],這是因為使用一則公司文本信息披露對股市進行預測往往不能得到準確的結果,在實際中股市的走向常常受到多條新聞的綜合影響,這種新聞之間的相互作用增加了預測的難度。

3.1.2 股票指數預測

通常情況下,一個股票指數由多支股票組成。由此,股指預測能夠反映股票市場的總體價格趨勢和經濟的運行狀況。Groth等人[9]使用公司披露的文本進行長期的股票指數預測,發現利用公司披露的文本數據能夠預測股票指數的長期變化,這一研究成果彌補了金融市場上利用文本數據進行長期股指預測的空白。

3.2 投資組合

股市是一個不斷變化的動態系統,為了獲得投資組合分配的最佳解決方案,交易者必須不斷分散和重新分配資金,以最大限度地增加利潤,同時最小化風險。馬爾可夫決策過程(Markov Decision Process,MDP)可以對投資組合分配的決策過程建模,該過程將監督學習方法所需的預測和決策兩個步驟結合成一個單一的綜合步驟,克服了傳統監督學習方法的局限性。文獻[63]使用強化學習方法來訓練一個智能交易系統,并將市場情緒這一因素納入到定量模型中以提高收益率和降低風險。與現有的投資組合模型相比,該方法能獲得更高的投資回報和更低的夏普比率(基金績效評價標準化指標)。為了探究年報的敘述性披露是否可以用來構建投資組合策略,文獻[26]構建了信息披露向量和投資組合規模回報之間的映射,實驗表明基于預測模型構建的實施的交易策略可以得到年超額收益率為12.16%的回報。

3.3 決策支持

決策支持是指計算機系統根據發現和總結到的知識輔助人類決策,最大程度地提高機構運行效率和管理水平。決策支持一般針對具體的應用場景,比如在股票預測中,研究者們使用各種先進的文本挖掘方法,預測股票的走向、漲跌程度,據此做出買入、持有或者賣出的決策[58]。此外,決策支持需要根據某種設定的規則來確定應該采取的操作,其可能根據某個具體的域值或者一個事先設定的權值來確定是否采取的相應措施。Chiong等人[4]在新聞情緒和購買決策之間建立了一種關系,當新聞情緒的指標超過某個正負域值時,自動觸發買入和賣出的決定,這種在股市價格做出調整之前自動交易的方式能夠使投資者獲益。文獻[6]計算了金融新聞的情緒值,將這些新聞情緒值與相應的股票市場回報率的相聯系,進而做出合理的金融決策。

3.4 金融風險管理

風險是指未來的不確定性或者波動性,其可能對資金、財產或者公司信譽造成很大影響,甚至在嚴重之時,可能對整個金融系統的穩健構成影響,導致社會經濟秩序的混亂。近些年人們逐漸認識到金融風險管理的重要性和迫切性。上市公司文本信息披露中包含了公司目前運營狀況的描述性信息和管理層對未來發展狀況的分析,通過對這些信息的解讀,可以預測企業未來發展中的一些不確定因素和潛在的風險,進而采取有效的措施降低風險。

企業披露的文本信息非常復雜,要建立這些信息披露和風險預測之間的聯系,必須選擇一種合適的角度。有學者探究了公司的信息披露中的風險關鍵字與企業發生風險的概率之間的關系,研究發現伴隨著公司信息披露的風險關鍵字數增多,信用風險也隨之增多[31]。文獻[28]通過文本挖掘公司披露中的情緒詞,預測金融風險。這些研究從統計學和情緒分析的角度出發,進一步拓展了現有金融風險管理的思路。

一些學者探究了利用企業文本信息披露預測公司未來發生金融風險的可能性。Groth等人[9]建立了一個日內風險預測模型,采用一個二分類的機器學習模型來預測未來是否會發生風險,當風險敞口大于某個閾值時被判斷為“陽性”,否則為“陰性”。有學者分析發現,通過識別與公司風險有關的披露,構建一個有效的風險預測數據集,能夠預測公司未來風險[5]。文獻[66]以上市公司年報為研究對象,探究了管理層語調是否會提高公司信用風險預警的效力。實驗證明了年報中的描述性文本能夠提供定量財務數據所不能反映的增量信息。因此為了更好地防范信用風險,有必要在風險評估模型中加入定性信息。

3.5 企業舞弊行為檢測

上市公司雖然有必要對公司的經營狀況進行披露,但是因為語言的多義性,管理者很可能掩蓋一些真實情況或者提供虛假信息,投資者因為不了解企業披露的信息的質量而對其利益造成損害。然而,管理層精心設計的隱瞞和串通行為是有跡可循的,比如為了掩飾現有的公司經營狀況,管理者可能會過分夸大正面消息,或者盡量隱藏負面信息。在一些上市公司披露中,管理層可能通過敘述過多的無關信息轉移讀者的注意力。

使用文本挖掘的技術可以對這類欺詐性的文本特征進行總結。Humpherys等人[20]發現與非欺詐性的披露相比,欺詐性披露使用更多的詞匯、意象等以及更少的詞匯多樣性。此外,為了顯得內容更加可信,欺詐性的文本通常寫得更多但是實際包含的內容較少。有學者發現文本中的情緒詞匯是識別企業欺詐行為的有效工具[9],這啟發信息需求者可以通過探究文本信息的情感表達方式,分析公司披露內容的真實性。

公司文本信息披露在企業舞弊行為檢測中發揮了重要作用。文獻[22]基于公司年報開發了智能財務報表欺詐檢測系統,該系統能夠區分欺詐和非欺詐的行為。文獻[67]發現通過分析年報中的文本數據,可以有效檢測欺詐行為,降低投資者的投資風險。有學者使用公司披露的定性部分識別欺詐行為,并將披露信息的定量和定性部分結合進行探究[17]。實驗結果顯示,利用年報的MD&A能夠區分75%的欺詐和非欺詐行為,當定量信息和定性部分合并時,能獲得83.87%的準確率。欺詐檢測要求系統能夠自動區分欺詐和非欺詐的行為,所以該問題一般轉化成為分類問題。好的檢測模型不僅可以有助于降低金融欺詐行為,而且可以降低信息處理的成本。

3.6 公司未來發展狀況預測

公司披露的文本信息可以用來預測未來具體的業績狀況,也可以預測某些金融事件的發生概率,如破產、陷入困境等。Hajek等人[68]認為,僅利用數值信息預測未來公司業績是不全面的,他們用公司年報來預測未來的公司績效(增長、無變化、減少),實驗取得了比較高的預測精度。Kang等人[25]發現年報的基調和公司業績之間存在積極的正面關系,即公司的當前績效越好,公司年報的基調就越積極。除了預測公司的業績狀況,也有學者用公司披露的文本信息預測未來公司是否會陷入困境或者破產。有學者挖掘年度報告文本片段,提取有用的信息預測公司財務困境[60]。Cecchini等人[19]研究了公司公開的年報信息與破產事件之間的關系,發現年報的MD&A中的信息內容有助于預測金融事件,這一研究結果能夠幫助投資者們確定存在風險的公司。

4 總結

企業披露信息中包含大量非結構化的文本信息,借助文本挖掘技術,可以從這些信息中提取有價值的知識,幫助信息需求者理解企業行為、預測企業未來發展。本文討論了如何使用機器學習技術智能分析上市公司披露的文本信息,并對金融市場上近十年的研究成果進行了總結,從上市公司文本信息披露的研究狀況、分析模型的選擇和智能分析的應用場景三個方面進行歸納。

從歸納的結果可以發現,在眾多類型的上市公司文本信息披露中,企業定期文本信息披露是學者們研究最廣泛的事件類型,通過構建支持向量機、樸素貝葉斯、決策樹等多種類型的預測模型,企業定期文本披露尤其是年報可以用于股票預測、風險管理、決策支持、舞弊行為分析等多個場景。一些其他類型的上市公司文本信息披露,如財務報告、重大事項報告、市場提示信息等公告因為信息含量不如年報豐富,一般被學者們用于研究某類事件對市場造成的沖擊,其采用的方法一般為事件分析法。目前學術界對公司披露文本信息的研究取得了一定的進展,但還有很多難題等待突破,如:傳統的機器學習方法依賴于手工的特征選擇,自動化程度不高;在文本的預測準確率方面,現有的模型大多接近猜測概率,具有很大的提升空間。一些學者提出了改進現有文本分析的方法,如選擇合適的預測指標、增量地添加其他信息源(如社交媒體投資者情緒、證券分析師預測報告)等,這些策略可以在一定程度上提高文本的準確率,但是并沒有從本質上改變模型提取信息效率不高的問題。針對這些問題,未來圍繞公司信息披露的研究可能從以下幾個方面展開:

(1)改進現有模型結構,提升算法的性能。深度學習能夠克服傳統機器學習技術在處理非線性特征時的局限性,在文本分析領域已經獲取了比較廣泛的應用,未來仍然會被當作研究熱點之一,也會作為模型的改進重點之一。有學者提出將CNN和時序模型LSTM相結合的策略[69],CNN選擇合適的文本特征,而LSTM關注文本的時序特性,這種改進方式有利于發揮兩個算法各自的優勢。此外,一些學者將強化學習和深度學習結合起來,利用強化學習的決策能力和深度學習處理復雜非線性問題的能力自動感知市場的變化并及時自主調整,實現投資智能化[70]。深度學習技術作為一種有效的文本分析工具,其不斷提升的性能將會推動自然語言處理的進步,在公司智能文本分析中發揮新的作用。

(2)探索新的模型在公司文本披露中的應用。近些年不斷涌現的一些新的自然語言處理模型,與傳統模型相比具有更多的優勢,借助這些模型的力量可以在公司文本分析中發揮新的作用。其中,注意力機制在自然語言處理的任務中廣泛使用,能夠自動篩選出一些高質量的信息,忽略一些低質量信息[71]。在一些基于機器學習的文本分析任務中引入注意力機制,能使得模型更加專注于選擇對文本分析任務起關鍵作用的詞,提高預測效果[72]。Transformer[73]和BERT[74]是基于注意力機制提出的兩種重要的自然語言處理模型。Transformer能夠克服傳統循環神經網絡的梯度消失問題,具有強大的文本編碼能力,BERT使用了Transformer的編碼器部分,在使用過程中僅需要微調就能達到比較好的結果。目前這兩個模型被廣泛應用于各種文本挖掘的場景中,未來可以通過進一步地融合金融領域的一些知識和具體場景的特點,對模型進行優化改進,在公司披露的文本信息任務中取得比較好的表現。但是,Transformer和BERT訓練的過程中含有較多參數,不適合一些實時性需求比較高的場景。pQRNN是一款輕量級的自然語言處理工具,采用有監督的數據集,僅需少量的參數就能達到與BERT類似的效果[75],未來可以將其應用于一些計算能力低下且需要實時分析的金融場景中。

(3)從信息披露中提取出更多的文本特征,展現數據更多元的價值。上市披露的文本信息含量豐富,一些文本的特征如:信息披露的時間[76]、披露文本的長度[77]、文本的復雜性[78]和文本的可讀性[79]等,都是非常有用的信息,對于投資者獲取公司價值信息是非常重要的。現有研究大多從單一的維度來分析,無法完整體現出管理層的真實意圖,因而未來可以從多個維度對上市公司文本披露信息進行分析或者探索更有價值的文本特征,獲得更深層次的信息,把握公司的決策行為和未來的發展趨勢。

(4)人工智能技術在為金融企業賦能的同時也產生了一系列復雜的倫理問題,目前從倫理學的角度對上市公司文本信息披露進行研究的文獻相對較少,伴隨著機器學習技術在公司文本分析中應用的不斷深入,各種倫理問題也逐漸顯現,未來有關倫理問題的研究將會得到更多的重視。概括來說,從倫理學的角度對上市公司文本信息披露進行的研究未來可能主要集中在三個方面:一是從不同角度分析上市公司文本信息披露質量和企業倫理之間的沖突,揭示上市公司文本信息披露質量和企業倫理沖突的成因,以期制定基于企業倫理觀念的上市公司文本信息披露的信息質量控制策略[80]。二是分析智能分析技術的應用帶來的責任倫理問題[81],比如在一些大型的交易決策系統中過分依賴人工智能分析技術導致企業決策失誤帶來難以挽回的損失,如何對責任的主體人進行認定,如何進行責任分配是目前存在爭議的一個話題。三是分析智能分析技術的廣泛應用帶來的社會問題。智能分析技術代替了很多傳統人力的工作,沖擊了金融勞動市場,造成了一些金融工作者的失業問題[82],如何解決這些傳統從業者的失業問題有待于進一步研究。

猜你喜歡
文本分析信息
隱蔽失效適航要求符合性驗證分析
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: av无码一区二区三区在线| 国产成人精品一区二区| 国内精品91| 亚洲国产欧美国产综合久久 | 日韩免费视频播播| 日韩精品中文字幕一区三区| 日本欧美精品| 1级黄色毛片| 三级视频中文字幕| 久久中文无码精品| 国产黑丝一区| 国产成人毛片| 少妇精品久久久一区二区三区| 最新国语自产精品视频在| 国产精品蜜芽在线观看| 久久成人免费| 国产99免费视频| 国产AV无码专区亚洲精品网站| 在线观看国产小视频| 欧美第二区| 亚洲黄色网站视频| 国产www网站| 91亚洲视频下载| 国产成人91精品| 九色最新网址| 国产黄色免费看| 国产成年无码AⅤ片在线| 日韩中文字幕免费在线观看| 91久久偷偷做嫩草影院| 无码一区18禁| 国产 在线视频无码| 久久久噜噜噜久久中文字幕色伊伊 | 国产成人禁片在线观看| 日韩在线观看网站| 国产成人喷潮在线观看| 色亚洲激情综合精品无码视频| 99手机在线视频| 亚洲IV视频免费在线光看| 国模粉嫩小泬视频在线观看| 欧美成人aⅴ| 欧美中文字幕第一页线路一| 日韩毛片在线视频| 91青青在线视频| 午夜国产精品视频| 少妇精品久久久一区二区三区| 国产久操视频| 成人日韩精品| 91口爆吞精国产对白第三集| 亚洲成人在线免费| 亚洲人成在线精品| 国产小视频在线高清播放| 日韩欧美网址| 欧美成人综合在线| 日韩国产亚洲一区二区在线观看| 国产精品亚欧美一区二区| 日本精品视频一区二区| 精品亚洲欧美中文字幕在线看| 欧美另类视频一区二区三区| 亚洲成人精品在线| 日韩精品亚洲一区中文字幕| 色噜噜狠狠色综合网图区| 69视频国产| 麻豆精选在线| 福利小视频在线播放| 99精品在线看| 人人91人人澡人人妻人人爽| 亚洲国产精品成人久久综合影院| 国产噜噜在线视频观看| 成年网址网站在线观看| 久久久久久高潮白浆| 国产成人禁片在线观看| 毛片在线看网站| 国产AV毛片| 国产中文在线亚洲精品官网| 色天天综合| 国产美女丝袜高潮| 免费激情网址| 怡红院美国分院一区二区| 久草青青在线视频| 欧美一道本| 色悠久久综合| 亚洲黄色激情网站|