999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本信息的企業信用風險預測研究

2023-01-01 00:00:00張皓楠張紅梅
中國管理信息化 2023年2期

[摘 要]文章運用文本數據挖掘法,將發生信用風險企業和未發生信用風險企業年報中的語調剝離出來后,對其進行量化,研究年報語調對信用風險預測有效性的影響。在實證研究中,文章對若干傳統財務變量使用因子分析法,通過Logistic模型將所提取的成分與語調變量進行信用風險預測。預測結果表明:發生信用風險的企業語調更為消極,并且語調悲觀程度與信用風險發生的概率顯著正相關。通過對比語調變量加入前后的預測結果的ROC曲線可知,在以財務變量為主要依據的信用風險預測中加入語調變量可以提高預測的有效性。

[關鍵詞]信用風險;文本數據挖掘;因子分析;Logistic模型;文本語調

doi:10.3969/j.issn.1673 - 0194.2023.02.037

[中圖分類號]F276 [文獻標識碼]A [文章編號]1673-0194(2023)02-0-04

0" " "引 言

全球金融發展速度迅猛,社會各主體間的金融往來日漸頻繁,由此也帶來了錯綜復雜的利益關系,一旦某一利益環節發生信用風險,就會造成不可估量的連帶損失。因此,國內外學者將預防信用風險視為重要的研究對象。

信用風險通常指借款人、證券發行人或交易方不愿或無力履行合約而構成的違約[1]。楊蓮[2]將Focal Loss 修正交叉熵損失函數引入信用風險評價模型,對若干個體樣本進行風險預測,實證結果表明該預測方法可以提升對困難樣本的識別能力。王重仁[3]針對互聯網信貸行業個人信用風險評估,提出一種貝葉斯參數優化方法和XGBoost算法,實證結果表明此方法優于支持向量機等傳統的預測模型。羅方科[4]將商業銀行互聯網金融個人小額貸款數據帶入Logistic模型,篩選出對信用風險影響較為顯著的因素。由于公司企業相對于個人借款者、投資者具有更大的影響力,其發生信用風險產生的危害也更具破壞力,因此提高對公司企業信用風險的預測精準度也是風險管理領域的熱點問題。有些學者從信用特征角度出發,對2 169家中國A股上市公司數據進行實證分析,得出按特征劃分的模型具有更高的判別精度。相較于信用特征,更多學者基于最優信用風險指標組合的視角對信用風險進行研究,如研究發現不同財務指標對長短期違約狀態預測具有不同的影響。

以往的研究多停留在對財務數據的分析,隨著計算機技術的進步和互聯網的飛速發展,越來越多的非結構化數據被運用到金融問題的研究中。結構化數據為字段可變數據,如吳非等人[5]通過爬蟲技術歸集企業年報中有關“數字化轉型”的關鍵字,并以此刻畫企業數字化轉型的強度。李斌[6]通過挖掘美國上市保險公司共計1 682份財務報告文本,識別出29個保險業的重要風險點,并以此分析保險業中重要風險的變化趨勢。K Liang[7]認為文本信息有效緩解了信息不對稱,顯著提高了信用評估模型的可預測性。因此文本大數據也可應用于信用風險領域,M Cecchini[8]抽取年報中管理層分析與討論模塊的有效信息,并綜合其他財務數據提升傳統預測模型的預測違約正確率。劉逸爽[9]以ST企業和非ST企業為研究對象,通過公司年報中管理層的語調來研究文本情緒與財務困境的關系。有些學者通過挖掘期刊論文中的文本信息,構建有關信用風險指標的先驗詞頻,實證結果表明信用風險模型在運用此類先驗詞頻后分類效果明顯提高。

從已有文獻可以看出,國內外對于文本信息用于信用風險預測的研究多聚焦于個人投資者,而對于公司信用風險研究則以傳統的結構化數據為主,但公司年報等諸多公開信息中也蘊含著大量信息,獲取該類文本信息有助于減少因信息不對稱帶來的影響,從而提高信用風險預測的有效性。鑒于此,本文將結合真實的違約數據,選取2018—2020年發生信用風險的25家上市公司與未發生信用風險的53家上市公司為總樣本,將語調從公司年報中剝離出后對其進行量化分析,并結合傳統結構化數據預測公司發生信用風險的概率。

1" " "企業信用風險識別研究方法及指標選取

1.1" "Logistic模型及研究思路

Logistic回歸是一種常見的機器學習方法,主要用于對樣本分類,屬于“廣義的線性回歸”,信用風險研究常常用到此模型,究其原因是Logistic模型具有因變量取值在0和1之間,且不需要服從正態分布等優良特性,Logistic模型的表達式如下:

本文將發生信用風險的企業標記為1,在(1)式中P表示信用風險發生的概率,β0 為常數項,Xi為影響預測信用風險的因變量,βi為各因變量對于信用風險的影響程度。本文的研究思路:首先對多個財務指標進行降維操作,使用因子分析法提取出3個主要成分,其次分兩步運用Logistic模型預測信用風險,第一步僅輸入3個主成分預測信用風險,第二步使用3個主成分與語調變量為輸入數據預測信用風險,最終通過ROC曲線對比該模型加入語調變量前后的信用風險預測效果。

1.2" "數據選取

由于投資者并不會在企業發生信用風險的當年得知企業的財務狀況以及年報,所以發生信用風險公司前一年的年報以及財務數據就是投資者預測該企業是否會發生信用風險的主要依據。鑒于此,本文選取公司信用風險發生前一年的公司年報以及財務數據作為風險識別指標。在選擇未違約企業數據時,統一選取未違約公司2019年年報以及財務數據作為風險識別指標。年報數據均來自上交所與深交所上市公司的公開披露數據,財務數據來自RESSET金融研究數據庫。

1.3" "數據處理

1.3.1" "財務數據處理

本文參考多位學者[10-11]在構建信用風險識別體系時選取財務指標的方法選取出12個指標,分別是X1(速動比率)、X2(資產負債率)、X3(營業利潤率)、X4(銷售凈利率)、X5(資產報酬率)、X6(固定資產周轉率)、X7(總資產周轉率)、X8(非流動資產周轉率)、X9(營業收入現金含量)、X10(凈資產增長率)、X11(總資產增長率)、X12(主營業務收入增長率)。由于某些原始財務數據存在部分空缺值,本文以該項指標的平均值將其填補。

1.3.2" "文本語調量化處理

本文通過“詞典法”構建年報情感語調,參考知網Hownet詞典以及實際金融用語作為情感詞典,該詞典分為正面情感詞典和負面情感詞典。量化文本語調時,首先將各公司年報下載后進行格式轉換,運用格式轉換軟件將PDF格式轉為TXT格式,再利用Python中Jieba分詞包對年報進行分詞處理,隨后除去如“的”“了”等停用詞后,依據情感詞典進行詞頻統計,統計方法如下:若年報中出現負面情感詞典中的詞語,如“虧損”“欠款”“疑惑”等,則對該類詞語的出現次數統計求和,用NEG表示一份年報中負面詞語出現的總次數;若年報中出現正面情感詞典中的詞語,如“努力”“引領”“支持”等,則對該類詞語的出現次數統計求和,用POS表示一份年報中正面詞語出現的總次數。由于負面語調對于決策者往往具有更大的影響[12],本文以公式(2)量化文本語調,其中NEG、POS的含義已在上文介紹,TONE表示文本語調,即TONE越大,文本中透露出的負面情緒越濃,反之則表示文本語調更為積極。

2" " "實證分析

2.1" "組間差異性檢驗

本文使用SPSS 21軟件對發生信用風險組數據與未發生信用風險組數據進行獨立樣本T檢驗,觀測所選指標是否具有顯著性差異[12]。最終X6(固定資產周轉率)、X8(非流動資產周轉率)、X9(營業收入現金含量)、X10(凈資產增長率),共4個變量沒有通過檢驗,不能較好地反映不同類別樣本之間的差異。其余包括TONE在內的9個變量均通過“獨立樣本T檢驗”,證明剩余的9個變量可以顯著反映組間差異。

此外,為了初步探究發生信用風險和未發生信用風險企業的年報語調差別,本文對TONE的數據特征進行分析,得出違約企業文本語調的均值為0.04,最大值為0,最小值為0.02;未違約企業的均值為0.03,最大值為0.06,最小值為0.02,不難發現違約企業的均值大于未違約企業,這表明企業在發生信用風險前一年的年報中廣泛存在負面情緒。

2.2" "因子分析

本文使用SPSS 21軟件,對8個財務變量進行因子分析。首先,運用Z-score數據標準法對數據進行處理,消除樣本數據量綱的影響。其次,通過KMO檢驗8個變量是否適用于因子分析,最終得到KMO檢驗值在1%的顯著性水平下為0.55,大于標準值0.5,且具有統計學意義,說明8個財務指標包含較多相似信息,適合進行因子分析。

本次因子分析共抽取了3個特征值大于1的主成分,且3個成分包含了總數據75.153%的信息。通過因子分析法可將原來8種財務指標中的信息提取到3個成分中,數據的維度也由8維降低為3維,減少近2/3,表明因子分析結果較好。設所提取的3個成分分別為F1、F2、F3,根據各變量在F1、F2、F3中的得分情況列出如下表達式。

F1=0.1X1-0.21X2+0.25X3+0.24X4+0.24X5+0.06X7+

0.19X11+0.16X12(3)

F2=-0.61X1+0.44X2+0.2X3+0.23X4-0.01X5-0.05X7+

0.08X11+0.26X12(4)

F3=0.12X1+0.05X2+0.23X3+0.22X4-0.32X5+0.62X7-0.44X11+0.1X12(5)

2.3" "Logistic回歸

首次使用Logistic模型回歸時只將F1、F2、F3作為輸入變量,結果如表1中無TONE變量回歸結果所示,3個主成分中只有F1在1%水平下顯著并且F1前系數為-2.460,與違約概率呈負相關關系。根據(3)式,F1中得分較高的變量分別為X2(資產負債率)、X3(營業利潤率)、X4(銷售凈利率)、X5(資產報酬率),其中X3、X4、X5為體現盈利能力的變量,并且該類變量在F1中的系數為正,因此可以推斷一個公司的盈利能力是影響其違約的主要因素,公司盈利能力越好越不易發生信用風險,反之,盈利能力越差發生信用風險的概率越高。

再次使用Logistic模型回歸時,將3個成分F1、F2、F3與TONE變量一同輸入Logistic模型預測信用風險。由含TONE變量的Logistic回歸結果可知,TONE前系數為0.774,且在5%的水平下顯著,這表明TONE與信用風險發生概率顯著正相關,由式(2)可知TONE數值越大,表明年報中語調越消極,即企業前一年年報語調越悲觀,該公司越有可能發生信用風險,反之則越不易發生信用風險。

2.4" "ROC曲線下面積對比

ROC曲線下面積是反映模型預測效果的主要判別依據,即ROC曲線下面積越大,信用風險預測效果越好。由SPSS 21軟件計算可得,含TONE變量預測結果的ROC曲線下面積為0.892大于無TONE預測結果的ROC曲線下面積0.855,這表明在預測企業信用風險時加入語調可以提升信用風險識別的有效性。

3" " "研究結論與建議

本文把2018—2020年發生信用風險的25家上市公司與未發生信用風險的53家上市公司作為研究對象,對文本數據,使用文本數據挖掘法將語調抓取并量化;對傳統的財務數據,運用因子分析法將數據降維后提取出3個主成分,最終對比加入語調變量前后Logistic模型對信用風險預測精準度的影響,得出以下結論。第一,在使用傳統的財務數據預測信用風險時,盈利能力對信用風險預測結果具有較大影響,盈利能力越強的企業越不容易發生信用風險。第二,發生信用風險企業前一年的年報語調與未發生信用風險企業的年報語調相比更為悲觀。投資者可以在閱讀公司年報時觀察其語調,減少因信息不對稱帶來的影響。第三,由實證結果可得,在Logistic回歸中,信用風險發生概率與量化后的文本語調悲觀程度在5%水平上顯著正相關,即該企業前一年的年報語調越消極,那么該企業當年發生信用風險的概率越大。這種結果同樣也說明公司年報語調中蘊含著與信用風險相關的信息,在一定程度上可以解決投資者與公司主體之間的信息不對稱問題。第四,通過對比ROC曲線下的面積可以得出,在使用Logistic模型預測時,加入語調變量可以有效提高模型的預測準確度,這說明年報文本信息可以作為信用風險預測指標的補充,提高模型預測的準確度。

本文將語調從公司年報中剝離出來,并對其量化,使其成為以結構化數據為主要判別依據的傳統信用風險識別體系的補充部分。根據本文的研究結論,廣大投資者、商業銀行等金融機構在預測企業信用風險時應加強對文本信息的獲取,從多個維度構建風險預測體系,提高信用風險識別效率,減少因信息不對稱而產生的損失。

主要參考文獻

[1]陳艷利,蔣琪.營商環境、真實盈余管理與信用風險識別[J].山西財經大學學報,2021(9):98-110.

[2]楊蓮,石寶峰.基于Focal Loss修正交叉熵損失函數的信用風險評價模型及實證[J].中國管理科學,2022(5):65-75.

[3]王重仁,韓冬梅.基于超參數優化和集成學習的互聯網信貸個人信用評估[J].統計與決策,2019(1):87-91.

[4]羅方科,陳曉紅.基于Logistic回歸模型的個人小額貸款信用風險評估及應用[J].財經理論與實踐,2017(1):30-35.

[5]吳非,胡慧芷,林慧妍,等.企業數字化轉型與資本市場表現:來自股票流動性的經驗證據[J].管理世界,2021(7):130-144,10.

[6]李斌,王穎慧,朱曉謙,等.保險業重要風險點的識別和演化分析:基于財務報告中披露的文本風險信息[J]系統工程理論與實踐,2022(2):333-344.

[7]Liang Kun,He Jun. Analyzing credit risk among Chinese P2P-lending businesses by integrating text-related soft information[J]. Electronic commerce research and applications,2020(40):100947.

[8]Cecchini M ,Aytug H ,Koehler G J , et al. Making words work: Using financial text as a predictor of financial events[J].Decision support systems,2010(1):164-175.

[9]劉逸爽,陳藝云.管理層語調與上市公司信用風險預警:基于公司年報文本內容分析的研究[J].金融經濟學研究,2018(4):46-54.

[10]王千紅,張敏.我國中小企業信用違約風險識別的實證研究[J].上海經濟,2017(1):91-100.

[11]劉祥東,王未卿.我國商業銀行信用風險識別的多模型比較研究[J].經濟經緯,2015 (6):132-137.

[12]張淑惠,周美瓊,吳雪勤.年報文本風險信息披露與股價同步性[J].現代財經:天津財經大學學報,2021(2):62-78.

主站蜘蛛池模板: 精品一区国产精品| 亚洲国产精品一区二区高清无码久久| 小13箩利洗澡无码视频免费网站| 人人爽人人爽人人片| 国产va免费精品| 99这里只有精品6| 人人看人人鲁狠狠高清| 欧美三级不卡在线观看视频| 亚洲成人www| 思思热精品在线8| 亚洲日本一本dvd高清| 国产精品女在线观看| 国产免费高清无需播放器| 亚洲成A人V欧美综合| 中文字幕波多野不卡一区| 免费毛片网站在线观看| 午夜日本永久乱码免费播放片| 成人毛片在线播放| 欧美日韩成人| 国产99精品久久| 精品福利网| 狠狠色狠狠色综合久久第一次 | 97超级碰碰碰碰精品| 亚洲一级毛片在线观播放| 一级毛片在线播放| 久久国产热| 久久久久亚洲av成人网人人软件| 婷婷丁香在线观看| 亚洲丝袜中文字幕| 欧美乱妇高清无乱码免费| 国产青青草视频| 国产视频一二三区| 国产亚洲欧美另类一区二区| 中文字幕乱码中文乱码51精品| 9999在线视频| 久久 午夜福利 张柏芝| 26uuu国产精品视频| 小说区 亚洲 自拍 另类| 毛片视频网址| 黄色在线不卡| 久久精品欧美一区二区| 日韩欧美91| 伦精品一区二区三区视频| 亚洲色图综合在线| 日韩成人在线网站| 国产一区二区三区日韩精品| 亚洲天堂日韩av电影| 国产在线麻豆波多野结衣| 91视频精品| 亚洲人成网18禁| 久久综合九九亚洲一区| 国产正在播放| 国产欧美在线视频免费| 天堂网亚洲系列亚洲系列| 欧美亚洲综合免费精品高清在线观看| 国产在线视频导航| 亚洲最黄视频| 日本人妻一区二区三区不卡影院| 蜜桃臀无码内射一区二区三区| 一级全黄毛片| 国产av剧情无码精品色午夜| 欧美特黄一级大黄录像| 欧美性久久久久| 精品亚洲国产成人AV| 成人小视频网| 亚洲欧美日韩另类在线一| 中文字幕一区二区视频| 国产精品刺激对白在线| 国产精品无码影视久久久久久久| 久操中文在线| 一级毛片网| 亚洲另类第一页| 在线免费不卡视频| 在线日本国产成人免费的| 亚洲国产成人精品无码区性色| 成人a免费α片在线视频网站| 一区二区午夜| 亚洲Av激情网五月天| 国产综合在线观看视频| 色哟哟国产精品| 3p叠罗汉国产精品久久| 成人在线欧美|