999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統(tǒng)計分布信息的上市公司隨機缺失數(shù)據(jù)的KNN 插補

2023-12-08 02:41:52汪曉云丁沈杰
安徽工程大學學報 2023年4期
關(guān)鍵詞:方法

李 夏,汪曉云,丁沈杰,張 玥

(安徽工程大學 數(shù)理與金融學院,安徽 蕪湖 241000)

上市公司是我國企業(yè)中的優(yōu)秀代表,是區(qū)域經(jīng)濟發(fā)展的稀缺資源,數(shù)量上只占全國企業(yè)數(shù)量的萬分之一,但卻是國家實體經(jīng)濟的“基本盤”。然而,上市公司財務(wù)數(shù)據(jù)缺失現(xiàn)象普遍存在,為上市公司財務(wù)狀況的分析帶來了挑戰(zhàn)。

數(shù)據(jù)缺失不僅會降低數(shù)據(jù)的有效性,還會影響最終決策的準確性,因此對于缺失數(shù)據(jù)插補法的研究一直備受學者們的關(guān)注[1]。對于缺失數(shù)據(jù)的插補方法,可以分為兩類:統(tǒng)計學插補法和機器學習插補法,而目前針對統(tǒng)計學插補法的研究要比機器學習插補法更加深入和廣泛[2]。統(tǒng)計學插補法主要包括均值插補法、K 最近鄰(K Nearest Neighbor,KNN)插補法、最大期望算法(Expectation Maximization algorithm,EM)插補法和多重插補法(Multiple Imputation,MI)等[3]。其中,KNN 插補法相對更穩(wěn)定、準確性更高。KNN 插補法是一種基于相似測度的聚類算法[4],相似測度的選擇會嚴重影響KNN 插補法的性能。由于相似測度有不同類型,這為該領(lǐng)域的研究留下了比較廣闊的空間[5]。上市公司財務(wù)數(shù)據(jù)是由時間序列數(shù)據(jù)和截面數(shù)據(jù)結(jié)合而成的面板數(shù)據(jù),而目前國內(nèi)外的缺失數(shù)據(jù)插補法研究主要針對同一時期的截面數(shù)據(jù)或者同一個體的時間序列數(shù)據(jù),對于面板數(shù)據(jù)的插補法研究尚處于起步階段[6]。

面板數(shù)據(jù)兼具橫截面和時間兩個維度,因此包含更多的統(tǒng)計分布信息。傳統(tǒng)KNN 插補法將數(shù)據(jù)空間視為歐氏空間,選擇歐式距離來度量樣本點間的毗鄰關(guān)系,然而,高維數(shù)據(jù)空間一般是非歐的。因此本文將面板數(shù)據(jù)視為統(tǒng)計流形中的點,利用流形的測地距離來度量樣本點間的鄰近關(guān)系。考慮到統(tǒng)計流形上測地距離計算的復雜度,在KNN 插補法中,從多項式流形、參數(shù)假設(shè)檢驗、信息量這3個視角分別選擇測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度,來度量樣本間的相似性,并研究上市公司面板數(shù)據(jù)隨機缺失狀態(tài)下的插補效果。

1 KNN 插補法中3種度量

在高維數(shù)據(jù)空間中,歐氏距離不再適用,可以將高維空間近似為統(tǒng)計流形,用統(tǒng)計流形上的測地距離來度量數(shù)據(jù)點之間的鄰近關(guān)系。由于測地距離計算復雜度高,很難獲取其顯式表達,因此本文用測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度來度量樣本點間的相似性,距離越近,相似度越高。

1.1 Cosine距離

在統(tǒng)計流形中,距離的度量與歐式空間是不同的,一般都不是規(guī)則性的,也不像歐式空間需要對稱,有很多距離都能夠近似度量樣本的相似性[7]。當有p和q兩個分布時,將它們映射成統(tǒng)計流形上的多項式分布,用Cosine距離來度量數(shù)據(jù)間的距離。計算公式為:

1.2 Hotelling T 2 統(tǒng)計量

Hotelling T2統(tǒng)計量是一個無單位值,是t分布在多元條件下的推廣,適用于度量高維數(shù)據(jù)之間的距離[8],計算公式為:

式中,n1和n2為樣本容量;、S和分別為多元情況下的樣本均值向量、樣本方差-協(xié)方差矩陣和總體均值向量。

1.3 Jensen-Shannon散度

Jensen-Shannon散度來源于信息量,信息量是對事件的不確定性的度量,事件發(fā)生概率越小,信息量越大。當有p和q兩個分布時,Jensen-Shannon散度是衡量q擬合p的過程中產(chǎn)生的信息損耗,信息損耗程度可度量兩個分布之間的相似性,相同為0,相反為1。Jensen-Shan non散度是在Kullback-Leibler散度基礎(chǔ)上引入的,和Kullback-Leibler散度相比,具有嚴格的對稱性[9],取值范圍是[0,1]。計算公式為:

2 實例與分析

上市公司財務(wù)數(shù)據(jù)屬于面板數(shù)據(jù),兼具橫截面和時間兩個維度。本文選擇了107家上市公司2021年第三季度到2022年第一季度共3個季度的財務(wù)數(shù)據(jù),其中多元金融板塊有77家,商業(yè)銀行板塊有42家,保險板塊有7家,共計321個樣本。基于這些財務(wù)數(shù)據(jù)的統(tǒng)計分布信息,在KNN 插補法中,使用測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度,來度量樣本間的相似性。

2.1 數(shù)據(jù)預(yù)處理

用Min-Max標準化對所有數(shù)值進行標準化處理[10],計算公式為:

式中,xi表示原始數(shù)據(jù)中的值;xmin和xmax分別表示該數(shù)據(jù)所在列中的最小值和最大值;x′i為標準化后的數(shù)值,取值范圍為[0,1]。

2.2 實驗結(jié)果

本文通過兩個實驗來測試基于統(tǒng)計信息下三種度量KNN 插補法的性能:一個是在同一缺失率下對它們的插補效果進行比較;另一個是在不同缺失率下,將它們與中位數(shù)插補法[11]、均值插補法[12]、缺失森林[13]、袋裝法[14]、傳統(tǒng)的KNN 插補法[15]這五種常用的插補方法進行比較。

(1)3種度量的KNN 插補法效果比較。本文選擇在缺失率為12%的情況下,將樣本數(shù)據(jù)隨機挖空10次(不包括標簽),生成10個隨機缺失數(shù)據(jù)集,用10次實驗結(jié)果的均方誤差(Mean Square Error,MSE)和平均絕對誤差(Mean Absolute Error,MAE)的平均值來衡量3種度量的KNN 插補法的性能穩(wěn)定性,實驗結(jié)果如表1所示。從表1可以看出,當缺失率為12%時,Cosine距離的MSE 和MAE 的平均值都是最大的并且誤差也是最大的,它的MSE和MAE的平均值分別為5.164 7×10-3、1.549 4×10-2,對應(yīng)的均方誤差分別是7.545 9×10-4、1.620 4×10-3;其次是Jensen-Shannon散度,它的MSE平均值為3.804 5×10-3,誤差為6.535 7×10-4;Hotelling T2統(tǒng)計量的MSE平均值是最小的,并且誤差也是最小的,它的MSE 平均值為3.730 1×10-3,誤差為5.927 9×10-4。由此可以看出,在缺失率較高的情況下,Hotelling T2統(tǒng)計量的KNN 插補法在這3種度量的KNN 插補法中插補的效果比較好,泛化性能比較穩(wěn)定。

表1 缺失率為12%時3種相似測度的標準偏差

(2)與常用插補法的比較。考慮到當數(shù)據(jù)缺失率超過50%時,將有一定的概率使投影成為空集,因而本文將樣本數(shù)據(jù)分別按照1%至15%,步長為1%的缺失率隨機挖空(不包含標簽),生成15個隨機缺失數(shù)據(jù)集。將提出的三種度量的三種KNN 插補法分別與經(jīng)典的、一流的五種插補法,即中位數(shù)插補法[11]、均值插補法[12]、缺失森林[13]、袋裝法[14]、傳統(tǒng)的KNN 插補法[15]進行比較,通過計算原始數(shù)據(jù)和插補后數(shù)據(jù)的MSE和MAE這兩種統(tǒng)計指標來衡量這8種插補方法在不同缺失率情況下的插補效果,實驗結(jié)果分別由圖1、2所示。由圖1、2可以看出,中位數(shù)插補法[11]、均值插補法[12]、缺失森林[13]、袋裝法[14]和傳統(tǒng)的KNN 插補法[15]這五種插補方法中,缺失森林方法效果最優(yōu),這是因為它可以直接用已觀測到的完整部分數(shù)據(jù)集訓練出的隨機森林來預(yù)測缺失值,而不依賴于因變量的完整性[13];最差的是傳統(tǒng)的KNN 插補法,而且其誤差隨著缺失率變大而陡增,說明其不適合填補缺失率大的缺失數(shù)據(jù),這主要是因為在KNN 插補法的計算過程中,當缺失比例較大時,可能會出現(xiàn)大量數(shù)據(jù)連續(xù)缺失的情況,所以此時它很難對距離做出精確的測算,無法得出具體的插補結(jié)果。Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度這三種度量的三種KNN 插補法中,缺失率較低時,Cosine距離表現(xiàn)最優(yōu);缺失率較高時,Hotelling T2統(tǒng)計量表現(xiàn)最優(yōu)。

圖1 數(shù)據(jù)集插補結(jié)果MSE

由圖1可見,當缺失率較低時,三種度量中,Cosine距離比較合適。當缺失率為1%~7%時,Cosine距離的MSE值與均值插補法比較接近,比Jensen-Shannon散度和Hotelling T2統(tǒng)計量的MSE 值要低,比缺失森林方法高出6.7?;Jensen-Shannon散度的MSE值波動劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法高出5.5‰,比Cosine距離高出4.9‰。

隨著缺失率的增大,當缺失率較高時,三種度量中,Hotelling T2統(tǒng)計量比較合適。當缺失率為8%~15%時,Hotelling T2統(tǒng)計量與袋裝法以及均值插補法的MSE 值接近,比Cosine距離和Jensen-Shannon散度的MSE值要低,比缺失森林方法高出2.7‰;Jensen-Shannon散度的MSE 值波動仍然劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法和Hotelling T2統(tǒng)計量分別高出4.2‰和1.5‰。

由圖2可以看出,當缺失率較低時,三種度量中,Cosine距離比較合適。當缺失率為1%~7%時,Cosine距離的MAE值與均值插補法比較接近,比Jensen-Shannon散度和Hotelling T2統(tǒng)計量的MAE值要低,比缺失森林方法高出2.3‰;Jensen-Shannon散度的MAE值波動劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法高出9.8‰,比Cosine距離高出7.5‰。

圖2 數(shù)據(jù)集插補結(jié)果MAE

隨著缺失率的增大,當缺失率較高時,三種度量中,Hotelling T2統(tǒng)計量比較合適。當缺失率為8%~15%時,Hotelling T2統(tǒng)計量與均值插補法的MAE 值接近,比Cosine距離和Jensen-Shannon 散度的MAE值要低,比缺失森林方法高出8.2‰;Jensen-Shannon散度的MAE 值波動仍然劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法高出1.1%,比Hotelling T2統(tǒng)計量高出2.9‰。

3 結(jié)論

缺失數(shù)據(jù)插補的理論及應(yīng)用方面的研究成果近年來在統(tǒng)計、計量和醫(yī)藥等領(lǐng)域得到廣泛的關(guān)注和應(yīng)用。本文在國內(nèi)外缺失數(shù)據(jù)插補的理論與方法的基礎(chǔ)上,結(jié)合近幾年來較新的缺失數(shù)據(jù)插補方法和面板數(shù)據(jù)的特點,提出了在KNN 插補法中,從多項式流形、參數(shù)假設(shè)檢驗、信息量這3個視角分別選擇測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度,來度量樣本間的相似性,并通過對107家上市公司的2021年第三季度到2022年第一季度共3個季度的財務(wù)數(shù)據(jù)進行隨機缺失模擬,來測試基于統(tǒng)計信息下三種度量KNN 插補法的性能。主要有以下結(jié)論:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度這三種度量的三種KNN 插補法中,當缺失率較低時,Cosine距離插補效果更優(yōu),略次于缺失森林方法;當缺失率較高時,Hotelling T2統(tǒng)計量插補效果最好并且具有良好的穩(wěn)定性,弱次于缺失森林方法;Jensen-Shannon散度的誤差波動性一直很大,但是在缺失率較高的情況下插補效果良好,這主要得益于在大樣本數(shù)據(jù)的情況下,數(shù)據(jù)包含了更多的統(tǒng)計分布信息,參數(shù)假設(shè)檢驗和信息量這兩個視角能夠從統(tǒng)計分布角度更好地來考慮樣本點間的鄰近關(guān)系。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美影院久久| 日韩区欧美国产区在线观看| 国产十八禁在线观看免费| 国内精品视频在线| 啦啦啦网站在线观看a毛片| 黑色丝袜高跟国产在线91| 九色在线观看视频| 日韩毛片基地| 乱色熟女综合一区二区| 精品国产福利在线| 欧美精品啪啪| 国产资源免费观看| 国产成人精品一区二区不卡| 草逼视频国产| 久久精品91麻豆| 久久伊人色| 日韩在线永久免费播放| 欧美中文字幕一区二区三区| 亚洲第一视频网| 尤物在线观看乱码| 91青青视频| 国产精品网址在线观看你懂的| 91系列在线观看| 丁香婷婷久久| 欧美国产菊爆免费观看| 国产成人一区免费观看| 91啪在线| 国产美女视频黄a视频全免费网站| 巨熟乳波霸若妻中文观看免费| 国产精品无码制服丝袜| 91色在线视频| 无码一区中文字幕| 99在线视频免费观看| 国产清纯在线一区二区WWW| 一级爆乳无码av| 一级毛片免费不卡在线| 波多野衣结在线精品二区| 中国国语毛片免费观看视频| 国产麻豆精品在线观看| 日本精品视频一区二区| 免费中文字幕一级毛片| 国产精品香蕉| 国产人成在线视频| 天天色天天综合| 亚洲香蕉久久| 欧美综合区自拍亚洲综合绿色 | 国产在线一二三区| 在线日韩一区二区| 欧美高清日韩| 91精品国产自产在线观看| 中文字幕永久在线看| 国产美女一级毛片| 99热这里只有精品5| 无码高潮喷水在线观看| 国产尤物jk自慰制服喷水| 国产成人精品18| 99久久国产综合精品2023| 国产亚洲精品无码专| 亚洲美女操| 在线国产91| 亚洲欧美在线综合一区二区三区| 无码精油按摩潮喷在线播放| 国产精品亚欧美一区二区| 一区二区偷拍美女撒尿视频| 久久情精品国产品免费| 国产欧美性爱网| 91麻豆久久久| 天堂在线www网亚洲| 欧美在线综合视频| 国产男女免费完整版视频| 日本不卡在线视频| 国产精品久久国产精麻豆99网站| 国产Av无码精品色午夜| 大陆国产精品视频| 国产在线观看91精品亚瑟| 国产91丝袜在线播放动漫| 丰满人妻中出白浆| 草草线在成年免费视频2| 亚洲人成网站色7799在线播放| 日韩免费视频播播| 国产精品无码影视久久久久久久| 精品亚洲国产成人AV|