范興宇 楊陽
摘 要:隨著大數(shù)據(jù)時(shí)代的到來,樣本數(shù)據(jù)的容量日趨增大且內(nèi)容愈發(fā)復(fù)雜,對(duì)實(shí)證研究的準(zhǔn)確性形成了巨大挑戰(zhàn),而計(jì)量領(lǐng)域內(nèi)基于樣本數(shù)據(jù)的離群值識(shí)別和處理會(huì)減少實(shí)證研究中的偏差,有效提升其研究的準(zhǔn)確性。本文梳理和評(píng)述基于不同類型樣本數(shù)據(jù)模型和估計(jì)的離群值識(shí)別法,繼而提出未來研究的展望。
關(guān)鍵詞:離群值;模型;估計(jì);時(shí)間序列;面板數(shù)據(jù)
中圖分類號(hào):O212 ?文獻(xiàn)標(biāo)識(shí)碼:A ?文章編號(hào):1673-260X(2023)07-0004-06
1 引言
目前,對(duì)離群值的識(shí)別和處理的課題一直備受學(xué)者們關(guān)注,這是因?yàn)殡x群值會(huì)大幅惡化基于模型和估計(jì)的實(shí)證結(jié)果,使其出現(xiàn)嚴(yán)重的偏差和錯(cuò)誤的預(yù)測(cè)。目前,離群值最常用的識(shí)別和處理方法有簡(jiǎn)單去除法和縮尾處理法。簡(jiǎn)單去除法是學(xué)者們根據(jù)數(shù)據(jù)本身的特征和直觀意識(shí)來判斷,將那些極值點(diǎn)(離群值)直接去除,以得到更穩(wěn)定更有效的實(shí)證結(jié)果,但從統(tǒng)計(jì)學(xué)角度來說,該處理方式會(huì)對(duì)估計(jì)量造成較大偏差。另一種常用方法為縮尾處理法[1]。學(xué)者們用樣本數(shù)據(jù)分位數(shù)的值替代極值點(diǎn)而不是直接去除,但這種對(duì)原始數(shù)據(jù)進(jìn)行隨意修改的方法會(huì)過多或過少的考慮離群值對(duì)實(shí)證結(jié)果的影響,使實(shí)證結(jié)果的誤差更大。雖然學(xué)者們提出了很多離群值識(shí)別法,但仍未有獲得學(xué)術(shù)界廣泛認(rèn)同的識(shí)別法,本文認(rèn)為可能的原因是離群值的定義不同或離群值的識(shí)別方法不同。
對(duì)于離群值的定義[2],包括描述性定義和定量性定義。離群值的描述性定義主要有:離群值是極端值或是數(shù)據(jù)中的不具代表性的觀測(cè)值。離群值的定量性定義主要有:離群值是數(shù)量值與數(shù)據(jù)集不一致的值,或是導(dǎo)致回歸系數(shù)結(jié)果發(fā)生劇烈變化的觀察值,或是超過樣本數(shù)據(jù)平均值至少三個(gè)標(biāo)準(zhǔn)差的觀察值,或是樣本數(shù)據(jù)中大于樣本數(shù)據(jù)1.5個(gè)標(biāo)準(zhǔn)差的觀察值。
離群值具有較強(qiáng)的隱蔽性,即便在樣本殘差的散點(diǎn)圖上它們也很難被發(fā)現(xiàn)。考慮到離群值會(huì)對(duì)實(shí)證結(jié)果產(chǎn)生較大偏差,離群值還可以分為X-軸離群值,Y-軸離群值和回歸離群值[3],其中X-軸離群值為水平方向上與樣本其他觀察值存在較大差異的觀察值,Y-軸離群值為垂直方向上與樣本其他觀察值存在較大差異的觀察值,回歸離群值為考慮某些觀察值后會(huì)直接改變回歸屬性(正相關(guān)、負(fù)相關(guān))的那些觀察值。目前,學(xué)者們認(rèn)定的極值點(diǎn)大多被認(rèn)為是X-軸離群值或Y-軸離群值,而對(duì)于回歸離群值研究較少。此外,有些觀察值被認(rèn)定為X-軸或Y-軸離群值,但實(shí)際上它們是回歸離群值,即它們并不改變實(shí)證中的回歸屬性,如果它們一直被認(rèn)為是離群值,會(huì)過多的考慮了離群值對(duì)實(shí)證結(jié)果的影響,使實(shí)證結(jié)果的誤差更大。
隨著大數(shù)據(jù)時(shí)代到來,數(shù)據(jù)樣本愈加復(fù)雜,識(shí)別和處理不同類型數(shù)據(jù)模型和估計(jì)的離群值識(shí)別法是構(gòu)建準(zhǔn)確實(shí)證研究的前提,鑒于此,本文將討論基于不同樣本數(shù)據(jù)模型與估計(jì)的離群值識(shí)別法。學(xué)者們很關(guān)注時(shí)間序列數(shù)據(jù)和面板數(shù)據(jù)的離群值識(shí)別法研究,特別是時(shí)間序列數(shù)據(jù),但對(duì)截面數(shù)據(jù)的離群值識(shí)別法研究甚少,如基于截面數(shù)據(jù)的四種離群值識(shí)別法[4],分別為反常結(jié)果判別法、跳躍度判別法、預(yù)測(cè)區(qū)間判斷法和羅曼諾夫斯基準(zhǔn)則判別法,且有學(xué)者給出穩(wěn)健的基于橫截面數(shù)據(jù)的離群值識(shí)別法[5],這是因?yàn)槠渑c時(shí)間序列數(shù)據(jù)結(jié)構(gòu)相似。
2 基于時(shí)間序列數(shù)據(jù)的離群值識(shí)別
基于時(shí)間序列數(shù)據(jù)的離群值識(shí)別法一直廣受學(xué)者們的關(guān)注,主要包括直接算法和間接算法的離群值識(shí)別法。經(jīng)典的最小二乘法對(duì)于離群值是非常敏感的,這是因?yàn)镺LS估計(jì)對(duì)離群值識(shí)別具有較大缺陷,包括不是離群值的觀察值被識(shí)別為離群值(淹沒現(xiàn)象,如基于低密度正則性的離群值識(shí)別法等),和本是離群值但并不被識(shí)別到(掩蓋現(xiàn)象,如基于Cook距離的離群值識(shí)別法等)。早期文獻(xiàn)[6]將離群值定義為加性離群值(Additive Outlier, AO)和革新性離群值(Innovation Outlier, IO),其中加性離群值考慮的是孤立的極端點(diǎn),而革新性離群值考慮的是連續(xù)的極端點(diǎn)。針對(duì)基于時(shí)間序列數(shù)據(jù)的離群值定義,很多學(xué)者都給出了卓有成效的研究成果。有學(xué)者將離群值分為均值漂移(Level Shift, LS)離群值、暫時(shí)變化(Transient Changes, TC)離群值和方差變化(Variance Changes, VC)離群值[7]。特別的,有學(xué)者將離群值分為X-軸離群值、Y-軸離群值和回歸離群值[3]。
目前,基于時(shí)間序列數(shù)據(jù)的離群值識(shí)別法的主流算法包括兩種方法,分別為直接算法[8,9]和間接算法[10,11]。這兩種離群值識(shí)別法具有不同特點(diǎn),其中基于直接算法的離群值識(shí)別法為使用合適的算法在實(shí)證研究之前識(shí)別離群值,而間接算法的離群值識(shí)別法為結(jié)合模型和估計(jì)法來識(shí)別離群值。具體而言,估計(jì)法有很多的,如L估計(jì)量(基于序次統(tǒng)計(jì)量的線性組合),R估計(jì)量(基于殘差的秩序),M估計(jì)量(通過考慮殘差的大小由位置的M估計(jì)擴(kuò)展而來),GM估計(jì)(或者叫廣義M估計(jì)量,通過給予高權(quán)勢(shì)點(diǎn)和大殘差點(diǎn)較小的權(quán)重對(duì)M估計(jì)量的擴(kuò)展),S估計(jì)量(將殘差尺度的穩(wěn)健M估計(jì)最小化),MM估計(jì)量(基于M估計(jì)和S估計(jì),具有更高的崩潰點(diǎn)和漸進(jìn)效率)。當(dāng)下,由于學(xué)者們未給予離群值足夠重視,導(dǎo)致基于間接算法的離群值識(shí)別法的成果要比直接算法的成果更少。有學(xué)者指出,相比于基于直接算法的離群值識(shí)別法,間接算法的離群值識(shí)別法更為準(zhǔn)確且更切合實(shí)際,這是因?yàn)榛谥苯铀惴ǖ碾x群值識(shí)別法并不能有效準(zhǔn)確的發(fā)現(xiàn)離群值,而基于間接算法的離群值識(shí)別法能準(zhǔn)確科學(xué)的發(fā)現(xiàn)離群值,特別是回歸離群值[12]。
2.1 基于時(shí)間序列數(shù)據(jù)間接算法的離群值識(shí)別
對(duì)于基于時(shí)間序列數(shù)據(jù)間接算法的離群值識(shí)別法,有學(xué)者提出了基于最小二乘估計(jì)的離群值識(shí)別法包括:最小絕對(duì)偏差估計(jì)法、M-估計(jì)法、LTS估計(jì)和S-估計(jì)[3],但這些估計(jì)需要進(jìn)行很多次的迭代計(jì)算且耗時(shí)較多,會(huì)造成實(shí)證結(jié)果誤差越大。
針對(duì)這些問題,很多學(xué)者提出了基于模型和估計(jì)的離群值識(shí)別法,代表性的成果主要有:基于自相關(guān)函數(shù)和偏自相關(guān)函數(shù)估計(jì)的離群值識(shí)別法[13];基于極大似然估計(jì)的離群值識(shí)別法[14];基于干擾模型的離群值識(shí)別法[15];基于ARMA模型的離群值識(shí)別法[16];基于IO、AO型離群值的識(shí)別法[17];基于穩(wěn)健Cook距離的離群值識(shí)別法[18]。由于這些間接算法的離群值定義不統(tǒng)一,基于模型和估計(jì)的間接算法離群值識(shí)別法更是差別較大,導(dǎo)致實(shí)證結(jié)果的誤差并不能有效解決,有待深入的研究和探討。
2.2 基于時(shí)間序列數(shù)據(jù)直接算法的離群值識(shí)別
針對(duì)基于時(shí)間序列數(shù)據(jù)直接算法的離群值識(shí)別法,早期代表性成果主要有:通過比較時(shí)間序列數(shù)據(jù)中觀察值的偏度和峰度來完成離群值的識(shí)別[19];定義與大部分觀察值存在較大跳動(dòng)的觀察值為離群值[20];定義意外語義特征的觀察值為離群值[21];定義樣本中心點(diǎn)最小鄰域外觀察值為離群值[22]等,但當(dāng)樣本數(shù)據(jù)容量較大時(shí),這些識(shí)別法均不夠完善。
針對(duì)基于時(shí)間序列數(shù)據(jù)直接算法的離群值識(shí)別法,學(xué)術(shù)界中經(jīng)典算法主要有:向前搜索算法[8]、影響矩陣算法[23]、聚類算法[24]、遺傳算法[25]和迭代算法[26]。隨著基于時(shí)間序列數(shù)據(jù)的模型和估計(jì)法日益復(fù)雜,基于復(fù)雜直接算法的離群值識(shí)別法的研究成果頗受學(xué)者們關(guān)注。目前,主流的基于時(shí)間序列數(shù)據(jù)直接算法的離群值識(shí)方法主要有:似然比檢驗(yàn)法[27]、影響分析檢驗(yàn)法[28]和殘差檢驗(yàn)法[29]。此外,還包括一些基于前沿技術(shù)的直接算法的離群值識(shí)別法,主要有:應(yīng)用最小體積橢圓法和最大截然似然估計(jì)法來判斷離群值[30];應(yīng)用多維空間線性化模型來判定離群值[31];運(yùn)用神經(jīng)網(wǎng)絡(luò)方法判定散射型數(shù)據(jù)的離群值[32];應(yīng)用小波分析來判定離群值[33];應(yīng)用新息異常值診斷[34]。由于離群值的定義千差萬別且這些基于時(shí)間序列數(shù)據(jù)直接算法并不能完全有效識(shí)別離群值,致使實(shí)證結(jié)果依然存在偏差,值得更深一層的研究。
3 基于面板數(shù)據(jù)的離群值識(shí)別
相對(duì)于時(shí)間序列數(shù)據(jù)和橫截面數(shù)據(jù),面板數(shù)據(jù)的容量更大,包含的離群值數(shù)量自然更多,在原始樣本中識(shí)別和處理離群值,繼而得到可靠正確的實(shí)證結(jié)論值得進(jìn)一步研究。離群值的識(shí)別和處理對(duì)獲得準(zhǔn)確可靠的實(shí)證結(jié)果是非常重要的,往往錯(cuò)誤的觀察值很容易被復(fù)雜的數(shù)據(jù)結(jié)構(gòu)掩蓋[35,36]。面板數(shù)據(jù)模型主要包括靜態(tài)模型,動(dòng)態(tài)模型,變系數(shù)模型和隨機(jī)前沿模型,但當(dāng)下學(xué)者們廣泛關(guān)注的面板數(shù)據(jù)模型為固定效應(yīng)靜態(tài)面板數(shù)據(jù)模型和動(dòng)態(tài)面板數(shù)據(jù)模型的離群值識(shí)別法。
3.1 基于固定效應(yīng)靜態(tài)面板數(shù)據(jù)模型的離群值識(shí)別
近年來,基于固定效應(yīng)靜態(tài)面板數(shù)據(jù)模型的主流研究是將離群值分為四類:垂直離群值,垂直集中塊離群值,水平離群值和水平集中塊離群值[37,38]。對(duì)于該模型的離群值識(shí)別法主要有:基于固定效應(yīng)靜態(tài)面板數(shù)據(jù)模型和工具變量估計(jì)法的兩個(gè)離群值識(shí)別法(包括基于二階段廣義M估計(jì)的離群值識(shí)別法和基于GMM估計(jì)的離群值識(shí)別法[39]),但對(duì)包含異方差或自相關(guān)誤差的估計(jì)并非適用;基于面板數(shù)據(jù)模型和估計(jì)的離群值識(shí)別法,這些估計(jì)包括修正的群內(nèi)估計(jì)[40]、轉(zhuǎn)化的廣義矩估計(jì)[41]和修正過高置信度的估計(jì)[42],但當(dāng)面板數(shù)據(jù)為非嚴(yán)格平衡時(shí),該文提出的離群值識(shí)別法存在誤差;基于面板數(shù)據(jù)模型和高崩潰值估計(jì)的離群值識(shí)別法[37],包括廣義群內(nèi)M估計(jì)和群內(nèi)MS估計(jì)(MS估計(jì)[43]),但計(jì)算需要花費(fèi)很長(zhǎng)的時(shí)間,特別是當(dāng)面板數(shù)據(jù)容量較大時(shí),該問題更加凸顯。
3.2 基于固定效應(yīng)動(dòng)態(tài)面板數(shù)據(jù)模型的離群值識(shí)別
基于固定效應(yīng)靜態(tài)面板數(shù)據(jù)的離群值識(shí)別法較多但并未得到學(xué)術(shù)界一致認(rèn)可,而將滯后一期被解釋變量作為解釋變量的固定效應(yīng)動(dòng)態(tài)面板數(shù)據(jù)模型的離群值識(shí)別法就更值得學(xué)者們進(jìn)一步研究。目前,基于固定效應(yīng)動(dòng)態(tài)面板數(shù)據(jù)模型和估計(jì)的離群值識(shí)別法主要有:采用分位數(shù)和工具變量估計(jì)的離群值識(shí)別法[44],但基于面板數(shù)據(jù)模型和工具變量估計(jì)的離群值識(shí)別法很容易產(chǎn)生誤差;基于中位數(shù)的離群值識(shí)別法[45],但該法仍存在很大的偏差;基于有界影響函數(shù)的GMM估計(jì)的離群值識(shí)別法[46],但該估計(jì)的有效性要比差分GMM估計(jì)差;基于加權(quán)估計(jì)的離群值識(shí)別法[47,48],但離群值的度量尺度并不準(zhǔn)確;基于改進(jìn)型GMM估計(jì)的離群值識(shí)別法[49],但實(shí)證研究之前無法確定樣本是否存在離群值,且當(dāng)面板數(shù)據(jù)中無離群值時(shí),改進(jìn)型GMM估計(jì)的有效性要比差分GMM估計(jì)差。
隨著面板數(shù)據(jù)容量的急劇增加和估計(jì)法的不斷創(chuàng)新,學(xué)者們開始關(guān)注以更多的估計(jì)法來識(shí)別基于固定效應(yīng)動(dòng)態(tài)面板數(shù)據(jù)模型中的離群值。目前,基于復(fù)雜面板數(shù)據(jù)模型和估計(jì)的離群值識(shí)別法主要有:基于混合分?jǐn)?shù)階ARIMA模型的離群值識(shí)別法[50];基于復(fù)雜合適估計(jì)的離群值識(shí)別法[51-53];基于高崩潰值的最小協(xié)方差估計(jì)的離群值識(shí)別法[54,55];基于自組織映射與自適應(yīng)非線性映射相結(jié)合的多元離群值識(shí)別法[56];基于對(duì)數(shù)線性模型和高擬合度估計(jì)的離群值識(shí)別法[57];基于最小模式的離群值識(shí)別法[58];基于復(fù)雜中位數(shù)估計(jì)的離群值識(shí)別法[59],其中觀測(cè)數(shù)N較大且時(shí)間周期數(shù)T較小;基于改進(jìn)型一階或高階差分GMM估計(jì)的離群值識(shí)別法[49,60]。雖然已有復(fù)雜的離群值識(shí)別法能有效發(fā)現(xiàn)離群值,但對(duì)于復(fù)雜的樣本數(shù)據(jù)計(jì)算的時(shí)間會(huì)很久且難以出現(xiàn)較好的實(shí)證結(jié)果。
4 文獻(xiàn)評(píng)述與展望
目前,學(xué)者們過多關(guān)注X-軸離群值,Y-軸離群值的研究,而對(duì)于回歸離群值研究較少,但X-軸離群值或Y-軸離群值有時(shí)是回歸離群值,它們不改變實(shí)證研究中的回歸屬性,不應(yīng)在樣本中被直接剔除致使樣本數(shù)據(jù)容量進(jìn)一步減少,這樣會(huì)過多考慮了離群值對(duì)實(shí)證結(jié)果的影響,反而會(huì)使得實(shí)證結(jié)果的誤差更大。
基于時(shí)間序列數(shù)據(jù)的離群值識(shí)別法存在兩個(gè)不足之處,其一,很多學(xué)者都是以特定時(shí)間序列數(shù)據(jù)來分析離群值對(duì)實(shí)證結(jié)果的影響,但并不能推廣到一般情況下離群值對(duì)估計(jì)結(jié)果的影響;其二,部分學(xué)者提出的離群值識(shí)別法仍解決不了離群值對(duì)樣本的“污染”現(xiàn)象,包括“淹沒”現(xiàn)象和“掩蓋”現(xiàn)象,類似問題在橫截面數(shù)據(jù)中也依然存在。
基于面板數(shù)據(jù)的離群值識(shí)別法存在局限性,一方面,基于固定效應(yīng)靜態(tài)面板數(shù)據(jù)模型的離群值識(shí)別法大多集中于研究合適估計(jì)方法來規(guī)避離群值對(duì)實(shí)證研究造成的偏差,但面板數(shù)據(jù)量巨大,處理數(shù)據(jù)時(shí)間較長(zhǎng),特別是在實(shí)證研究之前消除離群值對(duì)其影響,但會(huì)忽略實(shí)證研究背后的理論分析,往往會(huì)給其帶來更大偏差。另一方面,基于固定效應(yīng)動(dòng)態(tài)面板數(shù)據(jù)模型的離群值識(shí)別法研究開始關(guān)注以更復(fù)雜模型或更多復(fù)雜估計(jì)的離群值識(shí)別法,但他們對(duì)離群值的定義較為模糊且判別尺度極為復(fù)雜,致使離群值識(shí)別的有效性不斷降低。
雖然當(dāng)前基于不同數(shù)據(jù)類型的離群值識(shí)別法研究中構(gòu)建基于復(fù)雜模型和估計(jì)的離群值識(shí)別法成為主流研究方向,但從計(jì)量角度而言此類研究都存在缺陷和不足,無法得到廣泛應(yīng)用。因此,對(duì)于離群值的識(shí)別和剔除只有通過合適的模型和估計(jì)、不同的離群值判定尺度來實(shí)現(xiàn),面對(duì)不同類型樣本數(shù)據(jù),才能較好的識(shí)別和剔除離群值,有效去除離群值對(duì)實(shí)證結(jié)果的影響,使其結(jié)果更可靠更準(zhǔn)確。
隨著數(shù)據(jù)樣本逐步復(fù)雜,由時(shí)間序列數(shù)據(jù)、橫截面數(shù)據(jù)到面板數(shù)據(jù),實(shí)證模型日益多樣,由靜態(tài)模型轉(zhuǎn)變?yōu)閯?dòng)態(tài)模型,本文提出未來需要研究的離群值識(shí)別法,該法基于固定效應(yīng)面板數(shù)據(jù)模型,搜尋合適的估計(jì)和離群值判別尺度,進(jìn)而得到更精確的實(shí)證結(jié)果。此外,對(duì)于面板數(shù)據(jù)模型的離群值識(shí)別法研究較少,特別是對(duì)于基于固定效應(yīng)面板數(shù)據(jù)動(dòng)態(tài)模型的離群值識(shí)別法還未得到進(jìn)一步研究,以及它們對(duì)應(yīng)的奇異信息對(duì)研究全球經(jīng)濟(jì)關(guān)系的影響都值得更深層次的探討。
參考文獻(xiàn):
〔1〕Lee M., Karlsson M. Trimmed and winsorized semiparametric estimator for left-truncated and right-censored regression models[J]. Metrika, 2015, 78(04): 1-11.
〔2〕Hawkins, D. Identification of Outliers[M]. London: Chapman and Hall, 1980: 20-23.
〔3〕Rousseeuw P., Leroy A. Robust regression and outlier detection[M]. Wiley-Interscience, 2003: 17-19.
〔4〕杜聰慧,崔永偉,李子奈.基于數(shù)據(jù)統(tǒng)計(jì)診斷的截面數(shù)據(jù)診斷方法[J].統(tǒng)計(jì)與決策,2012,10(01):7-9.
〔5〕Hawkes N. Six hospitals are named as "outliers" for mortality rates[J]. The British Medical Journal, 2014, 348(312): 1252-1252.
〔6〕Fox A. Outliers in Time Series[J]. Journal of the Royal Statistical Society, 1972, 34(03): 350-363.
〔7〕Tsay R. Time Series Model Specification in the Presence of Outliers[J]. Publications of the American Statistical Association, 1986, 81(393): 132-141.
〔8〕Hadi A., Simonoff J. Procedures for the Identification of Multiple Outliers in Linear Models[J]. Publications of the American Statistical Association, 1993, 88(424): 1264-1272.
〔9〕Liang T., Cao C. Outliers detect methods for time series data[J]. Journal of Discrete Mathematical Sciences and Cryptography, 2018, 21(04): 927-936.
〔10〕張德然.統(tǒng)計(jì)數(shù)據(jù)中異常值的檢驗(yàn)方法[J].統(tǒng)計(jì)與決策,2003,5(01):53-55.
〔11〕王志堅(jiān).一種GARCH模型異常值的穩(wěn)健檢測(cè)法及其應(yīng)用[J].統(tǒng)計(jì)與決策,2020,36(10):41-44.
〔12〕Shen C., Luo F., Huang D. Analysis of earnings management influence on the investment efficiency of listed Chinese companies[J]. Journal of Empirical Finance, 2015, 34(01): 60-78.
〔13〕Masarotto G. Robust Identification of Autoregressive Moving Average Models[J]. Journal of the Royal Statistical Society, 1987, 36(02): 214-220.
〔14〕Abraham B., Chung A. Expecation-maximization algorithms and the estimation of time series model in the presence of outliers[J]. Journal of Time Series Analysis, 1993, 14(01): 221-234.
〔15〕Box G., Tiao G. Intervention Analysis with Applications to Economic and Environmental Problems[J]. Publications of the American Statistical Association, 1975, 70(349): 70-79.
〔16〕Bruce A., Martin R. Leave-k-out diagnostics for time series[J]. Journal of the Royal Statistical Society, 1989, 51(03): 363-424.
〔17〕王志堅(jiān),王斌會(huì).時(shí)序IO與AO型異常值穩(wěn)健聯(lián)合檢測(cè)法及其應(yīng)用[J].統(tǒng)計(jì)與決策,2019,7(01):13-16.
〔18〕王志堅(jiān),羅舒琪,王斌會(huì).基于穩(wěn)健Cook距離的時(shí)間序列異常值診斷[J].統(tǒng)計(jì)與決策,2022,38(03):40-44.
〔19〕Huber P. Robust statistics: A review. The Annals of Mathematical Statistics, 1972, 43(01): 1041-1067.
〔20〕Wolfgang S. Properties and actions[J]. Natural Language and Logic, 1990, 459(01): 221-232.
〔21〕Angiulli, F., Ben-Eliyahu-Zohary R., Palopoli L. Outlier detection using default reasoning[J]. Artificial Intelligence: An International Journal, 2008, 172(16/17): 1837-1872.
〔22〕Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey[J]. ACM Computing Surveys, 2009, 41(03): 1-58.
〔23〕Pena D. and Yohai V. J. The Detection of Influential Subsets in Linear Regression by using an Influence Matrix[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1995, 57(01): 145-156.
〔24〕Sebert D. M., Montgomery D. C., Rollier D. A. A clustering algorithm for identifying multiple outliers in linear regression[J]. Computational statistics & data analysis, 1998, 27(04): 461-484.
〔25〕Cucina D., Salvatore A., Protopapas M. Outliers detection in multivariate time series using genetic algorithms[J]. Chemometrics and Intelligent Laboratory Systems, 2014, 132(01): 103-110.
〔26〕Srivastava M. and Rosen D. Outliers in Multivariate Regression Models[J]. Journal of Multivariate Analysis: An International Journal, 1998, 65(02): 195-208.
〔27〕Gupta M., Gao J., Aggarval C., Han J. Outlier Detection for Temporal Data: A Survey[J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 26(09): 2250-2267.
〔28〕Kannan K., Manoj K., Arumugam S. Outlier Detection and Missing Value in Time Series Ozone Data[J]. International Journal of Scientific Research in Knowledge, 2015, 3(09): 220-226.
〔29〕Seo H., Yoon M. A sequential outlier detecting method using a clustering algorithm[J]. Korean Journal of Applied Statistics, 2016, 29(04): 699-706.
〔30〕Yuen K., Gilberto O. Outlier detection and robust regression for correlated data[J]. Computer Methods in Applied Mechanics & Engineering, 2017, 313(01): 632-646.
〔31〕Militino A., Palacios M., Ugarte M. Outliers detection in multivariate spatial linear models[J]. Journal of Statistical Planning and Inference, 2006, 136(01):125-146.
〔32〕Bullen R., Dan C., Nabney I. Outlier detection in scatterometer data[J].Neural Networks, 2003, 16(03): 419-426.
〔33〕Grané A., Veiga H. Wavelet-based detection of outliers in financial time series[J]. Computational Statistics & Data Analysis, 2010, 54(11): 2580-2593.
〔34〕汪志紅,王志堅(jiān),王斌會(huì).時(shí)間序列新息異常值穩(wěn)健診斷新方法[J].統(tǒng)計(jì)與決策,2022,38(23):34-37.
〔35〕Zaman A., Rousseeuw P., Orhan M. Econometric applications of high-breakdown robust regression techniques[J]. Journal of Econometric Letter, 2001, 71(01): 1-8.
〔36〕Verardi V., Wagner J. Robust estimation of linear fixed effects panel data models with an application to the exporter productivity premium[J]. Journal of Economic Statistics, 2011, 231(04): 546-557.
〔37〕Bramati M., Croux C. Robust estimators for the fixed effects panel data model[J]. Journal of Econometric, 2007, 10(03): 521-540.
〔38〕彭斌,李雯萱.固定效應(yīng)面板數(shù)據(jù)模型中偏誤更正的截面相關(guān)性檢驗(yàn)研究[J].統(tǒng)計(jì)研究,2022,39(07):150-160.
〔39〕Wagenvoort R., Waldmann R. On B-robust instrumental variable estimation of the linear model with panel data[J]. Journal of Econometrics, 2002, 106(02): 297-324.
〔40〕Alvarez J., Arellano M. Robust likelihood estimation of dynamic panel data models[J]. Journal of Econometrics, 2021, 226(01): 21-61.
〔41〕Ronchetti E., Trojani F. Robust inference with GMM estimators[J]. Journal of Econometrics, 2001, 101(01): 37-69.
〔42〕劉鑫,王維國(guó),馬超,李曉華.四分之一輪換面板下的穩(wěn)健估計(jì)方法[J].統(tǒng)計(jì)與決策,2022,38(02):21-25.
〔43〕Maronna R., Yohai V. J. Robust regression with both continuous and categorical predictors[J]. Journal of Statistical Planning and Inference, 2000, 89(1-2):197-214.
〔44〕董婉瑩,肖燕婷.基于眾數(shù)回歸的變系數(shù)部分線性工具變量模型的穩(wěn)健估計(jì)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2023,2(01):195-206.
〔45〕Dhaene G., Zhu Y. Median-based estimation of dynamic panel models with fixed effects[J]. Computational Statistics & Data Analysis, 2017, 113(01): 398-423.
〔46〕Lucas A., Van Dijk R., Kloek T. Outlier Robust Gmm Estimation of Leverage Determinants in Linear Dynamic Panel Data Models[J]. Ssrn Electronic Journal, 1997, 9(01): 1-30.
〔47〕Cí?觩ek P., Aquaro M. Robust estimation and moment selection in dynamic fixed-effects panel data models[J]. Journal of Computational Statistics, 2018, 33(02): 675-708.
〔48〕吳浩,彭非.基于協(xié)變量平衡加權(quán)的平均處理效應(yīng)的穩(wěn)健有效估計(jì)[J].統(tǒng)計(jì)研究,2020,37(04):114-128.
〔49〕Aquaro M., Cí?觩ek P. One-step robust estimation of fixed-effects panel data models[J]. Computational Statistics and Data Analysis, 2014, 57(01): 536-548.
〔50〕Chen W. Detecting and identifying interventions with the Whittle spectral approach in a long memory panel data model[J]. Journal of Applied Statistics, 2008, 35(07): 879-892.
〔51〕Willems G., Joe H., and Zamar R. Diagnosing multivariate outliers detected by robust estimators[J]. Journal of Computational and Graphical Statistics, 2009, 18(01): 73-91.
〔52〕Riani M., Atkinson A., and Cerioli A. Finding an unknown number of multivariate outliers[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2009, 71(02): 447-466.
〔53〕龐智強(qiáng),王朝旭,牛璽娟.基于γ散度的單元水平模型小域穩(wěn)健估計(jì)[J].統(tǒng)計(jì)與信息論壇,2023,3(01):3-15.
〔54〕Cerioli A. Multivariate outlier detection with high-breakdown estimators[J]. Journal of the American Statistical Association, 2010, 105(489): 147-156.
〔55〕宋鵬,劉程程,胡永宏.穩(wěn)健高維協(xié)方差矩陣估計(jì)及其投資組合應(yīng)用——基于中心正則化算法[J].統(tǒng)計(jì)研究,2020,37(07):116-128.
〔56〕Yan X. Multivariate outlier detection based on self-organizing map and adaptive nonlinear map and its application[J]. Chemometrics and Intelligent Laboratory Systems, 2011, 107(02): 251-257.
〔57〕Rapallo F. Outliers and patterns of outliers in contingency tables with algebraic statistics[J]. ?Scandinavian Journal of Statistics, 2012, 39(04): 784-797.
〔58〕Kuhnt S., Rapallo F., and Rehage A. Outlier detection in contingency tables based on minimal patterns[J]. Statistics and Computing, 2014, 24(03): 481-491.
〔59〕曾鑫,吳劉倉,曹幸運(yùn).混合偏正態(tài)數(shù)據(jù)下中位數(shù)回歸模型的參數(shù)估計(jì)[J].昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,46(03):167-174.
〔60〕劉沖,沙學(xué)康,張妍.交錯(cuò)雙重差分:處理效應(yīng)異質(zhì)性與估計(jì)方法選擇[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2022,39(09):177-204.