999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種消除變量間相關(guān)性的模型聚類方法

2016-12-20 03:31:03朱紅燦陳星星
統(tǒng)計與決策 2016年21期
關(guān)鍵詞:財政支出方法模型

朱紅燦,陳星星

(湘潭大學(xué) 公共管理學(xué)院,湖南 湘潭 411105)

一種消除變量間相關(guān)性的模型聚類方法

朱紅燦,陳星星

(湘潭大學(xué) 公共管理學(xué)院,湖南 湘潭 411105)

歐氏距離條件下的聚類分析沒有考慮指標(biāo)間的相關(guān)性,基于模型的聚類方法存在多重共線性影響參數(shù)穩(wěn)定性等問題,針對上述問題,文章在歐式距離條件下對變量間具有相關(guān)性的數(shù)據(jù)樣本進(jìn)行聚類分析時,先構(gòu)建變量間相關(guān)性結(jié)構(gòu)的回歸相關(guān)模型,再通過差分分析對變量間的多重共線進(jìn)行消除,然后做聚類分析。并以1996—2011年9個省份城市教育投入情況進(jìn)行聚類分析,結(jié)果表明,給出的聚類方法是有效的。

相關(guān)性;聚類;差分分析;多重共線

0 引言

聚類分析就是將個體或?qū)ο蠓诸悾沟猛活愔械膶ο笾g的相似性比與其他類的對象的相似性更強(qiáng)。對象之間的“相似性”往往用歐式距離來刻畫,但歐氏距離條件下的聚類分析沒有考慮指標(biāo)之間的相關(guān)性。指標(biāo)間的相關(guān)性即2個或2個以上的指標(biāo)具有相同因素,發(fā)生了重迭現(xiàn)象[1]。因而Q型聚類分析中應(yīng)盡量消除變量間的相關(guān)性,否則將會由于指標(biāo)的重復(fù)計算而直接影響到聚類結(jié)果的準(zhǔn)確性。

學(xué)者們從不同角度對Q型聚類分析進(jìn)行了深入的研究,王紅睿[2]等學(xué)者針對截面數(shù)據(jù)對K均值聚類法進(jìn)行了均衡化的改進(jìn),通過引入懲罰因子,限制過多的訓(xùn)練矢量集中于一個或幾個類,使樣本空間劃分近似均勻。殷瑞飛[3]等學(xué)者基于Q型因子分析的基本思想,建立了一種適用于大型數(shù)據(jù)庫聚類的方法,主要對Q型因子分析算法效率進(jìn)行了提高。上述文獻(xiàn)均對聚類方法的算法效率和穩(wěn)定性進(jìn)行改進(jìn),并沒有考慮變量之間的相關(guān)性。王德青[4]等學(xué)者針對經(jīng)典聚類分析和普通主成分聚類分析極端情形下的失效問題,引入主成分聚類分析法對指標(biāo)間的相關(guān)性進(jìn)行改進(jìn),但要求指標(biāo)的相關(guān)性強(qiáng)且可解釋性差。黃閩英[5]等學(xué)者則引入馬氏距離法進(jìn)行相似矩陣的構(gòu)建,解決了變量之間的相關(guān)性干擾問題。如:已知一二維正態(tài)總體G的分布,求點(diǎn)和至均值的距離。如果用歐式距離則有,;用馬氏距離=3.8/0.19,按歐氏距離,兩者相等,而按馬氏距離兩者差倍之多。而由兩者的密度函數(shù)可知,點(diǎn)A應(yīng)離均值近,點(diǎn)B離均值遠(yuǎn)。馬氏距離正確地反映了這一情況,而歐式距離則不然。但是,馬氏距離的計算需要知道數(shù)據(jù)總體分布的數(shù)字特征,而大部分?jǐn)?shù)據(jù)的分布特征(如均值、協(xié)方差矩陣)也是未知的。另一方面,采用全部數(shù)據(jù)計算得到的均值和協(xié)方差矩陣來計算馬氏距離效果也往往并不理想,因此在實際分析中仍然傾向于采用歐式距離。魏瑾瑞[6]在歐式距離條件下,先對變量間的相關(guān)性結(jié)構(gòu)建模(作為輔助信息),用模型的回歸系數(shù)來體現(xiàn)變量的重要性,再做聚類分析,用以解決復(fù)雜結(jié)構(gòu)生成的數(shù)據(jù)聚類問題。而多元線性回歸模型經(jīng)典假設(shè)之一是回歸模型的解釋變量之間不存在線性關(guān)系,也就是說,解釋變量X1,X2,…,Xk中的任何一個都不能是其他解釋變量的線性組合,變量間的多重共線性將使得模型參數(shù)估計值很不穩(wěn)定,模型擬合效果不好,導(dǎo)致模型的錯誤構(gòu)建,文獻(xiàn)[6]的回歸模型中并沒有考慮變量間的多重共線性導(dǎo)致的參數(shù)不穩(wěn)和模型擬合效果不好的問題,針對上述問題,本文先采用線性回歸方法對變量間的相關(guān)性結(jié)構(gòu)進(jìn)行建模,然后采用滯后差分變換對變量間的多重共線進(jìn)行消除,最后做聚類分析,以期提高變量間具有相關(guān)性數(shù)據(jù)的聚類效果。

1 消除變量間相關(guān)性的模型聚類方法

1.1 變量間相關(guān)性結(jié)構(gòu)模型構(gòu)建

設(shè)觀測變量為(X1,X2,Y),且三個指標(biāo)間存在相關(guān)關(guān)系。

建立模型:

一方面,自變量間的多重共線性使得參數(shù)估計值很不穩(wěn)定,并且對樣本非常敏感。另一方面,自變量間的多重共線性使參數(shù)擬合效果不好,導(dǎo)致模型的定型錯誤。由已知可知x1,x2共線,因而x1,x2不適合作為聚類分析的基礎(chǔ)。而Y作為x1,x2的線性函數(shù)包含了x1,x2所有的信息,可以作為聚類分析的基礎(chǔ)。

1.2 基于差分思想的變量間相關(guān)性消除

為了解決多元線性回歸模型中變量間多重共線性導(dǎo)致的模型參數(shù)估計值不穩(wěn)定和模型擬合效果不好的問題,必須對變量間的多重共線進(jìn)行消除。消除變量間的多重共線性方法很多,本文采用滯后差分變換方法來消除變量間的多重共線性。

設(shè)有模型:

其一階滯后差分形式為:

把式(2)簡記為:

其中:

其中:

但是,對于大樣本有關(guān)系:

1.3 消除變量間相關(guān)性的模型聚類方法

消除變量間相關(guān)性的模型聚類方法具體步驟如下所示:

(1)對變量間的相關(guān)性結(jié)構(gòu)建模。設(shè)觀測變量為(X1,X2,Y),且三個指標(biāo)間存在相關(guān)關(guān)系,建立模型yt=β0+β1x1t+β2x2t+ut。

(2)采用滯后差分變換方法消除自變量間的多重共線性。一階滯后差分形式簡記為,使得之間的相關(guān)系數(shù)r*12?0,一階差分后模型幾乎沒有多重共線性。

(3)對模型進(jìn)行求解,計算出yt的值,如果擬合的輔助回歸模型是恰當(dāng)?shù)模敲匆蜃兞孔鳛樽宰兞康木€性組合實際上包含了這些自變量所提供的信息(線性表出)。

(4)最后用yt作為聚類輸入變量進(jìn)行聚類,得出聚類結(jié)果。

2 實例分析

為了驗證方法的有效性,本文選取我國各個省份的教育投入情況進(jìn)行實例分析。影響一個國家或一個地區(qū)教育投入的主要因素應(yīng)該考慮該區(qū)域的經(jīng)濟(jì)發(fā)展水平,其次,由于目前教育投入特別是基礎(chǔ)教育的投入主要還是依靠政府的財政支出,因而區(qū)域財政支出的規(guī)模及結(jié)構(gòu)也會對教育投入產(chǎn)生較大的影響。本文選取經(jīng)濟(jì)發(fā)展水平、財政支出規(guī)模和教育經(jīng)費(fèi)三個指標(biāo)來研究各個省份的教育投入情況。衡量經(jīng)濟(jì)發(fā)展水平的常用指標(biāo)為GDP,財政支出規(guī)模可用地方財政一般預(yù)算支出來衡量,教育經(jīng)費(fèi)就可以直接用各省的教育經(jīng)費(fèi)表示。選取了9個省份1996—2011年的數(shù)據(jù)進(jìn)行研究,數(shù)據(jù)來源于統(tǒng)計年鑒。將采用傳統(tǒng)的經(jīng)典聚類方法、文獻(xiàn)[6]的基于模型的聚類方法和本文方法進(jìn)行對比分析。

首先,采用傳統(tǒng)的經(jīng)典聚類方法對數(shù)據(jù)進(jìn)行聚類,把數(shù)據(jù)導(dǎo)入spss20.0,得到數(shù)據(jù)集的聚類結(jié)果并沒有明顯的聚集特征,垂直地聚為9類(如圖1),每個樣本都只是自己聚為一類,顯然這樣的結(jié)果是不能令人滿意的。

圖1 經(jīng)典聚類方法的聚類結(jié)果

其次,采用文獻(xiàn)[6]的基于模型的聚類方法,由于教育經(jīng)費(fèi)受經(jīng)濟(jì)發(fā)展水平和財政支出規(guī)模的影響,所以首先建立這三個指標(biāo)間的回歸方程模型再進(jìn)行聚類,得到的聚類結(jié)果如表1所示。

表1 文獻(xiàn)[6]方法的聚類結(jié)果

從表1的結(jié)果看,除了廣東聚為一類,其余省份都聚到一起了,聚類效果不明顯。

最后,采用本文方法進(jìn)行聚類分析。采用stata12.0進(jìn)行數(shù)據(jù)處理。

先用回歸模型建立教育經(jīng)費(fèi)與經(jīng)濟(jì)發(fā)展水平和財政支出規(guī)模之間的關(guān)系,其中求解的各省經(jīng)濟(jì)發(fā)展水平和財政支出兩個變量間的相關(guān)系數(shù)如表2所示,表中各相關(guān)系數(shù)均接近1,說明經(jīng)濟(jì)發(fā)展水平和財政支出規(guī)模兩個變量之間存在著一定的相關(guān)關(guān)系,應(yīng)消除這兩個變量的相關(guān)性,消除變量間多重共線性對聚類結(jié)果的影響。

表2 各省經(jīng)濟(jì)發(fā)展水平和財政支出兩個變量間的相關(guān)系數(shù)

然后,把9個省份的數(shù)據(jù)分別導(dǎo)入stata12.0進(jìn)行差分處理。再將差分處理后的數(shù)據(jù)導(dǎo)入進(jìn)行回歸方程模型求解,得出各省份在1996—2011年教育經(jīng)費(fèi)的擬合值,最終將擬合數(shù)據(jù)導(dǎo)入spss20.0進(jìn)行聚類(采用K-均值)。得出的聚類結(jié)果如表3所示。

表3 本文聚類方法的聚類結(jié)果

由表3可知,聚類結(jié)果將江蘇、上海、廣東聚類一類,這與我國將教育投入分為北京、廣東、江蘇、上海一類,剩下省份為一類基本一致。最終的聚類的準(zhǔn)確率如表4所示。

表4 三種聚類方法結(jié)果

由表4可知,本文方法明顯優(yōu)于經(jīng)典聚類方法和文獻(xiàn)[6]的方法,主要原因是教育經(jīng)費(fèi)受經(jīng)濟(jì)發(fā)展水平和財政支出規(guī)模的影響,經(jīng)濟(jì)發(fā)展水平與財政支出規(guī)模存在著一定的相關(guān)性,而經(jīng)典聚類方法沒有消除變量間的相關(guān)性,從而直接影響到聚類結(jié)果的準(zhǔn)確性;文獻(xiàn)[6]的方法意識到了變量間的相關(guān)性問題,盡管采用回歸模型建立了教育經(jīng)費(fèi)與經(jīng)濟(jì)發(fā)展水平和財政支出規(guī)模的關(guān)系模型,但沒有消除經(jīng)濟(jì)發(fā)展水平和財政支出規(guī)模之間的共線性,導(dǎo)致大部分信息重疊,影響了聚類結(jié)果;本文方法在教育經(jīng)費(fèi)與經(jīng)濟(jì)發(fā)展水平和財政支出規(guī)模的關(guān)系模型構(gòu)建的基礎(chǔ)上,運(yùn)用差分思想消除變量間共線性之后再進(jìn)行聚類,提高了聚類的準(zhǔn)確性,也說明本文方法是有效的。

3 總結(jié)

聚類分析并不適用于所有類型或結(jié)構(gòu)的數(shù)據(jù),當(dāng)數(shù)據(jù)的變量間存在相關(guān)性時,基于歐式距離的聚類分析便不再有效,可以通過建立相應(yīng)的變量間相關(guān)性模型,用模型的回歸系數(shù)來體現(xiàn)變量的重要性,再做聚類分析,但在結(jié)構(gòu)建模時,自變量間的多重共線性使得參數(shù)估計值很不穩(wěn)定,對樣本敏感,容易導(dǎo)致模型擬合效果不好,因而本文先對變量間的相關(guān)性結(jié)構(gòu)建模,再對模型自變量間的多重共線性進(jìn)行消除,然后進(jìn)行聚類,可以解決基于模型聚類中的變量間的共線性問題,實例也表明本文方法是有效的。

[1]李亮,吳瑞明.消除評價指標(biāo)相關(guān)性的權(quán)值計算方法[J].系統(tǒng)管理學(xué)報,2009,18(2).

[2]王紅睿,趙黎明,裴劍.均衡化的改進(jìn)K均值聚類法[J].吉林大學(xué)報, 2006,24(2).

[3]殷瑞飛,朱建平.數(shù)據(jù)挖掘中一種新的聚類方法—基于對應(yīng)分析與因子旋轉(zhuǎn)[J].統(tǒng)計研究,2008,25(1).

[4]王德青,朱建平,謝邦昌.主成分聚類分析有效性的思考[J].統(tǒng)計研究,2012,(11).

[5]黃閩英,牟銳.對模糊聚類分析法的改進(jìn)及其在SRM中的應(yīng)用[J].計算機(jī)工程與科學(xué),2011,(6).

[6]魏瑾瑞.一類基于模型的聚類方法[J].統(tǒng)計與信息論壇,2014,29(2).

(責(zé)任編輯/易永生)

O21

A

1002-6487(2016)21-0026-03

湖南省教育科學(xué)“十二五”規(guī)劃課題資助項目(XJK012BGD008)

朱紅燦(1976—),女,湖南湘潭人,博士,副教授,研究方向:信息資源管理。

猜你喜歡
財政支出方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
中央和地方財政支出及比重
2016年各省、自治區(qū)、直轄市財政支出完成預(yù)算情況
3D打印中的模型分割與打包
中央和地方財政支出及比重
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 在线欧美日韩国产| swag国产精品| 欧美人与牲动交a欧美精品| 欧美日本二区| 国产SUV精品一区二区6| 色婷婷在线播放| 日韩欧美国产中文| 日韩精品中文字幕一区三区| 亚洲成人77777| 欧美激情福利| 日韩欧美网址| 伊人成色综合网| 亚洲中文无码av永久伊人| 色窝窝免费一区二区三区 | 久久a毛片| 欧美人与动牲交a欧美精品| 福利视频一区| 天堂久久久久久中文字幕| 国产精品无码一二三视频| 中文字幕久久波多野结衣| 久久综合婷婷| 亚洲综合片| 伊人久久婷婷五月综合97色| 日韩一级毛一欧美一国产| 美女裸体18禁网站| 无码国产偷倩在线播放老年人| 热re99久久精品国99热| 日韩无码一二三区| 亚洲性视频网站| 精品中文字幕一区在线| 久久久精品无码一二三区| 丰满人妻中出白浆| 成年网址网站在线观看| 58av国产精品| 久久 午夜福利 张柏芝| 亚洲日本中文字幕乱码中文| 国内自拍久第一页| 国产乱人伦AV在线A| 欧美va亚洲va香蕉在线| 曰韩人妻一区二区三区| 国产精品任我爽爆在线播放6080| 国产产在线精品亚洲aavv| 国产日韩精品一区在线不卡| 亚洲精品视频免费| 重口调教一区二区视频| 精品剧情v国产在线观看| 中文字幕无码中文字幕有码在线| a级毛片免费看| 欧美日韩在线亚洲国产人| 欧美成一级| 欧美精品三级在线| 亚洲一区二区在线无码| 成人国产精品视频频| 福利片91| 中文字幕色在线| 国产在线精彩视频二区| 国产菊爆视频在线观看| 亚洲精品天堂在线观看| 国产91av在线| 韩国自拍偷自拍亚洲精品| 亚洲精选高清无码| 免费人成视网站在线不卡| 午夜毛片免费观看视频 | 在线观看无码a∨| 欧美精品亚洲精品日韩专区| 五月婷婷导航| 欧美黄色a| 911亚洲精品| 青青热久麻豆精品视频在线观看| 亚洲第一视频网站| 日韩色图区| 国产精品太粉嫩高中在线观看| 久久久久青草线综合超碰| 国产成人啪视频一区二区三区| 婷婷色一二三区波多野衣| 国产精品任我爽爆在线播放6080| 国产9191精品免费观看| 午夜无码一区二区三区在线app| 亚洲视频无码| 一级毛片免费高清视频| 91色综合综合热五月激情| 亚洲欧洲综合|