王傳鑫 袁永生 周銘華



摘要:為了研究不同地區(qū)間私人汽車保有量影響因素的差異性,選取了五個(gè)影響因素,通過改進(jìn)的密度峰值聚類方法將全國(guó)31個(gè)省市自治區(qū)分成了以甘肅省和江西省為聚類中心的兩類地區(qū),并分別建立了影響因素的面板數(shù)據(jù)模型。結(jié)果表明:社會(huì)消費(fèi)品零售總額、公路旅客周轉(zhuǎn)量和年末公共交通車輛運(yùn)營(yíng)數(shù)對(duì)第一類地區(qū)私人汽車的發(fā)展有較大影響;社會(huì)消費(fèi)品零售總額、年末實(shí)有道路長(zhǎng)度和年末公共交通車輛運(yùn)營(yíng)數(shù)會(huì)影響第二類地區(qū)私人汽車的發(fā)展。研究結(jié)果可為兩類地區(qū)私人汽車的發(fā)展提供一定的參考意義。
關(guān)鍵詞:影響因素;密度峰值聚類;私人汽車保有量;面板數(shù)據(jù)模型
中圖分類號(hào):F407.471
文獻(xiàn)標(biāo)識(shí)碼:A
近年來,我國(guó)的汽車工業(yè)得到了迅猛的發(fā)展,私人汽車保有量也在不斷地增長(zhǎng),其對(duì)社會(huì)經(jīng)濟(jì)的發(fā)展和道路規(guī)劃的影響也越來越大。因此,研究私人汽車保有量的發(fā)展情況對(duì)經(jīng)濟(jì)的發(fā)展和道路交通網(wǎng)的建設(shè)具有重要的意義。
目前對(duì)私人汽車保有量的研究主要集中在保有量的預(yù)測(cè)方面,如古繼寶等根據(jù)我國(guó)3 1個(gè)省市的面板數(shù)據(jù)建立了Gompertz模型,并以此預(yù)測(cè)了中國(guó)民用汽車保有量[1];龔華煒等基于計(jì)量經(jīng)濟(jì)學(xué)模型對(duì)廣東省2004年和2005年的汽車保有量進(jìn)行了預(yù)測(cè)[2];蔣艷梅等基于Logistic模型預(yù)測(cè)了我國(guó)私人汽車保有量[3]。縱觀這些研究,在汽車保有量的預(yù)測(cè)方面做出了許多努力,并給出了許多可行性的建議。但這些研究大都是從宏觀的角度的去選擇與私人汽車保有量的影響因素,未能充分考慮到各個(gè)地區(qū)間由于政策、環(huán)境以及文化等的不同所導(dǎo)致的影響因素的不同。同時(shí),由于現(xiàn)有的聚類算法,如K-Means算法、密度峰值聚類算法等不能有效地對(duì)面板數(shù)據(jù)進(jìn)行聚類。因此,通過改進(jìn)密度峰值聚類算法的相似性度量方式,使算法能夠適用于面板數(shù)據(jù),并保留其能夠快速地確定聚類中心和類簇的優(yōu)點(diǎn)。進(jìn)而根據(jù)2005年到2015年全國(guó)31個(gè)省市地區(qū)的數(shù)據(jù)進(jìn)行地區(qū)劃分,并對(duì)每一類地區(qū)建立了私人汽車保有量的影響因素模型,從而分析了不同類別之間的影響因素的差異性原因。
1 基于改進(jìn)密度峰值算法的聚類分析模型
聚類算法是根據(jù)變量之間的相似性或差異性將數(shù)據(jù)進(jìn)行分類,常見的聚類算法主要有基于劃分的K-Means算法、基于密度的DBSCAN算法等。但前者在K值的選取上缺乏客觀性,后者的聚類結(jié)果容易受到參數(shù)的影響。為了避免出現(xiàn)此類問題,文獻(xiàn)[4]提出了一種基于密度峰值的聚類方法。算法的前提是,聚類中心被密度比其小的點(diǎn)圍繞,并且距離其他的較高密度點(diǎn)有著較大的距離。算法先對(duì)于任何一個(gè)待分?jǐn)?shù)據(jù)點(diǎn)都計(jì)算了兩個(gè)量:局部密度值以及該點(diǎn)到有著更高局部密度點(diǎn)的距離δi,然后將ρi和δi都較大的點(diǎn)選為聚類中心,最后將剩下的數(shù)據(jù)點(diǎn)劃分給離它最近的聚類中心所屬的類簇中去。相比較于傳統(tǒng)的聚類算法,該算法能夠快速地確定聚類中心和類簇,而且不需要指定聚類參數(shù),并能發(fā)現(xiàn)非球狀簇。但是,該算法只適用于二維數(shù)據(jù)的聚類,不能有效地對(duì)面板數(shù)據(jù)進(jìn)行分析。針對(duì)這個(gè)問題,文章將算法中的相似性度量方式加以改進(jìn),使其能夠?qū)γ姘鍞?shù)據(jù)進(jìn)行分類。
1.2 決策圖
為了選擇聚類中心,算法以ρ值為橫坐標(biāo)、δ值為縱坐標(biāo)建立了數(shù)據(jù)集對(duì)應(yīng)的決策圖,并將p值和δ值都較大的點(diǎn)選為聚類中心,然后將其余數(shù)據(jù)點(diǎn)劃分到離它最近的聚類中心所屬的類簇中去。
2 影響因素的分類模型
2.1 私人汽車保有量影響因素的選取
影響私人保有量的因素有許多,大致可以分為三類,社會(huì)經(jīng)濟(jì)發(fā)展水平,道路交通運(yùn)輸水平,人口因素。根據(jù)實(shí)際情況和過往研究中對(duì)影響因素的選取[6-10],選擇了三類中具有代表性的因素,即地區(qū)生產(chǎn)總值、社會(huì)消費(fèi)品零售總額、年末實(shí)有道路長(zhǎng)度、公路旅客周轉(zhuǎn)量和年末公共交通車輛運(yùn)營(yíng)數(shù)。
2.2 建立分類模型
為了便于程序運(yùn)行,將全國(guó)31個(gè)省市地區(qū)進(jìn)行編號(hào)為1到31,并選取了《中國(guó)統(tǒng)計(jì)年鑒》上影響私有汽車保有量的地區(qū)生產(chǎn)總值、社會(huì)消費(fèi)品零售總額、年末實(shí)有道路長(zhǎng)度、公路旅客周轉(zhuǎn)量和年末公共交通車輛運(yùn)營(yíng)數(shù)的數(shù)據(jù)。由于所選取的數(shù)據(jù)之間的單位差別較大,因此,先根據(jù)下列公式,即區(qū)間化的方法對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以消除量綱的影響,減少誤差。
然后根據(jù)公式(1)和公式(2)分別計(jì)算每一個(gè)地區(qū)的局部密度值和距離值,并以ρ值為橫坐標(biāo)、6值為縱坐標(biāo)建立直角坐標(biāo)系,并在坐標(biāo)系上畫出每個(gè)地區(qū)的值ρ和δ值,如圖1所示。并將ρ值較大且δ值較大的28號(hào)甘肅省和20號(hào)江西省選為聚類中心(圖中有上部分的兩個(gè)點(diǎn)),最后將其他地區(qū)分配給這兩個(gè)聚類中心,分配結(jié)果如圖2所示,并根據(jù)運(yùn)行結(jié)果得出全國(guó)31個(gè)省市地區(qū)的分類結(jié)果,見表1。
由上表可以初步看出,以甘肅省為聚類中心的第一類地區(qū)大都屬于經(jīng)濟(jì)發(fā)展水平不高,且道路建設(shè)水平以及道路運(yùn)輸水平都較低的地區(qū);以江西省為聚類中心的第二類地區(qū)在總體上經(jīng)濟(jì)發(fā)展情況較好,且道路基礎(chǔ)設(shè)施建設(shè)較完善。
3 分地區(qū)私人汽車保有量影響因素的面板數(shù)據(jù)模型
為了更加清楚分析地區(qū)間私有汽車保有量影響因素的不同,采用面板數(shù)據(jù)的分析方法。面板數(shù)據(jù),又稱縱列數(shù)據(jù),是指由大量個(gè)體的時(shí)序觀測(cè)構(gòu)成的數(shù)據(jù)集。它既包括時(shí)間序列數(shù)據(jù),也能涵蓋截面數(shù)據(jù),因此能更全面地反映研究對(duì)象的特征[11]。
面板數(shù)據(jù)模型的一般形式為
3.1 模型選取
固定效應(yīng)模型和隨機(jī)效應(yīng)模型是面板數(shù)據(jù)模型中的兩個(gè)重要模型,具有不同的適應(yīng)范圍。一般而言,根據(jù)Hausman檢驗(yàn)的結(jié)果來選擇模型,檢驗(yàn)結(jié)果及參考模型見表2。
根據(jù)檢驗(yàn)結(jié)果,對(duì)第一類和第二類地區(qū)在顯著性水平為5%的條件下建立固定效應(yīng)模型。
3.2 模型設(shè)定
根據(jù)前面的分析,設(shè)定面板數(shù)據(jù)的模型為