李從欣 ,李國柱
(1.天津大學(xué),天津 300072;2.石家莊經(jīng)濟(jì)學(xué)院,石家莊 050031)
對(duì)統(tǒng)計(jì)學(xué)中幾個(gè)基本問題的探討
李從欣1,2,李國柱2
(1.天津大學(xué),天津 300072;2.石家莊經(jīng)濟(jì)學(xué)院,石家莊 050031)
就統(tǒng)計(jì)學(xué)教學(xué)中存在的問題,文章討論了眾數(shù)、算術(shù)平均數(shù)、中位數(shù)的關(guān)系;標(biāo)志、指標(biāo)、變量的關(guān)系;組距式分組中的組限歸屬;連鎖替代法的合理性;時(shí)間序列變動(dòng)的分解等。并就以上問題提出了見解。
平均數(shù);變量;統(tǒng)計(jì)分值;時(shí)間序列
長期以來,人們認(rèn)為眾數(shù)、中位數(shù)、算術(shù)平均數(shù)之間存在一定的關(guān)系,且這一關(guān)系取決于總體內(nèi)的分布情況。當(dāng)對(duì)稱分布時(shí),算術(shù)平均數(shù)、中位數(shù)、眾數(shù)合而為一,即;在偏態(tài)分布的情況下,三者彼此分離,算術(shù)平均數(shù)、眾數(shù)分居兩邊,中位數(shù)介于兩者之間,若眾數(shù)在左邊,平均數(shù)在右邊,即,稱為正偏分布;若眾數(shù)在右邊,平均數(shù)在左邊,即,則稱為負(fù)偏分布。以此為基礎(chǔ)還計(jì)算了偏度系數(shù),用SK表示:

當(dāng)SK=0時(shí),分布為對(duì)稱分布;當(dāng)XK<0時(shí),為負(fù)偏態(tài);當(dāng)XK>0時(shí),為正偏態(tài)。如果僅從偏斜方向上來考慮,根據(jù)SK判斷和根據(jù)算術(shù)平均數(shù)與眾數(shù)的關(guān)系進(jìn)行判斷是一致的。
這一論述在統(tǒng)計(jì)學(xué)教科書存在了幾十年,但更多出于直觀判斷,并沒有明確的理論依據(jù)。更確切地說,這一論述并不準(zhǔn)確,首先,中位數(shù)并不一定位于眾數(shù)和算術(shù)平均數(shù)之間;其次,根據(jù)眾數(shù)和算術(shù)平均數(shù)的大小來判斷偏斜方向也不一定準(zhǔn)確。以下的例子可以提供很好的證明。
表1為某工廠工人生產(chǎn)某種零件所耗用時(shí)間的資料,根據(jù)這一資料,可以計(jì)算出以下四個(gè)統(tǒng)計(jì)量的數(shù)值:,Me=7,Mo=5,α=-0.127。其中偏度系數(shù)α是按矩法計(jì)算的。
在這一例子中,中位數(shù)并沒有介于算術(shù)平均數(shù)和眾數(shù)之間,它的取值是最大的;如果根據(jù)算術(shù)平均數(shù)和眾數(shù)的大小來判斷偏斜方向,由于算術(shù)平均數(shù)大于眾數(shù),應(yīng)該是正偏,但從我們按矩法計(jì)算的偏度系數(shù)來看,由于α=-0.127,應(yīng)該是負(fù)偏。

表1 某工廠工人生產(chǎn)某種零件所耗時(shí)間分組表
標(biāo)志、指標(biāo)和變量的概念在統(tǒng)計(jì)學(xué)教材中也存在了幾十年,雖然現(xiàn)在某些教材中已去掉了這些內(nèi)容,但大部分教材中這些內(nèi)容仍然存在。標(biāo)志和指標(biāo)是基于總體和總體單位定義的,標(biāo)志是用來說明總體單位的屬性或特征的,而指標(biāo)是從數(shù)量方面對(duì)總體的規(guī)模及其特征的概括說明,變量則被定義為可變的數(shù)量標(biāo)志和指標(biāo)。按照該定義,品質(zhì)標(biāo)志不屬于變量,這一定義在在實(shí)際應(yīng)用中產(chǎn)生了諸多問題,尤其是不能和后續(xù)課程及人們的日常應(yīng)用相銜接。以回歸分析中的虛擬變量(又稱啞變量)為例,在回歸分析中,為了分析“質(zhì)”的因素對(duì)因變量的影響,通常設(shè)置虛擬變量。如果我們認(rèn)為不同性別、不同民族、不同政治面目的人消費(fèi)水平有差異,除了以收入水平作為主要解釋變量外,還可以加入虛擬變量解釋性別、民族、政治面目的影響。但按照傳統(tǒng)的關(guān)于變量的定義,性別、民族、政治面目都是品質(zhì)標(biāo)志,而不是變量。
解決這一問題有兩種思路,一種是去掉標(biāo)志和指標(biāo)的定義,國內(nèi)某些教材已經(jīng)這么做了。但去掉這對(duì)概念也有一個(gè)問題,國人使用指標(biāo)體系這個(gè)概念幾十年了,且已深入到生活中的方方面面,沒有指標(biāo)何來指標(biāo)體系呢?因此簡單去掉可能不是最好的方法。當(dāng)然把指標(biāo)體系改成評(píng)價(jià)體系、把指標(biāo)改成要素可避免這一尷尬,并且一些國家也確實(shí)是這么叫的。第二種思路是改變變量的定義,把變量定義為標(biāo)志和指標(biāo),而不是可變的數(shù)量標(biāo)志和指標(biāo)。這既解決了和虛擬變量定義的銜接,也解決了人們使用指標(biāo)和指標(biāo)體系的習(xí)慣問題。
在組距式分組中,每組包含許多變量值,每一組變量值中,其最小值為下限,最大值為上限。相鄰兩組的界限,稱為組限。凡是組限不相連的,稱為間斷組距式分組;凡是組限相連(或稱相重疊的),即以同一數(shù)值作為相鄰兩組的共同界限,稱為連續(xù)組距式分組。如果變量值只是在整數(shù)之間變動(dòng),可采用間斷組距式分組;如果變量值在一定范圍內(nèi)的表現(xiàn)既可以是整數(shù),也可以是小數(shù),只能采用連續(xù)組距式分組。在連續(xù)組距式分組中,因?yàn)橐酝粋€(gè)數(shù)值作為相鄰兩組共同的界限,需要人為規(guī)定這一界限屬于哪一組。國內(nèi)統(tǒng)計(jì)教材通常采用的是“上組限不在內(nèi)原則”,即凡是總體某一個(gè)單位的變量值是相鄰兩組的界限值,這一個(gè)單位歸入作為下限值的那一組內(nèi)。
如果仍然采用手工匯總,這一規(guī)定并無不妥之處。但現(xiàn)在普遍采用計(jì)算機(jī)匯總,如果各統(tǒng)計(jì)軟件對(duì)組限的歸屬界定不同,就會(huì)造成分組結(jié)果不同:在某種軟件下,某個(gè)觀察值分到了上一組,但在另一種軟件下卻分到了下一組。這種情況在現(xiàn)實(shí)中確實(shí)存在,如EXCEL、Stata軟件一般采用“上限在內(nèi)原則”,而Eviews軟件卻采用 “上限不在內(nèi)原則”,至于SPSS軟件,則可以在“上限在內(nèi)”和“上限不在內(nèi)”之間進(jìn)行選擇。因此在進(jìn)行統(tǒng)計(jì)分組時(shí),必須注明組限的歸屬問題,但目前的研究報(bào)告、論文等并沒有重視這一問題。
在實(shí)際運(yùn)用中,還可采用變通的方法,將連續(xù)組距式分組重疊的組限變?yōu)椴恢丿B。方法就是對(duì)一個(gè)組的上限值采用小數(shù)點(diǎn)的形式,小數(shù)點(diǎn)的位數(shù)根據(jù)所要求的精度具體確定,通常比實(shí)際的小數(shù)位數(shù)多一位。假如數(shù)據(jù)(保留兩位小數(shù))的最小值為3.22,最大值為6.09,如果取組距為0.3,并將比最小值略小一點(diǎn)的數(shù)3.20作為第一組的起點(diǎn),則第一組的上限(也就是第二組的下限)為3.50,為了避免重疊組限的歸屬問題,可以考慮將第一組的上限值取為3.499,第二組的下限仍然為3.50,即可將重疊組限變換為間斷組限。此時(shí),不論采用手工匯總,還是計(jì)算機(jī)匯總,所得的分組結(jié)果都是一致的。
在進(jìn)行指數(shù)因素分析時(shí),通常采用連鎖替代法,基本思想是將各因素指標(biāo)按先數(shù)量指標(biāo)后質(zhì)量指標(biāo)的順序排列,測(cè)定其中某個(gè)因素的作用時(shí),要將其余所有因素進(jìn)行固定。即測(cè)定數(shù)量因素的作用時(shí),要將質(zhì)量因素固定在基期;而測(cè)定質(zhì)量因素的作用時(shí),要將數(shù)量因素固定在報(bào)告期。
在實(shí)際應(yīng)用中,連鎖替代法存在三個(gè)方面的問題。一是計(jì)算結(jié)果不統(tǒng)一,完全取決于變量的先后順序;二是沒有理論基礎(chǔ),無法說明為什么某個(gè)變量先變化,其它的變量后變化。比如銷售額的變化究竟是價(jià)格變化在先還是銷量量變化在先;三是沒有考慮變量之間的交互關(guān)系,變量之間可能并不是獨(dú)立變化的,更多的是交互發(fā)生作用。
解決這一問題可以采用數(shù)學(xué)分析中的全增量分析理論,這一方法最早由徐國祥等引入指數(shù)分析領(lǐng)域。
對(duì)任意二元函數(shù)y=f(pq),其全增量可表示為:

當(dāng)給出函數(shù)的具體形式時(shí),可得到增量的表達(dá)式。令,則

這便是指數(shù)因素分析法中的絕對(duì)量分析,右邊第一項(xiàng)為p變動(dòng)的影響,第二項(xiàng)為q變動(dòng)的影響,第三項(xiàng)為p和q同時(shí)變動(dòng)的交互影響。
將(3)式兩邊同除以y0,即可得到指數(shù)分析的相對(duì)量分析,即

公式(3)、(4)是針對(duì)單一商品(或個(gè)體指數(shù))的,如要進(jìn)行綜合指數(shù)的因素分析,只要對(duì)(3)、(4)稍加變形,在方程兩邊加上求和符號(hào)即可。
綜合指數(shù)因素分析的絕對(duì)分析和相對(duì)分析如下:

這種方法解決了連鎖替代法的三個(gè)問題:計(jì)算結(jié)果和變量排列順序無關(guān);存在理論基礎(chǔ),完全符合因素分析應(yīng)從基期出發(fā)的原則;考慮了兩個(gè)變量同時(shí)變動(dòng)的交互影響。
統(tǒng)計(jì)學(xué)教材講授了時(shí)間序列的分解,但沒有涉及時(shí)間序列變動(dòng)的分解。時(shí)間序列分解存在兩種模型,即乘法模型和加法模型。時(shí)間序列變動(dòng)的分解也基于這兩種模型。
經(jīng)濟(jì)時(shí)間序列的變化受許多因素的影響,概括地講,可以將影響時(shí)間序列的因素分為四種,即長期趨勢(shì)、季節(jié)變動(dòng)、循環(huán)變動(dòng)和不規(guī)則變動(dòng)。時(shí)間序列的分解方法有很多,較常用的模型有加法模型和乘法模型兩種。如果認(rèn)為各因素之間獨(dú)立發(fā)生作用,可采用加法模型;如果認(rèn)為各因素之間交互產(chǎn)生作用,通常采用乘法模型。
乘法模型的基本形式為:

基于乘法模型的時(shí)間序列變動(dòng)分解可采用增量分析法,將公式(2)應(yīng)用于多元函數(shù),時(shí)間序列的增量可表示為:

結(jié)合公式(7),公式(8)可以進(jìn)一步表示為:

方程右邊括號(hào)中的四項(xiàng)分別為四個(gè)因素單純變動(dòng)的影響,最后一項(xiàng)為交互影響值,包括兩因素同時(shí)變動(dòng)影響、三因素同時(shí)變動(dòng)影響和四因素同時(shí)變動(dòng)影響。在一般情況下,為了便于分析,只需列出一個(gè)總的交互影響即可。
將(9)式兩邊分別除以Y0,可得相對(duì)分析表達(dá)式。
時(shí)間序列加法模型的基本形式為:

根據(jù)(10)式,可得增量恒等式:

將(11)式兩邊分別除以Y0,可得相對(duì)分析表達(dá)式:

對(duì)公式(12)進(jìn)行適當(dāng)變形,可得

公式(13)為各因素對(duì)時(shí)間序列拉動(dòng)作用的量化公式。公式(12)、(13)分別從不同角度分析了各因素對(duì)時(shí)間序列變動(dòng)的影響。
[1]劉德智.統(tǒng)計(jì)學(xué)[M].北京:清華大學(xué)出版社,2007.
[2]黃良文.統(tǒng)計(jì)學(xué)原理[M].北京:中國統(tǒng)計(jì)出版社,2003.
[3]賈俊平.統(tǒng)計(jì)學(xué)[M].北京:中國人民大學(xué)出版社,2000.
[4]徐國祥.統(tǒng)計(jì)學(xué)[M].上海:上海人民出版社,2007.
C81
A
1002-6487(2011)11-0041-02
李從欣(1974-),女,河北無極人,博士研究生,研究方向:區(qū)域經(jīng)濟(jì)統(tǒng)計(jì)。
(責(zé)任編輯/浩 天)