對(duì)統(tǒng)計(jì)學(xué)中幾個(gè)基本問題的探討

2011-12-14 07:25:22李從欣李國柱

統(tǒng)計(jì)與決策 2011年11期

關(guān)鍵詞：分析模型

李從欣，李國柱

（1.天津大學(xué)，天津 300072；2.石家莊經(jīng)濟(jì)學(xué)院，石家莊 050031)

對(duì)統(tǒng)計(jì)學(xué)中幾個(gè)基本問題的探討

李從欣1，2，李國柱2

（1.天津大學(xué)，天津 300072；2.石家莊經(jīng)濟(jì)學(xué)院，石家莊 050031)

就統(tǒng)計(jì)學(xué)教學(xué)中存在的問題，文章討論了眾數(shù)、算術(shù)平均數(shù)、中位數(shù)的關(guān)系；標(biāo)志、指標(biāo)、變量的關(guān)系；組距式分組中的組限歸屬；連鎖替代法的合理性；時(shí)間序列變動(dòng)的分解等。并就以上問題提出了見解。

平均數(shù)；變量；統(tǒng)計(jì)分值；時(shí)間序列

1 眾數(shù)、算術(shù)平均數(shù)、中位數(shù)的關(guān)系

長期以來，人們認(rèn)為眾數(shù)、中位數(shù)、算術(shù)平均數(shù)之間存在一定的關(guān)系，且這一關(guān)系取決于總體內(nèi)的分布情況。當(dāng)對(duì)稱分布時(shí)，算術(shù)平均數(shù)、中位數(shù)、眾數(shù)合而為一，即；在偏態(tài)分布的情況下，三者彼此分離，算術(shù)平均數(shù)、眾數(shù)分居兩邊，中位數(shù)介于兩者之間，若眾數(shù)在左邊，平均數(shù)在右邊，即，稱為正偏分布；若眾數(shù)在右邊，平均數(shù)在左邊，即，則稱為負(fù)偏分布。以此為基礎(chǔ)還計(jì)算了偏度系數(shù)，用SK表示：

當(dāng)SK=0時(shí)，分布為對(duì)稱分布；當(dāng)XK＜0時(shí)，為負(fù)偏態(tài)；當(dāng)XK＞0時(shí)，為正偏態(tài)。如果僅從偏斜方向上來考慮，根據(jù)SK判斷和根據(jù)算術(shù)平均數(shù)與眾數(shù)的關(guān)系進(jìn)行判斷是一致的。

這一論述在統(tǒng)計(jì)學(xué)教科書存在了幾十年，但更多出于直觀判斷，并沒有明確的理論依據(jù)。更確切地說，這一論述并不準(zhǔn)確，首先，中位數(shù)并不一定位于眾數(shù)和算術(shù)平均數(shù)之間；其次，根據(jù)眾數(shù)和算術(shù)平均數(shù)的大小來判斷偏斜方向也不一定準(zhǔn)確。以下的例子可以提供很好的證明。

表1為某工廠工人生產(chǎn)某種零件所耗用時(shí)間的資料，根據(jù)這一資料，可以計(jì)算出以下四個(gè)統(tǒng)計(jì)量的數(shù)值：，Me=7，Mo=5，α=-0.127。其中偏度系數(shù)α是按矩法計(jì)算的。

在這一例子中，中位數(shù)并沒有介于算術(shù)平均數(shù)和眾數(shù)之間，它的取值是最大的；如果根據(jù)算術(shù)平均數(shù)和眾數(shù)的大小來判斷偏斜方向，由于算術(shù)平均數(shù)大于眾數(shù)，應(yīng)該是正偏，但從我們按矩法計(jì)算的偏度系數(shù)來看，由于α=-0.127，應(yīng)該是負(fù)偏。

表1 某工廠工人生產(chǎn)某種零件所耗時(shí)間分組表

2 標(biāo)志、指標(biāo)和變量

標(biāo)志、指標(biāo)和變量的概念在統(tǒng)計(jì)學(xué)教材中也存在了幾十年，雖然現(xiàn)在某些教材中已去掉了這些內(nèi)容，但大部分教材中這些內(nèi)容仍然存在。標(biāo)志和指標(biāo)是基于總體和總體單位定義的，標(biāo)志是用來說明總體單位的屬性或特征的，而指標(biāo)是從數(shù)量方面對(duì)總體的規(guī)模及其特征的概括說明，變量則被定義為可變的數(shù)量標(biāo)志和指標(biāo)。按照該定義，品質(zhì)標(biāo)志不屬于變量，這一定義在在實(shí)際應(yīng)用中產(chǎn)生了諸多問題，尤其是不能和后續(xù)課程及人們的日常應(yīng)用相銜接。以回歸分析中的虛擬變量（又稱啞變量）為例，在回歸分析中，為了分析“質(zhì)”的因素對(duì)因變量的影響，通常設(shè)置虛擬變量。如果我們認(rèn)為不同性別、不同民族、不同政治面目的人消費(fèi)水平有差異，除了以收入水平作為主要解釋變量外，還可以加入虛擬變量解釋性別、民族、政治面目的影響。但按照傳統(tǒng)的關(guān)于變量的定義，性別、民族、政治面目都是品質(zhì)標(biāo)志，而不是變量。

解決這一問題有兩種思路，一種是去掉標(biāo)志和指標(biāo)的定義，國內(nèi)某些教材已經(jīng)這么做了。但去掉這對(duì)概念也有一個(gè)問題，國人使用指標(biāo)體系這個(gè)概念幾十年了，且已深入到生活中的方方面面，沒有指標(biāo)何來指標(biāo)體系呢？因此簡單去掉可能不是最好的方法。當(dāng)然把指標(biāo)體系改成評(píng)價(jià)體系、把指標(biāo)改成要素可避免這一尷尬，并且一些國家也確實(shí)是這么叫的。第二種思路是改變變量的定義，把變量定義為標(biāo)志和指標(biāo)，而不是可變的數(shù)量標(biāo)志和指標(biāo)。這既解決了和虛擬變量定義的銜接，也解決了人們使用指標(biāo)和指標(biāo)體系的習(xí)慣問題。

3 組距式分組中的組限歸屬問題

在組距式分組中，每組包含許多變量值，每一組變量值中，其最小值為下限，最大值為上限。相鄰兩組的界限，稱為組限。凡是組限不相連的，稱為間斷組距式分組；凡是組限相連（或稱相重疊的），即以同一數(shù)值作為相鄰兩組的共同界限，稱為連續(xù)組距式分組。如果變量值只是在整數(shù)之間變動(dòng)，可采用間斷組距式分組；如果變量值在一定范圍內(nèi)的表現(xiàn)既可以是整數(shù)，也可以是小數(shù)，只能采用連續(xù)組距式分組。在連續(xù)組距式分組中，因?yàn)橐酝粋€(gè)數(shù)值作為相鄰兩組共同的界限，需要人為規(guī)定這一界限屬于哪一組。國內(nèi)統(tǒng)計(jì)教材通常采用的是“上組限不在內(nèi)原則”，即凡是總體某一個(gè)單位的變量值是相鄰兩組的界限值，這一個(gè)單位歸入作為下限值的那一組內(nèi)。

如果仍然采用手工匯總，這一規(guī)定并無不妥之處。但現(xiàn)在普遍采用計(jì)算機(jī)匯總，如果各統(tǒng)計(jì)軟件對(duì)組限的歸屬界定不同，就會(huì)造成分組結(jié)果不同：在某種軟件下，某個(gè)觀察值分到了上一組，但在另一種軟件下卻分到了下一組。這種情況在現(xiàn)實(shí)中確實(shí)存在，如EXCEL、Stata軟件一般采用“上限在內(nèi)原則”，而Eviews軟件卻采用 “上限不在內(nèi)原則”，至于SPSS軟件，則可以在“上限在內(nèi)”和“上限不在內(nèi)”之間進(jìn)行選擇。因此在進(jìn)行統(tǒng)計(jì)分組時(shí)，必須注明組限的歸屬問題，但目前的研究報(bào)告、論文等并沒有重視這一問題。

在實(shí)際運(yùn)用中，還可采用變通的方法，將連續(xù)組距式分組重疊的組限變?yōu)椴恢丿B。方法就是對(duì)一個(gè)組的上限值采用小數(shù)點(diǎn)的形式，小數(shù)點(diǎn)的位數(shù)根據(jù)所要求的精度具體確定，通常比實(shí)際的小數(shù)位數(shù)多一位。假如數(shù)據(jù)（保留兩位小數(shù)）的最小值為3.22，最大值為6.09，如果取組距為0.3，并將比最小值略小一點(diǎn)的數(shù)3.20作為第一組的起點(diǎn)，則第一組的上限（也就是第二組的下限）為3.50，為了避免重疊組限的歸屬問題，可以考慮將第一組的上限值取為3.499，第二組的下限仍然為3.50，即可將重疊組限變換為間斷組限。此時(shí)，不論采用手工匯總，還是計(jì)算機(jī)匯總，所得的分組結(jié)果都是一致的。

4 連鎖替代法的合理性問題

在進(jìn)行指數(shù)因素分析時(shí)，通常采用連鎖替代法，基本思想是將各因素指標(biāo)按先數(shù)量指標(biāo)后質(zhì)量指標(biāo)的順序排列，測(cè)定其中某個(gè)因素的作用時(shí)，要將其余所有因素進(jìn)行固定。即測(cè)定數(shù)量因素的作用時(shí)，要將質(zhì)量因素固定在基期；而測(cè)定質(zhì)量因素的作用時(shí)，要將數(shù)量因素固定在報(bào)告期。

在實(shí)際應(yīng)用中，連鎖替代法存在三個(gè)方面的問題。一是計(jì)算結(jié)果不統(tǒng)一，完全取決于變量的先后順序；二是沒有理論基礎(chǔ)，無法說明為什么某個(gè)變量先變化，其它的變量后變化。比如銷售額的變化究竟是價(jià)格變化在先還是銷量量變化在先；三是沒有考慮變量之間的交互關(guān)系，變量之間可能并不是獨(dú)立變化的，更多的是交互發(fā)生作用。

解決這一問題可以采用數(shù)學(xué)分析中的全增量分析理論，這一方法最早由徐國祥等引入指數(shù)分析領(lǐng)域。

對(duì)任意二元函數(shù)y=f(pq)，其全增量可表示為：

當(dāng)給出函數(shù)的具體形式時(shí)，可得到增量的表達(dá)式。令，則

這便是指數(shù)因素分析法中的絕對(duì)量分析，右邊第一項(xiàng)為p變動(dòng)的影響，第二項(xiàng)為q變動(dòng)的影響，第三項(xiàng)為p和q同時(shí)變動(dòng)的交互影響。

將（3）式兩邊同除以y0，即可得到指數(shù)分析的相對(duì)量分析，即

公式（3）、（4）是針對(duì)單一商品（或個(gè)體指數(shù)）的，如要進(jìn)行綜合指數(shù)的因素分析，只要對(duì)（3）、（4）稍加變形，在方程兩邊加上求和符號(hào)即可。

綜合指數(shù)因素分析的絕對(duì)分析和相對(duì)分析如下：

這種方法解決了連鎖替代法的三個(gè)問題：計(jì)算結(jié)果和變量排列順序無關(guān)；存在理論基礎(chǔ)，完全符合因素分析應(yīng)從基期出發(fā)的原則；考慮了兩個(gè)變量同時(shí)變動(dòng)的交互影響。

5 時(shí)間序列變動(dòng)的分解問題

統(tǒng)計(jì)學(xué)教材講授了時(shí)間序列的分解，但沒有涉及時(shí)間序列變動(dòng)的分解。時(shí)間序列分解存在兩種模型，即乘法模型和加法模型。時(shí)間序列變動(dòng)的分解也基于這兩種模型。

5.1 基于乘法模型的時(shí)間序列變動(dòng)分解

經(jīng)濟(jì)時(shí)間序列的變化受許多因素的影響，概括地講，可以將影響時(shí)間序列的因素分為四種，即長期趨勢(shì)、季節(jié)變動(dòng)、循環(huán)變動(dòng)和不規(guī)則變動(dòng)。時(shí)間序列的分解方法有很多，較常用的模型有加法模型和乘法模型兩種。如果認(rèn)為各因素之間獨(dú)立發(fā)生作用，可采用加法模型；如果認(rèn)為各因素之間交互產(chǎn)生作用，通常采用乘法模型。

乘法模型的基本形式為：

基于乘法模型的時(shí)間序列變動(dòng)分解可采用增量分析法，將公式（2）應(yīng)用于多元函數(shù)，時(shí)間序列的增量可表示為：

結(jié)合公式（7），公式（8）可以進(jìn)一步表示為：

方程右邊括號(hào)中的四項(xiàng)分別為四個(gè)因素單純變動(dòng)的影響，最后一項(xiàng)為交互影響值，包括兩因素同時(shí)變動(dòng)影響、三因素同時(shí)變動(dòng)影響和四因素同時(shí)變動(dòng)影響。在一般情況下，為了便于分析，只需列出一個(gè)總的交互影響即可。

將（9）式兩邊分別除以Y0，可得相對(duì)分析表達(dá)式。

5.2 基于加法模型的時(shí)間序列變動(dòng)分解

時(shí)間序列加法模型的基本形式為：

根據(jù)（10）式，可得增量恒等式：

將（11）式兩邊分別除以Y0，可得相對(duì)分析表達(dá)式：

對(duì)公式（12）進(jìn)行適當(dāng)變形，可得

公式（13）為各因素對(duì)時(shí)間序列拉動(dòng)作用的量化公式。公式（12）、（13）分別從不同角度分析了各因素對(duì)時(shí)間序列變動(dòng)的影響。

[1]劉德智.統(tǒng)計(jì)學(xué)[M].北京：清華大學(xué)出版社，2007.

[2]黃良文.統(tǒng)計(jì)學(xué)原理[M].北京：中國統(tǒng)計(jì)出版社，2003.

[3]賈俊平.統(tǒng)計(jì)學(xué)[M].北京：中國人民大學(xué)出版社，2000.

[4]徐國祥.統(tǒng)計(jì)學(xué)[M].上海：上海人民出版社，2007.

C81

1002-6487（2011）11-0041-02

李從欣（1974-），女，河北無極人，博士研究生，研究方向：區(qū)域經(jīng)濟(jì)統(tǒng)計(jì)。

（責(zé)任編輯/浩天）