馬一江,韓利娜
(西安文理學院數學系,陜西 西安710065)
在實際工作當中,通常需要去估計具有某種特征的單位數占總體全部單位的比例,加以對總體比例進行判斷。例如,在燈泡合格率的抽樣當中,要通過樣本的不合格率來估計整批燈泡的不合格率,并作出整批燈泡是否合格的判斷。有時還需要從兩個對立總體中抽取兩個獨立樣本,估計兩個總體的比例之差。具體來講就是根據一定的概率即置信水平要求,估計總體比例或比例之差的范圍,從而形成此類問題的區間估計。
下文分別討論一個總體比例和兩個總體比例差的置信區間的求法。
如果隨機變量X代表在n次二項實驗中具有某種特征的單位數,則X服從二項分布,其期望和方差分別為E(X)=nπ,D(X)=nπ(1-π),設隨機變量p=X/n,有E(p)=π,D(p)=π(1-π)/n,可知樣本比例p是總體比例π的無偏估計。根據中心極限定理,在大樣本條件np>5,n(1-p)>5 的情形下,可以把二項分布問題轉化為正態分布問題近似的去求解,所以有將p再經過標準化,得到服從N(0,1),在π未知的情況下,可以用p來代替π計算上式中z的分母,即:

若置信水平為1-α,則總體比例π的置信區間估計的概率表達式為即P{p-
因此,總體比例π的置信水平為1-α的雙側置信區間為:

例1:某公司要估計一批總數為5000個插座的不合格率,于是隨機選取400個插座來進行監測,發現有32個插座不合格,試求該批插座的不合格率的90%的置信區間。
解:記合格插座為“X=0”,不合格插座記為“X=1”,整批產品的不合格率為π。已知n=400,N=5000,樣品不合格率p=32/400=0.08,np=32>5,n(1-p)=32>5。
大樣本條件滿足,置信水平1-α=90%,α=10%,查“標準正態分布表”,得到zα/2=z0.05=1.645。因此這批插座的不合格率π的90%的置信區間為:

因此,有90%的把握認為這批產品的不合格率的置信區間為5.77%~10.23%。
當樣本比例p在0 或1 附近或者樣本容量n較小時,二項分布呈偏態,不能用上面的正態分布來近似,去估計總體比例π的置信上下限,此時需要采用查表法,以例說明。
例2:向55 人調查關于推薦張某某市人大代表的意見,其中表示贊成的有21 人,試估計贊成張某成為市人大代表總體比例的95%置信區間。
解:已知n=55,X=21,查百分率的可信限表[1]。
首先查出與n=55,X=21 相對應的95%置信限為28、57,以及與n=60,X=21 相對應的95%置信限為23、49。
設所要求的95%置信下限為p1,上限為p2,則:

于是總體比例的95%置信下限為25.5%,置信上限為54% ,說明贊成張某成為市人大代表95%的可能在25.5%~54%范圍內。
在實際問題的研究中,一般需要對兩個總體比例之差作一個了解,比如對兩個大型公司、兩個大企業的某個板塊比例進行比較,還有就是對某兩個行業比例作一個比較等,這就涉及到兩個總體比例差的區間估計問題。
分別從兩個總體中各自隨機抽取容量為n1和n2兩個隨機樣本,設兩個總體比例分別是π1和π2,要估計π1-π2,先計算出兩個樣本比例p1和p2??梢宰C明出當n1和n2兩者都很大(都是大樣本)且總體比例不太接近0 或者1 時,p1-p2的抽樣分布近似服從正態分布。
其中,E(p1-p2)=π1-π2,D(p1-p2)=
由于π1和π2均未知,上述公式中分母的總體比例π1和π2需要用樣本比例p1和p2來代替,即這時統計量z近似服從N(0,1)。
如果置信水平為1-α,則兩個總體比例差π1-π2的置信區間估計的概率表達式為:

此時,總體比例之差π1-π2的置信度為1-α的近似置信區間為:

例3:某公司有兩個生產車間,分別用M 和N 表示。為了降低不合格率,該公司相關負責人對N 車間的工人進行相關培訓。5個月后,該公司負責人對兩個生產車間的產品質量進行了監測。從M 車間抽取了200 件產品,從N 車間抽取了220 件產品,查到不合格品率M 車間為pM=15%,N車間為pN=3%。試在95%的可靠度下,構造兩個車間不合格品率之差的置信區間。
解:已知pM=15%,pN=3%,nM=200,nN=220,當置信度為95%時,zα/2=1.96。

因此,(πM-πN)置信區間估計為[0.0658,0.1742]。根據這一結果,有95%的可靠程度車間M 的不合格品率比車間N 高6.58%~17.42%,估計的誤差為5.42%。
本文主要討論了兩個問題:①一個總體大樣本情況下,可以將原本的二項分布近似為正態分布,從而得到總體比例的置信區間。如果樣本容量較小,或者樣本比例p在0 或1附近,此時二項分布呈偏態,則不能用正態近似法來估計總體比例的置信限,這時可以借助統計專用表百分率的可信限來求。②兩個總體比例差的區間估計,從兩個二項總體中抽出兩個獨立大樣本,沿用正態近似的結論,建立了兩個總體比例差的區間估計結構。
對于總體比例差的區間估計效果如何,可以進一步做顯著性檢驗,這部分內容在后期將進一步研究探討。