孫其勇(安徽江淮電纜集團(tuán)有限公司,安徽 巢湖 238371)
?
非參數(shù)密度估計(jì)在電線線纜質(zhì)量控制中的應(yīng)用
孫其勇
(安徽江淮電纜集團(tuán)有限公司,安徽 巢湖 238371)
摘 要:本文用非參數(shù)密度估計(jì)構(gòu)造了數(shù)學(xué)模型。該模型不假定數(shù)據(jù)序列相依形式和概率分布形式,不涉及模型參數(shù)估計(jì),只依靠數(shù)據(jù)本身驅(qū)動(dòng),克服了參數(shù)估計(jì)普適性不高的特征。本文探索了非參數(shù)密度估計(jì)在電線線纜質(zhì)量控制中的應(yīng)用,探索了一種精確度較高的的分析方法。
關(guān)鍵詞:核估計(jì);窗寬;結(jié)果分析;擬合度
數(shù)理統(tǒng)計(jì)技術(shù),是先進(jìn)質(zhì)量管理的重要課題。目前在電線電纜行業(yè)中應(yīng)用較多的數(shù)理統(tǒng)計(jì)技術(shù)是傳統(tǒng)的參數(shù)統(tǒng)計(jì)方法,其基本步驟是:
第一,收集數(shù)據(jù);
第二,擬合參數(shù)模型;
第三,估計(jì)參數(shù)模型;
第四,指出擬合效果。
其核心思想是先假設(shè)確定的參數(shù)模型。這種方法對(duì)數(shù)據(jù)的分析通常有較好的精確度,比如假設(shè)正態(tài)分布模型,用矩估計(jì)、最大似然估計(jì)和最小二乘法求參數(shù)等等。但是這些方法的缺陷就是模型的假設(shè)對(duì)不同的樣本不具有普適性。本文探索利用非參數(shù)密度估計(jì)對(duì)電纜導(dǎo)體單絲的電阻率進(jìn)行分析,以尋求一種更為精確的統(tǒng)計(jì)方法。

表1 2.52mm模具拉出的銅單絲直徑
本文首先給出標(biāo)準(zhǔn)直徑為2.52mm的模具拉出的銅單絲直徑的樣本數(shù)據(jù)見(jiàn)表1(樣本容量為100,分16組,組距為0.000022mm),圖1為散點(diǎn)圖,圖2為直方圖,了解其所屬總體的基本性質(zhì):由上面的圖形,尤其是直方圖,我們能對(duì)這組樣本數(shù)據(jù)的分布有一個(gè)初步的了解。可以初步估計(jì),該樣本數(shù)據(jù)所屬總體是很不對(duì)稱的,并且左端有較長(zhǎng)的尾端,從左向右整體有上升的趨勢(shì),在最右端出現(xiàn)一個(gè)小的尾端。
2.1 核估計(jì)定義:設(shè)K(x)為R上的一個(gè)概率密度函數(shù),h>0是一個(gè)與n有關(guān)的常數(shù),則

稱fn為總體未知密度f(wàn)(x)的一個(gè)核估計(jì),其中函數(shù)K(x)稱為核,h為窗寬。
2.2 K(x)的確定
研究表明,窗寬h確定時(shí),不同核函數(shù)的作用是等價(jià)的。實(shí)際工作中,一般先選定核函數(shù)K(x),然后再尋求最優(yōu)窗寬h。K(x)對(duì)fn的影響很小,因此滿足以下基本條件的核函數(shù)都合適:
①∫K(x)dx=1;
②函數(shù)連續(xù)且光滑;
③一階矩為零,方差有限。
常用的有均勻核,高斯核等。本文以高斯核為核函數(shù)。得到函數(shù)的核估計(jì):

2.3 窗寬的確定
窗寬h越小,核估計(jì)密度對(duì)原數(shù)據(jù)的擬合度越大,但核估計(jì)的方差越大。反之,窗寬h越大,核估計(jì)的方差越小。通常選用LSCV法確定最佳窗寬,LSCV法是從現(xiàn)有的數(shù)據(jù)直接得到合理的窗寬,是計(jì)算最佳窗寬的經(jīng)典方法之一。其主要思想是由樣本作缺值估計(jì)來(lái)求最佳窗寬:

LSCV是基于積分平方誤差I(lǐng)SE最小準(zhǔn)則的一種計(jì)算方法,ISE為:

式(4)中最后一項(xiàng)與h無(wú)關(guān)。LSCV就是取式(4)中前兩項(xiàng)進(jìn)行最小化計(jì)算,實(shí)際上使式(5)達(dá)到最小:

將已知的各個(gè)樣本點(diǎn)值代入表達(dá)式,即可求得用核估計(jì)的窗寬h為0.105時(shí),ICE最小為-5177。
本文利用以高斯核為核函數(shù)的核估計(jì)對(duì)樣本數(shù)據(jù)進(jìn)行分析,這樣就可以得到函數(shù)的核估計(jì)形式:


圖1 20℃銅單絲電阻率散點(diǎn)圖

圖2 20℃銅單絲電阻率直方圖
在統(tǒng)計(jì)方法中,不知道總體服從什么類型的分布,通常可以用皮爾遜Χ2擬合度檢驗(yàn)來(lái)實(shí)現(xiàn)確定模型顯著性是否可接受,以確定一批數(shù)據(jù)是否真正來(lái)自假定的分布模型。對(duì)于連續(xù)型數(shù)據(jù),需先將樣本數(shù)據(jù)劃分成若干區(qū)間(即分組),要求分組后每組內(nèi)包含的樣本數(shù)不少于5個(gè),若某些組內(nèi)數(shù)據(jù)的頻數(shù)小于5,則應(yīng)將該組與相鄰的組做適當(dāng)合并,然后再進(jìn)行檢驗(yàn)。用fn估計(jì)總體密度f(wàn)(x),所以檢驗(yàn)問(wèn)題等價(jià)于:

作為假設(shè)檢驗(yàn)H0的統(tǒng)計(jì)量,在H0為真時(shí)近似有:

fi為第i組的樣本頻數(shù),npi是按照核估計(jì)密度函數(shù)計(jì)算得到的理論頻數(shù),k為在H0下X可能取值的子集數(shù),r為總體分布中需要估計(jì)的參數(shù)個(gè)數(shù)。該統(tǒng)計(jì)量近似服從自由度為k-r-1的Χ2分布,可知假設(shè)檢驗(yàn)的拒絕域?yàn)椋?/p>

α為顯著性水平,檢驗(yàn)的臨界值為Χ2(1-α,k-r-1),當(dāng)目標(biāo)函數(shù)值大于臨界值時(shí)拒絕原假設(shè),認(rèn)為密度函數(shù)不是核估計(jì)方法得到的密度函數(shù);否則就不能拒絕原假設(shè)。
前文已經(jīng)提到,在樣本量很大的情況下,如果原假設(shè)成立,該統(tǒng)計(jì)量近似服從自由度為k-r-1的Χ2分布,在此k=9,r=1因此分布的自由度為7。參考任何帶有統(tǒng)計(jì)附表的書(shū)籍,均可以查閱到各個(gè)顯著性水平下自由度為7的Χ2分布臨界值,在此我們查閱參考文獻(xiàn)[5],查到α=0.05時(shí),臨界值而h=0.105時(shí)14.067,檢驗(yàn)統(tǒng)計(jì)量實(shí)現(xiàn)值12.815小于該臨界值,這就說(shuō)明,在顯著性水平為0.05時(shí),不能拒絕原假設(shè),即可以認(rèn)為通過(guò)非參數(shù)核估計(jì)方法得到密度函數(shù)的表達(dá)形式符合實(shí)際的總體分布形式。因此,我們可以進(jìn)一步相信上文選擇的窗寬值是“最優(yōu)”的,且在該窗寬取值下估計(jì)的總體密度函數(shù)是理想的。
鑒于參數(shù)模型的缺陷,本文基于核估計(jì)理論提出了非參數(shù)隨機(jī)模型。該模型避免了模型結(jié)構(gòu)(線性或非線性)選擇和參數(shù)不確定性問(wèn)題,可以通過(guò)最終的擬合優(yōu)度檢驗(yàn)。由LSCV法計(jì)算最佳窗寬保證了核密度估計(jì)的計(jì)算精度,是計(jì)算窗寬的一種實(shí)用且安全的方法。進(jìn)一步完善非參數(shù)密度估計(jì)方法在電線線纜質(zhì)量控制中的應(yīng)用,或許能為電線線纜質(zhì)量的提高提供一種精確度較高的分析方法。
參考文獻(xiàn)
[1]陳希儒,柴根象.非參數(shù)統(tǒng)計(jì)教材[M].上海:華東師范大學(xué)出版社,1993.
[2] Epanechnikov V A. Nonparametrie estimation of a multidimensional probability density [J]. Teory of probability and Application, 1969.
[3] Larry Wasserman.現(xiàn)代非參數(shù)統(tǒng)計(jì)[M].吳喜之譯.北京:科學(xué)出版社,2008.
[4]盛驟,謝石千,等.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2008.
[5]吳喜之.非參數(shù)統(tǒng)計(jì)[M].北京:中國(guó)統(tǒng)計(jì)出版社,1999.
中圖分類號(hào):O212
文獻(xiàn)標(biāo)識(shí)碼:A