







摘要:針對長江流域棉區棉花加工過程中不同采樣點的棉花含雜率樣本中存在異常值的問題,采用SPSS統計分析軟件,繪制不同樣本的箱形圖,確定不同樣本中的異常值;通過比較剔除異常值前后的均值、標準差和Spearman偏度系數,分析了異常值對樣本均值和標準差的影響;通過分析長江流域棉區不同采樣點棉花含雜率樣本箱形圖,確定了不同加工設備對于棉花的清雜效果;結果確定長江流域棉區棉花加工后棉花含雜率樣本均值為1.585%,可以為修訂棉花含雜率國家標準提供數據支撐。
關鍵詞:棉花含雜率;箱形圖;K-S檢驗;Spearman偏度系數;長江流域棉區;異常值檢驗
中圖分類號:S-3;O212-1 文獻標識碼:A 文章編號:0439-8114(2016)11-2895-04
DOI:10.14088/j.cnki.issn0439-8114.2016.11.047
棉花含雜率檢驗是棉花質量檢驗的重要內容,棉花含雜率標準值是貿易中計算公定質量的關鍵指標之一。隨著棉花加工工藝的改進和加工設備進步、子棉預處理效率的提高、皮棉清理機的應用,棉花實際含雜率總體上有所變化。現行國家標準規定的棉花含雜率標準值已不能準確反映目前中國棉花實際含雜率的分布狀況[1-4]。為了推動國家標準后續修訂工作的開展,做好棉花標準含雜率設限調整的研究工作,以長江流域棉區棉花加工過程中不同取樣點的棉花含雜率作為調研對象,確定長江流域棉區棉花含雜率分布。
由于棉花含雜率調研涉及取樣、棉樣郵寄、棉樣測試、數據統計等諸多環節,取樣過程本身就具有隨機性,可能造成最終測試的樣本數據存在異常值現象。異常值的存在對不同取樣點的棉花含雜率分析結果準確性造成偏差,影響棉花含雜率調研結果的準確性。為了客觀、真實地反映長江流域棉區棉花含雜率的分布現狀,本研究采用箱形圖法判斷棉花含雜率樣本中異常值的存在情況,對于存在異常值的樣本,剔除異常值,分析異常值對樣本均值和標準差的影響,并確定長江流域棉區棉花加工過程中不同采樣點棉花含雜率的分布狀況。
1 箱形圖異常值檢驗
箱形圖也叫箱線圖,是檢驗樣本數據中異常值的常用方法,與格拉布斯法(Grubbs)、3σ法、Z分數法等不同,箱形圖法既可以用作服從正態分布樣本數據異常值判斷,也可以用作不服從正態分布樣本數據異常值判斷,適用范圍較廣[5]。
箱形圖的中心位置為中位數,箱子的長度表示四分位數的間距(IQR),兩端分別是上四分位數(Q3)和下四分位數(Q1),箱兩端的須為最大值和最小值。箱形圖法定義的異常值是指樣本數據中大于Q3+1.5IQR和小于Q1-1.5×IQR。其中Q3+1.5×IQR和Q1-1.5IQR為異常值截距線,Q3+3IQR和Q1-3IQR為極端值截距線,介于異常值截距線與極端值截距線之間的異常值叫溫和異常值,位于極端值截距線以外的異常值叫極端異常值[6-9]。箱形圖的結構見圖1。
異常值的處理原則針對極端異常值與溫和異常值是有所不同的。對于極端異常值,通常采用直接剔除的方法,而對于溫和異常值,通常有幾種處理方法[5],包括保留、剔除、替換(用非異常值替換異常值)、修正(在找到實際原因時修正異常值)。
由于長江流域棉區棉花含雜率調研為長江流域2個省3個棉花加工廠,棉樣一旦選取就無法改變,棉樣測試后,每個棉樣的異常含雜率無法測試修正。考慮調研數據的特殊性,本研究對異常值的處理采用剔除,以確保結果的準確性。
2 數據分析
2.1 子棉清理前棉花含雜率
子棉清理前棉花含雜率樣本容量348,樣本均值為3.307%,樣本中位數為3.307%,樣本標準差為0.923%。采用SPSS軟件繪制子棉清理前含雜率樣本的箱形圖(圖2),從圖2中可以看出,子棉清理前含雜率樣本中無異常值。
采用SPSS軟件對子棉清理前棉花含雜率樣本進行K-S檢驗,其檢驗結果P>0.05,表明子棉清理前含雜率樣本服從正態分布,計算子棉清理前棉花含雜率樣本的Spearman偏度系數=0,表明子棉清理前含雜率樣本呈標準正態分布。
2.2 子棉清理后棉花含雜率
子棉清理后棉花含雜率樣本容量348,樣本均值為2.834%,樣本中位數為2.982%,樣本標準差為0.790%。采用SPSS軟件繪制子棉清理后含雜率樣本的箱形圖(圖3)。從圖3中可以看出,子棉清理后含雜率樣本中存在6個異常值,且均小于正常樣本數據的最小值,異常值的存在會減小子棉清理后含雜率的樣本均值。在剔除異常值后,子棉清理后含雜率新樣本的樣本容量為342,樣本均值為2.876%,樣本中位數為2.998%,樣本標準差為0.730%。剔除異常值前、后棉花含雜率散點圖見圖4、圖5。從剔除異常值前后樣本的比較可知,剔除異常值后,樣本標準差減小了0.060%,樣本的離散程度有所降低,剔除異常值后的樣本數據更集中于樣本均值,從圖4和圖5比較亦可得出相同結論。
在剔除異常值前采用SPSS軟件計算子棉清理后含雜率,樣本的K-S檢驗結果P=0.019<0.05,樣本不服從正態分布,在剔除異常值之后,K-S檢驗結果P=0.025,雖然P有所增加,但P<0.05,新樣本仍然不服從正態分布。
2.3 皮棉清理前棉花含雜率
皮棉清理前棉花含雜率樣本容量348,樣本均值為3.209%,樣本中位數為3.204%,樣本標準差為0.799%。采用SPSS軟件繪制皮棉清理前棉花含雜率樣本的箱形圖(圖6)。從圖6可以看出,皮棉清理前棉花含雜率樣本中存在6個異常值,其中2個大于最大值,4個小于最小值。在剔除異常值后,皮棉清理后棉花含雜率樣本容量為342,樣本均值為3.221%,樣本中位數為3.225%,樣本標準差為0.754%。剔除異常值前、后棉花含雜率散點圖見圖7、圖8。
從剔除異常值前后樣本的描述統計量比較可知,剔除異常值后樣本標準差減小了0.045個百分點,樣本的離散程度有所降低,樣本更集中于樣本均值,從圖7和圖8比較也可以得出此結論。
在剔除異常值之前,采用SPSS軟件進行樣本的K-S檢驗,K-S檢驗結果P=0.54>0.05,樣本服從正態分布,樣本的Spearman偏度系數為0.019,樣本略呈正偏態分布,剔除異常值之后新樣本K-S檢驗結果P=0.82>0.05,服從正態分布,新樣本的Spearman偏度系數為-0.005,略呈負偏態分布,但|0.019|> |-0.005|,新樣本分布形態更接近于標準正態分布。
2.4 皮棉清理后棉花含雜率
皮棉清理后棉花含雜率樣本容量348,樣本均值為1.657%,樣本中位數為1.602%,樣本標準差為0.510%。采用SPSS軟件繪制皮棉清理后棉花含雜率樣本箱形圖(圖9)。從圖9中可以看出,皮棉清理后棉花含雜率樣本中存在26個異常值,異常值的存在影響皮棉清理后棉花含雜率的均值。在剔除異常值后,皮棉清理后棉花含雜率樣本容量為322,樣本均值為1.585%,樣本中位數為1.550%,樣本標準差為0.350%。剔除異常值前、后棉花含雜率散點圖見圖10、圖11。
從剔除異常值前后樣本的描述統計量比較可知,剔除異常值后,樣本標準差減小了0.160%,樣本的離散程度有所降低,剔除異常值后的樣本更集中于樣本均值。從圖10和圖11也可以看出剔除異常值后的棉花含雜率明顯集中于剔除異常值之前。
在剔除異常值之前,對皮棉清理后棉花含雜率樣本進行K-S檢驗,檢驗結果P<0.05,樣本不服從正態分布,而在剔除異常值之后,新樣本的K-S檢驗結果P=0.42>0.05,服從正態分布,新樣本Spearman偏度系數為0.3,表明新樣本分布形態呈正偏態分布。
2.5 長江流域棉區不同采樣點棉花含雜率分析
根據長江流域棉區不同采樣點棉花含雜率樣本數據,繪制棉花含雜率箱形圖(圖12)。從圖12中可以看出,隨著棉花加工設備的清雜作用,各個箱形圖的箱體大小呈逐漸減小的趨勢,在箱形圖中,箱體的大小反映了樣本的離散程度,因此,各個樣本的離散程度逐漸減小,樣本數據更集中于樣本均值;另外,從箱形圖還可以發現,通過子棉清理和皮棉清理作用,棉花含雜率均比清理前有所降低,皮棉清理后棉花含雜率降低幅度最大,表明在棉花加工過程中,皮棉清理的效果最明顯,在棉花含雜清理過程中起主要作用;對比子棉清理后和皮棉清理前棉花含雜率中位數可知,軋花后棉花含雜率中位數比軋花前棉花含雜率中位數要高,通過分析主要是由于在軋花過程中,軋花機鋸片高速旋轉,在棉纖維與棉子分離的同時產生了帶纖維子屑、破子等新的雜質,造成皮棉清理前棉花含雜率中位數高于子棉清理后棉花含雜率中位數。
3 結論
在研究長江流域棉區棉花含雜率分布現狀時,引入箱形圖分析方法,采用SPSS統計分析軟件,繪制不同采樣點棉花含雜率樣本的箱形圖,確定不同采樣點棉花含雜率樣本中異常值的存在狀況,針對存在異常值的樣本,在剔除異常值后統計新樣本的樣本均值、樣本中位數、樣本標準差和樣本K-S檢驗結果,通過與原樣本的描述性統計量進行比較,可知新樣本的樣本標準差均有不同程度的降低,樣本分布趨勢更集中于新的樣本均值;子棉清理后剔除異常值前后樣本的K-S檢驗結果P<0.05,表明子棉清理后樣本不服從正態分布,而皮棉清理后棉花含雜率樣本在剔除異常值之前K-S檢驗結果P<0.05,不服從正態分布,而剔除異常值之后,新樣本K-S檢驗結果P>0.05,表明剔除異常值之后,新樣本服從正態分布;通過對服從正態分布的樣本,比較樣本的Spearman偏度系數可知,樣本的Spearman偏度系數絕對值均有所減小,新樣本的分布更接近于正態分布。
通過長江流域棉區不同采樣點棉花含雜率箱形圖比較,確定在棉花加工過程中,皮棉清理作用對棉花含雜率的影響最大,棉花含雜率降低幅度最大,清雜效果最好;而在軋花過程中,由于受鋸齒軋花機工作原理決定,產生帶纖維子屑等新的雜質,造成軋花后棉花含雜率比軋花前棉花含雜率高的現象。
本研究確定長江流域棉區棉花加工后的棉花含雜率樣本均值為1.585%,Spearman偏度系數為0.3,基本接近正態分布。長江流域棉區棉花含雜率的確定,為制定棉花含雜率標準提供了數據支撐,為指導棉花加工提供了依據。
參考文獻:
[1] 馮志新,安浩平,吳順麗.基于RGB顏色模型棉花雜質檢驗算法[J].計算機與現代化,2013(4):99-102.
[2] 宋國軍.強化質量管理提高棉花效益——淺談機采棉提高入儲率途徑[J].中國棉花加工,2014(5):11-13.
[3] 鄭艷林.如何提高棉花雜質檢驗結果的準確性[J].中國棉花加工,2014(2):30-31.
[4] 謝新平.研究分析影響棉花(機采棉)清理加工質量的因素[J].中國棉花加工,2013(4):13-15.
[5] 孫向東,劉擁軍,陳雯雯,等.箱線圖法在動物衛生數據異常值檢驗中的運用[J].中國動物檢疫,2010(7):66-68.
[6] 時立文.SPSS19.0統計分析從入門到精通[M].北京:清華大學出版社,2012.
[7] 范修文,唐玉榮,蘭海鵬,等.成熟期庫爾勒香梨理化指標變化規律及相關性研究[J].農機化研究,2015(6):154-158.
[8] 劉文艷,龍潤生.SPSS在高等數學成績分析中的應用[J].數理醫藥學雜志,2009(3):319-322.
[9] 蒲 括,邵 朋.精通Excel數據統計與分析[M].北京:人民郵電出版社,2014.