劉睿智, 趙守香
( 北京工商大學(xué) 計算機與信息工程學(xué)院,北京 100048)
中國是最大的服裝生產(chǎn)國、銷售國和出口國,世界上每3件服裝就有1件來自中國。服裝是人們生活中的必需品,關(guān)系到其生活質(zhì)量。服裝號型對于服裝銷售至關(guān)重要,服裝號型對消費者各種身材和體型覆蓋率越大則越有利于產(chǎn)品的銷售。雖然我國出臺了相關(guān)的號型標(biāo)準(zhǔn),但都是推薦性標(biāo)準(zhǔn),生產(chǎn)企業(yè)在此基礎(chǔ)上建立了自己的號型結(jié)構(gòu)體系,并且不同地區(qū)、不同年齡的消費者身材體型不盡相同,需要生產(chǎn)企業(yè)深入調(diào)研設(shè)計號型標(biāo)準(zhǔn)。SPSS軟件是一款強大的數(shù)據(jù)分析軟件,利用它可以簡明、快速、準(zhǔn)確地確定號型分類及設(shè)置。文中以陜西地區(qū)男式上衣為研究對象,具體討論如何利用SPSS進行大數(shù)據(jù)分析,精確設(shè)計服裝號型。
樣本量的確定是數(shù)據(jù)統(tǒng)計的基礎(chǔ)。采集數(shù)據(jù)量過大會費時費力,數(shù)據(jù)量過小容易產(chǎn)生較大誤差,科學(xué)合理的樣本量對統(tǒng)計分析預(yù)測至關(guān)重要。采用簡單隨機抽樣方法,按下面公式進行計算:
式中:N為樣本容量;Z為置信水平下的統(tǒng)計量;S為總體標(biāo)準(zhǔn)差;d為允許誤差。成年人體各控制部位尺寸可接受的誤差和標(biāo)準(zhǔn)差見表1[1]。95%置信水平下Z統(tǒng)計量為1.96,選取最大的S/d值6.70,經(jīng)計算N為172。隨機抽取了172名成年男子并測量獲取到了他們的體型信息。

表1 人體各控制部位的數(shù)值
在數(shù)據(jù)采集過程中難免會出現(xiàn)偏差,造成數(shù)據(jù)的失真,因此需要對這些數(shù)據(jù)進行奇異值的檢查和處理,剔除一些異常數(shù)據(jù)以保證結(jié)果準(zhǔn)確。在進行統(tǒng)計分析時,許多分析方法要求數(shù)據(jù)符合某種概率分布,大多數(shù)方法要求符合正態(tài)分布,因此還需要進行正態(tài)分布檢驗。
檢查是否存在奇異值主要有兩種方法,分別是莖葉圖和箱圖,具體如圖1所示。莖葉圖可以看出奇異值的數(shù)量,箱圖可以找到奇異值的位置,文中將兩種方法組合運用,以增強數(shù)據(jù)的準(zhǔn)確性。在莖葉圖中,顯示了整體身高變量的頻數(shù)、莖和葉[2]。莖表示數(shù)值的整體部分,葉表示數(shù)值的小數(shù)部分,“≥186”表示身高變量數(shù)據(jù)中存在一個奇異值。從箱圖中可以看出,107號是奇異值,該奇異值是由于身高過高導(dǎo)致的,因此將107號樣本數(shù)據(jù)剔除。按照該方法對其他變量進行檢驗,將樣本中4個奇異值剔除,最終樣本數(shù)量為168個。


圖1 檢查奇異值的兩種方法Fig.1 Two ways to cheek singular values
正態(tài)分布檢驗常用的方法是P-P概率圖和Q-Q概率圖,其中P-P概率圖簡單直觀、便于判斷,因此文中采用該方法對身高變量進行正態(tài)分布檢驗,檢驗結(jié)果如圖2所示。由圖2可以看出,樣本數(shù)據(jù)大致聚集在一條直線上,可以認(rèn)定身高變量基本符合正態(tài)分布,且各點是無規(guī)則的即樣本是隨機的。同理可得,其他變量也基本遵循正態(tài)分布。

圖2 身高及身高去趨勢的正態(tài)P-P分布 Fig.2 Height and height trending normal P-P diagrom
文中選取最大值、最小值、平均值及標(biāo)準(zhǔn)差等具有代表性的指標(biāo)進行分析,分析結(jié)果見表2。

表2 變量統(tǒng)計性描述
由表2可以看出,陜西地區(qū)成年男子身高、體質(zhì)量、胸圍方差較大,表示個體在這些變量上存在著很大差異,其他變量差異性較小。
相關(guān)性分析是研究變量之間關(guān)系密切程度常用的方法之一。變量間的相關(guān)程度可以用相關(guān)系數(shù)衡量。相關(guān)系數(shù)用r表示,正態(tài)分布的等間隔測度變量x與y間的相關(guān)系數(shù)采用Pearson 積矩相關(guān)公式計算:

表3為各變量間相關(guān)系數(shù)矩陣。由表3可以得出:所有變量均呈正相關(guān)關(guān)系。其中,身高與體質(zhì)量、全臂長之間存在中度相關(guān)或高度相關(guān);胸圍與肩寬、后背長、頸圍存在中度相關(guān)或高度相關(guān);其他變量之間也存在中度相關(guān)及低度相關(guān)。相關(guān)性分析是進行回歸分析、建立回歸模型的重要依據(jù),相關(guān)性越強,線性回歸模型效果越好。

表3 變量間相關(guān)系數(shù)矩陣
因子分析的目的是從眾多變量中挑選出一個或幾個具有代表性的變量[3],因此因子分析的前提條件是變量之間存在較強的相關(guān)關(guān)系。在因子分析前需要檢驗變量間是否滿足較強相關(guān)關(guān)系,常用的檢驗方法有KMO檢驗和Bartlett球形度檢驗。KMO檢驗統(tǒng)計量用于比較變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo),計算公式為
式中:rij為變量xi和其他變量xj間的簡單相關(guān)系數(shù);pij為變量xi和其他變量xj間在控制剩余變量下的偏相關(guān)系數(shù)。KMO取值范圍在0~1之間,當(dāng)所有變量間簡單相關(guān)系數(shù)平方和大于偏相關(guān)系數(shù)平方和時,KMO接近于1,變量間的相關(guān)性強,適合進行因子分析。文中運用KMO和Bartlett球形度檢驗對樣本數(shù)據(jù)進行測試,具體結(jié)果見表4。Bartlett球形度檢驗的統(tǒng)計量根據(jù)相關(guān)系數(shù)矩陣的行列式計算得到,若變量觀測值較大且對應(yīng)的p值小于給定的顯著性水平α,認(rèn)為原有變量適合進行因子分析。由表4可以看出,KMO值為0.832,較接近于1,說明適合進行因子分析;同時,Bartlett球形度檢驗中顯著性接近于0,顯著性水平α為0.05,0小于顯著性水平α,適合進行因子分析。因此,兩種檢驗方法均證明變量間適合進行因子分析。

表4 KMO 和Bartlett檢驗結(jié)果
總方差解釋見表5。表5中初始特征值列反映了因子分析初始解的情況,第1個因子的特征值為4.531,解釋原有7個變量總方差的64.732%,累計方差貢獻率64.732%;第2個因子的特征值為1.509,解釋原有7個變量總方差的21.560%,累計方差貢獻率86.283%,其余數(shù)據(jù)含義類似,初始解中提取了7個因子,原有變量總方差均被解釋,累計方差貢獻率100%。提取載荷平方和列描述了因子解的情況,由于指定提取2個因子,它們共解釋了原有變量總方差的86.283%,整體上,原有變量信息丟失較少,因子分析效果較理想;旋轉(zhuǎn)載荷平方和列描述了最終因子解情況,因子旋轉(zhuǎn)后累計方差貢獻率沒有發(fā)生變化,但重新分配了各個因子解釋原有變量的方差,使得因子更易于解釋。

表5 總方差解釋
注:提取方法為主成分分析法。
圖3為因子分析碎石圖。

圖3 因子分析碎石圖Fig.3 Gravel map
由圖3可以看出,第1個因子的特征值很高,對解釋原有變量的貢獻最大;第3個因子以后的特征值都較小,對解釋原有變量的貢獻很小,因此提取兩個因子是合適的。
旋轉(zhuǎn)后的成分矩陣見表6。由表6可以看出,第1個因子主要解釋了總肩寬、胸圍、后背長和頸圍這幾個變量,身高、全臂長和體質(zhì)量主要由第2個因子解釋。
聚類分析是將樣本數(shù)據(jù)按照一定的規(guī)則進行分類,同類樣本具有較大的相似度,不同類樣本之間存在著較大差異。K-means均值聚類方法具有思想簡單、易于理解、容易實現(xiàn)、處理速度快、占用內(nèi)存少等優(yōu)點,適合大樣本聚類,分類效果較好[4],因此文中采用此方法對體型數(shù)據(jù)進行聚類分析。聚類分析的核心步驟是:確定聚類數(shù)目;確定初始類中心點;確定樣本點到中心點的歐氏距離,完成一次迭代過程;重新確定中心點并重復(fù)以上步驟,直至迭代終止。

表6 旋轉(zhuǎn)后的成分矩陣
注:提取方法為主成分分析法; 旋轉(zhuǎn)方法為凱撒正態(tài)化最大方差法;旋轉(zhuǎn)在 3 次迭代后已收斂。
通過體型的特征指標(biāo)確定聚類變量,特征指標(biāo)包括身體的不同部位,即身高、體質(zhì)量、胸圍等[5]。通過因子分析可知,在兩個因子中都存在著具有代表性的變量,通過計算因子中相關(guān)指數(shù),找出相關(guān)指數(shù)最大的變量作為控制變量即聚類變量,相關(guān)指數(shù)計算公式為
式中:i=1,2,…,m,m為所在類的指標(biāo)個數(shù);rij為相關(guān)系數(shù),i≠j,j=1,2,…,m。計算結(jié)果見表7。

表7 因子相關(guān)指數(shù)
將身高和胸圍作為聚類變量,按照K-means均值聚類方法對樣本數(shù)據(jù)進行分類。考慮到服裝生產(chǎn)的實際,服裝號型設(shè)置不宜過多,因此3~5類最為合理。經(jīng)過比較分析,發(fā)現(xiàn)聚類數(shù)為3時分類結(jié)果最清晰,效果最好,最終聚類中心見表8。由表8可以看出,不同類別個案數(shù)及所占比例中間多、兩邊較少,表明聚類結(jié)果合理。胸圍的聚類中心大致為86,93,99,身高為166,171,177,參考國家號型標(biāo)準(zhǔn)同時兼顧分析結(jié)果,將相鄰體型之間的胸圍差設(shè)置為4,身高差設(shè)置為5,結(jié)果清晰均勻。
表8 最終聚類中心
Tab.8 Final cluster center

項目聚類123胸圍85.992.698.8身高166.4170.6177.1個案數(shù)578922比例345313
將不同類別樣本數(shù)據(jù)分離出來,分別計算不同變量的平均值,作為中間體數(shù)值,具體結(jié)果見表9。中間體具有一定的代表性,反映了不同分類樣本的體型特點:M表示體型樣本身高較低,胸圍較小;N表示體型樣本頻率最大,表明此體型人數(shù)最多,體型中等;P為體型樣本身高較高,身材健壯[6]。為便于表示體型,將表8中1體型用M表示,2體型用N表示,3體型用P表示。如果按照表9中的數(shù)值進行服裝號型的推算,必然會帶來許多不便,因此需要對其進行圓整,圓整后結(jié)果見表10。
表9 平均值
Tab.9 Average value

項目MNP身高166.417170.587177.064體質(zhì)量59.06362.77369.573胸圍85.89592.55298.773頸圍38.07440.15341.586總肩寬43.97047.01349.586后背長41.50544.36846.341全臂長54.60255.84557.177
表10 圓整后平均值
Tab.10 Rounded average

項目MNP身高166171177體質(zhì)量596369胸圍869399頸圍384042總肩寬444750后背長424446全臂長555657
檔差的設(shè)置是為了便于號型的制定。檔差設(shè)置時,不僅要考慮顧客的舒適性,還要便于企業(yè)生產(chǎn),檔差設(shè)置太大不能滿足眾多的消費者需求,檔差設(shè)置太小則不利于生產(chǎn)者批量化生產(chǎn)。文中利用回歸方程設(shè)置各部位檔差。胸圍在第1個因子中具有代表性,因此其他變量用胸圍來描述,同理第2個因子用身高表示。在不同體型樣本中,分別建立身高與體質(zhì)量、全臂長的線性關(guān)系,胸圍與頸圍、總肩寬、后背長之間的線性關(guān)系[7]。身高用H表示,胸圍用B表示,線性關(guān)系見表11。

表11 線性回歸方程
首先設(shè)置身高和胸圍的檔差分別是5和4,將其代入不同部位的線性回歸方程可以得到相應(yīng)的檔差。為便于生產(chǎn),將3類體型不同檔差進行統(tǒng)一化,得到了最終確定的檔差,具體結(jié)果見表12。由表12可以看出,頸圍和總肩寬檔差大于國家標(biāo)準(zhǔn)中規(guī)定的數(shù)值(頸圍檔差為1,總肩寬為1.2),這充分體現(xiàn)了陜西男子的體型特征,身材中等,肩寬頸粗的特點,這與陜西男子的體型特征相一致。

表12 檔差設(shè)置
注:括號外為計算值,括號內(nèi)為采用值。
在計算不同號型具體數(shù)值時,首先要統(tǒng)計分析不同體型各部位的最大值和最小值,然后結(jié)合中間體、檔差、最大值、最小值和線性方程綜合考慮數(shù)值的設(shè)置。以體型N為例,首先統(tǒng)計各部位最大值和最小值,具體見表13;再按照中間體及檔差設(shè)置數(shù)值;最后根據(jù)最值和線性方程進行調(diào)整修正,最終號型劃分結(jié)果見表14[8]。同理,按照此步驟對M和P體型部位數(shù)值進行設(shè)置。

表13 N體型變量統(tǒng)計描述

表14 N體型下的號型設(shè)置
號型設(shè)置是否合理對于服裝生產(chǎn)和銷售至關(guān)重要。利用SPSS數(shù)據(jù)分析軟件并根據(jù)隨機樣本數(shù)據(jù)信息可以快速、準(zhǔn)確地構(gòu)建服裝號型體系,方便生產(chǎn)企業(yè)根據(jù)不同地域、不同年齡的目標(biāo)客戶建立合理的號型標(biāo)準(zhǔn)[9]。利用陜西地區(qū)男子身材體型數(shù)據(jù)信息,結(jié)合SPSS數(shù)據(jù)分析工具,劃分了N,M,P 3種體型,并在每種體型下設(shè)置了相關(guān)號型及不同號型的數(shù)據(jù)特征,為服裝設(shè)計及生產(chǎn)提供參考與借鑒。