999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類樹模型在煙草農業研究中的應用

2012-07-31 07:22:28侯小東杜詠梅劉新民
中國煙草科學 2012年5期
關鍵詞:分類分析模型

侯小東,杜詠梅,劉新民*,程 森

(1.中國農業科學院煙草研究所,青島 266101;2.上海煙草集團有限責任公司,上海 200082)

現代煙草農業研究過程中,為探索變量之間的聯系,常需要進行變量篩選、模型預測和主因素的探索,采用的方法多為多元線性回歸、logistic回歸或者非線性回歸等參數檢驗方法。參數檢驗方法要求嚴格,使用時需要進行適用條件的判斷,不同程度地降低了其分析效能。分類樹模型作為一種新興的數據挖掘分析工具是將大量數據有目的地分類,從中找到一些潛在的、對決策有價值的信息[1],適用條件寬泛,能彌補一些常規參數檢驗方法的不足。目前分類樹模型在農業研究中的應用很少,其功用還不為大家熟悉。本研究通過具體的實例介紹分類樹模型的統計思路及主因素篩選和模型預測的方法。

1 數據基本特征

1.1 數據基本統計量

數據來源于曲靖市ESTB項目中部煙葉鈣和對應土壤有效鈣和有效鎂測定的結果。

數據的基本特征和各個變量的分布變化規律對分析方法選擇非常重要,基本統計量包括均數、標準差、標準誤、最小值、最大值、偏度系數和峰度系數。均數是描述數據的集中趨勢統計量,標準差描述數據的離散趨勢統計量,最大值和最小值反應數據的變化范圍,偏度系數描述某變量取值分布對稱性的統計量、峰度系數是描述某變量所有取值分布形態陡緩程度的統計量。均數決定曲線在橫軸上的位置,標準差決定曲線的高度,峰度是反映曲線的陡峭程度,偏度是反映曲線的偏度。一般來說,偏度系數和標準誤比值絕對值小于1.96,且峰度系數和其標準誤比值絕對值小于1.96時,變量是為正態分布,否則就為偏態分布。如表1所示本例中煙葉鈣、有效鈣和有效鎂3個變量都服從偏態分布。

表1 數據基本統計量Table 1 Basic statistics of data

1.2 數據的頻數分布規律

數據的頻數分布圖可以較好反映數據分布情況,顯示每個變量在不同組間距的頻數,在組距相等的情況柱形的高度與相應組段的頻率成正比,清晰直觀反映數據的分布。通過圖1~3概率密度曲線觀察有效鈣和有效鎂不服從正態分布。

1.3 變量間依存關系

變量間常存在不確定的依存關系,關系形態決定著分析方法,散點圖可以直觀的表現變量間關系,為選擇分析方法提供依據。從煙葉鈣與有效鈣、有效鎂的散點圖(圖4)來看,沒有明顯的直線性或者曲線趨勢。

圖1 煙葉鈣頻數分布圖Fig.1 Frequency distribution of tobacco calcium

圖2 土壤有效鈣頻數分布圖Fig.2 Frequency distribution of soil available calcium

圖3 土壤有效鎂頻數分布圖Fig.3 Frequency distribution of soil available magnesium

圖4 煙葉鈣、有效鈣和有效鎂散點圖Fig.4 The 3-D scatter plot

2 分析方法選擇

數據基本特征是選擇分析方法的基礎,通常分析此例一類的數據,常用多元線性回歸。多元線性回歸有一定適用條件(1)自變量與因變量存在線性關系。(2)獨立性:應變量的取值要相互獨立。(3)正態性:就自變量的任何一個線性組合,應變量均服從正態分布。(4)方差齊性:就自變量的任何一個線性組合,應變量的方差均相同,就是要求殘差的方差齊[2]。本例變量不服從正態分布,變量間不存在線性關系,不適合多元線性回歸。而分類樹模型不需要特別的適用條件,可以探索煙葉鈣的主要影響因素,確定自變量對應變量作用的拐點,最終達到數據分析的目的。

3 分類樹模型分析

分類樹模型中連續性的變量可根據模型的設定平均分成個數相同幾個組,然后再尋找最佳的分界點。也可以先分成等距的幾組,再用模型進行擬合分析,連續變量分組一般均采用等距分組方法。步驟如下:

3.1 有效鈣和有效鎂分組

1.步驟:Transform—Visual Binning—選擇“有效鈣”和“有效鎂”入Variables to bin—Continue。

2.在 Value框里分別添加 100、200、400、600mg/kg,圖5中的頻數分布圖中會出現4條豎線,把有效鎂分成5組。在Binned Variable 中輸入“有效鎂組別”定義分組的組別名稱,點擊“OK”。SPSS原始數據的界面上出現新的一列“有效鎂組別”。此時有效鎂以100、200、400、600 mg/kg為界點分割成5組。

3.有效鈣按照上述方法分組,分界點分別設為800、1200、2000、3000 mg/kg。

4.土壤有效鎂和有效鈣分組完成。

圖5 SPSS等距分組Fig.5 SPSS equidistant groups

3.2 分類樹模型分析操作

1.Analyze-Classify-Tree。

2.“煙葉鈣”選為應變量,“有效鈣組”和“有效鎂組”選入自變量,Growing Method選擇為“Ehaustive CHAID”。

3.分類樹對話框中點擊criteria(圖6所示)可以通過設定父節點(Parent Node)和子節點(Child Node)的最小數量來限制樹的生長。

4.設置后點擊“OK”。

圖6 分類樹模型分析操作Fig.6 Classification tree model analysis and operation

由如圖7所示,位于主干的有效鈣是影響煙葉鈣的主要因素。按照3.1分組的情況有效鈣對煙葉鈣影響的拐點分別為1200、2000、3000 mg/kg,以拐點為分界的煙葉鈣均值分別為 1.89%、2.06%、2.15%、2.34%。煙葉鈣隨著土壤有效鈣含量增加呈增大的趨勢。分類樹模型對煙葉鈣按照有效鈣分組后將繼續按次要因素(有效鎂)分組細化。對不同的有效鈣范圍的煙葉鈣,有效鎂的拐點不全相同,總體的趨勢是在各個范圍隨著土壤有效鎂的增加煙葉鈣的含量呈減小的趨勢。分類樹模型還有一個非常重要的作用,可以明確有效鈣和有效鎂對煙葉鈣的綜合作用。當土壤有效鈣大于3000 mg/kg且有效鎂小于200 mg/kg時,煙葉鈣的含量均值最高達到2.61%;當有效鈣大于1200 mg/kg小于等于2000 mg/kg且有效鎂大于400 mg/kg時,煙葉鈣的含量均值最低為1.74%,通過此方法探索有效鈣和有效鎂對煙葉鈣影響的最佳組合。在分類樹模型中Exhaustive CHAID法會對所有的分組間進行檢驗并合并相鄰的組直至只剩下兩個,然后比較這一系列的合并,并找出最佳的合并組合。從而找到最佳拆分點。在分類樹分析中,目標變量是按照統計檢驗所得的p值大小依次拆分,位于主要枝干的解釋變量對目標變量影響較大,隨著分枝的細化影響逐漸減小。

圖7 分類樹分析結果圖Fig.7 Classification tree analysis diagram

4 討 論

在進行數據分析時,數據類型常不符合傳統參數檢驗分析方法的要求,盲目的分析會使結果產生偏差或錯誤。本例中3組數據為連續性變量,分布為非正態分布,沒有明顯的線性趨勢,傳統的多元線性回歸方程的擬合效果不好,其他的方法如非線性回歸則需要豐富的專業知識和經驗。而分類樹模型操作簡單適用范圍廣泛,其原理是利用二叉樹結構進行數據的非參數統計,生成一個層次多,葉節點多的樹,按廣度優先建立直到每個葉節點包含相同的類為止,以充分反映數據之間的聯系。應用者可以根據實際情況對樹進行剪枝刪減,產生一系列子樹,參照一定的規則從中進行選擇適當大小的樹,在初始建樹的過程中盡可能地將同質的樣本歸于相同的結點,由分割規則集合反映出樣本指標結構間的關系,同時控制最大樹的規模,提高運算效率,相應地減少下一步刪減最大樹的復雜度。分類樹模型對資料的類型和分布沒有嚴格的限定,在分析過程中不受變量間所存在的共線性影響,最終以樹形圖的方式展現其分析過程以及多水平變量間的負載的相互關系[3]。此例中可以直觀展現土壤鈣和鎂與煙葉鈣關系,并確定影響煙葉鈣的主因素。

分類樹模型也有一定的局限性,分類樹模型必須在樣本量較大的情況下,才較穩定;解釋變量較多時,分類樹的層數和葉結點較多,可讀性較差,不易理解;當對樹節點進行精簡時,可能會造成信息的丟失和預測效果的改變[4-5]。因此,在應用過程中要結合實際采用合適的方法才能達到較好的效果。

[1]張悅.基于分類樹數據挖掘的分析與應用[J].遼寧石油化工大學學報,2007,27(1):78-80.

[2]張文彤.SPSS 11 統計分析教程(高級篇)[M].北京:北京希望電子出版社,2002:6,66-68.

[3]姜明輝,王歡,王雅林.分類樹在個人信用評估中的應用[J].商業研究,2003(21):86-88.

[4]傅傳喜,馬文軍,梁建華,等.高血壓危險因素logistic回歸與分類樹分析[J].疾病控制雜志,2006,10(3):256-259.

[5]張永晶,陳坤,金明娟,等.應用分類樹模型篩選惡性腫瘤危險因素的研究[J].中華流行病學雜志,2006,27(6):540-543.

猜你喜歡
分類分析模型
一半模型
分類算一算
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據分析中的分類討論
教你一招:數的分類
電力系統及其自動化發展趨勢分析
主站蜘蛛池模板: 国产一二三区视频| 日本成人一区| 国产网站黄| 亚洲高清日韩heyzo| 欧美视频在线不卡| 国产一级在线播放| 青草精品视频| 啪啪免费视频一区二区| 小说区 亚洲 自拍 另类| 午夜福利无码一区二区| 久久 午夜福利 张柏芝| 91福利在线观看视频| 亚洲熟女偷拍| 欧美综合在线观看| av一区二区三区高清久久| 国产白浆视频| 老司机久久99久久精品播放| 色噜噜在线观看| 噜噜噜久久| 欧美第九页| 色妺妺在线视频喷水| 成年人午夜免费视频| 午夜精品久久久久久久99热下载| 伊人丁香五月天久久综合| 亚洲日韩图片专区第1页| 欧美色99| 成人蜜桃网| 精品久久人人爽人人玩人人妻| 精品日韩亚洲欧美高清a| 99在线免费播放| 国产超薄肉色丝袜网站| 91黄色在线观看| 国产精品成人久久| 日韩精品无码免费专网站| 亚洲无码精品在线播放 | 福利小视频在线播放| 91精品国产一区自在线拍| 欧美一区二区三区欧美日韩亚洲| 成人毛片免费观看| 亚洲天堂免费在线视频| 9丨情侣偷在线精品国产| 欧美性久久久久| 国产精品网址在线观看你懂的| 国产精品思思热在线| 亚洲日韩精品综合在线一区二区 | 欧洲亚洲欧美国产日本高清| 天天色天天操综合网| 91高清在线视频| 色婷婷在线影院| 综合五月天网| 欧美色视频日本| 一区二区三区成人| 在线国产毛片手机小视频| 亚洲欧洲天堂色AV| 97综合久久| 国产精品分类视频分类一区| 免费毛片视频| 999国内精品久久免费视频| 最新亚洲人成网站在线观看| 亚洲三级影院| 伦精品一区二区三区视频| 国产精品女熟高潮视频| 女同久久精品国产99国| 国产成人亚洲精品无码电影| 伊人91在线| 国产人免费人成免费视频| 欧美激情视频在线观看一区| 亚洲最大福利网站| 人妻91无码色偷偷色噜噜噜| 无码日韩视频| 成AV人片一区二区三区久久| 亚洲中文字幕日产无码2021| 亚洲成a人片7777| 国产无码制服丝袜| 欧美成人区| 亚洲系列无码专区偷窥无码| 国产又大又粗又猛又爽的视频| 国产视频一二三区| 91无码人妻精品一区| 激情亚洲天堂| 97se亚洲综合| 国产永久免费视频m3u8|