王 越,黃靖華
(重慶理工大學計算機科學與工程學院,重慶 400054)
我國是個養(yǎng)豬大國,2006年全國生豬出欄6.81億頭,全國生豬存欄50 877萬頭,豬肉產(chǎn)量5 197.2萬t。信息科學技術(shù)的快速發(fā)展正在對過去傳統(tǒng)的牲畜養(yǎng)殖方式帶來深刻的影響,養(yǎng)豬生產(chǎn)規(guī)模化、集約化程度的不斷提高。隨著人們對豬肉產(chǎn)品質(zhì)量和數(shù)量需求大大提高,對出欄豬的一致性的要求更加精確。
在由屠宰場定價系統(tǒng)中,送宰的肥育豬在體重上越一致,定價就越高。與傳統(tǒng)的目測體重方式相比,精確化飼養(yǎng)技術(shù)可以自動收集各豬只在飼養(yǎng)狀態(tài)下的各種大量數(shù)據(jù)[1]。本文根據(jù)精確化養(yǎng)豬業(yè)中的初始重量、結(jié)束重量、實驗期間增重等7個數(shù)量性資料,應(yīng)用模糊聚類分析方法進行聚類,對飼養(yǎng)狀態(tài)豬只進行了階段劃分和鑒定,以方便分階段飼養(yǎng)和篩選出體重更接近最佳屠宰重量的出欄豬。
聚類分析是多元統(tǒng)計分析的一種,也是非監(jiān)督模式識別的一個重要分支。它把一個沒有類別標記的樣本集按某種準則劃分成若干子集(類),使相似的樣本盡可能地歸為一類,而不相似的樣本盡量劃分到不同類別中[2-3]。傳統(tǒng)的聚類分析是一種硬劃分,它把每個待辨識的對象嚴格地劃分到不同的類中,具有非此即彼的性質(zhì),因此這種類別劃分的界限是分明的。而實際上大多數(shù)對象并沒有嚴格的屬性,它們在性態(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進行軟劃分。由于模糊聚類得到了樣本屬于各個類別的不確定性程度,表達了樣本類屬的中介性,即建立起了樣本對于類別的不確定性描述,更能客觀地反映現(xiàn)實世界,從而成為聚類分析研究的主流[4-8]。
模糊聚類分析是用數(shù)學方法確定研究對象的親屬關(guān)系和相似性,從而客觀地對研究對象進行分型劃類,具有較強的分辨率和廣泛的代表性。目前,應(yīng)用最為廣泛的模糊聚類分析方法從理論上來說主要有2類:第1類是基于模糊等價關(guān)系的動態(tài)聚類方法,又稱為系統(tǒng)聚類法;第2類是基于模糊劃分的模糊迭代自組織數(shù)據(jù)分析法(ISODATA)方法,又稱為逐步聚類法。這2種方法在許多領(lǐng)域都得到了廣泛應(yīng)用。
本文主要使用基于等價關(guān)系的模糊聚類分析方法,其優(yōu)點是:一次形成分類,區(qū)分力強;一旦得出模糊等價矩陣,便可用不同的λ值去截而得到一系列不同的聚類,不需重新進行計算;比較直觀,不需人工挑選。基于等價關(guān)系模糊聚類分析的實際聚類過程可按下列6個步驟進行[9-13]:
1)建立數(shù)據(jù)矩陣
建立樣本特性指標矩陣,應(yīng)用聚類分析對樣品進行分析,其效果的好壞關(guān)鍵在于選擇合理的樣品和聚類因子。選擇的樣品必須有代表性和比較性,能較客觀地反映自然分布和變化規(guī)律。設(shè)聚類對象的全體集合 X={x1,x2,…,xn},為了使分類效果科學合理,首先要選取具有實際意義且有較強分辨性和代表性的統(tǒng)計指標。現(xiàn)假設(shè)X中每一個對象又含有m個指標表示其性狀:

于是,可得到原始數(shù)據(jù)矩陣為

2)樣本的特征指標標準化
為了便于分析比較,首先必須消除各個樣品不同變量量綱不同的影響,利用公式:

對原始數(shù)據(jù)進行標準化處理。式中:xik為第i個樣品第k個因子的值為第k個因子序列的均值;σk為第k個因子的均方差。經(jīng)標準化處理后的新序列x'ik,其均值為0,方差為1。再利用公式


對數(shù)據(jù)進行歸一化處理,使得 x″ik∈[0,1]。
3)建立模糊相似矩陣
建立模糊相似矩陣又稱為標定,即標出衡量被分類對象之間相似程度的統(tǒng)計量rij(i=1,2,…,n;j=1,2……,n)。設(shè)論域 X={x1,x2,x3,…,xn}xi={xi1,xi2,xi3,…,xim},根據(jù)傳統(tǒng)聚類方法確定相似系數(shù),建立模糊相似矩陣,xi與xj的相似程度rij=R(xi,xj)。采用傳統(tǒng)聚類分析的相似系數(shù)法、距離法及其他方法確定rij=R(xi,xj)。rij的計算方法很多,有夾角余弦法、數(shù)量積法、相關(guān)系數(shù)法、指數(shù)相似系數(shù)法、最大最小法等,實際應(yīng)用中需根據(jù)問題的性質(zhì)確定具體的計算方法。本文采用夾角余弦法。
相似系數(shù)法的夾角余弦法公式為

式中:i,j=1~n為數(shù)據(jù)矩陣的行;k=1~m為每行數(shù)據(jù)的列數(shù)。
4)構(gòu)造模糊等價矩陣
利用模糊等價矩陣可對論域進行等價劃分,滿足聚類分析的需要。然而,在通常情況下,由標定過程構(gòu)造出的模糊關(guān)系僅僅能滿足自反性和對稱性,而不滿足傳遞性,因此生成的只是一個模糊相似矩陣R,而不是模糊等價矩陣,所以為了分類需要,還需在模糊相似矩陣的基礎(chǔ)上生成一個模糊等價矩陣,最直接的方法就是求模糊相似矩陣R的傳遞閉包t(R):

經(jīng)有限次運算后,一定有 R2k=R2k+1,于是t(R)=R2k。
5)聚類
構(gòu)造模糊等價矩陣后就可以按R的λ截關(guān)系對其進行聚類(不同λ截矩陣的分類結(jié)果不同,其實際意義和經(jīng)濟意義也不同),從中判斷出與實際最接近的分類方案。按等價矩陣R進行聚類的方法為

6)通過統(tǒng)計量F找出最佳分類
設(shè) X={x1,x2,…,xn}為待分類事物的全體,xj=(xj1,xj2,…,xjm),其中 xjk為性狀 xj的第 k 個特征的數(shù)據(jù),k=(1,2,…,m)。設(shè)r為對應(yīng)于λ值的類數(shù)為第i類元素的個數(shù);記為第i類元素的第k個特征的平均值;記為全體樣品第k個特征的平均值。引入F統(tǒng)計量

本研究以精確化養(yǎng)豬業(yè)為例。
1)試驗動物:飼喂站中按照體重相近原則隨機選取10頭豬。
2)試驗日糧:試驗日糧為玉米-豆粕型,均為粉料。基礎(chǔ)日糧組成及營養(yǎng)水平見表1。

表1 基礎(chǔ)日糧組成及營養(yǎng)水平
3)飼養(yǎng)管理:按照試驗豬場管理程序正常管理,試驗豬自由采食和飲水,每天定時清圈。
4)檢測指標:分別于試驗期第一天和出售前一天早晨空腹稱個體重量,以處理為單位記錄耗料量。計算平均日增重、日采食量以及料肉比。
5)統(tǒng)計分析:全部數(shù)據(jù)輸入計算機,用自動喂食系統(tǒng)軟件對數(shù)據(jù)進行統(tǒng)計分析,見圖1。
6)試驗時間:2009年9月18日至2009年11月23日。
7)試驗豬場:重慶市某豬場(存欄豬2 200頭,出口牲豬基地)。
通過三層智能體系和三個技術(shù)平臺,結(jié)合感知、計算、通信、控制等信息技術(shù)與設(shè)計、工藝、生產(chǎn)、裝備等工業(yè)技術(shù)融合,打造屬于貴溪冶煉廠的生產(chǎn)制造全過程、全產(chǎn)業(yè)鏈、產(chǎn)品全生命周期智能化工廠。

圖1 數(shù)據(jù)分析界面
1)原始數(shù)據(jù)
根據(jù)實驗?zāi)繕耍x擇主要聚類因子有初始重量、結(jié)束重量、試驗期間增重、日均采食量、日均增重量、日均增重量、飼料報酬、采食次數(shù)等。選某豬場仔豬的原始生產(chǎn)記錄待分析,原始數(shù)據(jù)見表2。

表2 某豬場仔豬的原始生產(chǎn)記錄
2)數(shù)據(jù)標準化
采用最大最小值規(guī)范法將表2數(shù)據(jù)矩陣標準化后得到模糊數(shù)集

3)建立模糊相似矩陣
采用相似系數(shù)法中的夾角余弦法將模糊數(shù)集轉(zhuǎn)換成模糊相似矩陣:

4)構(gòu)造模糊等價矩陣
采用平方法求R的傳遞閉t(R):

5)綜合性狀模糊聚類結(jié)果
令λ從1變到0,得到動態(tài)聚類圖(圖2)。

圖2 動態(tài)聚類圖
6)結(jié)果分析
由圖2可知:
當0.992 87 < λ≤1 時,分類為{4,7},{1},{2},{10},{8},{9},{5},{3},{6},此時 F -Fα=7.2。
當0.992 21 < λ≤0.992 87 時,分類為{4,7},{8,9},{10},{1},{2},{5},{3},{6},此時 F -Fα=21.2。
當0.987 75<λ≤0.992 21 時,分類為{4,7,10},{8,9},{2},{5},{3}{6},此時 F - Fα=23.6。
當0.983 55<λ≤0.987 75 時,分類為{4,7,10,8,9},{2},{5},{1},{3},{6},此時 F - Fα=19.7。
當0.980 17<λ≤0.983 55 時,分類為{4,7,10,8,9,2},{5},{1},{3},{6},此時 F - Fα=16.6。
當0.975 43<λ≤0.980 17 時,分類為{4,7,10,8,9,2,5},{1},{3},{6},此時 F -Fα=14.6。
當0.877 25<λ≤0.975 43 時,分類為{4,7,10,8,9,2,5,1},{3},{6},此時 F - Fα=7.3。
當0.835 13 <λ≤0.877 25 時,分類為{4,7,10,8,9,2,5,1,3},{6},此時 F -Fα=6.9。
因此,當λ=0.987 75的時候為6類,即為最佳分類,即 {4,7,10},{8,9},{2},{5},{3}{6}。從實際的出欄情況上看,這樣的分類也是比較合理的,豬只4、7、10在生產(chǎn)性能、外形、重量上面都是相近的,可以滿足養(yǎng)殖者去生豬出欄一致性的需求。
聚類分析是應(yīng)用多元統(tǒng)計分析原理研究分類問題的一種數(shù)學方法,并已應(yīng)用于豬養(yǎng)殖業(yè)中。
本文使用模糊聚類,依據(jù)精確化養(yǎng)豬業(yè)中的初始重量、結(jié)束重量、實驗期間增重、日均采食量、日均增重量、日均增重量、飼料報酬、采食次數(shù)等7個數(shù)量性資料,對飼養(yǎng)狀態(tài)豬只進行了階段劃分和鑒定,得到豬只在重量上的綜合相似程度和差異大小。該研究結(jié)果是客觀的數(shù)值分類,為解決分類飼養(yǎng)豬只及確定出欄的實際問題提供了一種科學的可供選擇的方法。
基于數(shù)據(jù)挖掘的模糊聚類在農(nóng)業(yè)中的應(yīng)用還處于起步階段,目前只取得了初步成果,其中還有大量的理論與方法需要深入研究。另外,農(nóng)業(yè)領(lǐng)域中往往存在一些半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)形式,如文本、圖形、數(shù)學公式、圖像或www資源,而目前的數(shù)據(jù)挖掘工具一般只能對數(shù)值型結(jié)構(gòu)的數(shù)據(jù)進行處理,因此數(shù)據(jù)輸入形式的多樣化是廣泛應(yīng)用數(shù)據(jù)挖掘工具亟待解決的問題。
[1]精確化飼養(yǎng)技術(shù)在現(xiàn)代養(yǎng)豬業(yè)中的應(yīng)用[EB/OL].[2010 - 12 - 11].http://www.feedtrade.com.cn/technology/raise/20110321101055.html.
[2]吳信子,王思宏,吳麗花.不同鹿茸片紅外數(shù)據(jù)的聚類分析[J].安徽農(nóng)業(yè)科學,2010,38(25):20123-20124.
[3]許藹飛,黃世杰,蔣宏霖.程度相似度結(jié)束聚類分析評價煙用香精質(zhì)量[J].安徽農(nóng)業(yè)科學,2010,38(21):11120-11121.
[4]張林林,周毅,周瑞有,等.對空目標射擊有利度模糊聚類分析[J].四川兵工學報,2010,31(12):146-146.
[5]楊軍,鞏玨,鄧文兵.火炮射擊精度的模糊等價關(guān)系聚類分析[J].四川兵工學報,2010,31(1):28 -29.
[6]呂佳.基于動態(tài)隧道系統(tǒng)的K-Means聚類算法研究[J].重慶師范大學學報:自然科學版,2009(1):26-39.
[7]路彬彬,賈振紅,何迪,等.基于新的遺傳算法的模糊C均值聚類用于遙感圖像分割[J].激光雜志,2010(6):15-17.
[8]蔡燕柳,賈振紅.基于模糊C均值聚類與空間信息相結(jié)合的圖像分割新算法[J].激光雜志,2009(2):49-50.
[9]MEHMEDKANTARDZIC.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,陳茵,程雁,等,譯.北京:清華大學出版社,2003.
[10]劉志宇,韓雪娜,宋妍.模糊聚類分析在農(nóng)作物新品種鑒定系統(tǒng)中的應(yīng)用[J].安徽農(nóng)業(yè)科學,2010,38(9):4417-4418.
[11]馮敏山,高山林,孫學文,等.聚類分析在中國地方豬種分類中的應(yīng)用[J].邯鄲農(nóng)業(yè)高等專科學校學報,2003,20(1):11 -14.
[12][加]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2006.
[13]高新波.模糊聚類分析及其應(yīng)用[M].西安:西安電子科技大學出版社,2004.