999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在蔗糖生產中的應用

2007-01-01 00:00:00
現代管理科學 2007年6期

摘要:數據挖掘是信息管理領域一項重要技術。文章把數據挖掘技術應用于農業中的蔗糖生產過程,如預測分析技術在估產中的應用、序列分析技術在種植技術上的應用以及聚類分析技術在收割管理中的應用等方面。在蔗糖生產中企業最關心的收割管理需要聚類分析的結果,合理的收割能夠減少糖分增長不足和回糖帶來的損失,聚類結果有利于企業作為確定收割次序的依據;并通過優化收割提高經濟效益。

關鍵詞:數據挖掘;預測分析;序列分析;聚類分析;蔗糖生產

一、 數據挖掘與蔗糖生產

數據挖掘是一個包括數據庫技術、人工智能、機器學習、神經網絡、統計學、模式識別、知識庫系統、知識獲取、信息檢索、高性能計算和數據可視化等多學科領域交叉的產物,是一個專門面向海量數據并從中提取信息和知識的新領域。數據挖掘是運用一系列數據分析工具,發現蘊藏在雜亂無章的海量數據中的模式和這些數據間的聯系,如規則、約束、規律等等。數據挖掘的任務就是發現隱藏在數據中的知識、模式。

在農作物生產中應用數據挖掘技術存在一定的難度,如數據的采集和數據精度。但蔗糖生產的一些特殊性,使之具備應用數據挖掘技術的優勢。主要表現在:

1. 特殊的經濟作物。甘蔗的種植是農業行為,甘蔗的壓榨制糖在榨糖企業的流水線中完成。蔗糖生產中工業與農業結合的特殊性使之比其他作物更具有應用數據挖掘的優勢。

2. 具備工業生產的優勢。蔗糖的提煉工序由工業企業完成,工業企業在資金、技術等方面具有優勢,有較強的新技術應用推廣的意識和能力,擁有遍布蔗區的蔗站,能夠帶動甘蔗種植方面的革新。

3. 具備農業種植的優勢。甘蔗的種植存在國營農場和蔗農兩種情況。國營農場具有較充足的資金、技術,應用新技術的難度低于普通農戶;蔗農的組織性較強。與耕種其他作物農戶不同的是,企業由于管理的需要建立蔗站,通過蔗站將蔗農組織成整體,作為原料蔗砍收、資金、技術分配的依據。

4. 新設備新技術的采用為數據挖掘提供數據條件。榨糖企業應用“按質論價”體系時,選用了一系列的新設備新技術,使得蔗糖生產的現代化程度大大提高。原料蔗進廠時的糖分數據已由以前的抽檢上升到每車檢測,由此也帶來了大量的數據。

二、 數據挖掘在蔗糖生產中的應用

1. 回歸分析研究原料蔗糖分波動模型。根據數據方程描述,現有文獻可查的糖分積累預測模型可分為兩種:

(1)二次曲線模型。張木清等人通過檢測錘度(蔗莖蔗汁固溶物占蔗汁重量的百分比值,近似地表示蔗莖蔗糖份),對春植甘蔗糖份積累進行研究,并得出結論:甘蔗糖份的累積用二次曲線模擬最佳,模擬結果回歸方差最小,決定系數最大。其數學模型方程如下:

y=ax2+bx+c

式中:y為糖份含量值,x為時間變量,a、b、c為待定系數。

(2)分段Logistic曲線模型。另有符合、吳全衍等人根據廣西13家糖廠歷年甘蔗糖份資料,提出蔗糖份動態變化過程的模型:

式中:SCmax為蔗糖份含量上限值,a、b、c、P、q為常數,t為時間變量,th為曲線上升與下降的轉折時間。

從研究對象來看,二次曲線模型是在實驗田里進行研究所得出的結論,分段Logistic曲線模型是基于跨度較大的多家糖廠的數據進行分析。事實上,由于蔗區特定的地理、土壤、品種、管理技術等因素存在差異,尤其是有些地方甘蔗砍收持續較長時間,出現了糖分持續較高的峰值段,上述兩種理想模型都無法適用;這就需要探討企業生產中所面臨的糖分波動模型。經過對原料蔗進廠時的糖分數據進行回歸分析,得出適于企業生產的復合Logistic曲線模型:

式中:y為糖份含量值,x為時間變量,a、b、c、e、d、f為待定系數。

該模型是糖分積累與消耗的復合,能夠從植物種群層面解釋蔗區存在的峰值段現象。當種群較小時,曲線的形狀與上述兩種模型比較接近。

2. 預測分析技術在估產中的應用。估產是為了合理安排榨季,盡量避免甘蔗沒有足夠成熟就進行收割和已經出現嚴重回糖才進行收割的工作。其是蔗糖生產中的一個重要過程,是由榨糖企業帶領種蔗單位、蔗站、蔗農等對蔗區的甘蔗進行全面的調查,檢測成熟度,估算甘蔗總產量,進一步根據企業的日生產能力確定開榨時間。

預測分析技術是利用現有信息,對未來的趨勢進行預測。甘蔗估產的預測分析主要是利用植物生長、糖分積累、氣象預報數據等,結合蔗糖分積累的模型,對整個榨季的產量進行預測。建立在糖分數據挖掘上的預測分析主要表現在:

(1)從估算提升到預測分析,更科學合理。基于充足的糖分數據,產量預測的精度更高,甘蔗開榨的時間確定更科學。根據從歷年數據分析,將傳統估產方式確定的開榨日期適當調整,整個榨季的總糖分產量可提高近1個百分點。

(2)實現配合收割計劃估產。從企業的角度來看,蔗糖價格存在有規律的變化,傳統的估產方式不能滿足企業根據價格變化調整砍蔗進度的需要。利用數據挖掘技術結合糖分積累的數學模型進行預測分析,可以由傳統的總產量估產,擴展到根據不同的收割計劃進行預測。

3. 序列分析技術在種植技術上的應用。時序數據是指由隨時間而變化的序列值或事件組成的數據。它們的值通常是在一定的時間間隔后測得的數據。時序數據的情況很普遍,如股票市場的每日波動,動態產品加工過程,科學實驗,醫療,等等。與之相似的序列數據,它是指由有序事件序列組成的數據,它可以有時間標記,也可以沒有。例如,web頁面遍歷序列是一種序列數據,但可能不是時序數據。對于時序數據和序列數據的主要解決的問題是趨勢分析、相似性搜索、與時間相關數據的序列模式挖掘和周期模式挖掘。

甘蔗糖分的數據也是一種典型的時序數據,雖然年周期問題是農業生產的共性,先積累后消耗的趨勢已經成為共知的內容,但是時序數據的研究方法依然對于甘蔗糖分的數據挖掘有參考價值,比如用移動平均法平滑數據。

序列分析的突出應用在施肥上。不同時間的施肥、灌溉對作物生長產生不同的影響,遲施氮肥、遲灌溉能夠提高甘蔗的重量,但不利于蔗糖的產量。

研究人員對作物的施肥模式進行了深入研究,包括N、P、K、Ca等的肥效,以及合理的施肥季節。然而現實生產中,土壤的有機、無機的營養元素差別較大,降雨等自然因素也千差萬別,序列分析技術有利于為每一塊蔗田確定合理的施肥計劃。

三、 聚類分析技術在收割管理中的應用

農業方面應用聚類分析方法多停留在宏觀分析和科學研究上,具體生產中難以使用先進統計分析方法,主要是面臨數據收集、數據精度等困難。在眾多的農作物中,甘蔗(用于榨糖的)是一種比較特殊的經濟作物,具備了應用統計分析方法提升效益的條件。甘蔗的特殊性表現在蔗糖的生產由農業種植與工業壓榨提煉兩部分構成。工業生產為甘蔗作物的統計分析創造了條件,正在試點中的“按質論價”體系,產生了大量原料蔗進廠時的糖分數據,使得基于原料蔗糖分的聚類分析成為可能。

1. 聚類分析。聚類分析是數據挖掘在客戶關系管理的最常用的方法,金融業中的反欺詐,電信領域的易流失客戶分析是聚類分析的典型應用。榨糖企業與種蔗單位之間也存在客戶關系管理,并且具有更大的能動性――榨糖企業不僅能用價格杠桿調動種蔗單位的積極性,還可以通過資金、技術等更直接快捷的手段影響種蔗單位。基于甘蔗糖份的聚類分析,是以糖份增長為目的,在品種合理搭配、調整種植布局、優化收割順序等方面起到輔助決策的目的。

傳統角度來看,可以通過評分的辦法對種蔗單位(國營農場、通過蔗站組織起來的蔗農)進行分類,可以細化到按種植面積、設備狀況、人員數量、管理人員的學歷、運輸距離等等作為分類標準。此種做法可以起到鼓勵種植單位擴大種植面積、提高管理意識的作用。而基于原料蔗糖分的聚類分析的目的是通過優化收割提高經濟效益。

甘蔗糖分數據的聚類分析就是利用糖分數據的時序性和糖分積累曲線的特點,按品種對種蔗單位進行聚類分析,為優化收割次序提高糖分總產量提供依據。實現收割次序優化可以從兩個層次上考慮,首先是品種層次上的分類,不同品種糖分曲線不同,峰值糖分也不相同,具有優化收割的條件。其次是同一品種不同種蔗單位之間的聚類,種植條件、管理因素的差異,導致不同種蔗單位在早中晚期存在糖分的高低的差異,可以產生特定時間段優先收割的聚類,同樣可以作為優化收割次序的依據。

2. 數據預處理。數據預處理就是根據數據挖掘工作的需要,將數據轉化為宜于聚類分析的結構和形式。離散數據的聚類與連續數據的聚類相比,可以顯著降低計算量,容易實現聚類,便于理解。聚類分析的數據預處理包括維規約和數據離散化兩個方面。

(1)維規約。維規約是通過刪除、簡化不相關的屬性(數據維)減少數據量,降低數據挖掘的計算復雜度。對種蔗單位的聚類就是根據時間屬性對甘蔗糖份數據進行聚類。由于整個榨季持續4個月左右,按每天轉化為一個屬性(數據維),則聚類的計算量較大,而且不能保證種蔗單位每天都有甘蔗在收割,這將會導致空缺數據增多,不利于聚類。本文按周統計糖份進行維規約,主要有兩個原因:一是長短較合適,減少與保留的維數達到均衡,基本能保證主要的種蔗單位在每個時間段都有收割的數據。二是與工作周期一致,能夠平滑收割進度安排方面的多種影響因素——如工作人員每周的情緒、體能等方面的波動。

(2)離散化。離散化是將甘蔗糖份的連續數值用離散數據表示,以降低數據挖掘的計算復雜度。本文使用“高”、“中”、“低”離散數據還具有結果易于理解和操作的特點。

離散化需要考慮:①不能按所有數據的取值范圍進行等分點,甘蔗糖份隨時間變化的趨勢大于糖份日波動,因而宜以一個較小的時間段(如天、周)的糖份波動作為等分點的依據。②由于糖份分布是不均勻的,等分法確定“高”、“中”、“低”可能導致某個取值明顯多于其它值,不利于聚類。

不同時間段的糖分值不具可比性,高中低中能是相對特定的時間段,結合維歸約,按周糖分確定離散值。連續數值離散化常用的是等分點法,等分點法是對連續數值按要求等分成若干份,是簡單易行的數據離散化方法。由于糖分值分布是非均勻的,不宜使用等分點法。

為了尋找合適的離散化方法,需要先校正糖份值以平滑日與日之間的糖份差距,將所有糖份減去當天糖份的平均值,這樣使調整后的數據都是以0為基準,然后探討糖份的分布規律。圖1是校正后的2004年~2005年榨季的數據分布圖,總計63 610記錄,校正后的最大值為1.98,最小值為-5.04,方差為7.02,標準差為0.71。

若采用等分法,等分點為-2.70、-0.36,則數據被分成:低66個、中17 998個、高45 546個,顯然個別極低的數據導致離散為“低”的數據僅有66個(約占0.1%),嚴重影響離散的效果,表明直接應用等分點法不合適。

在糖份離散化時也可以硬性地按糖份大小排序離散化,將糖份值最高的20%的數據離散為“高”,數據的分布特點將被忽略。當某天的數據比較接近時,數據本身的區分度不高,再硬性按比例分成“高、中、低”,則會影響分析結果的實用性和說服力。

表1用標準差作為三分點依據

Table 1 Take 3 division as reference of the standard deviation

標準差(Standard Deviation,sDev)是數據分布規律的一個衡量參數,使用標準差作為數據離散化的依據比等分法更合理,本文采用標準差作為離散依據。在具體的離散工作中需要對標準差乘以調整系數作為劃分點,表1中取0.8倍的標準差,即±0.57作為離散依據(圖1中黑色豎線),“低”、“高”相當,取“中”的數據項最多,比值接近20∶60∶20,適于進一步的分析研究。

3. 對種蔗單位的聚類分析。對一個甘蔗品種進行的聚類,聚類結果反映出種蔗單位在種植條件、管理因素上存在一定差異。通常蔗區內會存在多個品種的甘蔗,有時還希望通過聚類分析價格、氣象等因素,因而聚類的方法有進一步拓展的需要。

(1)按主要品種生成聚類模型。不同品種的甘蔗植物學特性上存在一定差別,不僅種蔗單位存在種植管理方面的差異,同一種蔗單位內對不同的品種也會存在土壤、施肥、灌溉等方面的差異。有必要對蔗區內的主要品種進行聚類,分析每個品種特有的聚類模式。通常蔗區主要4個-5個品種會占總種植面積的80%以上,按主要品種聚類的可操作性較大。

(2)對種蔗單位的二次聚類。聚類模型是由數據驅動而產生的,換個數據據源有可能聚類模型就不再具有實用價值,比如將啤酒與尿布的例子移植到中國的某些超市就很難得到同樣的結果。但是,如果將某一品種得出的聚類模型應用其它品種的聚類時,結果反映出的就不再是單一品種的規律,而是種蔗單位層次上的規律,反映出同一種蔗單位內不同品種之間也存在種植條件、管理因素等方面的差異。

按品種生成的聚類模型可以分為3種情況:糖分前期較高的聚類,糖分后期較低的聚類,沒有明顯規律的聚類。二次聚類是將聚類結果轉換成這3種情況(A、B、C),進一步進行聚類,企業可以在此基礎上分析不同聚類聚集的原因,合理配置資金和技術。表2是對種蔗單位的二次聚類的結果,表明結果Cluster-4中各單位屬后期糖分較后,宜作為后期收割的重點,Cluster-5則為前期糖分較高的聚類。

表2種蔗單位的二次聚類

Table2Secondary clustering to planting units

(3)特定時間段的聚類分析。對某一時間段進行分析,在生成聚類模型時可以排除其它時間段的數據,應用該模型進行分析可以得出有針對性的結果。企業的利益不是單純的表現在總產量上,蔗糖價格的變化影響著企業的經濟效益,當企業預測到某一時間段的蔗糖市場價格先高后低的,可以針對這一時間段進行聚類分析,尋找糖分先高后低的聚類,作(下轉第41頁)為分析和優化收割的參考。

(4)加權聚類分析。在對特定數據維較關注時,可以采用加權的辦法控制聚類模型。在分析中,如果關心平均糖分在聚類中的表現,如提高種蔗單位總平均糖分數據維的加權值,產生的聚類結果首先反映出總糖分的高低。

使用多種方法設定權值可以得出不同的結果。使用價格預測值作為加權值,聚類結果將反映出不同種蔗單位、品種的不同時期的經濟價值的聚類,有利于企業的收益最大化。甘蔗產區大多都存在病蟲害、臺風災害等風險因素,科研部門、氣象部分都作出相應的災害發生概率的預測。使用災害損失值作聚類依據,風險因素的發生概率作為加權值,其聚類結果則是反映了抗風險的性能。

(5)人工確定聚類模式。數據驅動產生的聚類反映了數據本身的特點,為專業人員提供數據內在規律的模式,有利于進一步分析數據中隱含的信息。從企業生產的角度,更能會更關心如何應用聚類分析的結果,如何確定每個階段的收割重點。對此,可以根據企業的提高總產量、提高經濟價值目的,以及挖掘增產潛力、災害前后搶收補救等需要,人工確定聚類模式,從中篩選出可以作為收割重點的品種或種蔗單位。

四、 結語

在甘蔗作物生產上應用數據挖掘,由試驗田擴大到整個蔗區,從對有限的數據進行統計分析到實際生產的數據分形細化,進而到挖掘有價值的信息。在蔗糖生產中企業最關心的收割管理需要聚類分析的結果,合理的收割能夠減少糖分增長不足和回糖帶來的損失,聚類結果有利于企業作為確定收割次序的依據;并通過優化收割提高經濟效益。

參考文獻:

1.張頡成,陳永基,謝頌強.甘蔗按質論價在糖廠的實踐應用.甘蔗糖業,2005,(2):50-54.

2.(英)David Hand,HeiKKi Mannila,Padhraic Smyth

著.張銀奎,廖麗,寧俊譯.數據挖掘原理.北京:機械工業出版社,2003.

3.(加)Jiawei Han,Micheline Kamber著.范明,孟小峰譯.數據挖掘概念與技術.北京:機械工業出版社,2004.

4.(美)Tom Soukup,Ian Davidson著.朱建秋,蔡偉杰譯.可視化數據挖掘數據可視化和數據挖掘的技術與工具.北京:電子工業出版社,2004.

5.羅橋順,王季槐,陳莊.甘蔗生產模型初探——以糖分動態分析為例.亞熱帶農業研究,2005,(2):27-30.

作者簡介:申劍,同濟大學經濟與管理學院博士后;張峰,碩士,華南熱帶農業大學農學院講師。

收稿日期:2007-05-22。

主站蜘蛛池模板: 亚洲一级毛片免费看| 亚洲国产高清精品线久久| 国产精品久久国产精麻豆99网站| 欧美成人a∨视频免费观看| 欧美高清日韩| 日韩在线观看网站| 欧美成人免费一区在线播放| 国产精品思思热在线| 国产日本欧美亚洲精品视| 午夜福利网址| 激情无码字幕综合| 日韩国产 在线| 最新午夜男女福利片视频| 国产91小视频| 国产香蕉在线| 欧美在线导航| 蜜臀AV在线播放| 成人精品免费视频| 这里只有精品在线播放| 日本高清免费一本在线观看| lhav亚洲精品| 国产精品成人久久| 国产亚洲视频免费播放| 青青草国产精品久久久久| 国产日本视频91| 欧美国产在线看| 老司机午夜精品视频你懂的| 99九九成人免费视频精品 | 精品久久久久成人码免费动漫| 免费无码在线观看| 永久免费无码日韩视频| 人妻一区二区三区无码精品一区| av在线手机播放| 91亚洲精品国产自在现线| 91在线无码精品秘九色APP| 亚洲首页在线观看| 国产亚洲精品无码专| 国产在线第二页| 亚洲女同一区二区| 亚洲欧美日韩视频一区| 国产18在线播放| 日韩毛片在线播放| 国产丰满大乳无码免费播放| 欧美日韩一区二区在线播放| 欧美在线综合视频| 国产区成人精品视频| 青草视频免费在线观看| 日韩美一区二区| 久久无码高潮喷水| 国产女人喷水视频| 国产白浆在线| 亚洲无码37.| 永久成人无码激情视频免费| 91麻豆国产精品91久久久| 爽爽影院十八禁在线观看| 色婷婷狠狠干| 久久精品欧美一区二区| 波多野结衣在线一区二区| 久久国产V一级毛多内射| 超碰91免费人妻| 亚洲欧美色中文字幕| 国产91丝袜在线观看| 久久久久夜色精品波多野结衣| 国产经典在线观看一区| 欧美不卡视频一区发布| 国产浮力第一页永久地址| 婷婷色婷婷| 囯产av无码片毛片一级| 国产91av在线| 亚洲AⅤ无码日韩AV无码网站| 福利在线一区| 日本亚洲国产一区二区三区| 福利一区三区| 亚洲国产看片基地久久1024| 免费可以看的无遮挡av无码 | 老司机精品99在线播放| 亚洲国产高清精品线久久| 日本道综合一本久久久88| 久久香蕉国产线看精品| 欧美日韩免费在线视频| 97se亚洲综合在线韩国专区福利| 精品国产免费观看一区|