寧曉盼,莫柳珍,孫 瀟,高俊永,黃向陽,許廣球
(1.廣西大學輕工與食品工程學院,廣西 南寧 530004;2.廣州甘蔗研究所 廣東省甘蔗改良與生物煉制重點實驗室,廣東 廣州 510316)
數據分析法在制糖生產中的應用
寧曉盼1,莫柳珍2,孫瀟2,高俊永2,黃向陽2,許廣球2
(1.廣西大學輕工與食品工程學院,廣西南寧530004;2.廣州甘蔗研究所廣東省甘蔗改良與生物煉制重點實驗室,廣東廣州510316)
制糖生產過程中每天產生的數據多且處理復雜,文章主要介紹了幾種常用的數據分析法在制糖生產中的應用,包括:聚類分析法、控制圖法、灰色關聯法、回歸分析法。在現今的信息化、知識化、大數據時代,制糖生產過程的數據分析。可為生產者提供輔助決策,提高管理效率,更好地控制好生產成本,提高產品質量等。
制糖生產;聚類分析法;灰色關聯法;控制圖法;回歸分析法
隨著信息產業的快速發展,越來越多的應用將會涉及到大數據,而這些數據都呈現了大數據不斷增長的復雜性,數據分析方法在大數據領域起到至關重要的作用。大數據已經不再是簡簡單單的數據大的事實,最重要的是實現對大數據進行分析,只有通過分析才能獲得更多潛在的、深入的、有價值的信息。大數據分析的理論核心是數據挖掘。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中人們事先不知道,但又是潛在的、有用的信息和知識的過程[1]。大數據分析已涉及到醫藥、電力、化工、金融等行業,然而制糖行業對生產數據的分析利用水平還明顯落后于其它行業。
制糖行業是我國傳統的農副產品加工業,糖廠每天產生成千上百個數據,主要包括農務砍運甘蔗數據、生產過程數據、化驗報表數據等,這些數據相互交叉,密切關聯,構成了制糖生產大數據系統。制糖生產過程包括壓榨、澄清、蒸發、煮糖等工段,每一個工段都有嚴格的工藝要求。糖廠生產管理工作的關鍵之一是對各工段生產指標數據進行嚴格的控制,確保生產在良好的工藝條件下平穩進行。制糖過程產生大量數據背后隱藏著許多重要的信息,分析并找出數據與數據之間的潛在聯系,獲取對生產有效的信息,對提高生產管理效能、保證產品質量、節能減排都有重要意義。
目前在甘蔗制糖企業生產管理過程中,應用數據分析法對生產過程管理的研究較少,但數據分析對制糖生產管理具有重要意義。數據分析可分為描述性數據分析、預測性數據分析和驗證性數據分析,數據處理的一般過程有確定目的和思路、數據收集、數據處理、數據分析、數據展現等步驟。數據分析的分類方法有很多,預測性數據分析和驗證性數據分析一般有關聯規則法、控制圖法、分類規則、聚類分析、回歸分析、偏差分析等。
2.1聚類分析法
聚類分析是依據樣本之間的特征差異,即通過度量研究對象的某種特殊屬性的相似程度,使同一類樣品中的相似度最大,不同樣品的相似度最小[2]。聚類分析的過程主要依賴于樣本之間的差異。常用的聚類分析方法主要有5大類,即基于劃分、基于層次、基于密度、基于網格和基于模型的聚類分析方法[3,4]。
聚類分析能夠挖掘客戶管理關系,制糖企業與蔗農之間就存在著一定的客戶管理關系。廖燕玲[5]等以廣西為例采用模糊聚類技術對甘蔗種植戶信息進行分析處理,集中提取甘蔗種植戶的信息,如種植的總面積、優質土地面積、畝產高于當年總平均畝產的產率等,獲取隱藏著的具有重要價值的種植戶信息,以便于發現有價值的、較大潛力的種植戶。同時依據甘蔗品種在不同生長期糖分的積累不同,利用蔗糖分數據的時序性和糖分積累曲線的特點,通過聚類分析選擇優質高產及高蔗糖分的甘蔗進行壓榨。具體方法依據不同品種之間的糖分曲線不同,峰值糖不同;以及同一品種中不同種蔗單位之間的種植條件不同、管理方法不同使得早中晚期的糖分高低也不同;可通過聚類分析優化收割蔗糖分高的甘蔗。
通過上述研究可以看出聚類分析法可以應用于農務管理,能夠實現對不同種植行為特征的農戶進行分類,優化收割次序,提高甘蔗糖分、產量和質量,促進糖業發展,提高經濟效益。
2.2控制圖法
控制圖法是質量管理常用的分析方法之一,是記錄過程質量隨時間變化進程的一種形式,它建立在數理統計學的基礎之上,利用有效數據建立控制界限,一般分為上控制界限和下控制界限[6]。若控制圖中的描點落在控制界限外或控制界限內的排列不隨機,則表示出現異常,若控制圖的描點在控制界限內則表示正常??刂茍D在質量診斷方面,可以用來度量過程的穩定性;在質量控制方面,可以用來確定何時對生產數據進行調整;在質量改進方面,可以用來確認過程是否得到改進。
廖玉[7]等為判別澄清工序與蒸發工序中色值的問題,針對亞硫酸法甘蔗糖廠生產過程將控制圖中的“單值—移動極差控制圖”與“選控單值—選控移動極差控制圖”聯合運用于澄清工序和蒸發工序。分別收集了30個批次澄清汁色值和粗糖漿色值原始數據,制作控制圖,并針對每個批次異常原因進行分析,判別相應的崗位責任,并提出了各工段相對應的解決措施。如其中一個批次澄清汁色值和粗糖漿色值均偏高,蒸發工序未出現異常警報而澄清工序出現異常警報;原因分析及采取的相應措施:澄清汁色值偏高致粗糖漿色值也相應偏高,由于蒸發工序正常,因此只需要解決澄清工序存在異常問題即可。這里如果不使用選控圖,就難以分清哪個工序造成影響。
通過應用控制圖法進行日常生產質量管理是提高企業經濟效益的重要手段??刂茍D法可以分清上下工序之間的責任,加強中間制品的質量管理,便于針對性解決工序中存在的問題,提高產品質量使過程控制趨于穩定??刂茍D法有助于抓住生產主要矛盾,及時發現異常原因,快速解決問題,起到預防為主的作用,便于進一步嚴格控制生產指標,使產品白砂糖的一級品率逐步提高。
2.3灰色關聯法
灰色關聯分析是通過對數據幾何關系和曲線幾何形狀的相似度進行比較,來分析系統各因素之間的關聯程度[8]。灰色關聯分析是數據挖掘內部規律的主要方法,灰色關聯系統適應于部分信息明確,部分信息不明確的研究。在經濟、管理等領域得到了廣泛的應用。目前針對亞硫酸法糖廠生產過程,糖汁中二氧化硫的殘存機理并不十分明晰,白砂糖含硫量的影響因素多且內在聯系變化不定,有的因素通過監測可以掌握其影響程度,有的因素難以測量或未被人們所認識。據研究決定白砂糖中二氧化硫殘留量的首要因素是生產過程中加入二氧化硫量[9]。
張思源[10]等以亞硫酸法糖廠的清汁pH、清糖漿pH、清汁的含硫量、清糖漿的含硫量等四個因素作為主要影響因子,基于生產查定數據,運用灰色系統關聯理論,分析它們對白砂糖二氧化硫含量的影響主次。通過數據分析得出對白砂糖二氧化硫殘留量的影響主次為:清汁含硫量、清汁pH值、清糖漿含硫量、清糖漿pH值。清汁SO2含量和清汁pH值是影響白砂糖質量的重要指標,且是澄清工段全面的影響指標。關聯結果與定性分析一致,結果可信。灰色理論認為,盡管客觀系統表象復雜,數據雜亂,但它總是有整體功能的,因此必然蘊含某種內在規律。
灰色關聯分析是一種研究數據少、信息不確定性的有效方法。由于不考慮樣本序列的統計規律,對樣本容量沒有過高要求,應用廣泛且定量與定性分析的結果一般能夠相吻合。
在甘蔗制糖廢蜜中所含主要成分為蔗糖、還原糖、有機非糖分、無機鹽灰分及水分等,而廢蜜糖分因其他成分含量的不同而有所增減,如還原糖逐漸下降,而非糖分量逐漸上升進而影響廢蜜純度及產率。因此可通過灰色關聯法分析廢蜜中的成分與廢蜜糖度之間的數量關系,并采取適當方法降低廢蜜糖分的損失率,提高產糖率。
2.4回歸分析法
回歸分析是一種基于統計相關量誤差分析的統計工具,是誤差方差最小化的最優估計[11],是利用回歸顯著性置信度估計,獲取回歸曲線的置信區間,用點跡擬合回歸方程,得到相互關系的經驗公式。
李東生[12]等通過大量的歷史資料和數據應用回歸分析法,分析了東莞糖廠兩個榨季白糖灰份異常的因素,找出特定工藝條件下白糖灰分與原料蔗非糖分的相關關系,通過檢測數據整理計算。
得出方程y=0.0257+0.0218x,并作出相關檢驗。得出白糖灰分與原料蔗非糖分相關,兩者相關關系在95%的顯著水平。
原料蔗非糖分和白糖灰分都是隨機變量,他們之間具有一定的相關關系,難以求得確定的函數式,但可用確定的回歸分析的方法找出相互關系的經驗公式。指導生產,提高產品質量?;貧w分析法還可應用于白砂糖色值影響因素的分析。白砂糖色值是衡量產品質量的重要指標之一,清汁色值、清汁pH值、糖漿色值、糖漿pH值是影響其色值的主要因素,可通過回歸分析法找出四者相關關系,提高白砂糖品質。
大數據隱含著巨大的社會、經濟、科研價值,已引起了各行各業的高度重視,我們在利用數據分析的過程中,也常常會遇到一些問題。糖廠數據分析中常見的主要問題有。
一是數據采集不全。數據分析的基礎是數據量,糖廠數據的主要來源包括化驗室數據、生產過程數據、農務數據等,目前國內大部分糖廠生產自動化程度不高,對生產數據的采集,存在數據采集量小、數據采集不全等問題,這在一定程度上影響對汁糖生產數據的分析。
二是數據利用效率低。糖廠的化驗室系統和生產數據系統、及農務系統之間一般是相對孤立的,現有數據之間未建立具體的關聯性,不能夠快速、充分利用數據,使數據利用效率降低。
三是數據的可靠性。制糖生產過程中部分數據易受到人為操作不當、環境條件、設備故障、儀表故障等因素影響,在此條件下,獲得的數據可能會失真,此時對數據不加分析評判而直接使用,毫無意義。
四是實際應用不多。糖廠實際生產中數據量大、數據之間的關系復雜、生產管理指標多、關聯度復雜,目前對糖廠數據分析的研究較少,具有一定的難度,數據分析理論與實際的應用需要進一步結合,在實踐中提高糖廠數據分析的水平。
大數據時代已經來臨,社會各行各業都面臨著前所未有的數據量和數據分析需求,數據分析方法眾多,根據不同需求選取適當方法,對糖廠實際生產數據進行分析,挖掘潛在的、有意義的、有價值的信息,對指導生產,加強管理生產工序中遇到的問題,提高產品質量,減少原料消耗和節能減排都將有重要意義。
[1]梁劍,李曉.智能化數據挖掘系統的設計與實現[J].計算機應用研究,2002,19(5):89-91.
[2]戴危艷,李少華,王軍,等.利用聚類分析方法進行模型優選[J].斷塊油氣田,2015,,22(4):492-496.
[3]Bandyopadhyay S,Coyle E J.An energy efficient hierarchical clustering algorithm for wireless sensor networks [C]//INFOCOM 2003.Twenty-Second Annual Joint Conference of the IEEE Computer and Communications.IEEE Societies.IEEE,2003,3:1713-1723.
[4]Kriegel H P,Pfeifle M.Density-based clustering of uncertaindata[C]//Proceedings of the eleventhACM SIGKDD international conference on Knowledge discovery in datamining.ACM,2005:672-677.
[5]廖燕玲.模糊聚類技術在甘蔗種植戶信息分析中的應用[J].安徽農業科學,2007,35(28):9098-9099.
[6]苗同暢,劉杰.控制圖技術在糖化生產中的應用[J].啤酒科技,2010,6:023.
[7]廖玉.初探Xcs-Rs選控圖在甘蔗制糖生產線上的應用[A].第二屆糖業科技與發展高峰論壇論文錄[C].2015年.
[8]Azzeh M,Neagu D,Cowling P I.Analogy-based software effort estimation using Fuzzy numbers[J].Journal of Systems and Software,2011,84(2):270-284.
[9]霍漢鎮.現代制糖化學與工藝學[M].化學工業出版社,2008.
[10]張思原,郭海蓉,容玲.白砂糖二氧化硫含量影響因素的灰色關聯度分析[J].食品科技,2008,33(10):93-95.
[11]M.·費史,Fisz M,王福保.概率論及數理統計[M].科學技術出版社,1962.
[12]李東生.白糖灰份與原料甘蔗非糖分在特定條件下相關的探索[J].甘蔗糖業,1983,6:006.
TS242.1
B
2095-820X(2016)02-04
2016-04-05