999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的固態(tài)白酒發(fā)酵產(chǎn)量預(yù)測(cè)?

2020-07-13 12:48:36余天陽(yáng)
關(guān)鍵詞:產(chǎn)量方法模型

余天陽(yáng)

(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 無(wú)錫 214122)

1 引言

白酒發(fā)酵過(guò)程中的酒醅溫度影響酵母菌的生長(zhǎng)繁殖,進(jìn)而影響白酒的產(chǎn)量[1~2]。同時(shí),入窖水分、入窖酸度和入窖淀粉濃度也會(huì)影響白酒的產(chǎn)量[3~5]。如何準(zhǔn)確有效地預(yù)測(cè)白酒產(chǎn)量、保證白酒質(zhì)量成為固態(tài)白酒發(fā)酵亟待解決的問(wèn)題。常規(guī)優(yōu)質(zhì)固態(tài)白酒發(fā)酵溫度曲線(xiàn)應(yīng)符合“前緩、中挺、后緩落”的規(guī)律[6],是一系列復(fù)雜生化反應(yīng)的宏觀體現(xiàn),其中蘊(yùn)含重要的演化信息,故期望從中找出演化規(guī)律,利用已知的檢測(cè)數(shù)據(jù)預(yù)測(cè)白酒產(chǎn)量,為下一輪的入窖工藝優(yōu)化提供依據(jù)。

目前關(guān)于預(yù)測(cè)的方法主要有時(shí)間序列法、小波分析法、人工神經(jīng)網(wǎng)絡(luò)等。1989年Baldi P通過(guò)研究發(fā)現(xiàn),在處理非線(xiàn)性數(shù)據(jù)上,神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力要優(yōu)于傳統(tǒng)模型[7]。但是L.Kaastra在1995年發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)存在過(guò)擬合、難收斂和模型訓(xùn)練困難等問(wèn)題[8],與此同時(shí)Vapink在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上首次提出了以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則的SVM(Support Vecor Machine,SVM)算法[9],該方法較好地解決小樣本、非線(xiàn)性等實(shí)際問(wèn)題,并且在很多領(lǐng)域已經(jīng)開(kāi)始得到應(yīng)用,如兩相流行識(shí)別[10]、故障診斷[11]、模式識(shí)別[12]等領(lǐng)域。但SVM的訓(xùn)練需要求解二次規(guī)劃問(wèn)題,影響計(jì)算速度。為此,Suykens等[13]提出了最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)方法。最小二乘支持向量機(jī)(LSSVM)是標(biāo)準(zhǔn)支持向量機(jī)的一種擴(kuò)展,通過(guò)求解線(xiàn)性方程,有效簡(jiǎn)化計(jì)算過(guò)程,提高運(yùn)算速度。但是,在LSSVM建模過(guò)程中模型的懲罰參數(shù)γ和核參數(shù)σ對(duì)模型的擬合精度和泛化能力有著較大影響。傳統(tǒng)的取值方法是依據(jù)經(jīng)驗(yàn)通過(guò)試湊法進(jìn)行調(diào)試,沒(méi)有統(tǒng)一的規(guī)則。粒子群(Particle Swarm Optimization,PSO)算法[14]是基于種群的并行全局搜索策略,概念簡(jiǎn)單、易于實(shí)現(xiàn),且沒(méi)有許多參數(shù)需要調(diào)整,具有更快的收斂速度,對(duì)處理高維數(shù)據(jù)具有一定的優(yōu)勢(shì),常應(yīng)用于支持向量機(jī)的參數(shù)優(yōu)化。從已有的研究成果來(lái)看,基于機(jī)器學(xué)習(xí)方法進(jìn)行預(yù)測(cè)已經(jīng)越來(lái)越常見(jiàn),但所采用的的方法多為常規(guī)方法,如SVM、神經(jīng)網(wǎng)絡(luò)、LSSVM等經(jīng)典方法,Chen(2016)[15]提出了一種新的 XGBoost的機(jī)器學(xué)習(xí)算法,該方法是大規(guī)模并行boosted tree的工具,是目前最好的開(kāi)源boosted tree工具包,比常見(jiàn)方法快數(shù)倍以上,已經(jīng)逐漸應(yīng)用于數(shù)據(jù)的分析預(yù)測(cè)中。

本文在XGBoost建模方法的基礎(chǔ)上,通過(guò)分析樣本間的馬氏距離[16~17],剔除原始樣本中相關(guān)性較小的樣本點(diǎn),并將該方法應(yīng)用于固態(tài)白酒發(fā)酵的產(chǎn)量預(yù)測(cè)當(dāng)中,測(cè)試結(jié)果表明該方法符合預(yù)測(cè)精度,能夠應(yīng)用于實(shí)際工程應(yīng)用。

2 數(shù)據(jù)的采集與處理

2.1 數(shù)據(jù)采集

本文預(yù)測(cè)模型所需要的訓(xùn)練樣本和測(cè)試樣本來(lái)自于2018年2月江蘇某酒廠生產(chǎn)區(qū)域內(nèi)1168口窖池。該廠采用物聯(lián)網(wǎng)無(wú)線(xiàn)測(cè)溫技術(shù)對(duì)生產(chǎn)區(qū)域內(nèi)全部窖池的糟醅溫度進(jìn)行實(shí)時(shí)在線(xiàn)監(jiān)控。其中,物聯(lián)網(wǎng)無(wú)線(xiàn)溫度傳感器統(tǒng)一安插位置為每口窖池中心點(diǎn)往下1.5m處(離窖底0.5m),采用PT100溫度傳感器每隔1h自動(dòng)采集1次糟醅發(fā)酵溫度,并發(fā)送到各自的無(wú)線(xiàn)路由器上,再由無(wú)線(xiàn)路由器將搜集到的溫度數(shù)據(jù)傳送到工控機(jī)中進(jìn)行數(shù)據(jù)交換和數(shù)據(jù)處理。此次共采集樣本522份,數(shù)據(jù)特征為522*1440。

2.2 相關(guān)性樣本剔除算法

相關(guān)性樣本剔除是將樣本空間中相關(guān)性較小的樣本采用一定的辦法去除,再利用剩余樣本進(jìn)行建模。這種方法可以簡(jiǎn)化模型結(jié)構(gòu),提高在線(xiàn)計(jì)算的速度與精度。歐氏距離和馬氏距離常被用來(lái)度量樣本間的相似度。歐氏距離法表達(dá)的是數(shù)據(jù)在特征維度空間中的真實(shí)距離;馬氏距離法表達(dá)了數(shù)據(jù)的協(xié)方差距離,即標(biāo)準(zhǔn)化數(shù)據(jù)與中心化數(shù)據(jù)之差,以此來(lái)考量樣本間的相似程度。

2.3 相關(guān)性樣本剔除實(shí)驗(yàn)

本文原始樣本共有522個(gè)發(fā)酵數(shù)據(jù),采用馬氏距離法和歐氏距離法作為樣本相似的判別依據(jù)。在保證模型精度的情況下,通過(guò)經(jīng)驗(yàn)法選取ε1=0.01,剔除相關(guān)性較小的樣本序號(hào)如表1所示。

表1 剔除樣本對(duì)比

為了更好地評(píng)價(jià)相關(guān)性樣本剔除算法的優(yōu)劣,采用均方根誤差RMSE指標(biāo)對(duì)其進(jìn)行檢驗(yàn):

其中l(wèi)是測(cè)試樣本的個(gè)數(shù),yi為測(cè)試樣本的原始值,y?i為測(cè)試樣本的預(yù)測(cè)值。如表2所示,剔除相關(guān)性較小的樣本后,模型的精度明顯增加,而采用馬氏距離法精度最高。

表2 剔除算法比較

3 基于XGBoost預(yù)測(cè)方法

3.1 XGBoost基本原理

XGBoost[10]的 全 稱(chēng) 是 eXtreme Gradient Boost?ing,即極端梯度提升樹(shù),是梯度提升機(jī)器算法(Gra?dient Boosting Machine)的擴(kuò)展。Boosting分類(lèi)器屬于集成學(xué)習(xí)模型,其基本思想是把成百上千個(gè)分類(lèi)準(zhǔn)確率較低的樹(shù)模型組合成一個(gè)準(zhǔn)確率較高的模型。該模型不斷迭代,每次迭代生成一棵新的樹(shù),通過(guò)不斷加入子樹(shù)使模型不斷逼近樣本分布,過(guò)程如下:

結(jié)合上述兩式的最小殘差值為(結(jié)構(gòu)分?jǐn)?shù)):

一次迭代要增加一棵樹(shù)擬合樣本集,暴力的方法就是枚舉所有的樹(shù),然后選擇結(jié)構(gòu)分?jǐn)?shù)最小的。

3.2 XGBoost模型參數(shù)

XGBoost模型有3種類(lèi)型的參數(shù):通用參數(shù)、輔助參數(shù)和任務(wù)參數(shù)。通用參數(shù)確定上升過(guò)程中上升模型類(lèi)型,常用樹(shù)或線(xiàn)性模型;輔助參數(shù)取決于所選的上升模型;任務(wù)參數(shù)定義學(xué)習(xí)任務(wù)和相應(yīng)的學(xué)習(xí)目標(biāo)。

XGBoost模型中,常用的參數(shù)說(shuō)明如下:

1)booster:設(shè)置需要使用的上升模型。可選gbtree(樹(shù))或gblinear(線(xiàn)性函數(shù)),默認(rèn)為gbtree。

2)nthread:XGBoost運(yùn)行時(shí)的并行線(xiàn)程數(shù),默認(rèn)為當(dāng)前系統(tǒng)可以獲得的最大可用線(xiàn)程。

3)eta:收縮步長(zhǎng),即學(xué)習(xí)速率,取值范圍是[0 , 1],默認(rèn)為0.3。在更新葉子節(jié)點(diǎn)的時(shí)候,權(quán)重乘以eta,以避免在更新過(guò)程中出現(xiàn)過(guò)擬合的現(xiàn)象。

4)max_depth:每棵樹(shù)的最大深度,取值范圍為[1 , ∞] ,默認(rèn)為6。樹(shù)越深,越容易過(guò)擬合。

5)subsample:訓(xùn)練的實(shí)例樣本占總體實(shí)例樣本的比例,取值范圍為[ ]0,1 ,默認(rèn)為1,值為0.5時(shí)意味著XGBoost隨機(jī)抽取一半的數(shù)據(jù)實(shí)例來(lái)生成樹(shù)模型,這樣能防止過(guò)擬合。

6)objective:默認(rèn)為reg:linear。

seed:隨機(jī)數(shù)種子,為確保數(shù)據(jù)的可重現(xiàn)性,默認(rèn)為0。

3.3 K折交叉驗(yàn)證方法

論文采用K折交叉驗(yàn)證的方法。將原始數(shù)據(jù)分為K個(gè)子集,每個(gè)子集分別驗(yàn)證一次,剩余的K-1組子集作為訓(xùn)練數(shù)據(jù),這樣可以得到K組訓(xùn)練集和測(cè)試集,以最終的回歸平均精度作為性能指標(biāo)。在實(shí)際應(yīng)用中K值一般大于等于2,需要建立K個(gè)模型來(lái)進(jìn)行K折交叉驗(yàn)證的實(shí)驗(yàn),并計(jì)算K次測(cè)試集的平均回歸精度。

K折交叉驗(yàn)證的結(jié)果能較好的說(shuō)明模型效果,有效的避免了過(guò)擬合和欠擬合問(wèn)題。在XGboost中,通過(guò)使用xgb.cv函數(shù)來(lái)做交叉驗(yàn)證。

4 應(yīng)用實(shí)例

固態(tài)白酒發(fā)酵是一系列復(fù)雜生化反應(yīng)的過(guò)程。白酒發(fā)酵過(guò)程中酒醅溫度變化是導(dǎo)致白酒產(chǎn)量變化的直接原因。此外,白酒產(chǎn)量還受到入窖酸度、入窖水分、入窖淀粉等因素的影響[16]。因此,建立能夠反映這些因素的確定性固態(tài)白酒發(fā)酵產(chǎn)量預(yù)測(cè)模型比較困難。

目前我國(guó)的固態(tài)白酒發(fā)酵產(chǎn)量監(jiān)控還是以經(jīng)驗(yàn)為主,通過(guò)監(jiān)控發(fā)酵過(guò)程中的酒醅溫度曲線(xiàn)來(lái)大致推測(cè)窖池的發(fā)酵情況,從而針對(duì)性地做好下一輪入窖配料的調(diào)整工作。傳統(tǒng)方法認(rèn)為只要酒醅溫度曲線(xiàn)保持“前緩、中挺、后緩落”的規(guī)律便意味著白酒發(fā)酵的正常。但是在這種模式下,酒醅溫度的監(jiān)控信息反饋具有滯后性,不能有效分析窖池內(nèi)的發(fā)酵信息,從而直接影響下一輪的白酒發(fā)酵的產(chǎn)量。因此,根據(jù)完整的歷史監(jiān)測(cè)數(shù)據(jù)建立預(yù)測(cè)模型,對(duì)優(yōu)化入窖配料方案、保障白酒發(fā)酵的高質(zhì)高產(chǎn)具有重要意義。

4.1 樣本集劃分

有效地劃分樣本集可以提高模型的泛化能力,本文通過(guò)馬氏距離進(jìn)行異常樣本剔除后共得到515組樣本數(shù)據(jù),再加上各自窖池發(fā)酵的入窖水分、入窖酸度、入窖淀粉和產(chǎn)量組成新的數(shù)據(jù)樣本,數(shù)據(jù)特征為515*1444。按照校正集和驗(yàn)證集大約9:1的比例,將515個(gè)樣本劃分465個(gè)作為訓(xùn)練樣本,50個(gè)作為測(cè)試樣本,檢驗(yàn)預(yù)測(cè)結(jié)果的真實(shí)性。

4.2 模型評(píng)估參數(shù)

采用預(yù)測(cè)均方根誤差RMSEP和希爾不等系數(shù)TIC對(duì)模型性能進(jìn)行評(píng)估。RMSE表示預(yù)測(cè)值與真實(shí)值之間的標(biāo)準(zhǔn)差,越小代表準(zhǔn)確性越高;希爾不等系數(shù)是評(píng)價(jià)預(yù)測(cè)結(jié)果相對(duì)真實(shí)結(jié)果擬合誤差的指標(biāo),值介于[0,1],越接近0,擬合誤差越小。然而單一的RMSE并不能表明模型的實(shí)用價(jià)值,因此根據(jù)上述評(píng)價(jià)指標(biāo),對(duì)模型進(jìn)行綜合評(píng)價(jià),其公式如下:

4.3 模型參數(shù)選取及預(yù)測(cè)結(jié)果對(duì)比

在預(yù)處理數(shù)據(jù)的基礎(chǔ)上,采用XGBoost模型進(jìn)行訓(xùn)練,具體參數(shù)如表3所示。

表3 單XGBoost模型參數(shù)

采用訓(xùn)練好的XGBoost模型對(duì)固態(tài)白酒發(fā)酵產(chǎn)量進(jìn)行產(chǎn)量預(yù)測(cè),具體結(jié)果如圖1所示。為了更科學(xué)地評(píng)價(jià)預(yù)測(cè)方法的準(zhǔn)確性,本文將XGBoost模型預(yù)測(cè)結(jié)果與BP、SVM、LSSVM、PSO-LSSVM模型預(yù)測(cè)結(jié)果進(jìn)行比較。

PSO-LSSVM、LSSVM、SVM、BP預(yù)測(cè)的結(jié)果圖分別如圖2、圖3、圖4和圖5所示。其中所有的測(cè)試數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)均已歸一化處理。

圖1 XGBoost模型白酒產(chǎn)量預(yù)測(cè)

圖2 PSO-LSSVM模型白酒產(chǎn)量預(yù)測(cè)

圖3 LSSVM模型白酒產(chǎn)量預(yù)測(cè)

圖4 SVM模型白酒產(chǎn)量預(yù)測(cè)

圖5 BP模型白酒產(chǎn)量預(yù)測(cè)

為了更好地閱讀各個(gè)算法的差別,本文使用均方根誤差RMSE和希爾不等系數(shù)TIC兩個(gè)參數(shù)對(duì)產(chǎn)量預(yù)測(cè)結(jié)果進(jìn)行量化分析。兩種評(píng)價(jià)指標(biāo)從不同方面揭示了模型預(yù)測(cè)精度和擬合誤差的程度。表4給出了五種算法在產(chǎn)量預(yù)測(cè)方面的對(duì)比。其中,XGBoost模型的均方根誤差為41.2799,分別比PSO-LSSVM、LSSVM、SVM和BP低10.8%、18.3%、23%和27.3%。因此,XGBoost模型無(wú)論是在預(yù)測(cè)精度還是在擬合誤差上都高于其他模型,表明XG?Boost模型預(yù)測(cè)的結(jié)果更加理想,在工程應(yīng)用中更具優(yōu)勢(shì)。

表4 四種模型與預(yù)測(cè)結(jié)果對(duì)比

5 結(jié)語(yǔ)

本文將神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、最小二乘支持向量機(jī)、粒子群優(yōu)化的最小二乘支持向量機(jī)以及XGBoost應(yīng)用到固態(tài)白酒發(fā)酵的產(chǎn)量預(yù)測(cè)中,并且系統(tǒng)地比較了幾種機(jī)器學(xué)習(xí)的有效性,并得出以下結(jié)論:

1)從數(shù)據(jù)本身來(lái)看,發(fā)酵過(guò)程中的酒醅溫度時(shí)序數(shù)據(jù)、入窖淀粉、入窖酸度和入窖水分能夠較好地反映固態(tài)白酒發(fā)酵的產(chǎn)量情況,利用其作為機(jī)器學(xué)習(xí)的輸入特征可以較好地預(yù)測(cè)白酒產(chǎn)量,證明了機(jī)器學(xué)習(xí)在固態(tài)白酒發(fā)酵產(chǎn)量預(yù)測(cè)領(lǐng)域的有效性。

2)從預(yù)測(cè)結(jié)果和擬合誤差來(lái)看,XGBoost模型的預(yù)測(cè)精度相對(duì)于其他模型而言,在擬合誤差指數(shù)、均方根誤差指數(shù)方面都有不同程度的提高,證明了XGBoost的預(yù)測(cè)能力的優(yōu)越性。

3)從本文的實(shí)驗(yàn)結(jié)果來(lái)看,XGBoost方法在損失函數(shù)尋優(yōu)過(guò)程中用到了一階和二階導(dǎo)數(shù),并且加入了正則項(xiàng)來(lái)控制過(guò)擬合現(xiàn)象,提升了模型的預(yù)測(cè)精度。XGBoost預(yù)測(cè)能力要優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,但由于該方法在白酒產(chǎn)量預(yù)測(cè)方面的研究較為匱乏,如何將XGBoost方法應(yīng)用到實(shí)際生產(chǎn)過(guò)程中去將是本文后續(xù)的研究方向。

猜你喜歡
產(chǎn)量方法模型
一半模型
2022年11月份我國(guó)鋅產(chǎn)量同比增長(zhǎng)2.9% 鉛產(chǎn)量同比增長(zhǎng)5.6%
今年前7個(gè)月北海道魚(yú)糜產(chǎn)量同比減少37%
重要模型『一線(xiàn)三等角』
海水稻產(chǎn)量測(cè)評(píng)平均產(chǎn)量逐年遞增
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
2018上半年我國(guó)PVC產(chǎn)量數(shù)據(jù)
聚氯乙烯(2018年9期)2018-02-18 01:11:34
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 狠狠v日韩v欧美v| 亚洲精品成人7777在线观看| 四虎国产精品永久在线网址| 日本亚洲国产一区二区三区| 五月婷婷欧美| 亚洲第一在线播放| 国产69精品久久| 欧美一区二区自偷自拍视频| 亚洲日韩精品欧美中文字幕 | 久久美女精品| 国产精品视频观看裸模| 日本一区二区不卡视频| 免费播放毛片| 亚洲精品无码成人片在线观看 | 免费国产不卡午夜福在线观看| 亚洲一区二区三区香蕉| 波多野结衣一区二区三视频| 久草热视频在线| 欧美日韩国产在线人成app| 极品私人尤物在线精品首页| 99视频在线免费看| 这里只有精品国产| 青青青国产视频手机| 中文字幕有乳无码| 亚洲精品va| 毛片在线区| 女人18毛片久久| 成人91在线| 精品亚洲欧美中文字幕在线看| 亚洲午夜天堂| 天天操天天噜| 成人a免费α片在线视频网站| 国产理论最新国产精品视频| 热99re99首页精品亚洲五月天| 91欧美在线| 国产日本一线在线观看免费| 中文成人无码国产亚洲| 亚洲AⅤ综合在线欧美一区| 国产另类视频| 另类欧美日韩| 欧美精品一区在线看| 成年人免费国产视频| 欧美午夜理伦三级在线观看| 精品伊人久久久大香线蕉欧美 | 亚洲第一成网站| 婷婷久久综合九色综合88| 国产va在线观看免费| 久久人妻xunleige无码| 日韩无码视频专区| 国产欧美日韩综合在线第一| 日韩中文精品亚洲第三区| 国产v精品成人免费视频71pao| 欧美一区二区福利视频| 国产极品美女在线| 天天综合网色| 老色鬼欧美精品| av天堂最新版在线| 全裸无码专区| 日韩毛片免费| 日韩精品毛片| 欧美啪啪网| 丰满人妻久久中文字幕| 啊嗯不日本网站| 亚洲精品自产拍在线观看APP| 国产精品不卡片视频免费观看| h视频在线播放| 久久毛片免费基地| AV片亚洲国产男人的天堂| 在线精品亚洲一区二区古装| 欧美精品在线看| 免费a级毛片视频| 国产精品爆乳99久久| 国产精品免费p区| 国产精品免费露脸视频| 久久精品国产免费观看频道| 久久午夜夜伦鲁鲁片无码免费| 欧美视频在线第一页| 亚洲码一区二区三区| 亚洲三级网站| 久久精品人人做人人爽电影蜜月| 色老头综合网| 国产chinese男男gay视频网|