基于改進(jìn)LightGBM的農(nóng)機(jī)服務(wù)備件配置預(yù)測(cè)方法

2024-01-09 09:46:06溫彥博白曉平

農(nóng)機(jī)化研究 2024年4期

溫彥博,王卓,白曉平

(1.中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所,沈陽(yáng) 110000;2.中國(guó)科學(xué)院機(jī)器人與智能制造創(chuàng)新研究院,沈陽(yáng) 110169;3.中國(guó)科學(xué)院大學(xué),北京 100049)

0 引言

當(dāng)前,農(nóng)機(jī)產(chǎn)業(yè)進(jìn)入了信息發(fā)展的新時(shí)期,發(fā)展面向農(nóng)機(jī)服務(wù)網(wǎng)點(diǎn)的農(nóng)機(jī)運(yùn)維服務(wù)是提高農(nóng)機(jī)產(chǎn)業(yè)信息化水平的重要舉措。其中,實(shí)現(xiàn)各農(nóng)機(jī)服務(wù)網(wǎng)點(diǎn)的農(nóng)機(jī)服務(wù)備件配置精準(zhǔn)預(yù)測(cè)是農(nóng)機(jī)運(yùn)維服務(wù)中最為重要的一環(huán)。然而,由于目前各農(nóng)機(jī)服務(wù)網(wǎng)點(diǎn)對(duì)農(nóng)機(jī)資源備件配置預(yù)測(cè)不準(zhǔn)確,導(dǎo)致農(nóng)機(jī)配件缺貨或過(guò)度配置,進(jìn)而使得面向農(nóng)機(jī)服務(wù)網(wǎng)點(diǎn)的農(nóng)機(jī)資源運(yùn)維服務(wù)方面存在著大量的浪費(fèi)和效率低下情況。例如,在農(nóng)機(jī)損壞的情況下無(wú)法做到及時(shí)的維修處理,導(dǎo)致了在寶貴的農(nóng)忙時(shí)期耽誤了大量時(shí)間,使得農(nóng)機(jī)作業(yè)效率降低,造成了較大的成本損失。所以,對(duì)農(nóng)機(jī)服務(wù)備件配置精準(zhǔn)預(yù)測(cè),對(duì)于發(fā)展面向農(nóng)機(jī)服務(wù)網(wǎng)點(diǎn)的農(nóng)機(jī)運(yùn)維服務(wù)和提高農(nóng)機(jī)產(chǎn)業(yè)信息化水平進(jìn)行具有重要意義。

近年來(lái),隨著我國(guó)農(nóng)業(yè)信息化現(xiàn)代化的發(fā)展,一部分的學(xué)者也把目光放在了農(nóng)機(jī)服務(wù)資源的備件預(yù)測(cè)問(wèn)題上。孫碩將AHP層次分析法與傳統(tǒng)的ABC分類(lèi)相結(jié)合,并將經(jīng)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練合格的網(wǎng)絡(luò)用于備件需求量的預(yù)測(cè)[1]。周瑞基于遺傳算法優(yōu)化的灰色神經(jīng)網(wǎng)絡(luò)方法構(gòu)建需求預(yù)測(cè)模型,預(yù)測(cè)了運(yùn)維服務(wù)需求數(shù)量[2]。郭政杰基于知識(shí)挖掘?yàn)檗r(nóng)機(jī)資源備件的預(yù)測(cè)提供了數(shù)據(jù)準(zhǔn)備,并用貝葉斯網(wǎng)絡(luò)對(duì)農(nóng)機(jī)裝備進(jìn)行故障維修服務(wù)決策[3]。肖沙沙基于平衡計(jì)分卡和網(wǎng)絡(luò)分析法構(gòu)建應(yīng)急服務(wù)站選址和服務(wù)車(chē)優(yōu)化的數(shù)學(xué)模型,并運(yùn)用改進(jìn)的模擬退火算法進(jìn)行問(wèn)題求解[4]。通過(guò)對(duì)國(guó)內(nèi)外農(nóng)機(jī)服務(wù)資源備件預(yù)測(cè)方法的研究可以看出:國(guó)內(nèi)對(duì)于農(nóng)機(jī)領(lǐng)域的備件預(yù)測(cè)方法處在一個(gè)初步探索的階段,仍有很大的發(fā)展空間,無(wú)論是數(shù)據(jù)集的構(gòu)建,還是算法的選擇,并沒(méi)有因地制宜選擇符合農(nóng)機(jī)作業(yè)時(shí)限性、環(huán)境復(fù)雜性及地理位置分布性的算法[5-11]。

農(nóng)機(jī)服務(wù)資源的備件預(yù)測(cè)問(wèn)題歸根結(jié)底是一個(gè)回歸問(wèn)題,而當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域的熱門(mén)研究方向集成學(xué)習(xí)[12]對(duì)于處理該類(lèi)回歸問(wèn)題有較好的表現(xiàn)。它將一組弱學(xué)習(xí)器組合起來(lái),后面的學(xué)習(xí)器對(duì)前面的學(xué)習(xí)器的錯(cuò)誤進(jìn)行更多的關(guān)注,達(dá)到比單一的強(qiáng)學(xué)習(xí)器更好的擬合效果,且效率更高。LightGBM作為集成學(xué)習(xí)的一員,在LGBT和XGBoost[13-14]的基礎(chǔ)上進(jìn)行改進(jìn),以更快的訓(xùn)練效率、更低內(nèi)存使用得到更高的準(zhǔn)確率[15-16]。為了更加高效且精確地對(duì)農(nóng)機(jī)服務(wù)資源進(jìn)行備件預(yù)測(cè),將LightGBM模型引入農(nóng)機(jī)服務(wù)資源備件預(yù)測(cè)領(lǐng)域。首先,分析并采集可能影響農(nóng)機(jī)服務(wù)資源備件量的特征變量,并對(duì)這些特征數(shù)據(jù)與備件量的相關(guān)性分析處理,選取與預(yù)測(cè)結(jié)果相關(guān)性較大的特征建立數(shù)據(jù)集;然后,對(duì)基于LightGBM模型進(jìn)行訓(xùn)練和測(cè)試,對(duì)農(nóng)機(jī)服務(wù)資源進(jìn)行備件預(yù)測(cè)。由于LightGBM超參數(shù)繁多且對(duì)參數(shù)的調(diào)整極大程度上影響了預(yù)測(cè)結(jié)果,故在LightGBM的基礎(chǔ)上對(duì)于LightGBM的超參數(shù)使用PSO進(jìn)行優(yōu)化求解。這種改進(jìn)相比于手動(dòng)調(diào)參和網(wǎng)格搜索法調(diào)參能大大縮減參數(shù)尋優(yōu)時(shí)間,并使得預(yù)測(cè)結(jié)果會(huì)更加精準(zhǔn)。最后,通過(guò)測(cè)試對(duì)改進(jìn)的LightGBM模型和原來(lái)的LightGBM模型的結(jié)果進(jìn)行對(duì)比,采用均方根誤差(RMSE)作為評(píng)價(jià)指標(biāo)對(duì)結(jié)果進(jìn)行總結(jié)。將LightGBM引入農(nóng)機(jī)服務(wù)資源備件預(yù)測(cè)領(lǐng)域,顛覆了傳統(tǒng)的農(nóng)機(jī)備件方法,對(duì)于提高農(nóng)機(jī)作業(yè)的效率、農(nóng)機(jī)運(yùn)維的信息化和智能化水平具有一定的意義。

1 LightGBM模型原理

LightGBM是一種基于分布式的GBDT梯度決策提升樹(shù)的boosting高效算法,前一個(gè)決策樹(shù)的殘差用損失函數(shù)的負(fù)梯度來(lái)擬合下一個(gè)決策樹(shù)。其相較于XGBoost,速度更快,精度更高,能使用更多的數(shù)據(jù)且速度不降低,同時(shí)能夠在多機(jī)并行工作時(shí)做到線(xiàn)性加速。對(duì)于農(nóng)機(jī)服務(wù)資源備件預(yù)測(cè)的多數(shù)據(jù)、多特征輸入以及特征多為離散型高基數(shù)特征的情況,無(wú)需獨(dú)熱編碼,避免了產(chǎn)生大量的新特征及維數(shù)災(zāi)難。在GBDT梯度決策提升樹(shù)的基礎(chǔ)上,LightGBM做了以下改進(jìn):基于Histogram的決策樹(shù)算法,帶深度限制的Leaf-wise的葉子生長(zhǎng)策略,基于單邊梯度采樣(GOSS)和互斥特征捆綁(EFB)的特征數(shù)據(jù)處理。

1.1 基于Histogram的決策樹(shù)算法

Histogram也就是直方圖算法,其示意圖如圖1所示。圖1中,左邊直方圖算法將每一個(gè)連續(xù)的特征數(shù)據(jù)重新按取值范圍分組,映射成n個(gè)離散的整數(shù),稱(chēng)為bin,這樣就將存儲(chǔ)降了下來(lái);右邊直方圖通過(guò)特征對(duì)每一個(gè)bin數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并做梯度累加構(gòu)建而成,并找到最佳切分點(diǎn)。

圖1 Histogram的決策樹(shù)算法示意圖Fig.1 Schematic diagram of Histogram decision tree algorithm

LightGBM中直方圖構(gòu)建算法流程如下:將訓(xùn)練數(shù)據(jù)、樹(shù)的深度和特征維度作為輸入數(shù)據(jù),因?yàn)橐獙?duì)樹(shù)中的每一個(gè)節(jié)點(diǎn)構(gòu)建直方圖,所以遍歷每棵樹(shù)的深度,再遍歷每一個(gè)節(jié)點(diǎn),從中得到要使用的數(shù)據(jù)集,再遍歷所有的特征并構(gòu)建節(jié)點(diǎn)的直方圖;然后,在數(shù)據(jù)集中遍歷所有的數(shù)據(jù),將直方圖中每一個(gè)分桶作為bin,得到bins之后把梯度和個(gè)數(shù)相加,由此找到最佳的切分點(diǎn);最后,根據(jù)最佳切分點(diǎn)更新節(jié)點(diǎn)集。

直方圖做差如圖2所示。LightGBM在構(gòu)建葉子節(jié)點(diǎn)的直方圖時(shí),只計(jì)算一個(gè)葉子節(jié)點(diǎn)2的直方圖,其兄弟節(jié)點(diǎn)3的直方圖通過(guò)其父節(jié)點(diǎn)1的直方圖和該節(jié)點(diǎn)的差作為直方圖,這樣就用更小的代價(jià)得到了子節(jié)點(diǎn)的直方圖,速度為原來(lái)的兩倍。

LightGBM為了尋求最佳切分點(diǎn),首先遍歷每一個(gè)bin并累加所有左節(jié)點(diǎn)的梯度SL和數(shù)量nL,如式(1)、式(2)所示。通過(guò)上述直方圖做差的方法得到右節(jié)點(diǎn)的梯度和數(shù)量,再帶入式(3)中求得增益,選擇最大的增益節(jié)點(diǎn)作為最佳切分點(diǎn)。

SR=SP-SL

(1)

nR=nP-nL

(2)

(3)

雖然直方圖算法在特征值離散化處理后找不到最精確的切分點(diǎn),但實(shí)際上由于梯度決策樹(shù)本身就是弱學(xué)習(xí)器,故采用直方圖算法反而會(huì)起到正則化的效果,并且避免了模型的過(guò)擬合作用,即離散化的切分點(diǎn)對(duì)最終的精度反而更有利。

圖2 直方圖做差Fig.2 Histogramsubtraction

1.2 單邊梯度采樣算法(GOSS)

單邊梯度采樣算法(GOSS)和互斥特征捆綁(EFB)都是LightGBM降低特征數(shù)量以及樣本數(shù)量的降維方法。在計(jì)算增益時(shí),LightGBM采用的是一階梯度和二階梯度。本算法認(rèn)為梯度越小時(shí)其誤差越小,即表明此部分的樣本已經(jīng)訓(xùn)練完備;但是,如果直接丟棄這些樣本會(huì)影響數(shù)據(jù)分布,而本模型中采用的是單邊采樣方式適配,即GOSS算法。其采樣方式為:在進(jìn)行最佳節(jié)點(diǎn)劃分時(shí),使用所有的大梯度樣本以及一部分的小梯度樣本。

GOSS的步驟如下:首先,計(jì)算增益并對(duì)其排序,選取其中a×100%的大梯度樣本數(shù)據(jù)A,再?gòu)氖Ｓ嗟?1-a)×100%樣本中選取b×100%小梯度樣本數(shù)據(jù)B;由于小梯度樣本整體分布減少,將小梯度樣本數(shù)據(jù)放大(1-a)/b×100%倍,合并兩者進(jìn)行訓(xùn)練。

在原來(lái)的直方圖算法中,若O為弱學(xué)習(xí)器在某一個(gè)分裂節(jié)點(diǎn)的數(shù)據(jù)集,則在j個(gè)特征、分割點(diǎn)d處的增益為

(4)

在GOSS算法中,若O為弱學(xué)習(xí)器在某一個(gè)分裂節(jié)點(diǎn)的數(shù)據(jù)集,則在j個(gè)特征、分割點(diǎn)d處的增益為

(5)

其中,A為上述的大梯度樣本Al=xi∈A:xij≤d,Ar=xi∈A:xij>d;B為小梯度樣本Bl=xi∈B:xij≤d,Br=xi∈B:xij>d。

1.3 互斥特征捆綁算法(EFB)

LightGBM根據(jù)高維數(shù)據(jù)的特征有很多稀疏且互斥的特性提出了互斥特征捆綁算法(EFB)。EFB為了特征的維度降低,將互斥的特征合并成一個(gè)特征“束”,稱(chēng)為bundle。通過(guò)貪心算法找到可以進(jìn)行合并的特征,再通過(guò)互斥特征合并MEF(Merge Exclusive feature)算法將特征合并成一個(gè)bundle。

EFB算法通過(guò)貪心算法的圖著色原理找到可以進(jìn)行合并的特征。首先,對(duì)特征按從大到小的順序排序;然后,新建一個(gè)bundle對(duì)圖遍歷。如果沖突很小,就劃分到一個(gè)bundle中;如果沖突很大,就新建一個(gè)bundle。

MEF算法將特征合并成一個(gè)bundle,關(guān)鍵在于要確保原始特征可以從bundle中識(shí)別出來(lái),如圖3所示。由于直方圖的算法存儲(chǔ)的是離散的bin,而不是特征的連續(xù)值,所以可以通過(guò)向特征的原始值添加偏移量來(lái)實(shí)現(xiàn)。

圖3 MEF算法原理示意圖Fig.3 Schematic diagram of MEF algorithm

1.4 決策樹(shù)生長(zhǎng)方式

原來(lái)的決策樹(shù)以L(fǎng)evel-wise方法為生長(zhǎng)策略,即對(duì)每一層的節(jié)點(diǎn)都進(jìn)行一次分裂然后再剪枝。其優(yōu)點(diǎn)在于容易進(jìn)行多線(xiàn)程的并行化,而且不容易發(fā)生過(guò)擬合,如圖4所示。但是,實(shí)際上有很多節(jié)點(diǎn)的分裂增益并沒(méi)有那么高,對(duì)每個(gè)節(jié)點(diǎn)分裂搜索勢(shì)必會(huì)導(dǎo)致決策樹(shù)的生長(zhǎng)效率降低。

LightGBM為了降低損失,對(duì)決策樹(shù)的生長(zhǎng)策略為L(zhǎng)eaf-wise,即以每1個(gè)葉子節(jié)點(diǎn)的增益作為劃分依據(jù),如圖5所示。在第一次分裂時(shí),生成2、3兩節(jié)點(diǎn),3節(jié)點(diǎn)增益更大,故選取3作為下一個(gè)分裂點(diǎn);比較剩余節(jié)點(diǎn)2、4、5等3個(gè)節(jié)點(diǎn),4節(jié)點(diǎn)增益更大,故選取4作為下一個(gè)分裂點(diǎn);比較剩余節(jié)點(diǎn)2、5、6、7節(jié)點(diǎn),2節(jié)點(diǎn)增益更大,故選取2作為下一個(gè)分裂點(diǎn)。

圖4 Level-wise生長(zhǎng)策略Fig.4 Level-wisegrowth strategy

圖5 Leaf-wise生長(zhǎng)策略Fig.5 Leaf-wisegrowth strategy

1.5 基于PSO的LightGBM超參數(shù)優(yōu)化

LightGBM算法針對(duì)leaf-wise樹(shù)的參數(shù)優(yōu)化及更快的訓(xùn)練速度,旨在獲取更好的準(zhǔn)確率,緩解過(guò)擬合有繁多的超參數(shù)。這些參數(shù)直接影響了算法的計(jì)算效率與準(zhǔn)確度,故將PSO算法引進(jìn)LightGBM中優(yōu)化該算法中的超參數(shù)。

PSO算法作為一種群體智能優(yōu)化算法,用粒子模擬鳥(niǎo)群中的鳥(niǎo),粒子具有速度v和位置x兩個(gè)屬性。每一個(gè)粒子搜尋自己的個(gè)體最優(yōu)解,然后把個(gè)體最優(yōu)解與其他粒子共享,整個(gè)粒子群中的最優(yōu)的個(gè)體最優(yōu)解為當(dāng)前全局最優(yōu)解,所有粒子根據(jù)個(gè)體最優(yōu)解和全局最優(yōu)解來(lái)調(diào)整速度和位置。速度更新和位置更新的公式為

Vid=ωVid+C1random()(Pid-Xid)+

C1random()(Pgd-Xid)

(6)

Xid=Xid-Vid

(7)

其中,C1、C2為學(xué)習(xí)因子;Vid為粒子速度;Pid為第i個(gè)變量第d維的個(gè)體最優(yōu)解;Pgd為第d維的群體最優(yōu)解;ω為慣性因子,該值越大全局收斂能力越強(qiáng),相應(yīng)的局部收斂能力越弱。通常在算法初期選擇較大的ω,以快速地尋找全局最優(yōu)。該值越小,全局收斂能力越弱,相應(yīng)的局部收斂能力越強(qiáng)。通常在算法后期選擇較小的ω,以精細(xì)地尋找極值點(diǎn)。動(dòng)態(tài)ω的更新公式為

ω(t)=(ωini-ωend)(Gk-g)/Gk+ωend

(8)

將LightGBM超參數(shù)作為PSO算法的輸入,將其結(jié)果的MSE均方誤差計(jì)算出來(lái),作為PSO的適應(yīng)度函數(shù),尋求RMSE的最低值。

2 實(shí)驗(yàn)驗(yàn)證

2.1 影響因素分析及特征選擇

農(nóng)機(jī)作業(yè)環(huán)境復(fù)雜,種類(lèi)繁多,影響農(nóng)機(jī)服務(wù)資源儲(chǔ)備的因素很多,且有很多類(lèi)別型數(shù)據(jù),無(wú)疑加大了精準(zhǔn)預(yù)測(cè)的難度。為了更加全面地分析農(nóng)機(jī)服務(wù)資源備件的影響特征,從農(nóng)機(jī)作業(yè)環(huán)境信息、服務(wù)網(wǎng)點(diǎn)信息和備件信息3個(gè)方面綜合全面地選擇影響備件量的特征。

在農(nóng)機(jī)作業(yè)環(huán)境信息方面,一般來(lái)說(shuō)溫度越高、濕度越高對(duì)農(nóng)機(jī)的自然損耗越大,越容易造成農(nóng)機(jī)零部件的需求量增加;反之,氣候越干燥,對(duì)農(nóng)機(jī)的自然損耗越小,越容易造成農(nóng)機(jī)零部件需求量的減少。地理?xiàng)l件越惡劣的地方,越容易造成備件需求量的增加;地理?xiàng)l件越優(yōu)越的地方,越不容易造成備件需求量的增加。

在服務(wù)網(wǎng)點(diǎn)信息方面,按照經(jīng)驗(yàn),每個(gè)農(nóng)機(jī)服務(wù)網(wǎng)點(diǎn)所覆蓋的農(nóng)機(jī)作業(yè)面積與備件需求量成線(xiàn)性關(guān)系。例如,農(nóng)機(jī)持有量越多,農(nóng)機(jī)的作業(yè)強(qiáng)度越大,對(duì)備件的需求量也越大,應(yīng)作為主要的參考特征。同時(shí),農(nóng)機(jī)類(lèi)型以及農(nóng)機(jī)的作業(yè)類(lèi)型也與備件量有著千絲萬(wàn)縷的聯(lián)系。

在零部件信息方面,本文選取了配件類(lèi)型、配件名稱(chēng)、配件型號(hào)、配件價(jià)格、制造廠(chǎng)商、配件市場(chǎng)需求量、配件在服務(wù)網(wǎng)點(diǎn)的消耗量等多維信息作為特征輸入。

2.2 特征處理及相關(guān)性分析

對(duì)于對(duì)照組的其他算法,需要對(duì)數(shù)值型數(shù)據(jù)進(jìn)行歸一化處理,如式(9)所示。其中,x為原始數(shù)據(jù),x′為歸一化處理后的數(shù)據(jù)。對(duì)于氣候信息、地理環(huán)境等信息,將其分為[好壞]等類(lèi)別型數(shù)據(jù),并進(jìn)行獨(dú)熱編碼處理。對(duì)于LightGBM模型來(lái)說(shuō),本質(zhì)是上文提到的直方圖算法,不需要對(duì)數(shù)據(jù)進(jìn)行歸一化和獨(dú)熱編碼處理。直方圖算法對(duì)于數(shù)值型特征以及類(lèi)別性特征有著不一樣的分bin策略。對(duì)于數(shù)值型特征而言,首先對(duì)特征進(jìn)行去重,并按從大到小的順序排序?qū)γ恳粋€(gè)特征值統(tǒng)計(jì)個(gè)數(shù);然后,比較最大的分bin個(gè)數(shù)和去重后的特征值個(gè)數(shù),選取更小的那個(gè)作為直方圖分bin的數(shù)目;最后,計(jì)算每一個(gè)bins中的平均樣本個(gè)數(shù),即用特征值個(gè)數(shù)與分bin的數(shù)目相除。如果有某一個(gè)bins中的個(gè)數(shù)大于平均樣本個(gè)數(shù),就取該值作為bins上限,并選取小于平均樣本個(gè)數(shù)的第1個(gè)值作為bins下限;如果有某一個(gè)bins的個(gè)數(shù)小于平均樣本個(gè)數(shù),那么需要對(duì)其累加并分組。對(duì)類(lèi)別型的特征用數(shù)值進(jìn)行排序,首先對(duì)特征值統(tǒng)計(jì)出現(xiàn)的次數(shù),并按從大到小的次序進(jìn)行排序;然后,和數(shù)值型特征一樣,比較最大的分bin個(gè)數(shù)和去重后的特征值個(gè)數(shù),選取更小的那個(gè)作為直方圖分bin的數(shù)目;最后,將特征值和bin結(jié)合起來(lái)進(jìn)行最佳點(diǎn)的劃分。

(9)

對(duì)于有空缺值的數(shù)據(jù)采用折中法,即對(duì)于數(shù)值類(lèi)型特征取中位數(shù),如式(10)所示。其中,m為所有不為空值數(shù)據(jù)的數(shù)量,對(duì)于分類(lèi)類(lèi)型特征取None。

(10)

遍歷每一個(gè)類(lèi)別型特征,對(duì)于有某一種類(lèi)別占該特征總類(lèi)別數(shù)大于70%的特征,認(rèn)為該特征不具有有效性,刪除該特征不進(jìn)行訓(xùn)練。

查看訓(xùn)練集數(shù)據(jù)各特征之間的相關(guān)性,并對(duì)其分析可發(fā)現(xiàn):對(duì)于數(shù)值型數(shù)據(jù)(見(jiàn)圖6～8),農(nóng)機(jī)作業(yè)面積、農(nóng)機(jī)作業(yè)強(qiáng)度以及農(nóng)機(jī)保有量有較強(qiáng)的相關(guān)性,即農(nóng)機(jī)作業(yè)面積越大、農(nóng)機(jī)作業(yè)強(qiáng)度越強(qiáng)、農(nóng)機(jī)保有量越多,所需要的備件量越大,反之亦然,基本符合上文對(duì)備件量影響因素的分析。

圖6 農(nóng)機(jī)作業(yè)面積與備件量相關(guān)性示意圖Fig.6 Schematic diagram of correlation between cultivated area and count

圖7 農(nóng)機(jī)作業(yè)強(qiáng)度與備件量相關(guān)性示意圖Fig.7 Schematic diagram of correlation between cultivated force and count

圖8 農(nóng)機(jī)保有量與備件量相關(guān)性示意圖Fig.8 Schematic diagram of correlation between machinery count and count

類(lèi)別型數(shù)據(jù)(見(jiàn)圖9～圖12)分別為氣候因素、地理環(huán)境、農(nóng)機(jī)維修次數(shù)以及農(nóng)機(jī)工作年限對(duì)備件量的影響,可以看出:氣候潮濕、地理環(huán)境惡劣、農(nóng)機(jī)維修次數(shù)越多,農(nóng)機(jī)工作時(shí)間越長(zhǎng),對(duì)農(nóng)機(jī)零部件消耗量越大,反之亦然,也符合上文對(duì)備件量影響因素的分析。

圖9 氣候因素與備件量相關(guān)性示意圖Fig.9 Schematic diagram of correlation between climate and count

圖10 地理環(huán)境因素與備件量相關(guān)性示意圖Fig.10 Schematic diagram of correlation between environment and count

圖11 農(nóng)機(jī)保養(yǎng)情況與備件量相關(guān)性示意圖Fig.11 Schematic diagram of correlation between service cod and count

圖12 農(nóng)機(jī)工作年限與備件量相關(guān)性示意圖Fig.12 Schematic diagram of correlation between work life and count

2.3 模型訓(xùn)練

實(shí)驗(yàn)選用1460條備件數(shù)據(jù),將農(nóng)機(jī)作業(yè)環(huán)境、服務(wù)點(diǎn)信息以及備件信息三大維度內(nèi)的多個(gè)上述特征作為輸入,將訓(xùn)練集與測(cè)試集以3:1的比例劃分,用LightGBM算法完成對(duì)備件量的擬合預(yù)測(cè),以均方根誤差RMSE作為評(píng)價(jià)標(biāo)準(zhǔn)。選用線(xiàn)性回歸、隨機(jī)森林、XGBoost算法作為對(duì)比驗(yàn)證,則

(10)

模型驗(yàn)證結(jié)果如表1所示。由表1可以看出:集成學(xué)習(xí)的算法隨機(jī)森林、XGBoost、LightGBM的RMSE值28.63、28.43、27.67遠(yuǎn)小于線(xiàn)性回歸的RMSE值41.94,在本問(wèn)題的求解上有較好的表現(xiàn);而對(duì)比LightGBM與隨機(jī)森林、XGBoost,LightGBM的RMSE值27.67比隨機(jī)森林和XGBoost的RMSE值28.63和28.43有一定的進(jìn)步。

表1 模型驗(yàn)證結(jié)果

LightGBM算法的超參數(shù)繁多,合理地調(diào)整超參數(shù)能使模型的預(yù)測(cè)結(jié)果更加精確。因此,將LightGBM的超參數(shù)分為兩大類(lèi),即核心參數(shù)和默認(rèn)參數(shù)。核心參數(shù)的調(diào)整對(duì)于結(jié)果的準(zhǔn)確性有較大的影響;默認(rèn)參數(shù)使用模型默認(rèn)的值就可以有很好的效果,故使用默認(rèn)值,如min_split_gain,min_child_sample,min_child_weight。在此,核心參數(shù)被分成根據(jù)經(jīng)驗(yàn)確定的超參數(shù)以及通過(guò)算法調(diào)優(yōu)確定的超參數(shù)。根據(jù)經(jīng)驗(yàn)確定的超參數(shù)n_estimators迭代次數(shù)設(shè)置成1000,boosting_type經(jīng)驗(yàn)證設(shè)置成gbdt在本模型上效果更好。通過(guò)算法調(diào)優(yōu)確定的超參數(shù)及取值范圍表2所示。

表2 超參數(shù)取值范圍

在進(jìn)行參數(shù)調(diào)優(yōu)時(shí),人們常常采用網(wǎng)格搜索法grid search進(jìn)行尋優(yōu)。雖然用網(wǎng)格搜索法能找到最高的精確率,但對(duì)于像本模型如此大的算例和多維的特征時(shí)往往很耗費(fèi)時(shí)間,而使用PSO的群智能啟發(fā)算法就可以避免使其遍歷所有的點(diǎn)就可以找到最佳參數(shù)。工作時(shí),使用PSO算法對(duì)LightGBM參數(shù)進(jìn)行調(diào)優(yōu)。先初始化表2中的LightGBM超參數(shù)初始值,將RMSE評(píng)價(jià)標(biāo)準(zhǔn)作為PSO的適應(yīng)度函數(shù),不斷更新每個(gè)粒子的個(gè)體最優(yōu)值和群體最優(yōu)值,直到找到使RMSE達(dá)到最小的參數(shù),流程如圖13所示。

2.4 實(shí)驗(yàn)結(jié)果分析

將上述超參數(shù)作為輸入,維數(shù)為8,粒子群的種群規(guī)模設(shè)置為40,最大迭代次數(shù)為200,ω慣慣性權(quán)重設(shè)為0.8,個(gè)體記憶c1為0.5,群體記憶c2為0.5,迭代直到找到使RMSE達(dá)到最小的參數(shù),結(jié)果如表3所示。

通過(guò)PSO的超參數(shù)尋優(yōu)求解,得出PSO-LightGBM的RMSE,并用貝葉斯優(yōu)化算法Bayesian Optimization參數(shù)調(diào)優(yōu)作為對(duì)照,結(jié)果如表4所示。

圖13 PSO-LightGBM流程圖Fig.13 PSO-LightGBMflow chart

表3 PSO-LightGBM超參數(shù)尋優(yōu)結(jié)果Table 3 PSO-LightGBM hyper-parameter results

表4 模型驗(yàn)證對(duì)照表

續(xù)表4

表4中,對(duì)比LightGBM和BO-LightGBM、PSO-LightGBM,可以看出:BO-LightGBM、PSO-LightGBM的RMSE值25.84和24.74小于LightGBM的27.67。通過(guò)超參數(shù)調(diào)優(yōu)后,LightGBM算法的RMSE值有明顯的降低,大大提高了LightGBM算法的精度。

對(duì)比可知:BO-LightGBM的RMSE值24.74小于PSO-LightGBM的RMSE值25.84。因此,使用PSO調(diào)優(yōu)的結(jié)果比貝葉斯優(yōu)化的結(jié)果更好。

3 結(jié)論

根據(jù)農(nóng)機(jī)在服務(wù)網(wǎng)點(diǎn)備件配置預(yù)測(cè)不準(zhǔn)確導(dǎo)致農(nóng)機(jī)服務(wù)資源備件浪費(fèi)的問(wèn)題,提出了一種基于改進(jìn)LightGBM的農(nóng)機(jī)服務(wù)資源的備件預(yù)測(cè)方法。確定了農(nóng)機(jī)作業(yè)環(huán)境信息、服務(wù)點(diǎn)信息以及備件信息三大維度內(nèi)的多個(gè)特征,驗(yàn)證了影響農(nóng)機(jī)服務(wù)資源需求量的主要影響因素。基于LightGBM建立了農(nóng)機(jī)服務(wù)資源備件預(yù)測(cè)模型,并使用PSO算法對(duì)模型的超參數(shù)進(jìn)行調(diào)優(yōu)。實(shí)驗(yàn)驗(yàn)證表明:與隨機(jī)森林、XGBoost等算法相比,LightGBM模型有更好的效果,RMSE值為27.67。通過(guò)PSO的超參數(shù)調(diào)優(yōu),LightGBM備件預(yù)測(cè)的精確性更進(jìn)一步,RMSE值為24.74,能夠較為準(zhǔn)確地預(yù)測(cè)農(nóng)機(jī)服務(wù)資源在服務(wù)網(wǎng)點(diǎn)的備件需求。今后,在獲得更多精準(zhǔn)數(shù)據(jù)的基礎(chǔ)上,將會(huì)不斷優(yōu)化該算法模型,主要方向是提升算法的優(yōu)化速度。