999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM 模型的離散制造業產品物料需求智能預測

2023-09-21 15:48:52李婷婷黃欣迪曹萌萌李劍鋒
智能計算機與應用 2023年9期
關鍵詞:特征模型

李婷婷, 黃欣迪, 曹萌萌, 李劍鋒

(中國計量大學經濟與管理學院, 杭州 310018)

0 引 言

大數據驅動制造產業智能化,人工智能助力制造業數字化轉型升級,隨著疫情環境下制造業現有供應鏈脆弱性的暴露,企業原有的預測算法已不能滿足制造業企業對物料需求預測的準確性。 為有效減少物料短缺與過度采購現象,助力企業降低庫存成本,提高采購效率,縮短交貨周期,提高企業抗風險能力,迫切需要精準度更高的預測模型[1]。

物料需求預測是指根據企業已有的銷售或物料消耗數據,對企業未來一段時間內生產運營所需要的物料種類以及數量進行分析研究。 預測方法大致分為定性預測法和定量預測法。 其中,定性預測法根據預測者個人的知識、經驗和主觀判斷,主觀隨意性較大,預測結果的準確度不能達到制造企業的實際需求。 時間序列分析是較為常用的定量預測法,起源于英國統計學家G.u.Yule 在1927 年提出的自回歸模型(Auto Regressive,AR)[2]。 該模型與英國統計學家G.T.Walker 在1931 年提出的移動平均(Moving Average,MA)模型和ARMA 模型,構成了時間序列分析的基礎,至今仍被大量應用[3]。 這三個模型主要應用于單變量、同方差場合的平穩序列,在解決線性時間序列的擬合問題上有著卓越表現。但現實中多為非線性復雜問題[4],相較于傳統的時間序列預測方法,引入機器學習算法[5]可以更好地解決非線性時間序列的擬合問題。 李福等人[6]基于機器學習XGBoost 算法,對紐約市共享單車借車需求量進行了有效的預測。 李衛星等[7]使用XGBoost 算法,對4 種工況下柴油機失火故障的平均預測準確率達90%以上。 周宇陽[8]提出了一種基于機器學習SVM 算法的需求分析模型,利用該模型對沿海地區LNG 進行仿真預測。 Ntakolia,C.等[9]認為傳統方法未考慮歷史數據信息,因此對多種機器學習模型進行對比和校準,得到了預測準確性較高的LightGBM 算法,從而對庫存系統中的延期交貨率進行了有效預測。 Javad Feizabadi[5]開發了機器學習混合需求預測方法,將時間序列和解釋因素都輸入到開發模型中,發現了具有統計學意義的供應鏈改善差異。

目前,國內外需求量預測相關研究已積累了一些成果,但較少考慮離散制造業產品種類多、定貨數量多等特點對需求量預測的影響,難以滿足企業對預測準確性和實效性的要求。 XGBoost 算法相比其它算法收斂慢、預測耗時大、超參數多且復雜,人工調參具有較高難度,各參數的取值大小直接影響模型的預測精度,因此存在預測精度受限的問題[10-11]。 SVM 廣泛應用于模式識別和回歸估計等領域,與其它算法相比在解決小樣本、高維非線性決策問題時有很大的優勢[12],但仍然存在計算復雜、泛化能力差和過擬合等固有局限[13],在制造業需求預測問題上仍有一定的提升空間。 針對上述問題,相對于XGBoost 和SVM 算法,LightGBM 算法在樣本規模較大、特征維度較高的預測任務中,呈現出計算能力強且精準度高的優勢。

本研究擬采用LightGBM 機器學習集成算法對原始數據進行建模,劃分訓練集和測試集。 將時間序列下的物料需求量數據和庫存數據輸入模型進行訓練,利用訓練好的LightGBM 模型,在測試集上預測未來時間段內的物料需求量,同時將基于決策樹的LightGBM 物料需求預測模型與傳統時間序列SARIMA 模型的預測結果進行對比,為離散制造業物料需求預測問題探尋更優的預測模型。

1 實驗模型

1.1 LightGBM 算法

LightGBM 算法是一種并行學習的機器學習算法,其中基于梯度的單邊采樣算法(Gradient-based One-Side Sampling,GOSS)和互斥特征捆綁算法(Exclusive Feature Bundling,EFB)解決了在大樣本高維度數據情況下耗時長、占用內存大的問題。 本文通過構建基于Boosting 學習方式的LightGBM 預測模型,降低數據異常值對預測準確度的影響,忽略異常值權重,防止過擬合。

1.1.1 基于梯度單邊采樣的GOSS 算法

梯度大的樣本點會貢獻更多的信息增益,為了保持信息增益評估的精度,對樣本進行采樣時保留梯度大的樣本點,對于梯度小的樣本點按比例進行隨機采樣。 如果一個樣本點的梯度小,則該樣本點的訓練誤差就小,直接的辦法就是拋棄梯度小的樣本點,但該做法可能會改變數據的分布、損失學習的模型精度。 而GOSS 算法的提出,則避免了上述問題。 GOSS 算法描述詳見表1。

表1 GOSS 算法描述Tab. 1 GOSS algorithm description

1.1.2 EFB 算法

LightGBM 算法不僅進行了數據采樣,也進行了特征抽樣,使得模型的訓練速度進一步地提升,即將互斥特征綁定在一起,從而減少特征維度。 其主要思想是,在實際應用中高緯度的數據往往都是稀疏數據,故而需要設計一種幾乎無損的方法,來減少有效特征的數量。 在稀疏特征空間中,許多特征都是互斥的,因此可將互斥特征綁定在一起,形成一個特征,從而減少特征維度。

EFB 算法將特征劃分為更小的互斥綁定數量,是一個NP-hard 問題,即在多項式時間內不可能找到準確的解決辦法。 因此,使用一種近似的解決辦法,即特征之間允許存在少量的樣本點并不是互斥的,允許小部分的沖突可以得到更小的特征綁定數量,更進一步地提高計算的有效性。

1.1.3 基于直方圖的決策樹算法

GBDT 算法由于要遍歷每一個數據計算信息增益以獲得最佳分裂點,時間復雜度高,而本研究樣本數量非常大。 為解決該問題,Ke 等[14]提出了基于直方圖的決策樹算法,將連續的特征離散化為k個離散特征,也就是分桶bins思想,同時構造一個寬度為k的直方圖用于統計信息(含有k個bin)。 利用直方圖算法則無需遍歷全部數據,只需要遍歷N/k個數據即可找到最佳分裂點,極大地提高了訓練效率,縮減了內存占用空間[15]。

1.1.4 帶深度限制的leaf-wise 決策樹生長策略

如圖1 所示,level-wise 生長策略,即數據可以同時分裂同一層的葉子,容易進行多線程優化,也可以較好控制模型復雜度,不容易過擬合。 但實際上,level-wise 是一種低效的算法,很多分裂增益較低的葉子也會進行分裂和搜索,增加了計算量。

圖1 level-wise 生長策略Fig. 1 level-wise growth strategy

為優化上述問題,提出leaf-wise 生長策略,如圖2 所示。 決策樹每次從當前所有葉子中找到分裂增益最大(一般也是數據量最大)的一個葉子,然后分裂,如此循環。 在分裂次數相同的情況下,和level-wise 相比,leaf-wise 可以得到更高的精準度。但是,leaf-wise 可能會長出較深的決策樹,產生過擬合。 為解決該問題,LightGBM 在使用leaf-wise 策略時,對最大深度進行限制,在保證高效率、高精準度的同時防止過擬合。

圖2 leaf-wise 生長策略Fig. 2 leaf-wise growth strategy

使用了GOSS 算法、Histogram 算法、EFB 算法的梯度提升樹(GBDT) 稱之為LightGBM,相較于XGBoost 等的GBDT 算法,LightGBM 的許多特性(如leaf-wise 的決策樹生長策略,類別特征值的最優分割策略,數據和特征的并行學習等)都使算法的性能迅速提升[16]。

1.2 SARIMA 模型

為了驗證LightGBM 模型的預測準確率,本文采用基于ARIMA 的季節性模型SARIMA(p,d,q)×(P,D,Q,s),全稱為季節性自回歸移動平均模型進行對比,該模型是一種常見的時間序列分析模型[17]。 其中AR 是“自回歸”,p為自回歸項數;I為差分,d為使之成為平穩序列所做的差分次數(階數);MA為“滑動平均”,q為滑動平均項數;季節性序列的變化周期用s表示,對于月度序列s=12,對于季度序列s=4。

SARIMA 模型對時間序列的分析預測基本流程如圖3 所示:

圖3 SARIMA 流程圖Fig. 3 SARIMA Flow Chart

2 實驗過程與分析

本文研究的制造業原始數據集來源于美的集團,實驗選取了該企業2018 ~2020 年的歷史數據,實驗數據集共包含1 183 594 條樣本數據,其主要結構描述見表2。

表2 實驗數據集Tab. 2 Experimental data set

2.1 LightGBM 模型實驗

2.1.1 數據預處理

由于制造業原始物料需求數據存在類型不一,殘缺等問題,無法直接進行數據分析或建模。 為提高數據挖掘的質量及預測精準度,需在數據分析之前進行數據預處理。

2.1.1.1 數據清洗

離散制造業物料原始數據大多來源于物流單據,可能存在時間空缺、錯位等問題,真實且完整的數據更有利于提高模型的預測精準度。 本研究通過數據清洗填充關鍵性空值數據,同時刪除、更正錯誤或重復的數據。 結合離散制造業實際業務,原始需求量數據部分特征不能應用于預測模型,故剔除了與預測結果無關的特征。

2.1.1.2 時間切片

數據集中含有962 個“工廠編碼_物料編碼”組合,不能直接體現各個工廠物料具有的時間特征因素,因此選擇以月為時間粒度,對現有數據進行時間切片。 一條數據包括一個月內的物料種類、物料需求量與物料庫存量等。 切片后的數據從第一月開始生成對應id,見表3,作為數據的時間特征以及預測模型的影響因子之一參與模型優化。

表3 經數據清洗與時間切片后樣表Tab. 3 Sample table after data cleaning and time slicing

2.1.2 特征工程

特征工程是指用一系列工程化的方式,從原始數據中篩選出更好的數據特征,以提升模型的訓練效果。 特征工程通常包括數據預處理、特征選擇、降維等環節。

表3 所示的數據集包含了每個工廠對不同類型物料的月需求量,直接影響目標預測變量值的因素為過賬日期。 由于在構建模型時決定性特征數量較少,為使模型訓練更準確,可解釋性更強,研究利用統計學中的統計量,構建出新的數據特征--滑動特征和滯后特征,見表4。 構建滑動窗口特征將時間序列在時間軸上劃分窗口,是常用且有效的方法,其中包括滑動窗口和滾動窗口。 窗口分析對平滑噪聲或粗糙的數據非常有用,如移動平均法等。 利用這種方式結合基礎的統計方法,通過對同一特征在不同時間跨度下進行分析,得到整體數據更加一般化的變化趨勢。

表4 構建滯后和滑動特征Tab. 4 Build hysteresis and slip characteristics

2.1.3 實驗結果及分析

為探尋每年需求量的一般規律,本研究將每個工廠、每種物料的月需求量可視化。 如圖4 所示,2018~2020 年的需求趨勢在時間上并未出現顯著的周期性規律;2019 年3 月至6 月數據呈現較大幅度的增長,同比往年數據,2019 年末的需求量也有一定幅度的增長,數據波動較大,可能是受線上大型電器促銷活動和疫情等影響;2018 年和2020 年數據增長趨勢較為一致,均在6、7 月份達到峰值,較為符合消費者對于美的電器的季節性需求規律。

圖4 月需求量曲線(2018 年1 月~2020 年11 月)Fig. 4 Monthly demand curve (January 2018 to November 2020)

基于上述分析,為預測2020 年12 月及2021 年1 月、2 月的需求量,本研究選取2018 年1 月至2019年11 月的物料需求量數據作為訓練集對模型進行擬合,將2019 年12 月及2020 年1 月、2 月的數據作為驗證集,來驗證模型的可行性和精準度。 在此基礎上對模型不斷優化,最終得到擬合度較好的LightGBM 模型。

通過預測分析,將2019 年12 月部分“工廠_物料編碼”組合的實際需求量(圖5)和預測需求量(圖6)可視化,并得出預測-實際對比需求量曲線(圖7)。 可以看出,預測數據和實際數據基本一致,模型擬合度較好。

圖5 實際需求量曲線Fig. 5 Actual demand curve

圖6 預測需求量曲線Fig. 6 Forecast demand curve

圖7 預測-實際對比需求量曲線Fig. 7 Forecast-actual demand curve

2.2 SARIMA 模型實驗

2.2.1 數據預處理

SARIMA 模型適用于研究單變量在時間上的變化,而本研究需要解決多個不同工廠、不同物料隨時間變化而引起的需求量變化問題,所以采用LabelEncoder 方法構建類別特征見表5。 將工廠和物料編碼結合起來,從而可以對任意一個kind(類別)進行模型構建和預測。

表5 數據預處理及類別編碼Tab. 5 Data preprocessing and category coding

2.2.2 數據平穩性檢驗與變換

為防止“偽回歸”,選取工廠編碼“kind =30”的時間序列進行ADF 平穩性檢驗,檢驗結果見表6。可以看出, 該工廠編碼時間序列的P值為0.460 481 744 342 412 24,大于0.05,原始序列是非平穩的。 進行一階差分后的時間序列P值為7.984 048 924 803 763e-05,小于0.05,滿足平穩性。 因此,工廠編碼“kind =30”的時間序列是一階單整序列,即ps~I(1)。

表6 序列平穩性檢驗Tab. 6 Test of sequence stationarity

2.2.3 參數估計

從圖8(ACF)與圖9(PACF)中可以看出,一階差分后的“工廠_物料”編碼“kind =30”的時間序列自相關圖和偏自相關圖都有拖尾衰減特征,適合建立ARMA 模型。 結合表7 的參數確認方法,確認出p=1、q=1。 綜上分析,采用ARIMA(1,1,1)模型進行擬合。

圖8 自相關圖Fig. 8 Autocorrelation graph

圖9 偏自相關圖Fig. 9 Partial autocorrelation graph

表7 參數確認方法Tab. 7 Parameter confirmation method

本實驗對類別“kind =30”的數據進行季節性分解,得到原始數據的趨勢、季節性因素和殘差。 圖10 顯示出原始數據具有較明顯的以年為周期的季節性特征,所以時間序列的周期s可以取12。

圖10 季節性分解結果圖Fig. 10 Seasonal decomposition results

對抽取出的季節性因素數據進行ADF 平穩性檢驗,得到P值為0.0,說明原季節性因素數據滿足平穩性,不需要進行差分,故D=0。

根據季節性因素的偏自相關圖(圖11)和自相關圖(圖12),結合網格搜索的AIC值,確定較優的模型參數P=3、Q=1。 最終得到較優的SARIMA(1,1,1)×(3,0,1,1,2)模型。

圖11 季節性因素偏自相關圖Fig. 11 Partial autocorrelation graph of seasonal factors

圖12 季節性因素自相關圖Fig. 12 Autocorrelation chart of seasonal factors

2.2.4 模型預測

利用上述確定的最優參數SARIMA(1,1,1)×(3,0,1,1,2),來擬合有效模型進行動態預測。 如圖13 所示,表明該模型對需求量擬合效果較好,但從長期來看,其擬合效果存在一定偏差。

圖13 SARIMA 擬合預測-真實需求量對比圖Fig. 13 SARIMA fitting forecast-real demand comparison chart

2.3 模型對比分析

選取平均絕對誤差MAE作為衡量兩種模型預測精準度的指標,如式(1)所示。

其中,指預測值;yi指真實值;n為樣本數量;MAE的范圍為[0,+∞)。 當預測值與真實值完全吻合時等于0,即完美模型,誤差越大,該值越大。MAE的值越小,說明預測模型擁有更好的預測精準度。

由表8 分析可知,與季節性的時間序列SARIMA 模型相比,基于決策樹的LightGBM 機器學習模型平均絕對誤差較小,擁有更高的預測精準度。

表8 MAE 值對比Tab. 8 MAE value comparison

3 結束語

本文以離散制造業企業美的為例,分析2018 年至2020 年的產品物料需求數據,利用基于決策樹的LightGBM 機器學習模型對企業物料需求量進行預測,為了研究該模型在實際應用中的優勢,構建傳統時間序列SARIMA 對比模型。 對比分析實驗結果表明,SARIMA 需要針對每個“工廠編碼_物料編碼_id”,分別進行獨立建模,模型構建過程復雜、耗時較長,計算量較大,且結果顯示平均絕對誤差MAE大、精準度較低;基于決策樹的LightGBM 機器學習模型構建過程簡單、平均絕對誤差MAE小、預測精確度較高,在月粒度下的短期需求預測結果滿足企業實際生產的準確性和實效性要求。

LightGBM 機器學習預測模型為物料需求預測提供了科學可行的解決方案,為企業智能化管理提供了技術支持。 然而,在構建特征工程時,并未考慮到影響需求量的其他外在因素(如疫情影響、節假日、線上優惠活動等),以期在后續研究中進一步分析完善。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 激情视频综合网| 91po国产在线精品免费观看| www.99在线观看| 成人福利在线观看| 极品私人尤物在线精品首页 | 国产探花在线视频| 91黄色在线观看| 在线亚洲小视频| 久久不卡精品| 婷婷丁香在线观看| 婷婷亚洲视频| 91日本在线观看亚洲精品| AV无码一区二区三区四区| 精品国产香蕉在线播出| 亚洲国产综合自在线另类| 成人一级黄色毛片| 久久久久亚洲精品无码网站| 特黄日韩免费一区二区三区| 日韩毛片免费观看| 伊人婷婷色香五月综合缴缴情| A级毛片高清免费视频就| 国产成人综合亚洲网址| 国产欧美亚洲精品第3页在线| 2021亚洲精品不卡a| 四虎精品黑人视频| 精品无码视频在线观看| 天天综合网色中文字幕| 丁香五月亚洲综合在线| 日本免费新一区视频| 毛片卡一卡二| 亚洲欧美在线综合图区| 九色在线视频导航91| 波多野结衣在线一区二区| 中文字幕欧美日韩| 久久香蕉欧美精品| 亚洲看片网| 国产成人精品亚洲日本对白优播| 强奷白丝美女在线观看| 91国内外精品自在线播放| 91av国产在线| 成人综合网址| 国产在线一区视频| 日韩人妻精品一区| 久久久精品无码一区二区三区| 精品少妇三级亚洲| 亚洲欧美另类日本| 亚洲六月丁香六月婷婷蜜芽| 欧美乱妇高清无乱码免费| 国产精品一区二区无码免费看片| 色综合中文字幕| 狠狠色香婷婷久久亚洲精品| 正在播放久久| 国产免费久久精品99re丫丫一| 精品国产污污免费网站| 91年精品国产福利线观看久久| 看国产一级毛片| 白丝美女办公室高潮喷水视频| 亚洲码一区二区三区| 亚洲成a人片在线观看88| 亚洲精品日产精品乱码不卡| 亚欧成人无码AV在线播放| 亚洲av成人无码网站在线观看| 亚洲日本一本dvd高清| 色九九视频| 中文国产成人精品久久一| 91欧洲国产日韩在线人成| 国产玖玖视频| 欧美精品H在线播放| 国产精品爽爽va在线无码观看| 99热亚洲精品6码| 不卡国产视频第一页| 嫩草影院在线观看精品视频| 色吊丝av中文字幕| 国产午夜精品鲁丝片| 午夜啪啪福利| 久久男人视频| 国产在线日本| 老熟妇喷水一区二区三区| 国产va欧美va在线观看| 亚洲Av激情网五月天| 激情成人综合网| 天天婬欲婬香婬色婬视频播放|