999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高斯混合模型的一種工業供應鏈銷售預測方法

2021-08-12 08:56:06戎荷婷楊佳云高福祥
計算機應用與軟件 2021年8期
關鍵詞:銷售特征方法

戎荷婷 姚 蘭 楊佳云 高福祥

(東北大學計算機科學與技術學院 遼寧 沈陽 110819)

0 引 言

隨著計算機技術不斷革新,工業供應鏈中的產品銷售相關數據可以被采集、存儲,并且正在以前所未有的速度增長。大數據實時分析推動學術界和業界不斷深入研究與探討更有效的分析工具與方法。針對大數據的數據結構及人工智能分析系統受到越來越多研究者的關注,其中人工智能延伸出來的機器學習理論,是從樣本中尋找規律對未來樣本或無法觀測的數據進行預測輸出的一種理論方法,其將非結構化數據或半結構化數據變換成結構化數據,并進行建模分析,由此成為當前研究熱點。

現有的工業供應鏈銷售系統中的成交預測方法大都是通過定性的方法進行銷售預測,這些方法大都理論性強、可操作性弱,預測結果往往達不到客戶與企業的心理預期。以機電產品銷售系統為例,其銷售數據往往存在數據量大、特征值較多、數據不整齊等特征,無法明確哪些特征值對預測結果有較大參考價值。對此,傳統方法采用定性的銷售預測分析,不僅對人力財力物力消耗大、要求高,而且難以將市場、不同用戶群體等因素全面考慮進去,從而導致預測結果誤差較大。

因此,本文提出了一種基于高斯混合模型(GMM)的工業供應鏈銷售預測方法。通過處理銷售系統中歷史業務數據,分析客戶消費習慣和消費能力,在此基礎上,用GMM對銷售數據集進行預測訓練,評估不同特征值和聚類簇數下的模型性能,生成較為成熟的模型,最終實現銷售預測。

1 相關工作

文獻[1]指出銷售預測是企業供應鏈管理的關鍵環節,通過銷售預測,企業可以制定科學合理的原材料采購計劃、生產計劃、人員配備計劃、庫存計劃及營銷計劃。因此,銷售預測決策支持系統對企業的經營決策具有重要的研究意義。銷售數據是一種動態的、非線性的、不規則的時間序列數據,受季節氣候、突發事件、經銷商的銷售能力、下級經銷商的數量等各種因素的影響。在早期,銷售預測都是銷售人員基于產品市場以及銷售經驗人為判別,這種方法人工成本較高且領域可移植性較差。后來,隨著大數據和數據處理技術急劇發展,越來越多的國內外學者對各行各業銷售預測方法展開了更多深入研究。

其中應用較為廣泛的方法主要有神經網絡預測法、聚類預測法等。文獻[2-4]提出了基于神經網絡的銷售預測模型,為企業制定銷售策略提供了依據。文獻[5-6]對基于神經網絡的銷售預測方法進行改進。其中:文獻[5]基于遺傳算法對BP神經網絡優化,并用某超市一段時間的真實銷售數據進行實驗,結果表明該方法可較好地解決BP神經網絡易陷入局部最優的缺陷及預測結果精度較低的問題,一定限度上提高了銷售預測的準確率;文獻[6]提出一種自適應和聲算法與遺傳算法混合優化BP神經網絡權值和閾值的算法,通過對機票銷量的預測實驗表明該算法在一定限度上解決了神經網絡易陷入局部最優值與收斂速度慢的問題。

雖然國內外學者不斷致力于解決神經網絡的局部最優值與收斂問題,并取得了一定進展,但在面對龐大銷售數據時,依舊不能高性能地完成銷售預測。因此,越來越多的學者開始從聚類方法的角度對銷量預測做進一步研究。文獻[7]提出了一種基于銷售數據的產品重分類預測模型,該模型利用K-means聚類方法,就銷量特征的共性表現對產品進行聚類,在此基礎上利用時間序列預測方法與隱馬爾可夫預測方法,分別對產品銷量進行定性與定量預測,以某電商網站的某單品類真實銷售數據作為實驗數據,結果表明該預測模型在一定程度上實現了對電商產品的銷量預測功能。文獻[8]從服裝企業的管理者角度出發,提出了一種聚類分析和CAST決策樹算法相結合的銷售預測模型,進一步探究影響服裝銷售額的因素,在此基礎上對銷售額進行預測,通過實證分析表明該方法在一定程度上對于預測營業額是有效果的。K-means聚類算法不僅在銷售預測中應用較多,在相似的推薦系統問題中也被越來越多的國內外學者研究分析。文獻[9]指出推薦系統旨在分析用戶的興趣,主動為用戶推薦合適的資源,常用的算法為協同過濾算法。文獻[10]提出了一種基于用戶項目類偏好值的聚類的電子商務推薦方法,該方法用于解決目標用戶對未評分商品的興趣程度的預測,采用開源數據集MovieLens作為實驗數據,結果表明該方法較好地解決了由于用戶空間增大而導致推薦系統性能下降的問題。

隨著國內外學者對聚類算法的深入研究,GMM作為一種使用概率進行描述數據點分類的算法,因其嚴謹性開始引起學者們的關注,并逐漸被應用在文本聚類、預測問題、推薦系統等方面。文獻[12]基于GMM對相似度高的音樂特征文本進行聚類,實現音樂推薦的個性化服務。文獻[13]提出了一種基于GMM的文本聚類方法,實現對電商產品的品牌實體歸一化。文獻[14]提出了一種基于GMM的軌跡預測算法,通過大量真實軌跡數據集的實驗,結果表明,與相同參數設置下的傳統算法相比,該算法的預測準確性和時效性顯著增強。文獻[15]則面向稀疏數據構建基于GMM的位置推薦框架,通過GMM預測用戶在不同地區出現的概率,進而實現位置推薦,用真實的數據集進行實驗,結果表明該方法能有效地提高稀疏數據中位置推薦的準確度。文獻[16]基于GMM的方法對社交網絡中的用戶興趣進行預測,并用真實的實驗數據集進行實驗驗證,結果表明GMM具有良好的預測精度。文獻[17]基于GMM對傳統推薦系統使用的協同過濾算法進行了改進,并用公開數據集MovieLens對算法進行驗證,結果表明該算法有更強的預測準確率。文獻[18]提出一種基于GMM的知識推薦系統以預測用戶對知識項的評分,進而實現對用戶個性化知識推薦,用開源數據集fisheriris和MovieLens進行實驗,結果表明該方法的預測準確率較高。

目前將GMM應用于銷售價格預測的研究較少,但很多相關研究已表明GMM在處理預測問題方面具有良好的性能,因此針對數據量大、數據屬性值較為復雜且包含較大信息量的機電產品銷售數據,本文選擇GMM作為處理方法,并采用人工神經網絡和卷積神經網絡作為對比。

2 方法設計

因其較大的置信區間和數值化的概率值預測結果,高斯分布常被應用于預測問題中。本文的實驗數據較為復雜,特征數較多且數據分布不服從單一高斯分布,需使用多個單高斯模型的混合。GMM理論上可以擬合任意分布的樣本,適用于本文的實驗數據。基于GMM的用戶模型構建過程包括4個步驟。

2.1 用戶數據獲取與處理

本文以加拿大某機電產品銷售公司的真實銷售數據作為數據源,經過脫敏處理后保留了418 282條原數據作為實驗的標準數據集。

2.1.1數據分析

本文的原始數據集中包含的數據特征有id(交易記錄編號)、RFQ(企業與顧客協議記錄的編號)、ACCT(顧客編號)、Coverage、SKU、SKU_Category、EB_Flag、RFQ_TYPE(企業與顧客所協議的產品類型)、List_Price(產品的標價)、RFQ_Price(企業與顧客所協議的產品價格)、RFQ_Qty(企業與顧客所協議的產品數量)、Order_Qty(顧客最終訂購產品的數量)。本文先計算出數據集各特征的均值、最大值、最小值、中位數等,了解數據不同特征的數值分布情況。然后計算數據各個特征間的相關性,比較特征的重要程度,為后續工作提供依據。

2.1.2數據清洗

數據清洗規則主要包括填充缺省值、平滑噪聲數據和識別離群點。缺省值、噪聲數據和離群點普遍存在于真實數據集中,銷售系統故障、數據記錄失誤、數據庫數據更新異常等多種原因都會產生這些異常數據。因此,首先需要通過對數據的可視化查看是否存在噪聲數據,然后進一步檢查所獲數據中是否存在缺省值或離群點。

2.1.3數據轉化

經過以上工作,本文對數據進行歸一化處理,即將數據處理為0~1的浮點型數據,表示該特征在所有特征中所占的權重比率。具體轉化過程如下:數據文件中包含的id用于標記每條記錄,可作標簽處理為從1之后逐步遞增的順序自然數;RFQ、ACCT、coverage、SKU、sku_category、EB_flag、RFQ_TYPE 可處理為在該特征的所有記錄中的頻率;list_price、rfq_price、rfq_qty、order_qty可按照公式(x-xmin)/(xmax-xmin)做歸一化處理。

2.1.4數據集成

基于以上對數據集的分析處理,本文為防止過擬合,在實驗過程中采用交叉驗證以形成所需的訓練集和測試集。

2.2 用戶模型構建

本文用GMM描述不同特征對交易成功的影響概率。似然函數表示為各高斯模型和權重相乘的和,如式(1)所示,本文的目的即為求出相應的參數使得似然函數達到最大值,從而實現向用戶推薦成交率最高的成交價格:

(1)

式中:N(x|μk,σk)為高斯混合模型中的第k個模型(component);μk與σk為第k個的高斯模型均值與方差;πk為混合系數,即權重。πk需滿足:

(2)

本文在使用該似然函數的過程中,輸入為用戶×(特征+是否成交)矩陣的任意一行,輸出為用戶隸屬于各個聚類簇的概率矩陣。

2.3 用戶模型訓練

本文用所構建的模型對數據進行訓練,進而得到似然函數中的各參數值。訓練過程包括最優成分數量確定和參數估計兩部分。

2.3.1最優成分數量確定

在進行參數估計問題時,需要在模型復雜度與模型對數據集描述能力之間尋求一個最佳的平衡。對GMM而言,該問題的核心就落在確定最優成分數量上。本文通過比較不同聚類簇數和特征數的組合下模型的性能指標來確定最佳聚類簇的數量,實驗過程中進行十次交叉檢驗以防止過擬合。

2.3.2參數估計

高斯混合模型的似然函數中的參數估計過程使用的是EM算法[19]。其基本思路為:隨機初始化一組參數Ф(0),根據后驗概率P(Y|X;Ф(0))來更新Y的期望E(Y),然后用E(Y)代替Y求出新的模型參數Ф(1),如此迭代直到Ф趨于穩定。

首先,本文基于式(1)建立了最大似然函數:

(3)

在高斯混合模型的似然函數中,單個點的概率很小,進行連乘操作之后數據會更小,容易造成浮點數下溢,影響之后的計算,因此EM算法在進行計算時對似然函數進行了取對數操作,實現了式(3)所示的似然函數。

用EM算法確定參數包括E步(Exception)和M步(Maximization)兩部分。

1) E步,即計算每個數據(即每條記錄)由每個單高斯模型產生的概率。對于每個數據xi而言,它由第k個component生成的概率為:

(4)

由于式(4)中的μk和σk也是需要估計的值,所以在采用迭代法計算時,需對μk和σk賦初值,并在迭代的過程中,將上一次迭代取得的值作為計算值。

2) M步,即估計E步中的參數,進而求得最大似然函數。通過E步可以得到每個數據xi由第k個component生成的概率,接下來需具體到每個component,求解參數。由于每個component都是一個標準的高斯分布,因此很容易求得最大似然函數所對應的各參數值:

(5)

(6)

(7)

(8)

重復E步和M步,直到數值收斂,并將最終得到的參數代入到目標函數中完成模型。

2.4 用戶模型預測

本文用EM算法訓練的模型對測試集中的數據進行預測,檢驗該模型預測的準確率等性能。

3 實 驗

3.1 數據預處理

本文采用的性能評估指標包括準確率、召回率和F值,采用的數據集是加拿大某機電產品銷售公司的真實銷售記錄數據,數據特征不明確,無法直接應用于模型進行訓練,需要進一步分析處理。因此,本文首先對數據本身進行分析,計算不同特征值下的均值方差等,結果如表1所示。接著在此基礎上對原始數據集進行清洗,消除噪聲數據。然后進一步分析數據特征,對數據各特征間相關性進行分析,結果如表2所示。最后實現對數據集的預處理。本文對表1中的結果進行分析,可知:(1) 各特征的數據類型及數值上下界差別較大,為了便于后續利用模型進行訓練預測,數據預處理過程中需進行歸一化處理。(2) 數據集中含有噪聲數據,如Order_Qty中最小值為負數,后期數據預處理過程中需進行異常值檢測及替換。(3) 結合表1、表2中的結果,部分噪聲數據被可視化顯示,因此后續需要對數據進一步清洗、檢測和去除異常數據。(4) 數據集的數據標簽為Order_Qty,分析其各項結果顯示成交量為0的樣本數要遠大于非0的樣本數,后期進行實驗劃分訓練集和測試集時,需分別考慮成交樣本和非成交樣本。

表1 實驗數據集分析

表2 各特征間相關性分析

本文通過決策樹回歸模型進行特征相關性計算,即逐個移除特征,用其余特征預測被移除的特征,通過對預測結果進行評分實現特征間相關性的計算。相關性程度大小順序為:數值為負數的特征>數值在0到1間的特征>數值為1的特征。其中,數值在0到1間特征的相關性會隨著數值靠近0而增大。

3.2 實驗結果與性能評估

3.2.1高斯混合模型不同特征數和聚類數對比

本文通過準確率、召回率和F值進行方法性能評估,并通過計算比較不同聚類簇數和特征數組合下三個指標的數值進一步確定本文所要采用的數據集特征數以及聚類簇的數目。

表3為不同特征數下的三個指標的數值,通過分析發現,特征值為7時,準確率、召回率和F值三個指標的值最大,即方法性能最優。特別地,不同特征值下的三指標數值是基于聚類簇數由2到10中的最大值得到的。

表3 不同特征值下的準確率、召回率、F值

在確定數據集的特征值后,本文就不同的聚類簇數目進行實驗,找到最優聚類簇數。結合如圖1所示的數據結果,本文確定最優聚類簇數目為7。

圖1 不同聚類簇下的準確率、召回率、F值圖

就本文數據集而言,當特征值為7、GMM的聚類簇數設置為7時,預測結果的準確率為0.717 16,召回率為0.969 72,F值為0.824 53。

3.2.2高斯混合模型與神經網絡模型對比

為進一步驗證高斯混合模型可有效預測銷售成交情況,本文分別采用擅長處理數據信息的人工神經網絡和較為先進的卷積神經網絡對相同數據集進行銷售預測,繪制如圖2、圖3所示的ROC曲線。并據此計算得到人工神經網絡模型的預測結果:準確率為0.372 03,召回率為0.396 42,F值為0.383 83;卷積神經網絡模型的預測結果:準確率為0.780 22,召回率為0.151 27,F值為0.253 41。F值是綜合準確率和召回率的結果,用于解決二者發生矛盾的情況,F值越高,則說明模型性能越好。比較三個模型實驗結果,本文發現高斯混合模型的F值高于人工神經網絡模型和卷積神經網絡模型,因此基于高斯混合模型的工業供應鏈銷售預測方法能很好地預測銷售成交情況。

圖2 人工神經網絡ROC曲線圖

圖3 卷積神經網絡ROC曲線圖

4 結 語

本文提出了一種基于高斯混合模型的工業供應鏈銷售預測方法。首先分析工業供應鏈原始銷售數據的特點,生成特征值相關性排序向量。接著,對高斯混合模型的聚類簇數等參數進行預測。然后,在不同聚類簇數和特征數組合的基礎上進行高斯混合聚類,通過比較預測結果的準確率、召回率和F值三個指標確定可實現較好預測結果的特征值與聚類簇數目。本文將高斯混合模型與人工神經網絡模型和卷積神經網絡模型在同一工業供應鏈原始銷售數據集上進行實驗對比。結果表明,基于高斯混合模型的工業供應鏈銷售預測方法能很好地預測銷售成交情況。

猜你喜歡
銷售特征方法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
這四個字決定銷售成敗
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
銷售統計
中國化妝品(2003年6期)2003-04-29 00:00:00
銷售統計
中國化妝品(2003年3期)2003-04-29 00:00:00
主站蜘蛛池模板: 日本久久免费| 国产91精品调教在线播放| 亚洲无码高清免费视频亚洲 | 国产成人凹凸视频在线| 国产无码精品在线| 国产精品欧美激情| 午夜视频免费试看| 精品免费在线视频| 亚洲综合天堂网| 91欧美在线| 亚洲天堂成人| 亚洲第一黄片大全| 亚洲中文在线视频| 久久精品国产精品国产一区| 亚洲国产欧美国产综合久久| 午夜国产在线观看| 成人夜夜嗨| 2021天堂在线亚洲精品专区| 久久无码av一区二区三区| 3344在线观看无码| 最新痴汉在线无码AV| 国内老司机精品视频在线播出| 国产麻豆福利av在线播放| 国产精品太粉嫩高中在线观看| 黄色网址手机国内免费在线观看 | 国产在线观看第二页| 性欧美精品xxxx| 国产日本欧美亚洲精品视| 国产在线观看一区二区三区| 国产麻豆va精品视频| 91麻豆精品国产91久久久久| 国产99热| 亚洲欧美一区二区三区图片| 国产三级韩国三级理| 美女国产在线| www亚洲精品| 精品久久高清| 国产在线观看一区精品| 国产免费精彩视频| 在线观看精品自拍视频| 欧美色图久久| 亚洲AⅤ无码日韩AV无码网站| 一级一级一片免费| 午夜视频免费试看| 精品视频在线观看你懂的一区| 免费一级毛片在线播放傲雪网| 色综合网址| 丁香六月综合网| 色噜噜狠狠色综合网图区| 午夜视频免费一区二区在线看| 四虎在线高清无码| 欧美a在线看| 狠狠操夜夜爽| 国产人成午夜免费看| 国产第一页免费浮力影院| 亚洲人成色77777在线观看| 国产成人a在线观看视频| 国产高颜值露脸在线观看| 伊在人亞洲香蕉精品區| 日韩欧美综合在线制服| 香蕉国产精品视频| YW尤物AV无码国产在线观看| 国产熟睡乱子伦视频网站| 青青草原国产免费av观看| 情侣午夜国产在线一区无码| 成人国产三级在线播放| 999精品免费视频| 91麻豆精品视频| 人妻21p大胆| 五月婷婷精品| 国产对白刺激真实精品91| 国产免费精彩视频| 国产99精品久久| 国产高清自拍视频| 亚洲天堂啪啪| 国产精品区视频中文字幕| 六月婷婷激情综合| 欧美色视频网站| 日韩在线成年视频人网站观看| 亚洲日韩精品无码专区97| 在线看片免费人成视久网下载| 男人的天堂久久精品激情|