田大偉 陳其強(qiáng)

摘要:近年來,隨著機(jī)器學(xué)習(xí)及大數(shù)據(jù)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)商品的價(jià)格預(yù)測分析也逐漸成為研究的熱點(diǎn)。本文主要針對(duì)網(wǎng)絡(luò)商品的價(jià)格預(yù)測問題,提出利用高斯過程對(duì)商品價(jià)格進(jìn)行建模,根據(jù)商品的歷史銷售數(shù)據(jù),提取影響價(jià)格的特征向量,結(jié)合高斯過程回歸方法預(yù)測未來商品價(jià)格。將該方法用于實(shí)際的母嬰產(chǎn)品銷售數(shù)據(jù)并進(jìn)行回歸分析,實(shí)驗(yàn)結(jié)果表明,基于高斯過程的價(jià)格預(yù)測方法對(duì)于實(shí)際商品的價(jià)格預(yù)測具有一定的指導(dǎo)意義。
關(guān)鍵詞:大數(shù)據(jù);高斯過程;回歸分析;價(jià)格預(yù)測
中圖分類號(hào):TP391 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)19-0024-03
Abstract: Recently, with the rapid development of machine learning and big data technology, the price prediction for the electronic business has been a focus gradually. With respect to the price prediction problem, we model the product price using Gaussian process, construct the features about the price according to the historical sale data, and estimate the future price by Gaussian process regression. Applying the proposed method to the real maternal and child products, the results show that, the price prediction method based on the Gaussian process makes sense for the real product price prediction to some extent.
Key words: big data; Gaussian process; regression analysis; price prediction
1研究背景
1.1價(jià)格預(yù)測研究背景
隨著云計(jì)算等新興技術(shù)的高速發(fā)展,大數(shù)據(jù)時(shí)代也正式到來,預(yù)測分析作為其核心在商業(yè)和社會(huì)中得到了廣泛的應(yīng)用[1]。在科技與全球化飛速發(fā)展背景下,傳統(tǒng)的營銷方式已發(fā)生變革,由消費(fèi)者購買行為堆砌成的大量數(shù)據(jù)被作為原始數(shù)據(jù),在計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的基礎(chǔ),原始數(shù)據(jù)被整理、挖掘并得出一定規(guī)律,企業(yè)根據(jù)其規(guī)律做出未來的價(jià)格預(yù)測,并在此基礎(chǔ)上做出準(zhǔn)確的營銷決策,這就是價(jià)格預(yù)測的本質(zhì)[2]。因此,在這沒有“秘密”的消費(fèi)時(shí)代,現(xiàn)代企業(yè)要想讓營銷策略更精確,日常經(jīng)營更有效,競爭優(yōu)勢(shì)更強(qiáng)勁,就必須首先進(jìn)行價(jià)格預(yù)測,這是必不可少的一步,價(jià)格預(yù)測為企業(yè)未來發(fā)展奠定了最堅(jiān)實(shí)的基石[3]。
1.2價(jià)格預(yù)測方法介紹
隨著人們對(duì)價(jià)格數(shù)據(jù)復(fù)雜性的認(rèn)識(shí)不斷深入,數(shù)據(jù)處理技術(shù)不斷發(fā)展,價(jià)格預(yù)測方法也隨之得以迅速發(fā)展。經(jīng)研究發(fā)現(xiàn),依據(jù)研究對(duì)象的不同,預(yù)測方法系統(tǒng)可以分為兩大類別,第一類是單一預(yù)測方法;第二類是組合預(yù)測方法體系。
1)單一預(yù)測方法
該類方法主要運(yùn)用在石油、農(nóng)產(chǎn)品等敏感商品價(jià)格研究,主要包括:(1)傳統(tǒng)計(jì)量經(jīng)濟(jì)與統(tǒng)計(jì)分析方法,如多元回歸分析、時(shí)間序列分析等。這些方法最大的優(yōu)點(diǎn)是方法簡便且更新發(fā)展很快。但該方法使用時(shí)由于難以對(duì)數(shù)據(jù)進(jìn)行全面分析,直接使用時(shí)容易產(chǎn)生誤差,影響預(yù)測的精度。(2)后期發(fā)展的現(xiàn)代預(yù)測方法,如灰色理論模型、馬爾科夫鏈、小波分析以及人工神經(jīng)網(wǎng)絡(luò)模型等[4]。這些模型對(duì)數(shù)據(jù)復(fù)雜性特征的刻畫能力較強(qiáng),通常不需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理即可直接用于價(jià)格預(yù)測。同時(shí),它們也存在一定的問題,就是方法更為復(fù)雜。
2)組合預(yù)測方法
組合預(yù)測方式是在單一預(yù)測方法的基礎(chǔ)上發(fā)展起來的,充分利用單一方法的優(yōu)點(diǎn),追求更高的預(yù)測精度。然而也有證據(jù)表明部分組合方法的預(yù)測精度要比一些單一預(yù)測方法要低,這就顯示出恰當(dāng)選擇對(duì)組合方法體系構(gòu)建具有突出重要性,但恰當(dāng)選擇的難度性較大,實(shí)際操作更為復(fù)雜。
本文以母嬰商品為例,運(yùn)用高斯過程對(duì)商品價(jià)格進(jìn)行建模,結(jié)合高斯過程回歸方法對(duì)未來價(jià)格進(jìn)行預(yù)測。將該方法用于淘寶商品的價(jià)格預(yù)測,通過抓取母嬰商品6個(gè)月的數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在母嬰商品的價(jià)格預(yù)測上有一定的指導(dǎo)意義。
2高斯分布
高斯分布(Gaussian distribution)又稱正態(tài)分布(Normal distribution),是一個(gè)在各數(shù)理領(lǐng)域中最廣泛運(yùn)用的一種分布,對(duì)統(tǒng)計(jì)學(xué)有著重要的影響作用。
在高斯分布中,考慮隨機(jī)變量的均值隨著變量數(shù)量的增加,當(dāng)增加到足夠大時(shí),變量均值就越接近于高斯分布,因此二項(xiàng)分布在[N]趨近于無窮大時(shí)也就會(huì)變成高斯分布,從幾何學(xué)角度來看,高斯分布中二次多項(xiàng)式的形式:
[Δ2=(x-μ)TΣ-1(x-μ)]
[Δ]為[μ]從到[x]的馬哈拉諾比斯距離(Mahalanobis distance),當(dāng)[Σ]是單位陣的時(shí)候可以規(guī)約為歐幾里得距離(Euclidean distance)。若高斯分布中任意元素的均值為[0],那么只考慮協(xié)方差矩陣。
3方法研究
3.1? 問題建模
1) 對(duì)價(jià)格進(jìn)行追蹤,對(duì)其歷史數(shù)據(jù)進(jìn)行抓取,在此基礎(chǔ)上對(duì)影響其價(jià)格的數(shù)據(jù)進(jìn)行分析,構(gòu)建影響價(jià)格的特征向量為[x]:[x]包括市場平均價(jià)格、價(jià)格方差、最低價(jià)格、最高價(jià)格等。其向量表示為:[Φ(x)=[?1(x),?2(x),…,?n(x)]],這里假設(shè)[y]是商品價(jià)格,目標(biāo)是構(gòu)建[x]和[y]之間的映射函數(shù),對(duì)未知數(shù)[x]估計(jì)其[y]值。
2) 在該問題中,為了對(duì)未來商品進(jìn)行估計(jì),前提是對(duì)影響價(jià)格的相關(guān)因素進(jìn)行量化,假設(shè)在[t]時(shí)刻,價(jià)格因素向量為[xt],則目標(biāo)是根據(jù)[xt]估計(jì)下一個(gè)時(shí)刻[t+1]的價(jià)格[yt+1]。因此,在該問題中,根據(jù) [xt]去估計(jì)[yt+1],為了描述方便,將[t+1]時(shí)刻的價(jià)格標(biāo)記為[yt]。
3) 該問題的難點(diǎn)是對(duì)價(jià)格特征的合理提取及量化,即[Φ(x)=[?1(x),?2(x),…,?n(x)]]。
3.2基于高斯過程的價(jià)格預(yù)測方法
1) 設(shè)數(shù)據(jù)集[S=x1,y1,x2,y2,......xn,yn],其中[xn]為多維的輸入矢量[5],[Φ(x)=[?1(x),?2(x),…,?n(x)]] 為多維的輸入矩陣,[yn]則為相應(yīng)的輸出變量,該模型主要任務(wù)就是用輸入[x]與輸出[y]之間的映射關(guān)系,預(yù)測出與新測試點(diǎn)[x*]對(duì)應(yīng)的最有可能的輸出值[y*]。
2)設(shè)高斯過程中任意元素的均值為[0],協(xié)方差為[k(x,x*)],且選取高斯核函數(shù):[σ*Exp-x-x*2/2],其中[σ]是最大協(xié)方差[6]。
3)根據(jù)以上假設(shè),則[y=N0,k],其中
[k=kx1x2…kxnx1???kx1x…kxnxn]
4)令所估計(jì)的對(duì)象為[y],其所對(duì)應(yīng)的協(xié)方差向量為:
[K*=kx*x1,kx*x2,kx*x3……kx*xn][K**=Kkx*x(n)]
5)將[y]與[y*]寫成聯(lián)合分布的形式[7],則[y*y=Νk*k-1y,k**-k*k-1kT],其中[k*k-1y]為[y*]的估計(jì)均值,[k**-k*k-1kT]為[y*]方差。
4實(shí)驗(yàn)分析
為了驗(yàn)證算法的有效性,將本文所提出的方法用于淘寶母嬰商品的價(jià)格預(yù)測。數(shù)據(jù)集來自于淘寶母嬰商品的真實(shí)數(shù)據(jù),實(shí)驗(yàn)中的商品的銷售數(shù)據(jù)是從2015年1月1日到2015年的6月30日,并隨機(jī)選取兩類商品——意大利代購進(jìn)口BONOMELLI蜂蜜橙子茶以及嬰兒多功能收納包。
實(shí)驗(yàn)過程中利用某一日期前七天的歷史數(shù)據(jù)進(jìn)行價(jià)格特征因素的提取,主要包括當(dāng)前天的價(jià)格[cp]、當(dāng)前天的銷量[cs]、前七天的平均價(jià)格[avgp]、前七天的平均銷量[avgs]、前七天的最高價(jià)格[maxp]以及前七天的最高銷量[maxs]。假設(shè)當(dāng)前為第[t]天,則歷史信息的特征向量為[xt=[cp,cs,avgp,avgs,maxp,maxs]T]。擬利用前七天的歷史數(shù)據(jù)所提取的特征向量對(duì)第二天商品的價(jià)格進(jìn)行預(yù)測,則與[xt]所對(duì)應(yīng)的實(shí)際輸出為第二天的價(jià)格[yt+1]。
圖1和圖2分別是對(duì)兩件商品的價(jià)格預(yù)測結(jié)果,其中橫坐標(biāo)是天數(shù)(因?yàn)樾枰x擇前7天的數(shù)據(jù)進(jìn)行特征提取,因此圖中橫坐標(biāo)0表示是2015年1月7日,之后以此類推),縱坐標(biāo)表示商品價(jià)格。圖中離散的十字星——“+”表示的訓(xùn)練樣本,實(shí)線表示的測試樣本(其中前156個(gè)樣本與訓(xùn)練樣本一致,后20個(gè)樣本為新測試樣本),陰影面積表示95%的價(jià)格置信區(qū)間。從圖1可以看出,方法對(duì)于蜂蜜橙子茶的價(jià)格預(yù)測還是比較理想的,無論是訓(xùn)練集還是測試集,商品的實(shí)際價(jià)格都是處于95%的置信區(qū)間的價(jià)格區(qū)間中,并且方法對(duì)于后20個(gè)新測試樣本也具有較好的預(yù)測性能。而對(duì)于嬰兒多功能收納包的價(jià)格預(yù)測,從預(yù)測曲線上看,預(yù)測準(zhǔn)確度要弱于對(duì)于蜂蜜橙子茶的價(jià)格預(yù)測,這主要是由于在嬰兒多功能收納包的銷售數(shù)據(jù)中存在一定的具有較大價(jià)格變化的噪點(diǎn)數(shù)據(jù)(可能是由于商家的促銷而導(dǎo)致價(jià)格及銷量的變化),而方法對(duì)于其中價(jià)格波動(dòng)較小的數(shù)據(jù)還是具有較好的預(yù)測性能。因此,基于兩個(gè)商品價(jià)格的預(yù)測分析,本文所使用的基于高斯過程的商品價(jià)格預(yù)測方法對(duì)于實(shí)際商品價(jià)格的預(yù)測還是具有一定的指導(dǎo)意義。
5結(jié)論
本文主要針對(duì)商品數(shù)據(jù)的價(jià)格預(yù)測問題,提出利用高斯過程對(duì)商品的價(jià)格進(jìn)行建模,并利用高斯過程回歸對(duì)商品價(jià)格進(jìn)行回歸分析,對(duì)未來商品價(jià)格進(jìn)行預(yù)測。在問題求解過程中,將過去七天的銷售數(shù)據(jù)作為對(duì)未來價(jià)格預(yù)測的歷史信息,并給予該歷史信息進(jìn)行特征提取,主要包括當(dāng)前天的價(jià)格、當(dāng)前天的銷量、前七天的平均價(jià)格、前七天的平均銷量、前七天的最高價(jià)格以及前七天的最高銷量。
將基于高斯過程的價(jià)格預(yù)測方法用于實(shí)際的淘寶商品銷售數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明,該方法對(duì)于實(shí)際商品的價(jià)格預(yù)測具有一定的指導(dǎo)意義。但是,本文所提出的特征提取方法相對(duì)比較簡單,沒有考慮相關(guān)類似商品的價(jià)格變化對(duì)于所預(yù)測商品價(jià)格的影響,且所利用的歷史數(shù)據(jù)量較少,因此,下一步的工作考慮如何有效地對(duì)歷史信息特征數(shù)據(jù)進(jìn)行提取,提高價(jià)格預(yù)測的準(zhǔn)確性。
參考文獻(xiàn):
[1] 誒里克·西格爾. 大數(shù)據(jù)預(yù)測[M]. 北京: 中信出版社,2014.
[2] Costonis M. Big Data[J]. Best's Review, 2012, 113(1): 36-115.
[3]? 李國杰. 大數(shù)據(jù)研究的科學(xué)價(jià)值[J]. 中國計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9): 8-15.
[4] 范曉. 我國價(jià)格預(yù)測方法文獻(xiàn)研究[J]. 財(cái)政與金融, 2014, 5: 105-109
[5] 何志昆, 劉光斌, 趙曦晶,等. 高斯過程回歸方法綜述[J]. 控制與決策, 2013, 8: 1121-1129.
[6] 朱齊丹, 李科, 張智,等.改進(jìn)混合高斯自適應(yīng)背景模型[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2010, 31(10): 1348-1353.
[7] 傅啟明, 劉全, 伏玉琛,等. 一種高斯過程的帶參近似策略迭代算法[J]. 軟件學(xué)報(bào), 2013, 32(1): 66?72.
【通聯(lián)編輯:梁書】