999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Xgboost的Ebay網上拍賣最終成交價格預測

2021-06-08 11:58:30曹菲菲
計算機時代 2021年1期

摘? 要: 對成交價格進行預測,旨在獲得Ebay拍賣品的價格動態,使買賣雙方更好地進行交易。將價格區間進行多分類劃分和多次最優參數選擇,建立極端梯度提升(XGBoost,eXtreme Gradient Boosting)模型,并與最優邏輯斯蒂回歸模型比較,使用平均準確率作為模型的評估指標。經比較發現XGBoost模型達到90.55%的準確率,明顯優于邏輯斯蒂回歸模型。此外通過十次迭代,分別得到兩個模型的準確率變化趨勢,結果顯示Xgboost具有更高的準確率。

關鍵詞: Ebay網上拍賣; 成交價格預測; 多分類; 極端梯度提升; 最優參數選擇; 邏輯斯蒂回歸

中圖分類號:TP393????????? 文獻標識碼:A???? 文章編號:1006-8228(2021)01-46-05

Prediction of the final price of Ebay online auction using XGBoost

Cao Feifei

(School of Economics, Guangdong Peizheng University, Guangzhou, Guangdong 510830, China)

Abstract: To predict the transaction price, aiming to obtain the price dynamics of Ebay auction products, so that buyers and sellers can better conduct transactions. By multi-classifying the price interval and multiple optimal parameter selecting, the XGBoost (eXtreme Gradient Boosting) model is established, and compared it with the optimal logistic regression, using the average accuracy as the evaluation index. The comparison finds the XGBoost model achieved 90.55% accuracy, which is significantly better than the logistic regression model. In addition, through ten iterations, the accuracy trends of the two models are obtained respectively, the result shows that XGBoost has higher accuracy.

Key words: Ebay online auction; transaction price prediction; multi-classification; eXtreme Gradient Boosting; optimal parameter selection; logistic regression

0 引言

互聯網的飛速發展使我們的生活真正產生日新月異的變換,不知不覺改變人們的生活習慣,網上拍賣市場就是眾多改變之一[1]。由于網上拍賣的流行, 許多大型拍賣網站應運而生,比如熟知的Yahoo拍賣、露天拍賣、臺灣樂天市場、Ebay、DMM.com等[2],他們對電子商務的集體影響是驚人的,其中Ebay是發展最迅速,也是目前為止世界上最大的網上拍賣網站。據統計,Ebay網站上有1.49億活躍買家[3],幾乎任何人都可以買賣任何東西,超過7億商品在Ebay進行交易。作為世界上最大的網上交易平臺,Ebay產生了大量的交易數據,各類交易數據都包含大量有用的交易信息[4],因此對這些交易數據的研究就顯得尤為重要。

通過對拍賣數據的研究,為出標者和投標者制定一套切實可用的競價策略,出標者能盡可能得到想要的價格,中標者也可以最劃算的價格拍到自己想要的物品,實現共贏。由于拍賣過程的動態性,即隨時間的變化,拍賣過程沒有規律可循,造成實際操作不容易預測。本文在前人研究的基礎上使用機器學習算法,對拍賣數據集進行預處理和指標體系構建,然后對成交價格進行預測,我們希望機器學習方法能在拍賣數據方面體現它們的價值,這也是本文的另一個目的。

1 相關工作

目前,對于最終成交價格的預測研究都是通過對歷史數據收集,找到它們之間的規律,然后通過建立模型進行預測。

國外有代表性的研究如下:Wang、Jank和Shmueli用函數型數據分析(FDA)對最終成交價格預測,并對拍賣動態性進行了解釋[5]。Zhang,Jank和Shmueli提出了一種動態預測模型,此外他們也使用函數型K最近臨對拍賣動態數據進行了預測,他們先使用Beta模型擬合出三個不同的價格走勢,這樣就得到Beta累積分布函數,通過對Beta累積分布函數分別求一階導數和二階導數作為價格的速度和加速度,然后使用函數型K最近臨預測價格走勢[6]。Liu,Feng和Shao通過對投標者行為的分析,他們提出了基于Bagging算法和決策樹算法的模型去預測成交價格[7]。相比國外, 國內對于最終成交價格的動態性的研究很少,主要有:李雪峰等人使用機器學習算法對Ebay網站上的諾基亞移動手機數據進行最終成交價格的預測,他們將最終成交價格分為連續型和離散型兩種類型,并分別應用不同的機器學習算法進行預測。連續型的最終價格預測使用多元回歸算法,離散型價格預測使用使用邏輯斯蒂回歸和神經網絡算法,除此之外,他們還認為聚類分析也會對預測的準確率造成影。楊睿等基于函數型回歸模型建立了網絡拍賣品的動態預測模型。

2 數據收集及預處理

2.1 數據收集

本文所用的數據集是通過網絡爬蟲技術獲得的。文章對Ebay拍賣網站的歷史交易數據建立爬蟲模型,并對歷史數據進行實時跟蹤,獲取有用的信息, 然后將爬取的數據保存到數據庫中。此數據集是關于Microsoft Box的數據,它在Ebay拍賣網站上非常流行,產生了大量的交易數據,總共有1861個拍賣數據,拍賣長度都是七天。

2.2 數據預處理

2.2.1 數據重編碼

因為數據集中條件(Condition)這一列是字符串形式的,所以在建模之前將其重編碼為0,1變量,并記為Condition1;對于拍賣開始時間(StartTime),投標時間(BidTime)和投標結束時間(EndTime),它們都是時間戳形式的數據,我們將其轉換成數值形式,并生成三個新變量分別記為startday,bidday和endday。

2.2.2 缺失值處理

此數據集中郵費這一屬性包含缺失值,所以對其進行填充,本文采用K最近鄰法填充缺失值,因為基于K個最近鄰的缺失值填充算法考慮到了屬性上下數據之間的相關性,可以使預測結果更為準確,我們使用R語言來完成。

具體做法如下:首先計算目標屬性與其他屬性之間的歐式距離,其次在所有計算出來的距離中找到距離目標屬性距離最小K個最近鄰郵費,然后對選擇出的K個最近鄰目標屬性賦予相應的權值,其相應位置的加權平均值即為目標屬性缺失值的估計值。填充完缺失值后,生成新的郵費變量記為ShipFee1。

2.2.3 數據標準化

對拍賣品的成交價格這一屬性進行標準化是為了加快訓練速度, 更快的找到最優解,且圖1成交價格分布直方圖((a)表示沒取對數之前的分布,(b)表示取對數之后的分布)使其處在一個可比較的范圍內, 標準化公式如下:

[Zsp=Xsp-μspσsp]? ⑴

其中[Zsp]表示成交價格的標準化值,[ Xsp]表示其原始值,[ μsp]表示其均值,[σsp]表示其標準差,sp表示成交價格。

標準化前后的圖形如圖1所示,其中(a)(b)兩圖都存在明顯的傾斜,成交價格集中在300美元以下,我們對測試集也進行了同樣的處理,發現它和訓練集有非常相似的分布。

3 屬性構建和選擇

3.1 屬性構建

由于拍賣數據和投標數據是一個拍賣記錄對應多個投標記錄,且他們之間相互依賴,為了使用機器學習算法更準確的建立模型,需將一對多關系轉換為一對一的關系。我們使用李雪峰等提出的方法進行屬性的構建與選擇[9]。

此數據集共包含1861個拍賣記錄,對于Ebay上的一個拍賣i(此數據集中[1≤i≤1861]),用M表示拍賣記錄的集合:[M={mi}],讓N表示所有投標記錄的集合:[N={ni}],因此M和N之間存在一對多的關系,它們之間的關系可以通過圖2看出。

由于拍賣記錄中包含的時變屬性有投標時間, 投標金額,投標者的好評率和投標數量, 通過對這四個屬性的處理,構建新屬性,使得一對多的關系轉變成一對一的關系,最終得到16個新的屬性, 構建的新屬性及其含義如表2,生成新的屬性關系如表3。

3.2 屬性的選擇

構建好新屬性后, 進行屬性的選擇,我們要選擇對成交價格影響大的屬性去建立預測模型。用[P]表示預測的屬性集合,[A]表示賣家的屬性集合,[B]表示固有的屬性集合,[C]表示構建的新屬性集合,因此有[P=A∪B∪C],[ A],[B],[C]包含的屬性如下:

[A=SR],[SR]表示出標者的好評率,[B=ST,ET,SP,SF,RS,CD]

其中,[ST]表示拍賣開始時間,[ET]表示拍賣結束時間,[SP]表示拍賣品的起始價格,[SF]表示郵費, [RS]表示是否有保留價格,[CD]表示拍賣品的條件。

對于每個屬性表示的含義,請看表2。

[C=MINBT,MAXBT,DURATION,MINBid,MAXBid,AVGBid,STDEVBid,MINBR,AVGBR,STDEVBR,MINNB,MAXNB,AVGNB,STDEVNB,BIDCOUNTS]

最終的預測屬性集合為[P*=P-MINBT,MINBR,ST], 我們使用[P*]所包含的屬性建立預測模型.

4 成交價格預測模型

4.1 評估指標

對于多分類預測模型,使用平均準確率(AvgAccuracy)作為評估指標,我們先給出準確率([Accuracyi])的計算公式:

[Accuracyi=niN×100%,i∈[1,10]]? ⑵

由⑵式可得到平均準確率([AvgAccuracy])的計算公式:

[AvgAccuracy=110i=110Accuracyi×100%] ⑶

其中[ni]表示每次正確預測的樣本量,[N]表示每次預測的樣本總量。

4.2 實驗結果

預測之前, 將此數據集記為[S],使用交叉驗證法先將拍賣數據集劃分為10個大小相同的互斥子集,即[S=S1∪S2∪S3∪…∪S9,Si∩Sj≠?(i≠j,i,j∈1,10)],要求每個子集[Si]都能保持一致的數據分布,然后每次用9個子集的并集作為訓練集,余下的那個子集作為測試集,得到10組訓練/測試集,這樣可以對數據集進行10次訓練和測試,最終得到這10個測試結果的平均值。

極端梯度提升是梯度提升樹的改進,用極端梯度提升進行多分類預測時,使用負對數似然損失函數([-LogLoss])作為最優極端梯度提升模型的衡量指標, 該函數的值越小,則模型的預測效果越好。本文選取樹的最大深度([maxdepth]),學習率([learning_rate]),擬合提升樹的數量([n_estimators]),這三個參數建立極端梯度提升模型,并使用網格搜索進行參數的調整,選擇最優的參數,建立最佳的模型,下面給出實驗結果。

我們首先研究樹的最大深度([max_depth])與負對數似然函數([-Log Loss])的關系,圖3是樹的最大深度與負對數似然函數的變化關系,從圖中可以看到,隨著樹深度的加深, 損失函數越來越小,我們設置樹的最大深度的取值為(0,2,4,6,8),最終選擇8作為樹的最大深度。

然后研究學習速率([learning_rate])與負對數似然函數([-Log Loss])的關系,圖4是不同擬合提升樹的數量, 學習速率與負對數似然函數的關系圖,對于學習率的取值分別為(0.0001,0.001,0.01,0.1),從圖3中可以看出,隨著學習速率的增大,負對數似然函數的值逐漸縮小并收斂,慢慢向零靠近,因此選擇0.1為最優學習率。

最后研究需要擬合的提升樹的數量([n_estimators])與負對數似然函數([- LogLoss])的關系,圖5是在樹的最大深度([max_depth])不同時,擬合提升樹的數量([n_estimators]))與負對數似然函數([- Log Loss])的關系圖,擬合提升樹的數量([n_estimators]))取值范圍為[0]到[200],從圖5中可以看出,隨著樹的最大深度增大,負對數似然函數的值逐漸縮小并收斂,慢慢向零靠近,因此選擇[200]為最優擬合數量。

通過對這三個參數的調整,選擇,最終得到了最優訓練模型,將該模型運行在之前已經劃分好的[10]個訓練/測試數據集上,最終得到的平均準確率為[90.55%]

4.3 模型評估

現在將極端梯度提升預測模型([XGBoost])與最優的邏輯斯蒂回歸模型([LR])進行比較,迭代[10]次的準確率的變化如圖[6]所示,表[4]是這兩個模型在10個測試子集上的準確率和平均準確率。從中看出,極端梯度提升模型具有更好的預測效果。

5 結束語

通過數據預處理,清洗以及對屬性的構建與選擇等一系列工作,本文通過網格搜索選擇最優的參數去建立預測模型,在離散型價格預測上取得了較高的準確率。將成交價格劃分成間隔相等的區間并建立多分類預測模型,我們認為這種預測方法比較新穎。

在研究過程中,也存在一些缺陷和不足,主要有以下兩點:一是此數據集是傾斜的,雖然經過標準化處理,也還是傾斜的,這會對預測準確率造成影響;二是對極端梯度提升模型參數的選擇, 挑選了最主要的三個參數進行建模, 并且這三種參數的取值都是自行設置的。

因為本文所用的數據集中并沒有包含是否有圖片,對拍賣物品的描述等屬性,但是研究人員發現這些屬性對最終成交價格有明顯的影響,基于此可以通過設計一個程序得到這些有用的信息,我們猜想以后的研究可以朝著這一方面發展,從圖片和文本中挖掘出對成交價格有用的信息,建立適合多種數據分布類型的預測模型。

參考文獻(References):

[1] 張金城.網上拍賣:電子商務的一種新交易方式[J].審計與經濟研究,2002.17(3):49-51

[2] Kersten G E, Vahidov R, Gimon D. Concession-making in multi-attribute auctions and multi-bilateral negotiations: Theory and experiments[J].Electronic Commerce Research & Applications,2013.12(3):166-180

[3] Ba S, Whinston A B, Zhang H. Building trust in online auction markets through an economic incentive mechanism[J]. Decision Support Systems,2003.35(3):273-286

[4] Pinker E J, Seidmann A, Vakrat Y. Managing Online Auctions: Current Business and Research Issues[J]. Management Science,2003.49(11):1457-1484

[5] Wang S, Jank W, Shmueli G, et al. Modeling Price Dynamics in eBay Auctions Using Differential Equations[J]. Publications of the American Statistical Association,2008.103(483):1100-1118

[6] Zhang S, Jank W, Shmueli G. Real-time forecasting of online auctions via functional-nearest neighbors[J].International Journal of Forecasting,2010.26(4):666-683

[7] Liu Y, Feng Y Q, Shao Z. Support System for Predicting Online Auction End Prices[J]. Systems Engineering-Theory Practice,2009.29(12):134-140

收稿日期:2020-06-19

作者簡介:曹菲菲(1994-),女,甘肅平涼人,理學碩士,專任教師,主要研究方向:統計機器學習。

主站蜘蛛池模板: 丁香六月综合网| 国产欧美日韩视频怡春院| 久久国产精品77777| 亚洲成人手机在线| 国产精品女在线观看| 国产91丝袜在线播放动漫| 日韩成人免费网站| 日本伊人色综合网| av一区二区无码在线| 亚洲综合九九| 天堂成人av| 国内精品自在自线视频香蕉| 久草国产在线观看| 欧美在线视频不卡第一页| 美女国内精品自产拍在线播放| 亚洲欧美另类色图| 亚洲女同欧美在线| 露脸国产精品自产在线播| 国产亚洲成AⅤ人片在线观看| 亚洲综合天堂网| 亚洲不卡影院| 亚洲伦理一区二区| 国产福利在线免费| 亚洲精品久综合蜜| 成人年鲁鲁在线观看视频| 91日本在线观看亚洲精品| 91精品国产一区自在线拍| 久久精品视频亚洲| 2021国产乱人伦在线播放| 国产在线视频二区| 国产人成乱码视频免费观看| 国产精品女主播| 91精品国产自产在线观看| 国产真实乱人视频| 免费亚洲成人| 日韩欧美国产三级| 在线免费观看AV| 啪啪国产视频| 国产91小视频| 久久精品无码国产一区二区三区| 91色在线视频| 精品黑人一区二区三区| 免费女人18毛片a级毛片视频| 成人亚洲国产| 四虎永久在线精品国产免费| 成人福利在线视频免费观看| 黄片在线永久| 青草视频网站在线观看| аv天堂最新中文在线| 黄色在线网| 国产在线视频欧美亚综合| 青草视频在线观看国产| 欧美国产日韩在线观看| 国产欧美日韩另类精彩视频| 欧美亚洲欧美区| 久久精品人人做人人爽电影蜜月 | 日韩高清成人| 人人妻人人澡人人爽欧美一区 | 视频二区国产精品职场同事| 91在线播放国产| 亚洲人成高清| 国产欧美精品专区一区二区| 欧美亚洲网| 欧美成人怡春院在线激情| 国产人人射| 这里只有精品在线播放| 欧美精品二区| 一本久道久久综合多人| 国产高清免费午夜在线视频| 欧美日本激情| 欧美激情综合| 在线a视频免费观看| 国产成人麻豆精品| 青青青视频91在线 | 青草91视频免费观看| 岛国精品一区免费视频在线观看| 国产精品999在线| 国产情精品嫩草影院88av| 91探花国产综合在线精品| 伊人91视频| 亚洲最新地址| 91色爱欧美精品www|