嚴明義,程詩有
網上拍賣是將傳統拍賣與網絡相結合的一種新的商務模式,是對資源進行有效配置的一種市場機制,它利用網絡及其技術平臺將所售物品或服務的相關信息以網頁的形式加以呈現,并通過競爭性投標過程將物品或服務出售給出價高的買方。推動網上拍賣市場發展的主要動力是迅猛發展的電子商務網站,如 eBay、Amazon Marketplace、Yahoo Auction、Bidz等,中國的淘寶網、易趣網、拍拍網等。
在網上拍賣問題的研究中,有關買方出價行為的研究一直是研究中的一個熱點論題,它對研究網上拍賣市場中的供求關系、拍賣價格特征[1]、拍賣價格的實時預測[2],以及出價時間與拍賣網站服務績效的關系等具有重要的作用[3]。在網上拍賣買方出價行為的實證研究文獻中,一些學者發現網上拍賣中買者的出價來到過程呈現兩個特征,即出價來到過程呈現階段性及出價時間分布具有自相似性。另一些學者還發現在網上拍賣中存在最終期限效應和早期效應,如 Bajari和 Hortacsu[4]、Borle,Boatwright和 Kandance[5]、Roth和 Ockenfels[6]、Wilcox[7]等均發現有部分出價發生在拍賣的最后時刻。這些文獻對買方出價行為的研究是從出價來到時間的角度進行分析的,所使用的分析方法也多是傳統的統計分析方法。
由于網上拍賣中買方出價數據具有不等間隔分布[8],從而使傳統統計分析方法在分析買方出價行為,特別是分析買方出價水平時稍顯無力。盡管國際上有學者考慮了買方出價數據的具體特征,并利用函數性數據分析方法從買方出價水平的角度對買方的出價行為進行了分析,但其研究是針對買方出價水平的一、二階導函數進行分析,而不是對買方的出價水平進行分析。另外,文獻中往往針對收集到的少數幾類拍賣數據進行分析。這樣的分析存在兩個缺陷,一個缺陷是分析的對象不是買方的原始出價水平,導致對買方出價行為的解釋不夠直接;另一個缺陷是文中分析的樣本拍賣種類過少,因此所得結論是否反映了網上拍賣買方出價行為的一般特征值得商榷。
由于現有研究文獻分析的拍賣品種類過少,所以基于買方出價水平數據對其出價行為進行的研究不夠深入,有關拍賣品的價格層級、類別等對買方出價行為的影響尚未考慮。鑒于此,本文利用函數性數據聚類分析方法,通過基于MatLab編寫的分析程序,對從eBay網站收集到的26類7天期物品拍賣中買方的出價數據進行分析,探討拍賣品的價格層級、類別等對買方出價行為的影響,并就其在不同網站物品拍賣中的表現進行比較。
為了使分析中涉及的樣本拍賣類能夠反映網上拍賣市場的整體結構,從而對網上拍賣中買方的出價行為做出客觀、可信的分析,本文就樣本選擇說明如下:
第一,拍賣種類的選擇。根據拍賣網站存儲的已結束拍賣的實際情況盡可能地多選,其目的是最大限度地體現當時網上拍賣物品的種類結構。
第二,拍賣的期限。由于eBay網上拍賣中的拍賣期限(即拍賣持續的時間)一般有1天、3天、5天、7天、10天、14天等之分,但多數物品的拍賣期限是7天,其歷史資料較之其它拍賣期限的歷史資料易于獲取,因此本文選擇的拍賣均是7天期拍賣。
第三,拍賣的起拍價。由于起拍價對買方出價水平的動態性會產生影響[9],因此不同起拍價物品拍賣中買方呈現的出價行為差異有可能與起拍價的高低有關,又網上拍賣中賣方為吸引買方競標,往往為拍賣設定較低的起拍價。為剔除起拍價的影響,本文考慮的拍賣其起拍價均小于$10。
第四,拍賣物品的種類差異。網上拍賣網站對拍賣物品按大類分類,每一大類中又包含若干子類,一般來說,分類越粗拍賣品的種類差異越大。因此,在選擇拍賣物品時,既要考慮拍賣物品的種類,還要考慮同一類物品的同質程度。
基于以上考慮,本文從eBay上收集了具有代表性的26類7天期拍賣的真實歷史資料。網站上拍賣品的歷史資料以網頁的形式呈現,因此數據的獲取需要經過網頁采集、信息抽取及出價時間換算(換算為以天為單位的數據)三步。從eBay網站收集到的拍賣共2319個,總計出價50964次,具體情況見表1。在表1中,后三行所列的6類拍賣物品(純手機、照相機鏡片、男裝、雕刻、兒童書籍、勛章)為同質程度較高的物品拍賣種類。
與國外拍賣網站相比,中國拍賣網站起步較晚,在經驗積累、刊登的拍賣品數量、買方參與性等方面存在著較大差距。中國互聯網絡信息中心(CNNIC)2013年4月發布的市場研究報告[10]顯示,在各類購物網站中,淘寶網的用戶規模高居首位,用戶滲透率達到88.5%;CNNIC2014年4月發布的市場研究報告[11]還顯示,淘寶網對不同年齡代網購用戶的吸引力最大,其對60后、70后、80后和90后的吸引力分別為 60.6%、62.1%、63.8%和 69.7%。因此,本文選擇淘寶網作為中國C2C拍賣網站的代表,并從該網站收集到了珠寶類7天期拍賣491個,總計出價10602次。
(一)買方出價數據的函數性特征
網上拍賣中,買方在拍賣期限內的任何時刻都有可能出價,其出價過程可以看作是一個連續的過程,即買方出價水平數據的內在產生過程是一個連續過程,具體的一件物品拍賣中買方的出價記錄可看作是這個過程的一次實現。如果將每一個拍賣中買方的出價金額看作其出價時刻的函數,則每一個拍賣對應著一條曲線(出價水平函數的圖像曲線)。因此,買方出價水平數據具有函數性特征,即其為函數性數據[12]。
對于一個具體的拍賣,買方的出價數據往往是離散的且只有有限多個,而在一般的函數形式中,函數在其自變量(如時間)的取值范圍(定義域)內卻包含無窮多個值。因此,在對買方出價數據進行分析時,首要的工作是將觀測到的離散出價數據轉化為一個勻滑的(smoothing)函數,即利用拍賣的原始出價數據獲得相應的出價水平函數χ(t)(0≤t≤7),它在拍賣期間[0,7]內所有時刻t處的值都被估算了出來。

表1 26類7天期拍賣的樣本選擇情況
設有n個拍賣,每一個拍賣中買方出價ni次(1≤i≤n),買方在第i個拍賣中til時刻的出價金額記為 yil(0≤til≤7,1≤l≤ni),則 n個拍賣中買方的出價數據可記為yiL:1≤l≤ni,1≤i≤n。若記第i個拍賣中買方出價數據的真實產生過程(即買方出價水平函數)為χi(t)(0≤t≤7,1≤i≤n),則yil(1≤ l≤ni,1≤i≤n)是χi(t)(0≤t≤7,1≤i≤n)在t=til處的觀測值。于是

其中εil為隨機誤差。
模型(1)中,觀測時點til及其個數一般依拍賣品的不同而變化,因此買方出價水平數據不同于通常的多元數據和面板數據。
(二)函數性數據的聚類方法及本文選擇
函數性數據不同于有限維數據,它具有無窮維特征,因此聚類一般對樣品(項目)進行,而要使用已有的聚類算法(如系統聚類法、k-means法等)進行聚類,首要的工作是對函數性數據之間的相異性程度進行度量。目前文獻中度量函數性數據相異性的主要方法大致可以歸結為三類,即直接距離法、降維法和曲線極值點法。在實際應用中,目前還沒有哪種方法整體上優于其它方法,不同的相異性度量方式在應用中既有優越的一面,同時也存在某些缺陷,研究者在實際應用中要結合數據的具體結構特征靈活選擇,同時還應與具體的聚類算法及函數性數據的修勻方法相結合。
基于直接距離的函數性數據(樣品)相異性的度量方法,特別是距離,在實際中應用最為廣泛[13],其優點是易于與分析多元數據的系統聚類法、kmeans等常用算法銜接,但實際計算距離時須使用定積分的數值算法。網上拍賣買方出價數據由于具有不等間隔分布特征,因此利用數值算法計算距離未充分考慮出價水平函數的具體特征,從而影響聚類結果。另外,聚類結果會受數據是否修勻及修勻程度的影響。
基于函數曲線極值點的方法充分考慮了樣本曲線變動的極值特征,對函數曲線或數據產生過程的時間軌跡變化劇烈、多樣的函數性數據非常有用。但是,網上C2C拍賣多采用增價拍賣(英式拍賣,English Auction),且網站對買方出價設置有加價規則并提供自動代理出價系統,從而導致買方的代理出價金額隨拍賣的進行單調遞增。因此,采用函數曲線極值點的方法對不同拍賣中買方出價水平的函數曲線之間的相異性進行度量顯然不合理。
通過降維對函數性數據相異性進行度量有兩種方法,一種是基于具體模型的方法(如ARMA模型或ARIMA模型等),另一種是基于主成分的方法。這兩種方法雖然可以將無窮維空間的問題轉化到有限維空間來解決,能夠簡化計算,但前者在應用中假定數據擬合特定的數學模型,只有數據的生成過程服從某種具體的數學模型,方可基于該模型參數的估計對樣品的相異性進行刻畫。基于主成分的方法是采用主成分對原始數據進行綜合,因此對原始數據信息的提取存在誤差。
在網上拍賣中,買方各次出價對應的時點在拍賣期間中不等間隔分布,故不能使用傳統統計分析中的常見模型對出價水平數據的產生機制進行刻畫。在這種情況下,可以考慮運用基于基函數展開的方法。一般來說,如果觀測到的函數性數據具有周期性特征,則可以使用傅里葉(Fourier)基函數,對于非周期性數據可應用B-樣條(B-Spline)基函數或者多項式基函數等(Ramsay和Silverman,2006,第三章,37-58)。由于買方出價數據并不呈現周期特征,所以本文采用B-樣條基函數對出價水平函數χi(t)進行展開,換言之,利用 B-樣條基函數{φk(t),k=1,…,Ki}的線性組合表示 χi(t),即:

式中:
φik—對應第i個拍賣的基函數,k=1,…,Ki;
cik— 基函數 φik(t)前的系數。
確定基展開式(2)中系數cik(1≤i≤n,k=1,…,Ki)的方法是帶懲罰的最小二乘估計準則(Ramsay和 Silverman,2006,81-109),即:

其中,參數λ是修勻參數,用來控制函數的勻滑程度;D2表示出價水平函數χi(t)的二階導數。
由于各拍賣中買方出價到來的時點不一致,且其出價次數ni一般隨拍賣的不同而變化,所以利用式(3)得到的對應諸χi(t)的cik個數Ki一般也是變化的,即各拍賣對應的系數向量(ci1,…,ciK)的維數一般不相同。鑒于此,在聚類分析前,需要對每個拍賣中買方的原始出價數據進行線性插值,以求出所有拍賣在共同時間節點t1,t2,…,tm處的值。對第i個拍賣,記時刻tj處得到的出價金額的插值為y(i)j=y(i)j(tj),其中1≤i≤n,1≤j≤m。于是式(3)簡化為:

其中K=樣條函數的階數+時間節點的個數-2。
利用上式可得到第i個拍賣中買方出價水平函數 χi(t)對應的系數向量(ci1,…,ciK)。于是,n個拍賣分別對應著n條光滑的函數曲線,同時也對應著n個K維的系數向量(ci1,…,ciK),從而對買方出價水平數據的聚類就轉化為對n個K維的系數向量(ci1,…,ciK)的聚類。
但是,由于買方出價數據的容量大,如淘寶網珠寶類7天期拍賣有491個,總計出價10602次,又加之基函數個數的影響,如果對n個K維數據(ci1,…,ciK)(1≤i≤n)使用系統聚類法進行聚類,則計算速度會很慢。因此,本文采用計算速度更快的kmeans算法對B-樣條基函數的n個K維系數向量(ci1,…,ciK)進行聚類,為敘述方便,稱這種函數性數據聚類方法為B-樣條k-means方法。
為了探討拍賣物品的價格層級和類別對買方出價行為的影響,以及對其在中外不同拍賣網站的表現進行比較,本文利用B-樣條k-means方法對買方出價水平數據進行聚類分析。分析的技術線路是:首先對eBay 26類7天期拍賣中的出價水平數據逐類進行聚類分析,其次對26類拍賣中各類拍賣的買方平均出價水平數據進行分析,最后對淘寶網7天期珠寶拍賣的出價數據進行聚類分析,并通過類中心曲線的幾何特征對買方出價行為進行剖析。在具體分析中,為清晰地展示出價水平隨時間變化的特征,本文進行聚類時使用的數據是出價金額的對數數據;對數據進行修勻時使用的是6階B-樣條基,選擇的節點是{0,1,2,3,4,5,6,6.25,6.5,6.75,6.8125,6.875,6.9375,7},共 14個,這樣的節點選取方式充分考慮了網上拍賣買方出價來到過程的時間特征。另外,在對買方出價水平數據進行函數性聚類分析時涉及大量的計算,為此本文基于MatLab編寫了計算程序。
(一)拍賣物品的價格層級對買方出價行為的影響
一般情況下,買方對一件拍賣品出價的高低受拍賣物品真實市場價格的影響很大,一件拍賣品的市場價格越高,其最終拍賣價格也越高,相應的出價水平也居于高位。為了分析拍賣品的價格層級對買方出價行為的影響,本文將拍賣品按其最終拍賣價格分為四個層級,分別稱其為高價級、中高價級、中低價級、低價級拍賣品。
進一步,本文使用B-樣條k-means方法對26類7天期拍賣中的每一類拍賣對應的買方出價水平數據進行聚類分析,并繪制聚為4類的類中心曲線圖(共26個)。圖1是健康與美容類拍賣中買方出價水平被聚為4類的類中心曲線圖,圖中的4條曲線從上到下依次表示聚成的4個類中各類所含物品拍賣中買方出價水平的平均水平,其分別對應著高價級、中高價級、中低價級、低價級拍賣品。處于最高位的曲線反映了高價級物品拍賣中買方的出價行為,其它曲線可類此解釋。
通過對26個類中心曲線圖的分析發現,在同類的物品拍賣中,26個拍賣類中有9個拍賣類,其買方出價水平曲線的類中心曲線在2天后有3條近似平行,有13個拍賣類在3天后有3條近乎平行,即84.6%的樣本類在3天后有3條近似平行;26個拍賣類中有18個拍賣類(占樣本類的69.2%)其低價級拍賣品對應的買方出價水平曲線的類中心曲線有一個共同特征,即買方出價增加的速度較高價級拍賣品中買方出價水平的類中心曲線增加的速度快;對于高價級拍賣品,其共同的特征是買方的前期出價水平增加的速度較快,而隨后時段出價水平增加緩慢,表現為類中心曲線較為平緩,出現這種情況的拍賣類占樣本類的88.5%。另外一個普遍現象是處于中間位置的兩條曲線除在拍賣的前2-3天存在差異外,在拍賣以后的時段呈現出更為近似的幾何結構。

圖1 健康與美容類拍賣的類中心曲線圖
這種情況說明:(1)在網上拍賣中,拍賣品的價格層級易于在出價過程的前期(前2-3天)對買方的出價行為產生影響,在拍賣的以后時段除出價高低有差異外,買方在不同價格層級物品拍賣中呈現較相似的出價行為,即拍賣物品的價格層級對買方出價行為的影響較小,尤其是中高價級和中低價級,其對買方出價行為的影響更小;(2)在高價級物品拍賣中,買方相對易于在拍賣前期出價,促使出價水平迅速攀高,但其后時段出價動力相對不足;在低價級物品拍賣中,買方在拍賣期內的出價基本一直處于增長態勢,且類間差異大。由此可以看出,拍賣品的類型一般會對買方的出價行為產生較大的影響
(二)拍賣品類別對買方出價行為的影響
為分析買方出價行為在不同類別物品拍賣中的具體表現,本文進一步使用B-樣條k-means方法對26個拍賣類的平均出價水平數據進行聚類,其目的是探討拍賣品類別對買方出價行為的影響。經過使用MatLab編程和計算,聚為4個種類的具體結果如下:
種類一:{藝術,園藝},共含2個拍賣品類;
種類二:{瓷器與玻璃器皿,樂器,收藏品,珠寶,硬幣,郵票,手表,相片,照相機鏡片},共含9個拍賣品類;
種類三:{工藝品,古董,紙幣,兒童用品,服裝與鞋,家私,健康與美容,手機與PDA,純手機,運動品},共含10個拍賣品類;
種類四:{雕刻,勛章,男裝,書籍,兒童書籍},共含5個拍賣品類。
上述4個種類的類中心曲線圖見圖2,圖中的4條曲線從上到下依次表示種類一、種類二、種類三、種類四對應的類中心曲線。從圖2可以看出,4個種類的類中心曲線在拍賣的前2天存在明顯的差異,在拍賣進行到2天后卻呈現相似的幾何結構,其增長速度基本相同。這說明拍賣品的類別在拍賣前2天對買方出價行為的影響程度大,2天后其對買方出價行為的影響甚微;拍賣品的價格層級越高,買方越易在拍賣前期受其誘導出價。

圖2 26類拍賣的類中心曲線圖
另外,在上面聚成的4個種類中,種類二的相片類與照相機鏡片類拍賣,種類三的手機類與純手機類拍賣,種類四的書籍類與兒童書籍類拍賣,分別同屬一個大類,但所含拍賣品的同質程度不同。從聚類結果來看,它們分別被聚為同一類,這說明拍賣品的同質性對聚類結果沒有影響,換言之,拍賣品的同質程度對買方的出價行為沒有產生影響。
(三)淘寶網站買方出價行為分析
圖3是淘寶網站珠寶類7天期拍賣中買方出價水平被聚為4類的類中心曲線圖。觀察圖3發現,圖3與圖1呈現的eBay網站中買方出價水平的代表性特征存在顯著差異,其類中心曲線缺乏相似的幾何結構,不同價格層級物品拍賣中買方的出價行為不同。這種情況說明,拍賣品的價格層級對買方出價行為的影響在中外網站呈現顯著不同的特征。

圖3 淘寶珠寶類拍賣的類中心曲線圖
本文利用函數性數據的聚類分析方法(B-樣條k-means方法),通過基于MatLab編寫計算程序,首先對eBay 26類7天期拍賣中的出價水平數據逐類進行了聚類分析,其次對26類各類拍賣的平均出價水平數據和淘寶網7天期珠寶拍賣中的出價數據進行了聚類分析,得到了以下結論:
第一,拍賣品的價格層級易于在出價過程的前期(前2-3天)對買方的出價行為產生影響,其在拍賣的以后時段對買方出價行為的影響較小,對中高價級、中低價級拍賣中買方出價行為的影響更小;價格層級對買方出價行為的影響在中外網站呈現顯著不同的特征。
在高價級物品拍賣中,買方相對易于在拍賣前期出價,但其后時段出價動力相對不足;在低價級物品拍賣中,買方在拍賣期內的出價基本一直保持增長態勢,存在較大的類間差異,即拍賣品的類型對買方的出價行為一般影響較大。
第二,拍賣品的類別在拍賣前2天對買方出價行為的影響程度大,其在2天后對買方出價行為的影響甚微;拍賣品的價格層級越高,買方越易在拍賣前期受其誘導出價。
第三,在同質物品的拍賣中,本文未發現拍賣品的類別對買方出價行為產生影響的證據。
[1] Jank W,Shmueli G.Profiling price dynamics in online auctions using curve clustering[EB/OL].http://ssrn.com/abstract=902893,2005.
[2] Wang SS,Jank W,Shmueli G.Explaining and forecasting online auction prices and their dynamics using functional data analysis[J].Journal of Business and Economic Statistics,2008,26(2):144-160.
[3] Menasce D A,Akula V.Improving the performance of online auction site through closing time rescheduling[A].The First International Conference on Quantitative Evaluation of Systems[C].QEST'04,2004.186-194.
[4] Bajari P,Hortacsu A.Winner's curse,reserve prices and endogenous entry:Empirical insights from eBay auctions[J].Rand Journal of Economics,2003,2(2),329-355.
[5] Borle S,Boatwright P,Kadance J B.The timing of bid placement and extent of multiple bidding:An empirical investigation using ebay online auctions[J].Statistical Science,2006,21(2):193-207.
[6] Roth A E,Ockenfels A.Last-minute bidding and the rules for ending second-price auctions:Theory and evidence from natural experiment on the internet[J].American Economic Review,2002,78(4):806-823.
[7] Wilcox R T.Experts,amateurs:The role of experience in internet auctions[J].Marketing Letters,2000,11(4):363-374.
[8] 嚴明義.網上拍賣中競買者出價數據的特征及分析方法研究[J].統計與信息論壇,2008,23(9):17-22.
[9] 嚴明義.網上拍賣競買者出價水平的動態演變模式研究[J].統計研究,2010,27(3):59-65.
[10] 中國互聯網絡信息中心(CNNIC).2012年中國網絡購物市場研究報告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/dzswbg/201304/P020130417 543965742695.pdf,2013-04-17.
[11] 中國互聯網絡信息中心(CNNIC).2013年中國網絡購物市場研究報告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/dzswbg/201404/P0201404213 60912597676.pdf[EB/OL],2014-04-21.
[12] Ramsay J O,Silverman B W.Functional data analysis(second edition)[M].北京:中國科學出版社,2006.
[13] Ferreira L,Hithcock D B.A comparison of hierarchical methods for clustering functional data[J].Communications in Statistics:Simulation and Computation,2009,38(9):1925-1949.