童天語,郭沛然,李潤堯
(北京師范大學(xué),北京 100875)
眾包(Crowdsourcing)是移動互聯(lián)技術(shù)快速發(fā)展產(chǎn)生的新的商業(yè)模式,最早由記著Jeff Howe[1]在美國《連線》雜志2006年6月刊上提出,目前公認的定義為“眾包指的是一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法.(就是通過網(wǎng)絡(luò)做產(chǎn)品的開發(fā)需求調(diào)研,以用戶的真實使用感受為出發(fā)點)”[2],也就是說眾包是一種在線、分布式問題的解決模式和生產(chǎn)模式.
現(xiàn)階段的空間眾包平臺已經(jīng)日益成熟,如美團外賣、滴滴出行等眾包平臺更是與我們的生活密切相關(guān).在目前關(guān)于空間眾包平臺的研究中,研究最多的是眾包平臺的任務(wù)分配方式,這其中大部分是關(guān)于在線決策算法的平衡的研究,也稱多臂賭博機問題[3],而很少有關(guān)于任務(wù)定價模型的研究.實際上任務(wù)的定價在很大程度上會影響到任務(wù)完成的概率,從而影響到整個平臺的運行效率和資源配置效率.任務(wù)標價過高的話,雖然可有吸引更多會員完成任務(wù),但并不會提高任務(wù)的完成質(zhì)量,同時也容易吸引欺詐者;任務(wù)標價過低的話,任務(wù)不容易被完成,導(dǎo)致資源浪費[4].
因此,本文將通過對拍拍賺平臺某次任務(wù)的詳細數(shù)據(jù)進行分析,提出可行的任務(wù)定價模型,以及這類問題的一種研究思路.

圖1

圖2
此次任務(wù)的樣本初始數(shù)據(jù)有任務(wù)的經(jīng)緯度,會員的經(jīng)緯度、預(yù)訂任務(wù)限額、預(yù)訂任務(wù)開始時間和信譽值.由于目標任務(wù)定價模型是以任務(wù)的相關(guān)屬性為自變量,我們需要通過這些數(shù)據(jù)生成關(guān)于任務(wù)的一些二級屬性,比如任務(wù)密度、任務(wù)周圍會員的平均信譽等,然后將這些數(shù)據(jù)的分布與下文的任務(wù)定價、任務(wù)是否完成的分布圖進行比較,選出其中對任務(wù)定價、任務(wù)完成有影響的指標,參與后續(xù)的回歸分析.
以經(jīng)度為X軸,緯度為Y軸,首先運用MATLAB軟件繪制了任務(wù)定價以及任務(wù)是否完成的分布圖,見圖1和圖2.
繼而對樣本數(shù)據(jù)做相應(yīng)處理,在處理中,本文最終僅選取了任務(wù)位置在經(jīng)度112.68°~114.50°,緯度22.49°~23.88°之間,會員位置在經(jīng)度 112.62°~115.38°,緯度 22.26°~23.64°之間的數(shù)據(jù),因為這個范圍之外的位置數(shù)據(jù)偏離過大,會對回歸結(jié)果產(chǎn)生影響.同時剔除了一組異常數(shù)據(jù):會員編號B1175.最終得到可能影響任務(wù)定價和任務(wù)完成與否的指標,此處列出10個樣本數(shù)據(jù)作為范示.

圖3
然后將數(shù)據(jù)用MATLAB軟件處理后得到的各種指標的分布圖與圖一和圖二進行比對,再加上理論上的分析,確定了下面四個對任務(wù)定價規(guī)律和任務(wù)完成情況有影響的指標:
(1)任務(wù)密度(個/25km2):首先將經(jīng)緯度換算成地表實際距離,每一緯度代表的距離為111.3214 km,每一經(jīng)度代表的距離與當?shù)氐木暥扔嘘P(guān),其中北緯22°上一經(jīng)度表示實際距離102.4841km.將經(jīng)緯度換算到實際距離之后,生成以該任務(wù)所在地為圓心,5km為半徑的區(qū)域內(nèi)的任務(wù)數(shù)量,由此得到任一任務(wù)點的任務(wù)密度.
(2)會員密度(個/25km2):處理方法與任務(wù)密度相同,得到每一個會員周圍5km為半徑區(qū)域內(nèi)的會員數(shù)量分布.
(3)周圍會員平均信譽:將每一個任務(wù)點周圍5km半徑區(qū)域內(nèi)所有會員的信譽值進行加權(quán)平均,得到該任務(wù)點的周圍會員平均信譽.由于樣本對數(shù)據(jù)的解釋中提到“任務(wù)分配時實際上是根據(jù)預(yù)定限額所占比例進行配發(fā)”,因此各會員的預(yù)定任務(wù)限額與周圍會員總預(yù)定任務(wù)限額之比即作為該會員的信譽權(quán)重,最終加總求得每一任務(wù)周圍會員的平均信譽.
(4)周圍會員平均開始時間:首先將每個會員的預(yù)訂任務(wù)開始時間處理為虛擬變量,6:30-8:00之間的一個半小時時段平均分成六份,分別賦值為1-6.然后將每一個任務(wù)點周圍5km半徑區(qū)域內(nèi)所有會員的開始預(yù)訂時間進行算術(shù)平均,得到周圍會員平均開始時間.
3.1.1 空間相關(guān)
首先,本文引入空間相關(guān)(也稱空間交互、空間依賴)的概念:某一特定區(qū)位的經(jīng)濟地理條件或特征會受到其相鄰區(qū)位的經(jīng)濟地理條件或特征的影響[5].在本題目中,引入這一概念即意味著位于某一特定區(qū)域任務(wù)的定價會受到其鄰近區(qū)域的任務(wù)價格的影響.因此,除了考慮上文提出的指標對某一任務(wù)定價的影響之外,我們也應(yīng)該考慮加入一個空間交互項,來描述鄰近區(qū)域任務(wù)定價的空間溢出效應(yīng).如果在回歸模型中忽略了這一重要的交互因素,即認為空間事物是同質(zhì)的、無關(guān)聯(lián)的,則會導(dǎo)致解釋變量的系數(shù)被高估,而且誤差項不滿足同方差和漸進服從正態(tài)分布的假定,無法對系數(shù)估計進行統(tǒng)計推斷.
對任務(wù)定價的影響因素進行空間計量分析,第一,需要設(shè)置空間權(quán)重矩陣W.第二,需要檢驗研究對象的空間相關(guān)性,判斷相鄰區(qū)域的研究對象之間是否相互影響.第三,需要在不同的空間計量模型設(shè)定之間進行選擇.第四,分析回歸結(jié)果.
3.1.2 空間權(quán)重矩陣W的設(shè)置
首先,運用Geoda軟件,我們得出關(guān)于任務(wù)空間分布的馮洛諾伊圖(Voronoi Diagram).圖中,每一個小圓代表一個任務(wù)的位置,實線代表邊界,邊界圍成的圖形稱為泰森多邊形(Thiesson Polygons).該圖的性質(zhì)有:(1)每個泰森多邊形中只包含一個任務(wù)點.(2)多邊形內(nèi)部的任意一點到相應(yīng)任務(wù)點的距離最近.在下文中,我們將一個泰森多邊形區(qū)域簡稱為一個區(qū)域[3].

圖4
其次,我們定義一個一階n×n空間權(quán)重矩陣W1,若區(qū)域i和區(qū)域j存在公共邊界或公共頂點,就定義兩者“鄰接”,Wij=1;否則,就定義兩者“不鄰接”,Wij=0;另外,Wii=0.容易看出,W 是一個對角線元素都為0的對稱矩陣.
再次,我們討論p階空間權(quán)重矩陣,Wp=(W1)p,p∈N+.以二階空間權(quán)重矩陣為例,此矩陣表示鄰居的鄰居(2階鄰居)的關(guān)系.p值越大,鄰居的數(shù)目越多,“鄰接”區(qū)域的范圍越大,不同距離鄰居的權(quán)重也不同.對于不同階數(shù)W的選擇,我們試驗性地對SEM模型進行極大似然估計,通過比較不同方程的對數(shù)似然函數(shù)值(擬合優(yōu)度),選擇具有最大對數(shù)似然函數(shù)值的模型對應(yīng)的空間權(quán)重矩陣[4].估計結(jié)果如下:

階數(shù)p 對數(shù)似然函數(shù)值1-2194.099124 2-2210.164015 3-2219.047947 4-2227.251447 5-2234.016543 6-2240.771568
從表中可知,我們應(yīng)選取一階空間權(quán)重矩陣進行系數(shù)估計.
3.1.3 空間相關(guān)性檢驗
Moran(1950)提出的全局Moran I指數(shù)是檢驗區(qū)域變量空間相關(guān)性的常用方法,其定義為:

其中,Wij是空間權(quán)重矩陣第i行第j列的元素,Yi表示第i個區(qū)域的觀測值,n為區(qū)域的總數(shù),是所有區(qū)域觀測值的平均數(shù).Moran I指數(shù)的取值范圍是[-1,1],且取值越靠近-1或1,空間相關(guān)性越強.當-1≤Moran I<0時,不同區(qū)域觀測值呈現(xiàn)空間負相關(guān),即一個區(qū)域的取值越大,其鄰近區(qū)域的取值越小;當0<Moran I≤1時,不同區(qū)域觀測值呈現(xiàn)空間正相關(guān),即一個區(qū)域的取值越大,其鄰近區(qū)域的取值越大;當Moran I=0時,不存在空間相關(guān).計算任務(wù)定價的全局Moran I指數(shù)的結(jié)果如下.

(各區(qū)域任務(wù)定價的Moran I統(tǒng)計值)

(各區(qū)域任務(wù)定價的Moran散點圖)
由計算結(jié)果可知,各區(qū)域任務(wù)定價之間存在著較強的且顯著的空間正相關(guān)性,說明任務(wù)定價的空間分布并非完全隨機的,而是表現(xiàn)出相似值之間的空間集聚.也就是說,從整體上看,定價較高的任務(wù)更傾向于與其他定價較高的任務(wù)相鄰近,定價較低的任務(wù)更傾向于與其他定價較低的任務(wù)相鄰近.Moran散點圖表示,大多數(shù)的觀測點位于散點圖的第一、三象限,也就是意味著,大多數(shù)的任務(wù)定價服從高-高(H-H)和低-低(L-L)的空間分布.
3.1.4 空間計量模型的選擇
空間相關(guān)性檢驗的結(jié)果顯示,對于任務(wù)定價模型的建立,如果忽視了研究對象的空間異質(zhì)性和空間相關(guān)性,系數(shù)的估計和統(tǒng)計推斷就不準確,也不符合實際情況.因此,我們在空間滯后模型(Spatial Lag Model,SLM)和空間誤差模型 (Spatial Error Model,SEM)之間進行選擇.兩種模型的設(shè)定如下:

其中,price表示某一區(qū)域的任務(wù)定價;λ1表示空間自回歸系數(shù),反映被解釋變量price的空間相關(guān)性,λ2表示空間誤差自相關(guān)系數(shù),反映擾動項的空間相關(guān)性,可以理解為鄰近區(qū)域任務(wù)價格和其他空間交互因素的影響;W是空間權(quán)重矩陣;taskden表示周圍的任務(wù)密度,memden表示周圍的會員密度,goodwill表示周圍會員的平均信譽,litime表示周圍會員的平均開始時間;u、v是服從iid的隨機誤差項.
利用給定的835個任務(wù)定價數(shù)據(jù),運用Stata軟件分別給出穩(wěn)健OLS、穩(wěn)健SLM和穩(wěn)健SEM的估計結(jié)果.
(任務(wù)定價OLS模型、SLM、SEM的穩(wěn)健估計結(jié)果)

圖4

?
從回歸結(jié)果中可以看出,OLS相對于SLM和SEM高估了litime、memden兩個變量的系數(shù),相對于SLM高估了taskden的系數(shù),意味著若不考慮空間相關(guān)性,OLS的模型設(shè)定是欠妥的,估計的系數(shù)也是有偏的.同時,對空間自回歸系數(shù)λ1、空間誤差自相關(guān)系數(shù)λ2的瓦爾德檢驗(Wald test)和拉格朗日乘子檢驗(LM test)均在1%的顯著性水平上拒絕了系數(shù)等于0的原假設(shè),更加證明了選取空間計量模型的科學(xué)性.通過比較SLM和SEM估計的對數(shù)似然函數(shù)值(Log-likelihood,可作為擬合優(yōu)度),我們選取對數(shù)似然函數(shù)值較高的SEM模型做進一步的估計.
為了建立任務(wù)定價模型,剔除不顯著的解釋變量litime,同時為了減少隨機誤差項的異方差性,使用Stata軟件對SEM進行異方差穩(wěn)健的最大似然估計[5],結(jié)果如圖4.
由此,我們的任務(wù)定價模型可以表示為:

由結(jié)果可知,空間誤差自相關(guān)系數(shù)的估計值在1%的顯著性水平上顯著大于0,Wald檢驗和LM檢驗也在1%的顯著性水平上拒絕了空間誤差自相關(guān)系數(shù)等于0的原假設(shè),表明存在誤差項空間交互效應(yīng),鄰近區(qū)域任務(wù)的價格越高,本區(qū)域任務(wù)的定價就越高.
同時我們發(fā)現(xiàn),taskden、memden、goodwill這三個解釋變量的系數(shù)估計為負,說明這三個指標值越大,本區(qū)域任務(wù)價格就越低.其中,周圍5km半徑區(qū)域內(nèi)的任務(wù)數(shù)量每增加1個,本區(qū)域任務(wù)的定價就會下降約0.12元;周圍5km半徑區(qū)域內(nèi)的會員數(shù)量每增加1個,本區(qū)域任務(wù)的定價就會下降約0.05元.這種現(xiàn)象的產(chǎn)生可能有以下原因造成:第一,某一區(qū)域任務(wù)密度的增加意味著任務(wù)的供給增長,根據(jù)供需理論,任務(wù)的均衡價格下降.第二,某一區(qū)域會員密度的增加意味著這消費者對任務(wù)的競爭增強,更低價的任務(wù)也愿意完成,因此均衡價格下降.第三,周圍會員加權(quán)平均信譽的增加令任務(wù)發(fā)布者承擔(dān)的風(fēng)險減少,任務(wù)定價的風(fēng)險溢價下降.

圖5
在任務(wù)定價的一般模型中,設(shè)定任務(wù)周邊空間圓形區(qū)域的參數(shù)半徑為5km.下面我們進行這一參數(shù)的變化對任務(wù)定價一般模型所得結(jié)論影響的靈敏度分析,分別用2km、3.5km、7km、10km為半徑的圓形區(qū)域來衡量.相應(yīng)地,變量taskden、memden、goodwill也將因為參數(shù)半徑的改變而發(fā)生變化.在進行靈敏度分析時,我們?nèi)匀皇褂脵M截面SEM模型進行穩(wěn)健的MLE估計,下表為靈敏度分析的結(jié)果.
由圖中數(shù)據(jù)可得到如下結(jié)論:
(1)半徑的選擇對空間誤差模型中的估計系數(shù)的符號并沒有影響,taskden、memden、goodwill的系數(shù)皆為負且顯著,常數(shù)項估計皆為正且顯著,空間誤差交互系數(shù)λ的估計都為正且大都在5%的顯著性水平上顯著,說明誤差項的空間交互效應(yīng)普遍存在.
(2)半徑越大,taskden系數(shù)、memden系數(shù)、常數(shù)項的估計值越小,說明隨著半徑增大,周圍任務(wù)密度、周圍會員密度對任務(wù)定價的反向作用越小;而goodwill系數(shù)、Lambda的估計值越大,說明隨著半徑增大,周圍會員平均信譽對定價的反向作用越大.而且,隨著半徑增大,定價的空間交互效應(yīng)越大,即周圍任務(wù)的定價對本區(qū)域任務(wù)定價的正向作用越大.但是,由于正負系數(shù)的效應(yīng)相互抵消,對最終價格的預(yù)測影響不大.
(3)從各個方程的對數(shù)似然函數(shù)值可以看出,當半徑定為5km時,Log L值為-2279.89,在5個不同半徑對應(yīng)的結(jié)果數(shù)值中最大,即表明對應(yīng)方程估計的擬合優(yōu)度最高.因此,模型假設(shè)中選用區(qū)域參數(shù)半徑為5km是合理且可靠的.
本文以“拍拍賺”平臺某次已結(jié)束任務(wù)的數(shù)據(jù)為樣本,研究得到該平臺上任務(wù)定價的空間計量模型.任務(wù)定價是空間眾包平臺研究中的一大難題,是影響任務(wù)完成情況的最主要因素.研究中,本文的創(chuàng)新之處在于考慮了空間交互的影響,設(shè)置空間權(quán)重矩陣,穩(wěn)健估計出任務(wù)定價的空間誤差模型(SEM),并通過對樣本參數(shù)的檢驗,證明了提出的任務(wù)定價模型是合理可靠的.