“拍照賺錢”任務(wù)定價(jià)模型的探究與優(yōu)化

2019-05-14 10:56:52陳明藝陳鑫王梅杰

科技資訊 2019年4期

陳明藝陳鑫王梅杰

摘要：“拍照賺錢”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。該文用拉伊達(dá)準(zhǔn)則篩去地理位置偏遠(yuǎn)的數(shù)據(jù)點(diǎn)，運(yùn)用K-均值聚類，將任務(wù)點(diǎn)劃分為4個(gè)區(qū)域，進(jìn)而分別探究每個(gè)區(qū)域任務(wù)定價(jià)與經(jīng)緯度的函數(shù)關(guān)系，并采用多元非線性回歸求得任務(wù)定價(jià)與經(jīng)緯度之間的函數(shù)關(guān)系表達(dá)式；再引入會(huì)員對(duì)價(jià)格的影響因子，對(duì)任務(wù)定價(jià)和影響因子進(jìn)行多元非線性回歸，得到對(duì)應(yīng)函數(shù)關(guān)系式；用K-均值聚類每個(gè)區(qū)域的任務(wù)進(jìn)行打包，并將聚類中心經(jīng)緯度作為任務(wù)包的經(jīng)緯度，定義出任務(wù)包定價(jià)與該區(qū)域最低單個(gè)任務(wù)定價(jià)、任務(wù)包中任務(wù)數(shù)量、任務(wù)包中各任務(wù)原價(jià)之間的關(guān)系式，求出定價(jià)模型，并且借助多項(xiàng)Logistic統(tǒng)計(jì)回歸模型對(duì)任務(wù)完成度進(jìn)行了預(yù)測(cè)。

關(guān)鍵詞：K-均值聚類拉伊達(dá)準(zhǔn)則多元非線性回歸多項(xiàng)Logistic回歸分析

中圖分類號(hào)：G712 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-3791（2019）02（a）-0-03

1 模型的假設(shè)及符號(hào)的使用

1.1 模型的假設(shè)（該論文基于2017年全國(guó)大學(xué)生數(shù)學(xué)建模B題而作）

假設(shè)在某區(qū)域的會(huì)員執(zhí)行該區(qū)域的任務(wù)；

假設(shè)任務(wù)的發(fā)布只與任務(wù)本身有關(guān)，無(wú)其他影響因素。

1.2 符號(hào)的使用及說(shuō)明

為處理問(wèn)題方便，將文中常用量設(shè)置符號(hào)如表1所示。

2 模型的建立與求解

2.1 異常數(shù)據(jù)的篩選

題目所給數(shù)據(jù)涉及地理位置信息，而不同地理位置的定價(jià)與任務(wù)完成情況不同。通過(guò)對(duì)觀察可以發(fā)現(xiàn)，數(shù)據(jù)密集分布于廣東省佛山、廣州、東莞、深圳市，且有少量點(diǎn)零散分布在其他地區(qū)。由于樣本數(shù)據(jù)量足夠大，所以運(yùn)用拉依達(dá)準(zhǔn)則進(jìn)行異常數(shù)據(jù)的篩選。運(yùn)用經(jīng)緯度數(shù)據(jù)做其正態(tài)分布圖（見(jiàn)圖1）。

運(yùn)用經(jīng)緯度數(shù)據(jù)并借助做其正態(tài)分布圖，得以驗(yàn)證緯度的樣本數(shù)據(jù)近似服從正態(tài)分布，接下來(lái)運(yùn)用拉依達(dá)準(zhǔn)則對(duì)緯度的異常數(shù)據(jù)進(jìn)行篩選：

，（1）

其中，為樣本均值。

（2）

如果某測(cè)量值與平均值之差大于標(biāo)準(zhǔn)差的3倍，則予以刪除，結(jié)合公式并篩選得到832個(gè)數(shù)據(jù)。

2.2 問(wèn)題（1）模型建立與求解

2.2.1 K-均值聚類模型

題目數(shù)據(jù)來(lái)源于廣州、佛山、東莞、深圳，并且數(shù)據(jù)點(diǎn)在4個(gè)城市呈現(xiàn)區(qū)域密集集中狀態(tài)，所以用K-均值聚類對(duì)篩選得到的全部數(shù)據(jù)進(jìn)行分類。K-均值聚類具體分體步驟如下：

輸入樣本數(shù)據(jù)：N={（x1，y1），（x2，y2），…，（xi，yi）}，i=1，2，…，832，j=1，2，3，4。

通過(guò)K均值聚類劃分為4個(gè)區(qū)域，令I(lǐng)=1，隨機(jī)選取4個(gè)數(shù)據(jù)點(diǎn)作為4個(gè)類簇的初始簇中心，中心點(diǎn)為：mj（I），j=1，2，3，4。計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與4個(gè)聚類中心的距離d（（xi，yi），mj（I）），若符d（（xi，yi），mj（I））=min{d（（xi，yi），mj（I）），j=1，2，3，4}，則（xi，yi）∈CJ。

計(jì)算4個(gè)新的聚類中心：mj（I+1）=（xi，yi）。

若mj（I+1）≠mj（I），則I=I+1，否則重新計(jì)算中心點(diǎn)距離。

結(jié)合上述原理，得到聚類結(jié)果如圖2所示。

Cluster1為廣州市，任務(wù)完成率為37.33%；

Cluster2為佛山市，任務(wù)完成率為60.37%；

Cluster3為深圳市，任務(wù)完成率為36.54%；

Cluster4為東莞市，任務(wù)完成率為94.80%。

2.2.2 多元回歸分析模型

設(shè)經(jīng)度、緯度為自變量，價(jià)格為因變量建立二次回歸方程：

P=β0+β1X+β2X2+β3Y+β4Y2+ε （3）

其中βi表示回歸系數(shù)，ε為誤差。

基于上述假設(shè)求解自變量與因變量的函數(shù)關(guān)系，通過(guò)檢驗(yàn)選擇擬合度最高的一種假設(shè)作為最優(yōu)解，得到每個(gè)區(qū)域內(nèi)擬合度最高的二次回歸方程。

Cluster1：

P=-20447.5101+1735.704X-36.703X2

決定系數(shù)：R2=0.8623。

Cluster2：

P=87051.6008+2878.4852X-2107.7656Y+ 49.6927X2-45.6885XY+13.8969Y2

決定系數(shù)：R2=0.8057。

Cluster3：

P=181540.22+3230.1669X-3835.0042Y+ 73.9869X2-57.6404XY+22.5785Y2

決定系數(shù)：R2=0.9167。

Cluster4：

P=1124600-5400X-18700Y+100Y2

決定系數(shù)：R2=0.8493。

2.3 問(wèn)題（2）模型的建立與求解

2.3.1 對(duì)會(huì)員位置進(jìn)行區(qū)域劃分

做會(huì)員位置分布、任務(wù)完成與未完成情況的散點(diǎn)圖如圖3所示。

其中黃色表示會(huì)員位置、紅色表示未完成任務(wù)、綠色表示完成任務(wù)。依據(jù)會(huì)員的經(jīng)緯度，將會(huì)員劃分到問(wèn)題（1）所分的區(qū)域。

2.3.2 影響定價(jià)因子的確定

在其他影響因素不變的情況下，信譽(yù)度越高，預(yù)定任務(wù)限額越大，任務(wù)開始預(yù)定時(shí)間也早，則任務(wù)完成率越高。所以采取3個(gè)指標(biāo)：用戶信譽(yù)度、預(yù)訂任務(wù)限額、預(yù)訂任務(wù)開始時(shí)間。該文選用d/K來(lái)衡量信譽(yù)度k、距離d交互對(duì)定價(jià)的影響。基于上述分析，同理求d/Q、d/T的數(shù)值。用一個(gè)區(qū)域內(nèi)所有用戶對(duì)任務(wù)點(diǎn)影響因子的相加來(lái)表示用戶質(zhì)量對(duì)任務(wù)點(diǎn)影響，用u，v，w分別表示信譽(yù)度影響因子、預(yù)定任務(wù)限額影響因子、預(yù)定任務(wù)開始時(shí)間影響因子：

u；v；w （4）

2.3.3 多元非線性回歸模型

以第三類區(qū)域數(shù)據(jù)為例，用戶距離、信譽(yù)度影響因子、預(yù)定任務(wù)限額、預(yù)定任務(wù)開始時(shí)間作為自變量，定價(jià)作為因變量，使用多元非線性回歸的方法探究自變量與因變量存在的函數(shù)關(guān)系。

設(shè)主成分因子xi（i=1，2，3，4）為自變量，t2為因變量，建立二次回歸方程：

P=β0+β1D+β2D2+β3u+β4u2+β5w+β6w2+β7v+β8v2+ε （5）

其中βi表示回歸系數(shù)。

進(jìn)行模型的求解，得到擬合度最高的回歸方程：

Cluster1：

P=106.6846-0.10312D+1.7027×10-5u-0.023227w+ 9.9046×10-5D2+1.1925×10-7D×u+7.093×10-5D×w+3.517 ×10-13u2-8.5889×10-10u×w

決定系數(shù)：R2=0.7919。

Cluster2：

P=259.1411-5.2216D+0.034261D2-0.014402v-0.00020448D×v+0.00063709D×w+1.9565× 10-7v2

決定系數(shù)R2=0.8376。

Cluster3：

P=93.177-1.1664D×w-7.1769×10-5D2-1.4568×10-6v ×D-1.0502×10-5D×w+1.1373×10-9v2+3.72×10-6w2

決定系數(shù)R2=0.9042。

Cluster4：

P=75.6512-0.00010737×v-0.0029586×w+3.4313× 10-10v2

決定系數(shù)：R2=0.7583。

2.4 問(wèn)題（3）模型的建立與求解

2.4.1 對(duì)任務(wù)進(jìn)行打包

用戶的預(yù)定任務(wù)限額為1～8個(gè)，所以對(duì)任務(wù)進(jìn)行打包時(shí)，任務(wù)包內(nèi)的任務(wù)個(gè)數(shù)不能超過(guò)8個(gè)。以Cluster1區(qū)域?yàn)槔龑?duì)該區(qū)域中的任務(wù)經(jīng)緯度進(jìn)行K-均值聚類，通過(guò)K-均值聚類將Cluster1中的任務(wù)打包為48個(gè)任務(wù)包，并得到了48個(gè)任務(wù)包的聚類中心坐標(biāo)，任務(wù)包中的任務(wù)數(shù)量最大為8，最小任務(wù)數(shù)量為1。

2.4.2 對(duì)打包任務(wù)進(jìn)行定價(jià)

打包任務(wù)將多個(gè)任務(wù)集中在一起發(fā)布，需要對(duì)打包任務(wù)進(jìn)行重新定價(jià)，具體步驟如下。

設(shè)打包任務(wù)中：任務(wù)數(shù)量為a，每個(gè)任務(wù)的原定價(jià)為：P1、P2、……、Pa，整個(gè)打包任務(wù)的定價(jià)為S，該區(qū)域打包任務(wù)中包含的任務(wù)數(shù)量最多為h，單個(gè)任務(wù)的最低定價(jià)為O。任務(wù)數(shù)量越多，該打包任務(wù)的平均任務(wù)價(jià)格S應(yīng)越低，但最低不應(yīng)低于該區(qū)域單個(gè)任務(wù)的最低定價(jià)，打包任務(wù)降價(jià)最大值為：S-Pmin-O≥0，打包任務(wù)

應(yīng)降價(jià)：P-=，建立S與a的關(guān)系式如下：

S=。

2.4.3 求出打包任務(wù)的定價(jià)關(guān)系表達(dá)式

由于部分任務(wù)被打包到一起，集中度較高，因此任務(wù)數(shù)量的大小對(duì)定價(jià)的影響尤為重要。可知任務(wù)數(shù)量越大，平均任務(wù)價(jià)格越低。因此將打包任務(wù)的數(shù)量與所有用戶距打包任務(wù)中心點(diǎn)的距離之和相互結(jié)合，結(jié)合第二問(wèn)的模型，經(jīng)多元非線性擬合，最終得到擬合效果最優(yōu)的函數(shù)關(guān)系表達(dá)式為：

P=212.199-0.000126u-0.016474v+0.53636w+6.7085 ×10-7D/a×u+0.00012357D/a×v-0.0042344D/a×w+ 3.243×10-12×u2

決定系數(shù)：R2=0.8580。

對(duì)得到的定價(jià)模型，通過(guò)logistic模型得到任務(wù)的完成度，對(duì)比改進(jìn)前后的任務(wù)完成度，得知改進(jìn)方案對(duì)任務(wù)完成度的影響。打包處理之前的任務(wù)指標(biāo)有：任務(wù)經(jīng)緯度、任務(wù)定價(jià)、任務(wù)執(zhí)行情況、會(huì)員經(jīng)緯度、會(huì)員信譽(yù)度、會(huì)員開始時(shí)間。打包處理后，發(fā)生變化的是任務(wù)的數(shù)量，因此將任務(wù)的經(jīng)緯度與任務(wù)的數(shù)量結(jié)合，將用戶距離之和/數(shù)量，作為其中一個(gè)協(xié)變量，再將任務(wù)標(biāo)價(jià)作為另一個(gè)協(xié)變量，將任務(wù)完成度作為因變量。把已結(jié)束的項(xiàng)目中的任務(wù)點(diǎn)作為樣本，通過(guò)K-均值聚類分類的任務(wù)點(diǎn)作為預(yù)測(cè)對(duì)象，將其數(shù)據(jù)帶入建立的定價(jià)模型得到標(biāo)價(jià)，對(duì)其進(jìn)行完成度的預(yù)測(cè)，求得各個(gè)會(huì)員對(duì)任務(wù)點(diǎn)的用戶距離之和。預(yù)測(cè)出打包后的任務(wù)點(diǎn)的完成度，求得偽R2=0.801。

經(jīng)計(jì)算得出，打包前有84個(gè)任務(wù)點(diǎn)，完成的任務(wù)點(diǎn)有56個(gè)，完成率為66.66%；打包后由84個(gè)任務(wù)點(diǎn)，完成的任務(wù)點(diǎn)有68個(gè)，完成率為80.95%，可知打包處理后完成率獲得了很大的提高。

2.5 問(wèn)題（4）模型的建立和求解

做出新任務(wù)的位置信息和任務(wù)點(diǎn)的位置信息的散點(diǎn)圖，如圖4所示。

通過(guò)觀察散點(diǎn)圖，可以發(fā)現(xiàn)任務(wù)點(diǎn)集中分布于Cluser1地域與Cluster4地域。所以此文需要采用多項(xiàng)logistic回歸分析對(duì)任務(wù)點(diǎn)進(jìn)行地域歸類。

選用問(wèn)題（2）中合理定價(jià)的任務(wù)點(diǎn)經(jīng)緯度信息、定價(jià)信息、分類情況，進(jìn)行多項(xiàng)Logistic分析，以分類情況為因變量，任務(wù)點(diǎn)的經(jīng)緯度信息為協(xié)變量進(jìn)行分類，將數(shù)據(jù)劃分到4個(gè)區(qū)域。問(wèn)題（2）中所建立的模型所引入的變量較為全面，所以該問(wèn)題引用問(wèn)題（2）中所建立的任務(wù)定價(jià)模型。以Cluster4為例，結(jié)合問(wèn)題（2）中D、u、v、w的算法，計(jì)算出問(wèn)題（4）中的D、u、v、w，提取問(wèn)題（2）中Cluster4中定價(jià)合理的任務(wù)數(shù)據(jù)點(diǎn)，并運(yùn)用問(wèn)題（2）中所求得D、u、v、w與用戶距離求和/數(shù)量、信譽(yù)度/距離之和、限額/距離之和、開始時(shí)間/距離之和，聯(lián)立形成新表，將問(wèn)題（2）中合理的價(jià)格作為訓(xùn)練集，問(wèn)題（4）中的定價(jià)為測(cè)試集，進(jìn)行多項(xiàng)Logistic分析，預(yù)測(cè)出問(wèn)題（4）中的定價(jià)，并且通過(guò)計(jì)算擬R2來(lái)證實(shí)該分析，擬R2計(jì)算結(jié)果如表2所示。

通過(guò)偽R2max=0.814可以看出，利用問(wèn)題（2）中的價(jià)格來(lái)預(yù)測(cè)問(wèn)題（4）中的價(jià)格具有合理性。

參考文獻(xiàn)

[1] 安思錦，翟健.軟件眾包參與度影響因素分析及預(yù)測(cè)模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2015，24（10）：9-16.

[2] 陳家銀.豬八戒眾包平臺(tái)數(shù)據(jù)分析與眾包模式設(shè)計(jì)[D].大連理工大學(xué)，2016.

[3] 劉偉韜，廖尚輝.主成分logistic回歸分析在底板突水預(yù)測(cè)中的應(yīng)用[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)，2015，34（8）：905-909.

[4] 卓金武.MATLAB在數(shù)學(xué)建模中的應(yīng)用[M].北京：北京航空航天大學(xué)出版社，2011.