陳明藝 陳鑫 王梅杰
摘 要:“拍照賺錢”是移動互聯網下的一種自助式服務模式。該文用拉伊達準則篩去地理位置偏遠的數據點,運用K-均值聚類,將任務點劃分為4個區域,進而分別探究每個區域任務定價與經緯度的函數關系,并采用多元非線性回歸求得任務定價與經緯度之間的函數關系表達式;再引入會員對價格的影響因子,對任務定價和影響因子進行多元非線性回歸,得到對應函數關系式;用K-均值聚類每個區域的任務進行打包,并將聚類中心經緯度作為任務包的經緯度,定義出任務包定價與該區域最低單個任務定價、任務包中任務數量、任務包中各任務原價之間的關系式,求出定價模型,并且借助多項Logistic統計回歸模型對任務完成度進行了預測。
關鍵詞:K-均值聚類 拉伊達準則 多元非線性回歸 多項Logistic回歸分析
中圖分類號:G712 文獻標識碼:A 文章編號:1672-3791(2019)02(a)-0-03
1 模型的假設及符號的使用
1.1 模型的假設(該論文基于2017年全國大學生數學建模B題而作)
假設在某區域的會員執行該區域的任務;
假設任務的發布只與任務本身有關,無其他影響因素。
1.2 符號的使用及說明
為處理問題方便,將文中常用量設置符號如表1所示。
2 模型的建立與求解
2.1 異常數據的篩選
題目所給數據涉及地理位置信息,而不同地理位置的定價與任務完成情況不同。通過對觀察可以發現,數據密集分布于廣東省佛山、廣州、東莞、深圳市,且有少量點零散分布在其他地區。由于樣本數據量足夠大,所以運用拉依達準則進行異常數據的篩選。運用經緯度數據做其正態分布圖(見圖1)。
運用經緯度數據并借助做其正態分布圖,得以驗證緯度的樣本數據近似服從正態分布,接下來運用拉依達準則對緯度的異常數據進行篩選:
, (1)
其中,為樣本均值。
(2)
如果某測量值與平均值之差大于標準差的3倍,則予以刪除,結合公式并篩選得到832個數據。
2.2 問題(1)模型建立與求解
2.2.1 K-均值聚類模型
題目數據來源于廣州、佛山、東莞、深圳,并且數據點在4個城市呈現區域密集集中狀態,所以用K-均值聚類對篩選得到的全部數據進行分類。K-均值聚類具體分體步驟如下:
輸入樣本數據:N={(x1,y1),(x2,y2),…,(xi,yi)},i=1,2,…,832,j=1,2,3,4。
通過K均值聚類劃分為4個區域,令I=1,隨機選取4個數據點作為4個類簇的初始簇中心,中心點為:mj(I),j=1,2,3,4。計算每個數據點與4個聚類中心的距離d((xi,yi),mj(I)),若符d((xi,yi),mj(I))=min{d((xi,yi),mj(I)),j=1,2,3,4},則(xi,yi)∈CJ。
計算4個新的聚類中心:mj(I+1)=(xi,yi)。
若mj(I+1)≠mj(I),則I=I+1,否則重新計算中心點距離。
結合上述原理,得到聚類結果如圖2所示。
Cluster1為廣州市,任務完成率為37.33%;
Cluster2為佛山市,任務完成率為60.37%;
Cluster3為深圳市,任務完成率為36.54%;
Cluster4為東莞市,任務完成率為94.80%。
2.2.2 多元回歸分析模型
設經度、緯度為自變量,價格為因變量建立二次回歸方程:
P=β0+β1X+β2X2+β3Y+β4Y2+ε (3)
其中βi表示回歸系數,ε為誤差。
基于上述假設求解自變量與因變量的函數關系,通過檢驗選擇擬合度最高的一種假設作為最優解,得到每個區域內擬合度最高的二次回歸方程。
Cluster1:
P=-20447.5101+1735.704X-36.703X2
決定系數:R2=0.8623。
Cluster2:
P=87051.6008+2878.4852X-2107.7656Y+ 49.6927X2-45.6885XY+13.8969Y2
決定系數:R2=0.8057。
Cluster3:
P=181540.22+3230.1669X-3835.0042Y+ 73.9869X2-57.6404XY+22.5785Y2
決定系數:R2=0.9167。
Cluster4:
P=1124600-5400X-18700Y+100Y2
決定系數:R2=0.8493。
2.3 問題(2)模型的建立與求解
2.3.1 對會員位置進行區域劃分
做會員位置分布、任務完成與未完成情況的散點圖如圖3所示。
其中黃色表示會員位置、紅色表示未完成任務、綠色表示完成任務。依據會員的經緯度,將會員劃分到問題(1)所分的區域。
2.3.2 影響定價因子的確定
在其他影響因素不變的情況下,信譽度越高,預定任務限額越大,任務開始預定時間也早,則任務完成率越高。所以采取3個指標:用戶信譽度、預訂任務限額、預訂任務開始時間。該文選用d/K來衡量信譽度k、距離d交互對定價的影響。基于上述分析,同理求d/Q、d/T的數值。用一個區域內所有用戶對任務點影響因子的相加來表示用戶質量對任務點影響,用u,v,w分別表示信譽度影響因子、預定任務限額影響因子、預定任務開始時間影響因子:
u;v;w (4)
2.3.3 多元非線性回歸模型
以第三類區域數據為例,用戶距離、信譽度影響因子、預定任務限額、預定任務開始時間作為自變量,定價作為因變量,使用多元非線性回歸的方法探究自變量與因變量存在的函數關系。
設主成分因子xi(i=1,2,3,4)為自變量,t2為因變量,建立二次回歸方程:
P=β0+β1D+β2D2+β3u+β4u2+β5w+β6w2+β7v+β8v2+ε (5)
其中βi表示回歸系數。
進行模型的求解,得到擬合度最高的回歸方程:
Cluster1:
P=106.6846-0.10312D+1.7027×10-5u-0.023227w+ 9.9046×10-5D2+1.1925×10-7D×u+7.093×10-5D×w+3.517 ×10-13u2-8.5889×10-10u×w
決定系數:R2=0.7919。
Cluster2:
P=259.1411-5.2216D+0.034261D2-0.014402v-0.00020448D×v+0.00063709D×w+1.9565× 10-7v2
決定系數R2=0.8376。
Cluster3:
P=93.177-1.1664D×w-7.1769×10-5D2-1.4568×10-6v ×D-1.0502×10-5D×w+1.1373×10-9v2+3.72×10-6w2
決定系數R2=0.9042。
Cluster4:
P=75.6512-0.00010737×v-0.0029586×w+3.4313× 10-10v2
決定系數:R2=0.7583。
2.4 問題(3)模型的建立與求解
2.4.1 對任務進行打包
用戶的預定任務限額為1~8個,所以對任務進行打包時,任務包內的任務個數不能超過8個。以Cluster1區域為例對該區域中的任務經緯度進行K-均值聚類,通過K-均值聚類將Cluster1中的任務打包為48個任務包,并得到了48個任務包的聚類中心坐標,任務包中的任務數量最大為8,最小任務數量為1。
2.4.2 對打包任務進行定價
打包任務將多個任務集中在一起發布,需要對打包任務進行重新定價,具體步驟如下。
設打包任務中:任務數量為a,每個任務的原定價為:P1、P2、……、Pa,整個打包任務的定價為S,該區域打包任務中包含的任務數量最多為h,單個任務的最低定價為O。任務數量越多,該打包任務的平均任務價格S應越低,但最低不應低于該區域單個任務的最低定價,打包任務降價最大值為:S-Pmin-O≥0,打包任務
應降價:P-=,建立S與a的關系式如下:
S=。
2.4.3 求出打包任務的定價關系表達式
由于部分任務被打包到一起,集中度較高,因此任務數量的大小對定價的影響尤為重要。可知任務數量越大,平均任務價格越低。因此將打包任務的數量與所有用戶距打包任務中心點的距離之和相互結合,結合第二問的模型,經多元非線性擬合,最終得到擬合效果最優的函數關系表達式為:
P=212.199-0.000126u-0.016474v+0.53636w+6.7085 ×10-7D/a×u+0.00012357D/a×v-0.0042344D/a×w+ 3.243×10-12×u2
決定系數:R2=0.8580。
對得到的定價模型,通過logistic模型得到任務的完成度,對比改進前后的任務完成度,得知改進方案對任務完成度的影響。打包處理之前的任務指標有:任務經緯度、任務定價、任務執行情況、會員經緯度、會員信譽度、會員開始時間。打包處理后,發生變化的是任務的數量,因此將任務的經緯度與任務的數量結合,將用戶距離之和/數量,作為其中一個協變量,再將任務標價作為另一個協變量,將任務完成度作為因變量。把已結束的項目中的任務點作為樣本,通過K-均值聚類分類的任務點作為預測對象,將其數據帶入建立的定價模型得到標價,對其進行完成度的預測,求得各個會員對任務點的用戶距離之和。預測出打包后的任務點的完成度,求得偽R2=0.801。
經計算得出,打包前有84個任務點,完成的任務點有56個,完成率為66.66%;打包后由84個任務點,完成的任務點有68個,完成率為80.95%,可知打包處理后完成率獲得了很大的提高。
2.5 問題(4)模型的建立和求解
做出新任務的位置信息和任務點的位置信息的散點圖,如圖4所示。
通過觀察散點圖,可以發現任務點集中分布于Cluser1地域與Cluster4地域。所以此文需要采用多項logistic回歸分析對任務點進行地域歸類。
選用問題(2)中合理定價的任務點經緯度信息、定價信息、分類情況,進行多項Logistic分析,以分類情況為因變量,任務點的經緯度信息為協變量進行分類,將數據劃分到4個區域。問題(2)中所建立的模型所引入的變量較為全面,所以該問題引用問題(2)中所建立的任務定價模型。以Cluster4為例,結合問題(2)中D、u、v、w的算法,計算出問題(4)中的D、u、v、w,提取問題(2)中Cluster4中定價合理的任務數據點,并運用問題(2)中所求得D、u、v、w與用戶距離求和/數量、信譽度/距離之和、限額/距離之和、開始時間/距離之和,聯立形成新表,將問題(2)中合理的價格作為訓練集,問題(4)中的定價為測試集,進行多項Logistic分析,預測出問題(4)中的定價,并且通過計算擬R2來證實該分析,擬R2計算結果如表2所示。
通過偽R2max=0.814可以看出,利用問題(2)中的價格來預測問題(4)中的價格具有合理性。
參考文獻
[1] 安思錦,翟健.軟件眾包參與度影響因素分析及預測模型[J].計算機系統應用,2015,24(10):9-16.
[2] 陳家銀.豬八戒眾包平臺數據分析與眾包模式設計[D].大連理工大學,2016.
[3] 劉偉韜,廖尚輝.主成分logistic回歸分析在底板突水預測中的應用[J].遼寧工程技術大學學報,2015,34(8):905-909.
[4] 卓金武.MATLAB在數學建模中的應用[M].北京:北京航空航天大學出版社,2011.