李婷婷
(河北省石家莊鐵道大學,河北 石家莊 050043)
關鍵字:K均值聚類;Matlab;SPSS;多元線性擬合
目前公交車已經成為人們出行的主要方式,以往不方便之處是需要準備零錢,便于投幣。現如今,手機支付越來越發達,在公交車上也可以利用手機進行支付。
我們通過建立乘車人的出行支付特征的分析模型,并用我們建立好的數學模型對第三方支付平臺的收支與盈利情況,并由此描述公交車與支付平臺結合的收益情況。
所研究的相關數據包括上次乘車時間,本次乘車時間,乘車方式,本月累計公交出行次數,本月累計地鐵出行次數,本月累計出現總次數等6個可用數據項,通過這幾項指標確定用戶支付特征是遠遠不夠的,在確定用戶支付特征的過程中,不僅需要考慮乘車時間以及支付方式,還需要計算出或者考慮到一些潛在的影響因素,如乘車間隔,乘車地點,機器故障率等因素綜合考慮,才能得出合理的用戶支付特征。綜合以上因素,通過從局部的每天到整體的每月,都對通過取樣得到的n個人的所有的乘車記錄進行分析,計算或者提取出這n個人的每次乘車時間,乘車時間間隔,乘車地點,乘車支付方式,乘車次數,機器故障率等5個因素,對這5個因素進行分析得出結論。
首先對明顯異常數據進行排查,例如上次刷卡時間大于本次刷卡時間,BUSTYPE數據項不為0或者1,刷卡時間為0001-1-1的乘車記錄,這都是無法計算數據;其次,利用matlab軟件從所給的28天中每天抽取800個人的所有乘車記錄作為研究的對象;最后,計算所需數據:①將所給時間數值化,利用excel將乘車時間和時間間隔轉化成數值;②計算乘車地點,用matlab軟件依次讀取每個人的所有乘車記錄,通過冒泡排序法按照乘車時間分別對每個乘車人的乘車記錄進行排序,對于每個人的乘車記錄,由下一行記錄的BUSNUM項減去上一行記錄的BUSNUM項,我們將所得項記為公交出行標志,若為1則說明本次刷卡地點為公交站,若為0,則說明本次刷卡地點不在公交站;對于METRONUM項也可用同樣的方法得到該用戶本次是否在地鐵站刷卡。計算得出每天所抽取乘車人的乘車時間,乘車間隔,公交出行標志,地鐵出行標志,總乘車次數等5項數據。
關于支付特征,從支付方式和支付次數兩方面進行模型的建立和求解。
1.支付次數:①通過對所給數據按月份的統計情況,可以明顯看出公交卡支付還是占主導地位,但是移動支付的數量也在不斷上升,個別天有超過公交卡支付的趨勢。②對一周進行分析,發現在工作日時支付次數相對較多。③通過分析發現隨著月份的增,不僅兩種支付方式的差距在逐漸減少,而且2中支付方式的支付次數也在減少,經過我們的分析發現,在乘車人的乘車記錄一定的條件下,是由于故障率的提升導致了支付次數的減少。④通過統計某天不同時段的支付人次,可發現有明顯的2個高峰值點,第一個峰值出現在早上8點-10點和16點到18點這2個時間段。

圖1 某周支付方式統計
2.支付方式:由于數據局限于每天之內,具有一定的局部偶然性,還需要從整體的角度來進行時間序列劃分。通過對2,5,8,11月乘車人不同支付方式的次數統計可知,不同的季度也會對乘車人的出行支付特征產生影響,利用SPSS軟件對預處理過的數據的時間序列進行K均值聚類。然后通過對同季度的七天進行出行的統計,在工作日和周末乘車人所選的支付方式和出行次數有明顯的差別,在以上4類的基礎上,對每一類繼續從時間序列的角度進行K均值聚類,將數據分為2類,聚類中心分別在工作日和周末。最終將數據分為8類,擬合出函數表達式分別為:

根據上述函數表達式,計算分析乘車人的支付方式,如果函數值接近于1并處于合理的范圍內,則認為該乘車人的支付方式為公交卡支付款如果函數值接近0并處于合理的范圍內,則認為該乘車人的支付方式為移動支付。
將分類后的數據依次帶入每個類別對于的函數表達式當中即可求出乘車人的支付方式,然后我們與乘車人的真實支付方式做差并取絕對值進行檢驗。計算出的支付方式與真實支付方式的差值大部分都維持在0-0.4之間,說明模型擬合較好。
本文通過利用多元線性擬合的方法,解出滿足統計的出行支付特征的表達式,將抽象的特征轉化為表達式,通過表達式中的系數可以清楚看出每個元素對出行特征的影響。同時橫向和縱向分別比較,全面分析影響出行特征的每個元素。