基于聚類判別模型的網約車鑒別研究

2018-08-03 06:46:58冷婷閆興秀余健談煒孫嫻

江蘇通信 2018年2期

關鍵詞：特征

冷婷閆興秀余健談煒孫嫻

南京華蘇科技有限公司

0 引言

在“互聯網+”的政策背景和市場推動下，網約車作為一種新興出行用車方式，迅速成為市場的寵兒，成為智慧出行的重要組成部分。

網約車即網絡預約出租汽車，是一種將乘客、司機與車輛連接起來，乘客通過智能手機應用軟件，預約司機接送服務的出行方式。網約車的出現，滿足社會公眾多樣化出行需求，提升了機動車的利用效率，但是隨著網約車規模的不斷擴大，它帶來的一系列社會監管難題也是不容忽視的。

網約車與傳統的出租車既有區別又有聯系。在車輛顏色與車型上，出租車一般有統一的顏色與標識，網約車則多種多樣。在運營方式上，出租車可以巡游攬客、站點候客和預約接客，而網約車不可以巡游接客，只能通過網絡平臺為預約顧客提供服務。在監管上，出租車一般由出租車公司進行統一管理，而網約車則缺乏一定的監管機制。

初期，網約車是對出租車的補充。隨著網約車專職司機的增多，網約車對傳統出租車行業形成了一定的沖擊，遭到了出租車司機一定程度上的抵制。此外，由于網約車平臺對司機和車輛的審查并不嚴格，市場亂象叢生，糾紛、事故等社會問題層出不窮，網約車市場亟需規范管理。

為了管理網約車市場的亂象，《網絡預約出租汽車經營服務管理暫行辦法》1http://www.miit.gov.cn/n1146295/n1146557/n1146624/c5218603/content.html于2016年11月1日起施行。其中明確規定了，在運營服務中，駕駛員不得在街上巡游攬客，不應在機場、火車站等設立統一巡游車調度服務站或實行排隊候客的場所攬客。

在網約車營運新規出臺的大背景下，交通局作為公共出行服務管理機構，必須加強對網約車的管理。目前對網約車的管理方式是通過人工巡查的方式來進行，但這樣耗費了大量的人力，因此，交通局迫切需要一種自動化的篩選方式，來幫助他們鎖定嫌疑車輛，實現快速高效的執法。

手機作為現代人生活的必需品之一，與人的活動密不可分，這讓使用移動運營商的數據來映射每個司機的移動行為成為可能。

出租車司機一般與出租車公司簽訂合同，進行手機號等個人信息備案。因此，出租車司機比較容易被辨識。但是，由于網約車司機手機號變更、一人多機等情況的客觀存在，以及網約車司機個人信息的難以獲取，這使得網約車司機的識別任務變得困難。

本文以手機的信令數據為基礎，提取出司機的移動特征，提出了一種基于聚類的判別模型來鑒別網約車司機。該模型能夠在僅知一類數據標簽的情況下，判別出未知標簽的數據是否歸屬于已知類別。

1 研究現狀

網約車作為新生事物，大多學者主要把研究視角集中于網約車的監管與管理對策上，主要關注網約車平臺的定價策略，使用了波動支持向量機（wave SVM）模型來預測短期內的交通需求，并據此為網約車App提供一個更加動態的需求共享平臺，以保障乘客無論在何時何地都能夠獲取網約車提供的出行服務。以上的研究僅僅涉及了如何提升網約車的服務上，缺乏相對有效的方法把網約車快速地識別出來。

在運用大數據為交通管理服務的研究方面，大多基于GPRS的定位數據，多涉及出行目的地的預測、區域內出租車服務比率的預測應用，使用的機器學習算法主要有決策樹、神經網絡、支持向量機等。以上的研究利用了大數據的技術與算法，但還沒能夠應用到網約車識別的領域。

總的來說，國內外還缺乏一種行之有效的，使用手機信令數據，利用機器學習算法來鑒別網約車的方法。因此，本文將做初步嘗試，在僅有出租車司機一類用戶標簽的情況下，對包括出租車與網約車混合用戶的數據集進行類別判斷，判別出的結果可以為網約車的監管服務。

2 數據描述

本文所分析的樣例司機用戶基于以下3個原始數據集：

表1 樣例司機用戶原始數據集表

出租車司機用戶數據集為D，是數據集A、B、C的交集：

在數據集D中，隨機抽取150個已知出租車司機用戶作為樣本集M。

數據集E是數據集C與數據集D的差集，其中包括了均使用智能手機應用軟件提供出行服務的網約車司機和出租車司機。

在數據集E中，隨機抽取150個未知類別的司機用戶作為樣本集N。

3 特征抽取

抽取以上300個用戶2017年3月6日至3月19日之間兩周的信令數據作為特征抽取的原始數據。

定義周一至周五的9∶00-17∶00為忙時，周一至周五17∶00-24∶00 和 0∶00-9∶00 為閑時。

抽取的特征主要包括小區切換和駐留時長兩大類，如表2所示：

表2 特征抽取類別表

提取以上特征后，通過選取任意2維特征繪制散點圖，如圖1、2所示：

圖1 小區切換數日標準差和閑時駐留標準差二維特征散點圖

圖2 小區切換數日均值和小區切換數日標準差二維特征散點圖

圖1中，橫坐標表示標準歸一化后的小區切換數日標準差特征，縱坐標表示標準歸一化后的閑時駐留標準差特征；圖2中，橫坐標表示標準歸一化后的小區切換數日均值特征，縱坐標表示標準歸一化后的小區切換數日標準差特征。紅色的點表示樣本集M，即出租車司機，藍色的點表示樣本集N，即未知類別的司機用戶；通過圖1和圖2，直觀上，樣本集M與樣本集N的分布存在一定的差異性，從側面說明特征在一定程度上反映了兩類司機的行為差異。

4 特征分析

t-SNE（t-Distributed Stochastic Neighbor Embedding）是由Laurens van der Maaten和 Geoffrey Hinton提出一種流形的（Manifold）數據降維的方法。它是在SNE的基礎上發展而來的，在低維空間下使用更重長尾分布的t分布來避免crowding問題和難以優化的問題。

該算法先將歐幾里得距離轉換為條件概率來表達點與點之間的相似度。給定一個N個高維的數據x1，…，xN，計算概率pj|i為：

對低維度下的y_i，使用t分布后的兩點相似度為：

優化的梯度為：

使用t-SNE對特征進行降維可視化：

圖3 t-SNE維度特征圖

圖3中，紅色的點表示樣本集M，即出租車司機，藍色的點表示樣本集N，即未知類別的司機用戶。從圖3的可視化結果可以看出，基于選取的特征，兩類司機的分布存在一定的差異性。

5 建模過程與結果分析

采用基于聚類的判別模型來鑒別未知的司機用戶為出租車司機還是網約車司機，具體的分析流程如圖4所示。

將樣本集M按照8∶2隨機劃分為聚類訓練集P與驗證集Q，將樣本集N作為測試集N。

圖4 聚類判別模型分析流程圖

對于訓練集P：

第一步，進行特征數據的獲取并標準歸一化；

第二步，判斷數據集的最佳聚類數K；

第三步，刪除異常樣本點；

第四步，計算聚類中心點；

第五步，計算各個樣本點到各個聚類中心點的距離之和；

第六步，設定類別判定的閾值。

對于驗證集Q與測試集N：

第一步，進行特征數據的獲取并標準歸一化；

第二步，計算數據集中各個樣本點到訓練集各個聚類中心點的距離之和；

第三步，根據閾值進行判斷，并輸出判別結果。

5.1 聚類數選擇

對于訓練集P，使用輪廓系數（Silhouette Coef fi cient）計算最佳聚類數K。輪廓系數是類的密集與分散程度的評價指標。

其中：

a（i）為i向量到同一簇內其他點不相似程度的平均值，即測量了組內的相似度。

b（i）為i向量到其他簇的平均不相似程度的最小值，即測量了組間的相似度。

s（i）的范圍從-1到1，值越大說明組內內聚度和組間分離度相對較優。

圖5 最佳聚類K判斷圖

圖5中，橫坐標表示不同的聚類數K，縱坐標表示輪廓系數。當聚類數為3時，s（i）的值最大。因此，取最佳聚類數K=3。

5.2 聚類分析

使用K-Means算法對訓練集P進行聚類分析。

K-Means屬于劃分式聚類算法，聚類相似度是利用各聚類中對象的均值所獲得一個中心來進行計算的。其主要工作過程為：首先從n個數據對象中任意選擇k個對象作為初始聚類中心，對于所剩下的其它對象，則根據它們與這些聚類中心的相似度（距離），分別將它們分配給與其最相似的聚類；然后再計算每個所獲新聚類的聚類中心（該聚類中所有對象的均值）；不斷重復這一過程直到標準測度函數開始收斂為止。一般使用均方差作為標準測度函數。

將訓練集P聚成3類，得到的聚類結果如圖6所示。

圖6 訓練集聚類結果圖

在以上聚類結果的基礎上，對異常點進行處理，得到108個有效采樣點。其主要分布情況如表3所示。

如圖7所示，由此，對于每個聚類簇，可得中心點所對應的每個維度特征值。

圖7 聚類簇維度特征值圖

5.3 用戶行為特征分析

以特征為橫坐標，特征值為縱坐標，繪制折線圖，查看三個聚類中心點的分布，如圖8所示。

圖8 聚類中心點分布圖

由圖8可知，以上三個聚類簇在6個指標上差異性較大：忙時小區切換數均值，忙時小區切換數標準差，閑時小區切換數均值，閑時小區切換數標準差，小區切換數日均值，小區切換數日標準差。

分別繪制三個類別樣本在以上6個特征上的分布箱形圖（見圖9）。

圖9 特征分布箱形圖

圖9中橫坐標為各個類別，每個箱形的下邊緣表示最小值，上邊緣表示最大值，箱子的底部表示四分之一分位，箱子的頂部表示四分之三分位，箱子中間的線表示中位數。箱子的寬窄表示了該類別樣本數的多少。總的來說，箱形圖表示了各個類別中樣本的分布情況。

可以看出，在上述的6個特征上，cluster1與cluster2的整體趨勢比較相近，且cluster2對應的特征值均低于cluster1相對應的特征值；但cluster3和cluster1在趨勢上整體相反。具體來說，有以下幾點：

（1）對于cluster1中的司機，有以下結論：

忙時小區切換數均值指標最高，說明該類出租車司機在周一至周五的9∶00-17∶00，即白天活動最為頻繁；閑時小區切換數均值指標較低，說明該類出租車司機在周一至周五17∶00-24∶00和0∶00-9∶00，即夜間活動較少；小區切換數日均值指標最高，說明該類出租車司機整體活動較為頻繁。因此，該類出租車司機是具有典型出租車活動行為特征的司機。

（2）對于cluster2中的司機，有以下結論：

忙時小區切換數均值指標較低，說明該類出租車司機在周一至周五的9∶00-17∶00，即白天活動不太頻繁；閑時小區切換數均值指標也較低，說明該類出租車司機在周一至周五17∶00-24∶00和0∶00-9∶00，即夜間活動也不太頻繁；小區切換數日均值指標同樣較低，說明該類出租車司機的整體活動不頻繁。可以看出，該類出租車司機切換小區次數相對較少，也就是說更偏向于在某些區域進行駐留待客，因此，從行為特征的角度來說，和網約車司機駐留待客的行為比較類似。

（3）對于cluster3中的司機，有以下結論：

忙時小區切換數均值指標較低，說明該類出租車司機在周一至周五的9∶00-17∶00，即白天活動不太頻繁；閑時小區切換數均值指標較高，說明該類出租車司機在周一至周五17∶00-24∶ 00和0∶00-9∶00，即夜間活動比較頻繁；小區切換數日均值指標較高，說明該類出租車司機的整體活動趨于頻繁。可以看出，該類出租車司機具有晝伏夜出的特點，因此，從行為特征的角度來說，和典型網約車司機晝伏夜出的特點也比較類似。

總體來看，cluster1中的用戶具有典型的出租車司機行為特征，cluster2和cluster3中的用戶雖然是出租車司機，但在行為特征上和網約車司機比較類似。

5.4 閾值設定

計算訓練集P中各有效樣本點x到各個中心點的距離之和，并排序，繪制增量圖，如圖10所示：

圖10 樣本點到各中心點距離之和增量圖

圖10中，x軸表示訓練樣本序號，y軸表示樣本點到各個中心點的距離之和。

由圖可看出：

當x ＜ 101時，距離的增長速度較為平緩；

當x ＞ 101時，距離的增長速度較快；

由此得出：

x = 101為樣本集中的拐點。因此，將其對應的距離，即y值設置為分類的閾值：

5.5 結果輸出

對既包含網約車司機又包含出租車司機且沒有類別標簽的混合數據集，本文采用以上基于聚類和閾值相結合的方法來判斷未知標簽的樣本的類別歸屬。

當測試集中的樣本點到三個聚類中心點的距離之和大于閾值時，即判斷該樣本點為網約車司機，反之，則判定該樣本點為出租車司機。

對驗證集Q和測試集N進行判定，得到的結果如表4所示：

表4 聚類模型判定表

（1）由此可見：

對于驗證集Q中的30個樣本，根據該模型判斷，有23個司機用戶屬于出租車，取得了76.7%的召回率。

對于測試集N中的150個樣本，使用基于聚類的判別模型，發現有97個司機用戶屬于出租車，即64.7%的司機被判別為出租車司機，35.3%的司機被判別為網約車司機。

（2）更進一步：

對測試集N中被判定為出租車的97個用戶，根據其到三個中心點的距離進行分類，得到進一步的分類結果，匯總結果如表5所示：

表5 中心點距離閾值判定表

因此，由以上分類結果可以看出，測試集N中僅僅7.3%的司機為典型的出租車司機，57.3%的被判斷為出租車的司機在行為特征上和網約車司機較為類似。

6 結論與改進措施

本文利用移動運營商提供的手機信令數據，提取出可以映射司機移動行為的特征，并提出了一種基于聚類判別的模型，在擁有出租車司機單類別標識樣本的情況下，對出租車與網約車混合用戶的數據集進行類別歸屬的判斷。鑒別出的結果在一定程度上能夠為交通執法部門打擊非法網約車進行服務，幫助他們快速定位嫌疑車輛，降低執法的人力成本，提升工作效率。

本研究是使用手機信令大數據與機器學習算法模型對網約車司機進行判別的初步嘗試，還存在一些不足。例如受用戶樣本數所限，建模的數據規模還偏小。未來的研究中還有一些問題需要解決和改進：增加除了移動行為特征外的其他數據特征，如主流的、提供預約出行服務的手機App使用數據；增加對比樣例，提升分析結果的置信度。