999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類判別模型的網約車鑒別研究

2018-08-03 06:46:58冷婷閆興秀余健談煒孫嫻
江蘇通信 2018年2期
關鍵詞:特征

冷婷 閆興秀 余健 談煒 孫嫻

南京華蘇科技有限公司

0 引言

在“互聯網+”的政策背景和市場推動下,網約車作為一種新興出行用車方式,迅速成為市場的寵兒,成為智慧出行的重要組成部分。

網約車即網絡預約出租汽車,是一種將乘客、司機與車輛連接起來,乘客通過智能手機應用軟件,預約司機接送服務的出行方式。網約車的出現,滿足社會公眾多樣化出行需求,提升了機動車的利用效率,但是隨著網約車規模的不斷擴大,它帶來的一系列社會監管難題也是不容忽視的。

網約車與傳統的出租車既有區別又有聯系。在車輛顏色與車型上,出租車一般有統一的顏色與標識,網約車則多種多樣。在運營方式上,出租車可以巡游攬客、站點候客和預約接客,而網約車不可以巡游接客,只能通過網絡平臺為預約顧客提供服務。在監管上,出租車一般由出租車公司進行統一管理,而網約車則缺乏一定的監管機制。

初期,網約車是對出租車的補充。隨著網約車專職司機的增多,網約車對傳統出租車行業形成了一定的沖擊,遭到了出租車司機一定程度上的抵制。此外,由于網約車平臺對司機和車輛的審查并不嚴格,市場亂象叢生,糾紛、事故等社會問題層出不窮,網約車市場亟需規范管理。

為了管理網約車市場的亂象,《網絡預約出租汽車經營服務管理暫行辦法》1http://www.miit.gov.cn/n1146295/n1146557/n1146624/c5218603/content.html于2016年11月1日起施行。其中明確規定了,在運營服務中,駕駛員不得在街上巡游攬客,不應在機場、火車站等設立統一巡游車調度服務站或實行排隊候客的場所攬客。

在網約車營運新規出臺的大背景下,交通局作為公共出行服務管理機構,必須加強對網約車的管理。目前對網約車的管理方式是通過人工巡查的方式來進行,但這樣耗費了大量的人力,因此,交通局迫切需要一種自動化的篩選方式,來幫助他們鎖定嫌疑車輛,實現快速高效的執法。

手機作為現代人生活的必需品之一,與人的活動密不可分,這讓使用移動運營商的數據來映射每個司機的移動行為成為可能。

出租車司機一般與出租車公司簽訂合同,進行手機號等個人信息備案。因此,出租車司機比較容易被辨識。但是,由于網約車司機手機號變更、一人多機等情況的客觀存在,以及網約車司機個人信息的難以獲取,這使得網約車司機的識別任務變得困難。

本文以手機的信令數據為基礎,提取出司機的移動特征,提出了一種基于聚類的判別模型來鑒別網約車司機。該模型能夠在僅知一類數據標簽的情況下,判別出未知標簽的數據是否歸屬于已知類別。

1 研究現狀

網約車作為新生事物,大多學者主要把研究視角集中于網約車的監管與管理對策上,主要關注網約車平臺的定價策略,使用了波動支持向量機(wave SVM)模型來預測短期內的交通需求,并據此為網約車App提供一個更加動態的需求共享平臺,以保障乘客無論在何時何地都能夠獲取網約車提供的出行服務。以上的研究僅僅涉及了如何提升網約車的服務上,缺乏相對有效的方法把網約車快速地識別出來。

在運用大數據為交通管理服務的研究方面,大多基于GPRS的定位數據,多涉及出行目的地的預測、區域內出租車服務比率的預測應用,使用的機器學習算法主要有決策樹、神經網絡、支持向量機等。以上的研究利用了大數據的技術與算法,但還沒能夠應用到網約車識別的領域。

總的來說,國內外還缺乏一種行之有效的,使用手機信令數據,利用機器學習算法來鑒別網約車的方法。因此,本文將做初步嘗試,在僅有出租車司機一類用戶標簽的情況下,對包括出租車與網約車混合用戶的數據集進行類別判斷,判別出的結果可以為網約車的監管服務。

2 數據描述

本文所分析的樣例司機用戶基于以下3個原始數據集:

表1 樣例司機用戶原始數據集表

出租車司機用戶數據集為D,是數據集A、B、C的交集:

在數據集D中,隨機抽取150個已知出租車司機用戶作為樣本集M。

數據集E是數據集C與數據集D的差集,其中包括了均使用智能手機應用軟件提供出行服務的網約車司機和出租車司機。

在數據集E中,隨機抽取150個未知類別的司機用戶作為樣本集N。

3 特征抽取

抽取以上300個用戶2017年3月6日至3月19日之間兩周的信令數據作為特征抽取的原始數據。

定義周一至周五的9∶00-17∶00為忙時,周一至周五17∶00-24∶00 和 0∶00-9∶00 為閑時。

抽取的特征主要包括小區切換和駐留時長兩大類,如表2所示:

表2 特征抽取類別表

提取以上特征后,通過選取任意2維特征繪制散點圖,如圖1、2所示:

圖1 小區切換數日標準差和閑時駐留標準差二維特征散點圖

圖2 小區切換數日均值和小區切換數日標準差二維特征散點圖

圖1中,橫坐標表示標準歸一化后的小區切換數日標準差特征,縱坐標表示標準歸一化后的閑時駐留標準差特征;圖2中,橫坐標表示標準歸一化后的小區切換數日均值特征,縱坐標表示標準歸一化后的小區切換數日標準差特征。紅色的點表示樣本集M,即出租車司機,藍色的點表示樣本集N,即未知類別的司機用戶;通過圖1和圖2,直觀上,樣本集M與樣本集N的分布存在一定的差異性,從側面說明特征在一定程度上反映了兩類司機的行為差異。

4 特征分析

t-SNE(t-Distributed Stochastic Neighbor Embedding) 是由Laurens van der Maaten和 Geoffrey Hinton提出一種流形的(Manifold)數據降維的方法。它是在SNE的基礎上發展而來的,在低維空間下使用更重長尾分布的t分布來避免crowding問題和難以優化的問題。

該算法先將歐幾里得距離轉換為條件概率來表達點與點之間的相似度。給定一個N個高維的數據x1,…,xN,計算概率pj|i為:

對低維度下的y_i,使用t分布后的兩點相似度為:

優化的梯度為:

使用t-SNE對特征進行降維可視化:

圖3 t-SNE維度特征圖

圖3中,紅色的點表示樣本集M,即出租車司機,藍色的點表示樣本集N,即未知類別的司機用戶。從圖3的可視化結果可以看出,基于選取的特征,兩類司機的分布存在一定的差異性。

5 建模過程與結果分析

采用基于聚類的判別模型來鑒別未知的司機用戶為出租車司機還是網約車司機,具體的分析流程如圖4所示。

將樣本集M按照8∶2隨機劃分為聚類訓練集P與驗證集Q,將樣本集N作為測試集N。

圖4 聚類判別模型分析流程圖

對于訓練集P:

第一步,進行特征數據的獲取并標準歸一化;

第二步,判斷數據集的最佳聚類數K;

第三步,刪除異常樣本點;

第四步,計算聚類中心點;

第五步,計算各個樣本點到各個聚類中心點的距離之和;

第六步,設定類別判定的閾值。

對于驗證集Q與測試集N:

第一步,進行特征數據的獲取并標準歸一化;

第二步,計算數據集中各個樣本點到訓練集各個聚類中心點的距離之和;

第三步,根據閾值進行判斷,并輸出判別結果。

5.1 聚類數選擇

對于訓練集P,使用輪廓系數(Silhouette Coef fi cient)計算最佳聚類數K。輪廓系數是類的密集與分散程度的評價指標。

其中:

a(i)為i向量到同一簇內其他點不相似程度的平均值,即測量了組內的相似度。

b(i)為i向量到其他簇的平均不相似程度的最小值,即測量了組間的相似度。

s(i)的范圍從-1到1,值越大說明組內內聚度和組間分離度相對較優。

圖5 最佳聚類K判斷圖

圖5中,橫坐標表示不同的聚類數K,縱坐標表示輪廓系數。當聚類數為3時,s(i)的值最大。因此,取最佳聚類數K=3。

5.2 聚類分析

使用K-Means算法對訓練集P進行聚類分析。

K-Means屬于劃分式聚類算法,聚類相似度是利用各聚類中對象的均值所獲得一個中心來進行計算的。其主要工作過程為:首先從n個數據對象中任意選擇k個對象作為初始聚類中心,對于所剩下的其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般使用均方差作為標準測度函數。

將訓練集P聚成3類,得到的聚類結果如圖6所示。

圖6 訓練集聚類結果圖

在以上聚類結果的基礎上,對異常點進行處理,得到108個有效采樣點。其主要分布情況如表3所示。

如圖7所示,由此,對于每個聚類簇,可得中心點所對應的每個維度特征值。

圖7 聚類簇維度特征值圖

5.3 用戶行為特征分析

以特征為橫坐標,特征值為縱坐標,繪制折線圖,查看三個聚類中心點的分布,如圖8所示。

圖8 聚類中心點分布圖

由圖8可知,以上三個聚類簇在6個指標上差異性較大:忙時小區切換數均值,忙時小區切換數標準差,閑時小區切換數均值,閑時小區切換數標準差,小區切換數日均值,小區切換數日標準差。

分別繪制三個類別樣本在以上6個特征上的分布箱形圖(見圖9)。

圖9 特征分布箱形圖

圖9中橫坐標為各個類別,每個箱形的下邊緣表示最小值,上邊緣表示最大值,箱子的底部表示四分之一分位,箱子的頂部表示四分之三分位,箱子中間的線表示中位數。箱子的寬窄表示了該類別樣本數的多少??偟膩碚f,箱形圖表示了各個類別中樣本的分布情況。

可以看出,在上述的6個特征上,cluster1與cluster2的整體趨勢比較相近,且cluster2對應的特征值均低于cluster1相對應的特征值;但cluster3和cluster1在趨勢上整體相反。具體來說,有以下幾點:

(1)對于cluster1中的司機,有以下結論:

忙時小區切換數均值指標最高,說明該類出租車司機在周一至周五的9∶00-17∶00,即白天活動最為頻繁;閑時小區切換數均值指標較低,說明該類出租車司機在周一至周五17∶00-24∶00和0∶00-9∶00,即夜間活動較少;小區切換數日均值指標最高,說明該類出租車司機整體活動較為頻繁。因此,該類出租車司機是具有典型出租車活動行為特征的司機。

(2)對于cluster2中的司機,有以下結論:

忙時小區切換數均值指標較低,說明該類出租車司機在周一至周五的9∶00-17∶00,即白天活動不太頻繁;閑時小區切換數均值指標也較低,說明該類出租車司機在周一至周五17∶00-24∶00和0∶00-9∶00,即夜間活動也不太頻繁;小區切換數日均值指標同樣較低,說明該類出租車司機的整體活動不頻繁??梢钥闯?,該類出租車司機切換小區次數相對較少,也就是說更偏向于在某些區域進行駐留待客,因此,從行為特征的角度來說,和網約車司機駐留待客的行為比較類似。

(3)對于cluster3中的司機,有以下結論:

忙時小區切換數均值指標較低,說明該類出租車司機在周一至周五的9∶00-17∶00,即白天活動不太頻繁;閑時小區切換數均值指標較高,說明該類出租車司機在周一至周五17∶00-24∶ 00和0∶00-9∶00,即夜間活動比較頻繁;小區切換數日均值指標較高,說明該類出租車司機的整體活動趨于頻繁??梢钥闯觯擃惓鲎廛囁緳C具有晝伏夜出的特點,因此,從行為特征的角度來說,和典型網約車司機晝伏夜出的特點也比較類似。

總體來看,cluster1中的用戶具有典型的出租車司機行為特征,cluster2和cluster3中的用戶雖然是出租車司機,但在行為特征上和網約車司機比較類似。

5.4 閾值設定

計算訓練集P中各有效樣本點x到各個中心點的距離之和,并排序,繪制增量圖,如圖10所示:

圖10 樣本點到各中心點距離之和增量圖

圖10中,x軸表示訓練樣本序號,y軸表示樣本點到各個中心點的距離之和。

由圖可看出:

當x < 101時,距離的增長速度較為平緩;

當x > 101時,距離的增長速度較快;

由此得出:

x = 101為樣本集中的拐點。因此,將其對應的距離,即y值設置為分類的閾值:

5.5 結果輸出

對既包含網約車司機又包含出租車司機且沒有類別標簽的混合數據集,本文采用以上基于聚類和閾值相結合的方法來判斷未知標簽的樣本的類別歸屬。

當測試集中的樣本點到三個聚類中心點的距離之和大于閾值時,即判斷該樣本點為網約車司機,反之,則判定該樣本點為出租車司機。

對驗證集Q和測試集N進行判定,得到的結果如表4所示:

表4 聚類模型判定表

(1)由此可見:

對于驗證集Q中的30個樣本,根據該模型判斷,有23個司機用戶屬于出租車,取得了76.7%的召回率。

對于測試集N中的150個樣本,使用基于聚類的判別模型,發現有97個司機用戶屬于出租車,即64.7%的司機被判別為出租車司機,35.3%的司機被判別為網約車司機。

(2)更進一步:

對測試集N中被判定為出租車的97個用戶,根據其到三個中心點的距離進行分類,得到進一步的分類結果,匯總結果如表5所示:

表5 中心點距離閾值判定表

因此,由以上分類結果可以看出,測試集N中僅僅7.3%的司機為典型的出租車司機,57.3%的被判斷為出租車的司機在行為特征上和網約車司機較為類似。

6 結論與改進措施

本文利用移動運營商提供的手機信令數據,提取出可以映射司機移動行為的特征,并提出了一種基于聚類判別的模型,在擁有出租車司機單類別標識樣本的情況下,對出租車與網約車混合用戶的數據集進行類別歸屬的判斷。鑒別出的結果在一定程度上能夠為交通執法部門打擊非法網約車進行服務,幫助他們快速定位嫌疑車輛,降低執法的人力成本,提升工作效率。

本研究是使用手機信令大數據與機器學習算法模型對網約車司機進行判別的初步嘗試,還存在一些不足。例如受用戶樣本數所限,建模的數據規模還偏小。未來的研究中還有一些問題需要解決和改進:增加除了移動行為特征外的其他數據特征,如主流的、提供預約出行服務的手機App使用數據;增加對比樣例,提升分析結果的置信度。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 欧美成一级| 久久99蜜桃精品久久久久小说| 91国内视频在线观看| 污污网站在线观看| 中文字幕av无码不卡免费| 久久精品国产在热久久2019| 免费精品一区二区h| 囯产av无码片毛片一级| 国产精品视频白浆免费视频| 九九视频在线免费观看| 国产在线观看精品| 免费一级毛片在线观看| 亚洲三级电影在线播放| 四虎国产在线观看| 国产jizz| 欧美在线伊人| 亚洲一级毛片免费观看| 911亚洲精品| 亚洲一区二区精品无码久久久| 波多野结衣一二三| 欧美精品v| 国产精品尤物在线| 久久久久久久久久国产精品| 国产91线观看| 久久黄色小视频| 欧美亚洲国产一区| 欧美精品成人一区二区视频一| 一级做a爰片久久免费| 欧美日在线观看| 色AV色 综合网站| 欧美综合在线观看| 亚洲男人的天堂久久香蕉网| 无码精品国产VA在线观看DVD| 精品久久高清| 中美日韩在线网免费毛片视频| 国产精品一区在线麻豆| 欧美精品另类| 日韩在线1| 啦啦啦网站在线观看a毛片 | 在线va视频| 国产办公室秘书无码精品| 伊人久久大香线蕉影院| 午夜啪啪网| 亚洲天堂视频网站| 免费一级成人毛片| 五月婷婷导航| 国内精品视频| 中文字幕第4页| 波多野结衣第一页| 精品国产免费观看一区| 国产人在线成免费视频| 国产精品理论片| 男女男免费视频网站国产| 人妻中文久热无码丝袜| 第一页亚洲| 无码啪啪精品天堂浪潮av| a级毛片一区二区免费视频| 亚洲人妖在线| 精品91自产拍在线| 国产凹凸视频在线观看| 国产95在线 | 国产综合网站| 亚洲乱码精品久久久久..| 天堂va亚洲va欧美va国产| 亚洲美女视频一区| 亚洲人网站| 亚洲美女一区| 最近最新中文字幕免费的一页| www.亚洲一区| 一级毛片视频免费| AV在线天堂进入| 99er这里只有精品| 久久精品亚洲热综合一区二区| www.亚洲一区二区三区| 小说 亚洲 无码 精品| 亚洲欧美综合另类图片小说区| 五月天天天色| 最新痴汉在线无码AV| 永久免费精品视频| 久久久久人妻一区精品色奶水| 无码专区第一页| 91网址在线播放|